APP下载

远程监督的自适应实体抽取

2022-04-26葛亮张艺璇李伟平

哈尔滨工程大学学报 2022年4期
关键词:字符语料词典

葛亮, 张艺璇, 李伟平

(1.中国科学技术大学 计算机科学与技术学院,安徽 合肥 230027;2.北京大学 软件与微电子学院, 北京 100871)

知识图谱是一种用图模型来描述知识和建模世界万物之间关联的技术方法[1],可以高效描述海量实体、实体属性及实体间的关系,将非结构化的知识组织起来[2]。数据整合成知识图谱并使用图数据库存储能大幅提高数据查询速度[3]。知识图谱在语义检索[4-5]、智能问答[6-7]、自然语言理解[8-9]、辅助大数据分析[10-11]等方面表现出很高的应用价值,还可以实现知识的图形化展示。知识图谱最早的概念来自Berners[12]提出语义网,已经出现了许多知识图谱项目,知识图谱项目可分为通用知识图谱和垂直领域知识图谱2种,通用知识图谱有Google的FreeBase、德国马普研究所研制的Yago、FreeBase、Carnegie Mellum大学开发的NELL系统,微软的ConceptGraph等。FreeBase[13]做为开放的大规模链接数据库,基于RDF三元组模型,采用社区成员协作方式构建。Yago[14]是一个集成了维基百科、WordNet、GeoNames3种数据库的链接数据库。NELL[15]通过自学习地互联网挖掘自动从Web中抽取三元组知识。微软的ConceptGraph是以概念层次体系为中心的知识图谱,主要储存概念定义和概念之间的IsA关系。相对于通用知识图谱而言,垂直领域的知识图谱只收集特定领域的知识,比如医疗、金融和电商领域。垂直领域的知识结构可能更加复杂,比如医疗知识图谱GeneOnto[16]包含了复杂的类层次结构。同时,垂直领域知识图谱的专业性强,而且语料难以获得,给垂直领域知识图谱构建带来了挑战。通常需要通过专业人士构建出专业领域的本体库,然后利用本体来抽取实体构建知识图谱。这种方法需要的标注工作量较大,消耗时间长。降低领域知识图谱所需的人工标注数据量,以此减少图谱构建时间,降低图谱构建的难度。

本文提出了一种基于远程监督和深度学习的自适应实体抽取方法,设计领域相关知识的本体,并以粮油保管领域为例,将《粮油储藏学》[17]、《粮油保管员教材》[18]等文献作为语料,使用双向长短期记忆网络(BiLSTM)和全连接神经网络方法进行了实体抽取,形成RDF三元组,并进行了对比实验,最后构建了粮油保管领域的知识图谱。

1 知识图谱构建方法和过程

知识图谱构建流程如图1所示。通过和相关领域专家沟通,利用领域知识构建领域本体库,作为知识图谱构建的依据,再使用远程监督实体抽取算法抽取实体。

图1 知识图谱构建流程

实体抽取首先需进行文本预处理。将领域相关知识的教材、文件去除图片等非文本信息,进行分词、去除停用词,然后通过查阅相关资料构建初始实体词典,使用贪心算法对语料进行标注,得到数据集,最后使用基于远程监督和深度神经网络抽取实体[19-20]。

实体抽取算法在PU学习(positive unlabeled learning,PU)框架下,使用基于BiLSTM和全连接网络的方法进实体的判定和分类,利用AdaSampling[21]机制对实体词典进行更新。抽取到实体后,按照本体库中定义的关系,使用Neo4j[22]图数据库构建知识图谱。

本体是对领域知识进行建模的规范,是描述现实世界的抽象模型,通过树状结构组织,以形式化方式对领域的概念及他们之间的关系给出明确定义,相邻层次的概念之间具有严格的“IsA”关系。在知识图谱中,本体属于模式层,用于描述概念层次体系,是知识库中知识的概念模板[23-24]。本文根据专家知识,利用人工编辑的方式手动构建了粮油存储领域本体。图2展示部分本体,本体以粮油存储为根节点,包括粮油作物种类、储粮环境、有害生物和防治措施4类概念,每一类概念下细分成若干子类,比如在有害生物类别下,按照生物学分类将害虫分为了不同的类别。

图2 本体设计图

2 实体抽取算法

PU学习在只有正类数据和无标记数据的情况下训练分类,目标是使风险函数R最小[25]。

R=EX,Y(f(x),yx)

(1)

其中,在实体抽取任务中,R为:

R=πnEX|Y=0(f(x),0)+πpEX|Y=1(f(x),1)

(2)

其中,πp=P(Y=1),πn=P(Y=0)。

本文假设语料中包含足够多的正例,正例的损失EX|Y=1(f(x),1)能被有效估计。因此,PU学习的主要问题是在没有负例标注数据的情况下如何估计EX|Y=0(f(x),0)。由

P(Y=0)P(X|Y=0)=

P(X)-P(Y=1)P(X|Y=1)

(3)

可知:

EX|Y=0(f(x),0)=

EXl(f(x),0)-πpEX|Y=1l(f(x),0)

(4)

为此,进一步规定:

R=EX(f(x),0)+πpEX|Y=1((f(x),1)-

(5)

根据式(5),可以只使用标注的正例和未标注数据估计R。

本文PU学习中的分类器通过 LSTM和全连接神经网络实现,损失函数为交叉熵,先使用LSTM抽取出所有类型的实体,再通过全连接神经网络判断实体的类型。本文还采用了AdaSampling方法,此方法可以随着训练的进行自适应的扩展字典。

2.1 语料预处理和预训练词向量

本文使用的原始语料均为公开的官方教材、指导文件等。去除文本中的图片等非文本信息,进行分词和去除停用词,在人工筛选之后进行分句储存,作为数据标注和词向量训练的语料。根据图2中构建的本体,本文定义了4种基本的实体类型,如表1所示。语料中的实体都属于这4种实体类型。

表1 实体类型定义

2.2 基于PU学习的实体抽取算法

本文提出的实体抽取算法包括2部分,分别为实体判定算法和实体分类算法。在PU学习框架内,本文同时采用了基于BiLSTM和全连接深度神经网络来进行实体类型的分类。将文本使用Bert预训练模型[26]转换为向量表示,再采用了BiLSTM网络进行二分类判定目标词是否为实体,然后对判定为正类的词使用全连接网络进行多分类运算,得到最终的实体类型,同时使用AdaSampling机制发现新的实体。

模型最先是BiLSTM判定层,将由Bert预训练模型得到的字向量输入双向LSTM层生成隐层特征,再通过Sigmoid函数作为激活函数的全连接层,对目标词语是否为实体进行二分类判定。若该词判定为实体,则进入全连接神经网络分类层;在全连接神经网络分类层中,首先使用目标词的上下文词作为输入,接着使用了128个神经元,之后使用Softmax激活函数进行多分类。

(6)

语句中字符w的字嵌入为e(w)。引入了关于的w的唯一稠密向量表示e(w),该向量使用Bert预训练模型初始化。

基于Bert预训练字向量,应用双向LSTM(BiLSTM)网络,以e(w),wt∈s作为输入,对给定句子s的wt的上下文信息进行建模,记作context(wt)。将第t步向前LSTM的隐藏状态ht和向后LSTM的隐藏状态h′t串联在一起:

e(wt|s)=[ht⊕h′t]

(7)

形成给定s的wt为:

(8)

式中:σ表示Sigmoid函数;wp是可训练的参数向量;b是偏置项。H为使用交叉熵计算字符预测类别与标签的差异。

给定标签y(y∈{0,1})时,字符的预测风险为:

(9)

2.3 自适应实体词典扩充算法

根据2.1节中定义的4种实体类型,结合本领域专业知识和互联网调研选取常见的农业实体,构建了基本的实体词典。特别对于词典中的词不采用分词进行处理,如“日本蛛甲”整体保存在“有害生物”这个实体类别中。实体词典初始的大小为50+20+50+20=140个实体。

本文在训练过程中用AdaSampling机制不断扩充实体词典。在每次epoch完成之后,若某字符被分类为实体,且其未在实体词典中,便计算其为实体的可信度。定义字符的可信度pc为:

pc=count(f(xc)∈L+)/p

(10)

式中:L+是实体标签集合;p是训练轮数。

若可信度大于η,则将其扩充至实体词典的相应类别。若相邻的字符都被标记为实体,合并成一个词,扩充方法如算法1所示。词典扩充算法可以发现预料中未标记成正例的新实体。新实体修正训练语料的标记,可以增加训练语料中的正例比例,使标记语料的正负例分布更接近实际情况。

算法1 基于AdaSampling的词典扩充算法1:Input:标记出实体的正例数据集合L,未标记的数据集合U。初始状态下认为U中的数据都是负例,实体集合dict。2:Output:识别出集合D中的实体加入词典。3:Initialize:p0←1//初始化所有语料的概率向量4://从U中采样负例得到负例集合S0。S0←sampling(U,p0U)5://初始化标签 [D0,y]←[L,y=1]∪[S0,y=0]6:i=07:do8: epoh=epoh+19: //训练分类器对所有数据进行实体抽取predicted(f(x;[Di,y]),L∪U10: //更新词典if pc≥η:dict=dict∪celse if pc<η and c in dict:dict.remove(c)12: //更新U中样本的概率并采样si=sampling(U,PiU)13: [Di,y]←[L,y=1]∪[Si,y=0]14:while R^l<ε;

3 粮油存储领域的远程监督自适应实体抽取实验

3.1 实验数据准备

对原始文本去除图片等非文本信息,分词和去除停用词,人工筛选后得到23 184句有效数据。使用原始实体词典进行自动标注,实体的位置标签为BIO。使用Bert预训练中文词向量将每个字符转化为长度为768维的稠密特征向量。实体的类型为粮油作物种类、储量环境、有害生物、防治措施。实体词典初始的大小为50+20+50+20=140个实体。经过标注后共有6 093个句子及11 502个词语有标注。语料字符中的实体字符比例为0.087。设正例的标记比例为ρ,ρ∈{0.2,0.4,0.6,0.8}。为了模拟真实语料中实体词出现的规律,采样标记数据时使用贪心的采样算法,如果实体字符的位置标签B被采样标记数据,此实体包含的所有字符都被采样为标记数据。

3.2 实验所用算法及结果

本实验采用了PU学习与自适应实体构建相结合的算法。使用Bert预训练的中文词向量作为BiLSTM神经网络的输入,在PU学习定义的损失函数框架下判断字符是否是实体的一部分。将判定是实体的字符送入全连接神经网络中判定实体的类型。将预测出且未在预料中标记过的实体加入新实体词典中。实验所用算法结构如图3所示。实验所用神经网络LSTM为300,训练批量32,Bert隐单元为768,全连接层隐单元为64。

图3 实体抽取算法

本实验使用的语料样例图4所示,语料分词后插入空格,每个字符对应一个标签。正例的标签为“B-L”、“I-L”;其中“B”、“I”表示此字符在实体词语中的位置,位置分为开始、中间。“L”表实实体的类型。“O”表实此字符不是实体。

图4 实验使用的语料样例

取20%的语料为标记数据,剩下的语料作为未标记数据,此时语料中的实体字符比例为0.017。在同样使用BIO标注的情况下,将PU学习的实验结果分别与BiLSTM、BiLSTM-CRF[27]对比,实验结果如表2所示。BiLSTM的正例召回率较低,说明正例较少时BiLSTM方法倾向于将正例分类为负例。由于CRF的全局路径中学到了额外的约束,BiLSTM-CRF的效果比仅用BiLSTM提高了约11%。但是在同等情况下,PU学习的精确率略高于BiLSTM,低于BiLSTM-CRF,召回率则约是BiLSTM和BiLSTM-CRF的2倍。这说明PU学习在正例很少时也能很好地从负例中区分出正例。

表2 取20%数据作为标记语料时不同实验方法的结果

PU学习模型在每轮训练后自动扩充实体词典,训练前后实体词典的大小对比如表3所示。在4种实体中,有害生物实体的新词数最少,可能原因有:1)有害生物实体字符数较多,而模型在多字符实体上性能下降;2)有害生物名称多为生僻字,属于预训练模型中的未登录词,被替换成未登录词标识符。

表3 训练前后实体词典对比

3.3 语料规模对算法的影响

为了探究语料规模对算法的影响,本文分别取标记数据占比为全部数据的0.2、0.4、0.6、0.8进行实验,PU学习模型和BiLSTM、BiLSTM-CRF的宏平均F1值变化如实验结果图5所示,PU学习和BiLSTM、BiLSTM-CRF达到最佳性能所需训练轮数如图5所示。随着训练集中标记语料比例增大,PU学习的分类效果和BiLSTM、BiLSTM-CRF逐渐接近。标记语料占比等于60%时,PU学习BiLSTM-CRF的效果接近。标记语料占比大于60%时,BiLSTM-CRF的效果最佳。这说明PU学习只需要传统实体抽取方法1/3的标注语料,就能得到与传统实体抽取方法持平的分类效果,是一种有效的远程监督实体抽取方法。

图5 PU学习和BiLSTM、BiLSTM-CRF的F1值随着标记数据比例的变化

从图6可以看出,标记语料较少时,PU学习能显著减少模型达到分类效果所需的训练时间。BiLSTM、BiLSTM-CRF方法需要训练70轮以上才能达到最佳效果,但PU学习在30轮以内就能达到最佳效果。随着训练集中标记语料比例增大,BiLSTM、BiLSTM-CRF和PU学习达到最佳分类效果所需训练轮数逐渐接近。

图6 PU学习和BiLSTM、BiLSTM-CRF达到最佳性能所需训练轮数

本文根据抽取的实体和本体库构建了知识图谱,图7中展示了图谱的部分节点和关系。图谱包括粮油作物种类,储粮环境,有害生物,防治措施4类共205个节点。

图7 知识图谱示例

4 结论

1)本文提出的基于远程监督和深度学习的实体抽取的方法,以及基于AdaSampling机制的自适应词典构建方法与传统实体抽取方法取训练集的60%数据作为标记语料时,分类效果相当。

2)PU学习是一种有效的远程监督实体抽取方法。在标记语料占全部语料的比例小于60%时,本文算法进行实体抽取准确率和召回率均高于BiLSTM-CRF算法。因此本文算法可一定程度上弥补标记数据不够带来的实体抽取效果下降。本文算法能减少分类模型的训练语料需求量,从而减人工标注的工作量。

3)本文算法可缩短模型训练时间,并可发现训练语料中的新实体。

4)本文构建的知识图谱将用于粮油领域专业知识的建设和梳理,可以提高知识检索效率、用于语义检索、知识问答、知识图谱推理等,有效支持了粮油科学保管工作。

猜你喜欢

字符语料词典
面向低资源神经机器翻译的回译方法
论高级用字阶段汉字系统选择字符的几个原则
米兰·昆德拉的A-Z词典(节选)
米沃什词典
字符代表几
一种USB接口字符液晶控制器设计
图片轻松变身ASCⅡ艺术画
词典引发的政治辩论由来已久 精读
濒危语言与汉语平行语料库动态构建技术研究
国内外语用学实证研究比较:语料类型与收集方法