APP下载

基于混合神经网络的实体与关系联合抽取模型

2022-05-18蒋伟强李凤英董荣胜

桂林电子科技大学学报 2022年1期
关键词:残差卷积向量

蒋伟强, 李凤英, 董荣胜

(桂林电子科技大学 广西可信软件重点实验室,广西 桂林 541004)

实体抽取及关系抽取是构建大规模知识图谱的关键技术[1],对于深度理解自然语言和实现知识图谱的自动问答具有重要研究价值[2]。实体和关系的联合抽取是根据预定义的关系类别,从句子中抽取实体对及其关系。实体关系的信息表述可形式化为三元组t=(s,r,o),其中s表示主实体,o表示目标实体,r表示预定义关系类别中主实体与目标实体之间的关系。

早期对关系抽取的研究主要是管道(pipeline)方法[3-5]。首先,研究者提出使用命名实体识别[6](named entity recognition,简称NER)模块来识别实体,然后将得到的实体成对组合,使用关系分类(relation classification,简称RC)模块对其关系进行分类[7]。经过这2个连续步骤,最终得到有效的三元组。然而,流水线方法面临着误差传播问题,即NER模块中的误差会被引入后续的RC模块。联合方法[8-9]旨在通过NER和RC的任务组合直接获得三元组,从而解决这一问题。与流水线方法相比,联合方法可同时提取和利用实体与关系之间的深层关联。

当前诸多研究中提出的实体与关系联合抽取任务存在较大改进空间。为缓解关系重叠问题对抽取效果的影响,提出了一个基于混合神经网络的实体与关系联合抽取模型(mixed neural network model for entity and relation extraction,简称MNN-RE),MNN-RE的核心是实体抽取任务与关系抽取任务共享一个膨胀卷积编码层,通过共享编码参数,获得实体抽取任务与关系抽取任务之间更丰富的关联信息。此外,该模型采用门控线性单元(gated linear units,简称GLU)并引入注意力机制(attention mechanism)来捕获任意词之间的关系和提取局部信息,从而实现信息的多通道融合。

1 相关工作

由于文本中存在重叠的三元组,但联合抽取模型不能抽取重叠的三元组,导致抽取效果不佳。以表1的实体对重叠例子为参考,联合模型[8]中的关系分类模块只能预测到“离开”和“张宇”的三元组,不能得到正确的关系,以及2017年Zheng等[9]的标记方案,无法在一个标签中标记“歌手”和“作曲”。这类句子不仅使关系分类模块急需改进,而且使原有的顺序标注方案陷入困境。2018年Zeng等[10]率先认识到重叠三元组问题,并将三元组重叠的句子分为实体对重叠(entity problem overlapped,简称EPO)和单实体重叠(single entity overlapped,简称SEO)。为了解决这一问题,人们提出了一些新的标注方案来处理这些句子,但是这些模型花费了大量的时间,且仍不能通过有限数量的标记来保存句子中的所有三元组。例如,2019年Dai等[11]建立了一个大型模型,用标签填充(sequence length×sequence length)表标记关系,但仍然只能预测一个实体对的单一关系类别,无法处理单关系实体重叠问题。

关系重叠类型示例如表1所示,关系类型可分为三类:单一关系类型,如“中国的首都是北京”中,有实体关系对(中国,首都,北京);单实体重叠类型,如“《李烈钧自述》是2011年11月1日人民日报出版社出版的图书,作者是李烈钧”,可以得到实体关系对(李烈钧自述,作者,李烈钧),(李烈钧自述,出版社,人民教育出版社);实体对重叠类型,如“《离开》是由张宇谱曲,演唱”,可以得到实体关系对(离开,歌手,张宇),(离开,作曲,张宇)。

表1 关系重叠类型示例

关系抽取是从文本中挖掘知识的自然语言处理任务,当给出一个带有注释实体的句子时,这个任务退化为一个简单的任务,即关系分类。如Zeng等[4]在2014年使用卷积神经网络(convolution neural network,简称CNN)来处理关系抽取任务,Xu等[12]使用最大池化层将不同的长短期记忆节点信息聚合用于抽取实体关系。然而,这些方法忽略了句子实体的提取,不能真正提取关系事实。联合方法在于使用一个模型来合并处理2个任务,Miwa等[8]在2016年提出一个“端到端”模型,使用共享编码层将2个任务合并学习,提取特征,抽取实体和关系。Zheng等[9]于2017年提出了一种新的标签方案,将联合抽取任务转化为标签问题,然后,基于标记方案,研究不同的端到端模型来直接提取实体及其关系,而无需单独识别实体和关系。Bekoulis等[13]在2018年提出了一个联合神经网络模型,可以同时进行实体识别和关系提取,而无需任何手动提取特征或使用任何外部工具。使用条件随机场层对实体识别任务进行建模,并将关系提取任务作为多头选择问题,可为每个实体识别多个关系。

针对以往流水线抽取方法在对句子抽取实体关系时忽视实体抽取与关系抽取之间存在关联的问题,提出一个基于膨胀卷积神经网络与注意力层的混合模型MNN-RE,使用共享编码层强化实体抽取任务与关系抽取任务之间的依赖。此外,该模型采用门控线性单元并使用注意力机制来获取词与词之间的关联信息和提取句子全局信息,实现特征信息的多通道传输。在抽取策略上,采用贪心原则对所有关系都进行预测,并基于预测的关系抽取对应的实体。

2 关系抽取混合模型MNN-RE

MNN-RE结构如图1所示。主题框架包括3个部分:输入表示与编码、实体抽取模块、关系抽取分类模块。

图1 联合抽取模型整体结构

2.1 输入表示和编码层

模型的输入是一个汉语句子。为了充分利用语句的信息,输入向量的表示主要包括3个部分:1) 字向量表示。2)词向量表示:使用百度百科语料训练的Word2Vec模型的词向量。3) 位置向量表示。

2.1.1 输入表示

输入以字为单位的文本序列,经过一个嵌入表示层后得到字向量序列;将文本分词,使用一个预训练的中文词向量模型来提取对应的词向量。卷积神经网络不具有循环神经网络的时序结构,因此需要加入位置编码来更好地体现词与词之间的位置关系。Vaswani等[14]提出的注意力机制,在使用位置向量的情况下,能表现出更好的性能。本模型使用了可优化的位置向量,初始化一个新的嵌入表示层,维度与字向量维度相同,输入语句后输出对应的位置向量,并把这个位置向量与字向量和词向量拼接,得到最终的输入向量表示,传入残差模块进行编码。

2.1.2 编码器

车辆在运行过程中,随着线路曲线的变化,车端跨接线缆被动地进行伸展和收缩运动,因此跨接线缆的复杂受力运动情况成为影响跨接线缆使用寿命的重要因素[2]。

如图2所示,编码器由Wu等[15]提出的残差模块构成。残差模块由膨胀卷积神经网络、门控线性单元及残差连接方法组合而成。在Wu的实验中,残差模块在阅读理解等自然语言处理任务中有着跟Bi-LSTM一样的效果。残差模块也在Gehring等[16]提出的Seq2Seq翻译任务中使用,并表现出有效性。残差模块由一个具有门控线性单元激活功能的2层一维卷积层构成,这个小的2层卷积层的输出后来被总结成输入,允许卷积层学习转换的残差,概念类似He等[17]提出的ResNet。该残差模块能够多层堆叠,获取更广的感受野[15]。

图2 残差模块的结构

为了简单起见,所有卷积的核大小为3,而各个层的膨胀率是不同的。更具体地说,前几个残差块中卷积的扩张以指数形式增加(1,2,4,8),目的是增加感受野。经过膨胀后,感受野增加,再切换回正常卷积以进一步细化。

膨胀卷积神经网络是残差模块的3个关键部分之一。在自然语言处理任务中,CNN一般是一维的。为了使CNN模型能够捕捉更远的距离,又不增加模型参数,模型使用了膨胀卷积,如图3所示。对于输入的序列信息,CNN捕获的信息不够全面,而使用膨胀卷积,可尽可能多地获取输入序列的全局信息。

图3 一维情况下的膨胀卷积示例

Liu等[18]的研究表明,卷积神经网络很容易捕捉到句子的全局结构信息。本研究采用Dauphin等[19]提出的门控线性单元(GLU),可以使卷积操作梯度的不易消失,并基于句子的特征来控制信息的流动。因此,门控机制在其他自然语言处理任务中(如机器翻译、阅读理解)都取得了不错的效果。给定输入X,GLU的输出为

GLU(X)=Conv1d1(X)⊗σ(Conv1d2(X)),

(1)

其中,Conv1d1与Conv1d2均为对X的一维卷积操作,⊗表示向量之间的点积,σ为sigmod激活函数。通过卷积计算句子的特征,使用sigmod函数控制输出信息的流动。

对于输入X,卷积网络的函数为F(X),输出为Y=F(X)+X。在He等[17]提出的ResNet中,适度深层的网络能提取更高维度的特征。模型中输入输出的维度相同,使用残差连接会很好地表示多层次的特征信息。

2.2 实体抽取模块

对于实体抽取,对编码表示好的特征向量,先使用自注意力机制探索句子内部词与词之间的联系,然后使用卷积神经网络与全连接层拼接的指针网络,将作为主体的实体抽取出来,形成备选实体集。

(2)

(3)

该层主要计算文本序列中每个词与其他词的相似度,计算任意2个词之间的关联度。

对于实体抽取策略,模型采用QANet[20]的指针网络抽取实体。对于注意力层的输出序列h=(h1,h2,…,hn),分别通过2个不同的全连接层,使用sigmod激活函数,得到实体的首部预测序列Pstart=(s1,s2,…,sn)及尾部预测序列Pend=(e1,e2,…,en)。

实体抽取模块将二分类交叉熵作为损失函数,其形式为

loss=L(Pstart)+L(Pend),

(4)

其中L(Pstart)、L(Pend)分别为实体首部、尾部预测与真实结果的二分类交叉熵。将两者相加作为最后的损失函数。

2.3 关系抽取模块

在提取特征后,将抽取的实体作为表示输入自注意力层与全连接层,使用全连接网络对任务进行实体关系的预测,抽取的逻辑如式(5),

P(s,r,o)=P(s)P(s|r)P(o|s,r)。

(5)

其中:s表示实体抽取模块所得到的实体;r表示对应关系;o表示s在对应关系p下的实体。

使用sigmod函数

a=sigmod(wTH)

(6)

计算某一关系是否存在,表示文本中是否有s对应的关系r以及对应关系的目标实体o。对于每种关系r,都会计算预测该关系是否存在于应输入的文本中,即已抽取主实体相同,然后根据计算判断对应的关系是否存在对应的目标实体。基于主实体和预测的关系类型,用指针网络对目标实体进行抽取,目标实体的抽取方法同主实体相同。本研究使用随机采样获取的训练数据来训练模型,并采用Adam优化器算法来优化模型参数。

3 实验与结果

为了验证MNN-RE的有效性,在关系抽取数据集DuIE上进行实验,并与多种联合抽取模型对比,验证模型的效果。

3.1 数据集

DuIE数据集是业界规模最大的基于关系的中文信息抽取数据集,其包含超过43万三元组数据、21万中文句子及50个已定义好的关系。数据集中的句子来自百度百科和百度信息流文本。该数据集有17万训练集、2万验证集和2万测试集。训练集和验证集用于训练,可供自由下载,测试集未标注,因此不用作实验评估。故使用DUIE数据集提供的训练集作为训练集,验证集作为本研究的测试集用于评估模型的效果。

3.2 评测方法介绍

遵循前人的工作,实验结果用准确率P、召回率R和两者之间的调和平均数F1值作为评价指标。准确率、召回率及调和平均数F1值的计算式如下:

(7)

(8)

(9)

其中:NTP为被正确抽取的属于关系R的实体对个数;NTP+NFP为所有被抽取为关系R的实体对的个数;NTP+NFN为实际应被抽取的属于关系R的实体对的个数。

3.3 实验结果与分析

为验证MNN-RE模型在联合抽取任务中的效果,对比了3个模型,其中InfoExtractor是基于模式约束的知识抽取数据集的信息抽取基线系统。InfoExtractor采用了一种流水线结构,p-分类模型和so-标记模型都是用paddle实现的。p-分类模型是一种多标签分类模型,采用一个最大池化网络的堆积Bi-LSTM来识别给定句子的谓词。在Solabeling模型中采用一个深Bi-LSTM-CRF网络和BIO标记方案,对主语和宾语提到的元素进行标记,给出p-分类模型中区分的谓词。Noveltagging[9]算法是一个基于序列标注的联合抽取模型,对于实体重叠问题,序列标注方法不能很好地处理。Multi-head selection[13]用序列标注得到实体,再用多头选择抽取关系。各模型在DuIE开发集(dev)上的实验结果如表2所示。

表2 各模型在DuIE开发集(dev)上的实验结果 %

实验结果验证了MNN-RE在中文联合抽取任务上比Multi-head模型、Noveltagging模型、Infoextractor模型均有提升,抽取性能的提升有3个原因:第一部分为深度残差网络模块,使用膨胀卷积提取的全局特征比普通卷积广。通过残差连接结合不同维度的信息表征,同时使用GLU让信息更好地在网络中流动。残差模块较好地利用了句子的信息,提取了丰富的句子特征。第二部分来源于注意力机制。注意力机制能够获取句子序列的全局信息以及词之间的局部信息。第三部分是贪心策略,通过预测预定义的关系来尽可能多地抽取对应的三元组。

4 结束语

提出了一种基于深度残差网络模块的联合抽取模型MNN-RE,并在DuIE中文数据集上做实体与关系联合抽取实验。通过添加自注意力层,使模型的性能得到了改善。输入表示和编码层的深度残差网络模块具有比其他模型(如卷积神经网络或循环神经网络及其变体)更好的句子编码性能和特征提取性能。实验结果表明,提出的模型能够有效地解决实体关系抽取问题中的实体重叠问题。后续会继续对抽取策略做进一步研究,研究在多元实体对与实体关系的情况下,通过添加权重矩阵来探索模型对复杂三元组关系的抽取效果,进一步提高模型性能。

猜你喜欢

残差卷积向量
基于全卷积神经网络的猪背膘厚快速准确测定
多级计分测验中基于残差统计量的被试拟合研究*
基于FPGA的卷积神经网络加速优化方法
基于残差-注意力和LSTM的心律失常心拍分类方法研究
向量的分解
基于图像处理与卷积神经网络的零件识别
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
融合上下文的残差门卷积实体抽取
基于深度卷积网络与空洞卷积融合的人群计数
向量垂直在解析几何中的应用