基于图卷积神经网络的中文实体关系联合抽取
2021-12-20张军莲张一帆汪鸣泉黄永健
张军莲,张一帆,汪鸣泉,黄永健
(1.中国科学院上海高等研究院 碳数据与碳评估研究中心,上海 201210;2.中国科学院大学,北京 100049;3.中国科学院低碳转化科学与工程重点实验室,上海 201210)
0 概述
实体关系抽取是信息抽取的下属子任务,信息抽取由美国国家标准技术研究院的自动内容抽取(Automatic Content Extraction,ACE)[1]定义。实体关系抽取任务的目标是从非结构化文本中抽取出实体关系三元组,即<实体1,关系,实体2>,其中,“实体1”和“实体2”是“关系”涉及的2 个命名实体,“关系”指2 个实体间的关系类型。实体关系抽取是语义理解中的关键技术,也是机器翻译、知识图谱构建、自动问答系统等应用研究的基础。
目前,实体关系抽取任务有2 种主流研究框架:一是流水线方法,即在实体识别之后进行实体关系提取;二是联合抽取方法,即同时进行实体识别和关系抽取。流水线方法在命名实体识别的基础上进行关系提取,实体识别中所产生的错误会影响到关系预测结果,造成错误传播[2]。与流水线方法相比,联合抽取方法被认为具有更好的性能和潜力。2017 年,ZHENG 等[3]较早提出基于新标注策略的实体关系联合抽取方法,该方法把包含命名实体识别与关系分类2 个任务的联合学习模型转变成序列标注问题,其取得了很好的效果。联合关系抽取虽然避免了流水线方法中的错误传播问题,但是其需要更复杂的模型结构以编码更丰富的语义信息。
依存分析的目的是通过分析句子中各个成分之间的依赖关系,从而揭示句子的句法结构。表征文本语法句法结构的依存分析信息可为联合关系抽取提供有效的先验文本结构化信息,帮助模型理清文本结构,从而提升实体关系抽取性能。文献[4]首先利用依存分析并结合中文语法启发式规则抽取关系表述,然后根据距离确定论元位置,最后输出三元组,由此避免了中文复杂的语法规则、灵活的表达方式、多样化的语义对关系抽取带来的限制。文献[5]在模型输入中加入基于最短依存路径的词序列,通过双向长短时记忆(Bidirectional Long Short Term Memory,Bi-LSTM)网络和卷积神经网络提取文本的语义信息,其在中文新闻语料上取得了较好效果。依存分析构建的是语法树结构,考虑到中文语法结构的复杂性,引入图的方法对依存分析中的结构信息进行编码,相比传统的树结构具有更高的灵活性和适用性。图卷积神经网络(Graph Convolutional neural Network,GCN)是卷积网络在图上的实现,可以提取拓扑图上的空间特征,能够有效聚合包含实体关系的实体节点,进而提升实体关系抽取的性能。为减少信息冗余,研究人员对依存分析图中的依赖关系进行裁剪,仅保留部分依赖关系[6-7]。
本文优化ZHENG 等所提的新标注策略[3],提出一种基于GCN 的中文实体关系联合抽取方法,并构建融合Bi-LSTM 网络和GCN 的端到端实体关系联合抽取模型LSTM-GCN-LSTM。借鉴新标注策略的思路,优化标注模式,以标注中文文本中的分词,利用端到端序列标注模型实现中文实体关系联合抽取。通过GCN 编码文本依存分析的图结构特征,从而表征文本所蕴含的先验词间关系并构建包含文本序列特征和图结构特征的模型。
1 相关工作
1.1 共享模型参数的联合抽取
文献[8]将神经网络方法用于实体与关系的联合表示,建立用双向序列和双向树结构的LSTM-RNNs表示词序列和依赖树结构的端到端关系提取模型,使实体识别与关系分类共享编码层的Bi-LSTM 表示。该模型在数据集ACE2004 和ACE2005 上的表现优于对比模型,为共享参数的联合学习模型研究奠定基础。文献[9]不依赖依存树与词序列特征,仅将词向量作为模型的输入特征,利用多层Bi-LSTM 识别实体,同时借助Attention 机制[10]计算当前位置上识别出的实体与已知实体的相似度,从而识别实体之间的关系。
在针对中文语料的研究中,文献[11]人工标注某医院临床医学记录,将Bi-LSTM-CRF 和Bi-LSTM 组合到统一的框架中,在实体属性的关系中引入关系约束以限制关系的预测结果,并通过组合系数,利用实体或属性识别、实体属性关系2 个子任务模块的信息实现关系联合抽取。文献[12]在2 个子任务之间引入反馈机制,使用混合神经网络模型来实现联合抽取,在从百度百科和专利文本中爬取到的26 399 句资源描述文本中,得到相比其他模型更高的F 值。
1.2 基于新标注策略的联合抽取
共享模型参数的联合抽取方法改善了传统流水线方法中忽视2 个子任务之间依赖关系的问题,但其在训练时需要先识别出实体,再根据实体信息对实体进行匹配以完成关系分类子任务,该过程中会产生没有关系的实体,出现实体冗余现象。为解决该问题,基于新标注策略的实体关系联合抽取方法应运而生。
2017 年,ZHENG 等[3]提出基于新标注策略的实体关系联合抽取方法,其把包含命名实体识别与关系分类的联合学习模型转变成序列标注问题。该模型使用Bi-LSTM 对句子进行编码,利用LSTM 对其进行解码,最后输出实体关系三元组,其解决了共享模型参数的联合抽取方法带来的实体冗余问题。文献[13]基于新标注策略,通过预训练实体识别模型中隐藏层向量得到实体特征,将其作为联合模型的特征,引入Attention机制选择对关系预测影响更大的句子成分。该模型有效提升了NYT(New York Times)数据集上的实体关系提取性能。文献[14]为解决关系重叠问题,添加象征该词所在实体参与多个关系类别的M 标签,并改进实体与关系的匹配策略,改进后的实体关系联合抽取模型性能优于使用相同模型的流水线方法,在药物-药物交互作用(Drug-Drug Interactions,DDI)数据集上,实体识别F 值为89.9%,关系抽取F 值为67.3%。文献[15]借鉴该标注策略,在模型中引入Attention机制以增强对文本中更能体现关系的词语的编码能力,在模型训练中使用对抗训练,该文所提出的LSTM-LSTM-ATT-Bias端到端模型在NYT 数据集上,实体1 识别F 值为53.4%,实体2 识别F 值为51.9%,实体关系抽取F 值为53%。
1.3 基于图的信息抽取
语言是按照复杂的句法语法规则进行组词成句的,多数传统方法仅提取文本中的序列特征,不足以表征文本的复杂语义。利用图结构特征将不同类型、不同结构的分词通过边的形式连接起来[16],可以更全面地表达句中的语法关系,因此,该方法被广泛应用于信息抽取、关系抽取等领域。
在信息抽取领域:文献[17]为了突破多数信息抽取系统仅基于序列特征而实现的局限性,提出一种基于文本底层结构且针对特定任务的在图形拓扑上学习局部和全局表示的信息提取框架GraphIE(Graph Information Extraction),该框架联合单词的节点表示或句子的节点表示及其互相依赖关系;文献[18]提出实现信息抽取多任务的动态跨度图框架DYGIE(Dynamic Graph Information Extraction),利用动态跨度图方法,将文本跨距视为图形结构中的节点,根据预测的节点间相互参照关系以及与图中其他节点的关联关系,为每个节点构造加权弧。
在关系抽取领域:文献[19]将实体及其关系转换为有向图,并使用基于神经转换的解析系统实现求解,不仅对实体与关系之间的依赖关系进行建模,而且对不同关系之间的依赖关系进行建模,从而实现实体和关系的联合抽取;文献[20]提出基于图LSTM 的通用框架,将句中关系抽取任务扩展为跨句子的多元关系抽取。
图卷积神经网络是为了实现图结构数据编码,在卷积神经网络的基础上改编得到的一种网络[21]。文献[21]在每个节点周围的一阶邻域上操作限制滤波器,产生局部图结构和节点特征的编码表示,从而简化文献[22-23]提出的图神经网络。文献[6-7]将GCN 与Bi-LSTM 等递归网络相结合,提取文本中的语境化信息和句法知识,针对依存图的信息冗余问题,分别提出以最近公共祖先为中心的剪枝技术和基于Attention 的剪枝策略,以忽略无关信息并降低计算复杂度。
2 本文方法
本文借鉴ZHENG 等所提的新标注策略[3]对文本标注其所蕴含的实体与关系信息,利用Bi-LSTM提取文本序列特征和GCN 编码文本中的先验词间关系,通过分类网络得到文本的标签预测结果,最后按照关系提取规则从文本中抽取出其蕴含的实体关系三元组信息。
2.1 标注模式及提取规则
英文分词以空格作为分词标志,实体名多由2 个以上分词组成,中文虽然无明显的分词标志,但利用分词工具得到的分词结果大多可直接表达实体名。本文针对中文分词的这一特点,在新标注策略的基础上对标注模式进行优化,采用更简易的“BIO”标注方案。另外,本文将关系三元组中2 个实体的实体类别也标记在关系标签中。在本文的标注模式下,文本的标注结果如图1 所示。
图1 本文标注模式下的中文文本标注结果Fig.1 Annotation results of Chinese texts under annotation mode in this paper
文本的每个分词都被标注一个标签,标签中包含实体关系三元组信息。文本的标注结果包括3 个组成部分:
1)关系类型,即关系三元组中的关系,本文将数据集中预定义的关系和实体类别拼接构成关系类型。
2)实体角色,即分词在关系三元组中的角色信息,用“E1”表示该分词属于首实体的组成之一,用“E2”表示该分词属于尾实体的组成之一。
3)分词位置,即分词在实体名称中的位置信息。
本文采用“BIO”标注方案标注分词位置信息。若实体仅由一个分词构成,用“B(Begin)”标注该分词;若实体由多个分词构成,用“B(Begin)”标注第一个分词,用“I(Inside)”标注其后所有分词。文本中包含在三元组中的分词,其标注结果由以上3 个部分拼接形成,而对于不包含在三元组中的分词,本文用“O(Other)”做标注。
在图1的示例中,原句包含实体关系三元组<陈路,PAP,秘鲁首都利马>,其中,“PAP”表示“人物/祖籍/地点(Person/Ancestor/Place)”,是由“陈路”的实体类别“人物”、“秘鲁首都利马”的实体类别“地点”以及预定义的关系“祖籍”这3 个信息拼接而成的关系类型。首实体仅含有一个分词“陈路”,按照上文所述的标注模式,其被标注为“PAP_E1_B”;尾实体“秘鲁首都利马”含有“秘鲁”“首都”“利马”3 个分词,根据其在尾实体中的位置,分别被标注为“PAP_E2_B”“PAP_E2_I”“PAP_E2_I”。分词“1937 年”和“生于”因没有包含于三元组中而被标注为“O”。
分词标注结果指明实体关系三元组中首尾实体的分词信息和所属的关系类型。在模型预测出句子中分词的标注结果后,将标注相同关系类型的分词相结合,根据实体角色和分词位置将分词组合起来得到首尾实体名称,最终获取<实体1,关系,实体2>三元组。
上述介绍的分词标注模式将实体关系三元组的抽取问题转化为端到端的序列标注问题。本文考虑一个实体仅属于一个三元组的情况。在预测文本包含的实体关系时,若预测标注结果中包含多于一个具有相同关系类型的三元组,本文按照最邻近原则将最近的2 个实体相组合形成三元组,并作为实体关系的预测结果。
2.2 模型总体框架
本文的实体关系联合抽取模型包含4 个组成部分,分别为表示层、Bi-LSTM 与GCN 编码层、LSTM解码层、Softmax 层。总体框架如图2 所示。
图2 模型框架Fig.2 Model framework
2.3 表示层
通过词向量表将中文分词转换成表征分词信息的低维向量,作为下一层的输入向量。本文使用百度百科语料库训练语言模型得到词向量表(https://github.com/Embedding/Chinese-Word-Vectors),该词向量表包含语料库中所有分词通过语言模型训练得到的向量表示。检索词向量表得到分词的向量表示的过程具体如下:对于包含n个分词的输入句子S,s={t1,t2,…,tn},句中的每个分词为ti,从词向量表中检索到其对应的词向量表示xi,最终,句子S转换成其分词的向量表示序列:s={x1,x2,…,xn}。
2.4 编码层
编码层中使用Bi-LSTM 提取文本中的序列特征,再利用GCN 编码文本中基于依存分析图的局部依赖特征以及先验词间关系。
2.4.1 Bi-LSTM 编码
Bi-LSTM 编码层由2 个平行的LSTM 层组成,即前向LSTM 层和反向LSTM 层[24]。Bi-LSTM 中前向网络的神经元结构如图3 所示。
图3 Bi-LSTM 编码层中的前向网络神经元结构Fig.3 Forward network neuron structure in Bi-LSTM coding layer
LSTM 通过遗忘门、输入门和输出门来对输入信息进行保护和控制。在前向网络中,每次新输入一个分词特征向量xt,并与上一时刻状态ht-1共同产生下一时刻的状态ht,其中,t代表时间步长。隐藏状态ht的计算如下所示[25]:
其中:i、f、o分别为输入门、遗忘门、输出门;b是偏置项;W为参数矩阵。前向LSTM 层通过从分词向量x1到xt,考虑xt的前文信息来编码xt,输出记为类似地,反向LSTM 层从分词向量xn到xt,考虑xt的后文信息来编码xt,输出记为最后,级联来表示第t个分词编码后的信息,如式(7)所示,⊕表示向量级联,de为单向LSTM 网络维度。对于输入的S,该层的输出如式(8)所示,h输出到下一层作为输入。
2.4.2 GCN 编码
GCN 是一种简单有效的基于图的卷积神经网络,其能够通过图节点间的信息传递来有效捕捉数据之间的依赖性,因此,经常被用来处理对象间关系丰富且存在相互依赖关系的数据。GCN 被直接作用于图上[26],网络的输入是图的结构和图中节点的特征表示。对于图中的每个节点,GCN 通过该节点附近其他节点的性质融合归纳得到该节点的特征表示向量。
不同于GCN 在图像领域中直观地将图像中的每个像素点作为图中的节点,本文借助文本的依存分析结果,将文本的每个分词经Bi-LSTM 生成的特征向量表示作为图中的节点,依存分析结果中不同节点之间的关系作为图中的边,构成图卷积神经网络的基本图结构。依存分析图展示的是文本分词之间的依赖关系,在依存分析图中,root 是虚拟根节点,有且仅有一个节点依赖于根节点,边表示分词之间的依赖关系。图4 所示为“公司于2015 年02 月27 日在海淀分局登记成立”的依存分析图:“公司”和“登记”之间是名词性主语和动词之间的关系,该关系属于nsubj关系;“登记”和“02月27 日”之间是动词和名词组成的非核心依赖关系,该关系属于nmod关系;“2015年”和“02月27日”之间是2个名词之间的补语关系;“于”和“02 月27 日”之间则为介词与其所依赖的名词之间的关系,属于case 关系。连接“公司”和“02 月27 日”的“登记”是表征公司成立日期关系的关键分词,在依存分析图中可以通过词节点与边将2 个实体联系起来。
图4 依存分析图示例Fig.4 Dependency analysis diagram example
基于依存分析图结构的GCN 编码层利用前面的Bi-LSTM 生成的分词特征向量表示,将每个节点邻域内的相关信息编码为一个新的表示向量。
对于一个有n个节点的依存分析图,本文使用n×n的邻接矩阵Aij表示其图结构,通常使Aij=1 代表节点i到节点j之间存在边。因为依存分析图的边可能存在不同的依赖关系,本文对表征节点i与节点j之间边的Aij赋予不同的数值,以区别不同的依赖关系。表征图4 所示文本依存分析图的邻接矩阵如图5(a)所示。
图5 邻接矩阵Fig.5 Adjacency matrix
在L层GCN 中表示输入向量表示节点i在第l层的输出向量,一个图卷积操作如下所示:
其中:W(l)是线性转换;b(l)是偏置项;σ是非线性函数(如ReLU);Aij是邻接矩阵。在每一次图卷积计算中,各节点汇集图中其相邻节点上的信息。
直接使用式(9)会出现不同节点表示之间量级差距过大的现象,导致句子的特征表示不考虑节点中包含的信息内容,仅仅偏向于高阶节点,为此,在实际使用中需要对邻接矩阵Aij进行归一化处理。此外,式(9)依赖树中的节点永远不会再连接到自身,即中的信息永远不会传递给因此,本文为图中的每个节点添加自循环,将归一化后的Aij对角线元素设为1,形成改进后的邻接矩阵最后将其通过非线性函数反馈给GCN。上述改进使图中主要特征仍是节点本身,符合特征提取原则。表征图4 所示文本依存分析图的改进邻接矩阵如图5(b)所示。式(9)改进如下:
2.5 LSTM 解码层
本文使用LSTM 结构对编码层基于图结构的编码输出进行解码。在基于依存分析图的编码结果中,根据代表文本分词的节点特征向量,将图结构的特征表示转换成序列结构的特征向量。解码层采用一个单向的LSTM 层,结构如图6 所示。
图6 LSTM 解码层神经元结构Fig.6 LSTM decoding layer neuron structure
在检测分词xt的标签时,解码层的输入是从编码层获得的分词xt的上下文表示向量ht,前一神经元的预测标签表示为Tt-1,前一神经元值为解码层前一隐层向量为最终输出是xt预测标签的向量表示Tt,解码层表示为[3]:
其中:i、f、o分别为输入门、遗忘门、输出门;b是偏置项;W为参数矩阵。对于输入的ht,该层的输出为预测标签的向量序列,如式(18)所示,dd为编码层的网络维度。
2.6 Softmax 层
本文模型的分类层使用Softmax 分类器进行标签分类。通过Softmax 层运算得到条件概率即分词t为标签i的概率,如下:
其中:θ为模型需要用到的所有参数;Nt表示总的标签数目表示yt中第i个元素。yt是模型对分词t在所有标签类型上的评分,其定义为:
其中:Wy∈RNtd是参数矩阵;by∈RNt是偏置项。
在测试阶段,将所学习到的标签特征Tt乘以概率p得到用进行标签预测。最终,得到分词t具有如下标签:
3 实验结果与分析
3.1 数据集和实验设置
本文在2019 年百度语言与智能技术竞赛的关系抽取任务所提供数据集基础上进行数据清洗与筛选,从而形成本文实验数据集,每个文本中仅包含一个目标提取三元组。实验所用标记数据集共包含50 种实体关系类别,分布在132 952 个句子中,其中,训练集包含118 121 句,测试集包含14 831 句。
准确率(Precision)、召回率(Recall)、F 值是目前实体关系抽取研究领域中通用的性能评测指标,其中,F 值是考虑准确率和召回率的综合性指标。在实际的模型训练中,具体的超参数值如表1 所示。
表1 模型超参数设置Table 1 Model hyper parameters setting
3.2 基线模型与评估方案
为验证GCN 可以有效编码词间先验关系,并评估所提2 个模型(LSTM-GCN-CRF、LSTM-GCN-LSTM)在中文实体关系抽取中的性能,本文选择经典模型LSTM-CRF 和LSTM-LSTM 以及LSTM-LSTM-Bias、LSTM-GCN-Pruned 作为基线模型,分别进行中文实体关系抽取实验,并对比分析各个模型的评价指标结果。
本文为证明GCN 编码层能有效编码词间先验关系,在LSTM-CRF 和LSTM-LSTM 中加入GCN 编码层,在文本序列特征的基础上提取图结构特征,相应地生成LSTM-GCN-CRF、LSTM-GCN-LSTM这2种模型。LSTM-CRF[27]采用LSTM编码文本进行实体识别,通过简单的条件随机场架构对输出标签进行建模,预测实体标签序列。LSTM-LSTM[28]则使用LSTM 对通过之前网络学习的信息进行解码,实现实体标签序列预测。LSTM-GCN-Pruned[6]在LSTM 编码之后使用GCN 编码,使词向量融合上下文信息,同时提出以最近公共祖先为中心的剪枝技术,以去除依存分析图中的无关依赖信息。
本文为验证LSTM-GCN-CRF、LSTM-GCN-LSTM模型对中文实体关系抽取性能的提升作用,选择同样基于标注策略的实体关系联合抽取模型,即ZHENG 等提出的LSTM-LSTM-Bias 作为对比基线模型,在中文实体关系数据集上训练模型,从而预测实体关系。上述模型以不同方式增强实体间的联系:LSTM-LSTMBias 在模型训练时使用增加了偏置的目标函数进行训练,优化模型参数,增加文本中的实体标签对损失函数的影响,同时减少非实体标签对损失函数的影响,以此增强实体之间的联系;本文所提模型通过GCN 编码层提取文本中的图结构特征,通过依存分析图中节点和不同关系的边强调实体之间的连接。
3.3 结果分析
本文按照3.2 节的评估方案,在中文实体关系数据集上,训练本文所提模型(LSTM-GCN-CRF、LSTM-GCN-LSTM)、经典实体关系抽取模型(LSTM-CRF、LSTM-LSTM)、对依存分析图进行裁剪去除冗余信息的LSTM-GCN-Pruned 模型以及LSTM-LSTM-Bias 模型。
在中文数据集上,不同基线模型的实体关系抽取准确率、召回率与F 值结果如表2 所示。从表2 可以看出:加入GCN 编码层后的LSTM-GCN-CRF 和LSTMGCN-LSTM 这2 种模型的F 值分别达到61.4%、61.2%,相比只提取序列特征的LSTM-CRF 和LSTM-LSTM,F值分别提升3.0%、4.1%;LSTM-GCN-Pruned模型的3项指标均高于未采用GCN 编码的经典模型,GCN 通过分词节点和边关系信息充分学习中文文本中蕴含的复杂句法信息,能表征更丰富的语义信息,GCN 编码之后的2个模型都取得更高的召回率和F值,说明GCN编码层可改善实体关系抽取性能;相较于LSTM-GCN-CRF、LSTM-GCN-LSTM 模型,LSTM-GCN-Pruned 虽然没有使用文本依存分析图中的全部依赖关系,但是其实体关系抽取性能并未因此而降低,表2 中的3 项评价指标略高于其他模型,这是因为大多数与关系相关的信息通常包含在以2 个实体的最近公共祖先为根的子树中,LSTM-GCN-Pruned 模型采用剪枝技术仅保留所有直接连接到依赖路径上的节点,从而保留了大部分关键信息。
表2 不同模型的关系三元组预测性能比较Table 2 Comparison of relational triple prediction performance of different models %
如表3 所示,LSTM-LSTM-Bias在英文实体关系抽取数据集(NYT)上的性能表现较好,但其直接用于中文数据集时,3 项指标明显降低,F 值仅有41.2%:一方面是因为中文在组词、句法语法规则上更加灵活,更容易对文本内容产生语义理解分歧;另一方面是因为LSTM-LSTM-Bias 仅用Bi-LSTM 提取文本的长距离依赖关系序列特征,不足以表征中文文本中复杂的句法信息。本文所提LSTM-GCN-CRF、LSTM-GCN-LSTM模型的F 值分别达到61.4%、61.2%,相比LSTM-LSTMBias模型分别提高了49.0%、48.5%,由此说明本文LSTMGCN-CRF、LSTM-GCN-LSTM 模型可有效提升中文实体关系抽取性能。
表3 LSTM-LSTM-Bias 模型的预测性能Table 3 Prediction performance of LSTM-LSTM-Bias model %
3.4 GCN 分析
上文中经过不同模型指标数据的对比分析,证明了GCN 编码层的加入可有效提升实体关系抽取性能。本文统计测试集中实体1、实体2 被正确预测的句子数,进一步验证GCN 编码层对实体关系抽取结果的改善作用。实验结果如表4 所示,其中:E1T_E2T 表示实体1 和实体2 均预测正确;E1F_E2F表示实体1 和实体2 均预测错误;E1T_E2F 表示实体1 预测正确、实体2 预测错误;E1F_E2T 表示实体1 预测错误、实体2 预测正确。
表4 实体1、实体2 被正确预测的句子数Table 4 Number of sentences for entity 1 and entity 2 which are predicted correctly
实体三元组包含首尾2 个实体以及两者之间的关系。本文在观察测试集中所有句子的实体关系三元组抽取结果时发现,存在实体1、实体2 其中一个抽取错误的现象,因此,统计LSTM-CRF、LSTM-LSTM 和LSTM-GCN-CRF、LSTM-GCN-LSTM 这4 个模型在包含14 831 个句子的测试集上实体1、实体2 被正确预测的句子数情况。从表4 可以看出,加入GCN 编码层的LSTM-GCN-CRF、LSTM-GCN-LSTM 模型将实体1、实体2 同时预测正确的句子数多于原始模型,这是因为GCN 基于依存分析图的图结构提取文本语义信息,在依存分析图上三元组中2 个实体通过携带句中分词关系类别的边而更加紧密地联系起来,增加了2 个实体同时被提取出来作为同种关系涉及的实体对的可能性,从而提高了实体三元组的提取完整性。此外,4 个模型抽取结果中单个实体1 预测正确的句子数普遍多于单个实体2,这是因为数据集里大多数中文文本的语言表达按照主语谓语宾语的语法顺序,根据数据集中关系和实体的标注规则可知,实体1 是主语,多位于句子靠前的位置,而实体2 是宾语,多位于句子靠后的位置,主语被作为实体关系三元组中的实体被抽取出来的可能性更大,而实体2 被抽取出来需要依靠句子更丰富的语义信息。
3.5 实例分析
为了更直观地体现GCN 编码层在中文文本实体关系抽取中的效果,本文列出2 个典型实体关系抽取结果实例,如图7所示,其中加粗表示预测错误的标签。图中展示出关于实例的4 行信息,从上至下依次为原句、正确的实体关系抽取结果、LSTM-LSTM 的抽取结果以及LSTM-GCN-LSTM 的抽取结果。
图7 实体关系抽取结果Fig.7 Entity relationship extraction results
原句1 中存在可能混淆抽取结果的其他实体名。对比LSTM-LSTM 和LSTM-GCN-LSTM 模型的抽取结果可以发现,LSTM-GCN-LSTM 通过GCN编码层获取到句子依存信息,增强了“赵灵儿”与“李忆如”之间“母亲”关系的连接,从而提取出正确的实体关系;而LSTM-LSTM 则误将“抚养”关系当成“母亲”关系,提取出了错误的实体关系。
在原句2 中,目标实体关系三元组中的某个实体同时存在于其他关系三元组中。LSTM-LSTM 仅提取出一个实体,无法构成三元组,且错误地将“谁偷了谁的忧伤”预测为“人物/作者/图书作品”实体关系的实体;LSTM-GCN-LSTM 虽然提取出2 个实体并正确提取出“晋江文学城”的实体分类结果,却将实体1“谁偷了谁的忧伤”归类到“人物/作者/图书作品”实体关系中,同时也未将“玲小旭”预测出来,造成实体三元组信息的不完整。从句子内容来看,本句的后半部分确实提及本书的作者,存在2 个实体三元组,这说明LSTM-GCN-LSTM 在处理多个实体之间存在2 个实体关系三元组的实体重叠问题时仍有不足。
在含有数字的文本中,包含数字的实体关系三元组中数字实体重叠现象较为普遍,如图8 所示,例句中的数字“50”存在于4 个待提取的实体关系三元组中。数字作为特定领域(如能源领域)文本中的关键信息,提取其所描述的具体信息非常有必要。因此,实体重叠是后续工作中需要解决的重要问题。
图8 含有数字实体关系的中文文本标注结果Fig.8 Chinese text annotation results with digital entity relationship
4 结束语
本文提出一种基于GCN 的中文实体关系联合抽取方法,利用GCN 编码依存分析图中的先验词间关系信息,通过改进的标注策略标记实体关系,将实体关系联合抽取问题转化为序列标注问题,最终输出实体关系三元组。实验结果表明,GCN 具有编码局部特征和先验词间关系的能力,联合抽取模型在加入GCN 编码的信息后能够提高三元组中2 个实体均被正确抽取的概率,从而提升网络性能。下一步尝试利用图网络在非欧空间上对拓扑关系的编码能力来解决实体重叠问题,从而提升模型的适用性。