基于注意力与图卷积网络的关系抽取模型
2021-03-07王晓霞钱雪忠
王晓霞,钱雪忠,宋 威
(江南大学人工智能与计算机学院,江苏无锡 214122)
(*通信作者电子邮箱17854265793@163.com)
0 引言
关系抽取(Relation Extraction,RE)是自然语言处理领域的一项重要子任务,是对非结构化文本进行大规模关系理解应用的基石,它在信息抽取、问答系统和知识图谱等领域有着广泛的应用[1]。关系抽取是根据预先定义的关系类型来识别文本中标记实体对之间的语义关系。例如,“The train <e1>crash</e1>was caused by terrorist <e2>attack</e2>.”,根据给定的句子以及标记的实体对判定“crash”与“attack”之间的关系为Cause-Effect(e1,e2)。
现有的关系抽取模型可以大致分为两类:基于序列的模型和基于依赖关系的模型。基于序列的模型只对单词序列进行编码,使用卷积神经网络(Convolutional Neural Network,CNN)或循环神经网络(Recurrent Neural Network,RNN)将句子序列编码为语境化的潜在特征;基于依赖关系的模型则将输入语句的依存树纳入模型中,通过沿着依存树形成的计算图来构建句子的分布式表示。与基于序列的模型相比,基于依赖关系的模型能够捕获单独从词嵌入序列中无法学习到的长期句法关系。但是,依存树中并不是所有信息都对关系抽取任务有用,为了能够排除依存树中的干扰信息,现有方法通过对依存树进行剪枝操作,选取依存树中的部分结构进行编码以获取句子的语义特征。这种基于硬剪枝的策略过于激进地修剪依存树而忽略了相关信息,降低了依存树中的信息利用率。其次,现有模型中的特征提取器效果不佳,无法同时提取依存树中的局部与非局部依赖特征,从而不能有效学习到句子的高阶语义特征。针对以上问题,本文所提出的基于注意力与图卷积网络(Graph Convolutional Network,GCN)的关系抽取模型能够利用基于注意力机制的软剪枝策略来挖掘依存树中的有效信息,同时过滤无用信息;其次,通过门控感知图卷积网络作为特征提取器,能有效提取依存树中的局部与非局部依赖特征,获取句子中的高阶语义特征。
1 相关工作
传统的关系抽取主要是基于特征[2]或基于核函数[3]构造分类模型,这种方法确实可行且有效,但依赖于选择的特征集或设计的核函数,容易引入人为误差,很大程度上限制了关系抽取模型的性能。
目前,基于深度学习的方法被广泛用于关系抽取任务中。文献[4]和文献[5]分别利用CNN 和RNN 提取句子序列特征,并通过Softmax 分类器实现关系分类;针对数据不平衡带来的噪声问题,文献[6]提出了一种排序损失函数来替代交叉熵,对other 类进行特殊处理从而减少噪声的影响;文献[7]则将注意力机制引入关系抽取模型中,通过注意力机制重点关注句子中的有效信息,从而提高模型的性能;考虑到句子的局部特征和上下文特征对关系抽取任务具有一定贡献,文献[8]和文献[9]利用联合神经网络的方法,将RNN 与CNN 结合来共同获取句子的局部特征和上下文特征,进而改善模型关系抽取性能。上述工作中的模型,直接将原始语句作为输入构建端到端的模型,取得了不错的效果。
此外,研究者为充分挖掘句子中的深层语义信息,将句子的依存关系树导入模型中,构建基于依赖关系的模型。为充分利用依存树中的有效信息,排除干扰特征,研究者提出了多种剪枝策略来选取依存树中的有利信息。文献[10]通过剪枝选取实体之间的最短依赖路径(Shortest Dependency Path,SDP),应用于长短期记忆(Long Short-Term Memory,LSTM)网络,推广了基于依赖关系的思想;文献[11]在循环卷积神经网络(Recurrent Convolutional Neural Network,RCNN)模型中加入基于最短依赖路径的注意力机制来强化关键词和句子特征;文献[12]则应用剪枝策略将整棵树缩减为实体最低公共祖先(Lowest Common Ancestor,LCA)下的子树,并通过双向树状结构的LSTM-RNN 捕获子树中的结构信息;文献[13]在LCA 规则的基础上提出改进,保留实体对的LCA 子树上K距离内的节点,并引入图卷积网络进行关系抽取。以上研究表明依存树中含有丰富的对关系抽取任务有利的信息,对于提高关系抽取模型的性能有一定作用;但基于规则的硬剪枝策略容易导致过剪枝或欠剪枝,从而降低依存树中信息的利用率,并且大多数模型选取CNN 或RNN 作为特征提取器,无法充分学习到依存关系树中的非局部依赖特征。
本文针对上述问题,提出一种基于注意力引导的门控感知图卷积网络(Attention-guided Gate preceptual Graph Convolutional Network,Att-Gate-GCN)关系抽取模型。首先,为了缓解硬剪枝策略带来的信息丢失问题,利用一种基于注意力机制的软剪枝策略,将原始依存树转化为一个完全连通的边加权图,每条边的权重视为节点之间关系的强度,并通过自注意力机制[14]以端到端的方式学习。其次,为了更好地编码上述得到的加权完全连通图,本文在C-GCN(Contextualized Graph Convolutional Network)模型[13]的基础上提出一种改进的门控感知图卷积网络结构用于提取句子的高阶语义特征。C-GCN模型使用高效的图卷积运算[15]对输入语句的依赖图进行编码,但由于简单的图卷积网络无法深度训练[16],导致该模型中的图卷积网络结构不能有效提取依存树中的非局部依赖特征。本文提出的门控感知图卷积网络结构则通过门控机制增加特征感知能力,能够实现对模型的深度训练,从而捕获句子中丰富的局部与非局部依赖特征。本文将提出的模型在SemEval2010-Task8 和KBP37 数据集上进行实验,取得了比现有模型更好的效果;为验证本文所提出的基于注意力机制的软剪枝策略与门控感知图卷积网络结构的有效性,还进行了消融实验。
2 模型描述及实现
本章主要介绍基于注意力引导的门控感知图卷积网络(Att-Gate-GCN)关系抽取模型,该模型框架如图1所示。
图1 Att-Gate-GCN关系抽取模型框架Fig.1 Architecture of Att-Gate-GCN relation extraction model
在已有工作中,研究者证明了基于依赖关系的模型与基于序列的模型具有互补的优势,因此本文参考C-GCN 模型,如图1 中的(a)所示,在模型中添加双向长短期记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)网络层,将词嵌入向量首先输入到Bi-LSTM 中,生成上下文化的词嵌入表示,然后通过本文所提出的Att-Gate-GCN 进一步学习句子的高阶语义特征。如图1 中的(b)所示,首先通过注意力引导层学习依存树中所有节点之间的权重信息,从而提高依存关系树中有效信息的利用率;然后通过门控感知图卷积网络结构进一步提取句子的深层语义特征。
2.1 词嵌入层
本文使用斯坦福大学开发的Stanford Parser 对句子进行依存分析,生成句子的依存树。依存树中的所有节点对应句子中的所有单词,节点之间的关系通过邻接矩阵表示。将句子通过词嵌入层得到单词的分布式表示,即单词ci的词向量wi由单词ci的one-hot向量vi与预训练的词向量矩阵W相乘得到,如式(1)。
此外,考虑到句子中的实体位置能够反映句子中各单词与实体对之间的位置信息,引入Zeng等[4]提出的位置特征,通过随机初始化位置嵌入矩阵得到位置嵌入表示,单词ci相对于实体对的位置嵌入向量为。因此,单词ci的词向量最终表示为
2.2 Bi-LSTM层
将词嵌入层得到的词向量输入到Bi-LSTM 层,通过两层LSTM分别沿句子前向序列和反向序列进行编码,生成上下文化的词向量。LSTM在克服长期依赖性问题中,采用自适应门控机制,利用存储单元记忆相关信息,遗忘无关内容,缓解了梯度消失与爆炸问题。LSTM 的隐藏层主要包含三个门控机制:输入门it、遗忘门ft和输出门ot(t表示时刻)。式(2)~(7)显示了LSTM隐藏层的计算。
其中:σ代表sigmoid 激活函数;⊗代表向量元素相乘;xt表示时间t时刻的输入向量;ht表示隐藏状态;表示xt分别在不同门机制上的权重矩阵;表示ht分别在不同门机制上的权重矩阵;b代表偏差量。
在t时刻,Bi-LSTM 的前向输出为,反向输出为,将两个方向的输出拼接得到最终t时刻的输出ht,如式(8)所示。
2.3 注意力引导层
依存树中蕴含句子丰富的句法信息,对关系抽取任务有很大的价值。大多数基于依赖关系的模型并不利用完整的依存树提取句子特征,而是应用硬性剪枝的策略直接将整棵树剪枝成子树。基于规则的硬剪枝策略会导致关键信息的丢失和性能下降,因此本文应用一种基于注意力机制的软剪枝策略[17],为依存树中所有的边分配权重,这些权重可以通过自注意力机制以端到端的方式学习。通过构造一个注意力引导的邻接矩阵,将原始依存树转化为一个完全连通的边加权图,每一个对应于一个完全连通的图,其中表示节点i到节点j的边的权重。如图2所示,表示一个完全连通的边加权连通图G(1)。是由句子依存树的邻接矩阵通过自注意力(Selfattention)机制构建得到。Self-attention 是一种捕捉单个序列中两个任意位置之间相互作用的注意力机制,首先利用线性函数将原始邻接矩阵投影到两个相似序列中,然后利用点乘得到每个节点与其他节点之间的相关性权重,得到之后,将其作为门控感知图卷积网络层计算的输入。的大小与原始邻接矩阵A相同,因此,不涉及额外的计算开销。
图2 注意力引导层Fig.2 Attention guided layer
注意力引导层的核心思想是利用注意力机制来学习节点之间的关系,并赋予合适的权重,从而聚合依存树中的有效信息。为了从多个方面捕捉不同的关系特征,如图2 所示,采用Multi-head机制[18],使用单独的规范化参数在相同的输入上多次应用Self-attention,并将结果合并起来作为注意力引导层的输出,这使得模型能够共同关注来自N个不同表示子空间的信息。Self-attention计算如式(9)。
其中:Q、K和V均代表Gate-GCN 模型中第L-1 层的输出表示是参数矩阵表示通过第t个头注意力得到的邻接矩阵。
2.4 门控感知图卷积网络层
为了更好地捕捉句子依存树中的深层次语义依赖特征,本文提出一种门控感知图卷积网络结构,旨在通过门控机制同时捕获局部与非局部依赖特征。本节首先介绍基本的图卷积网络以及引入注意力引导层后得到的新的图卷积运算,然后详细描述了门控感知图卷积网络结构。
图卷积网络[15]是卷积神经网络的一种改编,用于编码图形结构。给定有n个节点的图,可以得到一个n×n的邻接矩阵A用以表示图的结构信息。文献[19]通过将边的方向性引入模型来扩展GCN 编码依存树,例如,如果存在一条边从节点i到节点j,则Aij=1,并且为树中的每个节点添加一个自循环,即Aii=1。在L层GCN 中,如果用表示节点i输入特征表示节点i的输出特征,图卷积网络的计算如式(10)。
其中:WL是线性变换,bL是偏差项,σ代表一种非线性函数(如ReLU)。在此基础上,本文通过应用注意力引导层,得到改进的邻接矩阵,以此调整图卷积运算建模依存关系树。因此,基于注意力引导的图卷积运算如式(11)。
将这个运算叠加在L层的门控感知图卷积网络中,L为超参数。在第一层的计算中是由Bi-LSTM 层输出得到的上下文的词嵌入表示,在后续L-1 层中,将上一层的输出作为下一层的输入进行计算。
浅层的图卷积网络无法编码依存树中的长距离依赖特征,针对此问题,本文通过门控感知结构作用于图卷积网络,以实现模型的深度训练,从而捕获依存树中的非局部相互作用。将门控感知结构加入到基于注意力引导的图卷积网络中,构成Att-Gate-GCN,其中门控感知图卷积网络(Gate-GCN)的每一层都包含两个相同的图卷积结构,分别记为GCN1和GCN2。因此,Gate-GCN 在第L-1 层的计算如式(12)、(13)所示。
2.5 关系抽取
通过门控感知图卷积网络对依存树进行编码,得到句子中所有单词的隐藏表示Osent。在此基础上,采用与文献[20]相同的处理方法,将句子表示Ssent与实体表示Sei拼接,并通过前馈神经网络(Feed-Forward Neural Network,FFNN)得到最终的句子表示,如式(14)~(16)。
其中:Omask代表Osent中除实体对之外的隐藏表示则代表实体对的隐藏表示,f为最大池化函数。然后使用Softmax 分类器从关系集合Y中预测句子x的类别标签。计算过程如式(17)、(18)。
本文利用带L2正则项的负对数似然函数作为代价函数,如式(19)所示。
其中:m代表样本的个数,t是关系类别的one-hot 向量是Softmax 的输出类别概率向量,λ是正则化参数,θ是关系抽取模型的训练参数。模型的算法流程如下:
算法1 模型算法流程。
3 实验与结果分析
3.1 实验数据与评估指标
本文在两个标准关系抽取数据集上进行实验,分别为:
1)SemEval2010-Task8 数据集。该数据集包含10 717 个句子实例,其包括8 000个训练实例和2 717个测试实例,关系类型包括9类关系和1个other类,关系类别及数据分布如表1所示。
2)KBP37 数据集。该数据集使用了2013 年和2010 年的KBP文档数据集,以及对2013年Wikipedia进行注释的文本数据集,包括训练实例15 917 个,测试实例3 405 个,包含19 种不同的关系,其中丢弃了低频关系,每种关系的训练实例超过100条。
在两个数据集上本文均采用官方评价指标宏观平均(Macro)F1值评估模型。Macro首先对每一个类计算F1值,然后对所有类求算数平均值。表2 为关系分类结果的混淆矩阵。
在计算F1 指标值之前,根据混淆矩阵求得查准率P和查全率R,计算如式(20)、(21)所示。
F1值定义为查准率和查全率的调和平均数,如式(22)。
表1 SemEval2010-Task8数据集关系类型及语料分布Tab.1 SemEval2010-Task8 dataset relation types and corpus distribution
表2 分类结果混淆矩阵Tab.2 Confusion matrix of classification results
3.2 参数设置
为尽量公平地与基线模型进行对比实验,本文采用文献[13]实验的大部分参数,与文献[20]使用相同的预训练的词向量,在此基础上通过交叉验证的方法对训练集上参数进行调优,获得最终的模型参数,并应用于测试集,具体实验参数如表3所示。
表3 实验参数Tab.3 Experimental parameters
为缓解过拟合,分别在嵌入层、Bi-LSTM 层和Gate-GCN层引入Dropout 策略,丢码率分别设置为0.5、0.5 和0.3。在两个数据集中,以上参数设置相同。在注意力层,多头机制中N的大小对于最终结果有明显的影响,在SemEval2010-Task8数据集上,从N={1,2,3,4,5}中选择效果最好的为N=3,N对F1 指标的影响如图3 所示。在KBP37 数据集中,N为4 时效果最佳。
图3 SemEval2010-Task8数据集上N对F1值的影响Fig.3 Influence of N on F1 value on SemEval2010-Task8 dataset
3.3 实验结果分析
本文的实验以C-GCN 为基线模型(Baseline),在SemEval2010-Task8 数据集和KBP37 数据集上复现的该模型F1值分别为83.7%和58.9%。
3.3.1 消融实验与分析
为验证本文所提出的基于注意力机制的软剪枝策略与门控感知图卷积网络结构在关系抽取任务中的有效性,在两个数据集上分别进行以下消融实验:1)使用注意力引导层替换基线模型中的硬剪枝策略;2)在基线模型的图卷积网络层中添加门控感知结构,用以实现深层图卷积网络结构。实验结果如表4所示。
从表4 实验结果可以看出,在基线模型中添加注意力引导层,SemEval2010-Task8 数据集和KBP37 数据集上的F1 值分别提高了1.2个百分点和1.8个百分点。其原因在于,基于规则的硬剪枝技术在过滤无关信息的同时也将有利信息排除在外,而基于注意力机制的软剪枝策略通过对完全依存树中的信息进行加权,能够充分利用依存树中的有效特征,缓解了硬剪枝策略导致的过剪枝或欠剪枝的问题。对比表3中的F1值观察到,注意力引导层在KBP37 数据集上性能提升更为明显,F1 值提高了1.8 个百分点。原因在于KBP37 数据集中包含更多的长句子,而基于注意力机制的软剪枝策略通过分析权重能够有效识别长句子中的相关信息,从而在处理长句子时具有更明显的优势。此外,使用Gate-GCN 替换基线模型中的GCN 取得了更明显的优势,说明通过门控感知结构构成的深层图卷积网络能够在提取局部依赖特征的同时,实现长距离依赖特征的学习,从而获得更准确的句子表示,有效缓解了图卷积网络无法深度训练的问题。
表4 基线模型上的消融实验结果Tab.4 Results of ablation experiments on baseline model
综合以上两组实验结果,本文组合利用注意力引导层和门控感知图卷积网络结构,在两个基准数据集上进行实验,并分别在SemEval-Task8 数据集和KBP37 数据集上详细比较了基线模型与本文模型在每个类别下的评价指标,实验结果如表5、6所示。
表5 C-GCN和本文模型在SemEval2010-Task8数据集不同类别下的结果对比 单位:%Tab.5 Comparison of results under different categories of G-GCN and the proposed model on SemEval2010-Task8 dataset unit:%
表6 C-GCN和本文模型在KBP37数据集不同类别下的结果对比 单位:%Tab.6 Comparison of results under different categories of G-GCN and the proposed model on KBP37 dataset unit:%
从表5、6 中可以看出,本文模型在SemEval-Task8 数据集和KBP37 数据集上相较基线模型在所有关系类别上均有一定的性能优势,并且在KBP37 数据集上提升更加明显。其中,多个关系类别的召回率有明显提升,说明由基线模型预测的这些类别中存在被误判为other 类的关系,而本文模型在改进的基础上将其识别为了正确类别。并且观察发现,本文模型在长句子预测的性能显著优于基线模型,如例1 中的关系实例,基线模型将其判定为other 类别,而本文模型正确标识为Message-Topic类。
例1:The play reflects,among other things,questions about the nature of political power and the dilemmas facing royal families.
译:该剧除其他外,反映了有关政治权力的性质和王室面临的困境的问题。
实体1:play
实体2:question
关系:Message-Topic(e1,e2)
3.3.2 对比实验与分析
最后选取当前主流的关系抽取模型与本文提出的Att-Gate-GCN模型在两个数据集上进行对比,包括:
1)CNN+PF(CNN Position Feature)[4]:模型为基本的CNN,引入实体位置特征。
2)RNN+PF[5]:将CNN+PF中的CNN替换为基本的RNN。
3)Att-Bi-LSTM(Attention Bi-LSTM)[20]:利用注意力机制作用于LSTM输出层捕获句子中重要的语义特征。
4)SDP-LSTM[10]:通过剪枝策略,选取依存树中的最短依赖路径作为输入,利用LSTM提取异构信息。
5)SPTree(Shortest Path Tree)[12]:应用剪枝策略,将整棵树缩减为实体最低公共祖先下的子树,并利用双向树状结构的LSTM捕获句子高阶特征。
6)SA-Bi-LSTM-LET[21]:将实体感知注意力机制与潜在实体类型相结合,充分利用实体信息进行关系抽取。
7)BG-SAC[22]:将双向门控循环单元(Bi-directional Gated Recurrent Unit,BGRU)与自注意力机制相结合提取基于上下文的语义信息,并利用胶囊网络获取实体潜在特征。
从表7 中可以看出,本文模型的F1 值均高于对比模型。本文模型与基于序列的模型相比,在输入层进一步引入了依存树包含的句法方面的信息,能充分学习到关系的有效特征,对于理解句子结构以及句子语义信息有明显的效果;与基于依赖关系的模型相比,本文采用基于注意力的软剪枝策略,相比SDP 或LCA 等硬剪枝策略,其能更好地利用依存树中的有效特征,同时过滤无关特征;此外,相比LSTM、GRU 和原始的图卷积运算,带有门控机制的图卷积网络在提取句子特征方面表现更优,从而进一步提高了关系抽取任务的性能。
表7 不同模型的F1值对比 单位:%Tab.7 Comparison of F1 values of different models unit:%
4 结语
本文在关系抽取任务中,针对句子依存树中的信息利用率低和特征提取器不佳的问题,提出了一种基于注意力引导的门控感知图卷积网络模型。其中,注意力引导层为完全依存树赋予权重,从而聚合依存树中的有效信息,过滤无关信息,为后续特征提取器提供更有效的输入特征,提高了依存树中的信息利用率;门控感知结构缓解了图卷积网络无法深层提取特征的问题,能够实现利用深层图卷积网络提取长距离依赖特征,从而可以有效结合句子中的局部与非局部依赖特征,得到更准确的句子表示。本文将两者分层组合共同完成关系抽取任务,实验表明该模型能够有效提升关系抽取的效果。本文模型的实验是在英文数据集上进行的,之后的工作中,将进一步将模型扩展到中文语料数据集。