APP下载

基于BERT和注意力引导图卷积网络的关系抽取

2023-02-27徐瑞涓高建瓴

智能计算机与应用 2023年2期
关键词:邻接矩阵注意力卷积

徐瑞涓, 高建瓴

(贵州大学 大数据与信息工程学院, 贵阳 550025)

0 引 言

随着互联网技术的发展和日益激增的网络数据,从大量数据中获取关键信息是当前自然语言处理(Natural Language Processing,NLP)任务中的一个研究热点,良好的关系抽取(Relation Extraction,RE)表现为自然语言处理的下游任务奠定了基础。实体关系抽取的任务的目标是从非结构化文本中抽取出实体关系三元组(SPO)。传统的关系抽取方法主要有两种主流框架,第一种是流水线的方法,第二种是联合抽取的方法。流水线的方法首先识别句中的实体,然后进行实体关系的抽取,该方法形式简单,操作灵活,但缺点仍然很明显,其级联特性在进行实体抽取时产生的误差会一直延续到关系抽取任务中,造成错误传播[1]。针对流水线方法存在的缺点,联合抽取的方法将实体识别和关系抽取两个任务合并在一个模型中进行统一建模,但是此方法模型的复杂性比较高。

虽然传统的流水线方法和联合抽取的方法已经在实体关系抽取任务中有出色的表现,但都不能处理欧几里得空间数据,并且在文本中存在重叠关系时,往往只能预测出一种关系,因此传统的关系抽取模型依旧面临挑战。

在通过图卷积网络进行关系抽取任务中,依存分析图是常用的构图方式之一,依存分析图展示了文本之间的依赖关系。基于依存关系的模型,能够捕获字面形式上比较模糊的远距离句法关系(如从句比较长或者有着复杂的范围限定的情况)[2]。2018年Zhang等人[3]针对依存树中包含大量无关系信息,提出一种基于修剪依存树的图卷积神经网络,并用于实体关系抽取问题,将修剪后的句法依存树引入图卷积网络进行实体关系抽取任务。2019年,Guo等人[4]提出了注意力引导的图卷积网络模型AGGCN,将完整的依存树作为模型的输入,结合多头注意力机制使模型自动学习不同特征空间有用的子结构,再通过注意力引导层使用多头注意力机制构造N个注意力引导邻接矩阵,将输入依存树转换为N个不同的全连接加权图后进行关系分类任务。Tian等人[5]提出一种依赖驱动的方法,将基于图卷积网络的注意力机制应用于从现成的依赖解析器获得的依赖树中的不同上下文词汇,以区分不同词汇依赖的重要性。本文提出一种基于BERT和注意力引导图卷积网络的关系抽取的方式。首先,在模型表示层摒弃传统的词向量表示方法,引入预训练模型BERT结合Bi-LSTM网络,训练出更适应上下文信息的词向量,经过微调后的BERT模型将更适应于当前语料并具备更好的语义信息,增强模型的泛化能力;其次,在构建的依存图中,采用最短路径的修剪树的方式,修剪掉图中的无关信息,降低噪声词的影响,增强其鲁棒性;最后,将多头注意力机制与图卷积网络融合,使得模型能够学习到不同子空间的特征和不同重要程度的信息,结合密集连接,使模型能够更好地学习图形表示。

1 方法介绍

本文的模型ASP-GCN(shortest path attention-guided graph convolutional network)总体框架如图1所示。模型主要由BERT词向量表示模块,Bi-LSTM网络模块,融合最短路径注意力引导图卷积网络模块(graph convolutional network ,GCN)构成。

图1 ASP-GCN总体框架

1.1 基于BERT的表示层

在自然语言处理任务中,模型执行任务的第一步是将文本转化为计算机能够理解的表达形式,输入到模型中进行接下来的操作。2018年Devlin等[6]提出BERT预训练模型,以Transformer模型的编码器作为基模型和多头注意力机制构建的模型,保存深层的特征信息,具有很好的泛化能力。

例如输入句子L={w1,w2,…,wn}是带有“[CLS]”和“[SEP]”的句子序列,n为模型设置的输入句子的最大长度,其输入表示包含3个部分,分别是词嵌入(token embedding),位置嵌入(position embedding)和分割嵌入(segment embedding)3个嵌入特征的单位和,如图2所示。BERT模型处理每一个wi的输出向量ei计算方式,式(1):

ei=Etoken(wi)+Eseg(wi)+Epos(wi)

(1)

图2 BERT模型输入结构

将模型输出的[e1,e2,…,en]向量作为BERT模型内部Transformer编码网络部分的输入表示,如图3所示。

图3 BERT模型网络结构

BERT通过预训练完成模型参数的微调,得出输入序列的词嵌入表示为[T1,T2,…,Tn]。相比传统的Word2vec,Glove等预训练模型来说,BERT更能够充分考虑抽取文本的上下文信息,获得更为精确的词向量。

1.2 Bi-LSTM层

长短期记忆神经网络(Long Short Term Memory,LSTM)是一种改进型的RNN模型,该模型有效地解决了传统RNN模型存在的梯度消失,从而限制网络学习长期依赖的问题[7]。Bi-LSTM模型是由结构相同的前向LSTM和后向LSTM构成,如图4所示。

图4 Bi-LSTM网络结构

将前向LSTM的隐藏向量[hL1,hL2,…,hLn]和后向LSTM的隐藏向量[hR1,hR2,…,hRn]拼接得到Bi-LSTM网络的隐藏向量矩阵H=[h1,h2,…,hn],H∈Rn×2h。

现有GCN模型高度依赖从正确的解析树中提取关键信息,而现有的解析算法在许多情况下产生的并不是一棵完美的树,为了解决这些问题,本文在模型中加入Bi-LSTM层,通过BERT预训练后每个词表示为一个向量Tn,将词向量表示Tn输入到Bi-LSTM中,得到句中每个单词基于上下文的特征向量hn计算如式(2):

hn=BiLSTM(Tn;θ)

(2)

其中,Tn为Bi-LSTM的隐藏状态向量,θ为网络参数。

通过加入Bi-LSTM层,模型中包含了除关键路径以外的其他信息,与仅仅只用最短路径的方法相比,其鲁棒性得到了很大的提升。

1.3 GCN模块

此模块包含两个部分,第一部分是多头注意力机制,用以分别关注文本中来自不同子空间的特征,生成不同的全连通图;第二部分是将全连通图输入图卷积网中进行特征提取。

1.3.1 依存句法分析

在图卷积网络进行关系抽取任务中,无用信息过多会引起噪声传播,导致句子中的有效信息很难被关系抽取模型有效地学习,依存句法分析是自然语言处理中传统的分析方法之一,在关系抽取任务中已经取得不错的效果。

依存关系主要通过有向弧来体现句子成分支配与被支配关系,句中的动词往往被认为是支配语句的核心。因此,本文所构建的依存句法图是以句中单词作为节点,依存关系作为边的结构图,例如:对句子“John hit the ball with the bat ”进行语义依存分析,得到语义依存图如图5所示,用7条从中心词指向依存词的有向边表示存在7对依存关系,依存边上标注的标签为依存关系类型,其中单词“hit”为根节点, “John”和“hit”具有依存关系,“hit”是中心词,“John”是依存词,二者之间的关系标签是“NSUBJ”(名词充当主语)。

图5 语义依存树

为了去除语法依存图中的冗余信息,消除噪声对后续关系抽取的影响,本文在依存句法图的基础上,获取句子最短依存路径(SDP)。大量研究证明最短路径可以有效表示实体之间的语义关系结构,路径中包含的词汇信息足够表征大多数文本的主要信息,对于句中存在否定关系的特殊情况,最短路径的修剪方法容易忽略句中的否定关系词,因此本文模型中融合了最短路径为中心的修剪树方式,最大限度保留有关内容的同时,删除树中的无关信息,提高模型的鲁棒性。

1.3.2 多头注意力机制引导层

多头注意力机制可以学习不同特征空间词之间的依赖关系和句中不同成分对词的重要程度[8]。本文将修剪好的树融合多头注意力机制分别关注文本中来自不同子空间的特征,并将不同特征的依赖树转换为完全连通的加权图,得到每个连通图的邻接矩阵A,图中每条边对应相应的权重。如:A(1)为图G(1)的邻接矩阵,A(n)为图G(n)的邻接矩阵。将任意邻接矩阵A(t)与Bi-LSTM网络的输出hn作为后面图卷积层的输入。通过注意力引导层使用注意力来诱导节点之间的关系,对于通过间接多跳路径连接的节点,可以通过模型中的可微分函数来捕捉这些关系。

在本文提出的模型中,通过使用多头注意力机制来计算属于邻接矩阵A(t)的信息,A(t)表示通过第t个头注意力得到的邻接矩阵,这使得模型能够关注来自不同表示子空间的信息,计算公式(3):

(3)

通过注意力引导层,经过密集连接层得到一个更大的全连接图,可以更好地学习图表示。

1.3.3 图卷积网络

本文在特征提取和依存树后引入图卷积网络(Graph Convolutional Network,GCN)进一步对特征进行处理,通过构建依存句法图,获取最短路径为中心的依存图,结合多头注意力机制关注不同子空间的信息,生成多个带有权重的全连通图,并各自转化为相应的邻接矩阵A(t)。通过BERT预训练模型对输入文本进行编码,Bi-LSTM网络融合上下文信息,得到输入文本的词嵌入表示,将邻接矩阵A(t)作为输入词嵌入的权值,将加权结果输入到GCN中进行特征提取。

(4)

1.4 线性连接层

在本文的模型中包含了一个线性连接层,当依存树通过多头注意力层后,可以得到n个不同的注意力权重矩阵A(t),相当于在图卷积网络的输入邻接矩阵输入模型中进行特征提取,可以得到N个不同的输出结构,本文利用线性连接层集成n个不同的结果,整合成最终的输出特征hcomb, 其输出的数学定义如式(5)所示:

hcomb=Wcombhout+bcomb

(5)

其中,hout表示注意力引导层的输出结果,hout=[h(1),h(2),…,h(n)];Wcomb为权重矩阵;bcomb为线性偏置向量。

1.5 关系抽取

应用本文模型的数据,获得了所有标记的隐藏表示,关系抽取的任务就是预测两实体之间的关系。连接句子表示和实体表示,得到关系分类的最终表示[10]。首先,需要获得句子表示hsent,计算公式(6)如下:

hsent=f(hmask)=f(ASP-GCN(x))

(6)

其中,hmask表示被mask所有隐藏表示,这里mask的意思是只选择在句子中不是实体标记的标记表示,f:Rd×n→Rd×1是一个最大池化函数,其将n个输出向量映射到1个句子向量。

类似的,也可以获得实体表示。对于第i个实体的隐藏表示,其表示为式(7):

hei=f(hei)

(7)

实体表示与句子表示连接起来形成新的表示,新的表示应用于前馈神经网络(Feed Forward Neural Network,FFNN),hfinal作为logistic回归分类器的输入进行关系的预测,式(8):

hfinal=FFNN([hsent;he1;...;hei])

(8)

2 实验数据及分析

2.1 数据集和参数设置

本文使用TACRED数据集,该数据集包含41种关系类型和一种特殊的关系类型,即“无关系”类型,其中训练集106 264条,验证集22 631条,测试集15 509条。

自然语言处理任务中准确率(precise),召回率(recall),F1值是模型的评价指标。训练过程中,为了使模型的效果更佳,需要对模型的参数进行调节,本文的模型中对于超参数的设置见表1。

表1 模型超参数设置

2.2 基线模型及评估方案

将本文模型与以下几种模型进行对比:逻辑回归分类器模型(LR),最短路径模型(SDP-LSTM),树结构神经网络模型(Tree-LSTM),均使用修剪树过后的GCN模型和C-GCN模型,最先进的位置感知模型(PA-LSTM),注意力导向图卷积神经网络模型(AGGCN),实验结果见表2。

表2 各模型在TACRED数据集上的实验结果比较

由表2可知,回归分类器(LR)的准确率在所有模型中最高,但是召回率相对较低;与神经网络模型(SDP-LSTM),(Tree-LSTM)和(PA-LSTM)的准确率相比,ASP-GCN模型的优势较为明显;以模型SDP-LSTM为例,ASP-GCN模型的准确率得到了10.2%的提高,这主要得益于GCN对于图的特征提取能力;对于综合指标F1值,ASP-GCN模型明显优于同样使用GCN网络的C-GCN模型和AGGCN模型,说明本文模型中结合BERT预训练,Bi-LSTM网络,最短路径为中心的修剪方法,多头注意力机制对模型的抽取性能是有帮助的。由此可见,本文提出的模型也是关系抽取任务中一个具备一定竞争力的模型。

2.3 消融实验

为了检验模型中各因素对关系抽取的影响,采用控制变量法进行实验。实验步骤如下:

(1)检验BERT预训练模型对本模型抽取性能的影响,主要与glove词嵌入模型进行比较;

(2)检验Bi-LSTM对本模型抽取性能的影响;

(3)检验最短路径修剪树方法对本模型抽取性能的影响;

(4)检验多头注意力机制对本模型抽取性能的影响。

4种模型的抽取结果见表3。由表3可知:

(1)将ASP-GCN模型中BERT预训练模型换成glove模型后F1值降低了1.1%,这说明BERT强大的语义表征能力对于模型后续任务有很大的帮助;

(2)删除Bi-LSTM层后,ASP-GCN模型的F1降低了2.7%,这说明Bi-LSTM对文本特征进行初次提取有益于模型后续的处理;

(3)删除最短路径为中心的剪枝方式后,ASP-GCN模型的F1值降低了1.1%,说明筛选出文本中的无用信息,不仅可以提高模型的运行速率,还能提高模型的抽取性能;

(4)删除多头注意力时,模型F1值降低了2%,说明通过关注不同子空间的特征对模型的抽取任务有很大的作用。

2.4 注意力多头数分析

为了验证模型中多头注意力机制对模型结果的影响,实验分别对比了注意力头数N的不同取值的不同模型效果,实验结果见表4所示,由表4可以看出,不同头数的注意力机制会对模型产生不同的影响,模型的最优值属于一定的范围,取值较小时,模型的特征提取能力较弱,取值较大时,可能会带来信息冗余,当N=3时,模型效果相对较好。

表4 不同多头取值模型效果

2.5 以路径为中心的剪枝效果

为证明本文提出的剪枝方法的有效性,比较了GCN模型,Tree-LSTM模型和本文模型的剪枝距离L变化对模型的影响。在TACRED数据集上分别采用L={0,1,2,3}时得到的结果如图6所示。

图6 以路径为中心的修剪距离(K)

当K=1时,3个模型的性能都达到了峰值,优于各自模型的其他依赖路径模型。表明通过K=1的路径为中心的修剪方式可以使模型得到改善。

3 结束语

本文提出了一种基于BERT和注意力引导图卷积网络的关系抽取模型,通过实验证实了在使用图卷积进行关系抽取的任务中,通过BERT预训练模型与Bi-LSTM结合对文本进行表征,加入最短路径修剪树,以及利用多头注意力机制等方式对于整个图卷积模型进行关系抽取任务来说是有益的,得到的结果均优于本文提及的其它基于深度学习的基线模型,从而证明了本文模型的合理性。

猜你喜欢

邻接矩阵注意力卷积
轮图的平衡性
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
基于邻接矩阵变型的K分网络社团算法
Inverse of Adjacency Matrix of a Graph with Matrix Weights
一种基于卷积神经网络的性别识别方法