APP下载

基于实体图路径聚合的多实体关系抽取

2020-09-04乔晶晶段利国

计算机工程与设计 2020年8期
关键词:语义实体向量

乔晶晶,温 政,段利国+,王 莉

(1.太原理工大学 信息与计算机学院,山西 太原 030024;2.太原理工大学 大数据学院,山西 太原 030024)

0 引 言

实体关系抽取是自然语言处理(NLP)领域中信息抽取的一个重要子任务,其目的是抽取命名实体之间的语义关系,广泛应用于知识库构建、语义搜索、智能问答等领域,受到了研究者的广泛关注。关系类型确定的关系抽取通过给实体对划分一个预先定义好的关系类型完成关系抽取任务。已有的研究大多在仅包含一个标注实体对的句子中进行关系抽取,这种情况过于理想化,现实句子中往往包含多个实体。多实体关系抽取的相关研究仍处于起步阶段,其研究对构建商业应用并落地具有重要的意义。

本文针对多实体关系抽取进行研究,主要贡献如下:① 提出一种基于神经网络的多实体关系抽取模型。②在基于实体图的多实体关系抽取时提出一种具有良好解释性的路径聚合算法。③在ACE 2005英文数据集的关系抽取任务上取得了很好的效果。

1 相关工作

单一实体对关系抽取的研究方法主要分为基于知识工程和基于机器学习两种。基于知识工程的方法高度依赖专家构建的规则库,通过与规则的匹配进行关系抽取。这种方法的优点是在限定领域表现卓越,缺点是构建规则过度依赖专家知识和经验,因此工作量巨大,而且领域界限明显,通用性不足。

越来越多的研究者将机器学习的方法应用于关系抽取。一种方法是基于特征的方法,结合启发式方法提取词汇、句法、语义等特征,对特征向量化,利用机器学习算法完成关系抽取。实体词义、词性、相邻实体信息等词汇特征,语块、句法树等句法特征,实体类型、语义角色等语义特征被关系抽取研究者广泛采用,特别是多特征融合对关系抽取性能的提升效果明显。基于核函数的方法通过核函数比较语料之间的句法结构相似性进行关系分类,节省了基于特征工程的方法构建高维复杂特征工程的工作。常用的核函数有卷积核函数、实体对间最小公共子树核函数、实体对间最短依存路径核函数等。结构信息的隐形特征中可能存在的噪声、语义多样性产生不同句法结构树、长短语料处理能力不同等都影响该方法的性能。

近年来,基于深度学习的关系抽取方法成为主流。相关研究如下:文献[1]从特定的标记数据中学习到重要的特征,利用注意力机制计算句子中每个词对于实体关系类别的重要程度,将词嵌入、词性嵌入、位置嵌入作为卷积神经网络的输入实现语义关系抽取。文献[2]将关系抽取扩展到了多种语言,考虑到多语言文本中信息的一致性和完整性,使用跨语言注意力机制,提出多语言神经网络关系抽取模型。由于远程监督方法构造的数据集中存在大量的噪声,文献[3]用生成式对抗网络(GAN)来过滤数据,将生成器生成的正样本视为负样本,用以训练判别器,选择判别器的判别能力达到最低时的生成器作为最优的生成器,然后用这个生成器来过滤掉假阳性句子,最终生成低噪声的关系抽取数据集。针对传统方法未考虑深度学习模型输入与输出之间相关性这一问题,文献[4]在长短期记忆网络模型中加入注意力机制,提取了更有效的文本特征,提高了关系抽取的准确率。文献[5]提出基于全局优化的端到端关系抽取模型,充分考虑上下文的作用,通过双仿射关注解析器的长短期记忆网络学习并获取输入句子的特征。孙紫阳等[6]首先使用双向长短期记忆网络学习最短依存路径的表示信息,然后用卷积神经网络在长短期记忆网络的输出上训练分类模型。文献[7]提出一种基于最短依存路径的双通道深度学习模型,将使用Word2vec表示的句子最短依存路径作为卷积神经网络的输入,将使用GloVe表示的句子最短依存路径作为双向长短期记忆网络的输入,拼接两个网络学习的特征,通过softmax分类器得出所属关系的类型。实验结果表明结合顺序记忆和卷积学习会有更好的效果。

多实体对的研究由于数据集匮乏、难度高,目前相关研究比较少,是关系抽取研究的新趋势。已有的研究有:文献[8]提出了采用复制机制的端到端模型,在New York Times(NYT)数据集和WebNLG数据集的多实体关系抽取上均取得不错的效果。常规的关系抽取都是先进行命名实体识别,然后确定实体间的关系类型。文献[9]提供了新思路,在命名实体识别和关系抽取的联合学习中,先进行关系检测,然后识别该关系的两个实体;将任务分为关系指示符识别和关系中实体提取两个分层强化学习过程,解决了关系抽取中一个句子存在多个关系和关系重叠的问题。文献[10]考虑了句子中不同实体之间的关联,构建有向图并迭代的更新实体对之间边的表示,为多实体关系抽取提供了新的启发,文中提出的路径聚合算法虽然取得了不错的效果,但缺乏可解释性,不符合节点间路径的定义。

本文基于以上研究,在实体间路径聚合时提出一种方法,同时考虑实体间不同长度的路径,将相同长度的路径通过注意力机制表示成单一向量,不同长度路径的单一向量表示拼接,作为特征,进行关系抽取。

2 关系抽取模型

本文研究多实体关系抽取,针对文献[10]的路径聚合算法可解释性不足,不符合对路径直观理解这一情况,提出一种路径聚合算法。在路径聚合时将实体间不同长度的路径通过注意力机制聚合为单一向量,然后进行关系抽取。图1为多实体关系抽取的模型结构,包含向量层、双向LSTM层、实体对及实体对上下文提取层、边表示层、路径聚合层和分类层。

2.1 向量层

向量层由两部分组成:分别为词向量和词相对目标实体对位置的位置向量。词向量技术将词语转换成一个包含丰富语义信息的低维实值向量,语义相似的词会有相似的词向量,是基于深度学习的自然语言处理领域取得重大突破的关键技术。Word2vec是谷歌开发的目前最为通用的词向量预训练模型。由于本文实验数据集规模较小,在数据集上训练的词向量不够充分,语义表示能力差,因此本文使用Mikolov等用Word2Vec在Google News语料上训练得到的词向量对语句镜像向量化表示。词相对目标实体对位置的位置向量定义为文档中的词与两个实体词之间距离的向量化表示,对判别两个实体之间的语义信息有所帮助。

2.2 BLSTM层

长短期记忆网络是一种特殊的RNN结构,通过自适应门控机制决定记忆单元保留上一级记忆状态和提取当前输入特征的程度,可以处理RNN面临的长期依赖问题。长短期记忆网络由遗忘门、输入门、输出门和记忆单元组成。双向长短期记忆网络同时考虑前向和后向的词信息,能够捕捉双向语义信息。本文将文档中每个词的词向量表示输入双向长短期记忆网络,为每个词编码上下文信息,BLSTM网络的输出为考虑了词序列信息的新的词级别的向量表示。对于每个词w,将LSTM网络从左到右和从右到左的输出进行拼接,作为该词的BLSTM表示,如式(1)所示

图1 基于实体图路径聚合的多实体关系抽取模型

(1)

2.3 边表示层

利用实体对及实体对上下文提取层得到的实体对及实体对上下文表示实体对之间的边。假设实体对包含实体ei和ej,如果一个实体由多个词组成,将这些词的BLSTM表示的平均作为该实体的BLSTM表示,如式(2)所示,其中in为实体ei包含词的个数,bik为实体ei的第k个词的BLSTM向量表示

(2)

实体ei的向量表示由其BLSTM表示bi、实体类型表示ti及其与实体ej相对位置的位置向量pij拼接而成。同理,表示ej时,使用其与ei的相对位置的位置向量pji。式(3)、式(4)所示为实体ei和实体ej的向量表示

vi=[bi;ti;pij]

(3)

vj=[bj;tj;pji]

(4)

实体对ei和ej的上下文词wz由其BLSTM表示bz及相对实体ei和ej位置的位置向量pzi和pzj拼接而成,如式(5)所示

vijz=[bz;pzi;pzj]

(5)

将实体对不同上下文词的表示通过注意力机制转化为单一表示。过程为先计算每个上下文词的权重,然后将其加权平均。如式(6)、式(7)、式(8)、式(9)所示

(6)

u=qTtanh(Cij)

(7)

α=softmax(u)

(8)

cij=CijαT

(9)

其中,m是上下文词的个数,q是一个可训练的注意力向量,维数为dc,dc=db+2dp,db是上下文词BLSTM表示的维数,dp是位置向量的维数。α是权重向量,cij为经过加权平均的实体对上下文表示。

最后,拼接实体和实体对上下文的表示,作为节点i到节点j有向边的向量表示,如式(10)所示

edgeij=[vi;vj;cij]

(10)

2.4 路径聚合层

路径聚合的目的是将实体对间不同长度的路径整合为单一表示,因此本文把文档表示为有向图,图中的节点为文档中的实体。当实体个数为n时,两个实体间的路径长度可以为1,2,3,…,n-1,选取路径长度为1,2,…,m(m

(11)

u=Wp·tanh(Pathj)

(12)

α=softmax(u)

(13)

pathj=PathjαT

(14)

图2 路径长度为2时的路径

当某种路径长度的路径不存在时,用零向量作为该路径长度的表示。最后,将不同路径长度的向量表示拼接,作为实体对间关系的表示,如式(15)所示

R=[path1,path2,…,pathl]

(15)

2.5 分类层

将上一节考虑实体对、实体类别、实体位置、实体上下文的实体对间关系的表示输入到带softmax分类函数的全连接层,完成关系抽取,如式(16)所示。

y=softmax(Wr(R∘r)+br)

(16)

其中,Wr∈Rnr×nb,nr表示关系类型总数,nb表示路径聚合后向量的维度,br是偏差向量,符号∘表示逐元素相乘,r∈Rnr是服从概率为ρ的零一分布的遮掩向量。

模型的优化目标是最小化预测关系类型与实际关系类型之间的交叉熵损失函数。损失函数如式(17)所示

(17)

其中,Θ表示模型的超参数,S表示训练集中所有的实体对集合,yi取值为1或0,表示实体对s与关系类别i对应或不对应。

模型使用dropout避免过拟合,使用反向传播计算梯度,采用Adam优化器进行优化。

3 实验与结果分析

3.1 数据集

本文使用标准数据集ACE 2005评测基于实体图路径聚合的多实体关系抽取模型,该数据集包含来自博客、新闻稿、广播等不同来源的599篇文档,7种关系类型,其中METONYMY、PER-SOC和PHYS是对称的、没有方向的,其余4种ART、GEN-AFF、ORG-AFF、PART-WHOLE是有方向的,加上Other类型,共12种关系类型。使用精确率、召回率和F1值作为评价标准。

3.2 超参数设置

本文从训练集中随机划分出1/10的数据作为验证集,在验证集上得出模型的超参数取值,见表1。

表1 模型超参数及取值

3.3 实验结果分析

3.3.1 不同模型的结果分析

为充分验证基于实体图路径聚合的多实体关系抽取模型的性能,本文选择近年来在ACE 2005数据集上进行实体关系抽取取得较好成绩的方法进行比较。

Meishan Zhang等[5]提出全局优化的关系抽取模型Global Optimization,该方法通过背景知识获取语义信息,并且将其用于全局优化。Miwa和Bansal[11]提出SPTree system,该方法在词序列和依存树结构上堆叠双向LSTM,在实体识别和关系抽取时共享权重参数。Fenian Christopoulou和Makoto Miwa[10]提出基于路径聚合的方法Walk Aggregation,该方法在实体图路径聚合时采用线性变换,然后迭代地更新路径。

表2为不同方法的实验结果对比。由表可知,随着采用路径长度的增加,关系抽取的F1值会提高,在路径长度为4时,F1值最高,达到66.1,比Global Optimization方法高8.6,比SPTREE方法高0.8,比原始路径聚合方法Walk Aggregation最高的F1值高1.9。表明本文提出的路径聚合算法能够有效抽取多实体关系。当路径长度继续增加时,F1值缓慢下降,经过分析,可能原因如下:一方面,数据集中半数样本包含5个及以下实体,这部分样本路径长度小于等于4。若继续增加对这部分样本的路径,反而会增加模型参数的数量,增大过拟合的风险,使模型在测试集上表现变差。另一方面,实体之间较短的路径会蕴含关系类型信息,而过长的路径由于相隔距离远,可能不再包含关系类型信息。

表2 不同算法实验结果对比

3.3.2 不同实体数目的结果分析

为探究本文方法在实体数目不同时的表现,本部分对实体数目不同时的F1值进行分析,结果见表3。由表3,随着句子中包含实体对数的增多,模型抽取效果下降,该结果符合常识,因为实体对数多的句子中,不同实体错综复杂,对关系抽取造成干扰。

图3为实体数为4~6、6~12、12~23时的实验结果。由图可知,路径长度从2增加到4时,F1值均有所提升,表明对于包含实体数目较多的文档,当路径长度增加时,由于本文方法充分考虑了实体间不同长度路径蕴含的语义信息,能够更好表示实体间的关系,抽取效果有所提升。

图3 路径长度对结果的影响

3.3.3 不同关系类型结果分析

为探究本文方法在不同关系类别上的表现,本部分对除other类之外的11种关系类型的F1值进行分析,实验结果如图4所示,横坐标中大写字母为关系类型首字母的缩写。

图4 不同关系类别上的实验结果

由图4可知,由于关系类型METONYMY和PHYS是对称的,不需要考虑方向,比需要考虑方向的关系类型容易判断,所以其F1值最高。PER-SOC结果最差,经过分析发现数据集中该关系类型的样本较少,导致学习不充分。

4 结束语

本文提出一种改进的基于实体图路径聚合的多实体关系抽取模型,在基于实体图的多实体关系抽取时,同时考虑实体间不同长度的路径,采用注意力机制聚合长度相同的不同路径,综合不同路径蕴含的语义信息。实验结果表明,在ACE 2005数据集上,本文方法性能优于当前已有的方法。

与RNN相比,transformer有更强的捕获长距离特征的能力,并且训练速度更快。下一步,我们将尝试使用transformer特征抽取器或者多层自注意力代替LSTM,用抽取的结果表示实体图中的边,以期进一步提高多实体关系抽取效果。

猜你喜欢

语义实体向量
向量的分解
聚焦“向量与三角”创新题
语言与语义
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
向量垂直在解析几何中的应用