一种融合语义角色和依存句法的实体关系抽取算法

2019-03-18秦晓慧

北京信息科技大学学报(自然科学版) 2019年1期

秦晓慧，侯霞，赵雪

(北京信息科技大学计算机学院，北京 100192)

0 引言

随着大数据时代的到来，如何从海量的数据中获取有用信息成为自然语言处理和数据挖掘中的难点和热点问题。信息抽取[1]可以从结构化和半结构化的文本信息中抽取指定的内容，帮助用户快速便捷地获取所需信息。实体抽取、关系抽取、事件抽取是其中三大关键技术。实体关系抽取的目标是从文本信息中获取三元组[实体关系实体]，是构造知识库[2]的关键技术之一，应用于自动问答[3]、知识图谱构建[4]、语音识别[5]等领域。

针对中文文本实体关系复杂的情况，徐芬等[6]首次提出基于SVM的方式进行实体抽取，通过构造上下文特征向量的方式，融合了词、实体属性、实体间包含关系等综合信息；毛小丽等[8]提出了基于语义角色标注的实体关系抽取方法，与未加入语义角色识别的模型相比，F1值有了极大地提升，表明语义角色特征有利于实体及关系抽取；郭喜跃等[9]在句法分析的基础上，提出句法与语义特征融合的实体关系抽取方法，该方法主要融合了句法依存关系、实体与核心谓词的距离、语义角色标注等信息，可以有效识别实体间的雇佣关系、位于关系和同类关系；甘丽新等[10]在此基础上融入了依存句法组合特征及动词依赖，使识别的关系类型种类有了很大的提高。以上文献表明，融合句法依存和语义角色标注能够有效地提高实体关系抽取的性能。但是上述方法都是先抽取实体对，再抽取它们之间存在的关系，最终形成实体关系的三元组。近年来，基于深度学习的实体关系抽取技术[11]的研究也取得了相应的成果。唐敏等[12]通过基于实体注意力的深度学习实体关系抽取模型来辨别语义关系；Lin等[13]提出了一种在纯文本中进行关系抽取的方法，在引入多语言的神经关系抽取框架的基础上加入注意机制，有效地控制了噪声句子的影响。

本文提出一种实体关系抽取方法，采用语义角色标注和句法依存相融合的方式直接分析句子，获得最终的实体关系三元组。相较于上文中提到通过2个实体进一步抽取关系的方式，该方法采用先抽取一个实体和关系，再进一步抽取另一个对应实体的方法，可以有效地从文本信息中获取尽可能全面的实体对，减少信息的丢失。

1 实体关系抽取算法

1.1 算法设计思路

本文分析的句子主要以陈述句和主动句为主。基于语义角色和依存句法的实体关系抽取算法整体设计思路如图1所示。

图1 实体及关系抽取结构

算法原理如下。

1)利用语义角色识别[14]的方式抽取句子中的主语和核心谓词。在一个句子中，谓词处于核心位置，通过论元分析找出动作的实施者即为要抽取的主语实体。

2)通过依存关系句法[15]分析，找出与核心谓词语义相关的宾语。依存关系句法分析主要是分析句子中存在的并列结构(COO)、动宾结构(VOB)两种关系结构。定位、抽取宾语的过程主要包括两部分：定位并抽取所有与核心谓词存在VOB结构关系的实体；先定位与核心谓词存在COO结构关系的部分，再进一步定位并抽取与该部分存在VOB结构的实体。

3)整合主语、核心谓词和宾语构成[实体,关系,实体]三元组。

1.1.1 基于语义角色标注的主语和核心谓词抽取

语义角色标注[14]是一种浅层的语义分析技术，不对句子所包含的语义信息进行深入的分析，而是以句子的谓语为核心，只研究句子中各成分与谓语之间的关系，如动作的施事者(A0)、受事者(A1)、时间(TMP)、地点(DOC)等。通过语义角色标注[13]的方式可以有效地分析出句子的主干成分“主语+谓语+宾语”。

以句子“习近平总书记发表重要讲话和报告”为例，对其进行语义角色标注，如图2所示。其中，“发表”为句子的核心谓词，“习近平总书记”为核心谓词的施事者(AO)，也是该句子的主语成分，“重要讲话和报告”为核心谓词的受事者(A1)也是句子的宾语成分，通过语义角色标注可以抽取一组实体关系三元组：[习近平总书记发表重要讲话和报告]。

图2 语义角色标注示例

对于简单句来说，通过语义角色标注可以直接获取实体关系三元组。但是，通过分析上述句子发现，句子中其实存在“重要讲话”和“报告”2个宾语，实体关系抽取最好能得到(习近平总书记-发表-重要讲话)和(习近平总书记-发表-报告)2组三元组。抽取主谓宾的方式无法实现这个目标。

1.1.2 融合依存关系分析的宾语抽取

在一个复杂句中可能存在多个谓词和多个宾语。为了获取尽可能全面的实体及实体间的关系，先基于语义角色标注提取主语和核心谓词后，再融合依存关系分析来抽取宾语，获得实体关系三元组。

通过依存关系分析[14]抽取宾语可从两方面进行：

1)对核心谓词进行依存关系分析，通过谓词之间的COO并列关系找出句子中的所有谓词，以此来定位宾语。

图4 实体三元组抽取算法流程

2)通过VOB动宾关系获得句子中的宾语。

以句子“果篮里存放两种水果，一种为香蕉，一种为苹果”为例进行分析，如图3所示。

图3 融合语义角色标注的句法分析结构示例

由图3可知，当前核心谓词为“存放”，图中“为”跟“存放”存在COO关系，所以定位到“为”的右侧，之后寻找与“为”之间存在VOB关系的实体，由此定位“香蕉”。此外“是”跟“存放”之间也存在COO关系，所以定位到“是”的右侧，“苹果”与“是”中存在VOB关系，同理定位到“苹果”。通过上图的句法分析，可以获得该复杂句中的实体-关系-实体三元组，分别为：(果篮-存放-水果)、(果篮-存放-香蕉)、(果篮-存放-苹果)。该方法在处理复杂句中多谓词多宾语的情况下是有效的。依存句法中的COO、VOB结构，可以有效地定位复杂句中可能存在的宾语实体。通常宾语的词性主要有名词、动词、字符等，在经过依存句法分析之后，可以通过词性判断进一步确定宾语实体。

1.2 基于语义角色与依存句法的实体抽取算法

根据上节所述的设计思路，本节中给出具体的基于语义角色与依存句法的实体关系抽取算法设计，算法流程如图4所示。其中主要处理过程如下：

1)输入句子；

2)通过语义角色标注得到主语a和核心谓词p，同时依次经过分词和词性标注以及依存句法分析得到带词性和依存关系的分词向量；

3)定义i为分词后的索引值并初始化i=1；

4)当ei=p时，初始化start =end =i；

5)进行向量的遍历，每次往后移1个单位。

6)判断当前项是否与当前谓词存在VOB动宾结构，如果存在则继续判断当前项的词性是否是名词、动词、字符。如果符合则令end =i，并抽取[apei]；否则跳转到5)。

7)判断当前项是否与当前谓词存在COO并列结构，满足则令start =i，然后跳转到5)；否则直接跳转到5)。

2 实验与分析

2.1 测评标准

通常，将满足限定条件的类设定为正类，其他为负类。本实验在测试集上可能出现的情况主要有4种：将正类预测成为正类；将正类预测成为负类；将负类预测成为正类；将负类预测成为负类。对应的出现次数分别为t1、t2、f1、f2。

在自然语言处理、信息检等领域，常用精确率、召回率、F1-Measure作为评价指标[16]。

精确率P是指在给定的测试数据中，分类器正确分类的样本数与总样本数之比：

(1)

召回率R是指分类器正确分类的样本数与总分类结果之比：

(2)

F是结合精确率和召回率的综合评价指标，称为调和均值，即

(3)

2.2 结果与分析

本文主要采用精确率、召回率、F1值3个指标进行算法评测。测试的数据集来自于在线教学文档(https://cooc-china.github.io/android/2017/01/22/android课程手册.html)，对其中3624个句子进行实体关系抽取。算法实现中借助哈尔滨工业大学的LTP-Cloud评测平台进行语义角色标注和依存句法分析。

针对单纯依赖语义角色识别的实体关系抽取算法和本文所提算法分别进行了测评，测评结果如表1所示。

表1 测评结果 %

从表1中可以看出，与仅依赖角色识别的算法相比，本文所提的基于角色识别和依存关系相融合的实体关系抽取算法在3个指标上都有所提高。

针对本文算法中抽取失败的问题，通过对实验分析发现，主要由以下几方面原因造成：

1)句子本身含有语病。经统计有语病的句子占抽取失败句子总数的33.1%，造成失败的主要原因是由于编写时语法错误,前期可以通过文本预处理将这部分本身存在语病的句子去除掉。

2)句子开头不包含主语。此部分占抽取失败句子总数的14.3%。造成失败的主要原因是此类句子不适合抽取实体三元组。例如，“写论文”就缺少主语，无法通过算法抽取构建实体三元组，可以在前期文本预处理阶段将缺少主语的句子去掉，也可以进行主语补全。

3)句型过于复杂。此部分占抽取失败句子总数的28.0%。造成失败的主要原因是在编写时未及时断句导致句子过长。在文本预处理阶段可以进行句子拆分。

4)算法本身的问题。由于算法本身存在一定缺陷，不能准确识别出结果，此部分占抽取失败总数的24.6%。

3 结束语

通过文中的比较实验可知，基于角色识别和依存关系分析的实体关系抽取方法是行之有效的。尤其在处理一个句子中出现多谓语多宾语的情况。但是，由于语料本身存在一定的问题，所以后期的工作可以从语料预处理方面改进，对缺少主语的句子进行主语补全等。完善之后，该方法能够有效处理一个句子中出现多对实体三元组的情况，为后期知识图谱的建立提供数据支持。