神经网络事件抽取技术综述
2018-09-05秦彦霞张民郑德权
秦彦霞 张民 郑德权
文章编号: 2095-2163(2018)03-0001-06中图分类号: 文献标志码: A
摘要: 关键词: (1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
2 School of Computer Science & Technology, Soochow University, Suzhou Jiangsu 215006, China)
Abstract: Event extraction is one important research task in information extraction, which shows great value to information retrieval, question answering and opinion analysis. Traditional event extraction methods manually design features and use Maximum Entropy classifier or Support Vector Machine classifier for trigger classification and argument role identification. Recently, neural network-based methods have shown their effectiveness in image classification, speech recognition and natural language processing areas. The advantage of neural network-based methods is automatic feature learning, thus avoid laborious feature engineering. This article will introduce recent neural network-based methods proposed for event extraction and discuss future work in this area.
Key words:
基金项目:
作者简介:
收稿日期: 引言
事件作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。事件抽取是从自由文本中识别事件的发生并抽取事件的各元素的任务。本文将会探讨介绍基于ACE2005评测(http://projects.ldc.upenn.edu/ace/)的事件抽取任務及方法。根据ACE2005评测,组成事件的各元素包括:触发词、事件类型、论元及论元角色。事件抽取任务可分解为4个子任务:触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。
传统事件抽取方法[1-11]均采用人工构建特征的方法表示每个候选触发词或每个触发词-实体对,然后借助基于统计的分类模型进行分类。以往方法重点在于研究有效的特征来捕捉候选触发词、候选论元的词法、句法、语义信息,以及触发词-触发词之间的依赖关系、和同一触发词相关的多个实体之间的依赖关系、和同一实体相关的多个触发词之间的关系。此外,还有若干工作研究跨句子和跨文档的事件一致性特征[9]、跨事件的一致性特征[10]和跨实体的事件一致性特征[11]来提高事件抽取的性能。
近年来兴起的神经网络方法,能够自动学习有效特征。不同于传统的离散型特征,神经网络特征多是连续型向量特征,除了能够建模语义信息外,还能自动组合构建更上层的特征。这些特征的高效性已经在自然语言处理众多任务中屡获验证,并带来突破性进展。在事件抽取任务中也陆续涌现出一些基于神经网络的事件抽取方法,使得研究人员免于继续从事繁琐的特征工程。本文将全面剖析论述已有的神经网络事件抽取方法,并对以后的研究方向给出预期展望。
1事件抽取定义
本节将围绕自动内容抽取(Automatic Content Extraction, ACE)评测中的英文事件抽取任务涉及的相关术语及任务,对其展开如下的研究阐释。
(1)实体(Entity)。属于某个语义类别的对象或对象集合。其中包括:人(PER)、地理政治区域名(GPE)、组织机构(ORG)、地名(LOC)、武器(WEA)、建筑设施(FAC)和交通工具(VEH)。
(2)事件触发词(Event Trigger)。表示事件发生的核心词,多为动词或名词。
(3)事件论元(Event Argument)。事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位(Job-Title)。和实体一样,ACE05也标记出了句子中出现的值和时间。下文中,即将实体、值、时间统称为实体。
(4)论元角色(Argument Role)。事件论元在事件中充当的角色。共有35类角色,例如,攻击者(Attacker)、受害者(Victim)等。
ACE2005定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33种事件类型。事件识别是基于词的34类(33类事件类型+None)多元分类任务,角色分类是基于词对的36类(35类角色类型+None)多元分类任务。这里,参考文献[8]可得如下例句:
In Baghdad, a cameraman died when an American tank fired on the Palestine hotel. (在Baghdad, 当一个美国坦克对着Palestine酒店开火时一个摄影师死去了)
以上例句中出现的事件解析可见表1。
作为一种有监督多元分类任务,事件抽取方法包括2个步骤:特征选择和分类模型。本文根据使用特征的范围不同、模型学习方式不同和外部资源的使用与否对不同的事件抽取方法进行分类。各类方法的研究内容可详见如下。
(1)根据所使用特征的范围,事件抽取方法可以分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说,句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而篇章级特征则属于面向实际任务挖掘的特效特征。
(2)根据学习方式不同,可以分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。事件抽取任务分为事件识别和论元角色分类任务。其中,后者输入依赖于前者输出。论元角色分类任务的输入是识别出的触发词和所有候选实体。大部分事件抽取方法都是流水线模型学习方式,先进行事件识别模型的学习,再转入论元角色分类模型的学习。而经仿真验证基于联合模型的学习方式的效果要优于流水线模型学习方式,故而也随即产生了基于联合模型的事件抽取工作。
(3)ACE05数据是现有的为数不多的有标记事件数据之一,是在新闻、博客、访谈等数据上进行人工标注得到的。ACE数据的标注质量不高以及规模较小的问题,也在很大程度上影响了事件抽取任务的发展。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据(即ACE数据)的事件抽取方法和融合外部资源的事件抽取方法。
2.1句子/篇章级的事件抽取方法
传统方法中,句子级别的特征可以分为基于词的特征和基于词对的特征。其中,基于词的传统离散特征包括:
(1)词法特征。例如当前词及周边词的一元/二元语法、词性标签、词干、同义词等。
(2)句法特征。例如当前词的依存词和核心词、涉及的依存关系、是否是未被引用的代词、句法分析树中路径等。
(3)实体信息。例如实体类型、距离最近的实体类型、是否是相同类型论元候选中距离触发词最近的等等。
基于词对的特征有:触发词-触发词之间的共现关系和触发词-论元的多种依赖关系等。
而篇章级事件抽取方法则额外考虑了跨句子或跨文档的特征辅助任务实现。例如,相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征。
本小节将主要讨论现有的句子级神经网络事件抽取方法[12-16]。不同于传统离散特征,神经网络方法以连续型向量为特征,并通过不同的神经网络模型学习更抽象的特征。以事件识别任务为例,神经网络事件抽取方法的流程为:首先用初始化的特征向量表示候选触发词,然后通过神经网络模型自动更新学习特征以及组合更高级别特征,最后通过Softmax模型来输出分类。除了特征表示和学习方式的不同外,传统方法和神经网络方法在分类模型上亦有不同。传统方法使用不同的分类模型进行分类,例如常用的最大熵模型和支持向量机模型。神经网络方法则采用Softmax模型来设计确定分类。
Chen等人[12]和Nguyen等人[13]率先尝试将神经网络方法分别应用于事件抽取、识别任务中,并取得了很好的效果,验证了神经网络特征的有效性。初始特征表示方面,二者均采用了预训练的词向量作为每个单词的初始表示,而且还融入了单词的语义和语法信息的建模研究[17-18]。特殊而必要地,二者还都使用了位置信息来建模当前词和候选触发词的距离。受传统特征启发,常用的特征还包括当前词的事件类型向量和实体类型向量。Nguyen等人利用实体类型特征来辅助事件识别任务,而Chen等人使用事件类型特征用于角色分类任务。
在上层特征学习模型方面,研究中均使用了卷积神经网络模型[19](Convolutional Neural Network, CNN)来自动抽取有效特征进行事件抽取或识别任务。更进一步地,Chen等人改进了传统的CNN模型,增配了动态多池机制(dynamic multi-pooling)来提高事件抽取任务性能。研究认为,相比于最大池机制,通过候选触发词和候选实体位置分割成3部分的动态多池机制,能够获取更为精细、有效的特征用于角色分类。Nguyen等人[14]则提出了一种基于离散短语(skip-gram)的卷积神经网络模型来辅助事件识别。相比于传统的连续词袋模型,基于离散短语的卷积神经网络模型能够获取更丰富的非连续短语上特征,而无需再限定于局部连续短语特征。
除了基于卷积神经网络的特征学习模型外,还有研究者采用递归神经网络[20-21](Recurrent Neural Network, RNN)对文本中的序列信息進行建模,从而为事件抽取任务提供助益支持。Feng等人[15]采用一个基于RNN的模型来获取文本中的序列信息,并采用一个卷积层来获取文本中的短语块信息,将2种信息合并后进行事件触发词识别。由于没有使用额外特征,该混合模型是语言无关模型,在多种语言的事件识别任务中取得了良好效果。
以往的传统事件抽取工作和上述神经网络事件抽取方法均尝试了将触发词的相关特征,如事件类别信息、位置信息等用于辅助论元角色分类任务,但却尚未探索论元的信息对触发词识别任务的作用。借助于注意力模型(Attention),Liu等人[16]独家采用了有监督的论元注意力模型将论元信息输入至事件识别模型中,其效果验证了论元信息能够高效地辅助事件触发词识别任务。不同于联合模型中触发词和论元信息相互辅助的间接方式,该方法提出的论元注意力模型最直接地将论元信息用于辅助识别触发词。