开放式中文事件检测研究

2020-04-07，，，

广西师范大学学报（自然科学版） 2020年2期

，，，

(中国科学院计算技术研究所网络数据科学与技术重点实验室，北京100080)

近年来，伴随着移动互联网、云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业数字化转型，信息数据量呈现爆炸式增长。如何从海量的信息中迅速、准确地提取出人们所需求的信息成为新的挑战。在此背景下，信息检索和信息抽取成为了重要的信息获取手段[1]。

事件抽取是信息抽取的一个重要研究方向。根据ACE2005的定义，事件由事件触发词和描述事件结构的论元构成，事件触发词是能够触动事件发生的词，是决定事件类型最重要的特征词，决定了事件类别和子类别，论元则表示了事件的参与者或属性。因此可以将事件抽取的任务定义为事件触发词的检测与识别，即识别特定类型的事件，并进行相关信息的确定和抽取，主要的相关信息包括：事件的类型和子类型、事件的论元等[2]。

事件抽取任务可由以下2个步骤组成：①事件检测，事件检测的核心是识别代表事件的触发词；②事件论元抽取，事件论元指事件的相关要素，根据所属的事件模板，抽取出相应的论元，并为其标上正确的角色标签。

目前在中文事件检测任务中，存在着领域互相独立、领域间的数据无法互通、需要分别为每个领域标注大量数据的问题[3]。本文充分借鉴前人的研究成果，针对当前中文事件检测研究中存在的不足，提出一个基于迁移学习的开放式中文事件检测方法，有效提升了事件检测效果。

1 相关工作

目前国内外对于事件检测的研究，主要包括基于模式匹配的方法和基于统计学习的方法[4]。基于模式匹配的事件检测方法具有许多优势：一是只需要少量的训练数据甚至不需要训练数据；二是可以通过词法、句法、语义定义强大的模式表达式，其匹配的结果是可追溯可解读的[5]，当需要提取特征明显的信息时，基于模式匹配的方法非常适合。然而，为了定义出可以准确匹配的模式，需要大量的语言学知识，甚至需要待匹配领域的专业知识[6]。同时，当模式需要改变以适应更多场景时，模式的修改往往需要大量人工参与[7]。

目前已经有许多使用模型匹配进行事件检测的方法，如Borsje等[8]提出的基于词法—语义模式的事件检测方法；Hearst[9]提出的基于词法—句法模式的事件检测方法等。

和基于模式匹配的方法相比，基于统计学习方法的健壮性和灵活性较好，更具有一般性，该方法不依赖于语言学知识，也不受具体领域和数据格式的约束，可移植性较好。但是由于特征提取和分类方法的不同，在准确率上有一定的差异。基于统计学习的方法虽然不依赖于语料的内容与格式，但为取得满意的效果，往往需要大规模地标注语料，否则会出现较为严重的数据稀疏问题，同时其不会处理明确的句子意义，例如它们会发现语料中的关系，但不会考虑其语义[7]。

基于统计机器学习的方法又分为基于传统机器学习的方法和基于深度学习的方法。经典的基于机器学习的方法中有Okamoto等[10]提出的基于层级聚类的事件检测方法；Ji和Grishman[11]提出的基于篇章级特征的事件检测方法等。基于深度学习的方法中，比较经典的有Chen等[12]提出的基于动态多池化的卷积神经网络方法；Nguyen等[13]提出的基于循环神经网络的联合模型方法以及Lin等[14]提出的基于区块提议网络的方法等。

近几年来，迁移学习在信息抽取领域的研究逐渐增多，虽然目前在事件抽取领域的研究还不是特别多，但在实体关系抽取领域中，迁移学习已经达到了非常好的效果，如王红斌等[15]提出的融合迁移学习的中文命名实体识别方法、Levy等[16]提出的基于迁移学习的关系抽取方法以及Huang等[17]提出的基于迁移学习的事件抽取方法。本文提出的事件检测方法，也是基于迁移学习的理论，迁移学习在事件抽取领域会有更多应用。

2 基于迁移学习的事件检测方法

2.1 基于触发词的迁移假设

针对前面提到的中文事件检测任务中存在的主要问题，本文采用迁移学习的方式，将基于ACE2005的中文事件数据集学习出来的基础模型，迁移到未知的事件类型上。一方面可以解决以往事件检测方法需要大量人工标注数据的问题，另一方面可以解决事件检测任务中不同类型数据无法互通的问题。

本文所使用的迁移学习方法是归纳式迁移学习中的多任务学习，迁移方式是参数迁移。归纳式迁移学习需要源任务与目标任务之间有一定的关联，源领域和目标领域相同或相关。事件检测的核心是识别触发词，而触发词之间的关联关系是本文迁移学习模型的基础，为此本文提出以下2点触发词关联假设：

①同一个事件类型下，触发词与触发词在语义空间上有着一定的关联，且关联性较强；

②不同事件类型之间的触发词和触发词之间也存在着一定的关联，不过其关联性弱于相同事件类型下触发词之间的关联性。

基于以上2个假设，本文从已标注的事件数据集中，每个类型提取部分触发词作为该类型下的种子触发词，然后提取每个候选词与所有种子触发词的关系特征，基于这个特征去训练出一个基础模型，最后将基础模型迁移到目标事件类型中，对目标事件类型的数据集进行事件检测。

2.2 基于中文WordNet和种子触发词的候选词特征构建

基于2.1节提出的假设，触发词与触发词之间存在关联，因此本文的第一步工作就是挖掘出触发词与触发词之间的关联关系，这是非常重要的一步。挖掘词与词之间的关系需要借助外部词汇语义网，本文利用中文WordNet挖掘触发词与触发词之间的关联。

2.2.1 种子触发词的提取

本文对每个事件类型下的标注数据，都提取部分触发词作为该事件类型下的种子触发词。以ACE2005的中文数据集为例，根据每个类型下的触发词集合，随机选取一半作为该类型下的种子触发词，且将每个类型的种子触发词数控制在50个以内。

2.2.2 关系特征提取

对于一个文本而言，其拥有许多句子，对每个句子都要进行判断；同时对于每个句子而言，句中任何一个词都有可能是一个事件触发词，因此需要对每个词都进行一次判断，判断它是否是真正的触发词。在判断一个词是否是触发词时，这个要被判断的词就是候选词。

在得到每个类型下的种子触发词列表后，开始构建种子触发词与候选词之间的关系特征。本文通过中文WordNet得到种子触发词与候选词之间的联系，为每个候选词提取特征，提取特征时主要考虑了候选词与触发词之间的同义关系、上下位关系以及部分整体关系。对于事件类型T下的候选词w，需要提取w与T的种子触发词列表Lt之间的强关系特征，同时，还需要提取w与其他类型下种子触发词列表Lo之间的弱关系特征，实验中提取的关系特征如表1所示，其中1/0表示该项特征值为1或0，0/1/2/3…表示该项特征值为非负整数。

表1 关系特征

2.3 基于上下文的候选词特征构建

在2.2节，本文已经提取了候选词与种子触发词的关系特征，然而仅仅凭候选词和种子触发词的关系特征还无法全面地进行触发词的识别。因为在真实的事件中，会存在某些词语，其在一些句子中是触发词，而在另一些句子中不是触发词的情况。如“婚礼”这个词在以下两个句子中作用就不一样。

(i) 小明/和/小芳/今天/在/酒店/举行/了/婚礼。

(ii) 我/梦想中/的/婚礼/是/浪漫/的。

在第一个句子中，“婚礼”是一个触发词，整个句子表示了一个结婚事件；而第二个句子中，“婚礼”并不是一个触发词，该句并没有表示一个结婚事件。从这两个句子中可以看出，一个词是否是某个事件的触发词，不单要考虑这个词本身，还要考虑这个词所处的语境。

如果只考虑候选词和种子触发词的关系特征，那么针对某一事件类型而言，一个词语在任何语境下，它的特征都是固定的，因此它要么一直是触发词，要么一直都不是触发词，这一点显然与真实情况不符。因此还需要将候选词所在的语境考虑进来，根据语境的不同，相同的词语得到的特征也会不同。

为使候选词与语境相关，本文提取了基于上下文的候选词特征。候选词上下文即以当前候选词为中心，根据上下文窗口大小的不同，选取出现在窗口内的词语构建特征。以“这家/公司/并购/了/多家/公司”为例，当候选词为“并购”,上下文窗口大小为3时，所提取的上下文为“公司/并购/了”，以此类推，当上下文窗口大小为5时，所提取的上下文为“这家/公司/并购/了/多家”。基于这个方法，利用Word2Vec将候选词上下文映射成向量，拼接后即为候选词的上下文特征。

2.4 基于迁移学习的事件检测模型

本节主要阐述事件检测的基础模型和迁移模型，基于2.2节和2.3节提取的特征，本文的基础模型基于卷积神经网络设计。卷积神经网络在图像处理领域已经取得非常好的效果，在自然语言处理中也发挥着越来越重要的作用，其已被验证可以很好地捕获自然文本的上下文信息。与图像处理不同的是，在自然语言处理中，卷积神经网络的输入是词向量矩阵。与此同时，由于本文迁移学习所采用的迁移方式是参数迁移(模型迁移)，因此迁移模型同样基于卷积神经网络进行设计，结构与基础模型相似。

2.4.1 事件检测的基础模型

基于卷积神经网络的特性，本文设计的基础模型如图2上半部分所示。首先候选词上下文的词向量经过拼接后，通过卷积神经网络的卷积层进行卷积操作，之后将得到的特征图经过最大池化层进行池化。池化之后的输出与2.2节提取的候选词与种子触发词的关系特征进行拼接，将拼接后的向量输入到全连接层中。网络的最后是Softmax输出层，输出层类别数是2类，即判断候选词是否是该事件类型下真正的触发词。

2.4.2 事件检测的迁移模型(TransCNN)

本文设计的事件迁移模型称为TransCNN(Transfer CNN)，为方便阐述，后文有时候会直接以TransCNN表示迁移模型。由于本文所使用的迁移方式是参数迁移(模型迁移)，因此TransCNN的整体网络结构与基础模型相似，TransCNN将基础模型的全连接层和输出层删除，并添加自己的全连接层和输出层。同时在TransCNN中，从基础模型继承过来的那部分网络(卷积层和池化层等)，其参数与基础模型一致，即直接使用基础模型的参数；新添加的网络(全连接层等)，则由新类型下的数据进行训练，学习出新的参数。TransCNN的迁移原理如图2。

3 实验与结果分析

3.1 实验设置

ACE2005中文数据集中共有33类事件类型，本文每次使用其中的32类去训练基础模型，然后将训练得到的基础模型迁移到未参与训练的那一类中去，测试TransCNN的效果。为避免实验偶然性，这个过程需要循环33次进行，即每次用33类事件之一来验证迁移学习模型。基于这个交叉验证方法，训练出33个基础模型，然后将每个基础模型迁移到对应的未参与训练的那一类事件中，保证每个事件类型都会被用来做一次迁移学习的验证。在训练基础模型的时候，33个基础模型都采用2.4.1节提出的卷积神经网络模型来训练，33个基础模型的训练参数统一如表2。

图2 迁移模型原理Fig.2 Therory of transform model

参数参数值词向量维度100候选词上下文窗口大小3卷积层filter数量64卷积层kerner size3全连接层层数20全连接层每层神经元数256全连接层激活函数ReLU优化方法AdadeltaDropout层Dropout概率0.5

在基础模型训练完成之后，将其迁移到对应的待验证事件类型上。对于待验证事件类型，只需要选取不超过20%的标注数据作为finetune的训练数据，对这些训练数据，提取它们全部的触发词作为该类型下的种子触发词，然后按照2.2节和2.3节构造特征，最后对基础模型进行迁移。

在训练迁移模型时，根据待验证事件类型的不同，使用的数据量不同，其对应的迁移网络新添加的全连接层的层数也不同，一般为一到两层，每层的神经元数设为256。之后用待验证事件类型的训练数据对迁移网络进行训练，训练出新加网络的参数。

本文对每个需要验证的事件类型都做了两次finetune。第一次用待验证数据中的10%作为训练数据，对基础模型进行finetune，然后用剩余的90%去测试finetune的效果；第二次用待验证数据中的20%作为训练数据，对基础模型进行finetune，然后用剩余的80%去测试finetune的效果。同时，每次finetune时所需的种子触发词，为训练数据中所有触发词的集合，具体设置如表 3所示。需要注意的是，对于某些待验证事件类型，其数据量较少，如Acquit类型总共只有3条数据，由于其10%和20%都不满一条，因此在实验中，不使用任何数据进行finetune，即训练数据为0条，此时直接用基础模型对该事件类型进行触发词检测。

表3 迁移模型训练设置

3.2 实验结果

按3.1节的实验设置，对ACE2005的33种事件类型，每种类型进行两次finetune，记录在不同的训练数据量下，在触发词识别这项任务上的表现。

表4 不同方法在ACE2005中文数据集上的性能

注：带*号的是复现结果，不带*号的是原论文中的结果。

由表4可以看出，在触发词识别这项任务上，在应用本文提出的方法后，只用10%的数据进行finetune时，平均F1值就已达到66.1%，接近于state-of-art的69.0%。当用20%的数据进行finetune时，平均F1值可以达到69.6%，已经超越state-of-art的结果。即用少量标注数据达到了其他方法使用全部数据的效果，大大改善了事件检测任务中必须为每个事件类型标注大量语料的不足，并且借助其他类型的大量数据，解决了各个事件类型数据不互通的问题。

虽然在TransCNN-20%的效果远远好于TransCNN-10%的效果，但是不代表随着数据量的增长，其效果也会呈线性增长，其效果会在数据量达到一定阈值后趋于平稳。

4 总结与展望

本文分析了目前已有的事件检测技术的研究现状和不足，借鉴已有的研究成果，提出了一个基于迁移学习的基础模型，该模型从已标注的事件数据中，收集每个事件类型下的触发词，随机选取一部分触发词作为该类型的种子触发词。然后以提取的种子触发词为基础，基于种子触发词和外部词典，构造候选词与种子触发词的强弱关系特征，再融合基于上下文的候选词特征，为每个候选词构建了独一无二的特征。基于构建的特征，利用卷积神经网络设计触发词识别的基础模型和迁移模型，最终迁移模型可以在20%的训练数据下，取得了优于当前主流方法的事件检测效果。

本文还存在很多值得进一步研究的问题。比如在将基础模型迁移到新的事件类型时，仍然需要人工标注少量的新类型的事件数据，如果不进行数据的标注，则迁移效果会下降，在后续研究中需要进一步优化。另外，本文的研究目前只是针对事件的检测，对事件论元的抽取还未涉及，未来将研究对事件论元的识别，形成完整的事件抽取工作。