基于联合学习的跨语言事件识别方法
2017-04-17王礼敏李寿山
严 倩, 陈 敬, 王礼敏, 李寿山
(苏州大学 自然语言处理实验室 江苏 苏州 215006)
基于联合学习的跨语言事件识别方法
严 倩, 陈 敬, 王礼敏, 李寿山
(苏州大学 自然语言处理实验室 江苏 苏州 215006)
事件识别,包括事件触发词识别和分类,是事件抽取任务中的基础问题.为了利用较为丰富和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行事件识别.利用机器翻译及词对齐技术来保持源语言和目标语言的语言一致性和标注信息一致性.挑选合适的特征组合,使用最大熵分类模型分别实现触发词的识别和分类.通过整数线性规划的联合学习模型将二者结合在一起,加之局部约束和全局约束条件,对结果进行优化处理.实验结果表明,使用源语言的语料及其翻译语料叠加的双语语料时,所用方法可以取得较好的效果.
事件识别; 跨语言; 联合学习; 整数线性规划
0 引言
随着互联网的迅猛发展,越来越多的电子文本信息呈现在人们面前.如何从海量信息中准确迅速地提取出人们所需求的信息就显得极为重要[1].信息抽取就是在这样的背景下产生并迅速发展的.
事件抽取是信息抽取的一个重要研究方向,旨在自动识别特定类型的事件,并抽取相关的信息.事件抽取任务可分为两步:事件的识别,当前事件所包含的论元及其角色的识别.其中,事件的识别是事件抽取的基础和核心任务.事件由触发词和描述事件结构的元素构成,其中触发词是直接触发事件发生的词.因此,对事件的识别可以等价为触发词及其类别的识别.ACE 2005将事件划分为8个类型,33个子类型.如以下例句:
例1 我的高中同学前一个月结婚了.
例2 科什图尼察搭乘联合国直升机在当地时间星期天下午抵达萨拉热窝机场.
例3 其实我也全都是为了她着想.
例句1和例句2都包含了事件.如例句1中,“结婚”作为触发词,触发了事件类型Life/Marry.例句2中,“抵达”触发了事件Movement/Transport.而例句3中不存在触发词,故也不存在事件.
近年来,随着对事件抽取研究的不断深入,基于监督学习的事件抽取方法越来越占据主流.基于监督学习的方法是利用大量的已标注样本作为训练集,通过机器学习的方法训练得到模型,再根据该模型对未标注样本进行预测.但是标注大量的样本开销昂贵,需要大量的人力、物力.同时,由于事件类别的多样化,导致事件抽取的语料相对稀疏.这些现象在各种语言背景下的事件抽取任务中都存在,但是由于中文本身的表达特点,使得中文事件抽取语料的稀疏问题和难标注问题尤为突出.考虑到英文事件抽取任务起步较早,研究成果丰富,系统性能相对优异,语料规模较大,标注体系较为完善,本文提出了一种基于联合学习的跨语言事件识别方法,即利用英文的事件标注语料库实现中文事件的识别.在具体实现过程中,主要存在两个问题需要解决:消除语言间的界限,充分利用英文事件语料的信息;有效降低噪声对实验性能的影响.本文将使用机器翻译及词对齐技术来使语料统一,将触发词识别和类别识别两个子任务结合,建立整数线性规划的联合学习模型.
1 相关研究
英文事件抽取研究的核心和主流方法是基于统计和机器学习的方法.文献[2]首先在事件抽取的研究中引入最大熵分类器,使用词特征、命名实体等简单特征取得了较好的成果.文献[3]把事件类型识别看成触发词的识别,提出了基于触发词的事件抽取方法,在通过二元分类识别触发词的基础上,使用多元分类器判断其所属的事件类别及子类别,并通过ACE2005的英文语料验证了所用方法的有效性.为了更好地利用全局信息,文献[4]提出并构建了跨文档事件抽取系统,在当前句信息的基础上考虑了相关文本的背景知识.文献[5]进一步利用文档级的信息提高了事件抽取系统的性能.文献[6]考虑到实体类型的一致性,实现了跨实体事件抽取.文献[7]提出了基于结构化感知机的联合学习模型,同时学习并抽取事件触发词和论元,获得了更优异的效果.
目前,中文事件抽取研究重点主要在特征的发现和选择以及触发词的扩展上等.文献[8]使用一种局部特征选择方法来确保触发词的识别和分类性能.文献[9]在事件抽取系统中融入了词汇、句法和语义等特征来提升效果.文献[10]使用语义词典同义词词林来扩展中文触发词以提高触发词识别性能.文献[11]利用组合语义学和篇章一致性信息来推断触发词,后在此基础上又提出了一个结合事件触发词识别和事件类型判别的联合模型[12],并在ACE2005的中文语料上测试并得到了更为优异的性能.
与单独的英文或者中文事件抽取不同的是,本文期望通过已标注的英文事件语料构建中文事件识别系统,获得理想的效果.近年来,跨语言或者双语的研究方法在很多领域都得到了应用[13-14],而在事件抽取领域,只有极少数的相关研究.文献[15]从大量的双语平行语料中抽取了跨语言的谓词集,然后利用这些谓词集分别帮助提升中英文事件抽取的召回率.文献[16]使用特征叠加的方法将双语信息融合,同时实现了中英文事件触发词的分类.本文将在文献[16]的双语事件抽取系统和文献[12]联合学习模型的基础上,结合局部特征和全局信息,使用整数线性规划的联合学习模型,构建一种基于联合学习的跨语言事件识别系统.
2 基于联合学习的跨语言事件识别系统
2.1 概述
根据事件的定义,事件的识别可以等价为触发词的识别和分类.本文将触发词的识别和分类分别建模为二元分类和多元分类问题.首先通过机器翻译及词对齐技术,获得可用语料,然后选择合适的特征,分别训练最大熵二元分类器(ME_I)和最大熵多元分类器(ME_D)[17],依次实现触发词的识别和分类.通过建立整数线性规划(ILP)模型,对触发词的识别和分类结果进行局部和全局最优化,得到最终结果.本文提出的基于联合学习的跨语言事件识别系统的框架结构如图1所示.
图1 基于联合学习的跨语言事件识别系统框架Fig.1 Framework of cross lingual event recognitionusing joint modeling
2.2 机器翻译及词对齐
语言一致性即使得训练语料和测试语料的语言一致,本文借助机器翻译系统Google Translate(www.google.com)将源语言语料翻译成另一语言,得到3组可用语料:源英文语料+中文语料的翻译语料,英文语料的翻译语料+源中文语料,源英文语料及其翻译语料+源中文语料及其翻译语料.
而标注信息一致性要求在语料的翻译过程中,其标注信息如触发词、实体等要保持等价.词对齐是机器翻译中的一项基础任务,旨在从双语文本中自动识别词一级的翻译或对应关系,即确定源语言文本中哪个(些)词和目标语言文本中哪个(些)词有对应关系.本文使用已有的词对齐技术,借助双语平行语料库LDC2002E18等[18-19],实现了事件语料和其翻译语料的词对齐.图2为对前述例句1进行的机器翻译和词对齐处理的过程.
在机器翻译和词对齐处理完毕之后,就可以较准确的在翻译语料中定位到标注信息.如图2的例子中,源句是以“结婚”为触发词的“Life/Marry”事件,从对齐信息“8-4 8-5”中可以得到译句中对应的触发词信息为“got married”.
图2 机器翻译和词对齐处理示例
Fig.2 An example of machine translation and word alignment
2.3 特征概述
对语料处理完毕之后,本文使用机器学习算法分别实现触发词的识别和分类两个子任务,为了保障分类器的性能,选择有效合理的特征是至关重要的.
选定一组包含基准特征、实体特征、句法特征和其他特征的特征组合,如表1所示.除了BV特征是只针对可用语料中的中文部分,其他的特征同时适应于中英文.BV特征是根据文献[11]针对中文特有的组合语义特性而提出的用于识别触发词的规则定义而成,其中的触发词基础词包括单字动词触发词,多字触发词中作为动词的单字成分等.如果语料是单一的语言,那么特征是对应语言的特征,如果语料是源语言及其翻译语言叠加的双语语料,那么特征组合也须是双语特征的叠加.
表1 特征描述
2.4 联合学习模型
文献[12]为了解决中文事件抽取任务中低质量的事件标记语料库和假事件触发词对于真事件触发词的高比例两个问题,提出了一个结合事件触发词识别和事件类型判别的联合模型,使用整数线性规划模型验证了该方法的有效性.本文参考文献[12]的方法,使用整数线性规划模型将触发词的识别和分类两个子任务结合,尽量降低文本翻译等导致的噪音对实验性能的影响.
(1)
(2)
(3)
(4)
(5)
(6)
然后,基于整数线性规划联合学习模型的事件识别就可以用目标函数来表示,
(7)
其中:D为某一文本中的所有候选词词集;Mi为该文本中所有第i个候选词的集合.
除此之外,为了保证结果的一致性,本文使用了文献[12]提出的约束条件中的3个简单约束,它们同时适用于中英文事件抽取的约束条件,其中包括两个局部约束和一个全局约束:
1) 局部约束1.如果当前词触发了第k类事件(1≤k≤33),那么该词是真触发词,即
xi,j≥yi,j,k,∀i∈D,j∈Mi, 1≤k≤33.
(8)
2) 局部约束2.如果当前词是真触发词,那么它必触发某一类事件,即
(9)
3) 全局约束.如果当前词是真触发词,那么同一文本中的该词都是真触发词,且它们对应的事件类型一致,即
xi,j=xi,l, ∀i∈D,j,l∈Mi.
(10)
3 实验设计与分析
3.1 语料设置
本文的实验训练语料来自ACE2005的英文事件语料,测试语料来自ACE2005的中文事件语料,其中与本文相关的一些语料统计信息如表2所示.
3.2 实验设置
本文采用最大熵分类模型作为分类算法,使用2.3小节中所述的特征组合,联合学习模型使用整数线性规划模型,用2.4小节的3个约束条件.本文根据语料的表达语言为依据,设计并实现了3组基于联合学习的跨语言事件识别的对比实验.
1) 训练语料为英文语料的翻译语料,测试语料为源中文语料(ET_C).
2) 训练语料为源英文语料,测试语料为中文语料的翻译语料(E_CT).
3) 训练语料为源英文语料叠加其翻译语料的双语语料,测试语料为源中文语料叠加其翻译语料的双语语料(E+ET_C+CT).评价指标采用P(precision)、R(recall)和F1(f1-measure).
3.3 实验结果与分析
针对每一组可用语料,本文首先实现了基于最大熵分类模型的跨语言事件识别,然后在此基础上实现了基于联合学习的跨语言事件识别.
3.3.1 基于最大熵分类模型的跨语言事件识别结果 表3分别给出了基于最大熵分类模型的跨语言事件识别系统在3组可用语料上的结果.由表3中的数据可知,在进行触发词的识别和分类时,使用英文翻译语料测试源中文语料比使用源英文语料测试中文翻译语料的效果要好的多,前者的精确率和召回率均高于后者.这可能是因为在中文翻译成英文的过程中准确度和匹配度会降低,会损失更多有用的信息.而在源语言语料和翻译语料叠加以后,会在一定程度上减轻这种损失,进一步平衡并提升系统的性能.使用双语语料时候的F1值比ET_C在触发词的识别和分类上分别提升了约1.6%和3.3%,比E_CT分别提升了约8.8%和7.1%.
表2 语料信息统计
3.3.2 基于联合学习的跨语言事件识别结果
表4给出了基于联合学习的跨语言事件识别结果.与基于最大熵的跨语言事件识别结果类似,ET_C的结果好于E_CT,而E+ET_C+CT的双语叠加后的效果好于其余二者,F1值在触发词的识别和分类上比ET_C分别提升了约3%和8.8%,比E_CT分别提升了约3%和10.1%.由此可见,源语言和翻译语言叠加之后,可以有效地降低翻译所损失的信息,进一步平衡或提升事件识别系统的性能.
综合表3和4的结果,语料的双语叠加比单独使用源语言或者翻译语言的效果要好,而使用基于联合学习的方法比仅使用最大熵分类模型可以取得更好的触发词分类效果.
表3 基于最大熵分类模型的跨语言事件识别结果
表4 基于联合学习的跨语言事件识别结果
4 小结
为了能充分利用英文事件语料库的信息帮助实现中文事件抽取,本文提出了一种基于联合学习的跨语言事件识别方法.首先使用机器翻译及词对齐技术,将语料统一,然后选择合适的特征,使用最大熵分类模型分别实现触发词的识别与分类任务,最后利用整数线性规划的联合学习模型将二者统一,结合局部约束和全局约束对结果进行优化.实验证明,当将源语言语料和翻译语料进行叠加之后,可以获得更优异的触发词识别和分类效果,而联合学习模型也使得触发词的分类性能得到了进一步的优化提升.
[1] 李保利,陈玉忠,俞士汶.信息抽取研究综述[J]. 计算机工程与应用,2003,39(10):1-4.
[2] CHIEU H L, NG H T. A maximum entropy approach to information extraction from semi-structured and free text[C]//Proceeding Eighteenth National Conference on Artificial Intelligence. Alberta:Edmonton, 2002:786-791.
[3] AHN D. The stages of event extraction[C]//Arte’06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events. Sydney,2006:1-8.
[4] JI H, GRISHMAN R. Refining event extraction through unsupervised cross-document inference[C]//Meeting of the Association for Computational Linguistics. Ohio,2008:254-262.
[5] LIAO S, GRISHMAN R. Using document level cross-event inference to improve event extraction[C]//Proceedings of the Meeting of the Association for Computational Linguistics.Uppsala, 2010:789-797.
[6] HONG Y, ZHANG J, MA B, et al. Using cross-entity inference to improve event extraction[C]//Meeting of the Association for Computational Linguistics: Human Language Technologies.Portland, 2011:1127-1136.
[7] LI Q, JI H, HUANG L. Joint event extraction via structured prediction with global features[C]//Proceedings of the Meeting of the Association for Computational Linguistics. Bulgaria:Sofia,2013:73-82.
[8] TAN H, ZHAO T, ZHENG J. Identification of Chinese event and their argument roles[C]//IEEE, International Conference on Computer and Information Technology Workshops. Sydney,2008:14-19.
[9] CHEN Z, JI H. Language specific issue and feature exploration in Chinese event extraction[C]//Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics.Boulder, 2009:209-212.
[10]QIN B,ZHAO Y Y,DING X, et al. Event type recognition based on trigger expansion[J]. Tsinghua science and technology, 2010, 15(3):251-258.
[11]LI P, ZHOU G, ZHU Q, et al. Employing compositional semantics and discourse consistency in Chinese event extraction[C]//Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island,2012:1006-1016.
[12]LI P, ZHU Q, DIAO H, et al. Joint modeling of trigger identification and event type determination in Chinese event extraction[C]// Proceedings of COLING 2012. Mumbai,2012:1635-1652.
[13]WAN X. Using bilingual knowledge and ensemble techniques for unsupervised Chinese sentiment analysis[C]//Conference on Empirical Methods in Natural Language Processing, EMNLP 2008. Hawaii: Honolulu, 2008:553-561.
[14]LI S, WANG R, LIU H, et al. Active learning for cross-lingual sentiment classification[M]. Berlin:Springer Berlin Heidelberg, 2013.
[15]JI H. Cross-lingual predicate cluster acquisition to improve bilingual event extraction by inductive learning[C]//UMSLLS '09 Proceedings of the Workshop on Unsupervised and Minimally Supervised Learning of Lexical Semantics. Boulder,2009:27-35.
[16]ZHU Z, LI S, ZHOU G, et al. Bilingual event extraction: a case study on trigger type determination[C]// ACL 2014, Proceedings of Meeting ofthe Association for Computational Linguistics. Baltimore Maryland, 2014:842-847.
[17]权聪敏,赵钊,文富安. 基于Lucene的智能答疑系统的研究与实现[J].郑州大学学报(理学版),2007,39(2):46-49.
[18]OCH F J, NEY H. Improved statistical alignment models.[C]//Proceedings of Meeting of the Association for Computational Linguistics. Hong Kong, 2000:440-447.
[19]LI J, RESNIK P, DAUMÉ III H. Modeling syntactic and semantic structures in hierarchical phrase-based translation[C]//HLT-NAACL. Atlanta,2013: 540-549.
(责任编辑:方惠敏)
Cross Lingual Event Recognition Using Joint Modeling
YAN Qian, CHEN Jing, WANG Limin, LI Shoushan
(NaturalLanguageProcessingLab,SoochowUniversity,Suzhou215006,China)
Event recognition is a basic task of event extraction, which include trigger identification and trigger classification. English event corpus is better and more abundant to help Chinese event extraction.A cross lingual event recognition method was proposed to use joint modeling. Specifically, machine translation and word alignment technologies were applied to contain the consistency of corpus language and annotation information. Then a Maxent model was trained to get trigger identification and trigger classification results with appropriate features.Lastly, trigger identification and trigger classification were fused to optimize the results through integer liner programming, with local constraints and global constraints. The results of experiments showed that the proposed method was effective, especially using the bilingual corpus which contained the origin corpus and its translation corpus simultaneously.
event recognition; cross lingual; joint modeling; integer liner programming
2016-10-26
国家自然科学基金重点项目(61331011);国家自然科学基金项目(61375073,61273320).
严倩(1993—),女,江苏盐城人,硕士研究生,主要从事自然语言处理研究,E-mail: 20154227038@stu.suda.edu.cn.
TP301.6
A
1671-6841(2017)02-0060-06
10.13705/j.issn.1671-6841.2016282