基于FrameNet框架关系的文本蕴含识别
2012-06-29李国臣刘海静石向荣CollinBaker
张 鹏,李国臣,李 茹 2,刘海静,石向荣,Collin Baker
(1. 山西大学 计算机与信息技术学院,山西 太原 030006;2. 山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006;3. 中北大学 电子与计算机科学技术学院,山西 太原 030051;4. International Computer Science Institute, 1947 Center St. Suite 600 Berkeley, California, 94704)
1 引言
为了有效地处理自然语言中广泛存在的同义异形现象,近年来国外一些学者尝试使用文本蕴含(Text Entailment)[1]来为语言中纷繁复杂的同义表达建立模型。文本蕴含可以定义为: 一个连贯的文本(Text)T和一个被看作假设(Hypothesis)H之间的一种语义包含关系。如果H的意义可以从文本T的意义中推断出来,那么就说T蕴含H(即H是T的推断)。文本蕴含的研究对于自然语言处理中不同应用所需的语言表达多样性的推理识别有着重要意义。例如,在多文本自动文摘中,从文本中省去的冗余句子或表达应该被摘要中的其他表达所蕴含;对于信息抽取,表达相同关系的不同文本之间也存在着蕴含关系。
文本蕴含识别(Recognizing Textual Entailment, RTE)是美国国家标准技术研究所(National Institute of Standards and Technology, NIST)举办的文本分析会议(Text Analysis Conference, TAC)中的一项评测,该评测已经举行了6年,构造了一定的文本蕴含推理模型和识别模型。Peter Clark 和Phil Harrison[2]使用WordNet和DIRT推理规则库开发了一个基于推理的文本蕴含识别系统BLUE。Debarghya Majumdar和Pushpak Bhattacharyya[3]通过分析文本T和假设H之间的词汇重叠来发现它们之间的蕴含关系。Alexander Volokh、Giinter Neumann和Bogdan Sacaleanu[4]提出了一种联合确定性依存句法分析和线性分类的鲁棒性文本蕴含识别方法。2009年有21所科研院所参加RTE-5评测任务,其任务分为两类: 3-ways和2-ways。在3-ways任务中最高准确率为68.33%,平均准确率为52.91%,在2-ways任务中最高准确率达到73.5%,平均准确率为61.52%。
本文采用FrameNet的框架及其关系识别文本T和假设H所表达的语义场景之间的关系,结合WordNet的相关知识达到识别文本蕴含的目的。论文首先对FrameNet和在其上的一些研究做了简单的介绍,接着描述了本文采用FrameNet框架及其关系识别文本蕴含的方法,最后对实验及结果进行了分析,并对全文工作进行了总结和展望。
2 FrameNet及其相关研究
FrameNet(FN)是美国加州大学伯克利分校构建的一个基于框架语义学[5](Frame Semantics)的词汇资源。框架语义学是Fillmore提出的研究词语意义和句法结构意义的一种理论方法,即试图以真实语料为基础,以经验主义方法,寻找语言和人类经验之间的紧密关系,并研究一种可行的描述方式来表示这种关系。
在FrameNet中框架(Frame)是用来描述一个事件或一个语义场景的一组概念。每个框架都包含了一系列被称为框架元素(frame elements, FEs)的语义角色,这些框架元素与描述事件或形态的词汇相对应。两个框架之间的语义关系用框架关系(Frame-to-frame Relations)来描述,不同框架的框架元素也依据框架关系相互映射在一起(FE-to-FE Mappings)。在FrameNet数据中共定义了八种框架关系,框架关系是两个框架之间的一种定向(非对称)关系。
近年来,FrameNet受到国内外很多学者的关注,并基于FrameNet展开了一系列的研究。Jan Scheffczyk和Collin F.Baker[6]尝试使用FrameNet这一语义丰富的词汇资源结合领域本体进行推理。Ekaterina Ovchinnikova[7]等人提出了一种数据驱动和本体分析的方法来丰富和公理化FrameNet的框架关系使FrameNet能更加广泛的应用到自然语言处理中。在文本蕴含中,Aljoscha Burchardt和Anette Frank[8]提出一种利用LFG语法分析器结合FrameNet框架语义来识别文本蕴含的方法;Himanshu Shivhare、Parul和Anusha Jain[9]提出了一种使用FrameNet对文本T和假设H进行语义聚类的方法来识别文本之间的蕴含关系。
3 文本蕴含识别
文本蕴含识别的内容是识别H的意义是否可以从T的意义中推断出来,本文使用两个蕴含模型,“框架蕴含识别”模型和“框架元素识别”模型,进行文本蕴含识别,分别用来实现对框架和框架元素之间的蕴含关系进行识别。模型如图1所示。
图1 文本蕴含识别模型
3.1 框架蕴含识别
框架蕴含识别旨在识别T和H所表述的语境是否相同,即比较词元激起的框架,两个框架之间如果存在蕴含关系则必须满足这样的条件: T和H中由词元激起的框架相同或两者之间存在上下位关系。
把FrameNet中的框架看作是节点,以连接两个框架之间的上下位语义关系为有向边,得到FrameNet框架关系图G=(V, E),如图2所示。
图2 部分框架关系图
识别框架之间的蕴含关系按照以下几步进行:
Step1: 初始化。VT是以T中的框架为起始节点v0遍历查找到的所有框架节点的集合,设VT={v0},E=Φ;
Step2: 以VT中的节点v为出发点,利用深度优先算法搜索FrameNet框架关系图,对遍历到的每个节点v′∈V且v′∉VT进行标记,并添加到VT中,直到找到H中的框架节点为止, 考虑到算法的执行效率,搜索允许的最大路径为5。
3.2 框架元素蕴含识别
框架之间的蕴含识别只能够识别T和H所描述的语义场景之间的关系,识别文本蕴含还需要对填充相应框架元素的语块进行比较,具体步骤如下:
Step1: 提取两个框架中依据框架关系相互映射的FE内容;
Step2: 对step1中提取的FE进行比较,通过词汇重叠判断内容是否一致或相似;
Step3: 对step2中不一致的内容,利用WordNet 中的语义关系进行识别;
Step4: 正确识别。重复step1~step3,比较下一对FE,直到FE比较完或内容不同为止。
3.3 实例分析
例1是2007年RTE-3评测中的一个(T, H)文本对,其中加粗并带有下划线的单词就是激起框架的词元。图3是对例1进行蕴含识别的图形示例说明。
图3 基于FrameNet框架及其关系识别文本蕴含示例图
例1
如图3所示,T中词元acquired激起Getting框架,语块British Aireways和Hillman’s Aireways分别填充框架元素Recipient和Theme。在H中词元sold激起Commerce_sell框架,语块British Aireways和Hillman’s Aireways分别填充框架元素Goods和Buyer。在FrameNet的框架关系图中按图搜索,可得到从Getting到Giving,再到Commerce_sell的一条路径。框架Getting与Giving之间存在“Perspective_on”关系,框架Commerce_sell又继承于Giving,根据这种上下位关系的传递,可认为框架Getting与Commerce_sell之间有蕴含关系。然后根据框架元素之间的映射关系,比较填充框架元素Recipient与Buyer、Theme与Goods的语块内容,判定T蕴含H。
4 实验及结果分析
实验选取的语料是2007年RTE-3评测语料中的前50个
表1 实验结果
表2 实验明细
文本蕴含识别正确分为两种情况,一种是识别出文本之间有蕴含关系,称为正确肯定,如例2所示;另一中是识别出文本之间没有蕴含关系,称之为正确否定,如例3所示。
例2
例3
例4
例5< id="40" entailment="YES">
例4是由框架词元覆盖不足造成识别错误的例子,T中谓词release激起框架“Releasing”,该框架在FrameNet中的解释是“释放”,与T中的词汇含义不同,T中release的释义是“发布”,有一定“生成”的含义,但FrameNet中release并不能激起“Creating”框架或相关框架,所以无法识别文本T和R之间的蕴含关系。针对这一现象论文利用词汇资源WordNet来补充FrameNet词元的语义信息,根据词元在FramNet框架下的词元集和词元在WordNet中的同义集(Same Synset)的交集,建立词元与词元、词元与框架之间的关联,例如,{FrameNet< Creating (框架), create, form, generate, issue, issuance, produce, yield, production, formation>, WordNet< release(词元), publish, bring out, put out, issue >}。通过建立这种关联对实验性能有了一定的提高,如表3所示。
表3 加入WordNet后的实验结果比较
识别错误的
5 总结
文本蕴含对于自然语言处理中不同应用所需的语言表达多样性的推理研究有着重要意义。本文使用了FrameNet和WordNet中的语义关系,提出了一种文本蕴含识别方法,并用该方法对RTE2007语料中前50个文本对进行了测试,达到了76.6%的准确率,这表明,FrameNet框架及其关系对于文本蕴含识别任务是有帮助的。相比于基于规则的或者基于词汇概率的文本蕴含识别方法,本文提出的基于语义词典中语义关系的文本蕴含识别方法更加接近人类理解蕴含关系的心智过程,并进一步提高蕴含识别的准确率。
本文提出的文本蕴含识别方法也存在一些不足: (1)目前,该方法只针对文本和句子中由动词词元激起的框架进行蕴含识别,而实际上名词、形容词也能够激起框架,所以,本文下一步将扩大框架的研究范围;(2)FrameNet中存在词元覆盖率不高,以及框架关系缺失的情况,这些都导致了本文的方法不能适用于某些语料,影响了实验结果的精度。接下来的工作中,我们将继续探索完善FrameNet中的框架间关系,研究框架、词元和框架元素对框架关系的影响,选取特征采用机器学习的方法对缺失的框架关系进行完善。
[1] 袁毓林, 王明华. 文本蕴含的推理模型与识别模型[J]. 中文信息学报,2010,24(2): 3-15.
[2] Peter Clark, Phil Harrison. An Inference-Based Approach to Recognizing Entailment[C]//Proceedings of Text Analysis Conference (TAC). 2009.
[3] Debarghya Majumdar, Pushpak Bhattacharyya. Lexical Based Text Entailment System for Main Task of RTE6[C]//Proceedings of Text Analysis Conference (TAC). 2010.
[4] Alexander Volokh, G nter Neumann, Bogdan Sacaleanu. Combining Deterministic Dependency Parsing and Linear Classification for Robust RTE[C]//Proceedings of Text Analysis Conference (TAC). 2010.
[5] C. J. Fillmore. Frame semantics and the nature of language[J].Annals of the New York Academy of Sciences, 1976:20-32.
[6] J. Scheffczyk, C. F. Baker, S. Narayanan. Ontology-based reasoning about lexical resources[C]//Proceedings of the Workshop on Interfacing Ontologies and Lexical Resources for Semantic Web Technologies (OntoLex 2006). 2006.
[7] Ekaterian Ovchinnikova, Laure Vieu, Alessandro Oltranari. Data-Driven and Ontological Analysis of FrameNet for Natural Language Reasoning[C]//Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC’10). 2010.
[8] Aljoscha Burchardt, Anette Frank. Approaching Textual Entailment with LFG and FrameNet Frames[C]//Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing. 2006.
[9] Himanshu Shivhare, Parul, Anusha Jain. Semi Congitive approach to RTE 6-Using FrameNet for Semantic Clustering[C]//Proceedings of Text Analysis Conference (TAC). 2010.
[10] Collin Baker. FrameNet[DB/OL].2011-5-6.http://framenet.icsi.berkeley.edu .