APP下载

基于汉语框架语义关系的零形式识别与消解

2018-12-12李茹郭倩

关键词:语料语义框架

李茹,郭倩

(1.山西大学 计算机与信息技术学院,山西 太原 030006; 2.山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006; 3.山西省大数据挖掘与智能技术协同创新中心,山西 太原 030006)

0 引言

传统的语义角色标注只能为句中显式表达的语义论元分配语义角色,而忽略了一些未明确表达的论元,这种未明确表达的语义论元被称为零形式[1]。2010年国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,ACL)举办了语义测评“Linking Events and Their Participants in Discourse”[2],该测评要求参赛者在给定的语料上,检测出的零形式,并结合篇章上下文,为其找到对应的先行语。最终由于任务的难度比较大,只有两支参赛队伍提交了最后的结果,分别得到了8%[3]和5%[4]的F值。

2013年,德国萨尔兰大学的Philip Gorinski和德国希尔德斯海姆大学的Josef Ruppenhofer[5],受语义角色标注以及共指消解工作的启发,在SemEval2010 task10 测评语料的基础上,开发了一种弱监督学习方法,研究并分析了4种不同的语义解析器对有定零形式缺位填充的影响,查找到的先行语不是单个的词而是共指链,最终实验取得的F值为12%。

Silberer和Frank等人[6]在SemEval2010 task10 测评语料上实现了零形式的缺位填充,将此问题看作是一个指代消解任务,在特征选择上,结合SRL(Semantic Role Labeling)和CR(Coreference Resolution)特征,将实体链作为候选填充项,同时,解决了数据稀疏的问题,得到了7.1%的F值。

Laparra等[7]在SemEval2010 task10的语料基础上,研究分析了模型回指和指代消解的有关特征,并提出了两个句法特征,但由于数据的稀疏性问题,消解实验最终的F值只有18%。

雷章章等[8-9]在提供的SemEval2010 task10语料上,根据核心框架元素之间的关系,提出了一个简单的二级流水线的有定零形式识别方法,首先基于规则过滤的方法,在语义角色标注的基础上,检测出语料中的零形式,再建立最大熵分类模型,实现了有定零形式的识别,识别的F值达到69%。

Wang等[10]在同样的SemEval2010 task10语料上将统计与规则相结合,在词和语义层面选择了与零形式紧密联系的12个特征,将最佳候选词集合和特征组合应用到零形式的测试语料中,实现了零形式的缺位填充,最终得到了14.65%的F值。

武娟等[11-12]在构建的164篇中文语料基础上,首先利用规则与过滤的方法进行零形式检测,再选取相关的语义特征,建立最大熵分类模型,实现了零形式的消解,最终消解的F值达到21.84%。

零形式在中文语料上的研究主要是零指代消解问题。张文艳等[13]采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项,提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。杨紫怡等[14]针对中文篇章中的零指代问题,提出了一种基于中英文可比较语料进行中文零指代识别和消解的方法,并提出英文对等句的概念。从零指代项识别与消解两方面进行研究,利用对等句,重新定义句子间隔,并引入双语词对齐特征,在Onto Notes5.0语料上实现了中文零指代消解。

综上所述,对于零形式的识别问题,目前主要是采用规则的方法来实现,但由于核心框架元素集的复杂性与多样性,使得零形式的识别结果受到限制。因此,本文重点研究了零形式核心框架元素集之间的关系,并对零形式的识别规则进行改进,提高了零形式的识别性能。对于零形式的消解问题,目前主要是利用框架语义特征来实现,本文在框架语义特征的基础上,研究了框架关系,将框架关系与框架语义特征相结合,改善了零形式的消解结果。

1 相关概念介绍

1.1 汉语框架语义网

汉语框架语义网(Chinese FrameNet,CFN)[15-17]是以汉语真实语料为依据,由山西大学从2004年开始着手建立,其资源库主要包括框架库,词元库和句子库三部分。截至目前,CFN中共有1 320个框架,21 163个词元,以及79 453条例句,此外还有1 085篇文本标注。在语篇分析中,主要是以框架为分析单元,激起框架语义场景的词元为目标词,场景中涉及的相关语义角色,被称为框架元素(Frame Elements)。

CFN是以框架为基础,针对每个句子,找出能激起框架的词元以及词元所属框架,每个框架元素对应的语义成分都标注出了具体的框架元素名称,短语类型和句法功能。如例1所示,在该句中,“认为”是目标词,激起的框架为“观点”,该框架包含认知者(Cognizer)、观点(Opinion)两个核心框架元素,对于这两个核心框架元素所在的成分,都进行了三层标注,如该句中的“我”是“认知者(Cognizer)”,其短语类型为名词,在句中做主语;“这完全是麦克白故事的翻版”是“观点(Opinion)”,其短语类型为单句,在句中做宾语。

例1:,

1.2 框架关系

框架关系是指框架与框架之间的抽象关系,在汉语框架网中,框架之间的关系,主要包括总分(Subframe)、继承(Inheritance)、因果(Causative-of)、使用(Using)、先后(Precedes)、透视(Perspective)、起始(Inchoative-of)和参照(See-also)这8种框架关系。下面以继承关系为例做具体介绍:

在继承关系中,继承来的每个框架元素与被继承框架元素之间有对应关系。如图1中,“出售”框架与“给予”框架具有继承关系,“出售”的框架元素“商品(Goods)”继承自“给予”框架的“转移体(Theme)”,“买方(Buyer)”继承自“给予”框架的“接受者(Recipient)”,“卖方(Seller)”继承自“给予”框架的“捐赠者(Donor)”,同时,“出售”框架也拥有一些其它的附加特点,如:单位价格(Rate),计量单位(Unit),货币(Money)等。

Fig.1 Element mapping relationship of frame “Giving” and “Commerce-sell”图1 框架“给予”与“出售”的框架元素映射关系

1.3 零形式

对于给定句子S,S中任意目标词T激起的框架为F,F中所包含的核心框架元素集合E={e1,e2,…,em},若只有部分核心框架元素SubE⊂E在句子S中被显式表达,则未显式表达的核心框架元素E-SubE则为句中缺失的核心框架元素,称之为零形式。

由于缺失论元的解释类型不同,零形式又有有定零形式(Definite Null Instantiation, DNI)和无定零形式(Indefinite Null Instantiation, INI)之分。其中,DNI是指:缺失的语义角色在所标注的整个篇章内部能够明确找到对应的填充项。如例2中,“吃”是目标词,激起的框架为“摄取”,“摄取”框架主要包含摄取物(Ingestibles)、摄取者(Ingestor)两个核心框架元素,其中,仅有Ingestibles被“两顿好一点儿的饭菜”所填充,而另一个核心框架元素Ingestor并没有在本句中显式表达,但根据上下文可以推断出,Ingestor是由前一句的“张红梅”所填充,这种情况下,Ingestor即被标记为DNI。

INI是指缺省的语义角色能够被理解,不需要找回或在篇章上下文中找不到对应的先行语的情况。如例3中,“是”是目标词,激起的框架为“属于某类”,该框架包含实体(Entity)、范畴(Category)、标准(Criteria)三个核心框架元素,其中,Entity被“生态平衡”所填充,Category被“一种动态平衡”填充,但是另一个核心框架元素Criteria并没有被填充,并在上下文中,找不到对应的先行语,这种情况下,就被标记为INI。同理,“发生”激起的“事件”框架下的“处所(Place)”框架元素也被标记为INI。

例2:[张红梅]Owner从小失去拥有了[父母]Possession,是由当工人的姑姑养大。

在高中的时候,徐英老师看她生活很困难,就主动每个星期六把她接到家里,吃摄取上[两顿好一点儿的饭菜]Ingestibles。[IngestorDNI]

例3:[生态平衡]entity是属于某类[一种动态平衡]Category。[CriteriaINI]

一旦失去平衡,会发生事件[非常严重的连锁性后果]Event。[PlaceINI]

1.4 核心框架元素间的关系

零形式核心框架元素之间的关系对实现零形式识别起着至关重要的作用,其间主要有三种关系:Requires、Excludes、Coresets。

Requires:依存关系,这是个有序的二元关系。如例4中,“争吵”是目标词,激起的框架为“争论”,“争论”框架主要包含Arguer-1、Arguer-2、Arguers和Issue四个核心框架元素,其中,Arguer-1与Arguer-2形成了Requires关系,Arguer-1的出现要求Arguer-2也必须出现,但是Arguer-2的出现不要求Arguer-1必须出现。

Excludes:互斥关系,如果两个核心框架元素间具有互斥关系,则不可以同时出现,如例4中,Arguer-1与Arguer-2都与Arguers形成了Excludes关系,但Arguers的缺失不被标记为零形式。

Coresets:核心框架元素集,要求核心框架元素一个或者多个需要显式表达,如例5中,“说”是目标词,激起的框架为“陈述”,“陈述”框架主要包含Speaker、Medium、Message和Topic四个核心框架元素,其中,Speaker与Medium具有Coresets关系,Message与Topic具有Coresets关系,Speaker,Message显式表达,因此Medium、Topic的缺失不被标记为零形式。特殊地,若核心框架元素集在篇章中都未显式表达,则将所有未显式表达的核心框架元素均标记为INI。如例6所示,核心框架元素Field、Position、Task间存在Coresets关系且均未显式表达。

例4:[该餐厅从业人员]Arguer-1和[顾客]Arguer-2发生争吵争论。[IssueINI]

例5:[李克强]Speaker说陈述,[我们发展的目的是为了让人民过好日子]Message。

例6:[丈夫]Employer怎么会雇佣雇用[妻子]Employee呢?[FieldINI] [PositionINI] [TaskINI]

此外,核心框架元素集也与有些核心框架元素呈互斥关系。在这种情况下,若核心框架元素集和与核心框架元素集呈互斥关系的核心框架元素在篇章中均未显式表达,则只需将与核心框架元素集呈互斥关系的核心框架元素标记为INI。如例7所示,Area与核心框架元素集{Source,Path,Goal}互斥,且在语料中都没有显式表达。

若核心框架元素集和与核心框架元素集呈互斥关系的核心框架元素在篇章中有任意一个显式表达,则其它未表达的核心框架元素无须标记为INI。如例8所示,Area与核心框架元素集{Source,Path,Goal}互斥,且只有Area显式表达。

例7:唐太宗时,在内廷又设置内枢密使,专用[宦官]Agent掌管[奏章]Theme传递传递。[AreaINI]

例8:[有的老师]Agent会带[一些饼干和糖果]Theme在[课堂上]Area传递传递,让学生们和他一起吃。

2 零形式识别与消解实验

零形式识别与消解,旨在发现篇章语料中隐式表达的语义角色,并结合篇章上下文,找到篇章零形回指,进一步理解篇章语义。本文对篇章语料进行了颗粒度的标注,并对零形式的识别、分类和消解分别进行实验。

2.1 基于框架元素关系的零形式识别

由于Coresets关系的复杂性与多样性,使得零形式的识别结果受到限制,因此,本文重点研究了Coresets关系,并在文献[11]所提方法的基础上,对零形式的识别规则进行改进,具体改进方法如下:对于具有Coresets关系的核心框架元素,如果其中一个显式表达,则缺失的其他框架元素不用标记为零形式;若都没有显式表达,则判断:是否有元素与Coresets元素集互斥,若是,则将该元素标记为零形式,否则,将每个没有显式表达的元素均标记为零形式。具体说明如下:

如例7所示,在该句中,未显式表达的核心框架元素有:Source、Path、Goal、Area,但Area与核心框架元素集{Source,Path,Goal}互斥,在这种情况下,只需将Area标记为零形式。

2.2 零形式分类

2.2.1 基于SVM 的零形式分类

本文在进行零形式的分类时,首先构建了SVM分类模型,选取了词层面及框架层面的几类相关特征进行训练,其分类函数表示为:

(1)

其中,αi*和bi*确定了最大间隔的分类面,αi*>0的点是支持向量的点。对于零形式的解释类型{DNI,INI}这样一个二分类问题,构建如下标准的SVM模型:

(2)

其中,C>0为正则化参数,ξi(i=1,2,…,l)为松弛变量,w为分类超平面的法向量,b为阈值。本文应用SVM分类器来对零形式的解释类型进行分类时,所使用的工具包是LIBSVM。在实验设计时,具体特征选择如表1所示。

2.2.2 基于最大熵的零形式分类

表1 零形式分类的特征选择

最大熵模型是在20世纪60年代由E.T.Jaynes提出的,由最大熵原理推导而来,在自然语言处理中有广泛的应用。本文利用表1中的特征,采用张乐博士的最大熵工具包来进行零形式分类,若用向量X表示所有影响因素的集合,y表示零形式解释类型的分类结果,P(y|X)表示零形式被预测为DNI或INI的概率。采用拉格朗日乘数法求解最大熵,计算公式为:

(3)

(4)

其中,fi表示分类所选取的第i个特征,λi为特征的权值。

2.3 基于框架关系的有定零形式消解

2.3.1 有定零形式消解的特征选择

零形式特征选择的优劣直接影响消解的实验结果,本文在进行有定零形式消解时,将一定窗口内的所有框架元素的填充项作为当前零形式先行语的候选集,并将框架关系与框架语义特征相结合,实现了有定零形式的消解。有定零形式消解的特征选择如表2所示。

2.3.2 基于框架关系的有定零形式消解算法

基于框架关系的有定零形式消解是在框架语义分析的基础上,借助CFN中的框架关系,通过寻找关系路径,进一步找到框架元素的填充项。基于框架关系的零形式消解如算法1。

表2 有定零形式消解的特征选择

算法1. 基于框架关系的零形式消解算法

输入:语篇D中对应的框架集F={f1,f2,…,fn};框架fi在句中显式表达的核心框架元素集合Ei={ei1,ei2,…,eim},对应的填充项集Ai={ai1,ai2,…,aim};待填充的有定零形式e*,对应的框架为f*

输出:e*的填充项a*

1. 初始化Atemp=ø ∥Atemp作为临时候选项存储集合

2. FORfiINF

3. IFpath(fi,f*)≤2 ∥寻找F中与f*关系路径少于3的框架fi

4. FOReiINEiANDaiINAi

5. IFe*与ei有对应关系

6. 将ai添加到Atemp中

7. END IF

8. END FOR

9. END IF

10. END FOR

11. IFAtemp≠ø

12. FORaiINAtemp

13. IF min{dis(ai,e*)} ∥判断ai与e*之间的句子数是否最小

14.a*=ai

15. END IF

16. END FOR

17. END IF

Returna*.

3 实验设置与结果分析

3.1 实验语料

本文所用语料主要涉及地理、历史、科技等15个领域,共216篇。本文使用哈尔滨工业大学信息检索研究中心的语言处理集成平台LTP[18]进行分词与词性标注,使用山西大学人机协同标注平台[19]进行句子级语义角色的标注,短语类型使用斯坦福大学的语法解析工具Stanford Parser得到。实验所使用的数据统计结果如表3所示。

表3 实验数据统计结果

3.2 评价指标

本文实验均采用五折交叉验证,其评价指标取决于交叉验证的平均值。本文使用准确率P(Precision)、召回率R(Recall)和F值对实验的性能进行评价。

假设i∈{1,2,…,5}分别对应五份语料,Ri表示实验预测出的个数,Ci表示实验预测正确的个数,Ai表示测试集中的正确个数。本文将实验的准确率P、召回率R和F值分别定义如下:

3.3 零形式识别结果与分析

利用本文方法对语料进行实验,所得结果如表4所示。从表中可以看出,其F值达到80.75%,高于文献[11]所得到的F值。同时,召回率的提高也说明了实验模型预测正确的个数增多,证明了该方法的可行性。

表4 零形式识别的实验结果

经过分析,核心框架元素集之间的Coresets关系是影响零形式识别结果的主要因素,由于Coresets关系的复杂性,使得零形式的识别结果受到限制。具体分析如例9所示。

例9:[麻雀]Victim被消灭杀害了,天敌没有了,虫子就大量繁殖起来。[KillINI]

在“杀害”框架中,核心框架元素:“Victim、Cause、Killer、Means、Instrument”

Coresets关系:{Killer、Means、Instrument}

同时,Killer与Cause间具有Excludes关系,Cause与Means间具有Excludes关系,Cause与Instrument间具有Excludes关系。

在例9中,框架元素关系比较复杂,按本文提出的识别方法,会将“Killer、Means、Instrument、Cause”的缺失都标记为零形式。这种复杂的情况就会直接影响零形式的识别结果。另外,本文所使用的语料均为人工构建,因此,语料中的标注错误也会直接影响零形式的实验结果。具体说明如例10所示。

例10:[全球]Entity[正在]Time变经历变化[暖]Final-category,这是不争的事实。[Initial-categoryINI]

在“经历变化”框架中,核心框架元素:“Entity、Attribute、Initial-category、Final-category”

Coresets关系:{Entity、Attribute}

在例10中,核心框架元素Entity、Final-category显式表达,而Entity、Attribute间存在Coresets关系,按本文所使用的方法,Initial-category的缺失会被标记为零形式,但是实验语料中,我们认为Initial-category的缺失并不影响整个句子的完整表达,未将此标记为零形式,这种情况也会影响零形式的识别效果。

3.4 零形式分类结果与分析

对于识别出来的零形式,本文分别训练了SVM分类器以及最大熵分类器,对零形式的解释类型进行分类,实验结果如表5所示。从表中可以看出,在对本文语料进行分类时,使用最大熵分类器得到的F值比SVM分类方法得到的F值高出3.6%。

经过分析,影响实验结果的原因主要有以下几点:

其一,之前实验中,零形式识别结果的限制。

其二,由于零形式所处语境不同,所属框架不同、目标词不同、缺失的核心框架元素不同,分类结果就有可能不同。如例11、例12所示,对于未显式表达的框架元素Place,由于其语境不同,所属目标词不同,分类结果也不同。对于零形式的分类问题,很难构建一个合适而统一的分类模型,这也正说明了进一步研究零形式分类问题的必要性。

表5 零形式分类的实验结果

例11:[许多传统的民间艺术]Event发展至今,[已经]Time发生事件了[质的变化]Event。[PlaceINI]

例12:[近年来]Time,随着科技的迅速发展,出现事件了[一些新的移动支付方式]Event。[PlaceDNI]

3.5 零形式消解结果与分析

对于识别出的有定零形式,本文使用表2中的特征1-10,在不同的窗口上(窗口大小分别为2,3,4,5)进行实验,取得的实验结果如表6所示。从表中可以看出,在窗口大小为4时,实验的F值取得最大,相较于文献[11],实验的准确率、召回率、F值都有了一定程度的提高。

表6 有定零形式消解的实验结果

经过分析,影响零形式消解结果的原因主要有以下几种情况:

其一,之前任务中,零形式识别和分类结果的限制。

其二,零形式先行语的分布范围不同,所选窗口的大小不同都会直接影响消解实验的结果。为此,我们统计了实验语料中,零形式先行语的分布情况,统计结果如表7所示。

表7 零形式先行语的分布情况

下面给出了先行语在前六句的情况,如图2所示,在该语料中,s6句中area的填充项在s0句,这种情况必然会影响实验结果。

Fig.2 The filler in the six sentences before图2 先行语在前六句的情况

其三,数据稀疏问题也是影响实验结果的重要因素。

其四,本文将一定窗口内的所有框架元素的填充项作为当前零形式先行语的候选集,而有些语料中,DNI的填充项并不在候选集中,这些都会影响零形式的消解结果。因此,如何构建一个规模小,覆盖范围最大,最有效的先行语候选集,也是本文接下来研究的重要内容。

4 总结与展望

零形式识别与消解主要是为篇章中未显式表达的语义论元分配语义角色,对理解篇章语义有很大的帮助。本文从零形式的识别、分类和消解三个方面分别进行研究。零形式识别是有定零形式消解的基础,而Coresets关系的复杂性,直接影响零形式的识别效果,因此,需要构建更为有效的识别策略。在零形式消解问题中,如何构建一个规模最小,覆盖范围最大,最有效的先行语候选集,也是本文接下来研究的重要内容。另外,扩大语料,解决数据稀疏问题也至关重要。在后期的研究中,会重点研究零形式的消解问题,以提出更有效的先行语查找方法。

猜你喜欢

语料语义框架
真实场景水下语义分割方法及数据集
有机框架材料的后合成交换
基于归一化点向互信息的低资源平行语料过滤方法*
框架
K-框架和紧K-框架的算子扰动的稳定性
语言与语义
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
批评话语分析中态度意向的邻近化语义构建
“吃+NP”的语义生成机制研究
关于原点对称的不规则Gabor框架的构造