APP下载

中文非投射语义依存现象分析研究

2014-02-28郑丽娟邵艳秋杨尔弘

中文信息学报 2014年6期
关键词:句法语料主语

郑丽娟,邵艳秋,杨尔弘

(北京语言大学 应用语言学研究所,北京 100083)

1 引言

语义分析是自然语言处理的核心问题。中文语义分析研究,从21世纪开始蓬勃发展以来,借鉴各种国外语义分析理论: 论元结构、语义角色标注、格语法和语义依存分析理论等,都已经取得了丰硕的成果。但目前句子级的语义分析研究主要集中在语义角色标注这种浅层语义分析[1-2]的任务上,这种浅层分析只分析句子中主要谓词与其论元之间的语义关系,对论元内部的各成分间的语义关系并没有进行分析。如北京大学基于语义组块分析和词汇语义特征的语义角色标注[3]和利用北大网库的标注语料进行语义角色标注的研究,哈尔滨工业大学提出的一种基于特征组合和支持向量机的语义角色标注方法,苏州大学的名词性谓词语义角色标注和以依存关系为标注单元进行语义角色标注等[4]。此外,浅层语义分析中对语义关系类型的定义也不够丰富。这些特点导致语义角色标注这种浅层分析存在一定的局限性,对句子意义的理解不够深入,特别是在基于短语结构句法和依存句法的浅层语义分析研究遭遇瓶颈的阶段,语义分析的准确率无法进一步提高。

因而,近来也有不少学者研究句子结构的深层语义: 如清华大学李涓子的语义依存分析理论[5]、武汉大学基于特征结构的语义研究[6-8]和山西大学的框架语义结构研究。虽然深层语义研究正在如火如荼地进行,但深层语义研究毕竟还处于探索阶段,各种语义理论被广泛应用,以克服浅层语义分析的不足,试图把汉语语义分析推向更加成熟的阶段。

2 依存句法和语义依存

2.1 依存树

依存树是一种基于句子的句法、语义分析结果的形式化结构或者数据存储形式,这种形式更便于计算机的存储计算和自动学习,也更加直观化。简而言之,句法依存树就是为句子中的每个词语(句子核心词除外)找到它的依存词(父亲节点),并指出该词语与依存词之间的句法关系。这种传统的依存树结构规定句子中的每个词只能有一个父亲节点与其存在依存关系,且不同的依存弧之间不允许交叉。如图1和图2就是对句子“王华的妈妈很疼爱她。”的句法和语义依存分析实例。

图1 依存句法树

图2 语义依存树

依存弧上所标注的是词对之间的句法关系,且弧是由核心词指向修饰词,例如,SBV表示“妈妈”和“疼爱”是主谓结构,且“疼爱”是核心,VOB表示“疼爱”和“她”是动宾结构,“疼爱”是核心,ADV表示“很”和“疼爱”是状中结构,“疼爱”是核心,ATT表示“王华”和“妈妈”是定中结构,“妈妈”是核心,RAD表示右附加关系,WP表示标点符号。

从图1和图2的对比中可以看出,依存句法树和语义依存树的原理是一样的,唯一的不同就在于,前者弧上关系为句法关系,后者弧上关系为语义关系。在语义依存树中,弧上关系表示的是,弧指向词语(依存词或者修饰词)相对于弧发出词语(核心词)的语义。Agt表示施事,Poss表示领事,mDegr表示程度标记,Datv表示涉事,指动作或者事件所关涉的对象,mPunc表示标点标记,mAux表示“的”字标记。这样,每个词对的语义关系可表示为一个三元组,例如,(妈妈→王华,Poss)表示“王华”是“妈妈”的领有者,“妈妈”是核心词,“王华”是修饰词或依存词,“王华”依存于“妈妈”。

2.2 依存图理论的提出

汉语是一种语序灵活、词类功能多样化的意合型语言,语言变式繁多,在真实语言现象中经常会出现某个词语同时依存于多个词语[9],即同时和句中其他多个词语发生语义关联的现象,也可能出现依存弧相互交叉的非投射现象。这些现象都是传统的依存树无法表达的。为了将这些真实存在的语言现象显现出来,同时还能够兼顾依存表达的优势,本文突破原有的依存树表达的限制,采用依存图的描述方式,即只要句子中的词与词之间实际存在语义关系,就将它们相连接,这就意味着在依存树中允许一个词语有多个父亲节点,同时依存弧之间可能会出现交叉。例如,句子“她眼睛哭肿了。”其依存图如图3所示。

图3 依存图

从图3中可以看出,“她”与“哭”和“眼睛”两个词语都有语义关系,即词语“她”存在两个父亲节点: “哭”和“眼睛”,分别表示施事和领属关系中的领事;另外,弧(肿→眼睛)与弧(哭→她)也形成了交叉。从句意理解的角度来看,这样的多父亲节点和交叉弧都是有其表达语义的真实价值,如果用依存树来表达,语义表达上就会不全面: 以“哭”为全句核心,依存树的语义标注情况为: (哭→她,Agt),(她→眼睛,Bleg),(哭→肿,eResu),(肿→了,mTone),从而丢掉了“眼睛”和“肿”之间存在的真实语义关系。如图4所示。

图4 依存树

值得提出的是,依存树的不足已有学者在研究了。例如,北京大学孙薇薇的句法依存图[8],武汉大学姬东鸿在提出依存语义树分析的不足[9]的基础上研究了基于特征结构的语义依存图[6-7]。本文的依存图同武汉大学的依存图[7]相比,除了语义关系定义和标注理念有所不同之外,在结构表示上的一个主要不同是武汉大学的依存图是一个无向图,对有依存关系的两者来说,并不标出弧的指向。而我们的图是有向图,每组词对都是核心词指向依存词,我们认为这对于明确修饰词和依存词的语义关系是很有帮助的。

通过对大量语言事实的分析和研究,我们在这里对传统的Robinson依存理论[10]中所规定的公理进行了部分修订,突破了原有的依存树的局限性,构建依存图,以增强依存表达的生命力。本文的依存图遵循如下公理:

(1) 一个句子中只有一个成分是独立的;

(2) 其他成分直接依存于某一个成分;

(3) 任何一个成分可以同时依存于两个或两个以上的成分;

(4) 如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C可以依存于A左边的成分或B右边的成分,即允许依存弧之间发生交叉;

参照Robinson依存理论[10]中所规定的公理,我们的依存图公理与其有很大的差异,主要在(3)和(4),公理(3)强调一个成分可以依存于多个成分,即可以有多个父亲节点。公理(4)强调了不同的依存弧之间允许交叉。依据这几条公理做句法或语义分析时可以构造出一个有向无环依存图。

本文将针对第4条公理重点讨论汉语中出现的非投射现象。

3 投射现象与非投射现象

非投射现象是和投射现象相对的。以往的语义依存树处理的都是投射情况,对于英语这种语序比较固定的语言来说,投射树基本足够用来分析其绝大部分的语言现象,但是对于像汉语、德语、荷兰语等这种语序灵活的语言,很多的句子只用投射现象去做语义分析,就会导致语义分析性能低下,甚至是出现不合乎语言表达习惯的语言现象。

投射现象,是指将树结构表示的句子中的每一个词语向下垂直投影形成的线性词序列同句子的词语排列顺序相一致,即从依存树上看,依存弧之间不存在交叉情况。为了清晰观察依存树的投射现象,我们将图4展示为层次表示形式,如图5所示,可以看出按照树结构投影下来的词序列顺序和原句保持一致。

图5 依存树层次表示形式

非投射现象则和投射现象相反,指将树结构表示的句子中的每个词语向下垂直投影形成的线性词序列同句子的词语排列顺序不一致,即从依存树上看,依存弧之间存在交叉情况。图3为例句的依存图表示,其对应的层次依存图的词序列投影如图6所示。从投影结果可见,投影下来的词序列“她哭眼睛肿了。”同原句的词序列“她眼睛哭肿了。”相比,产生了不一致现象。

图6 依存图层次表示形式

可以看出,在真实语料中,非投射现象是客观存在的。非投射本身是针对语序灵活的语言结构提出的一种解决问题的方案,但是由于其丰富的交叉现象的存在,减少了表达语法关系时对语序的依赖,从而使得运用非投射依存现象分析句法、语义更有效。因此,不管是语序灵活的语言还是英语这样语序比较固定的语言都正在做非投射现象的分析[11]。

4 语义依存图库中非投射现象的语言学分析

从上述的分析中可以看出,非投射现象是客观存在的,汉语中更是如此。下面本节就从基于真实语料的语义依存图库出发,描写并解释汉语中通常出现的非投射现象。

4.1 语义依存图库简介

语料采集方面,语义依存图库总共包括大约40 000个句子,其中包含大约10 000句的新闻语料、9 000句的中小学课本语料等共20 000句的书面语语料和10 000句微博语料、10 000句机器翻译所用语料等共20 000句的口语语料。

语义标签集的确立方面,目前,学界对语义角色的分类各有不同,数目多寡不定,HowNet的角色划分比较齐全和完善。但HowNet定义的角色主要是针对动词,较少考虑到形容词、名词等其他词类之间语义关系[12],且语义角色类型繁多。鲁川的语义分类体系[13]相对来说更加面向工程实际,对这两者加以扩展和修改,在标注了大约10 000句的语料的过程中,我们逐步完善定义了一整套包含127个标签的语义标签集合。该语义标签集分为5个大类: 周边角色集、嵌套关系集、反关系集、语义依附标记集和事件关系集。周边角色通常由指称概念来充当,包括施事、受事和源事等32个语义角色。嵌套关系是指由小句或者短语充当某个语义角色的现象,小句的核心与谓词的核心连接标为嵌套关系。反关系是指那些充当了定语的动词或动词短语,嵌套关系和反关系的标签数量理论上讲同周边角色相等,但在真实语料中远不会出现那么多。事件关系指复句或紧缩句中多个事件之间的句法语义关系,包含19个标签。此外,我们还定义了语义依附标记,多为一些连词、介词、助词等虚词,含有17个小类。

语料库虽然包含40 000个句子,但目前已完成的标注工作仅达到10 000个句子,主要是中小学语文课本语料。本文仅以这10 000个句子的语义依存标注结果为研究对象,统计出来的非投射现象比例显示不是所有的基本句型的变式都会出现非投射现象,在10 501个句子的语料库中,非投射现象的比重只有17.4%,虽然和投射现象相比,非投射现象所占比重不高,但非投射现象是真实存在的,总结出这些非投射现象的情况,对于提高机器自动语义分析的准确率来说,非常重要。

4.2 非投射语义依存现象的语言学分析

本文以已标注的句子为研究对象,总结和分析了非投射现象出现的句型及其句子变式,规律总结如下。

(1) 小句宾语句。小句宾语句的某个句法成分发生位移,并且状语位于整个句子的最前端时,状语和谓语动词的语义关联与小句宾语句内部句法成分的语义关联造成弧之间的交叉。小句宾语句内部句法成分的位移是有其内在动力的,或者是由于主语承前省略,造成句子形式上缺乏主语,或者是说话者为了突出话题,强调说明对象等语用因素。但无论句子形式如何变化,语义始终都是小句宾语句要表达的语义,语义分析就应该按语句表义原型标注,而忽略形式变化,否则语义分析就无章可循了。例如,“醒来的时候,梦不知道飞到哪里去了”。状语“醒来的时候”修饰谓词“知道”,与谓词语义关系密切;而“梦”是小句宾语“飞到哪里去了”中发生位移的一个成分,“梦”和“知道”并没有语义关联,“梦”与“飞”才存在真实的语义关联,因此,状语的修饰限定作用(“知道”和“时候”相连的依存弧)与小句宾语的主谓结构(“飞”和“梦”连接的依存弧)形成了弧与弧的交叉。具体分析如图7所示。

图7 小句宾语句语义依存图分析

(2) 比较句。比较句是用来表示两种不同事物在某一点上(性质、数量等)的不同程度值,所以比较句中通常含有比较项、参照项、比较点和比较值[14]。如句子“他比我成绩好”中,其比较项、参照项、比较点和比较值分别为: 他、我、成绩和好。在任何一种语言的比较句中,比较项、参照项不可缺失,但是由于汉语是意合型语言,并不要求比较点必须出现,有时候比较点是比较项自身的总体属性,即比较项就是比较点;或者比较点为了避免累赘,只出现在比较项或者参照项其中一个的后面。为了能很好地标示出深层语义,与没有带明显的比较点的比较句相区分,比较点只出现在比较项或者参照项其中一个的后面就会造成弧之间的交叉现象,尤其是比较点紧跟比较项之后且参照项之后不再有比较点,弧交叉就无法避免。我们对比较项与比较点相重合的句子如: “他比我优秀”的语义分析如图8所示,对比较点只出现一次的句子如: “他成绩比我好”的语义分析处理如图9所示。

图8 比较项与比较点重合的比较句的语义依存图分析

图9 比较点只出现一次的语义依存图分析

(3) 主谓谓语句。(此处的主谓谓语句是指真正的主谓谓语句,并不含有位移造成的表层形式的主谓谓语句,如句子“这件事我知道。”不是我们定义的主谓谓语句。)大主语和小主语有广义的领属关系,且大主语和大谓语之间存在状语,状语是修饰谓词的词语,根据语义相关原则,状语和谓语联系密切,主谓谓语句中的谓语就是小谓语,因此,这组领属关系和状中关系就形成了弧交叉。如句子“有些恐龙则身材矮小。”先明确了述谓结构的说明对象“恐龙”,述谓结构是对话题(即说明对象)的叙述说明,述谓结构中的小主语“身材”和话题大主语“恐龙”之间存在领属关系,且在大主语和大谓语之间存在一个表示转折的语气副词“则”,因此,“恐龙”和“身材”的语义领属关系与“则”和“矮小”的语义修饰关系造成了弧之间的交叉。具体分析如图10所示。

图10 主谓谓语句语义依存图分析

(4) 紧缩句。汉语是一种意合型语言,只要表意顺畅,并不太注重句子表层形式的完整性,因此常常会出现必要句法成分的省略或者复句的紧缩,紧缩形式上给人单句的感觉,但其语义却要求是复句形式。为了表示句子的语义,语义依存图的标注就标出了紧缩复句中深层语义,成分的省略就必然要标示出来,否则会形成句法上不和句法搭配的句法形式。例如,“有饱肚的东西拿些来。”其深层语义结构或者说原型是“如果有饱肚的东西,就拿些东西来。”紧缩复句中承前省略了受事宾语“东西”,而受事宾语又受到数量词“些”的修饰,如果为了避免非投射,不标示出“些”和“东西”的深层语义,就会形成动词和名量词在句法上的不合理的搭配。因此,对“有饱肚的东西拿些来。”这种紧缩句,我们的语义依存图分析如图11所示。

图11 紧缩句语义依存图分析

(5) 注释短语或复句。在注释短语或复句中,补句通常是对主句中某个名词性成分的补充说明,主句和补句中间通常用标点隔开[14]。补充说明成分和名词性成分有语义关联,有时可能造成弧的交叉。例如,它们是用不同的材料做的,大理石、花岗岩等。“是…的”强调句式,强调制作材料,句子形式上省略了施事,使得受事“它们”提前,充当主语,以完善句子表层形式。在这种非原型结构,“做”和“它们”表示成事关系的弧与“材料”和“大理石”表示解释关系的弧形成了交叉现象,但是其原型句: “用不同的材料做它们,大理石、花岗岩等”就不会形成交叉。具体分析如图12所示。

图12 注释复句或短语语义依存图分析

(6) 代词指称。代词本身就是起指称、替代的作用,以避免句法形式上的重复和汉语词汇缺乏的假象。就一个简单的代词来说,其指称意义本身就不明确,代词只有放在具体的语境中才有明确的指代对象,况且有时候,句中名词较多,代词的指代就可能造成语义的错误理解。因此,语义语料库在建设的时候,就应该指出代词的具体指代对象,以使句子表意明确化。而且只有代词对象明确化之后,才能明确句子间的语义关联,为篇章语义分析奠定基础。如句子“工程师向工人们走来,他什么也没对工人们说。”“他”和“工程师”指称同一个人,如若不把两者联系起来,会造成叙述的脱节,句与句之间的语义关系不明确,进而造成语篇结构松散。在这句话中,“他”和“工程师”表示等同指代关系的弧与“走”和“说”之间表示事件间关系的弧形成交叉。具体分析如图13所示。

图13 代词指称句语义依存分析

(7) 动补谓语句。有些动补谓语句包含两个动核结构,特别是补语的语义指向动作的施事、受事或者工具等时,此类动补谓语句就可能包含两个动核结构[13]。例如,他的衣服穿破了。他走累了。

a 他走累了。 他走+他累了。

b 他的衣服穿破了 他穿衣服+衣服破

对于a类句子,两个动核结构的主语都是一样的,虽然可以为了图的美观,减少弧线,可是减少了弧线,就会影响第二个谓词与主语的语义关系。然而很多情况下,两个谓词和主语的语义关系并不一样。因此,在标注的过程中,为了明确词对之间的语义关系,其具体标注如图14所示。

图14 两个动核结构的主语一致的依存图分析

但对于b类句子,如果按照a类的语义进行标注,就会造成语义不合理的现象“衣服穿+衣服破”,这也不是句子本身的语义。因此,我们对b类句子这样的两个动核结构主语不一致的情况又做了处理,使得句义的表达符合逻辑,此时就会出现弧的交叉。b类句子语义依存图分析如图15所示。

图15 两个动核结构的主语不一致的依存图分析

经过对汉语中非投射现象的分析,发现多数都是由语言变式引起的,那些属于原型的句子形式,通常不会出现非投射现象。因此,要找到汉语中所有的非投射现象,就需要找到汉语中基本句型的所有语言变式,并且对每种语言变式进行逐一分析,以提高非投射现象标注的准确率。

5 结语

汉语是一种语序灵活的语言,传统的投射依存树不能很好的解决很多特殊类型句子的语义分析问题。本文从汉语真实语料出发,验证和明确了非投射现象的客观存在性,基于语义依存图库,对汉语的非投射现象进行了深入的分析和归纳,从语言学角度对语义依存图语料库中出现的非投射现象给出了理论解释和分析。本文的主要意义可归纳为3个方面,一是为我们的语义依存体系给予更好的理论上的支撑;二是为未来提高机器自动语义标注提供更好的标注知识,从而提高语义自动标注的性能;三是为语义分析理论提供一种新的思考视角。

对非投射现象的概括,由于语料规模的有限和语料正在标注阶段,可能还存在以上7类不能完全概括的有非投射现象的句法结构,这一点,还有待于语料规模的扩大化,希望在以后能更全面地概括含有非投射现象的汉语句式,并找到句法到语义的投射规律。另外,除了非投射现象之外,对于语义依存图中某些节点出现多父亲节点的现象以及构建语义依存图自动标注系统也将是未来的研究工作。

致谢

在文章写作过程中,特别感谢哈尔滨工业大学丁宇同学在本文研究过程中给予的大力支持和帮助。同时非常感谢在匿名评审过程中提出宝贵意见的评审老师们。

[1] Min Zhang, Wanxiang Che, Guodong Zhou,et al. Semantic Role Labeling Using a Grammar-Driven Convolution Tree Kemel[J]. IEEE Transactions on Audio,Speech and Language Processing. 2008,16(7): 1315-1329.

[2] Wanxiang Che, Min Zhang, Ai Ti Aw, et al. Using a Hybrid Convolution Tree Kernel for Semantic Role Labeling [J]. ACM Transactions on Asian Language Information Processing.2008,7(4): 1-23.

[3] 丁伟伟,常宝宝.基于语义组块分析的汉语语义角色标注[J]. 中文信息学报,2009,23(5): 53-61,74.

[4] 陈菜芳.中文语义角色标注研究概述[J]. 文教资料, 2012,(27): 139-140.

[5] 尤昉,李涓子,王作英. 基于语义依存关系的汉语语料库的构建[J]. 中文信息学报,2003,17(1): 46-53.

[6] 陈波,姬东鸿,吕晨.基于特征结构的汉语连动句语义标注研究[J]. 中文信息学报,2013,27(5): 60-66,74.

[7] 陈波,姬东鸿,吕晨.基于特征结构的汉语主谓谓语句语义标注研究[J]. 中文信息学报,2012,26(3): 22-26,32.

[8] Weiwei Sun, Yantao Du, Xin Kou, et al. Grammatical Relations in Chinese: GB-Ground Extraction and Data-Driven Parsing[C]//Proceedings of the Association for Computational Linguistics.2014,446-456.

[9] 王跃龙,姬东鸿.汉语依存图库建设研究[C]. 萧国政,何炎祥,孙茂松.《中国计算技术与语言问题研究--第七届中文信息处理国际会议论文集》.北京: 电子工业出版社,2007: 251-256.

[10] Robinson,J.J.Dependency structures and transformation rules[J].Language,1970, 46(2):259-285.

[12] 邵艳秋,邱立坤,梁春霞等.中文语义依存树库构建及自动分析技术[C].孙茂松,陈群秀.《中国计算语言学研究前沿进展(2009-2011)》.北京: 清华大学出版社,2011: 228-233.

[13] 鲁川. 汉语语法的意合网络[M].北京: 商务印书馆,2001: 64-65.

[14] 范晓. 汉语的句子类型[M].太原: 书海出版社,1998: 58-59,182.

猜你喜欢

句法语料主语
基于归一化点向互信息的低资源平行语料过滤方法*
述谓结构与英语句法配置
主语从句用法“大揭秘”
葡语中零主语的语义功能分析
消除隔阂,呈现新面孔
句法二题
诗词联句句法梳理
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
国内外语用学实证研究比较:语料类型与收集方法
信息结构与句法异位