基于特征结构的汉语主谓谓语句语义标注研究
2012-07-09姬东鸿
陈 波,姬东鸿,吕 晨
(1. 湖北文理学院 文学院, 湖北 襄阳 441053; 2. 武汉大学 计算机学院,湖北 武汉 430072)
1 前言
语义分析是现代语言学和计算语言学领域最具挑战性的课题之一,也是当前制约语言信息技术大规模应用的主要瓶颈。 在众多语义分析的问题中,短语和句子级的语义分析是一项最基本的任务。汉语由于具有语序灵活、重视虚词等独特的特点,与英语法语相比,它的语义分析更具挑战性。在自然语言处理(Natural Language Processing,NLP)中,对汉语语句的语义标注,一直是一个难点。其中,对于汉语特殊句型的语义标注,更是难中之难,例如,“连动句”、“兼语句”、“主谓谓语句”、“把字句”、“被动句”等。这些句型,在语言学界它们本身的界定都存在很多争议,在NLP学界,处理的时候通常运用的是传统的分析方法。
在语言学界,主谓谓语句是汉语中一种具有独特特点的句型。作为汉语主谓句的下位句型,它的特点是由主谓短语做句子的谓语。语言学领域关于主谓谓语句的研究有80余年,至今什么是主谓谓语句、主谓谓语句有哪些类型尚未定论,这些争端包括:句中的成分谁是大主语谁是小主语的问题?倒装句是不是主谓谓语句的问题?
如何寻找一种较为有效的方法,可以对这些汉语特殊句型进行更好的语义标注,对于语言学界和NLP学界,都具有重要意义。本文提出了一种新颖的“特征结构”(Feature Structure)理论的方法,进行了大规模的语义标注,建立了一个具有近两万句的汉语语义标注资源库。在此基础上,选取汉语主谓谓语句进行进一步语义分析,得到了比较好的结果。
2 汉语主谓谓语句在语言学和NLP中研究现状
2.1 语言学界汉语主谓谓语句研究现状概述
主谓谓语句的语言学本体研究成果相当丰富,但是各位专家学者的观点却不尽相同。最早对主谓词组做谓语的论述可追溯到1921年的陈承泽,“主谓谓语句” 概念的正式提出源于1984年《中学教学语法系统提要》。几十年来,各家学者的探讨主要集中在对其范围的确定、结构的分析、性质及生成的探讨上。
在语言学界,主谓谓语句语形表示为:“Nx+N+V/A”。Nx指句子的主语,也称作“大主语”,N指充当句子谓语的主谓短语中的主语,也称作“小主语”,V/A指充当句子谓语的主谓短语中的谓语。充当大主语Nx的成分一般是名词、代词、动宾短语、小句等;充当小主语N的成分一般是名词、代词、动宾短语等;充当V/A的成分一般是不及物动词、及物动词、动宾短语、形容词等。
主谓谓语句中,大主语、小主语和小谓语之间存在着复杂的语义关系,具体有多少类型难以判定。本文并不试图对这些语义关系进行纯语言学理论的分类,而是研究其面向NLP的语义表示方法。语言学领域里主要讨论过十三种语义关系[1-6],大致上包括:
1. Nx与N具有领属关系;Nx不和V/A直接发生关系,只和(N+V/A)整体产生关系。(N+V/A)整体是对Nx的一个陈述。这里的小谓语可以是单词也可以使形容词。例如,
[1]他性格坚强。
2. Nx前可以加上介词,与Nx构成介宾短语。例如,
[2]这个问题我有不同意见。
3. Nx与N具有施受关系,例如,
[3]那个人我认识。
4. Nx或N的施事具有周遍性,例如,
[4]他一句话也不说。
5. 句中包含复指成分,例如,
[5]这样的好同志,我们喜欢他。
6. Nx与NV具有总分关系,例如,
[6]他写的字,有的大,有的小。
7. Nx后的两个N是对举的,例如,
[7]咱俩谁也别忘了谁。
8. Nx表处所,例如,
[8]北京城里树木很多。
9. Nx表时间,例如,
[9]工作时间你严肃一点好吗?
10. Nx后是组熟语,例如,
[10]他这个人,事事领先人人夸好。
11. Nx是N的工具,例如,
[11]这间屋子我们堆东西。
12. N是数量结构,例如,
[12]这种布,一尺五毛钱。
13. N(动词短语)与Nx可以构成主谓关系,例如,
[13]你做事认真。
2.2 NLP中汉语主谓谓语句语义标注现状及问题分析
对于语言分析,有两种传统方法:短语结构分析和依存语法分析。目前的汉语标注方法主要运用的就是这两种方法。但是运用这两种方法来标注汉语的特殊句型的语句都会遇到一些问题,如图1所示。
例[7]的特点是,大主语与充当谓语的主谓句中的主语和宾语之间是任指的关系,“咱俩”任指“谁1”、“谁2”。这是一个很重要的语义信息。而且如果已知“谁1”、“谁2”与“忘”之间的语义关系,再加上“咱俩”与“谁1”、“谁2”任指关系,可以通过语义传递,推知“咱俩”与“忘”之间的语义关系。因此,如果在语义分析中丢失了这三个词之间的语义信息,将会为语言处理带来困难。例[12]的特点是,该句由三个名词短语组合而成,没有谓语动词。传统的依存语法的标注方法,在标注例[7]、例[12]的时候对于一些词语之间语义关系,无法处理,丢失了很多词语与词语之间的语义信息。
图1 主谓谓语句句法分析图
可见,目前现有的分析方法在分析主谓谓语句时,主要遇到的问题有以下几个。
1. 句子表层句法结构易于描述,但是深层的句子中各个成分之间的语义关联难于描述出来;
2. 即使描述了一部分的语义关系,如依存分析,得到的语义信息却不完整。即丢失了一部分的语义信息。丢失的这些语义信息有时可能正是语句中的关键信息,将为语言处理带了困难;
3. 现有的方法过份依赖于句法结构,由于主谓谓语句句式的特殊性,长距离的词语之间的语义关系存在无法标注或错误标注的情况。
3 特征结构理论
特征结构 (Feature Structure)在现代语言学和计算语言学领域并不是一个新术语。语音学很早就采用类似特征结构的机制描述音节,后来形式句法理论如GPSG和LFG又采用复杂特征集描述句法结构,复杂特征集也类似于特征结构。这两种情况都是定义一组特征用以区分音节和句法结构,分别在生成语音学和生成语法领域产生了很大影响。可是至今为止,还未见到利用特征结构进行大规模的语义描述及语义分析的尝试。
针对语义分析的两种传统方法分析汉语时遇到的难题,我们提出了“特征结构”方法来解决。
通常,一个短语或句子可以用一个特征三元组集合来表示:[实体,特征,特征值],我们称之为这个短语结构或句子结构的“特征结构”集合。正如语言中有很多词语描述实体概念一样,语言中也有很多词语描述实体的特征。这些词通常称为特征词。英语WordNet和汉语的同义词词林都有一部分专门列出这些特征词。这里说的“特征”并不仅限于严格意义上的特征词,也包括那些抽象名词和虚词等,只要它们用来反映概念关联,在特征结构中就作为特征[7-9]。
[14]红颜色汽车
[15]红汽车
在例[14]中,“汽车”是实体(entity),“颜色”是“汽车”的特征(feature),“红”是特征“颜色”的值(value)。“颜色”一边联系“汽车”,一边联系“红”,因此它可作为“汽车”和“红”概念关联种类的标记。这样,例[14]表示成一个三元组如[14]′:
[14]′ [汽车,颜色,红]
在例[15]中,“汽车”是实体,“红”是特征“颜色”的值,值得注意的是,这里“汽车”的特征词“颜色”并没有出现。这种情况下,我们约定其特征结构中的特征为空。这个约定的好处在于不必去设计一个一般性的特征词表,而是根据具体应用的需求而制定相应的特征词表。特征词表牵涉到泛语言的范畴(包括语义格等),如果脱离具体应用而试图设计一个一般性的特征词表,就如设计格系统一样会有很多争议。另一方面,在具体应用中只需标注少许例子,这些空的特征就可以从这些标注例子中被激活出来。根据此约定例[15]表示成 [15]′:
[15]′ [汽车, ,红]
[16]他说他是大学教师。
该句的特征三元组表示为:
[说, ,他]; [说, ,他是大学教师]; [是, ,教师]; [教师, ,大学]; [是, , 他]
从例[16]我们可以发现,特征和特征值都可以作为实体出现在特征结构中。这从它们都可带一定修饰语判断出来。“他” 是“说”的特征值。“他是大学教师”是“说”的另一个特征值。 这里 “他是大学教师”是作为一个整体,和“说”产生语义关联。并且,特征值“他是大学教师”本身也是一个特征结构。其中,“是”是实体,“大学教师”是特征值,“他”是“是”的另一个特征值。另外,特征值的节点“大学教师”本身也是一个特征结构,“教师”是实体,“大学”是它的特征值。
形式上,一个三元组可看作两个“点”(node)和连接它们的“边”(edge),其中的“节点”表示实体或特征值,“边”表示特征。特征一定是某个节点的特征,这个节点就作为特征拥有者,另一个节点就作为特征值。于是一个特征结构可看作一个图,而且是无向图(undirected graph)。考虑到特征值也可是另外一个特征结构,因此特征结构可看作一个递归图,意即节点本身又可是一个图。
简言之,同句法结构相比,特征结构和依存结构类似,都主要描述词汇之间的关系,因此不用定义句法范畴。即便在递归性的特征结构中,也不用定义特征结构的类别。和依存结构相比,特征结构一方面允许嵌套,另一方面允许多重关联;另外特征结构既注重描述概念是否关联,也同时注重关联的种类。
4 基于特征结构理论的汉语主谓谓语句标注
4.1 主谓谓语句的特征结构标注
以例[1]、例[2]为例,本节把语言学界讨论过的十三种语例分别运用特征结构模型进行了语义分析,详细地标注了每一种语例中词语和词语之间的语义关系,并画出了特征结构图。然后将这些特征结构图进行对比分析,整理归纳出主谓谓语句的语义关系类型及其表示方法。
例[1] 他性格坚强。
大谓语“性格坚强”是对大主语“他”的陈述和说明。小主语“性格”是大主语“他”的一个内在属性,“性格坚强”可以成立,“他坚强”也可以成立。小谓语“坚强”既是“性格”的值,也可以说是“他”的值。因此,在这里,小主语“性格”是大主语的一个特征,小谓语“坚强”是特征“性格”的值。
它的特征结构三元组和特征结构图(图2)如下:
[他,性格, 坚强]
图2 例[1]的特征结构图
例[2] 这个问题我有不同意见。
该例中,大谓语是一个完整的句子,内含主谓宾。大主语问题前可以加上介词“关于”、“对”等。从语义关联上说,大主语和小宾语之间有语义关联。它的特征结构三元组和特征结构图(图3)如下:
图3 例[2]的特征结构图
4.2 主谓谓语句的特征结构类型
基于特征结构理论,我们运用标注软件对这13类主谓谓语句的语料进行了语义关系的标注,共概括出了六类标注图,如表1所示。
表1 主谓谓语句的特征结构类型表
续表
4.3 不同理论的主谓谓语句标注分析比较
我们以例[2]和例[7]为例,进行特征结构分析与传统依存分析,将分析结果进行对比,来评测对主谓谓语句的语义分析效果。
例[2] 这个问题我有不同意见。
表2 例[2]的两种分析图
表3 例[2]的两种分析结果对比表
如表2、表3所示,传统依存分析结果没有把“意见”和“问题”的语义关系表示出来。把没有语义关系的“有”和“问题”却表示了出来。因此它漏掉了一个语义关系对,还标注了一个没有语义关系的语义关系对。
例[7] 咱俩谁1也别忘了谁2。*对于句中重复出现的词语,我们依照出现顺序分别下标为1,2,3,依次类推。
如表4、表5所示,传统依存分析结果没有把“咱俩”和“谁1”、“咱俩”和“谁2”的语义关系表示出来,把没有语义关系的“咱俩”和“忘”却表示了出来。
表4 例[7]的两种分析图
表5 例[7]的两种分析结果对比表
因此它漏掉了两个个语义关系对,还标注了一个没有语义关系的语义关系对。
特征结构模型能够描述更多的语义关系对,因此包含更加丰富的语义信息。
1) 传统依存语法无法表示主谓谓语句中大主语与小主语或小宾语之间的语义关系,如复指、分指等。特征结构模型可以完整地表示主谓谓语句中大主语与小主语或小宾语之间的语义关系。如例句:这个问题我有不同意见。咱俩谁也别忘了谁。勤奋的小王,我们喜欢他。
2) 主谓谓语句中大主语和小谓语之间,有时存
在语义关系,有时不存在语义关系。传统依存语法无法辨析这两种情况,而是无论实际的语义关系是否存在,但是传统依存语法总是处理为两者存在语义关系。特征结构模型可以按照语言实际情况,如实地反映大主语和小谓语之间的语义关系。如例句:小王技术很好。“小王”和“好”之间没有语义关系,但是传统依存分析却标注为有语义关系。
5 结论及展望
我们可以看到,运用特征结构对句子进行标注可反映出哪些成分充当实体,哪些充当特征,哪些充当特征值,这些词语之间的语义关系也很清晰地反映出来。今后运用特征结构标注的资源,通过训练,就有可能抽取出句子中隐含的语义关系。
特征结构分析有如下优点。
1) 标注的是语义关联,而非句法关联。我们标注的是句中词语与词语之间的语义关联,跟句子表层的句法结构无关,因此跳过了句法层面的分析;
2) 标注的是“关联”而非“依存”。我们表示的是语义上的关联,而不是传统的依存关系。因此我们的标注图用“无向图”表示,也弱化了中心词的概念;
3) 标注效率更高。特征结构的方法不牵涉词性争议、结构歧义等问题,也无需判断中心词,因此标注效率比句法标注和依存标注要高;
4) 标注的结果一致性高。我们的判断标准是基于关联,经过人工标注,最后得到的标注结果分歧较少;
特征结构的理论是我们的一个新尝试,现在我们已经建立了特征结构的基本概念和描述框架,建构了一个大规模的汉语语义资源,并且应用到了食谱分析、国家安全信息收集和分析、汽车市场情报分析等领域,取得了比较好的效果。
但是在标注过程中,仍然存在一些不可避免的难题,例如,不断发展变化的语言永远无法穷尽列举,真实语料中会出现很多语言的临时用法和特例,针对这类极少部分的语例,我们该如何制定规则确定特征结构?这是我们下一步工作要解决的问题。
[1] 陆俭明.新中国语言学50年[J].当代语言学,1999, (4): 1-13.
[2] 朱德熙.语法讲义[M].北京:商务印书馆,1982: 95-110.
[3] 李临定.现代汉语句型[M].北京:商务印书馆,1986:302-307.
[4] 吕叔湘.主谓谓语句举例[J].中国语文,1986,(5):334.
[5] 胡裕树.现代汉语[M].上海:上海教育出版社,1981:353.
[6] 洪维.主谓谓语句研究综述[J].呼兰师专学报,1998, (2): 70-76.
[7] B. Chen,D. Ji. Chinese Semantic Parsing Based on Dependency Graph, Feature[C]//Proceedings of the First International Conference on Electronic & Mechanical Engineering and Information Technology(EMEIT 2011), Haerbin, China. 2011:1730-1734.
[8] B. Chen, D. Ji, C. Lv. Semantic Labeling of Chinese Subject-Predicate Predicate Sentence Based on Feature Structure [C]//Proceedings of the 11th Chinese National Conference on Computational Linguistics(CNCCL2011), Luoyang, China.2011: 161-166.
[9] 陈波.特征结构及其汉语语义资源建设[D].武汉:武汉大学,2011.