面向识别任务的汉语名词短语本体研究综述
2017-03-31钱小飞
钱小飞
摘 要:名词短语识别是汉语句法分析中的难点,挖掘和利用语言学知识是提高名词短语识别效率的关键。文章对汉语名词短语识别相关的本体研究进行了综述,讨论了名词短语的界定、分类、性质判定、结构关系和功能等问题,这些研究对于定义名词短语,抓取识别特征具有启发意义。
关鍵词:面向识别任务 汉语名词短语 本体研究 综述
一、中文信息处理与名词短语研究
在中文信息处理的基础研究中,名词短语的识别是一个重要问题,也是进一步作句法和语义处理的基础。研究汉语名词短语的专著较少,史锡尧(1990)对名词短语的内部结构、定语构成、中心语构成以及定语顺序进行了较详细的描写。王珏(2001)涉及到名词的句法功能、语义关系、定语类型以及定语顺序等问题。其他论述多散见于单篇文献。从结构内容上划分,我们将面向识别任务的名词短语本体研究归纳为三个方面:(1)“的”的同一性;(2)含“的”名词短语研究;(3)不含“的”名词短语研究。这些研究涉及到名词短语的界定问题,以及潜在可用的识别资源和策略问题。本文通过对这些研究的整理分析,梳理和辨识对名词短语识别有用的语言学知识。
二、“的”的同一性
“的”的同一性问题涉及到名词短语界定。哪些“的”字短语是名词性的,存在争议。以De表示广义的“的”①,弱化其形式区分,同一性研究即如何对De进行更合理的分类。字面上,“的”是一种文字形式。但语料中存在少量De字同形,如“的1”和“的3”同形,“的2”和“的3”同形,以前者为例,不应包含在名词短语的结构助词中。尽管汉语书面形式约定“的”“地”“得”分别是定语、状语、补语的标识,但实际语料中存在不合约定的用法,并且含“的”短语也并不完全对应着名词短语。
De的同一性研究包括四分说、二分说、三分说和同一说四种观点。
(一)四分说
黎锦熙(1924)把De分为“特别介词”“语尾”“联接代名词”和“确定语态的助词”四类,涉及到De字研究的一些重要问题,如De作为语气词、副词性语尾,引导补语,表领属关系以及构成“的”字短语等问题。这一分类初步区分了副词性语尾“地”和补语标志“得”。
(二)二分说
吕叔湘(1942)论述了部分De表示语气的现象,提出把De分为关系词和语气词两类。关系词表示加语与端语的组合关系;语气词表示确认的语气。二分说把表示语气和修饰关系放在对立面上,区分了句末或动宾之间表语气的De和偏正结构中的De,引起了学术界对于语气词“的”的关注。
(三)三分说
朱德熙(1961)应用功能分布理论系统地研究了De的性质和分类问题,将“X的”语法功能的不同归结为De的不同功用,从而把De区分为三个语素:“的1”“的2”和“的3”,分别是副词性语法单位、形容词性语法单位、名词性语法单位的后附成分。这一分类在语法学界引发了关于De的性质和分类问题的大讨论,问题涉及分类方法、分类内容等多个方面。以下两个问题特别值得我们注意。
1.是否存在语气词De。朱德熙(1961、1966)使用“是……的”框架,论证了“我会写的”中的“的”是“的3”,同时也指出作为语气词的De和“的3”的界限“实在不容易划清楚”,承认语气词De与否都会遇到困难。
2.是否存在时间助词De。宋玉柱(1981)论证了表示时间的De,指出这些De指明动作发生于过去,去掉De会改变动作时间,造成语义矛盾,如“他昨天晚上什么时候回来的?”。它们不能用于表示将来时的句子中,如“你明天什么时候回来的?”。
我们认为De表示语气和时间的情况是客观存在的,但上述论述只有建立在De字功能单一的假设上才能成立,在“我昨天买的是这本书”中,“的”是时间助词还是“的3”,亦或同时实现了两种功能呢?仅看作时间助词至少是不全面的。
(四)同一说
随着研究的深入,学术界越来越倾向于De字功能同一的观点。石毓智(2000)从认知的角度,认为De的功能是用来确立认知域中的成员。功能同一性的论证多在认知层面进行,这种抽象的解释形式难以用来解决句法功能分类问题。
对于计算机而言,三分说系统地考察了“的1”“的2”和“的3”的分布位置,有较好的可操作性。首先,“的1”对应于形式“地”,不可能作为名词短语;其次,清楚地描述了“的2”和“的3”的分布差异,可以较明确地分辨名词性和形容词性“的”字短语。
三、含“的”名词短语研究
构造名词短语的De,可以是“的2”或“的3”。一方面,De的问题受到广泛关注;另一方面,语言学家观察得到De的参与是形成复杂名词短语的重要因素。按照是否含有结构助词De,名词短语分为含De名词短语和不含De名词短语。
(一)“的”字短语研究
关于名词性“的”字短语的研究主要讨论了“的”的性质,“的”字短语的自指、转指和成分提取等方面的问题。
1.“的”的性质
早期以黎锦熙(1924)等为代表的学者认为,“的”字短语是由含“的”偏正结构省略中心语而来,往往可以将省略成分补充出来,其中“的”是修饰语的标记。但在许多情况下,中心语无法补出,中心词省略说也就失去了解释力,如“酱油和醋一样打五分钱的”。
朱德熙(1966)反对修饰语标记省略的观点,采用功能分布理论区分了三个De,认为“S的”是一个自足的名词性成分,其后并没有省略什么,“的”是名词性成分的标记。根据该理论,“相对程度副词+形容词+的”是谓词性的,其中“的”是形容词性单位的后附成分,但是这样的格式却能够出现在主语的位置上用于指称,如“更重要的是今年的高考”。
郭锐(2000)区分了表述功能的词汇层面和句法层面,把“的”看成是词汇层面的“饰词标记”,认为“开车的跑了”中“开车的”与“急性好治”中的“急性”一样,都是饰词性成分在句法层面的指称化。endprint
名词短语识别作为一项较为基础的研究,宜采用较为宽泛的定义,我们主张以朱德熙的观点为主,部分采纳郭锐关于饰词性成分指称化的观点,将主语位置上的谓词性“X+的2”短语也纳入名词短语的范畴。
2.“的”字短语的指代和成分提取
朱德熙(1978)研究了由動词性结构组成的“的”字短语(DJ的)以及由该类“的”字短语组成的判断句,分析了“DJ的”与“DJ的+M”的关系,认为“DJ的”中关于动词存在主谓和述宾两种句法关系,“DJ的”总是优先指代未出现的关系成分,因而可以指代三种对象:潜主语、潜宾语和其他成分。指代前两者的“DJ的”,对应了同格成分“M”;并且随着动词向的不同,“DJ的”在句中可能出现0个或多个潜在关系成分,因而“DJ的”可能产生指代歧义。“DJ的”结构指代潜主语、潜宾语和其他成分的不同之处在于,指代潜主语的“DJ的”语义上能够离开“M”而独立,而指代潜宾语的则不能。袁毓林(1994)修正了朱德熙关于“的”字短语歧义指数的计算方法,认为句法成分的提取不仅与动词的价有关,也与名词的配价有关。
沈家煊(1999)提出了一个转喻/转指的认知模型,在认知框架内将指代目标和替代项分辨为两个不同的对象,替代项能够激活指代目标,并且替代项的显著度高于指代目标。认知框架与配价结构有时是一致的,有时却不一致,这样更好地解释了“的”字短语的自指和转指问题。如“毒蛇咬的(伤口)”并不在配价结构内,但却在“施事—动作—结果”这一认知框架内,替代项“毒蛇咬”这一动作比指代目标“伤口”内涵更多,显著度更高。
指代和成分提取研究表明,“的”字短语内部存在精巧的句法语义构造。根据朱德熙的观点,多数包含动词的含“的”偏正结构可以看作是“De字短语+中心语”形式。这样,在“[NP1]+V+[NP2]+De+[NP3]”格式中,NP1、NP2、NP3与动词“V”都存在句法语义关系,这些关系可以参与短语边界识别,如判断“V”是否“NP2+De+NP3”的左边界,而这正是最长名词短语识别的难点。
“的”字短语的构造规则还提供了挖掘句法语义关系的方法。绝大部分动词是二价动词,“VP的”多提取主语和宾语,最常见的是提取宾语,可以利用转指规则自动获取搭配。但风险也可以预见:对二价动词,提取的结果可能是<动词,结果>,如“毒蛇咬的(伤口)”中的<咬,伤口>;对一价动词,可能提取出<动词,施事>,如从“游泳的人”中提取出<游泳,人>;或定中搭配对,如<游泳,健将>。
(二)含“的”偏正结构研究
含“的”偏正结构是以助词“的”为标记的偏正结构。研究主要涉及三个方面:含“的”偏正结构的属性;“N1的N2”内部关系;“N的V”结构与功能。
关于结构属性的研究主要从语法和认知两个角度进行,探讨了无标记偏正结构和含“的”偏正结构的异同。
“N1的N2”内部关系研究涉及到了其内部的语法、语义、语用等层面,集中讨论了其中的领属关系问题(沈阳,1995)。领属关系知识能够给识别工作提供消歧知识。例如,“修理汽车的轮子”对于计算机来说是一个歧义结构,当检测到“汽车”和“轮子”具有很强的领属关系时,基本可以排除“修理”和“汽车”在该句中作为动宾搭配的可能性。
“N的V”结构是名词性的还是动词性的存在争议。学术界就其历史演变、内部结构、外部功能等进行了多角度的研究。争论的焦点是“N的V”的内部结构关系和“V”的名物化问题。
1.内部结构关系
从内部结构的研究来看,主要有主谓关系说、偏正关系说,后者得到了语法学界的广泛承认,大多数语法学家都持有这一观点。
张伯江(1993)细致地考察了“N的V”的内部结构语义关系,特别是“V”可能实现的语法性质,发现表示时间意义的语法手段最受限制,表情态的次之,而动词自身的补充成分(宾语)和修饰性成分(状语)比较自由。常见修饰性成分有:专职动词前加词,如“全速、大力”;副词,如“不”;表否定意义的助动词,如“未能、不肯”。“V”后出现宾语的情况较普遍,但不容易出现补语和动态助词“了、着、过”。从语义关系看,大多数情况下“N”是施事,但作受事也不少见。
沈家煊等(2000)从认知角度研究了“N”和“V”的句法语义关系,根据“N”能否作“V”的主宾语,分析了构成“N的V”的四种情形,四种情况形成各自的动词聚类,并认为“N的V”是“参照体—目标”构式,“N”是参照体,“V”是目标,人们通过参照体获得对目标的认知,因此进入“N的V”的“N”必然是与“V”联系的凸现度或可及度较高的名词。
2.动词名物化
内部结构的一个重要问题是“V”是否名物化。黎锦熙(1924)在其构建的“依句辨品”的语法体系中,将词类和句法成分一一对应,认为主语和宾语位置上的“V”转化成了名词。朱德熙反对“名物化”的观点,认为动词作主语时受定语修饰是动词固有的用法,而“这本书的出版”之所以是名词性的,并非因为该结构出现在主语或宾语的位置上,而是因为“这个结构本身是名词性的:既不能作谓语,也不能受副词修饰”。
张伯江(1993)没有对“V”的性质作出定论,但认为“V”的名词性增强,动词性减弱;王冬梅(2002)采用及物性理论中的八项及物性判定特征对“V”进行测试,得出同样的结论,发现及物性越高的动词越不容易出现在该结构中。
3.外部句法功能
由于对“N的V”的结构关系、结构核心认识不同,对它的外部功能也存在不同见解。基本分为两种观点,一种认为“N的V”是名词性的,持名物化说、偏正关系说及“参照体—目标”构式说的学者大都持此观点。
张伯江(1993)根据语料统计指出,“N的V”格式作主语和宾语的几率大约各占一半,并且作宾语时更倾向于作介词宾语;当“V”为光杆动词时,作主语或宾语都十分常见,“V”前后带附加成分时,作主语的倾向则十分明显。endprint