面向识别任务的汉语名词短语本体研究综述
2017-03-31钱小飞
摘 要:名词短语识别是汉语句法分析中的难点,挖掘和利用语言学知识是提高名词短语识别效率的关键。文章对汉语名词短语识别相关的本体研究进行了综述,讨论了名词短语的界定、分类、性质判定、结构关系和功能等问题,这些研究对于定义名词短语,抓取识别特征具有启发意义。
关鍵词:面向识别任务 汉语名词短语 本体研究 综述
一、中文信息处理与名词短语研究
在中文信息处理的基础研究中,名词短语的识别是一个重要问题,也是进一步作句法和语义处理的基础。研究汉语名词短语的专著较少,史锡尧(1990)对名词短语的内部结构、定语构成、中心语构成以及定语顺序进行了较详细的描写。王珏(2001)涉及到名词的句法功能、语义关系、定语类型以及定语顺序等问题。其他论述多散见于单篇文献。从结构内容上划分,我们将面向识别任务的名词短语本体研究归纳为三个方面:(1)“的”的同一性;(2)含“的”名词短语研究;(3)不含“的”名词短语研究。这些研究涉及到名词短语的界定问题,以及潜在可用的识别资源和策略问题。本文通过对这些研究的整理分析,梳理和辨识对名词短语识别有用的语言学知识。
二、“的”的同一性
“的”的同一性问题涉及到名词短语界定。哪些“的”字短语是名词性的,存在争议。以De表示广义的“的”①,弱化其形式区分,同一性研究即如何对De进行更合理的分类。字面上,“的”是一种文字形式。但语料中存在少量De字同形,如“的1”和“的3”同形,“的2”和“的3”同形,以前者为例,不应包含在名词短语的结构助词中。尽管汉语书面形式约定“的”“地”“得”分别是定语、状语、补语的标识,但实际语料中存在不合约定的用法,并且含“的”短语也并不完全对应着名词短语。
De的同一性研究包括四分说、二分说、三分说和同一说四种观点。
(一)四分说
黎锦熙(1924)把De分为“特别介词”“语尾”“联接代名词”和“确定语态的助词”四类,涉及到De字研究的一些重要问题,如De作为语气词、副词性语尾,引导补语,表领属关系以及构成“的”字短语等问题。这一分类初步区分了副词性语尾“地”和补语标志“得”。
(二)二分说
吕叔湘(1942)论述了部分De表示语气的现象,提出把De分为关系词和语气词两类。关系词表示加语与端语的组合关系;语气词表示确认的语气。二分说把表示语气和修饰关系放在对立面上,区分了句末或动宾之间表语气的De和偏正结构中的De,引起了学术界对于语气词“的”的关注。
(三)三分说
朱德熙(1961)应用功能分布理论系统地研究了De的性质和分类问题,将“X的”语法功能的不同归结为De的不同功用,从而把De区分为三个语素:“的1”“的2”和“的3”,分别是副词性语法单位、形容词性语法单位、名词性语法单位的后附成分。这一分类在语法学界引发了关于De的性质和分类问题的大讨论,问题涉及分类方法、分类内容等多个方面。以下两个问题特别值得我们注意。
1.是否存在语气词De。朱德熙(1961、1966)使用“是……的”框架,论证了“我会写的”中的“的”是“的3”,同时也指出作为语气词的De和“的3”的界限“实在不容易划清楚”,承认语气词De与否都会遇到困难。
2.是否存在时间助词De。宋玉柱(1981)论证了表示时间的De,指出这些De指明动作发生于过去,去掉De会改变动作时间,造成语义矛盾,如“他昨天晚上什么时候回来的?”。它们不能用于表示将来时的句子中,如“你明天什么时候回来的?”。
我们认为De表示语气和时间的情况是客观存在的,但上述论述只有建立在De字功能单一的假设上才能成立,在“我昨天买的是这本书”中,“的”是时间助词还是“的3”,亦或同时实现了两种功能呢?仅看作时间助词至少是不全面的。
(四)同一说
随着研究的深入,学术界越来越倾向于De字功能同一的观点。石毓智(2000)从认知的角度,认为De的功能是用来确立认知域中的成员。功能同一性的论证多在认知层面进行,这种抽象的解释形式难以用来解决句法功能分类问题。
对于计算机而言,三分说系统地考察了“的1”“的2”和“的3”的分布位置,有较好的可操作性。首先,“的1”对应于形式“地”,不可能作为名词短语;其次,清楚地描述了“的2”和“的3”的分布差异,可以较明确地分辨名词性和形容词性“的”字短语。
三、含“的”名词短语研究
构造名词短语的De,可以是“的2”或“的3”。一方面,De的问题受到广泛关注;另一方面,语言学家观察得到De的参与是形成复杂名词短语的重要因素。按照是否含有结构助词De,名词短语分为含De名词短语和不含De名词短语。
(一)“的”字短语研究
关于名词性“的”字短语的研究主要讨论了“的”的性质,“的”字短语的自指、转指和成分提取等方面的问题。
1.“的”的性质
早期以黎锦熙(1924)等为代表的学者认为,“的”字短语是由含“的”偏正结构省略中心语而来,往往可以将省略成分补充出来,其中“的”是修饰语的标记。但在许多情况下,中心语无法补出,中心词省略说也就失去了解释力,如“酱油和醋一样打五分钱的”。
朱德熙(1966)反对修饰语标记省略的观点,采用功能分布理论区分了三个De,认为“S的”是一个自足的名词性成分,其后并没有省略什么,“的”是名词性成分的标记。根据该理论,“相对程度副词+形容词+的”是谓词性的,其中“的”是形容词性单位的后附成分,但是这样的格式却能够出现在主语的位置上用于指称,如“更重要的是今年的高考”。
郭锐(2000)区分了表述功能的词汇层面和句法层面,把“的”看成是词汇层面的“饰词标记”,认为“开车的跑了”中“开车的”与“急性好治”中的“急性”一样,都是饰词性成分在句法层面的指称化。
名词短语识别作为一项较为基础的研究,宜采用较为宽泛的定义,我们主张以朱德熙的观点为主,部分采纳郭锐关于饰词性成分指称化的观点,将主语位置上的谓词性“X+的2”短语也纳入名词短语的范畴。
2.“的”字短语的指代和成分提取
朱德熙(1978)研究了由動词性结构组成的“的”字短语(DJ的)以及由该类“的”字短语组成的判断句,分析了“DJ的”与“DJ的+M”的关系,认为“DJ的”中关于动词存在主谓和述宾两种句法关系,“DJ的”总是优先指代未出现的关系成分,因而可以指代三种对象:潜主语、潜宾语和其他成分。指代前两者的“DJ的”,对应了同格成分“M”;并且随着动词向的不同,“DJ的”在句中可能出现0个或多个潜在关系成分,因而“DJ的”可能产生指代歧义。“DJ的”结构指代潜主语、潜宾语和其他成分的不同之处在于,指代潜主语的“DJ的”语义上能够离开“M”而独立,而指代潜宾语的则不能。袁毓林(1994)修正了朱德熙关于“的”字短语歧义指数的计算方法,认为句法成分的提取不仅与动词的价有关,也与名词的配价有关。
沈家煊(1999)提出了一个转喻/转指的认知模型,在认知框架内将指代目标和替代项分辨为两个不同的对象,替代项能够激活指代目标,并且替代项的显著度高于指代目标。认知框架与配价结构有时是一致的,有时却不一致,这样更好地解释了“的”字短语的自指和转指问题。如“毒蛇咬的(伤口)”并不在配价结构内,但却在“施事—动作—结果”这一认知框架内,替代项“毒蛇咬”这一动作比指代目标“伤口”内涵更多,显著度更高。
指代和成分提取研究表明,“的”字短语内部存在精巧的句法语义构造。根据朱德熙的观点,多数包含动词的含“的”偏正结构可以看作是“De字短语+中心语”形式。这样,在“[NP1]+V+[NP2]+De+[NP3]”格式中,NP1、NP2、NP3与动词“V”都存在句法语义关系,这些关系可以参与短语边界识别,如判断“V”是否“NP2+De+NP3”的左边界,而这正是最长名词短语识别的难点。
“的”字短语的构造规则还提供了挖掘句法语义关系的方法。绝大部分动词是二价动词,“VP的”多提取主语和宾语,最常见的是提取宾语,可以利用转指规则自动获取搭配。但风险也可以预见:对二价动词,提取的结果可能是<动词,结果>,如“毒蛇咬的(伤口)”中的<咬,伤口>;对一价动词,可能提取出<动词,施事>,如从“游泳的人”中提取出<游泳,人>;或定中搭配对,如<游泳,健将>。
(二)含“的”偏正结构研究
含“的”偏正结构是以助词“的”为标记的偏正结构。研究主要涉及三个方面:含“的”偏正结构的属性;“N1的N2”内部关系;“N的V”结构与功能。
关于结构属性的研究主要从语法和认知两个角度进行,探讨了无标记偏正结构和含“的”偏正结构的异同。
“N1的N2”内部关系研究涉及到了其内部的语法、语义、语用等层面,集中讨论了其中的领属关系问题(沈阳,1995)。领属关系知识能够给识别工作提供消歧知识。例如,“修理汽车的轮子”对于计算机来说是一个歧义结构,当检测到“汽车”和“轮子”具有很强的领属关系时,基本可以排除“修理”和“汽车”在该句中作为动宾搭配的可能性。
“N的V”结构是名词性的还是动词性的存在争议。学术界就其历史演变、内部结构、外部功能等进行了多角度的研究。争论的焦点是“N的V”的内部结构关系和“V”的名物化问题。
1.内部结构关系
从内部结构的研究来看,主要有主谓关系说、偏正关系说,后者得到了语法学界的广泛承认,大多数语法学家都持有这一观点。
张伯江(1993)细致地考察了“N的V”的内部结构语义关系,特别是“V”可能实现的语法性质,发现表示时间意义的语法手段最受限制,表情态的次之,而动词自身的补充成分(宾语)和修饰性成分(状语)比较自由。常见修饰性成分有:专职动词前加词,如“全速、大力”;副词,如“不”;表否定意义的助动词,如“未能、不肯”。“V”后出现宾语的情况较普遍,但不容易出现补语和动态助词“了、着、过”。从语义关系看,大多数情况下“N”是施事,但作受事也不少见。
沈家煊等(2000)从认知角度研究了“N”和“V”的句法语义关系,根据“N”能否作“V”的主宾语,分析了构成“N的V”的四种情形,四种情况形成各自的动词聚类,并认为“N的V”是“参照体—目标”构式,“N”是参照体,“V”是目标,人们通过参照体获得对目标的认知,因此进入“N的V”的“N”必然是与“V”联系的凸现度或可及度较高的名词。
2.动词名物化
内部结构的一个重要问题是“V”是否名物化。黎锦熙(1924)在其构建的“依句辨品”的语法体系中,将词类和句法成分一一对应,认为主语和宾语位置上的“V”转化成了名词。朱德熙反对“名物化”的观点,认为动词作主语时受定语修饰是动词固有的用法,而“这本书的出版”之所以是名词性的,并非因为该结构出现在主语或宾语的位置上,而是因为“这个结构本身是名词性的:既不能作谓语,也不能受副词修饰”。
张伯江(1993)没有对“V”的性质作出定论,但认为“V”的名词性增强,动词性减弱;王冬梅(2002)采用及物性理论中的八项及物性判定特征对“V”进行测试,得出同样的结论,发现及物性越高的动词越不容易出现在该结构中。
3.外部句法功能
由于对“N的V”的结构关系、结构核心认识不同,对它的外部功能也存在不同见解。基本分为两种观点,一种认为“N的V”是名词性的,持名物化说、偏正关系说及“参照体—目标”构式说的学者大都持此观点。
张伯江(1993)根据语料统计指出,“N的V”格式作主语和宾语的几率大约各占一半,并且作宾语时更倾向于作介词宾语;当“V”为光杆动词时,作主语或宾语都十分常见,“V”前后带附加成分时,作主语的倾向则十分明显。
詹卫东(1998)发现“N的V”参与组句时主要分布在主语、宾语和介词槽中,并且对于谓语动词有所选择。“N的V”作主语时要求谓语动词允许谓词性成分充当其主语,常见的动词如“安排、避免、成为、表示、称”等。当它作宾语时要求谓语动词是真谓宾动词,如“企图、受到、同意、看”等。这反映了“N的V”作为名词性偏正结构也有着不同于普通名词短语的性质。
另一种观点认为该结构是谓词性的。主要基于向心结构理论自底向上地推导“N的V”的结构功能,认为由于“V”是谓词性的,“N的V”的结构核心在于“V”,因此该结构也是谓词性的。持这种观点的学者较少。
我们认为,“N的V”结构不能作谓语,也不能受副词修饰,是名词性的短语,相应地,结构关系为偏正关系。“V”是否指称化,或者整个短语在句法层面、语用层面还是表达层面完成指称化,暂不作讨论。但是,在中文信息处理中,通常对“V”进行指称化标注,对于句法分析而言是十分有利的。
关于“N的V”结构及功能的研究还为该模式的识别提供了待开发知识资源,特别是其中关于动名句法关系、动词聚类、谓语动词约束的讨论对于消解诸如“N的V”“N的DV”模式的边界歧义有一定帮助。
四、不含“的”名词短语研究
不含“的”名词短语研究主要关注动词或动词性结构直接作定语问题。我们关注以下两个问题:语法单位的性质;构造特征及约束条件。
(一)语法单位的性质
定中式“动词+名词”是短语单位还是词汇单位存在不同看法。一种观点认为该结构是词汇单位;第二种观点认为是短语;第三种观点介于两者之间,主要根据可扩展性,中间可以插入“的”的是词汇单位,否则是典型短语。一般认为定中式“动词+名词”是短语,但词汇的观点(邢福义,1957)却对名词短语的识别有所启发。
在标注语料库中,定中式“动词+名词”多被切开,如果是词汇单位,可以考虑收录进词表,这对于“动词性结构+名词”的结构消歧也有作用,如果已知“治疗 中心”是定中结构,可以推断“治疗 网瘾 中心”也是定中结构。
(二)构造特征及约束条件
1.音节构造
吕叔湘(1963)分析了汉语单双音节问题,涉及动名搭配问题。指出对于三音节语音段落,偏正组合的“双音节+单音节”模式多于“单音节+双音节”,动宾结构相反;对于四音节语音段落,动宾关系和偏正关系中的“双音节+双音节”模式均远多于其他构造模式。
张国宪(1989)研究了“动词+名词”结构中单双音节动词的功能差异,认为从共时角度看,与单音节动词相比,大部分双音节动词动作性较弱,兼有名词的某些特点,是动/名双功能词;从历时角度看,双音节动词处于向名词一端漂移的过程中。这造成了偏正组合“V双+N单”多于“V单+N双”的特点。
2.动名约束
华灿(1983)从动词和名词等角度分别观察了定中式“及物动词+名词”结构的构造特点。名词常包括以下类型:表示人、事物的动作行为与发展变化的过程、情况等意义,如“过程、阶段、情况”等;对人、事物的动作行为与发展变化的能力、水平的概括,如“能力、技术、水平”等;对某些动作行为的概括、称说的动名兼类词,如“活动、运动、工作”等;概括地指称人或事物的词,如“机关、单位、人員”等。动词多是双音节动词,等等。
3.配价关系
邵敬敏(1995)考察了单双音节下动词性成分和名词性成分的四种组合模式。指出配价理论对句法关系的判定具有一定的解释力,大部分不及物动词跟双音节名词组合,只能理解为非价组合(定中关系)。此外,习惯性搭配、“动词+抽象名词”也是非价组合的常见类型。他还提出了判定“双音节动词+双音节名词”是否非价组合的结构框架:用于“V”的“N”;进行“V”的“N”;作为“V”的“N”。
4.其他研究
张国宪(1997)运用原型理论研究了“双音节动词+双音节名词”的理解因素。研究表明,生命度越低,形成定中关系的可能性越大;在“受事>对象>结果>处所>时间>施事”序列中,等级越低,越难形成动宾关系。
汉语中30%以上的动词可直接作定语修饰名词。双音节动词直接作定语一般在词性标注阶段标识为名动词,消解了大量歧义。名词短语识别还需要解决动词性结构作定语问题,它的构造特征与动词直接作定语是类似的。
五、结语
语言学知识能够帮助我们更好地理解名词短语的功能和结构,特别是对于低频的细颗粒度结构性知识是现有的统计方法比较难处理的。对于名词短语的界定、分类、性质判定、结构关系和功能的研究可以提供这些细颗粒度的知识,这些知识可以以规则或者资源的方式参与名词短语的识别任务。
注释:
①广义的“的”是指容纳虚词“的”“地”“得”三种形式及各自
功能的统一单位;在下文的论述中,根据使用环境,De有时也专指“的”“地”两个虚词的统一体。
参考文献:
[1]郭锐.表述功能的转化和“的”字的作用[J].当代语言学,
2000,(1).
[2]黎锦熙.新著国语文法[M].北京:商务印书馆,1924.
[3]吕叔湘.中国文法要略[M].北京:商务印书馆,1942.
[4]沈家煊.转指和转喻[J].当代语言学,1999,(1).
[5]沈家煊,王冬梅.“N的V”和“参照体-目标”构式[J].世界汉
语教学,2000,(4).
[6]沈阳.领属范畴及领属性名词短语的句法作用[J].北京大学学报
(哲学社会科学版),1995,(5).
[7]史锡尧.名词短语[M].北京:人民教育出版社,1990.
[8]石毓智.论“的”的语法功能的同一性[J].世界汉语教学,
2000,(1).
[9]王珏.现代汉语名词研究[M].上海:华东师范大学出版社,
2001.
[10]宋玉柱.关于时间助词“的”和“来着”[J].中国语文,
1981,(4).
[11]王冬梅.“N的V”结构中V的性质[J].语言教学与研究,2002,
(4).
[12]袁毓林.句法空位和成分提取[J].汉语学习,1994,(3).
[13]詹卫东.“NP+的+VP”偏正结构在组句谋篇中的特点[J].语
文研究,1998,(1).
[14]詹卫东.关于“NP+的+VP”偏正结构[J].汉语学习,1998,
(2).
[15]张伯江.“N的V”结构的构成[J].中国语文,1993,(4).
[16]朱德熙.说“的”[J].中国语文,1961,(12).
[17]朱德熙.关于《说“的”》[J].中国语文,1966,(1).
[18]朱德熙.“的”字结构和判断句[J].中国语文,1978,
(1-2).
[19]邵敬敏.双音节“V+N”的配价分析[A].沈阳,郑定欧主编.现
代汉语配价语法研究[M].北京:北京大学出版社,1995.
[20]邢福义.动词作定语要带“的”字[J].中国语文,1957,
(8).
[21]华灿.“及物动词+名词”的偏正词组[J].济宁师专学院,
1983,(2).
[22]张国宪.单双音节动作动词语用功能差异探索[J].汉语学习,
1989,(6).
[23]张国宪.“V_双+N_双”短语的理解因素[J].中国语文,
1997,(3).
(钱小飞 上海大学文学院 200444)