《现代汉语析义元语言词典》的开发与应用*
2011-08-07孙道功
孙道功
(南京师范大学文学院 江苏 210097)
语义是目前语言信息处理的难点。如何解决语义的形式化问题,如何为计算机理解生成提供可形式化的语义网络,成为语义研究的核心。2001年,李葆嘉提出了“面向信息处理的现代汉语元语言研究”这一课题,认为存在词汇元语言、释义元语言和析义元语言、认知元语言四个层面。析义元语言,即语义特征,简称义征,是比释义元语言更加抽象的元语言系统,具有人工语言性质。析义元语言研究通过对同一义场内义位的对比分析挖掘义征标记,属于元语言研究的微观层面。任何一个义位都是义征的聚合体,析义元语言词典的开发正是基于此,在提取和建构现代汉语义征标记集的基础上,对常用词汇进行义征分析,按照义征排序规则(析义元句法模式)列出义征表达式,并根据属性信息建立文件结构。
一、析义元语言词典的收词原则
收词范围和所收词汇是衡量一部词典质量优劣的重要标准,析义元语言词典建构亦是如此。但与常规词典的不同之处表现在对词的语义分析上。常规词典对词的分析通常采用词汇释义的方式,而析义元语言词典的语义分析采用义征分析的方法。义征分析是析义元语言词典建构的基石。析义元语言词典收词须遵循三个原则:
第一,代表性原则。代表性原则指所选词汇应该具有较高的权威性和使用率,不应该仅仅适用于某一领域或通行于某一特定人群。目前汉语词汇常用词表有《汉语词汇的统计与分析》(北京语言学院教学研究所1985)、《现代汉语三千常用词表》(何克抗等1987)、《普通话三千常用词表》(增订本)(郑林曦等1987)等。有的词表是基于语料统计的方法建构的,如《汉语词汇的统计与分析》;有的是词汇研究的阶段性成果,如《现代汉语三千常用词表》《普通话三千常用词表》。比较发现,各个词表虽然包含了一定量的共有词汇,但也存在较大差异。而且通过基于个人语感的考察发现,有些日常生活中的常用词,在某些词表中并未出现。
第二,广布性原则。广布性原则指所选词汇应该具有较大覆盖性和分布率,通行于各个领域。这与代表性原则有一定相似之处,但又有差异。代表性原则侧重使用率,广布性原则侧重分布率。如《汉语词汇的统计与分析》和《现代汉语三千常用词表》的语料基础是中小学教材,属于母语教学领域;《普通话三千常用词表》的语料基础是多种工具书和课本,属于普通话学习领域。各个词表虽有一定代表性,但也有其语域的局限性。选取义征分析对象词汇时,力求充分考虑到广布性,尽量把各种语域中广泛使用的词语吸收进来。
第三,共现性原则。共现性指所选词汇应该是在目前大多数词典和词表中收录的。共现性的高低体现词典或词表研究者对某词语认可程度的高低。细言之,共现性主要包括口语交际领域和书面语领域的共现以及母语教学领域和对外汉语教学领域的共现等。
基于以上三原则,考察选取词汇义征分析的对象词汇。到目前为止,已选取3500个常用词汇作为义征分析对象。具体包括名词1221个,动词1002个,形容词784个,副词226个,类别词(量词)154个,代词12个,数词10个,其他虚词暂收91个。择词时不拘泥于某一词表或某一专著。把常用性强的词语最大可能地吸收到分析范围内,从而使所收录的词汇更具有代表性、广布性和全面性。
二、析义元语言词典的分析方法
使用限量词汇进行词典释义是国外词典释义的主流。但国内很多词典往往还停留在随机释义的层面。析义元语言作为最具人工语言性质的类型,与释义元语言虽然不同,但其释义同样需要采用限量词汇义征。析义元语言词典的分析是基于《现代汉语词汇义征标记集》(2836个标记)进行的。[1]具体分析时,依据义征分析步骤,并参考了汉语权威词典的解释。不同类型的词语,在分析时会采用不同的义征序列模式,即析义元句法模式。以实词义位为例,说明如下:
1.名词义征分析模式
NGn+Pn(+F)
N是Noun的缩写。G是Genus的缩写,P是Property的缩写,n表个数,括号中F表语体、语用等附加说明,以下皆同。
NG表类别义征,NG的个数取决于语义分类层级,几个NG之间必是上下义关系。P表属性义征。F只有在所比较义位其他义征都相同,而要加以区分的情况下才出现。同场义位的区别表现在P上。因受篇幅所限,仅举面食义场部分义位为例:
馒头[+面食][+面粉][+发酵][-有馅][±圆形][-水煮][+热蒸]
包子[+面食][+面粉][+发酵][+有馅][+圆形][-水煮][+热蒸]
面条[+面食][+面粉][-发酵][-有馅][+线形][+水煮][-热蒸]
水饺[+面食][+面粉][-发酵][+有馅][+半圆][+水煮][-热蒸]虽然某些名词可能采用其他分析模式,但上述模式是名词义征分析的典型模式。
2.动词义征分析模式
VGn+Sn+An(+F)
V是Verb的缩写,S是Semantic role的缩写,A是Action的缩写。VG表类别义征。S表语义角色,通常n=3~5。A表动作行为义征,是对动作行为语义的凸显描述或分解描述。同场义位的区别在于S和A的性质和数量。以手掌动作义场部分义位为例:
托[+动作][+手掌][+向上][+承受][+物体][-传递]
捂[+动作][+手掌][-向上][+盖住][+物体][-传递]
接[+动作][+手掌][+向上][+接受][+物体][+传递]
3.代词义征分析模式
RG+S+Pn(+F)
R是Pronoun的缩写,因为已用P表属性特征,故用英文第二个字母表示。RG是类别义征。S表指代的对象或范围。同场义位的区别表现在P上。以人称代词义场部分义位为例:
我 [+代称][+人类][+自称][+单数]
你 [+代称][+人类][+对称][+单数]
他 [+代称][+人类][+他称][+单数]
4.形容词义征分析模式
AGn+Sn+Pn(+F)
A是Adjective的缩写。AG表类别义征。S表描写对象,其数量取决于描写深度。同场义位的差别表现在P的内容或数量上。以心情高涨类义场部分义位为例:
激动[+情形][+心情][+高涨][+冲动][+通用]
激昂[+情形][+心情][+高涨][+冲动][+高扬]
激愤[+情形][+心情][+高涨][+冲动][+愤怒]
5.副词义征分析模式
DGn+Sn+Pn(+F)
D是Adverb的缩写,因形容词中已使用A,故用英文第二个字母表示。DG表类别义征,DG数量取决于语义分类层次。S表义位的限制对象或关涉范围。同场义位的区别体现在P上。以时频副词义场部分义位为例:
往往[+时频][+行为|状况][+较长][+时段][+发生][+次数][+极多][+推定]
有时[+时频][+行为|状况][+较长][+时段][+发生][+次数][+很少][-定时]
常常[+时频][+行为|状况][+较长][+时段][+发生][+次数][+极多][-推定]
6.数词义征分析模式
数目词的析义元句法模式包括枢纽模式和其他模式两类:
枢纽模式UG+Pn(+F)
其他模式UG+S1+A+S2
U是Numeral的缩写,因名词中已使用N,故用英文第二个字母表示。UG表类别义征,S是关涉对象,A是关系义征。以基数词义场部分义位为例:
一[+数目][+独立][+个体]
二[+数目][+成双][+个体]
三[+数目][+二][+增加][+一个]
四[+数目][+三][+增加][+一个]
“一、二”的分析基于事物的个体和相配,属性义征P的数量为2。在“三、四”中,S1、S2分别表参照对象和增加对象,A表计算关系。
7.类别词义征分析模式
CGn+Pn+Sn(+F)
C是Category的缩写。CG表类别义征。S表修饰对象或关涉范围。同场义位的区别体现在P、S的内容上。以丛状义场部分义位为例:
簇[+丛状][+聚集][+密][+多][+植物][+毛发][+人类][-口语]
丛[+丛状][+聚集][+密][+多][+植物][-毛发][-人类][-口语]
三、析义元语言词典属性信息的确立
为了语义形式化和语言处理的需要,《析义元语言词典》设置以下属性信息:
1.词汇信息。即词典中所收录词语。对于包含多个义项的词根据义项分列。如总库文件的收录词语样例中的拍1、拍2。
2.常规信息。即词的拼音信息。
3.语法信息。按照北京大学计算语言学研究所的《现代汉语语法信息词典》,描写所收词汇的语法信息。
4.释义信息。虽然与常规词典释义方式不同,但常规的词典释义仍是义征分析的借鉴,故在属性信息中设立词典释义信息。
5.义类信息。库中共分出四大义类:指称类、陈述类、修饰限制类、情态功能类。
6.义场信息。析义元语言分析必须在义场中进行,基于所收词汇共构建了551个义场。
7.义征表达式信息。与常规词典的最大区别在于,析义元语言词典的语义分析结果是通过义征表达式体现的。每一个义位的析义结果体现为一个有层次的义征表达序列。不同词类的义位其义征表达式结构是不同的。
8.义位组合信息。同一义场义位组合时,往往具有共性特征。义位组合研究可以以义场为单位进行考察。如“穿着”场和“衣物”场组合,“进食”场和“食物”场组合。但具体来看,同一义场义位在组合小类上又有所区别。在文件结构中,会附加能与该义位组合的义场和义位信息。同时,义位进入组合后,词义往往会发生变化,增加该义位进入组合的语义信息变化的常见类型分析和例证说明。
四、析义元语言词典的文件结构
析义元语言词典的编纂采取以义类为纲,以义场为单位分析的方法。从义类角度进行词典编纂,最早可以追溯到成书于秦汉时期的《尔雅》。义类研究曾经一度中断,到了上世纪80年代,以《同义词词林》(梅家驹等1983)为发端,出现了诸多义类分析词典。借鉴目前分类方法,基于日常感知,我们对基本词汇进行语义分类。在具体研究中,将其分为4大类、15中类、42小类和551子场。如下图所示。
为了语义研究的精细化,在进行析义元语言分析时,尽可能地再划分小类和次小类,其中最深层次为8级,如“猴”,其语义类别层级是:事物-有形-生物-动物-野生-兽类-陆栖-小型。
1.词典文件的总体结构及规模
析义元语言词典采用关系数据库技术,在Access下实现。词典中信息都尽量用汉字表示。根据需要,词典共设置了四个库。其中总库一个,义场义类信息库一个,义征表达式信息库一个,义位组合信息库一个,这四个库通过“词汇”、“拼音”两个字段链接。该词典具有开放性,计划收词1万条左右,目前已经收录并分析了3500词。
2.库文件的结构及属性的描述
(1)总库文件结构及属性描述
总库的具体属性字段、字段宽度、属性值描述如下:
(2)义类义场信息库文件结构及属性描述
义场义类信息库主要包含两部分:义类信息和义场信息。义类信息相对简单,即总库中的四大类:指称类、陈述类、修饰限制类、情态功能类。义场信息比较复杂,对词典中所收录词语,分层级列出所属的义场信息,其中第一层就是义类属性。如以下“指称类”下的“人类称谓”义场的“堂兄、堂妹、表兄、表妹”所处的层级:
第一层 第二层 第三层 第四层 第五层 第六层 第七层 第八层
指称类——人类称谓——亲称——亲戚——同辈——堂亲——男性——堂兄
指称类——人类称谓——亲称——亲戚——同辈——堂亲——女性——堂妹
指称类——人类称谓——亲称——亲戚——同辈——表亲——男性——表兄
指称类——人类称谓——亲称——亲戚——同辈——表亲——女性——表妹
(3)组合信息库文件结构及属性描述
义位组合信息库比较复杂,包括两部分内容,一是与该义位组合的义场信息,一是该义位组合时词义变化信息。与某义位相组合的义场以及意义的凸显变化类型,都是基于语料的考察得出的,限于篇幅不再列举。
3.总库文件所收词语样例
表1
五、析义元语言词典的应用价值
析义元语言是元语言系统中最具人工性质的类型,其研究对语言信息处理与本体研究都有重要价值。概括言之,包括两个方面。
1.服务于语言信息处理研究
世界范围内的自然语言处理,经过字处理、词处理阶段之后相继进入句处理阶段。以往句处理研究的重点是句法结构和语义角色的自动分析和标注,以及句法分析器的研制。根据语义语法学理论,句法植根于词汇意义,词汇意义决定句法语义,语义性是语言的本质属性。句子的生成,需经过对象世界-认知图式—语义结构-句法结构四个阶段实现,其中语义结构是核心环节。语义研究的基石正是义征的提取和研究。析义元语言词典的开发,揭示了汉语常用词汇的微观语义层面,并提供了与之组合的常见义位,以及义位组合的语义变化信息,为句子生成和词库选择提供帮助。同时析义元语言词典把语义分析的颗粒度细化到了义征层面,能够更加清楚地凸显词元之间的细微语义差异,为提高词义消歧的精度提供了帮助。
2.丰富语义语法学理论
语义语法学强调语言的语义本质性,认为句法结构本质是相关义场的语义关联或相关词语的义征缠绕。“语义统一场”假说是语义语法理论的核心思想(李葆嘉2007)。析义元语言词典的开发,为汉语常用词汇的词汇语义系统建构和组合选择提供元语言基础,为义位组合的语义变化信息考察提供模型,为汉语词汇研究提供义类分析框架。语义语法学的最终目标是建构语义网络,而语义网络建构的关键是词汇-句法语义的衔接研究,其基本任务是:在词汇语义层面,进行义征提取和义场建构;在句法语义层面,进行句法范畴归纳、句法范畴义征提取和语义句模建构。而析义元语言词典的开发,把汉语常用义位分析为义征表达式,为词汇-句法语义的衔接提供词汇语义基础。这些无疑进一步丰富了语义语法学理论。
析义元语言词典具有开放性,目前仅分析了部分常用词,之后将逐步扩大规模。同时,析义元语言词典的开发也是个长期艰巨的工程,到目前为止尚未有人对汉语词汇做大规模的义征分析,这一状况需要在研究中不断地改进和完善。
附 注
[1]义征提取和义征标记集的建构,详见孙道功等 《试论析义元语言标记集的建构》,《语言文字应用》2008年第2期,P132-138。该义征标记集共包括2836个义征标记,具有较强的解释力。
1.安华林.现代汉语释义基元词研究.北京:中国社会科学出版社,2005.
2.亢世勇.《现代汉语新词语信息电子词典》的开发与应用.辞书研究,2001(1).
3.李葆嘉.理论语言学:人文与科学的双重精神.南京:江苏古籍出版社,2001.
4.李葆嘉等.语义语法学导论.北京:中华书局,2007.
5.梅家驹等.同义词词林.上海:上海辞书出版社,1983.
6.孙道功等.试论析义元语言标记集的建构.语言文字应用,2008(2).