语文词典词类标注中词与非词的区分问题
2017-01-28姜明宇
姜明宇
(惠州经济职业技术学院 外语系,广东 惠州 516057)
语文词典词类标注中词与非词的区分问题
姜明宇
(惠州经济职业技术学院 外语系,广东 惠州 516057)
区分词与非词,是语文词典词类标注中应自始至终加以贯彻的一条重要原则。一方面,要严格区分词与短语;另一方面,要严格区分词与不成词语素。《现代汉语词典》(第6版)在区分词与非词特别是区分词与不成词语素方面,与同类语文词典相比,具有鲜明特色并做出突出成绩。当然,在标准确立及具体操作的科学性和一致性上,还存在有待深入研究并求得解决的问题。
语文词典;词类标注;词与非词;短语;不成词语素
区分词与非词,是语文词典词类标注中应自始至终加以贯彻的一条重要原则。因为词类是“词”的语法分类,而不是短语和语素的语法分类。几部影响比较大的中型语文词典,如《应用汉语词典》(简称《应用》)[1]、《现代汉语规范词典》(简称《规范》)[2]、《现代汉语词典》(第6版)(简称《现汉》)[3]在不同程度上贯彻了这一原则。其共同的做法是,对大于词的短语,包括成语和其他熟语不标注词类;所不同的是,《应用》和《规范》对词和不成词语素不加区别,一律标注词类,而《现汉》则只对严格意义的词标注词类,对不成词语素不加标注。应该说,《现汉》在严格区分词与非词这一原则的贯彻上,比另两部词典更为全面、彻底,充分体现了一贯秉持的“词本位”原则,也凸显了独有的特色。
但是,由于汉语缺乏严格意义的形态,词与短语、词与语素互相纠结,界限不清,一直是困扰语法研究的老大难问题。因此,表现在语文词典的词类标注上,不可避免地会出现或此或彼、前后不一等种种失误。本文主要以《现汉》(第6版)为例,谈谈对语文词典词类标注中词与非词区分问题的看法。
一、词类标注中的词与短语区分问题
如何区分词与短语,语法学界已基本达成共识:一是看结构能否扩展(插入其他成分),能扩展的是词,否则视为短语;二是看意义是否具有整体性,具有整体性的(不是构成成分意义的简单相加)是词,否则视为短语。通常两个方面是互为表里、互为条件的。如“牛脾气”(倔强执拗的脾气)不等于“牛的脾气”,不能扩展,意义具有整体性,因此《现汉》作为词条收录,标为“名”。
语文词典在判定词和短语时并非只考虑结构和意义,组合的长度和语节的切分也会对词和短语的划分产生重要影响。尽管从理论上说,词的形式不应该有长度(音节多少)的限制,但事实上人们心目中词表达的概念比较单一,不应该很长,如果太长且表达比较复杂的概念,就应该看成是短语。现代汉语中,严格意义的词通常以单音、双音、三音的为主(尤其以双音的为主要形式),四音和四音以上的极少。这种倾向从上述语文词典所收条目中看得非常清楚。但事实上,双音、三音、四音等多音条目都不同程度地存在词和短语的划界问题。
双音条目在《现汉》中全部标注词类,显然是被视为词才予以收录的。如果说双音条目与短语有些纠葛的,那主要表现在我们通常所说的“离合词”上,如“跳舞”“碰壁”“推翻”“打倒”等动宾式或动补式组合,它们都可以有限扩展(区别于自由扩展),如“跳个舞”“碰了壁”“推得翻”“打不倒”等。《现汉》给这些双音组合都标注了词类,表明认可它们词的资格,只是在注音时用“//”分隔两个音节,以示能有限扩展,有别于一般的词。例如:
【碰壁】pèng//bì动比喻遇到严重阻碍或受到拒绝,事情行不通:到处~。
【打倒】dǎ//dǎo动①击倒在地:一拳把他~。②攻击使垮台;推翻:~侵略者!
三音条目在《现汉》中有些标注了词类,有些未标注词类。
标注词类的三音条目都是严格意义的词。按音节形式包括“A+BC”(大自然、电冰箱)、“AB+C”(图书馆、实验室)、“A+B+C”(高精尖、短平快)、“AA+B”(毛毛雨、蒙蒙亮)、“A+BB”(毛绒绒、亮晶晶)等。
未标注词类的三音条目主要为惯用语。其结构多为动宾式。注音时词与词之间分写。如:
【炒冷饭】chǎo lěngfàn比喻重复已经说过的话或做过的事,没有新的内容。
【挖墙脚】wā qiángjiǎo〈口〉拆台。
惯用语中还有一类属于偏正(定中)式的,如“耳边风、贱骨头、小算盘”等。在《现汉》中都标注了词类(名词),注音时连写。如:
【耳边风】ěrbiānfēng名耳边吹过的风。比喻听过后不放在心上的话(多指劝告、嘱咐)。也说耳旁风。
【贱骨头】jiàngǔ·tou名①指不自尊重或不知好歹的人(骂人的话)。②指有福不会享而甘愿受苦的人(含戏谑义)。
【小算盘】xiǎosuàn·pan(~儿)名比喻为个人或局部利益所作的打算。
《现汉》对这两类之所以作不同的处理,是因为从结构的定型性和紧密程度看,动宾式和偏正(定中)式有很大不同:动宾式中间可插入成分,如“炒了一回冷饭”“挖他的墙脚”,而偏正式中间是根本不能插入的。所以前者处理为短语,后者处理为词,是有道理的。从惯用语的发展看,偏正式惯用语已逐步词化,应是不争的事实。
四音和四音以上条目,有一部分是熟语。其中主要是成语,以四字格为基本形式,如“顺水推舟、马到成功、亭亭玉立”等,也有四音以上的,如“风马牛不相及、山雨欲来风满楼”等。除成语,还包括一些惯用语和俗谚。惯用语如“吃大锅饭、打退堂鼓、唱对台戏”,俗谚如“一个巴掌拍不响、上梁不正下梁歪、枪打出头鸟”等。
《现汉》对所有四音及四音以上的熟语都不标词类,但在语音标注(拼写法)上却有所不同:依据《汉语拼音正词法基本规则》(2012),四音成语在结构上能分成两个双音节的,半连写(中间加连接号);在结构上不能分成两个双音节的,全连写;四音及四音以上熟语按词分写。举例如下:
【一面之词】yīmiànzhīcí争执双方一方所说的话。
【顺水推舟】shùnshuǐ-tuīzhōu比喻顺应趋势办事。
【一个巴掌拍不响】yī gè bā·zhang pāi bù xiǎng比喻矛盾和纠纷不是单方面引起的。
应该说,语法学界和语文辞书界对熟语的短语身份基本都是认同的,不管是三音节、四音节,还是四音以上的。但是,熟语以外的四音或四音以上条目就不那么简单了,是词,还是短语,不同的词典往往看法不一,在是否标注词类和注音方式上常常出现分歧。就拿“社会主义”这个四音条目来说,三部语文词典的处理就不大一致(为求整齐划一,以下统依《现汉》体例并略作调整):
【社会主义】shèhuùzhǔyì①名指社会主义学说。……②名指社会主义制度,……(《应用》)
【社会主义】shèhuǐ zhǔyì①名指以生产资料社会主义公有制为基础的社会。……②名指科学社会主义思想体系。(《规范》)
【社会主义】shèhuǐ zhǔyì①指科学社会主义。②指社会主义社会,是共产主义的初级阶段。……(《现汉》)
《应用》和《现汉》都标注词类,但注音不同:前者全部连写,后者按词分写;《现汉》不标注词类,注音按词分写。显然,《现汉》是将“社会主义”作为短语来看待的。
《现汉》之所以如此处理,想必是因为“社会主义”可以划分出“社会”和“主义”两个词,况且这样处理还可以从《汉语拼音正词法基本规则》中找到依据:“四音节以上表示一个整体概念的名称,按词或(语节)分开写,不能按词(或语节)划分的,全部连写。”应该说,以正词法中拼写形式的连写和分写来确定词和短语,在一般情况下是可行的,但有时并不可靠。连写形式未必一定是一个词(语法词),如“吃饱”“弄丢”;分写形式未必就是一个短语,如“屈原”“泰山”。确定一个语言成分是词还是短语,归根到底,还是应该看结构上能否扩展,意义上是否具有整体性。“社会主义”结构上不能扩展,意义上表示一个整体概念,况且“主义”的后置性使其逐渐演变为一个类后缀,因此,将“××主义”看作是词并标注词类,应该是可行的。
除熟语外,《现汉》中四音和四音以上条目被归为短语的,在语节划分上往往都是“多音+多音”型,其中以“双音+双音”型为最多。如“上层建筑”“意识形态”“特别行政区”“中国工农红军”等。这些条目《现汉》都未标注词类。但对“多音+单音”型往往都看作是词而标注词类,如“阿拉伯人”,《现汉》将其标注为名词。而列于其后的“阿拉伯数字”,却因“数字”为双音节而视为短语,不标注词类。这样完全以语节的长短组合状况来做为认定词与短语的依据,恐怕很难令人接受。
当然,“双音+双音”的四音条目,《现汉》也有处理为词并标注词类的,应是比较罕见的情况,如“冰糖葫芦”:
【冰糖葫芦】bīngtánghú·lu(~儿)名糖葫芦。
注音全部连写并标为“名”。这种通过修辞学造词法造出的词不仅结构定型,意义上也具有更强的整体性,《现汉》这样对的处理是正确的,可惜在实践上这一原则未能贯彻到底,例如同类的“鸡皮疙瘩”,《现汉》作了不同的处理:
【鸡皮疙瘩】jīpí gē·da因受冷或惊恐等皮肤上起的小疙瘩,样子和去掉皮的鸡皮相似。
注音按词分写,未标注词类,显然视其为短语,其实可比照“冰糖葫芦”同样处理。
二、词类标注中的词与不成词语素区分问题
如果说多字条目会涉及词和短语的划界问题,那么单字条目就必然会涉及词和语素的划界问题。《现汉》同《应用》和《规范》的最大区别,就是在单字条目的词类标注上严格区分词和语素。这一原则通过凡例中的一条规定得以确立:“单字条目在现代汉语中成词的标注词类,不成词的语素和非语素字不作任何标注。”
下面以“妈”为例,看《现汉》同《应用》和《规范》在词类标注上的区别:
【妈】mā①名〈口〉母亲;妈妈。②名对跟母亲同辈的已婚女性长辈的称呼:姑~|姨~|舅~。③名对年长已婚妇女的尊称:大~④名旧时连着姓对中老年女仆的称呼:周~|李~。(《应用》)
【妈】mā①名〈口〉妈妈:我~不在家|爹~。②名对长一辈亲属中已婚女性的称呼:大~|姑~|舅~。③名对年长的已婚妇女的尊称:张大~④名旧时对中老年女仆的称呼:王~。(《规范》)
【妈】mā①名〈口〉母亲。②称长一辈或年长的已婚妇女:姑~|姨~|大~。③旧时连着姓称中年或老年的女仆:王~|鲁~。(《现汉》)
通过比较不难看出,《现汉》只对义项①标注词类,其他义项不标,而《应用》和《规范》对所有义项都作了标注。以上所列“妈”的诸义项中,只有义项①可单说单用,其他义项只存在于合成词中,不能单说单用,可见义项①为词,余者为不成词语素。
《现汉》对“妈”的各义项所作的不同处理,体现了严格区分词和不成词语素的标注原则,对掌握词语的性质和用法具有积极意义;而《应用》和《规范》的标注虽然在提示语素的语法性质上有一定的作用,但在客观上混淆了词和语素的界限,难免会对读者特别是母语为非汉语的读者造成误导。
一个单字条目在现代汉语中是否成词,不能不考虑汉语构成成分多层性这一重要因素,即汉语其实是一个不同历史层次和不同领域层次的复合体。某些单字代表的语言单位在现代汉语中不成词,但在古代汉语中成词;在日常口语中不成词,在不同语体或专业用语中成词。如“狐”,现代汉语口语中一般不单说,通常说“狐狸”,但在书面语中可以单说,如“狐为哺乳动物,犬科”。正因为如此,《现汉》对“狐”“虎”“狮”“鸭”等作了词类标注,是稳妥而科学的。只是未能将这一标注原则贯彻到底,对同类条目的处理不够统一,如动物学中可单用的“犬”未作词类标注,反倒是在任何情况下都很少单用的“鸦”标注为“名”。
关于古今层次的处理,应该是确定单字条目词与非词身份的最棘手的问题,因为很难做到泾渭分明。《现汉》为了解决这一问题,在凡例中关于单字条目标注的总原则(单字条目在现代汉语中成词的标注词类,不成词的语素和非语素字不作任何标注)之后,又作了这样的补充规定:“单字条目中的文言义,只给数词、量词、代词、副词、介词、连词、助词、叹词、拟声词标注词类,名词、动词、形容词不作任何标注。”
为什么要这样处理,虽未作说明,但我们可以体会到编著者的苦衷:不得已而为之。
这样做固然可以绕过一些棘手问题,但同时也会造成一些更大的难以解决的矛盾和问题。因为单字条目中名词、动词、形容词的文言义,有许多在现代汉语书面书中可以单说单用,具备词的资格,如果不加区分,一律不予标注,显然就同“单字条目在现代汉语中成词的标注词类”的总原则互相抵触,这实际上等于自我否定,从根本上动摇了先前确立的词类标注的总原则。同时也会给人们造成更大的误导,以为这些条目在现代汉语中都不能单说单用,只能做构词成分。但是事实并非如此。
以“战1”为例,《现汉》列出的前两个义项,均未标注词类:
①战争;战斗:宣~|停~|持久~|商~。②进行战争或战斗:~胜|百~百胜|愈~愈勇。
再看配例,也全不见单用的例子。这无异于告诉读者,它在现代汉语中不是词,而只是构词成分。其实“战”在现代汉语单用的例子比比皆是:
先看义项①:
(1)这一战永远没有和平。(标题)
(2)职场上的性别之战。(标题)
再看义项②:
(3)战上海(影片名)|战樊城(京剧名)
(4)篮球和足球相比,好比“关公战秦琼”!(标题)
看来,在这两个义项上,“战”都是词。因此,义项①应标为“名”,义项②应标为“动”。
值得注意的是,单字条目中有一部分是历史词。《现汉》把它们等同于名词的文言义,并且与多音节历史词分别处理,这是最难让人理解的。其具体表现为:只对多字条目标注词类,如“中堂”“尚书”(职官名)等,都标注了“名”;而单字条目不作任何标注,如“鼎”“笏”(器物名)、“秦”“楚”(古国名)、“尧”“舜”(古人名)等。这样的处理,势必会对读者造成误导,以为多字条目是词,单字条目不是词。实际上,这些单字条目,在现代汉语中,都是可以单用的,不仅可以单独充当句法成分,甚至可以单说。以下是从百度中随机搜索摘取的例句:
(5)鼎是青铜器的最重要器种之一,是用以烹煮肉和盛贮肉类的器具。
(6)司仪官喊趋,所有的官员都拿着笏走过来。
(7)秦统一中国的一个被忽略的因素(标题)
(8)楚的疆域最初主要在今湖北西部山区和江汉平原一带,……
(9)尧,中国古代传说的圣王,姓尹祁,号放勋。
(10)于是,尧微服私访,来到历山一带,听说舜在田间耕地,便到了田间。
由此可见,它们作为词的功能,较那些不能单说的文言虚词来说,应该有过之而无不及。另外,历史词毕竟不同于文言词,应作不同的处理。文言词都有相对应的现代汉语词,如“面”是文言词,“脸”是现代汉语词;“思”是文言词,“想”是现代汉语词,前者古代汉语单用,现代汉语一般不单用。但历史词大多没有对应的现代汉语词,古今一体且古今都可单用。如表示器物的“鼎”“笏”,现代汉语没有对应词,指称这类历史事物只能单用。由此可见,对于历史词,不管是单字条目还是多字条目,都应一视同仁地与文言词加以区别,一律标注词类。事实上,《现汉》并没有彻底贯彻单字历史词不标词类的规定:同为古乐器,“埙”标注了词类,“瑟”未作任何标注;“秦”作为朝代,标注了词类,作为古国名,未作任何标注。
三、余论
综上所述,语文词典在标注词类时区分词与非词,必须确立一致的标准。确立标准时应通盘考虑,务必保持协调统一,禁得起推敲。首先,区别词与短语的标准同区别词与语素的标准之间应做到协调统一。《现汉》(《应用》和《规范》亦然)将成语视为固定短语,不标注词类,那么,从理论上讲,其构成分应是词而非不成词语素。但在具体操作上,《现汉》又不承认其中某些构成成分作为现代汉语“词”的资格。如“木已成舟”,既然是固定短语,那么其中的“木、已、成、舟”都应该是独立的词,因为它们都不是其他词的一部分。但《现汉》只为“已、成”标注了词类,而对“木、舟”不加标注,这就难免使人产生误解:某些成语可以由词和语素组成。这显然不合逻辑。此外,区分词和短语的标准、区分词和不成词语素的标准本身也应做到协调统一。拿区分词和短语的标准来说,根据语节长度和切分标准,“社会主义”应划归为短语;根据结构和意义的标准,“社会主义”似应划归为词。这样一来,两种标准互相抵牾,处理起来就会首鼠两端,无法协调。因此继续深入开展词与非词区分的理论研究,以最终确立科学、一致的标准,是语法研究者和语文词典编纂者应长期坚持的一项重要工作。
[1] 郭良夫.应用汉语词典[M].北京:商务印书馆,2000.
[2] 李行健.现代汉语规范词典[M].北京:外语教学与研究出版社语文出版社,2004.
[3] 中国社会科学院语言研究所词典编辑室.现代汉语词典(第6版)[M].北京:商务印书馆,2012.
On the Principles of LabelingWords and Non-Words in Chinese Dictionaries
JIANG Mingyu
(The Chinese Faculty,Huizhou EconomicsAnd Polytechnic College,Huizhou,Guangdong 516057,China)
ract:It is a very important principle to distinguish words from non-words in labeling the parts of speech of words in Chinese dictionaries.On the one hand,we must distinguish words from phrases,and on the other hand,we must make the distinction between words and non-word morphemes.Compared with other dictionaries of the same kind,A Dictionary of Modern Chinese(6th ed.)has its own conspicuous features and has made much progress in distinguishing words from non-words,especially in distinguishing words from non-word morphemes. However,there are still some problems that need to be further studied and to be solved concerning how to establish and how to apply scientific and consistent principles.
ords:Chinese dictionaries;labeling the parts of speech;words and non-words;phrases;non-word morphemes
H164
A
1009-8445(2017)01-0037-04
(责任编辑:姚 英)
2016-09-14
姜明宇(1981-),男,黑龙江哈尔滨人,惠州经济职业技术学院外语系讲师。