APP下载

《通用规范汉字表》不成词语素字统计与思考
——兼谈汉字三记说和汉字的性质

2022-09-19邵霭吉

关键词:单音节语素义项

邵霭吉

(盐城师范学院 文学院,江苏 盐城 224002)

中国社会科学院语言研究所词典编辑室《现代汉语词典》第5、6、7版“凡例”皆指出:“单字条目在现代汉语中成词的标注词类,不成词的语素和非语素字不做标注。”[1]凡例5由此可知,汉字有“成词的”“不成词的语素”和“非语素字”之分。笔者在《〈通用规范汉字表〉非语素字统计与思考》[2]一文中,已经对《通用规范汉字表》中的非语素字进行了一次统计,本文接着对《通用规范汉字表》中的不成词语素字进行统计,进而得出《通用规范汉字表》中可以“成词的”字的数量,最后对汉字的性质提出自己的一些看法。

一、不成词语素字和不成词语素

不成词语素字跟不成词语素是两个既有联系又略有区别的概念:它们都是“不成词”的,但不成词语素字以“字”为考察对象,而不成词语素则以“语素”为考察对象。

我们所说的“不成词语素字”,其内涵有三:第一,它必须是一个字;第二,它必须有义项,因而是一个语素;第三,它的所有义项都不能够独立成词。

我们以《通用规范汉字表》中8 105个字为考察对象,以《现代汉语词典》中的单字条目及其释义为依据,除去被我们认定为非语素字的字,其余剩下的字,凡在《现代汉语词典》中作为条目给出了义项的,不管它只有一个义项还是拥有几个义项,只要其全部义项都不可以独立成词,我们就把它认定为一个不成词语素字。如果它的义项中有一个可以独立成词,那我们就不认为它是不成词语素字。例如:

“氛”有1个义项,这个义项不可以成词,所以,它是一个不成词语素字。

“浩”有2个义项,这两个义项都不能成词,所以,“浩”也是一个不成词语素字。

“情”有6个义项,都不可以成词,所以,“情”也是一个不成词语素字。

“谈”有3个义项,其中义项①③可以独立成词,义项②不能独立成词,由于其中有成词的义项,所以,我们不把它归入不成词语素字。

“民”有5个义项,义项①②③④都不能独立成词,仅义项⑤可以独立成词,因而我们也认为它不是不成词语素字。

“朝”有2个读音,一读“cháo”,一读“zhāo”,读“cháo”时有7个义项,读“zhāo”时有2个义项,总共9个义项,由于读“cháo”时有3个义项可以独立成词,综合考虑,我们认为“朝”是可成词语素字,而不是不成词语素字。

“略”在《现代汉语词典》中被分立为“略1”“略2”“略3”3个条目,其中“略1”可以成词,“略2”(用于“方略、策略、谋略”等词中)和“略3”(用于“侵略、攻城略地”等词中)不可以成词,但“略”在《通用规范汉字表》中是一个字,我们认为它是可成词语素字,而不是不成词语素字。

“不成词语素”的内涵有二:第一,它必须是一个语素;第二,它必须不能单独成词。当然,一个汉语语素也不限定于只用一个汉字来表示。

如果一个汉字在辞书中被列为一个条目,一个义项,那么认定它是一个语素,这应该没有不同意见。但如果一个汉字在词典中被列为几个条目,或有多个义项,那么认定它是一个语素还是几个语素,则很可能会有不同意见,有人可能把每一个有义项的单字条目认作一个语素,也有人可能只把单字条目下的每一个义项认作一个语素。

我们暂且把每一个有义项的单字条目视为一个语素,那么,上面说到的“氛、浩、情、谈、民”在《现代汉语词典》中各是一个条目,就各是一个语素,“氛、浩、情”是不成词语素,“谈、民”是可成词语素。这跟我们前面把“氛、浩、情”认定为不成词语素字、把“谈、民”认定为可成词语素字基本上是对应的。而“朝”在《现代汉语词典》中列为两个条目,可能被视为两个语素,读cháo的“朝”有义项可以独立成词,所以它是一个成词语素;读zhāo的“朝”没有义项可以独立成词,所以它是一个不成词语素。“略”在《现代汉语词典》中被列为3个条目,可能被视为3个语素,其中“略1”是成词语素,“略2”“略3”各是一个不成词语素。但我们这里把“朝、略”统认定为可成词语素字。

辞书编纂界早就关注到了不成词语素字。郑远汉《论字典的特殊性质和独立地位》说:“字典通过举例能将代表成词语素的字和不成词语素的字显示出来。”[3]姜德梧《语文词典词性标注的几个问题》认为:“标注词性遇到的另一个问题是,对于一个汉字来说,有的是词,有的不是词,而是语素字或音节字。……需要研究的是不成词的语素字和语素义项怎样标注。”[4]

中文信息处理界很关注不成词语素,提出要有一个“不成词语素表”。刘开瑛《中文文本自动分词和标注》在讨论“歧义字段的采集方法”时指出:“对于受分词词典的制约问题,我们认为,对于单汉字只要提出一个不成词的语素表,作为判别单字词的依据。”[5]许嘉璐、傅永和《中文信息处理现代汉语词汇研究》也认为:“对于单字词,只要提出一个不成词语素表,就可作为判别单字词的依据,而二字、三字以至四字以上词,则需要专门进行筛选,建立实用的分词词典供采集歧义字段使用。”[6]赵小兵《现代汉语基本词汇自动识别方法研究》给出了一个《CBVE备选集词语语素过滤的“不成词语素”表》[7],排在前面的120字(左4列的上30行)是:

CBVE备选集词语语素过滤的“不成词语素”表(节选)

埃艾碍岸昂傲奥叭爸柏颁斑扮膀傍胞贝惫崩彼币毕蔽辨辩飙宾滨濒伐睬参灿仓糙厕叉察阐猖偿敞倡潮彻承诚惩程澄池匙侈斥充憧崇宠畴摧脆粹挫措贷丹耽旦诞淡蹈滴弟帝缔颠典甸淀奠叮董督睹杜肚锻兑砝繁仿啡菲废沸纷芬氛奋愤峰锋讽肤伏符袱辐辅腐傅赋缚覆尬概甘尴纲糕……

赵小兵的这个“不成词语素表”中都是单字,所以跟我们想象中的“不成词语素字表”非常相像。不过,我们发现,赵小兵这个“不成词语素表”中的不成词语素,有一些并不真的就是不成词语素,比如,依据《现代汉语词典》,“艾、爸、斑、弟”等可以独立成为名词,“扮、贷、叮、兑”等可以独立成为动词,“糙、脆、淡、繁”等可以独立成为形容词,如此等等,它们都是些成词语素。还有些字,连语素字也算不上,比如“砝、啡、尬、尴”等,在《现代汉语词典》中无义项,它们是非语素字,而不是不成词语素。

看来,我们统计一下《通用规范汉字表》中的不成词语素字,从而给出一个以《现代汉语词典》为依据的“不成词语素字表”,还是很有必要的。

二、《通用规范汉字表》中的不成词语素字统计

统计《通用规范汉字表》8 105字中的不成词语素字,首先要排除掉非语素字。我们在《〈通用规范汉字表〉非语素字统计与思考》[2]一文中,依据《通用规范汉字字典》,统计到《通用规范汉字表》中有非语素字1 488个,排除这1 488字以后,《通用规范汉字表》还剩6 617字。

我们在依据第7版《现代汉语词典》逐一考察剩余的6 617字时,发现其中有117个在《现代汉语词典》上没有义项,《现代汉语词典》对它们的解说是“见下”或“见某页某词”,因此,它们是零义项字,即非语素字:

从6 617字中排除掉这117个“非语素字”,剩下6 500字,依据《现代汉语词典》,它们都是语素字。

考察和认定6 500个语素字中的不成词语素字,我们使用排除法,在排除掉其中的可成词语素字之后,剩下的就是我们所要的不成词语素字。

(1)凡是被《现代汉语词典》在其义项上标注了词类的,就是可成词语素字,一律排除。不论该字有几种读音、几个义项,只要它所有义项中有一个义项被标注了词类,就认定它是一个可成词语素字,从而予以排除。

(2)《现代汉语词典》在对“单字条目中的文言义”标注时,讲明了“只给数词、量词、代词、副词、介词、连词、助词、叹词、拟声词标注词类,名词、动词、形容词不做标注”[1]凡例5,我们的理解是,单字条目文言义的这3类义项虽然没有标注名词、动词、形容词,但《现代汉语词典》已经承认它们是名词、动词、形容词了,只是没有做标注而已,所以,凡是单字条目的义项标〈书〉而没有标注词类的,我们一律视之为可成词语素字,从而予以排除。不仅如此,凡是义项为“古代的……”“古书上指……”等的单字条目,我们也视之为可成词语素字,一律排除。

(3)《现代汉语词典》在给条目注音时,实行“专名和姓氏的注音,第一个字母大写”[1]凡例4的做法。我们根据国家标准《汉语拼音正词法基本规则》“汉语地名中的专名和通名,分写”,认定这些需要首字母大写、需要分写的“地名中的专名”,跟“姓氏”一样,都是可成词语素字,从而把它们排除。

经过以上3次排除,剩下了771个不成词语素字。见下表:

《通用规范汉字表》不成词语素字表

我们这个不成词语素字表,跟赵小兵《CBVE备选集词语语素过滤的“不成词语素”表》相比,两表字数相差不多,都是700多字,但是具体内容有好多不同。例如,读音首字母为A的,我们表中是“隘鞍案黯遨翱坳懊”8个,而赵小兵表中则是“埃艾碍岸昂傲奥”7个,没有一字相同。读音首字母为B的,我们表中有“笆颁塝胞悲悖惫币庇婢痹蔽弊壁砭濒殡鬓摒舶箔搏膊怖埠”25个,而赵小兵表中则是“叭爸柏颁斑扮膀傍胞贝惫崩彼币毕蔽辨辩飙宾滨濒秉摒玻剥脖驳博搏膊捕怖”33个,两表只有“颁胞惫币蔽濒摒搏膊怖”10字相同。

三、汉字三记说

《现代汉语词典》说:“单字条目在现代汉语中成词的标注词类,不成词的语素和非语素字不做标注。”[1]凡例5其中“成词的”“不成词语素”“非语素字”三种情况,讲得非常到位。

“成词的”“不成词语素”“非语素字”,是《现代汉语词典》对单字条目定性分类的说法。如果改从文字学角度说,文字是记录语言的书面符号系统,那么,词典定为“成词的”的单字条目,它所记录的是“词”(单音节词);词典定为“不成词语素”的单字条目,它所记录的是“语素”(合成词中的单音节语素);词典定为“非语素字”的单字条目,它所记录的是多音节单纯词中的一个“音节”。

我们的统计工作是从统计非语素字开始的。在《〈通用规范汉字表〉非语素字统计与思考》[2]一文中,我们依据王宁《通用规范汉字字典》认定《通用规范汉字表》中有1 488字为非语素字,本文又依据《现代汉语词典》认定《通用规范汉字表》其余的6 617字中还有117字为非语素字,两者相加,非语素字总数为1 605字。本文又依据《现代汉语词典》,统计到《通用规范汉字表》中有不成词语素字771个。依据上述数据,得出《通用规范汉字表》中有可“成词的”语素字5 729个。

依《现代汉语词典》“成词的”“不成词语素”“非语素字”的顺序,对《通用规范汉字表》8 105字的统计结果如下:

可成词语素字:5 729个,占70.69%,记录汉语单音节词;

不成词语素字:771个,占9.51%,记录汉语合成词中单音节语素;

非语素字:1 605个,占19.80%,记录汉语多音节单纯词中的音节。(1)施效人《谈同音词和同音字问题》也曾做过类似的统计,他的统计结果是“《现代汉语词典》里,词字有2 560个,语素字有2 430个,音节字有1 104个”。(转引自沈孟璎《现代汉语理论与应用》第169页,南京师范大学出版社1999年版。)

由此,我们可以提出一个汉字三记说:汉字具有记录汉语单音节词、记录汉语合成词中单音节语素、记录汉语多音节单纯词中音节的功能。

郑林曦《汉字记写的是汉语的哪个层次》[8]曾指出,汉字是“记写单音节的词和词素以及音节的文字”,他也说到了汉字的三个记写功能,但是他在“词素”和“音节”前面没有加必要的限定语,没有范围的限制,所以说得还不是很到位。

不过,在学术界流行的,主要还是“一记”(记录汉语语素)和“二记”(记录汉语语素和音节)两种看法。

认为汉字“记录汉语语素”的学者称“汉字是语素文字”。赵元任《语言问题》认为:“用一个文字单位写一个词素,中国文字是一个典型的最重要的例子。”[9]朱德熙《汉语》指出:“文字是记录语言的。就汉字跟它所要记录的对象汉语之间的关系来看,汉字代表的是汉语里的语素。”[10]苏培成《语言文字应用探微》指出:“汉字的单字记录的是汉语的语素,所以汉字是语素文字。”[11]

认为汉字“记录汉语语素和音节”的学者,说“汉字是语素-音节文字”。叶蜚声、徐通锵《语言学纲要》指出,汉字“是一种语素-音节文字”[12]。李运富《汉字学新论》指出:“我们对汉字性质的看法可以概括为:汉字是用表意构件兼及示音和记号构件组构单字以记录汉语语素和音节的平面方块型符号系统。”[13]杨润陆《现代汉字学》也认为,从汉字记录语言单位来看,“现代汉字可以称为语素文字或语素-音节文字”[14]。

虽然我们坚信“汉字三记说”没错,但是,要是真的依据辞书把汉字截然划分为“记词的”“记不成词语素的”和“非语素字”三大类,或者分为“词字”“语素字”“音节字”三大类,这在实际上却是很难做到的。实际情况是:绝大多数汉字都兼有两种或三种功能,很难把它归到哪一类中去。而且辞书也不能把一个字的用例全部列举,依据辞书可定为“记词的”汉字一般也都可以在合成词中“记语素”,依据辞书可定为“记词的”和“记语素的”汉字一般也都可以“记多音节单纯词中的音节”,依据辞书可定为“非语素字”的汉字,有一些也“记词”“记语素”。

(一)依据辞书可定为“记词的”汉字也可以在合成词中“记语素”。例如:“日”在《现代汉语词典》有9个义项,7个义项可以成词,我们可以凭此把它归入“记词的”字,但另两个不成词义项则是在合成词中“记语素”的。单字条目后面附有“日光、日子、日记、日均、日杂、日食”等60多个合成词,“日”在这些合成词中是“记语素”的。这种现象特别普遍,俯拾即是,无需赘举。在《现代汉语词典》中,有些单字条目只有一个“成词的”义项,比如“瞿、祢、芮、邵、佘、邰”等,下面没有列出含有它们的合成词,乍看上去它们只能“记词”,不能记别的。但没有列出合成词不等于就没有合成词,倘若在它们后面加上“家”“宅”“氏”“姓”“老”“爷”“兄”“姐”等,或在它们前面加上“老”“小”,就能够构成合成词,它们分别在这些合成词中“记单音节语素”。

(二)依据辞书可定为“记词的”和“记语素的”汉字,也可以用作“非语素字”去记录多音节单纯词中的音节。例如,“日”在《现代汉语词典》能记词又能在合成词中记语素,但在“日本、日内瓦、尼日尼亚、日德兰、日喀则”等词中则是记多音节单纯词中一个音节。“马”在《现代汉语词典》能记词又能在合成词中记语素,但在“马尔萨斯、萨马兰奇、喜马拉雅、马尼拉、危地马拉、马里、索马里、马达加斯加”等多音节单纯词中,“马”却是一个记写音节的非语素字。周荐《词汇论》把这种用法的汉字称之为“弃义汉字”[15],意思是说它们原本是有意义的记词记语素的汉字,现在抛弃了意义作非语素字用,去记多音节单纯词中的音节。汉语中,“记词的”和“记语素的”汉字被用作非语素字来记写多音节单纯词中的音节的情况很多,下面提供四个方面的情况。一是用于复姓中的字,比如“欧阳、诸葛、东方、慕容”等复姓中的“欧、阳、诸、葛、东、方、慕、容”。袁义达、杜若甫《中华姓氏大辞典》[16]收双字姓4 329个,三字姓1 615个,四字姓569个,五字姓96个,六字姓22个,七字姓7个,八字姓3个,九字姓1个。原本“记词的”和“记语素的”汉字被用在这些复姓和多字姓中记多音节单纯词中的音节。二是联绵词中的字,比如“从容、参差、仿佛、仓卒、瓜葛”等联绵词中的“从、容、参、差、仿、佛、仓、卒、瓜、葛”等。徐振邦《联绵词大词典》[17]收联绵词14 000余条,其中有很多“记词的”和“记语素的”汉字被用作“非语素字”来记写双音节单纯词中的音节。三是汉语音译外来词中的字,比如“俄罗斯、日本、蒙古”中的“俄、罗、斯、日、本、蒙、古”。史有为《新华外来词词典》[18]收录外来词20 000余条。四是多音节拟声词中的字,如“噼里啪啦、丁零当啷、扑通”等词中的“噼、里、啪、啦、丁、零、当、啷、扑、通”等。

(三)依据辞书可定为“非语素字”的字,也有一些能记词、记语素。比如“葡萄”的“葡”,《通用规范汉字字典》《新华字典》《现代汉语词典》《现代汉语规范词典》都没有给出其义项,是把它作为非语素字处理的,但我们发现有“果葡糖浆”一词,百度百科解释说:“它的组成主要是果糖和葡萄糖,故称为‘果葡糖浆’”,“果葡糖浆”中的“葡”显然是个语素,有意义,意义就是“葡萄糖”。另据《辞海》,“葡”还是“葡萄牙”的简称,那么,在“中葡关系、葡方”等词中,“葡”也是一个语素,是语素字。再如“嗨”,我们依据《通用规范汉字字典》《现代汉语词典》认定它是一个“非语素字”,但是我们却常见到“我们去嗨一下”“嗨起来”“太嗨了”“喝嗨了”等说法,这里的“嗨”是个外来词,源自英语high,意义是“兴奋地大声唱、喊”“兴奋地做某事”“特别高兴、兴奋”“程度高、过分”等。此外,“嗨”还是一个叹词,外来词,源自英语hi,是当代年轻人互相问候、打招呼的用语。

不过,无论情况怎样复杂,汉字所记都在“三记”当中,或记单音节词,或记合成词中单音节语素,或记多音节单纯词中音节,没有记其他的可能。

四、汉字的性质

前已述及,汉字具有记录汉语单音节词和合成词中的单音节语素以及多音节单纯词中的音节三项功能,那么,如果着眼于“一个汉字记写什么”,则汉字的性质就可以表述为:汉字是记录汉语单音节词、合成词中单音节语素、多音节单纯词中音节的书面符号系统。

或许有人认为,我们对汉字性质的这个表述,可以简称为“词-语素-音节文字说”。不过我们总是觉得,把“单音节词”简称为“词”,把“合成词中单音节语素”简称为“语素”,把“多音节单纯词中音节”简称为“音节”,不怎么适宜。因为“单音节词”跟“词”,“合成词中单音节语素”跟“语素”,以及“多音节单纯词中音节”跟“音节”,其内涵和外延都是不相同的,不能把它们等同起来。

我们认为,在表述汉字的性质时,“记录汉语单音节词”一项不应该被忽视。自古及今,汉字都有这项功能。虽然在现代汉语中,单音节词的总量不及多音节词多,但单音节词使用频率高,在一个具体的语言环境中,单音节词的词次跟多音节词的词次差不了多少。胡裕树在1981年版《现代汉语》中曾统计了一个57字的段落,共34个词,其中单音节的词14个,双音节的词18个,三音节和四音节的词各1个[19],单音节词跟多音节词之比为14∶20;1995年重订该书时,胡裕树又统计了另一个段落,也是34个词,其中单音节的词13个,双音节的词17个,三音节的词3个,四音节的词1个[20],单音节词跟多音节词之比为13∶21。所以汉字记录单音节词的功能不容忽视。

汉字“记录汉语单音节词”不应该被忽视,还因为我们认为,汉语在一般情况下是先有单音节词后有合成词再后来有多音节单纯词的。在用“象形、指事、会意、形声”四法造字之时,造出来的字最初就是记单音节词的。甲骨文的“日”是圆圈中加一点,表示太阳,记的就是单音节词。后来有了在词组的基础上形成的合成词,“日”才有了记合成词中单音节语素的用法,例如:日光、日子、日期、日记等。再后来有了多音节单纯词,它才被用于记多音节单纯词中音节,例如:日本、尼日尼亚、日耳曼等。

根据文字学的原理,文字是记录语言的符号系统,而语言中最小的能够自由运用的单位是词。文字记录语言,归根结底都必须能够记词。汉语的词有单音节词和多音节词之分,而多音节词又有合成词和多音节单纯词之分。汉字记录汉语词的方法参见下表。

表1 汉字三记功能和汉字记词方法对照表

从上表可以看出,汉字记录汉语的方法是:用单字记录汉语的单音节词,用多字组合的方法记录汉语的多音节词。因此,如果不局限于一个汉字记什么,则汉字的性质也可以这样表述:汉字是单字记录汉语单音节词、多字组合记录汉语多音节词的书面符号系统。

猜你喜欢

单音节语素义项
《最低入门等级音节、汉字、词汇表》语素和语素义分析
语文单音节词教学初探
多义语素识别及教学探讨
——针对对外汉语语素教学构想
语素的判定、分类及语法单位关系研究述评
在农村小学语音教学中提升学生认读拼读能力初探
因果复合词
两用成语中的冷义项
《穆斯林的葬礼》中单音节动词重叠考察
Enhanced Precision