汉语拼音信息量不足,与读速慢,打字慢的因果分析
2018-10-29高其海
高其海
摘 要:本文说明了,汉语拼音信息量不足,是导致读速慢,低频合成词学习难,打字慢的主要原因。
关键词:汉语拼音 信息量 读速慢 打字慢
中图分类号:H13 文献标识码:A 文章编号:1003-9082(2018)09-0-01
制定汉语拼音的初衷是,为替代难以学习的汉字做准备。然而时间已经过去60年了,可汉语拼音用于文字的试验,却始终处于通俗读物的水平,从未出版过教科书,小说,专著等。
初衷是美好的,试验却不顺利,原因何在?一种解释是,中国人不习惯拼音文字。实际上,文字是传递信息的工具,若对汉语拼音的主要性能,即读、学、写性能,逐项予以测试,就不难找到真实的原因。
分析表明,汉语拼音用于文字时,字汇量不足,信息量不足,音节的含义不清。由此引发的不良性能是,低频合成词理解难,学习难,尤其是阅读性能不合格,读速慢,不胜任,是制约汉语拼音用于文字的主要原因。
一、汉语拼音的信息量不足
为了便于与汉字的信息量相对照,本文所说的汉语拼音的信息量不足,主要指的是音节的信息量不足。
1.汉语拼音音节的信息量
文字单位的信息量是由文字单位的字匯量确定的,汉语拼音标调音节的数量约1300(含轻声)。平均每个音节的信息量为7.56比特[1](陈明远.1980年,页77),与汉字的信息量相比,平均每个音节少了2.1比特。
——经过上个世纪七十年代大规模统计,统计到的汉字六千多,平均每个汉字的信息量为9.66比特[2](林联合.1980,页145)。
为了改善汉语拼音的阅读性能,人们曾对分词连写寄予厚望。分词连写能够补充信息量,但补充的信息量非常有限。
2.分词连写补充信息量的原理
分词连写补充信息量的原理是,分词连写可在音节之间标出大小两种间隔,两种间隔能够提供相邻音节之间的关系密切与否的信息。
具体地讲,单词内部的音节之间是小间隔,小间隔表明,其两侧音节之间的关系密切些。单词之间是大间隔,大间隔表明,其两侧音节之间的关系疏远些。经验表明,这种音节之间关系密切与否的信息,对于提高理解,阅读速度同样是有益的。
例如,我们学古文的时候,如果老师首先帮助我们点开句子,不一定以单词为标准进行切分,只要以一两个,或两三个较为密切的汉字为一组,在每组之间点个点(相当于“大间隔”),我们的阅读就会顿感顺畅了许多。
【一点说明】
当大小间隔频率均等,各为0.5的时候,例如,所有单词都是双音节词的时候,分词连写补充的信息量最多,平均每个间隔一比特。(计算过程略)
假如汉语拼音平均每个音节的信息量就是7.56比特,分词连写补充的信息量按一比特计,二者合计为8.56 比特,与汉字相比,信息量仍然是不足的。
——有趣的是,汉语单词的双音节化倾向,汉语音步二二相承的倾向。两种倾向均可使音节后的大小间隔交替出现,频率趋于均等,这分明是“追求”口头语言听觉信息量最大化的表现。
二、信息量不足对性能的影响
汉语拼音信息量不足会导致三项不良性能。第一,读速慢。第二,低频合成词理解难,学习难。第三,打字慢。
1.汉语拼音读速慢
汉字的字义清晰,能够区分同音词,读者理解快,读速快。
汉语拼音把形音义具备的汉字“降级”,变为含义不清的音节,因而无法像汉字那样,利用字义区分同音词。要想读懂文章的本义,有时还需读者的揣摩和猜测。汉语中的同音词比比皆是,揣摩猜测会频频发生,读速慢也是容易测试的。
如果遇到那些由低频字组成,却又不知名的人名、地名、商标、临时称谓等,不只是读速慢,文中大忌——误读也会随时发生。
文字是传递信息的工具,汉语拼音之所以从未出版过教科书,小说,专著等,阅读性能不合格,不胜任,无疑是最主要的原因。
2.字义与合成词的学习
汉字形音义具备,字义清晰,读者理解快,学习快。一些词典外的合成词如同词组一般容易学习,即便是作者根据所要表达的意义,即造即用的合成词,读者即便初次见到,大多也能知音知义。
汉语拼音把形音义具备的汉字“降级”,变为含义不清的音节,致使大量低频合成词,变得理解难,学习难。这一点是可以对比测试的,还可在现实中找到例证。
例如,与知识分子相比,不识字的人们词汇量是有限的。原因是,尽管他们也会从广播、电视等媒体中听到过大量低频合成词,只因口语音节的含义不清,不理解,不知所云,结果是随听随忘。
——无论是汉语拼音,或是口头语言,遇到不理解的合成词,都会像(没有拟声痕迹的)多音节单纯词一样难于记忆。
值得强调的是,切莫不加区别地断言,由于汉语拼音是拼音文字,所以汉语拼音就一定是容易学习的文字。
实际上,对于汉语拼音,只有知音知义,能听会说,信息量少的高频词才是容易学习的。与汉字相比,大量的,听不懂,不会说的低频合成词,反倒是不容易学习的。这是评价汉语拼音学习性能时,一个易被遗漏的重要侧面。
3.汉语拼音打字慢
电报码的信息量充足,能够一一对应出所需的字或词。
由于汉语拼音的信息量不足,因而每输入一组音节,会出现一批同音词,必须人工选词。选词的按键次数不一定很多,但遇到难选词语,则需要逐一审视,翻页等,与输入音节的过程相比,有时能多出十几倍的时间。
——这里的难选词语,就是前文提到的,由低频字组成,却又不知名的人名、地名、商标、临时称谓等。如果低频字又有大量同音字,则翻页更多。
选词过程不可记忆,不可盲打,笔者之前的文章有过讨论,此处不多赘述。
【表象与本质】
汉语拼音的三项不良性能,即读速慢,低频合成词学习难,打字慢,为什么重点都是低频字,低频词?回答是,三项不良性能都是信息量不足造成的,差额悬殊与否,就是合理的解释。
以低频字为例,根据信息量的定义[3] (日 藤田広一,1982年 ,页6—11),低频字的信息量多,(相应)音节的信息量少,差额悬殊,所以低频字就成了汉语拼音不胜任的重点。
反之,高频字的信息量少,与音节的信息量相差不悬殊,汉语拼音的表现就会好一些,这也是汉语拼音“偏爱”通俗读物的主要原因。
4.关于汉语拼音长音节的讨论
注音字母的音节最多只有三个字母,而汉语拼音的音节最多却有六个字母。音节的字母数量增加了,音节的信息量能否随着增加?答案是否定的。
通过字典的两种注音方式可以看出,汉语拼音的音节,注音字母的音节,二者是一一对应的,数量是相等的,使用频率也是相等的,二者的平均信息量必然也是相等的。汉语拼音音节的字母数量多,而信息量却未增加,上述三项不良性能自然不会得到任何改善。
其负面效果却是,与注音字母相比,在同等熟练的条件下,汉语拼音在书写速度,字典检字速度,全拼码打字速度,节省纸张等方面,均会更逊一筹。
——这里只涉及速度、经济性能的比较,不涉及字母形式的比较。
三、历史的启示
汉语拼音把形音义具备的汉字“降级”,变为含义不清的音节。类似的“降级”,也就是古代的同音假借,早已大量试过。有文献指出,甲骨文中假借字的占比达74%左右。[4](王枫.2008年,页41—42)
假借字以一当十,可大幅减少字数,字数少了容易学习。然而汉字最终放弃了这种尝试,原因是,假借字过多,字汇量不足,信息量不足,假借字的含义不清,同样会理解难,读速慢,这与汉语拼音遇到的问题是相同的。
形声字是在春秋戰国及其前后,伴随着中华民族智慧井喷式地爆发,伴随着中华民族迅速成熟的过程盛行起来的。优点是字汇量增加了,信息量增加了,字义清晰了,理解,读速加快了。可以说,汉字中的形旁,决不是画蛇添足,而是先哲们大智慧选出的,可完善汉字诸多性能的优质部件。
结语
汉语拼音(或注音字母)只对汉字的音节成分实施了拼音化改造,拼音化是先进的,但与众多的形声字相比,舍弃了形旁,字汇量锐减,信息量锐减,音节的含义不清,是大失误。
参考文献
[1]陈明远.数理语言学.百科知识[J].1980,(1).
[2]林联合. 关于汉字统计特征的几个问题.语文现代化[J].1980,(1).
[3](日)藤田広一 .基础信息论[M].魏鸿骏等译.北京:国防工业出版社,1982.
[4]王枫 .从汉字的理据性看汉语编码的发展阶段.汉字文化[J]2008,(6).