汉字编码的质量及评测研究
2012-04-29张增良
张增良
摘要: 汉字编码的质量直接反映汉字输入技术的水平,也影响着计算机的推广应用。文章采用实证研究和统计研究等方法,对优秀汉字编码所具有的特征和评测指标作了详细分析和探讨,并提出了一个新的评测指标—码荷量。码荷量可以反映重码率和重码密度的综合情况,利用它可以更加准确地判断输入效率。
关键词: 汉字输入; 汉字编码; 评测; 码荷量
中图法分类号:TP391.1文献标志码:A 文章编号:1006-8228(2012)03-65-03
Qualitative measurement of Chinese-characters encoding
Zhang Zengliang
(PLA Foreign Languages University, Luoyang, Luoyang, Henan 471003, China)
Abstract: The encoding and input techniques of Chinese characters emerged and got developed as computers entered China. The quality of the Chinese character encoding directly reflects the speed of input of Chinese characters, and influences the extent of popularization and application of computers in China. In this paper, the author applies empirical and statistical approach to conduct a specific analysis and discussion on qualitative measurement of Chinese character encoding, and proposes a new measurement index—code load.
Key words: Chinese character input; Chinese character encoding; qualitative measurement; code load
0 引言
自上世纪八十年代以来,汉字编码技术得到了不断发展和进步,人们研制出了多种汉字编码及其输入系统,如“全拼”、“五笔”、“紫光”、“三音码”、“自然码”、“搜狗”、“智能ABC”等,它们都有着各自的特点,并在信息处理领域发挥着重要作用,相信今后还会不断有新的更好的编码产生。那么,如何科学评价一个汉字输入系统和汉字编码的优劣呢?下面我们就来讨论优秀汉字编码所具有的特征及评测指标。
1 优秀汉字编码的特征
优秀的汉字编码会使汉字的输入效率得到极大提高,也会深受广大用户的普遍欢迎。我们认为,一个优秀的汉字编码应具有下面几个特征。
1.1 编码要规范
汉字编码的规范性是衡量汉字输入系统质量的重要指标之一。汉字编码只有符合规范,才能使识字、查字、写字、打字相一致,做到易学高效,从而具有旺盛的生命力并得到大规模推广。汉字经过长期的发展和演变,不论是发音、字形结构还是表义功能,都有其自身的规律,人们在长期使用汉字的过程中也形成了客观的视听和书写习惯。汉字编码必须遵循这种规律和习惯,这就是规范性。要实现汉字编码的规范化,应着重把握以下几点。
⑴ 字音编码要符合国家公布的《汉语拼音方案》。无论是音码还是音形码,都应以《汉语拼音方案》来作为汉字发音的依据和标准,那些为迁就部分方言较重地区的人们而设置的所谓“南方音”的做法是值得商榷的。
⑵ 拆分部件应符合国家公布的《汉字统一部首表》和《汉字末级部件组字频度表》,以及国标GF 3001(《信息处理用GB 13000.1字符集汉字部件规范》)。由于汉字是表意文字,构字部件(尤其是偏旁部首)大都表示一定的意义并有固定的形态。为了符合人们的识字习惯,对于那些形码类(含音形码)编码方案,应选用规范的部首和偏旁做为拆分部件,而不应使用随意拆出的不规范的所谓字根。
⑶ 编码所涉及的笔画、笔顺应符合国标GF 3002(《GB 13000.1字符集汉字笔顺规范》)的规定。
⑷ 编码规则要符合我国的《义务教育小学语文教学大纲》。不规范的编码会对识字教学产生干扰。无论哪种类型的编码方案,都不能有悖于我国中小学语文教学规范。同时,中小学的汉字编码教学切忌单纯为了操作电脑和输入汉字,而应将编码教学融入语文教学中,进而促进语文教学有利于学生能力的培养。
⑸ 汉字输入键盘应采用国际通用的标准键盘,以利于输入系统的推广普及和交流。
⑹ 码元定义要符合标准要求。码元是汉字编码的基础和关键性元素,其定义包含两方面内容:一是确定具体的码元和数目,二是完成码元在键盘中的布局。码元数既不能太多,也不能太少,一般以26个英文字母和10个数字为限,需要时可使用个别的辅助键。键盘布局应遵从合理、规范和均衡的原则目前可遵循的标准有:国标GB/T19246(《信息技术通用键盘汉字输入通用要求》)、国标GB/T18031(《信息技术数字键盘汉字输入通用要求》)等。
1.2 能反映汉字性质
汉字是表意文字,是音、形、义的统一体,表意是汉字的性质。根据汉字的构造方式我们知道,大部分形声字都是由“形旁”(偏旁部首)和“声旁”两部分组成的,“形旁”表示汉字的意义,“声旁”表示汉字的发音,例字见表1。
表1形声字举例
[[例字&声旁、形旁及意义&描&声旁:“苗”表示发音miao
形旁:“扌”表示描画需用手&想&声旁:“相”表示发音xiang
形旁:“心”表示“想”是心理活动&唱&声旁:“昌”表示发音chang
形旁:“口”表示唱歌需用口&雾&声旁:“务”表示发音wu
形旁:“雨”表示雾可成雨&飘&声旁:“票”表示发音piao
形旁:“风”表示有风方可飘&]]
汉字的这一独特性质为汉字输入技术提供了一个广阔天地。既然是汉字输入系统,其编码方案就应反映汉字的性质,要具有中国传统文化的内涵。在这方面,“三音码”和“自然码”不失为优秀汉字编码的典型代表。例如,“三音码”中“婆”字的编码是pond,其中po表示字音(声母和韵母),n表示偏旁“女”(婆婆肯定是女人),d表示偏旁在字的底部。
显然,能够体现汉字性质的编码方案,既有较深的文化内涵,又有很好的群众基础,自然也有很强的生命力。
1.3 有较强的易学性
汉字编码的易学性是衡量汉字输入系统优劣的一个重要指标。在信息时代的今天,人们时刻都在与信息打交道,掌握信息处理技术不再只是专职人员的事情。因此,一个汉字输入系统要想得到广泛普及和具有长久生命力,其编码就必须具有较强的易学性,使普通用户不需花费太多的精力和时间就能掌握。
“汉字输入过程是一种非常复杂的认知加工过程,不管采用形码还是音码的方式,它都包括了从文字识别、记忆信息提取、语音(或字形)编码、键盘空间位置匹配到汉字模式匹配和认知监控等一系列认知加工活动”[1]。可见,要提高汉字编码的易学性,可从降低编码的复杂度入手,以减少输入过程中的认知加工活动。为此,编码方案应选择合适的编码类型,合理规划编码所携带的汉字信息,简化编码规则,避免过度拆字。
1.3.1 选择适宜的编码类型
汉字编码类型可分为四种:①单纯基于字音元素的纯音码;②单纯基于字形元素的纯形码;③基于字音和字形这两种元素的音形码(含以音为主和以形为主的);④以纯数字作为码元的数字码。
一般来说,数字码(如电报码、区位码等)适用于专业人员。纯音码具有重码率和码荷量高的致命弱点,纯形码具有沉重的“拆字”负担;而音形码则具有明显的编码优势,它既有易学性,又无沉重的“拆字”负担,并且很符合以汉语为母语的人们的思维习惯。严喻[2]老师对汉字属性评估的研究结果认为,“声母和笔顺与其他汉字属性相比,其规范性和易学性是最好的”。因此,优秀的编码方案往往出自以“音”为主、以“形”为辅的音形码,且“形”也以“音托”的方式来体现。
以音为基础的编码方案具有较短的培训周期和较好的易学性,如全拼、智能ABC、紫光、三音码和自然码等都是如此。
1.3.2 携带适量的汉字信息
钱玉趾[3]认为,汉字的重要信息包括字音信息(含声母、韵母、声调)、字义信息(偏旁部首)以及字形信息(结构类型、构字部件、部件位置、笔画及笔画数)等大小10余项。任何编码方案都会携带适量的汉字信息。所携带的汉字信息越多,编码越复杂;所携带的汉字信息越少,编码越简单,但重码率和码荷量也越高。一般来说,携带3~4项汉字信息比较合适,太少会造成大量重码,太多会增加码长和编码复杂度。比如,“三音码”的汉字编码携带了声母、韵母、偏旁部首以及偏旁的位置等4项信息,而“自然码”携带了声母、韵母、偏旁部首等3项信息,实践证明,这两个编码方案都具有较好的易学性。
1.3.3 避免对汉字的过度拆分
使用形码类和音形码编码方案输入汉字都需对汉字进行拆分。那么,采取怎样的拆分原则最为直接而简单呢?从形象思维角度看,合体字(各组字部件分离)比较容易拆分,而交重字(组字部件交叉或重叠)则不易拆分。因此,为了降低拆分难度,可将交重字视为不可拆分的末级部件,以避免对汉字的过度拆分。“三音码”采用的正是这一拆分原则,对于交重字采用极其简单的处理方法,即:干脆不拆出偏旁,而统一用o来标识。例如,“末”字的编码为moo,其中mo表示字音,第二个o表示该字为交重结构,而不将其拆分为“一”和“木”。
1.4 符合人的思维习惯
语言是人类思维的直接表现形式,文字只是语言的书面符号。信息的第一载体是语言而非文字。人们在进行思维和交流时,首先反映在脑海中的是语音,然后通过语言表达出来。可见,与人类思维联系最紧密、最能直接反应人的思想活动的是语音。
打字过程中如能联系语音,就不会去死记编码,而是想到什么词语就直接打出什么词语,打字与思维保持高度一致。以输入“其乐无穷”这个词为例,如采用以音为主的输入系统(比如三音码),则只需输入qlwq(各字的声母)即可。这个输入过程与思维过程是完全一致的,不会发生因复杂的拆字过程而使打字者的写作思路受到干扰的现象。
可见,音码类(含音形码)编码方案在符合人的思维习惯方面具有明显优势。对于那些作家、记者和编辑等文字工作者来说,使用此类编码可实现构思、撰稿、编辑、修改等工作的协调开展,大大提高工作效率。
1.5 有较强的完备性
编码方案的完备性是指方案的“编码规则不仅适用于基本字符集中的汉字的编码,还适用于大字符集乃至全字符集中的汉字的编码”[4],并且繁简字的编码能保持一致。汉字字符集有GB2312-80、GBK和GB18030等。其中,GB2312-80是我国于1980年制订的国标基本字符集,收录了6763个汉字(一级字3755个,二级字3008个);GBK收录了20902个汉字;GB18030收录了27484个汉字。早期受操作系统的限制,大多数编码方案仅支持GB2312-80,虽然其汉字利用率高达99%,基本可以满足日常文字工作的需求,但繁体字(如國、組、嗎、獨等)和一些非常用字(如镕、堃、犇、瞭、喆、囍等)却无法输入。目前,随着计算机技术的不断发展,编码方案支持基本字符集和全字符集已不成问题。
一般来说,音码类编码方案与形码类编码方案相比有较好的完备性。以“独(獨)”字为例,“全拼”的繁简编码同为du,“三音码”的繁简编码同为dufq(du表示字音,fq表示反犬旁“犭”),而对于形码类编码方案来说,同一汉字的繁简编码往往相去甚远。
1.6 有较高的输入效率
衡量一个汉字编码的优劣还有一个重要指标—汉字的输入效率。与输入效率密切相关的因素主要有:易学性、规范性、编码长度、平均码长、重码率、码荷量等。其中易学性和规范性前面做过介绍,下面着重讨论其余几项。
1.6.1 编码长度
编码长度是指单个编码所使用的最大码元个数。编码长度往往与编码的复杂度成正比,而与重码率和码荷量成反比。可见,编码长度应控制在一个合适的范围,偏高或偏低都会影响汉字的输入效率。实践证明,一个既有较低编码复杂度,又有较高输入效率的编码方案,其编码长度在4左右。
1.6.2 平均码长
平均码长是指在输入给定的测试样本时,测得的输入每个汉字的平均击键次数,它是一个动态指标,其量化公式为:
输入测试样本的击键次数/测试样本总字数
这一公式可简记为:
键/字[5]
平均码长是在某个编码方案的综合输入环境中测得的,一般不计空格键。在测试过程中可使用该编码方案所支持的一切输入手段,如:简码输入、词组输入、高频先见等。显然,平均码长越短输入效率越高。笔者的研究认为,好的输入方案的平均码长一般低于2.2。
1.6.3 重码率
重码率是衡量一个编码方案中具有相同编码的汉字多少的指标,其量化公式为:
(重码字数 / 汉字总数)*100%
一般来说,在不增加编码复杂度的情况下,重码率越低越好。重码率与输入效率成反比。
值得说明的是,重码率的评测结果往往具有一定的不确定性。也就是说,重码率的高低并不能确切反映编码方案的优劣,应综合考虑其他评测指标(如码荷量)的高低。
例如,假设有A,B两个编码方案,A方案中每2个字使用一个编码,B方案中每10个字使用一个编码。尽管它们的重码率都是100%,但A方案要明显优于B方案。这是因为,B方案中重码字的密度和选择难度要远大于A方案,输入效率当然也低于A方案。
1.6.4 码荷量
码荷量(Code load)是笔者在长期的编码实践中摸索到的一个有效评测指标,它表示编码方案中平均每个编码所对应的汉字或词的个数。码荷量的量化指标可用公式表示为:
L= W/C
其中,L表示码荷量,W表示参加编码的字词总数,C表示编码方案中的编码总数。
码荷量反映的是重码率和重码密度的综合情况,其评测效果要优于重码率。应该认识到,影响汉字输入效率的关键因素是码荷量,而非重码率。码荷量越高,意味着重码字的密度和选择难度越大,输入效率越低。这如同一辆卡车,装载的东西越多,跑得就越慢。我们的研究结果表明,编码方案的码荷量只要不超过3就是可行的,而小于1.2就是很好的,“五笔字型”和“三音码”的码荷量都在1.2左右。
如前述的A方案,尽管其重码率高达100%,但由于其码荷量只有2,输入汉字时只需通过一个数字键即可选择所要的字,如能借助输入系统的“高频先见”智能处理功能甚至可免除选择键,因而输入效率不会受到太大影响。
对于“全拼”编码方案来说,不仅重码率高达100%(只有“嗲”、“么”、“暖”、“森”、“僧”、“能”、“给”、“贼”等字无重码),码荷量竟也高达16.2。这就意味着平均每个编码要对应16个以上的汉字,要输入一个字往往需要进行多次的翻页选字操作,输入效率自然不会高。码荷量高正是“全拼”方案不如人意的主要症结。
可以说,“全拼”效率低的根本原因是有很高的码荷量和较大的平均码长。而“五笔字型”和“三音码”等输入法的输入效率之所以高,是因为它们的编码具有较低的码荷量和较短的平均码长。
2 汉字编码的评测指标
由前述可见,衡量一个汉字编码的优劣,需要综合考虑多个评测指标。我们将这些指标划分为静态评测指标和动态评测指标两类。
静态评测指标是指汉字编码方案所固有的一些状态和性能指标,包括编码类型、携带信息、码元定义、所支持的汉字字符集、规范性、编码长度、重码率以及笔者提出的一个新的评测指标—码荷量。
动态评测指标是指在使用某个编码方案进行汉字输入的过程中动态体现的一些性能指标,主要包括平均码长、键选率、输入效率等。
经过笔者长期的编码研究和实践,提出了汉字编码的主要评测指标及高、中、低三个档次的参考标准,现列于表2中,供广大编码研究者参考使用。
表2汉字编码评测指标及参考标准
[[评测指标&参 考 标 准&低&中&高&静态
指标&编码类型&纯形码&纯音码 &音形码&携带信息&< 2 或 >5&2~3&4~5&码元数&> 37 或 <25&25~37&26~36&键元分布&不支持
GB/T19246&部分支持
GB/T19246&支持
GB/T19246&字符集&GB2312-80&GBK&GB18030&规范性&不符合
GB/T19246&部分符合
GB/T19246&符合
GB/T19246&编码长度&>10 或 < 3&6~10&3~5&重码率&> 18%&<= 18%&< 9%&码荷量&> 3&<= 3&< 1.2&动态指标&平均码长&> 3&< =3&< 2.2&键选率&> 9%&<= 9%&< 6%&输入效率&< 45字/分钟&>= 45字/分钟&> 56字/分钟&]]
3 结束语
汉字编码和输入技术正经历着从不够成熟到逐渐成熟的历史过程。汉字编码评测技术的不断完善和进步,为汉字输入技术的发展指明了方向。可以预言,汉字编码内在质量的不断提高和汉字本身所具有的独特优势,将使古老的方块字成为信息时代的骄子。
参考文献:
[1] 李宁,汉字输入法对汉字输入技能水平的影响[J].心理研究,2010.3
(5):48~51
[2] 严喻,华泽玺.双码三笔汉字输入法的编码技术[J].计算机科
学,2009.10:296~298
[3] 钱玉趾,徐弟宣.汉字编码的必要信息及信息含量[J].成都大学学报,
1996.6:48~54
[4] 何克抗,面向中小学的汉字编码性能指标分析[J].中文信息学报,
1996.1:53~62
[5] 国语委,GB/T19246(信息技术通用键盘汉字输入通用要求)[S].中国
标准出版社,2003.