周有光关于中文信息处理的思想研究
2014-03-29赵贤德
赵贤德
(江苏理工学院人文社会科学院,江苏 常州 213001)
周有光先生是江苏常州人,是我国杰出的语言文字学家,在汉语拼音方案制定方面,在比较文字学研究方面,都有突出贡献。周有光先生已经108岁了,但依旧身体健康,精神矍铄。他的文章,他的谈话,思路之清晰,判断之明确,丝毫不显衰老迹象,这真是人间一大奇迹。更加难能可贵的是他八十多岁时居然开始学习电脑,并且在专业期刊《计算机世界》上发表文章。他不仅自己学习电脑,而且动员八十多岁的老伴张允和女士一起学习。他老人家不仅在学习,还主动思考很多“信息革命”时代的问题。他说:“发达国家的目标是推进信息化,发展中国家的目标是追赶工业化和信息化。”[1]
面对信息时代,中国语文现代化如何跟上时代步伐?周有光先生提出了一系列有关中文信息处理的思想并身体力行进行实践。
一、中文信息处理的双轨制
上世纪80年代,面对输入法的“万码奔腾”现象,周有光先生提出了中文信息处理的双轨制思想,即把汉字和汉语拼音两种文字工具同时应用到计算机中,汉字是正式的文字,拼音是辅助的文字。在计算机上既用汉字,又用拼音,使拼音字母帮助处理汉字,中文信息处理功效才能得到更大程度提高。但是很长一段时间,我们的计算机输入基本上采用的是汉字编码方式,也就是常说的“万码奔腾”,计算机使用者为了输入汉字,要记忆大量的汉字词根。“万码奔腾”说明我们始终没有找到一种最合适的输入法。人们还发明了“汉字笔触法”,即把几千个汉字列成一张“字表”,看到了需要的汉字,用笔点触一下就输入了这个汉字。事实证明,这种方法要特制键盘,成本高,携带不方便。如何把汉字输入计算机成了一个令人头痛的问题。
在这种情况下,周有光先生认为采用汉语拼音转换法是最佳手段。输入的是拼音文字,输出来的却是汉字。这不正是我们所需要的吗?拼音转换输入法是很有前途的输入法,即通过电脑键盘输入汉语拼音,自动转换成汉字输出。这种方法对使用者来说非常有利,它不需要记忆特别设计的编码,也不需要特制的键盘,只要会汉语拼音就可以了,而汉语拼音是我国小学甚至幼儿园的必修课,只要读过小学的人都熟悉汉语拼音。在输入拼音的过程中,不提倡单字输入,因为汉语同音字太多,输入一个单字,显示出十几个同音词,选择起来有点麻烦。所以一般提倡采用智能输入法,也就是输入整个句子,以句子定字形。汉语有大量的多音字,输入一个句子,电脑会自动根据句子的意思选择正确的汉字。这种输入方法输入的速度几乎和直接的拼音文字输入法不分高下。
周有光先生是这样描述两种输入过程的:使用拼音转换法,就是先语言思考再输入拼音最后输出汉字;而汉字编码法的过程是先语言思考再照字编码再输入编码最后输出汉字。这样很明显,汉字编码法比拼音转换法多了一道程序,而且,汉字编码法在使用过程中还会干扰人的思维。当然,两种输入法各有利弊,对于没有掌握汉语拼音的人来说,汉字编码仍有它存在的价值,所以,周有光先生提出了中文信息处理的双轨制,两者并用可以取长补短,提高中文信息处理的效率。一般来说,专门的打字员比较习惯使用汉字编码法,但是更多的年轻人习惯使用拼音转换法[2]。据笔者调查,几乎百分之百的大学生无论在电脑上打字还是手机上发短信息都使用拼音转换法。行政办公人员绝大多数采用拼音转换法,但也有少数人使用五笔输入法。周有光先生提出中文信息处理的双轨制是在上个世纪80年代初,今天看来这种提法具有很强的前瞻性。
二、利用汉语汉字内在规律探索中文输入法
周有光先生从上世纪80年代开始就在中西文处理机上写信、写文章和写书稿。在这个过程中,周有光先生用过多种电脑处理机和多种编码和无编码输入软件。多年的实践使周有光先生认识到,利用汉语内在的规律输入拼音,以语词和词组为输入单位,自动转换为汉字文本,这是唯一的快捷道路。
周有光先生认为,拼音转换法是应用汉语的内在规律来研制的,其中主要规律有:(1)汉语词汇的双音节化规律。现代汉语词汇双音节化规律越来越明显,因此输入法的设计要考虑到词语的双音节化规律。(2)汉语词汇的多音节化规律。汉语词汇不仅双音节化,而且也越来越多音节化,比如三个字、四个字、五个字的多音节的句子和语词越来越多,各种音译外来词的音节往往以多音节为主。(3)语词的频度规律。我们使用的语词分为常用词、次常用词、罕用词等级次。一般是常用词在最前面首先出现,罕用词最后出现。而且一般输入法具有“用过提前”的功能。(4)上下文的语境规律等。由于输入法具有智能特点,所以,当我们输入句子的时候,计算机可以依据上下文语境帮我们自动调整语词。
拼音转换法有高低两个层次:(1)低层次是单字输入法,以单个汉字作为输入单位,输入一个音节,出来一个汉字,这种输入法适合初学者; (2)高层次是语词输入法,以语词、词组、成语、语段以及常用的人名地名作为输入单位。最佳的选择是以语词输入法为主,单字输入法为辅。单字输入法速度太慢,应该少用。语词输入法可以做到以词定字。利用汉语以“语词”为表意单位和“语词”的多音化内在规律,在白话文中,能用语词输入法的场合有97%~99%。在语词输入法的过程中,周有光先生将很多问题都考虑到了。比如:正词法的问题、声韵双打法的问题、零声母的问题、同音词的问题、同音字的问题、“原位变换”和“异位变换”问题、“标调”问题、“语段”问题、“定形化”问题、“缩略法”问题、“最常用字”问题、“键盘”问题、“注音符号”兼容问题、“自动分词”系统问题、“部首查字法”问题、“造字功能”问题等等。实际上,我们今天使用电脑输入法中的很多问题周有光先生早就考虑到了。
周有光先生认为,拆字编码法应用汉字的内在规律,主要是汉字形体的结构规律及其部件和笔画的搭配和频度的规律。周有光先生对相关问题进行了深入细致的分析研究,主要有:字形编码、四码电报、传统部件、再分部件、键位安排、笔画编码、“同码”问题、“省略法”问题、“附加法”问题、“省略及附加”的问题、“例外码”的问题、“形码”和“音码”问题、“词语输入法”问题、“万码奔腾”问题、“字量”问题、“速度”问题(包括设计速度和操作速度)。周有光先生认为,相比应用汉字的内在规律的编码输入法,拼音转换法处于优势地位。因为小学时学好汉语拼音,可以终身受益,不需要另外特别的训练。拼音是青年的常识,是信息化时代的利器。而拆字编码法则需要几个月的特别训练,把复杂的规则和例外一个一个地死记,这种方法不好用。从“是否便用”来看,实践证明,拼音也比较好用。外国人学习汉语也是大都从拼音开始。对他们来说,拼音转换法是最佳选择[3]。现在还有少数年纪偏大的人使用手写法,少数文书工作者使用编码法,拼音转换法应该占绝对主流。
三、中文信息处理与人类语言生活革命性变化
周有光先生认为,二次大战以后,历史进入“新技术”时代。新技术革命来势凶猛,它对人类的语言生活产生了强烈的冲击。新技术时代的语言生活,有两件突出的事情。一是电子计算机的发明,二是国际共同语的发展。其中计算机的语词处理智能化使语言生活发生多方面的革命,使语文现代化的步子迈得更快更稳健。这些“革命”主要表现在以下几个方面[4]:
1.文书工作的革命
主要包括印刷革命和通信革命。曾经广受青睐的“文房四宝”已经成为古董。文书、档案、编辑、出版、邮递等工作的方法和程序彻底改变了。这些以往耗费大量人力、物力、财力的工作现在完全可以通过电子计算机来处理。过去有急事要发电报,如今电报早已被其他通讯手段代替。至于编辑、出版、统计等工作完全可以依靠计算机完成,有的工作可以“宅”在家里完成。新技术的革命日新月异,一日千里。文书工作发生了翻天覆地的革命。
2.图书馆的革命
过去图书馆可以看作是人类的第二个大脑,现在计算机可以看作是人类的第三个大脑。图书馆是“纸脑”,计算机是“电脑”。现在出版物急剧增加。浩如烟海的图书往哪里存放呢?这就要求缩小储藏和快速检索。很快庞大的书库变成小小的“光盘”,小小的移动硬盘存储的数据无以计数。电脑检索代替卡片目录,“大海捞针”一捞就得,从海量数据中搜寻自己所需要的信息,鼠标点击一下即可完成。情报的电脑化节省了全世界学术研究者的时间。学者们不必像过去那样为了考证一个字的读音或来源而皓首穷经了。
3.翻译革命
计算机使人工翻译向机器翻译发展。已经实现的“机助”翻译,初稿用机器翻译,再由人来加工,可以大大节省人力。计算机可以把一种文字翻译成另一种文字,还可以把一种口语翻译成另一种口语。电话和机器翻译结合,一地讲的是“外”国话,另一地听到的是“本”国话,这样的国际翻译电话的实现应该不会遥远。现在的国际会议,往往是发言人说一种语言,而听众戴上耳机听到的却是自己的母语。这是过去想都不敢想的事情,而如今已基本实现。
4.教学方法革命
计算机创造出各个学科的新式教学法,各种教学软件可以帮助教师辅导学生,回答学生提出的问题,批改学生的作业。计算机和电视结合,使教学活动跳出了学校的围墙,把课堂搬到每一个家庭中去,我们坐在家里,可以收看到哈佛大学教授的讲课。教学革命使科技知识大众化,有些课程的学习不需要老师耳提面命,学习者通过教学软件可以直接学习。这样不仅减少了学习成本,学习者还可以根据个人的时间调整学习内容。车站、机场等各种公共场所,都有“人机问答”,24小时不停地为顾客服务。
语词处理技术已经解决了中文输入输出的难题。只要输入汉语拼音,以语词和词组为单位,计算机就能够自动转换成汉字输出,不用任何字形编码。这使中文语词处理几乎接近于英文。目前这种语词输入法的技术日新月异,但都离不开拼音转换,如智能ABC输入法、搜狗拼音输入法、智能狂拼等等,万变不离其宗,都采用拼音转换法。
在新技术时代,计算机的使用是大众教育的主要课程。邓小平同志曾经说过,计算机要从娃娃抓起。这种说法抓住了问题的本质,看清了问题的实质,看到了信息时代发展的方向。所以,“信息技术”课现在成为中小学生很重要的一门课程,这是时代的需要,是科学发展的需要。所以扫盲教育不但要“扫除文盲”和“扫除科盲”,还要“扫除机盲”。
四、信息化时代语文技术革新的系列课题
上世纪80年代,我国刚刚改革开放,计算机对中国人来说非常稀奇。但是八十多岁的周有光先生敏感地意识到未来是信息化的时代,因此必须在语文技术上迎头赶上。周有光先生为此提出了一系列的课题[5]。
1.中文输入电脑的技术
(1)比较和分析各种编码输入法,选择最佳输入法。(2)以《辞海》笔画为基础,研究全国统一的汉字笔画顺序,便利汉字教学、汉字索引和汉字处理。(3)进一步研究拼音转换法,设计更加智能化的语境软件。(4)研究如何规定键盘上双字母和复韵母的同一位置,便利声韵双打,避免设计分歧。这些输入法技术今天看来算不了什么,很多问题都已经得到解决,但是在当时对外开放不久的时代能够提出是非常了不起的。
2.自然语言处理技术
(1)研究编辑汉语拼音正词法的词汇以便电脑储存和处理。(2)研究电脑的自动分词技术以及电脑对正词法的特殊要求。(3)研究科技术语以及科技术语的国际化问题和如何统一海峡两岸的译名和术语。(4)研究中文和外文的自动翻译问题。(5)研究语音输入、手写输入和其他输入法。(6)研究文献资料的自动检索技术。(7)研究电脑辅助教学技术,首先用于语文教学。这些课题直到今天很多都没有很好地解决。这需要我们进一步努力刻苦攻关。
3.广播和电视语文规范化技术
(1)研究汉语汉字在电视上的规范化问题。(2)研究电视语文的清晰度问题。(3)研究广播电视说方言的问题。
4.特殊语文的处理技术
(1)研究聋人手势语的规范化和汉语手指字母的应用。(2)研究改进汉语盲文,使盲文既可双拼又可音素化,还可以使用各种略写,跟汉语拼音挂钩,跟国际罗马字盲文符号挂钩。
这些语文技术课题的提出在当时是具有远见卓识的,今天仍然具有很强的现实意义、理论意义和实践意义。很多问题仍然是我们今天迫切需要解决的问题。
五、信息化时代语文本体研究和语文教育研究的课题
如果说语文技术属于信息化时代必须革新的课题,属于硬件范畴,那么语文本体研究和语文教育则属于软件范畴,软件问题不解决好,最终会影响硬件的建设与发展,也会影响语文现代化的进程。因此,周有光先生提出了一系列关于语文本体研究和语文教学研究的课题,其中涉及语文本体的研究主要有:
1.关于共同语和白话文的研究
(1)在传声传图时代,要研究语言听觉的清晰度和视觉的清晰度;(2)要进一步开展普通话审音工作,去除没有意义的方音口音古音;(3)要继续开展轻声儿化的研究,减少不必要的轻声儿化音;(4)要继续开展白话文研究,提倡口语化。
2.关于现代汉字学的研究
(1)继续研究减少通用汉字,减少生、难、怪、僻汉字;(2)继续研究汉字的简化;(3)继续研究港澳台和大陆繁体字及用字情况;(4)比较中国、日本和韩国汉字使用情况以及书同文情况;(5)研究科技术语中生僻字和新造字的情况及处理办法;(6)研究简化字的字源问题;(7)继续开展比较文字学研究。
3.关于拼音的研究
(1)研究汉语拼音方案的优缺点及如何改进;(2)比较大陆拼音和台湾的注音符号能否统一的问题;(3)研究越南拼音文字的经验;(4)研究汉字中夹杂的拼音问题;(5)研究少数民族语言拼音问题。
关于语文教学的课题主要有:
1.继续推广普通话的问题
(1)研究台湾推广国语,新加坡推广汉语的经验;(2)研究我国少数民族双语文教育问题及国外双语文成功的经验;(3)研究方言区推普的具体问题;(4)研究普通话和方言的经济价值问题;(5)研究普通话在校园的使用情况;(6)调查各类学校和各行业推普的实际问题。
2.开展汉字教学的研究
(1)研究“注音识字,提前读写”的实际情况; (2)编辑出版注音读物及录像带等;(3)研究日本实行注音识字的经验;(4)研究朝鲜和韩国使用汉字的经验;(5)比较中日两国小学语文教学; (6)研究扫盲用字和方法问题。
3.关于英语教学的问题
(1)英语已经成为事实上的国际语言,中国要把英语作为第二语言;(2)研究台湾和日本如何教学和使用英语以及采用什么样的教材等等。
如果对中文信息处理没有相当深入的研究,以上这些课题是很难提出来的,周有光先生1984年在《教育研究》上发表了《中国语文的现代化》,同年在《百科知识》上发表了《中文信息处理的双轨制》,1994年在《计算机世界》上发表了《汉语的内在规律和汉字的内在规律——中文输入法的两种基本原则》,以及1994年撰写的《从“万码奔腾”中解放出来》[6],足可以看出周有光先生对计算机中文信息处理的深层次思考,也可以看出当时近九十岁的周有光先生语文现代化的思想多么新潮。
六、中文信息处理的探索
周有光先生说:“1988年对我是一个分水岭。这一年我有了电子打字机,这是一个改变。”他说的“电子打字机”是日本夏普公司研制的产品。当时汉字输入技术很不成熟,夏普公司专门找到周有光,请教相关的技术性问题,周有光先生详细介绍了汉字拼音的特点,并给予了许多专业性的指导。
周有光先生不仅自己使用打字机,而且还动员自己86岁的夫人张允和也使用打字机。张允和第一次接触打字机,深有感触地说:“1995年2月21日,是一个好日子,我忽然异想天开,试试用打字机写信。可是我一不会汉语拼音,二不会普通话,三不会打字。但是我有一个好老师,是我的老伴周有光,又有一部文字处理机放着不用太可惜。我不当它是工作,当它是娱乐。这样,我就发现了我的新大陆。”[7]
这台打字机是使用“双打双拼”的方式输入的,这样逼着张允和学习标准的普通话发音以正确输入汉语拼音。不久以后,张允和居然可以慢慢地打出连贯的文字了。
周有光先生不仅动员夫人学习打字,而且还动员亲戚,甚至还动员保姆学习拼音打字,动员身边一切可以接触的同事朋友学习打字。周有光认为,电子打字机比手写效率要高出五倍。也许正是因为有了电子打字机,所以周有光先生离休之后每年都有新的作品发表和出版,这不能不说要归功于电子打字机,归功于语言文字信息处理技术的日渐成熟。
中文信息处理在上个世纪80年代对中国人来说是一个新课题。面对落后的信息化状况,周有光先生曾语重心长地说:“我们在失去一个大众化的打字机时代以后,不能再失去一个大众化的语词处理机时代。真正消灭差距,追回失去了的时代,出路很有可能就在于采用拼音转变法。”[8]北京大学苏培成教授如此评价周有光先生这种科学的预见性:“在今天,绝大多数人使用中文电脑时用的都是拼音转换法。我们感谢周先生给我们指明了中文输入的光明大道,使我们少走弯路,加快进入中文信息处理的新时代。”[8]
周有光先生虽蜗居斗室,但是他胸怀天下,心忧祖国的前途与未来,他具有世界眼光和国际意识,他总是从世界看中国,而不是从中国看世界。所以他能在九十高龄提出诸多富有远见的思想并付诸实践,这是当今语言文字学界甚至计算机界绝无仅有的。周有光先生被人称为“人中之瑞”,可谓当之无愧。
[1]周有光:信息时代的中国语文现代化[M]//周有光语文论集:第四卷.上海:上海文化出版社,2002:139.
[2]刘佳梅.周有光语文改革思想研究[D].济南:山东师范大学,2005:15-17.
[3]周有光.应用语言学的三大应用[M]//周有光语文论集:第四卷.上海:上海文化出版社,2002:319-343.
[4]周有光.汉语的内在规律和汉字的内在规律[M]//周有光语文论集:第四卷.上海:上海文化出版社,2002:304-316.
[5]周有光.汉语内在规律和中文输入技术[M]//汉字和文化问题.沈阳:辽宁人民出版社,2000:242-250.
[6]周有光.朝闻道集[M].北京:世界图书出版公司,2010:173.
[7]陈光中.走读周有光[M].北京:中国文史出版社,2011:296.
[8]王珺,杜永道.周有光:105岁的“语文工作者”[N].中国教育报,2010-04-23(5).