中文罗马字母拼写法及其在人机交互中的应用
2016-04-06冯志伟
□冯志伟
中文罗马字母拼写法及其在人机交互中的应用
□冯志伟
摘 要:中文罗马字拼写法可以把汉字译音为罗马化的拼音。它对于自然语言处理、文献工作、语言教学是非常有用的,已经成为人机交互的重要工具。
关键词:中文罗马字母拼写法 拼音 文献工作 汉字 人机交互
一、计算机对汉字提出的挑战
我们正处于信息网络时代,在这个时代,信息和网络在人类生活中起着越来越大的作用。语言文字是信息最重要的负荷体,信息网络时代的计算机需要处理负荷信息的语言文字,计算机信息处理与语言文字有着密不可分的关系,然而,汉字难以满足计算机信息处理的需要,仅有60多年历史的计算机向拥有6000多年历史的汉字发起了严峻的挑战。
汉字是一种意音图形文字(ideophonographic character)。这种意音图形文字是一种图形字符,用以表示事物或概念以及与之相关的语音,具有与仅仅表音的拉丁字母迥然不同的特色。
汉字最显著的特色是字符繁多,是一个大字符集(big script set)。
世界上的多数语言文字的字符所包含的字符数量都是很有限的。一些语言的字符集中所包含的不同字符数如下所示:
语言 字符集中包含的字符数拉丁语 26个斯拉夫语 33个亚美尼亚语 38个塔米尔语 36个缅甸语 52个泰语 44个老挝语 27个藏语 33个韩国语 24个日语 48个
汉字的数目比这些语言的字符集中包含的字符多得多。下面是古代和现代汉语的词典中包含的不同的汉字字符数:
作 者 词典(出版年代) 词典中包含的不同的汉字字符数许 慎 《说文解字》(公元100年) 99,353个顾野王 《玉篇》(公元543年) 16,917个陈彭年 《广韵》(公元1008年) 26,194个丁 度 《集韵》(公元1067年) 53,525个梅膺祚 《字汇》(公元1615年) 33,179个陈廷敬 《康熙字典》(公元1716年) 47,043个张其昀 《中文大字典》(公元1971年) 49,888个徐中舒 《汉语大字典》(公元1990年) 54,678个冷玉龙 《中华字海》(公元1994年) 85,000个
在《中华字海》中包含的汉字字符达到85,000个之多,不过,其中的一些字符或者没有意义,或者没有读音,只能算是符号(symbol),而不能算真正的文字(script)。所以,一般来说,汉字的字符数量大约有60,000多个。汉字是世界上最大的字符集。
汉字承载着6000多年历史的中华文化,它是光辉灿烂的中华文化之根,是中华民族的骄傲。然而,由于汉字的字符数量庞大,难于满足机器处理的需要。
欧洲人雷明顿(Remington)很早就发明了基于拉丁字符的打字机,显著地提高了文字工作的效率。
为了提高汉字的工作效率,20世纪以来,有的专家研制了中文打字机来打汉字,这种中文打字机与基于拉丁字符的雷明顿打字机(Remington Typewriter)不同,十分复杂,非常笨重①。
例如,图1是美国专家约翰森(Wally Johnson)发明的中文打字机,这台汉字打字机现在保存在美国堪萨斯大学东亚图书馆的馆员多尔(Vickie Fu Doll)的办公室里。
图1:约翰森(Wally Johnson)发明的中文打字机
图2:中文打字机的补充字模盘
这台打字机的主要部分是一个铅字字模盘,盘中可容纳大约2000个高频汉字的字模。这2000个汉字对汉语言文学写作或学术研究当然不够用,所以约翰森还给这台中文打字机加了一个补充字模盘,盘中包含一些不太常用的汉字字模,以备需要时可以检索使用。如图2所示。
还有一个重要的问题是这两个字模盘中的汉字怎样排列。是按照汉字的部首来排列呢?还是按照汉字的笔画数来排列?这两种排列方法都会导致在同一个排列号下包含若干个汉字,显然是不可行的。
那么,是否可以按照每个汉字的出现频度来排列?可否按照每个汉字的电报码来排列?这两种排列方法要求打字员有很好的记忆力,实现起来也很困难。
遗憾的是,约翰森当时没有想到根据汉字的读音来排列的方法,这样的方法简单易行,使用方便,对用户友好。可是,这样的好方法被约翰森忽略了!
由于约翰森没有找到排列汉字的好方法,打字时要费心费力地在字模盘中寻找适合的汉字,使得他心力交瘁,使用这样的中文打字机成为了一件极为艰苦的、不堪重负的工作。图3是约翰森使用这台中文打字机工作时的照片。
图3:约翰森用中文打字机打字
图4是约翰森在中文打字机前休息时的照片,他已经累得疲惫不堪了。
图4:约翰森在打字时作短暂的休息
这些照片生动地说明了,使用中文打字机是一件多么艰苦而劳累的工作!
计算机是要由人来操作的,使用计算机时,必须进行人机交互(Human-Computer Interaction,简称HCI)。人机交互要通过键盘来实现,显而易见,上述中文打字机是不适于用来作为计算机的键盘从而实现人机交互的。
现行的计算机直接使用雷明顿打字机的键盘作为计算机的键盘来实现人机交互。计算机的雷明顿键盘是在拉丁字母的基础上设计的,使用计算机来处理基于拉丁字母的语言文字是水到渠成的事情。在信息网络时代,如果在计算机人机交互的时候,我们直接采用雷明顿键盘,使用拉丁字母来表示每一个汉字的读音,那么,我们就有可能根据汉字的读音在计算机上进行汉字的输入和输出,从而实现人机交互。这是一种易于实现而且对用户友好的方法,也是约翰森没有想到的方法。
中文的罗马字母拼写法(Romanization)可以把汉字转换为拉丁字母,实现文字体系的转换,直接在计算机上使用雷明顿键盘进行汉字的输入、输出、传输和处理,对
二、文字体系转换的两种方法:转写和译音
按照某种文字体系(可以叫作“被转换系统”)书写的一种语言的词汇,有时需要用另一种不同的文字体系(可以叫作“转换系统”)来表示,这个过程是通过“文字体系转换”来实现的。文字体系转换中的不同体系通常是指不同语言中所使用的体系。这种文字体系转换常常用于历史文本、地理文本以及图表文件,特别是用于图书编目中。凡属有必要把使用不同字母所书写的文字转换成同一种字母(一般是罗马化的拉丁字母)的文字,以便在书目、目录(馆藏)、索引、地名表等工作中有一个统一的字母表,便需要进行文字体系的转换。这对于使用不同文字体系的两个国家之间文字信息的无歧义传递,或转换以不同方式书写的信息,都是必不可少的。这也使得手工方式以及机械、电子方式的文字转换成为可能。ISO/TC46一直关注文字体系转换国际标准的研究和制定工作。
文字体系的转换(conversion)有两种基本方法:一种是转写(transliteration),一种是译音(transcription)。
转写是将被转换的整个字母字符系统或字母数字字符系统中的字符(characters)用转换字母字符系统或转换字母数字字符系统中的字符来表示。由于转写是在字母字符系统或在字母数字字符系统之间进行,从原则上来说,这种转换应该是字符对字符的,也就是说,被转换系统的字母表(alphabet)中的每个字符都用转换字母表中的一个且仅仅一个字符来表示,从而保证从转换字母表到被转换字母表的转换可以完全地、无歧义地进行逆转。
ISO国际标准规定:当转换系统中的字符数目少于被转换系统的字符数目时,需要使用双字母或附加符号来补充。在这种情况下,必须尽可能避免随意的选择以及使用纯约定性的符号,应当设法保持一定的语音上的逻辑性,以使这样的系统具有广泛的可接受性。
然而,ISO国际标准指出,通过转写所得到的文字图形不一定总是能根据由转换字母表拼写出来的该语言的语音习惯正确无误地读出来。另外,这样转写出来的文字图形必需能使懂得被转换语言的人准确无误地想象出其原来的文字图形,从而正确地读出它。
逆转写(retransliteration)是指把转换字母表中的字符转换成被转换字母表中的字符的过程。逆转写是转写的逆过程。在逆转写时,转写系统中的规则被逆向地应用,以便把已经转写了的单词恢复成其原来的形式。
文字体系的转换的另外一种方法是译音。
译音是指用字母(letters)的语音系统或转换语言的符号(signs)来表示某种语言中的字符(characters),而不论该语言原本的书写方式如何。
译音系统必须以转换语言及其字母表的正字法为依据,因此,译音系统的使用者必须对转换语言有所了解,并能准确地读出其字符。转写是可以逆转的,而译音不是计算机人机交互(HCI)提供了巨大的帮助,解决了约翰森棘手的难题。
下面我们来讨论文字体系转换的方法。严格地可逆转的。
译音可用来转换所有的书写系统。它是唯一能够用来转换如中文、日文这样的不全使用字母的拼音文字系统及意音图形文字书写系统(ideophonographic writing system)的方法。
实行罗马化(Romanization)将非拉丁字母书写的文字系统转换为拉丁字母书写的系统),可根据被转换系统的特点,或者使用转写,或者使用译音,或者把二者结合起来使用。
ISO国际标准规定,提出来供国际使用的转换系统,必须有所妥协并在民族习惯上做某些牺牲。因此,使用这种转换系统的各国团体都必须做出某种让步,并尽力避免在任何场合把仅仅在本民族的实践中证明是可行的东西当作理所当然的办法强加于人(如各种发音规则或正字法规则等)。但这种让步显然并不影响到一个国家对于本民族书写系统的使用。当这个民族书写系统没有被转换时,组成它的字符必须按其在该民族文字中的书写形式予以接受。
如果一个国家使用两种书写系统,并可以由其中一种系统单义地转换为另一种系统来书写自己的语言,这样的转写系统理所当然地应该作为国际标准的基础,只要它和下面阐述的其他原则相符合。
必要时,转换系统应赋予每个字符相应的对等符号,这些字符不仅包括字母,也包括标点符号、数字等。同时还应考虑组成文本的字符的排列顺序,比如文字的书写方向,还需说明区分单词边界的方法、分隔符号与大写字母的用法,并尽可能遵循被转换文字系统的语言习惯。
ISO国际标准还提出,意音图形文字的结构,表意重于表音。因为使用了大量的字符(中文有60,000多个汉字),所以不能使用符号对符号的方式进行转写,而需要制定一个译音系统。因此每个字符就可能译音为一个或多个拉丁字母,用以代表该字符的一种或几种读音,这就要求译音者必须熟悉所译音原文的读法。
既然意音图形文字的译音只是用拉丁字母记录下各个字符在使用它们的各个文字中的读音,因此,同一字符因其在中文、日文或韩文中出现而有不同的译音方法。
从另一方面说,同一种语言中的同一字符,必须按同一方式译音,而不论它的字体形式(中文有简体和繁体形式)如何;除非该字符有不止一个读音。
由于下列原因,意音文字的罗马字母拼写系统是不可逆转的。在两种不同的文字或同一种文字中,同一字符存在异读情况;在同一种文字里,同音词出现的频度过高;对于一个给定文本,可能同时存在几种不同的书写系统。
有些语言甚至在同一文本中使用不止一种字符系统(例如:日文中并用假名和汉字,韩文中并用谚文和汉字),在这种情况下,意音文字的字符的译音应同其他字符(如:谚文和假名)得出一个一致而协调的罗马字母拼写系统。
ISO国际标准还提出了关于正词法(orthography)的规定:一般说来,在书面文本中,单词与单词之间出现空格是正常的,因此在译音时,通常应当把构成一个单词的若干个字符连写在一起,使得单词与单词之间出现空格。有关语言的单词的构成原则和规则(正词法),也应当是国际标准的一部分。
1958年2月11日,中华人民共和国全国人民代表大会正式通过了汉语拼音方案,用来对中文进行译音,译音是根据汉字在规范汉语(普通话)中的读音来进行的。
图5是全国人民代表大会通过汉语拼音方案时的照片,从照片中可以看到,周恩来总理、朱德元帅、贺龙元帅等著名的人民代表都举手赞成汉语拼音方案。
图5:全国人民代表大会通过汉语拼音方案
由于汉语拼音方案是建立在罗马化(Romanization)的译音原则的基础之上的,因此,我们也可以把汉语拼音方案中规定的中文罗马字母拼写法叫作“中文罗马化”(Romanization of Chinese)。
三、国际标准ISO 7098:中文罗马字母拼写法
1958年全国人民代表大会通过的《汉语拼音方案》可以看成是拼写汉语普通话的国家标准。从此,汉语拼音成为了中国初等教育的内容,每一个学生都应学习和掌握《汉语拼音方案》。通过汉语拼音来给汉字注音,大大提高了汉字学习效率,有助于学生进一步学习文化和科学技术。汉语拼音在中国受到普遍的欢迎。
汉语拼音也受到了国外的关注,有的国家开始使用汉语拼音来进行图书目录的编写。汉语拼音有可能成为ISO国际标准化的一项重要工作。
1979年,中国代表周有光在巴黎和华沙的ISO/TC46(国际标准化组织——信息与文献技术委员会)第6届会议上,提出把《汉语拼音方案》作为国际标准的建议。
图6:我国代表周有光在ISO/TC46第6届会议的中国席上
1982年,在南京召开的ISO/TC46第9届会议上,正式通过了《ISO 7098文献工作——中文罗马字母拼写法》(ISO 7098 Information and Documentation-Chinese Romanization)。从此,汉语拼音从中国的国家规范成为了国际标准。
1991年,在巴黎召开的ISO/TC46第18届会议上,对“ISO 7098”进行了技术修改,成为了《ISO 7098信息与文献——中文罗马字母拼写法(1991)》,简称“ISO 7098(1991)”。
中文罗马字母拼写法在ISO国际标准中叫作“中文罗马化”(Chinese Romanization)。本文中所说的“中文罗马化”就是指“中文罗马字母拼写法”。
上世纪90年代初修订ISO 7098的时候,正是世界进入信息网络时代的关键时刻。为了适应信息网络时代的要求,中国开始研制计算机汉字输入输出。使用ISO 7098 (1991)规定的译音方法,可以通过拼音—汉字转换在计算机上输入输出汉字,从而实现人机交互。由于汉语拼音是中国初等教育必不可少的内容,每一个受过教育的中国人都会使用拼音,这样,ISO 7098(1991)就成为了汉字输入输出的一种便捷的手段。在移动通信中,也可以使用汉语拼音在手机上输入汉字,实现手机上的人机交互,推动了手机在中国的普及。
ISO 7098(1991)在世界上大多数图书馆的中文编目、检索、分类中得到广泛使用。美国国会图书馆(Library of Congress)在20世纪末,使用ISO 7098 (1991)对该图书馆的7万册中文图书的目录重新进行了汉语拼音的编目,方便读者使用汉语拼音对图书进行检索,提高了工作效率。
法国巴黎的语言和文化大学图书馆(Bibliothèque universitaire des langues et civilisations)组织懂得汉语的图书馆专家,其中包括法国国家图书馆(Bibliothèque Nationale de France)的专家,集中研究在ISO 7098(1991)中汉语单词的拼音连写问题,试图在图书馆的编目中建立起有效的汉语拼音按词连写指南。此外,澳大利亚国家图书馆和德国特里尔大学图书馆也使用ISO 7098(1991)对该图书馆的中文图书编目进行了罗马化。
ISO 7098(1991)还在汉语国际教学中得到普遍的使用。外国学生在学习汉语时,都喜欢首先学习拼音,通过拼音进一步学习汉字,从而提高了汉语学习效率。
所以,ISO 7098(1991)不仅在中国发挥了巨大的作用,在全世界也发挥了很好的作用,这说明ISO 7098 (1991)具有重大的国际影响,是一个受到全世界欢迎的国际标准。
普通话是中国各民族的通用语言,也是联合国的工作语言之一。中文罗马化对于全世界的信息与文献工作具有重要的意义,为了满足当前国内外对汉语拼音实际应用的迫切需要,我们有必要修改ISO 7098 (1991)。
2011年5月6日,ISO/TC46第38届全体会议在澳大利亚悉尼召开,受国家教育部的派遣,我国代表冯志伟在会议上提出了修改ISO 7098(1991)以便反映当前中文罗马化的新发展和实际应用需要的建议。
图7:我国代表冯志伟在ISO/TC 46第38届会议的中国席上
冯志伟在ISO/TC46第38届会议的发言中提出:我们需要进一步细致地描述拼音的规则,需要增加人名和地名的拼音连写规则,需要进一步描写中文拼音的大写字母规则,需要更新ISO 7098(1991)中的词典清单,代之以更加具有权威性和更加完善的新的词典清单。冯志伟在发言中还指出:ISO 7098(1991)的修改有很大的空间,我们必须进一步更新ISO 7098(1991),使之不仅能反映中文罗马化在中国的发展情况,还能反映中文罗马化在全世界范围的发展情况。
会后,我国国家标准化委员会(SAC)正式向ISO国际标准化组织提出了修订ISO 7098的新工作项目(New Working Item Proposal,简称NWIP)的提案,这个提案的国际编号是:N2358。
2012年5月6日至11日,ISO/TC46第39届会议在德国柏林举行,我国代表冯志伟出席了这次会议。会议接受了我国的N2358号提案,并将这个提案直接作为ISO 7098的工作草案(Working Draft,简称WD),成立了ISO 7098国际修订工作组,由中国、德国、美国、俄罗斯、加拿大五国派出的专家组成,冯志伟被任命为国际修订工作组组长。这样,ISO 7098的修订便正式列入了国际标准化组织的工作日程。
2013年6月3日至7日在法国巴黎召开ISO/TC46第40届会议,我国代表冯志伟出席了这次会议,并在会议上正式向ISO/TC46秘书处提交了ISO 7098的委员会草案(Committee Draft,简称CD)。
ISO/TC46接受了我国的CD稿,并在2013年7月5日至2013年11月5日4个月内在各成员国中进行了投票。2013年11月,ISO/TC46秘书处N2452号文件公布了投票结果:投赞成票的国家21个,投反对票的国家1个。由于这个CD稿得到大多数国家的支持,获得通过。
2014年5月5日至9日,我国代表冯志伟到美国华盛顿参加了的ISO/TC 46第41届会议。冯志伟在5月7日上午举行的第三工作组(WG3)会议上,就ISO 7098的修订问题重申中国的立场。会后,冯志伟向ISO/TC46秘书处提交了ISO 7098的国际标准草案(Draft of International Standard,简称DIS)。
ISO/TC46秘书处接受了我们提交的DIS稿,并于2014 年12月1日至2015年3月1日3个月内进行投票,根据ISO的规定,DIS投票在计算比例时,不考虑弃权票。2015年3月1日由ISO/TC46委员会秘书处N2519号文件公布了投票结果:在18个没有弃权的国家中,17票赞成,占94%,大于ISO规定的66.66%的比例,1票反对,占6%,小于ISO规定的25%的比例,DIS获得通过。
美国、加拿大、德国对于ISO 7098的CD和DIS提出了很好的意见,我们对于这些国家的专家们表示衷心的感谢。目前,我们正在根据各国的意见对于DIS稿进行修改,不久我们将向ISO/TC46秘书处提交DIS的修改稿。
在CD和DIS的投票中,各国提出的意见主要集中在汉语拼音是否有必要按词连写的问题上。这个问题确实是非常重要的,它应当成为ISO 7098(1991)修订的主要内容。
下面讨论汉语拼音按词连写的问题。
四、按词连写的必要性
汉语中大多数的常用词都是多音节词。在国际文献和信息工作中,把单音节的拼音连写为多音节的汉语单词是理所当然的事情。
在中世纪之前,希腊人和罗马人已经知道什么是一个单词,尽管当时文本中在相邻的单词之间没有空白,但是他们仍然可以识别出单词,进而了解文本的内容。
根据斯坦(Knight Stan)在《罗马字母表》(The Roman Alphabet)②中的记载,公元7世纪,爱尔兰的僧侣开始使用空白来分隔文本中的单词,并且把这种方法介绍到法国。到了公元8世纪和9世纪,这种使用空白分隔单词的方法在整个欧洲流行开来。
空白的使用意味着承认单词这个概念,在单词与单词之间插入空白成为了在书面上使用字母的语言的一个不成文的标准,世界上的出版界和图书馆都遵循这个标准。
《汉语拼音正词法基本规则》(GB/T16159-2012,中华人民共和国家标准,2012)中包括了音节分割或连接成单词的规则,常用词(名词、动词、形容词、代词等)的拼写规则,固定短语的拼写规则,人名和地名的拼写规则,声调的表示规则,在行末尾的连字符使用规则,等等。这个标准是在拼音时按词连写的重要依据。
目前,在汉语语言学中,对于汉语的“词”还没有公认的明确定义,这样有时就很难确定汉语普通单词的边界(切分线),当把单个的音节连接起来构成多音节的单词时,常常会出现举棋不定、划水难分的尴尬局面。不过,汉语的专有名词中,单词的界限还是相对清楚的,由于汉语中多音节的命名实体的界限根据有关的规范和标准比较容易确定,因此,把不同的几个单音节连接起来构成多音节的专有名词就不是很困难的事情。人名、地名、语言名、民族名、宗教名等专有名词,可以统一地叫作“命名实体”(naming entity),在目前的技术条件下,我们可以先实现命名实体的按词连写,其他非命名实体的单词的按词连写可以暂时不做。在国际文献和信息工作中,首先把不同的汉语拼音单音节连接起来构成多音节的命名实体,从而避免拼音的歧义,不仅是必要的,而且也是可能的。
在ISO国际标准的文献中,早已关注到“按词连写”的问题。
在国际标准“语言资源管理——书面文本的单词切分”(ISO 24614-1:201)中论述了如下有关按词连写的问题。
在与语言有关的科学研究和工业生产中,“词”是一个基本的和必要的概念,因此我们有必要对于“词”这个概念加以统一的界说。然而,人们很难简单地使用基于空白和标点符号之类的规则来决定单词之间的界限。这样的规则没有考虑到复合词、缩写词、惯用语之类的切分问题。单词的切分对于单词与单词之间没有空白分开的语言(如:汉语、日语)更加麻烦。
在自然语言处理(Natural Language Processing)中,单词切分就是把文本切分为负载意义的语言单位的过程。例如:在英语中,“the white house”可以切分为3个有意义的单位“the”“white”和“house”,它表示一间白色的房子,而“the White House”则只与一个语言单位相对应,它表示美国总统的官邸。这样的有意义的单位叫作单词的切分单位(Word Segmentation Units,简称WSU)。对于单词之间有空白的语言,如英语,把文本切分WSU时,只要使用空白作为基础,确定WSU切分的边界就行了,是简单易行的。但是,对于单词之间没有空白的语言,如:汉语和日语,或者对于那些只在局部的单词之间有空白的语言,如泰语和韩国语,把书面文本切分为WSU要求使用不同的方法。
在很多应用领域中,需要把文本切分为单词。在翻译中,数出单词的个数是计算翻译工作成本的主要方法。在翻译记忆系统和机器辅助翻译(Computer-Assisted Translation,简称CAT)的工具中,单词切分是这些系统的一个主要的功能。在术语抽取工具中,单词切分也起着重要的作用,在术语管理和CAT工具中,有时也要提供单词切分的功能。大多数的内容管理系统和数据库都要根据单词来进行搜索。在内容搜索时,也要对文本进行切分,以便使用搜索词进行匹配。此外,搜索功能要求关于单词边界的知识,文本-语音转换系统要在单词的基础上来生成语音,因此要求在单词查询时进行单词切分,等等。各种自然语言处理系统必须把文本切分为单词才能实现其功能。词典资源是根据它的规模来评测的,因而通常都要评估它的单词个数。
国际标准化组织已经公布了两个关于书面文本的单词切分的国际标准:
nISO 24614-1:201“语言资源管理——文本的单词切分——第1部分:基本概念和一般原则”给出了自然语言处理中单词切分的基本概念和一般原则,提出了以可以信赖而且能够复用的方式进行书面文本自动切分的导则,而且这种导则是独立于语言的。
nISO 24614-1:201“语言资源管理——书面文本的单词切分–第2部分:汉语、日语和韩国语的单词切分”提出了汉语,日语和韩国语中切分WSU的具体规则。其中有些规则是这三种语言共同的,尽管每种语言都有自己判别WSU的特殊规则。
在中文罗马字母拼写法的研制中,我们有必要关注这些国际标准。
这些国际标准是我们书面文本自动切分的重要依据,也是中文罗马字母拼写法按词连写的重要参考。
五、汉语拼音音节的歧义指数
为了在国际标准中,进一步从理论上说明中文罗马字母拼写法中按词连写的必要性和科学性,冯志伟提出了汉语拼音音节的“歧义指数”(ambiguity index)的概念。
如果不计声调,基本的汉语音节只有405个,这405个汉语音节可以表示全部汉字的读音。而《通用规范汉字表》包含了8105个通用汉字,在这种情况下,在一般使用中,一个汉语音节平均要表示20个以上的汉字(8,105/405=20.01),不可避免会出现歧义。
(1)在《通用规范汉字表》中,拼音音节/bei/可以表示如下31个汉字:
北 杯 卑 背 椑 悲 碑 鹎 贝 孛 邶 狈 备 钡 倍 悖被 琲 棓 辈 惫 焙 蓓 碚 鞁 褙 糒 鞴 鐾 呗 臂
(2)在《通用规范汉字表》中,拼音音节/jing/可以表示如下49个汉字:
京 茎 泾 经 猄 荆 菁 旌 惊 晶 腈 䴖 睛 粳 兢 精鲸 麖 鼱 井 阱 汫 刭 肼 颈 景 儆 憬 璥 璟 警 劲 径净 迳 胫 倞 痉 竞 竟 竫 婧 靓 敬 靖 静 境 獍 镜
这意味着,在表示汉字的时候,汉语拼音音节是存在歧义性的。
我们使用“拼音音节的歧义指数”这个概念来描述拼音音节的歧义。歧义指数是汉语拼音音节的歧义程度的数学描述。
汉语拼音音节的歧义指数(I)等于该拼音音节可以表示的语言单位数(N)减1。计算公式如下:
I=N-1
这里所说的“语言单位”可以是单音节的汉字,也可以是单音节或多音节的单词。
这个公式说明,如果拼音音节可以表示N个语言单位,那么,它的歧义指数等于“N-1”。
如果拼音音节可以表示一个语言单位,那么它的歧义指数为零。
如果拼音音节可以表示两个语言单位,那么,它的歧义指数为:2-1=1。
如果拼音音节可以表示三个语言单位,那么,它的歧义指数为:3-1=2,等等。
在例(1)中,拼音音节/bei/可以表示31个汉字,也就是31个语言单位,它的歧义指数为:31-1=30;在例(2)中,拼音音节/jing/可以表示49个汉字,也就是49个语言单位,它的歧义指数为:49-1=48。
但是,如果把单音节/bei/和单音节/jing/结合形成一个双音节的单词/beijing/,其歧义指数将明显地减少,因为/beijing/只能表示三个双音节的语言单位,也就是三个单词:北京,背景,背静。其歧义指数减少为:3-1=2。
如果把/beijing/的第一个字母进一步大写为/ Beijing/,那么,其歧义指数将减少到零:1-1=0。这说明,/Beijing/是一个没有歧义的语言单位,它的意思只有1个,这就是中国首都的名称:北京。
因此,如果把不同的单音节的拼音音节连接成多音节的汉语单词,那么,拼音音节的歧义指数将明显地减少。这是把不同的单音节连接成为多音节的汉语单词的优越之处。
六、命名实体自动译音的方法
在计算机辅助文献工作中进行人机交互的时候,有两种对命名实体自动译音的方法:一种是按音节全自动译音,一种是基于规则的按单词半自动译音。
(一)按音节全自动译音
全自动译音程序能够自动地生成彼此之间由空白分开的单个音节。这样的方法适用于任何的应用系统和环境,其中音节切分的结果都会是令人满意的,这种全自动译音程序特别适用于那些把拉丁字母的译音与原来汉字存储在一起的系统。
使用这样的方法,“北京市”这个地名可以全自动地译音为/bei//jing/和/shi/3个音节。译音的过程如下:
a.北京市
b.bei jing shi
这种全自动的方法是很容易用计算机程序来实现的,但是译音出来的音节的歧义指数较高。
(二)基于规则的按单词半自动译音
在中文罗马字母拼写中,应当把由汉字表示的命名实体译音为拼音表示的单词。在汉语中,一个单词可以由一个或多个音节组成,单词之间的界限不是那么清楚,在目前的技术条件下,全自动的单词切分难以达到很好的质量,因此,可以采用基于规则的按单词半自动译音的方法。
命名实体基于规则的按单词半自动译音可以使用如下的资源:
①一套译音规则:在国际标准ISO 7098的规则中提出了命名实体译音的一般规则。这些规则可以用作命名实体半自动译音的资源。
②一个相关的译音词典:最近在中国出版的《汉语拼音词汇(专名部分)》包含了大多数的命名实体的拼音译音,可以用作命名实体半自动译音的另一个资源。
使用这样的方法,“北京市”这个地名的译音过程如下:
a.北京市
b.bei jing shi
c.beijing shi
d.Beijing shi
e.Beijing Shi
根据规则,地名“北京市”首先被切分为/bei/,/jing/ 和/shi/三个音节,然后把/bei/,/jing/结合成/beijing/,使它与行政区划名/shi/分开,最后再把每一个部分的首字母大写,译音为/Beijing Shi/。
如果在按词译音过程中出现歧义或问题,后编辑人员可以根据译音词典,使用人机交互找出合适的命名实体的译音。所以,这样的方法是半自动的。
这种半自动方法的译音质量很高,音节的歧义指数较小甚至可以减少到零。
在文献和信息处理中,当把汉字文本转换成拼音文本时,如果采用按词连写的方法,可以大大地提高人机交互的效果。中文罗马字母拼写法在人机交互中将会发挥越来越大的作用。
本文为作者于2015年6月2日在国际标准化组织ISO/ TC46第42届全体会议上的大会主题报告。原文为英文,这里翻译成中文发表。
注释:
①Victor Mair,Chinese typewrite,Language Log,June 30,
2009.
②Knight Stan,The Roman Alphabet,In Daniels,Peter T. Bright William,The World’s Writing Systems,Oxford University Press,1996.
参考文献:
[1]ALA-LC Romanization,Chinese,Rules of Application,http://www.loc.gov/catdir/cpso/romanization/chinese. pdf.
[2]ISO 3602:1989 Documentation——Romanization of
Japanese(kana script),1989.
[3]ISO/TR 11941:1996 Information and documentation——Transliteration of Korean script into Latin characters,1996.
[4]Library of Congress,Pinyin Conversion Project,New Chinese Romanization Guidelines,http://www.loc.gov/ catdir/pinyin/romcover.html,1998.
[5]Zhiwei Feng,Chinese Romanization and Its Application in HCI,Human-Computer Interaction,Advanced Interaction Modalities and Techniques,Proceedings of 16th International Conference HCI International,Part II,Lecture Notes in Computer Science(LNCS),Springer,2014:406-416.
[6]冯志伟.关于修订中文罗马字母拼写法国际标准ISO 7098 (1991)的情况说明[J].北华大学学报(社会科学版),2013,(3).
(冯志伟 浙江杭州 杭州师范大学外语学院311121;辽宁大连 大连海事大学 116026)