中文音译规范化的自动实现

2017-01-23张霄军

中国科技术语 2016年6期

张霄军

摘要：为了顺应汉语规范化的基本国策和汉语国际推广的实际需求，不仅要在现在和将来的翻译工作中将人名、地名等中文翻译成规范的汉语拼音，还要将以前用旧方案翻译的相应名称转写成汉语拼音。本文根据威妥玛式拼写法与汉语拼音拼写法的对应关系，总结了自动转写的转写规则，开发了基于规则的威妥玛式拼音自动转写为汉语拼音的软件WG2PY，并自动转写了林语堂翻译的《浮生六记》中的译音字，取得了很高的正确率，实验数据也具有一定的覆盖率。

关键词：中文音译，《汉语拼音方案》，自动转写，威妥玛-翟里斯式，WG2PY

中图分类号：H083；H125.19；H125.2；H159文献标识码：ADOI：10.3969/j.issn.1673-8578.2016.06.003

Abstract： In order to meet the requirement of broadcast Chinese， people often need to translate the present Chinese personal names， place names and other proper names into other languages in Pinyin style， and also， to rewrite names translated in other styles in the past to Pinyin. This paper summaries the rewriting rules according to the respective relationship between WG and PY， designs a rule based software named WG2PY to rewrite the WG names in novel Six Chapters of A Floating Life into PY ones.

Keywords： Chinese transliteration，Chinese Pinyin Plan，autorewriting，WG，WG2PY

一背景介绍

在1982年国际标准化组织（ISO）决定采用《汉语拼音方案》作为国际标准的汉语罗马字母拼写法之前，在国内外的翻译、通信、交通诸领域，汉语人名英译采用的旧的罗马字母拼写法很不统一，比较流行的有威妥玛式、国语罗马字、拉丁化新文字等[1]。为了顺应汉语规范化的基本国策和专名音译的大趋势，不仅要在现在和将来的汉–英翻译工作中将汉语人名翻译成规范的汉语拼音，还要将以前用旧方案翻译的人名转写成汉语拼音。但人工转写往往费时费力且很容易出错，转写的差错造成翻译质量低下的例子屡见不鲜。

此外，由于历史原因，香港和澳门地区的新语文政策也刚推行不久，本地人对《汉语拼音方案》的认同还不一致，中文音译时并没有完全按照《汉语拼音方案》。台湾地区由于众所周知的原因，不同于大陆一套汉语拼音走天下，存在着多种拼音系统[2]，其中文音译的不一致现象和混乱程度也就可想而知了。

然而，中文译音的汉语拼音化的基本国策是既定的，这个趋势谁也逆转不了。事实上，1958年，中国第一届全国人民代表大会通过《汉语拼音方案》后不久，国际标准化组织就已经决定首先在地名音译上采用《汉语拼音方案》[3]。之后，1979年6月15日联合国秘书处发出通知，以“汉语拼音”的拼法作为各种拉丁字母文字中转写中国人名和地名的国际标准[4]。到了1982年，国际标准化组织决定采用《汉语拼音方案》作为汉语罗马字母拼写法的国际标准。然而，由于各种原因，世界各国对此反应不一。法国等欧洲国家率先响应，各国的出版物和图书馆很快就采用了汉语拼音。但是美国迟迟没有采用，直到1998年，美国国会图书馆才决定改用拼音，并准备以三年时间，花费几千万美元，把馆藏70万部中文图书的目录全部改成拼音[5]。近年来，随着汉语国际推广力度的增加、各国孔子学院的设立以及语言信息标准化的需要，汉语拼音的作用越来越明显。因此，对于历史所遗留的非汉语拼音式的中文音译罗马字母拼写式，都存在一个转写的问题。然而，诚如前面所述，人工转写往往费时费力且很容易出错。

本文根据威妥玛-翟里斯汉字标音体系（WG，见下文）与汉语拼音汉字标音体系（PY，见下文）的对应关系，总结了自动转写的转写规则，开发了基于规则的威妥玛式拼音自动转写为汉语拼音的软件WG2PY，并自动转写了林语堂翻译的《浮生六记》（Six Chapters of A Floating Life）[6]中的译音字，取得了很高的正确率，实验数据也具有一定的覆盖率。

二自动转写实现

1.定义

拼音字——一组以某种汉字标音体系中的音素为标准而组成的音素序列（音节）。如hsin为威妥玛-翟里斯标音体系中的一个拼音字；xin为汉语拼音标音体系中的一个拼音字。

拼音词——一组以某种汉字标音体系中的音节为标准而组成的词级音素序列。如chünfangpu为威妥玛-翟里斯标音体系中的一个拼音词；qunfangpu（“群芳谱”）为汉语拼音标音体系中的一个拼音词。

WG——威妥玛-翟里斯汉字标音体系。指以英国人威妥玛（T. F. Wade）所创建的汉字标音体系为基础后经翟里斯（Giles）修订的汉字标音体系，用该体系标音的拼音字和拼音词常见于1979年前出版的各种中文典籍英译著作或者未采用汉语拼音方案的外国人所写的英文著述，用以音译中国人名、地名、机构名等中的汉字。

PY——汉语拼音汉字标音体系。指以汉语拼音方案为蓝本的汉字标音体系，用该体系标音的拼音字和拼音词常见于1979年后出版的各种中文典籍英译著作或者已采用汉语拼音方案的外国人所写的英文著述，用以音译中国人名、地名、机构名等中的汉字。

同音字——WG中不同音节对应相同PY中某一音节的拼音字互称“同音字”，如WG中che对应于PY中的zhe，WG中的cheh也对应于PY中的zhe，则che和cheh互称同音字。

2. 自动转写软件WG2PY

功能：将威妥玛-翟里斯汉字标音体系的拼音字自动转写为汉语拼音汉字标音体系的拼音字。

处理模块及算法：程序由切字处理、转写处理和后处理（输出）三个模块构成。

切字处理模块：从给定的拼音词中根据“WG2PY拼音字切字底表” 采用正向最大匹配法切分出正确的拼音字（包括连字符处理、所有格撇号处理等）。流程为：（1）输入一个待转换的WG串S1，和已转换的PY串S2；（2）如果S1为空串，转6；（3）从S1的左边复制一个子串W作为候选词，W尽可能长，但长度不超过Max_WG（设定为10）；（4）如果在切字底表中找到W，则将W转换为相应的拼音串，并将其加到S2的右边。并且从S1的左边去掉W，转（2）；（5）去掉W中最后一个WG串，转（4）；（6）结束。

转写处理模块：根据基础规则、转写规则和补充规则对切好的拼音字进行转写，基础规则见“WG2PY基础规则库”，转写规则见“WG2PY转写规则库”，补充规则见“WG2PY补充规则库”。

后处理（输出）模块：包括大小写、连字符、撇号的处理等。具体如下：（1）大小写的转写规则：如果一个输入的WG串的首字母是小字母，那么它的转换后的PY串的首字母也转换为小写字母，反之亦然；（2）连字符处理规则：如果一具WG串中是连字符“”加上元音字母（如a、e、o），那么转写成PY串则转写为撇号“”加上元音字母（如a、e、o），其他情况直接去掉连字符“”，在PY串中不保留任何痕迹；（3）所有格撇号处理规则：只需要把“s”放到切字底表中，采用正向最大匹配法，即可做正确切分。

三实验内容与结果

1. WG2PY拼音字切字底表

“WG2PY拼音字切字底表”是采用正向最大匹配法切字的基础。根据WG与PY的声母、韵母对应关系，我们参照威妥玛《语言自迩集》[7]中的“音节总表（Sound Table）”和“北京话音节表（The Peking Syllabary）”拼出了420个基本拼音字，后根据WG的“轻音”规则（见下文）拼出了277个同音字，这420个拼音字和277个同音字共同构成了“WG2PY拼音字切字底表”。

2. WG2PY规则

WG2PY规则由基础规则、转写规则和补充规则组成，分别建立“WG2PY基础规则库”“WG2PY转写规则库”和“WG2PY补充规则库”。

“WG2PY基础规则库”中共有规则49条，分为Consonants（21条）、Basic Vowels（8条）、Basic Retroflex Syllables（4条）、Basic Sibilant Syllables（4条）、Semivowel Initials（3条）和Basic Finals（9条）。基本对应于《汉语拼音方案》中所有的声母表和韵母表。

“WG2PY转写规则库”中共有规则420条，对应于“WG2PY拼音字切字底表”中的420个基本拼音字（音节）。

“WG2PY补充规则库”中现有规则109条，分为“轻音”和“固化”两部分：轻音是指WG中ng和h的发音规则，其中和ng相关的规则有10条，和h相关的规则有59条；固化是指不符合上述所有转写规则但又在外文音译中已经固定下来的中文译音，如Peking>Peking（“北京”），chow>zhou（“州”，用于地名），king>jing（“京”，用于地名），kiang>jiang（“江”，用于地名）等，目前已收录40条规则。

3. 测试语料

这里的语料不是指原文全文或整句，而只是WG拼音词（字）和PY拼音词（字）。这些拼音词（字）的获取可以从1979年以前出版的各种中文典籍英译著作或者未采用汉语拼音方案的外国人所写的英文著述中获得。本实验中我们选用清人沈复所著、林语堂先生英译的小说《浮生六记》，从中获取WG拼音词322条，涉及拼音字235个（字型而非字例）。

4. 实验结果

以转写正确率作为实验结果的评价指标，正确率计算公式如下：

经WG2PY转写后生成的235个PY拼音字中，转写正确的拼音字字数为207个，全部测试拼音字字数为235个，转写正确率为88.09%。

同时，我们以覆盖率作为实验内容的有效性评价指标，覆盖率计算公式如下：

覆盖率=全部测试拼音字字数/拼音字表中的拼音字总数

“拼音字表中的拼音字总数”是指“WG2PY拼音字切字底表”中的拼音字字数，为420+277个，因此覆盖率为33.72%。

四实验结果分析

1.实验结果中覆盖率偏低

这是由于在我们目前的科研条件和科研环境下，1979年以前出版的各种中文典籍英译著作或者未采用汉语拼音方案的外国人所写的英文著述较难获取，因此从中提取测试拼音字的难度较大。

2.转写错误分析

实验中转写错误的拼音字共有28例，其错误原因可以分为以下三类：

第一类：撇号处理。WG2PY的转写过程中的撇号出现有三种情况——（1）WG中的送气符，如Chao，这种送气符会出现在声母p、k、t、ch、ts和tz与跟在它们后面的元音之间，即p、k、t、ch、ts和tz；在PY中无送气符号。（2）PY中的隔音符，如Xian，这种隔音符会出现在汉语拼音a、o和e开头的音节连接在其他音节后面从而使音节的界限发生了混淆的时候；在WG中的隔音符是以连字符“”的形式出现的，如yüan。转写时Chao要转写成Zhao，yüan要转写成yuan。但实际文本中送气符的使用较为混乱，经常会出现该用送气符的时候没有用，而不该使用送气符的时候却用了的情况①。撇号出现的第三种情况比较棘手，即（3）拼音字后接名词所有格的符号时，如Wang Hsüchous。理论上讲，任何音节后面都可以跟名词所有格，当然也包括声母p、t、k、ch、ts和tz。当所有格的撇号出现在这六个声母之后时就会和送气符相混淆②。如Wang Hsüchous转写结果应为Wang Xuzhous。实验中出现因送气符而产生的转写错误拼音字例有5例。

第二类：ü和u的处理。WG中ü和u的使用也较为混乱，实际语料中经常会出现该用u的时候用了ü，而该用ü的时候却用了u的情况，以后者居多（是不是因为输入时键盘上没有直接的ü的输入键的缘故？）。而PY中ü和u的情况也比较特殊，详见《汉语拼音方案》。实验中出现因ü和u混用而产生的转写错误拼音字例有2例。

第三类：译者的错误。这主要体现在译者本身的汉语发音水平上。译者在将中文音译为WG时尚无通用的普通话，而当时的北京官话还没有到现在的普通话这样普及的程度，因此，译者本身不可避免地带有自己的口音和方言，他在翻译作品中中国人名、地名时就会依据自己的口音来进行翻译。林语堂先生是福建人，因此在他的口音中有明显的闽方言的特征，如将“zhai（斋）”读成“zai（灾）”，将“bai（白）”读成“bo（伯）”等。因此在《浮生六记》中他将“李白”音译成“Li Po”，将“赵省斋”音译为“Chao Shengtsai”。那么， WG2PY在转写时就只能根据规则将“Li Po”转写成“Li Bo”，将“Chao Shengtsai”转写成“Zhao Shengzai”，造成了转写错误。实验中出现因译者口音而产生的转写错误拼音字例有21例。

五结语

由上述分析可见，WG2PY在进行WG转写时除了译者的口音因素之外，送气符时用时不用和ü、u的混用是造成转写错误的主要原因。据此提出了两点新的思路：（1）通过分析转写错误中译者的口音因素，可以进行译者的方言研究；（2）除去译者因素，软件的转写错误率只有7/235=3%，也就是说转写正确率可达97%。如此高的正确率一方面使我们对该转写系统抱有很大的应用期望，另一方面也促使我们尽快想办法消除这3%的错误率。

目前只是实现了WG到PY的自动转写，下一步工作是实现其他拉丁字母化拼音法如国语罗马字、拉丁化新文字等到汉语拼音的自动转写以及它们的一体化。同时，面向大数据的真实文本中WG拼音词的自动识别与提取也应成为后续研究的一大内容。

注释

① 事实上，送气符和隔音符的符号并不相同，前者为“‘”而后者为“”。但可能由于“‘”在计算机录入时需切换到全拼状态等原因，在正式印刷品中WG的送气符也用“”表示，所以造成了混乱。

② 查“汉字拼音字切字底表”中的420条音节，没有六个声母出现在音节末尾的情况。因此当音节以s结尾时，就判定其为名词所有格形式，只做切字而不做转写。

参考文献

[1] 吴鸿适.关于科学技术名词术语翻译规范化的问题[J].中国翻译，1998（3）：27-31.

[2] 吾云.台湾“拼音大战”的历史[N].北京晚报，2016-01-22（43）.

[3] 李宇明.中华文化迈向国际新步伐——写在中文罗马字母拼写法国际标准（ISO 7098：2015）修订出版之时[N].光明日报，2016-05-01（07）.

[4] 戴金旺.“拉丁字母”和“罗马字母”[J].科技术语研究，2006（1）：44-46.

[5] 周有光.21世纪的华语和华文[M].北京：三联书店，2002：1-3.

[6] [清]沈复.浮生六记[M].林语堂，译.北京：外语教学与研究出版社，1999.

[7] [英]威妥玛.语言自迩集——19世纪中期的北京话[M].张卫东，译.北京：北京大学出版社，2002.

中国科技术语

2016年6期

中文音译规范化的自动实现

杂志排行

中国科技术语的其它文章