机器翻译中的术语错译分析
2013-12-28罗季美
罗季美
(同济大学外国语学院,上海 200092)
引 言
随着计算机科学技术、语言学、逻辑学和信息学等相关学科的发展,在最近的三十多年中,机器翻译研究无论在理论方面还是工程实践方面都已经积累了丰富的经验,取得了显著的成就,尤其在对受限语言①[1]的处理上,机器翻译已达到了最高的5级适用级别和85%的可翻译度[2]。本文将以“汽车技术文献翻译语料库”为基础,对机器在这一受限语言范畴内表现出的术语翻译错误进行归纳、描述和分析,缩小这一限定语言内术语的范畴和词义,为翻译系统在原有基础上提高对这一受限语言范畴内的机器翻译质量提供语言分析基础。
一 研究的语料来源和方法
在受限语言内进行机器翻译也是计算机翻译诞生之初人们所限定的机器翻译的使用范围[3]。《机器翻译后译文编辑模式研究》②项目组选择了同济大学汽车学院“汽车技术文献翻译语料库”中某一知名品牌汽车操作手册这一受限语言语料作为研究对象,对十万句对的英语原语料、机器翻译译文和人工翻译译文进行了一句英语原文对应一句机器译文和一句人工译文的平行对比。其中机器译文由“华建机器翻译系统”(中国科学院计算机语言信息工程研究中心研发)生成获取,人工译文来源于同济大学汽车学院资料翻译研究所[4]。
笔者作为语料对比的参与者,在人工逐句对比的基础上,对机器翻译中的词汇、句法和符号等翻译错误进行了标注、统计。下文将对机器在词汇处理中的术语翻译错误做出归纳、描述和分析说明。
二 机器译文中的术语翻译错误
术语是各门学科的专门用语。《苏联大百科全书》定义术语是用来准确标示专门领域内的概念及其与其他概念关系的词或词组,是该领域内有代表性的事物、现象、其特征与关系的专业化的、加以限定的表述[5]。术语可以是词,也可以是词组;术语不同于语言中的普通词汇,具有专业性、科学性、单义性和系统性特征[6]。“在任何发达语言中,术语在词汇总量中所占的比重都远远高于普通词汇。”[5]这一点从《机器翻译后译文编辑模式研究》项目组对机器译文词汇翻译错误概率统计中已得到鲜明的反映。
1.机器译文中术语翻译错误的错译率
对本次语料对比的错译标注进行统计发现,在包括词性错译、连词错译、术语错译、缩略词错译、词汇替代错译、词汇漏译和词汇不译等七类词汇错译中,术语错译率以78.85%高居榜首,而6.45%的缩略词错译率也主要体现在术语缩略词的错误处理上[4]。两者相加意味着实际术语错译率高达85.3%。
术语的准确转换不仅是机器翻译有待解决的问题,事实上对非翻译材料所涉及专业的译员而言也一直是个瓶颈。术语问题之所以成为翻译的巨大障碍,主要原因还在于术语的单义性只是其在某一专业范围内的意义单一,而对同一客观事物或现象等,在不同的学科和日常生活中可能会用不同的词语表示,如“unlock”在一般用语中常译为“开锁”,而在汽车专业中则应译为“解锁”;“memory system”在心理学中可译为“记忆系统”,而在汽车专业中则应该译为“存储系统”;“terminal”在计算机领域指“终端”,而在汽车专业则固定译为“端子”。其次,由于非术语词的术语化正是术语创造的主要方式之一,术语与非术语的互相转化也为机器准确翻译增加了难度。而大量使用术语是科技文献的重要语言特征,本次汽车技术文献机器译文表现出的术语及缩略词翻译错误率也从另一侧面证实了这一点。
2.机器译文中术语翻译错误的主要表现形式
通过细致的译文对比,我们发现机器对术语的错误处理主要有以下三个表现:术语词义翻译错误涉及多种词性,术语缩略词翻译错误,在同一受限语言中机器对术语的处理无法保持一致性。下文将结合实例对这三类术语错译的表现形式加以描述和说明。
在下文所有例句句对中,英语为汽车操作手册的原英语语料,A句为机器译文,B句为人工译文。在所给例句中,每次只针对所述错误类型的单一翻译错误进行比较。因为语料本身的问题或采集时处理不当,或因为机器翻译系统本身的性能问题,所列句对中有些句子可能缺少标点、符号或存在文字漏译等现象。为了严格保持译文对比的客观性,下文所引用的例句都保持了语料原始样本。
1)涉及多种词性的术语词义翻译错误
在英语中一词多义是较为普遍的现象,译员只要对其所译内容具有相关基本知识储备,在翻译中一般都能准确理解;即使译员不具备相关基本知识,往往也会因其自身的谨慎态度去寻求专业人员的帮助。在机器翻译中对术语词义的准确把握却是一大难题,常常生成错误译文。这种错译在科技文本的机器翻译中表现得更为突出,在名词术语、形容词术语和动词术语的处理上都存在大量错译。
(1)名词术语翻译错误
① ACT+(B10-2)— Body ground
A:ACT+(B10-2)— 身体地
B:ACT+(B10-2)— 车身搭铁
②CHECK HARNESS AND CONNECTOR(ECU—ACTUATOR)
A:检查马具和连接器(ECU—激励器)
B:检查线束和连接器(ECU—执行器)
③CHECK TERMINAL VOLTAGE(TACH TERMINAL)
A:检查终端电压(TACH末端)
B:检查端子电压(TACH端子)
在①和②中,机器将“Body ground”“HARNESS”和“ACTUATOR”译为“身体地”“马具”和“激励器”,对比人工译文可以看到机器将汽车技术领域的专用术语误译为日常用语。在③中“TERMINAL”一词的机器译文使用了非汽车行业的术语词“终端”和“末端”。
(2)动词术语翻译错误
①TACH signals from the ECM remain interrupted for 1.3 seconds or more.
A:来自ECM的TACH信号保持打断1.3秒或更长。
B:来自 ECM的 TACH信号持续中断达1.3秒或更长时间。
②Disconnect the throttle body connector and clamp.
A:拆开节流阀身体连接器和压板。
B:断开节气门体连接器和卡夹。
③Uniformly loosen and remove the 6 bolts and 4 nuts.
A:均匀,6个螺栓和4颗螺母放松并且迁移了。
B:均匀地拧松并拆下6个螺栓和4个螺母。
用词准确严谨是科技英语的一个重要文体特征,在①和③的机器译文中,分别用“打断”和“放松”来解释“interrupted”和“loosen”,与人工译文选词“中断”和“拧松”相比,其选用的词汇口语性较强,缺乏科技术语的严谨和正式。在②和③的机器译文中选用了“拆开”和“迁移”来表示“disconnect”和“remove”之义,与人工译文选用的“断开”和“拆下”有明显的词义差别,会给译文读者造成对原文的误解。
(3)形容词术语翻译错误
①Models with Intelligent AFS:
A:有聪明的AFS的模型:
B:带智能AFS的车型:
②Reconnect the active control engine mount ECU connector.
A:再接通活跃的控制器ECU连接器山。
B:重新连接主动控制发动机支座 ECU连接器。
“Intelligent”在科技文章中与名词结合表示物体的智能特性已成为常用词,①中A句将其译为“聪明的”显然构成误译。②中机器译文将修饰“control engine”的“active”译为“活跃的”,这与 B句中“主动”对“control engine(控制发动机)”的描述具有性质上的差别。
2)术语缩略词翻译错误
为使文本更加简洁明了,科技英语中经常会使用术语缩略词。缩略词的构成方法不一,可以由多个单词的首字母组成,如“TLD”代表“tension limits detector(张力极限检测器)”,或由单词的前几个字母组成,如“POT”代表“potentiometer(电位计)”,或抽出单词中的关键字母组成,如“TCPL”或“T/C”代表“thermocouple(热电偶)”。 也有一些缩略词由不同的方法混合而成。无论缩略词以何种方式构成,使用缩略词的目的都是为了使表达更加简练,使人易记。但要准确翻译缩略词,必须正确理解其本来面目和词义。对缩略词的理解,除“radar”“aids”等一些常用缩略词外,读者通常必须将其还原回全称形式。要求机器自动还原缩略词以得到准确译文,可行而且比较有效的方法就是建立缩略词词典。译文比较也真实反映了在缺乏缩略词词典的状态下机器在缩略词翻译上的失败。
① If the CAN communication malfunctions, the ECU cannot receive the current data from the ECM.
A:如果罐头通讯故障,ECU不能从ECM得到当今的数据。
B:如果CAN通信有故障,ECU不能接收来自ECM的当前数据。
CAN是 Controller Area Network(控制器局域网)的首字母缩写,已成为汽车技术中的固定术语。“CAN”在日常用语中可以表示“罐头”之义。此处机器将其译为“罐头”,使得整句的译文质量大打折扣,让读者不知所云。
另有研究显示,吃熟食时血液和肠道中白细胞数量会出现暂时性增多,这可能与白细胞参与调动体内酶类消化食物有关,长期、单纯的食用熟食,导致免疫系统负荷增加,可能会降低机体的杀菌和免疫功能。
②Remove the hood hinge cover RH.
A:除去罩绞链盖住莱茵钢铁公司。
B:拆下发动机盖右侧铰链盖。
RH可以是“Rhinemetal Group”的缩写,因此在②A句中译成了莱茵钢铁公司,但这样的译文使整个句子不知所云。B句将RH译为右侧,因为RH也可以是“right hand”的缩写,人工译文因其对“RH”译文的准确把握使句子具有实际意义或可理解性。在本次语料中像“RH”这样出现频率较高的表示方位的缩略词术语还有“LH”(left hand)和“FR”(front)等。
3)术语翻译缺乏一致性
在科技文本的翻译中,保持术语的一致性是翻译的基本原则。而此次译文对比发现同一术语出现在不同的上下文中时,机器在翻译过程中却时常不能保持其一致性。
①Install the active control engine mount ECU with the nut.
A:用坚果安装活跃的控制器ECU山。
B:用螺母安装主动控制发动机支座ECU。
②Remove the 3 nuts and active control engine mount.
A:除去笨和活跃的控制器安装的这3个。
B:拆下3个螺母和主动控制发动机支座。
③Install the active control engine mount with the 3 nuts.
A:用3颗螺母安装活跃的控制器底座。
B:用3个螺母安装主动控制发动机支座。
在以上三个例句中,机器对“nut”做翻译处理时分别选择了“坚果”“笨”和“螺母”,而从三句人工译文中可以看到实际上“nut”在这些句子中的意义是一致的,都应译为“螺母”。
④INSTALL ENGINE MOUNTINGBRACKET FR
A:安装发动机骑在马上方括号FR
B:安装前发动机悬置支架
⑤Install the engine mounting bracket FR with the 4 bolts.
A:安装这台发动机爬上与这4个螺栓一起FR。
B:用4个螺栓安装前发动机悬置支架。
④和⑤中的“ENGINE MOUNTING BRACKET FR”和“the engine mounting bracket FR”属于词组类术语,在两句中意义一致,都表示“前发动机悬置支架”,但机器对同一术语的翻译完全丧失了保持术语一致性的原则。机器对同一技术文本中同一术语处理的随意性所造成的信息失真及给读者带来的阅读障碍是显而易见的。
三 结 语
大量使用术语是科技文体的一个重要特征,机器翻译在术语翻译上出现的近85.3%的错误率,不仅会给译文读者带来很多不便,有时甚至会导致科学研究工作的重大失误。术语翻译的错误也属于词的歧义问题之一。早在机器翻译初创期,韦弗(Weaver)就提出词的歧义问题可以通过具体的语境来解决[7]。语境提供了较充足的信息,在很大程度上可以保证词义分析的正确性。利用“汽车翻译语料库”中的译文语料进行机器译文和人工译文的对比,极大地缩小了这一限定语言内术语的范畴和词义,为建立汽车专业技术文件的术语词典提供了便利。考虑到术语翻译错误在十万句对机器译文中的错误率,汽车技术文件术语词典的创建应该是提高机器翻译系统对这一限定专业领域内文件处理能力的高效便捷途径。
注释
①受限语言指为克服语言的复杂性,语言学家和工程师对自然语言进行一定限制的语言的真子集。目前受控语言已发展至第三代,其多数产品属于面向机器的受控语言。
②李梅主持的教育部人文社科项目“机器翻译后译文编辑模式研究”(2007—2010年,项目号为07JA740010)。
[1]胡清平.机器翻译中的受控语言[J].中国科技翻译,2005(8):24-27.
[2]张政.计算机翻译研究[M].北京:清华大学出版社,2006:131-162.
[3]Hutchins W J, Somers H L.An Introduction to Machine Translation[M].San Diego: Academic Press, 1992:5.
[4]罗季美,李梅.机器翻译译文错误分析[J].中国翻译,2012(5):84-89.
[5]郑述谱.关于术语及术语学[J].外语学刊,2001(2):5-9.
[6]冯志伟.现代术语学引论[M].北京:语文出版社,1997.
[7]Weaver W.Translation [C]//Machine Translation of Languages.Locke W N&Booth A D.New York:John Wiley, 1955:15-27.