从主流机器翻译软件工作原理角度探究机器翻译的优缺点
——以对比百度翻译与人工翻译译文为例
2021-12-29白一博
白一博
(北京外国语大学 英语学院,北京 100089)
在人类发展史中,科学技术的作用是无与伦比的。马克思主义生产力学说明确指出,科学技术是第一生产力[1]。在当前的翻译行业中,机器翻译的蓬勃发展深刻改变了我们目前的翻译方式。作为人工翻译的替代品,机器翻译软件在许多翻译实践中都发挥着重要作用,大大提升了翻译工作的效率。
机器翻译,又称计算机翻译,是指利用计算机将一种语言符号转换成另一种语言符号。机器翻译这一概念起源于20世纪30年代,在近一个世纪的发展过程中主要经历了四个发展阶段:基于规则的机器翻译、基于统计的机器翻译、基于实例的机器翻译和基于不同方法应用的机器翻译[2]。而在目前的基于不同方法应用的机器翻译阶段,机器翻译软件和工具可以分析前三种翻译方式的优缺点,之后综合运用多种方式对文本进行翻译。
机器翻译领域的一大特征是与新兴科技的紧密结合。例如,许多机器翻译软件可以利用互联网,获取相关的语言资源实现在线同步翻译[3];云计算、机器学习、大数据等技术在提升机器翻译质量的同时,也整合了翻译市场、人才、数据等资源,逐渐实现了“语言服务的规模化和全球化”[3]。
一、语料的选取和翻译软件的选择
为了探讨机器翻译与人工翻译的优劣,本人作了以下语料的对比研究。
(一)语料选取
选用作者于2019年翻译的文章《When the American “Bull” Breaks into the china shop of “16+1 Cooperation”》(1)https://china-cee.eu/wp-content/uploads/2019/04/Working_paper-201902-Feng-Zhongping-Chen-Xin-Xu-Gang.pdf.作为例文(当时作者为北外英语学院翻译系大四学生)。选用这篇文章的原因有三点:第一,本文原文《当美国“大象”闯入“16+1合作”的“瓷器店”》刊载于2019年第六期的《世界知识》中,因此原文质量是有保证的。第二,这篇译文发表于中国-中东欧研究院官网,因此译文质量也是有保证的。第三,作者在翻译原文时在读大四,北京外国语大学(北外)是教育部直属、首批“211工程”高校、“985”优势学科创新平台高校、首批“双一流”建设高校(2)https://www.bfsu.edu.cn/overview.。自20世纪50年代开始就开始开设翻译课程,并分别于1993年和2001年开始设置本科阶段的笔译和口译方向。2007年在英语学院下设翻译系,开始在全国范围内招收翻译专业本科生[4]。英语学院翻译系的课程设置包括四个方面,即“外语技能、母语修养、翻译实践和学科素养”[4]。翻译专业课程基本都设置在本科前三年,因此,这段时间的译文较能体现翻译系本科学生的翻译水平。
(二)百度翻译
百度翻译是百度公司于2011年6月推出的基于互联网大数据的机器翻译系统。它支持包括汉语、英语、日语、德语等200多个语言互译,是国内市场份额第一的翻译类产品。除了使用量最大的百度翻译网页版,它还拥有APP,小程序等多种产品形态,可以为用户提供文档、网页、图片、拍照、语音等多模态的翻译功能。除了机器翻译功能,百度翻译还可以提供离线的牛津和科林斯词典,方便客户查阅单词(3)https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E7%BF%BB%E8%AF%91.。
百度翻译属于人工神经网络系统,通过拥有海量结点的深度神经网络,使计算机先自动学习语料库中的翻译知识,再自动理解语言和生成译文[3]。
本文选择网页版的百度翻译来测评机器翻译软件的汉译英译文质量。原因有三点:第一,百度翻译在国内所占的市场份额最大,拥有较大的客户群体,说明其经过了多次实践检验。第二,网页版无需下载,且翻译文本的功能和其他版本相同,使用较为便捷。第三,作者在翻译实践中曾使用过不同的机器翻译软件,百度翻译给作者的体验最好。
二、译文质量对比
(一)质量评判标准
从上文的选择材料理由可知,本文的人工翻译译文质量是具有一定保证的,因此,在此次对比分析中,笔者以人工翻译译文为基准,从内容是否完整正确、逻辑是否流畅和语言是否规范三个角度来进行质量对比。
(二)实例对比分析
此部分的ST为原文,TT为人工翻译译文,MTTT为百度翻译译文。
【ST1】当美国“大象”闯入“16+1合作”的“瓷器店”
【TT1】When the American “Bull” Breaks into the china shop of “16+1 Cooperation”
【MTTT1】When American “elephant” breaks into “16 + 1 cooperation” porcelain shop
我们可以看出,百度翻译对原文的处理过于直译,而且没有识别出“大象闯入瓷器店”这里的文化内涵。这一短语起源是1816年阿美士德(Amherst)奉命出使中国,代表英国政府与清政府进行贸易洽谈,但最终因叩头行礼问题未能达成贸易约定。英国媒体于是创作了一篇名为A Bull in a China Shop的漫画,讽刺阿美士德把出访搞得一团糟。此处的“Bull”既指粗鲁的公牛,又指英国(约翰牛是英国的形象化、人格化代表),而“China”既指易碎的瓷器,又指中国。后来,这句短语被用来形容举止粗鲁,搞砸一切的人。
显然,百度翻译在此处未能识别原文的文化意向,译文出现了偏差。其原因是,人工神经网络并未能识别出此处“大象”与英文“bull”意象的对等关系。在人工神经网络在语料库学习过程中,也鲜见“美国‘大象’”或“American bull”的搭配,因为正如上文所言,俚语“bull”所指的是英国。可见,人工神经网络在此处的学习和处理存在不足。
【ST2】我刊邀请了三位专家就此进行了交流与讨论。(4)这一句在《世界知识》上刊载的原文是没有的,但客户给译者的原文中确实包含这一句。
【TT2】We invited three experts to discuss and exchange ideas on this issue.
【MTTT2】We invited three experts to exchange views on this issue.
原文中的“交流与讨论”其实是中文中的习惯搭配,表达的意思就是交换意见。我们可以看到此处人工翻译和百度翻译都把握了原句含义,但不同的是,百度翻译更加简洁,因为“exchange views”就包含了”discuss”的过程,所以此处笔者认为百度翻译更胜一筹。笔者猜测,百度翻译在这一部分更加出色的原因是:这句话在很多采访或新闻稿中频繁出现,因此具有大量的双语语料对照,而百度翻译的产品介绍也指出,软件会先学习语料库,之后再匹配对照给出译文。而人工翻译查阅对照语料库的能力则是相对较弱的。
【ST3】从蓬佩奥的行程安排和种种表态来看,美国“重返”中东欧的意图是很明显的
【TT3】We could tell from Pompeo’s visiting schedule and opinions that the US has an obvious
intention to“back” to Central and Eastern Europe
【MTTT3】 Judging from pompeo’s itinerary and various statements,the intention of the United States to “return” to central and Eastern Europe is obvious
通过语法分析我们可以看到,百度翻译的译文出现了主语和伴随状语主语不一致的情况,“the intention”并不是“judging from”的主语,因此在语言和逻辑方面是较为混乱的,但意思的传达方面整体还是清楚的。作者推测,百度翻译在这一例中出现语法错误的原因和上一例中翻译出色的原因其实是一致的,都是基于对语料库的分析给出的译文,但这一句的问题就出在了关系从句和主句之间的逗号上。笔者认为,百度翻译的句段划分是以标点符号为界,逗号分隔开的两个小句也会被处理成两个句段,之后分别在语料库中进行分析处理,这就引发了语法错误。为了验证这一猜想,译者将原文逗号删去,重新使用百度翻译,此次的结果为“Judging from pompeo's itinerary and various statements,it is obvious that the United States intends to ‘return’ to central and Eastern Europe”。虽然这一结果的逻辑主语仍是错误的,但我们可以看到后半句采用了形式主语,这和保留逗号时给出的译文结构是有明显差异的,所以作者认为上文的猜想是部分正确的。现在几乎可以确定百度翻译以逗号为句段的最小拆分符号,但此句机器翻译错误的根本原因还是在于不能像人工一样确定“judging from”的主语,因为原文中这个逻辑主语是省略掉的。
【ST4】2月17日为科索沃单方面宣布独立纪念日
【TT4】Kosovo unilaterally announced February 17th as its Independence Day
【MTTT4】February 17 is the anniversary of Kosovo’s unilateral declaration of independence
这一句话的人工翻译和百度翻译译文在逻辑和表达方面都是通顺的,唯一的区别为传递的内容有细微的差别。作者初译这段文章时,给出的译文和百度翻译译文是几乎一致的,但后来经过查证相关资料和独立思考后将译文改成了TT4的形式。改动的原因是,作者敏锐地意识到科索沃是一个主权存在争议的地区。塞尔维亚认为科索沃是其境内一个高度自治的自治区,但科索沃却宣称自己是一个独立的国家。两方在国际上都有许多的支持者,而中国政府的立场是支持塞尔维亚对科索沃地区享有主权,因此在翻译这句的时候需要格外注意政治立场的问题。虽然原文提到了“单方面宣布”,但百度翻译译文中的“unilateral declaration of independence”会给读者带来一种既成事实的感觉,这其实是不符合中方立场的。因此,作者经过分析资料以及询问相关领域研究人员后,决定将译文改成TT4的形式,只表明2月17日是其所谓的“Independence Day”,但丝毫不涉及科索沃是否是独立的国家。综上,百度翻译此处对原文的把握是没有问题的,但是却反应了机器翻译无法考虑政治立场、意识形态对语言表达的影响,在这一点上人工翻译是要远远优于机器翻译的。
【ST5】美国承诺,若马其顿方面做出让步,将尽快帮助其实现入约
【TT5】 The US promised to help Macedonia join the NATO as soon as possible if it made concessions
【MTTT5】The United States promised that if the Macedonian side made concessions,it would help it implement the treaty as soon as possible
这一句话里存在着一个缩写,“入约”是加入北约的简称。因此,在翻译这段话的时候,只有意识到这个问题才能做到准确地传达内容。从两篇译文中我们可以看到,人工翻译可以联系上下文从而判断出这里“入约”的真实含义,并阐明“join the NATO”的实际内容。而机器翻译也准确把握了“入约”中暗含的条约信息,并准确表达出了这一点,从这个角度来看,机器翻译是比较成功的。但可惜的是,机器翻译未能进一步联系上下文分析出这里的条约指的就是北约。结合MTTT2来看,机器翻译在将译文联系语料库方面是非常出色的,但机器翻译却不能很好地联系上下文,作者认为,这是机器翻译缺乏逻辑分析能力的体现。
【ST6】我们知道,冷战时期欧洲分为西欧和东欧,这些概念有很强的政治色彩。
【TT6】It is widely acknowledged that,the division of Europe into Eastern and Western Europe in the Cold War was very political.
【MTTT6】We know that during the cold war,Europe was divided into Western Europe and Eastern Europe,and these concepts had a strong political color.
作者认为,这句话暴露了机器翻译的两个不足之处。首先,百度翻译给出的译文过于直译,“政治色彩”其实是在突出上文“西欧”和“东欧”并非是按照地理因素来划分的,而是纯粹出于政治考虑,基于不同的意识形态做出的划分,因此,“色彩”这一词语其实是没有实际意义的,翻译出来“political”即可。第二,这一段翻译还暴露出了机器翻译在句段整合方面还有待提高。原文中的“这些概念”实际就是指代的上文中“西欧”和“东欧”,因此完全可以处理成先行词的形式,将两句话合并为一个主句加从句的英文表达形式。
纵观百度翻译的译文可以发现,机器翻译给出的定语从句是较少的,而且在表达方面也并不理想。但其他从句的效果,比如条件状语从句,还是可圈可点的。单从逻辑上来看,MTTT5对状语从句的把握是非常成功的。我们不禁会问,为什么机器翻译处理不同从句的效果差别如此显著呢?作者猜测,这与英汉表达习惯有关。前文提到了机器翻译会根据标点符号来划分句段,这其实就会打乱各个小句之间的逻辑联系。而中文的条件状语从句是有逻辑结构连接的,比如ST5中的“若……将……”结构,机器翻译在识别到这个信息后,就会自然采用从句形式;但中文中缺乏定语从句,尽管某些短句可以发挥定语从句的作用,但没有明确的先行词和关系代词,所以,机器翻译系统无法意识到某处可以使用定语从句来连接两个短句。
【ST7】由于地理上不接壤,也不存在历史遗留问题,且与中国有着传统交往和友谊,中东欧国家总体对华友好,积极参与“16+1合作”和“一带一路”建设。
【TT7】Central and Eastern European countries are generally friendly to China and actively participate in the "16+1 Cooperation " and "the Belt and Road Initiative ",for we are geographically far and have no problems left by history and they have traditional friendship with China.
【MTTT7】China is one belt,one road and the other is the “16+1 cooperation” and “one belt and one road” construction.
我们可以看到,MTTT7在内容,逻辑和表达方面都与原文大相径庭,错得十分离谱。但仔细阅读ST7就会发现,这句话其实包含了前文提到过的许多翻译难点(针对机器翻译而言):逗号将句子拆分为许多句段、主语缺失、虽然有逻辑结构,但较为松散……作者认为,百度翻译对这句话的翻译情况一定程度上印证了上文作者详述的猜想。
(三)分析总结
内容方面,除了个别极端情况,百度翻译译文可以和北外翻译系大四学生一样,完整传达原文内容,不会漏掉重要信息,但不能分析出原文所蕴含的文化和意识形态色彩,不能体现翻译客户想要凸显的特定立场。逻辑方面,百度翻译可以较为准确地翻译出有明显逻辑结构的句子,但如果句子之间逻辑关系是隐藏的或逻辑结构较长,则翻译结果就明显不如北外翻译系大四学生。表达方面,在逻辑通顺的情况下,百度翻译的英文表达还是十分流畅的,和学生不分高下,在某些常用的固定表达方面,百度翻译的表达比学生的表达更加简洁明了,可见其在利用语料库方面具有重大优势。
三、结语
机器翻译可以极大提升译者的翻译速度,但其缺点也是相当明显的。想要充分发挥机器翻译的优点,同时尽力避免机器翻译的不足之处,就必须通过比较机器翻译和人工翻译,从机器翻译工作原理的角度剖析译文的不同,使不同翻译方式各展所长,绝不能脱离翻译实践空谈机器翻译的特性,因为一切翻译工具最终都是要经过实践的检验。
由于篇幅和精力所限,作者只分析了七个具有代表性的译例,没有做到全文对照分析,但作者认为分析部分的逻辑对该领域的研究还是具有价值的。作者将机器翻译的错误译文和其工作原理相结合,做出合理推断,总结机器翻译出现错误的原因,整个分析过程具有可借鉴性。但翻译作为一个交叉学科,其机器(机辅)翻译领域与计算机专业具有高度重合性,因此未来研究者可以从计算机专业角度来分析本文中提出的猜想是否合理,并且通过修改代码让机器翻译更加智能。我们要充分发挥主观能动性,做科技的主人,不断改进机器翻译工作方式,提升其译文质量,并积极开辟新的翻译实践模式。