APP下载

基于GOOGLE神经网络汉英翻译的译后编辑研究
——以科技文本为例

2020-06-06董冬冬

关键词:汉英介词译者

蔡 强,董冬冬

江西理工大学外语外贸学院,江西 赣州 341000

引言

Google首创的神经网络机器翻译(Neural Machine Translation)是目前最优质的机器翻译模型。它以每一个句子作为独立的神经元,打破了基于短语的翻译障碍。2014年以来,用循环神经网络对语言向量进行编码解码,并且使用长短期记忆网络来增强长句翻译能力的神经机器翻译算法,开始在“跑分”上超越了统计机器翻译,随后二者差距开始拉开。2016年,神经网络体系开始全面部署在Google翻译当中。2017年,Facebook推出了效率更高的基于卷积神经网络的翻译模型,而后Google推出了完全基于注意力的翻译模型,成为目前最优质的神经网络翻译模型。

尽管机器翻译技术已经取得了很大进步,翻译效率大为提高,但其质量仍然无法与人工翻译相提并论。译后编辑就是以机器翻译为基础,根据特定的目的对机器翻译的原始产出进行加工与修改的过程。Allen将译后编辑描述为“迄今为止与机器翻译最为相关的任务”[1]。神经网络机器翻译针对某些较正式文本的翻译可达到百分之六七十甚至更高,但仍经常需要进行译后编辑。近年来,国内外对译后编辑不断开展研究,在译后编辑过程及产品评估、效率影响因素、工具开发与人才培养等方面产生了不少成果[2]。例如,2013年“第二届译后编辑技术与实践研讨会”对译后编辑的多个方面展开了研讨[3]。崔启亮就指出,机器翻译输出的译文错误主要来源于复杂句式的逻辑和结构错误,此外还有译文词义的选择错误、孤立的字词、句法结构转换错误、错误的形态等[4]。目前,对于Google首创神经网络机器翻译后的译后编辑研究,国内外研究相对较少。总体来说,以机器翻译为基础的译后编辑仍属新生事物,其理论、方法和规律仍需要进一步深入探索。

1 Google神经网络汉英翻译错误类型

本研究以语言表达平实、结构较为规范的科技文本为基础,选取了200篇来自江西理工大学优势学科有色金属方面的SCI、EI科技论文(2015—2017)的中文摘要进行Google汉英机器翻译,将该译文与原英文摘要进行比较研究,归纳分析Google神经网络翻译的错误类型信息及相应的译后编辑策略。笔者参考了罗季美[5]、崔启亮[6]以及冯全功[7-8]等学者之前的相关研究成果,首先将机器译文中出现的所有错误进行分门别类,大类下面再分小类,最终确定了Google神经网络汉英机器译文错误类型(表1)。

如表1所示,Google汉英机器翻译中出现的一级错误分成“词汇”“句法”“逻辑”和“其他”4大类。其中在词汇类型下有名词错译、冠词错用、词汇漏译、介词错用、动词误选5个二级错误子类;在“句法”类型下有时态错用、结构错误、主谓一致错误、被动使用错误4个二级错误子类;“逻辑”方面主要体现在逻辑缺失;“其他”方面则是标点符号的错误。

表1 汉英机器译文错误分类Categories of MT Errors(C-E)

图1是Google神经网络汉英翻译四类一级错误类型出现的数量与比率。根据统计,在200篇摘要译文中,出现错误共计752处,其中:词汇错误479处,占错误总数的64%;句法错误154处,占总数的20%;逻辑错误85处,占总数的11%;其他错误34处,占总数的5%。图1明确显示:这4类错误按词汇、句法、逻辑和其他依次递减。因此,译者在对机器翻译结果进行译后编辑的时候,应该做到有所侧重,将关注的重点放在排前的那些错误类型上,对其做出恰当调整。然而,针对大类错误类型的二级错误子类,仍有必要进一步详细分析更多译例,掌握错误出现的规律并采取相应的编辑措施。

图1 Google神经网络汉英翻译错误类型的数量与比率

2 错误译例分析与译后编辑应对措施

2.1 词汇类错误与译后编辑措施

如上所述,Google神经网络汉英翻译词汇类错误在所考察样本中出现的数量最多,在所有错误中占比高达64%。它们分别是名词错译、冠词错用、词汇漏译、介词错用和动词误选这5个方面。因此,在面对机器汉英翻译的译本时,译者首先要密切关注词汇的使用。

2.1.1 名词错译

在分析中我们发现名词错译主要在于专有名词(术语)错译和普通名词错译。有色金属相关论文中有不少该领域特有的术语名词,Google机器翻译把握不好其词义,造成误译。例如:“返回检测”被误译成“the return test”,正确的译文应该是“backtest”;“指数加权法”被误译成“index weighting method”,正确的翻译是“Exponentially Weighted Moving Average”。普通名词的错译则是因为机器区分不了同义词。例如“功效”被误译成“power”,而正确的翻译应该是“effectiveness”,原因在于power表示“力量”和“能力”,却没有effectiveness的“效果”之意;“评判依据”被机器翻成“the basis for judging”,正确译文则是“evaluation basis”,因为judge是更偏向于判断,而evaluate有“评估”的含义。总体而言,英语是静态语言,英语文本中名词数量多,作用重要。名词的正确使用,直接关系到文本能否达意,对于科技文本更是涉及其准确性,否则很可能导致阴差阳错,甚至失之毫厘、谬以千里。译者在译后编辑处理机器翻译的名词时,对于原文中的普通名词,需要比对多个可能用上的词汇,准确界定它们词义的内涵与外延,最后做出判断与选择。对于专有名词,译者则需要去查询专业的数据库(术语库)进行确认,以防止错误产生。

2.1.2 冠词错用

汉英翻译中经常出现冠词错用的问题,Google机器译文中也如此,尤其会在完全不需要的时候加上定冠词。例如“浸出周期”被机器译成“the leaching cycle”,在这里,leaching充当了前置定语的作用,但没有特指哪一过程,不需要定冠词the。同样,“浸出率”正确的译文应该是“leaching rate”,而不是Google机器翻译的“the leaching rate”。另外,也存在一些不定冠词错用的情况,例如“在99% 的置信度下”机器错误译为“with 99% confidence level”,因为后面的中心词是可数名词,前面需要冠词来做限定词,这里是泛指,所以应在99%前面加上“a”。这一翻译例子体现出冠词的缺失以及名词的错误组合问题。冠词在英汉互译中地位特殊,因为中文中并不存在冠词一说。鉴于Google机器译文中定冠词滥用的情况最为常见,译者在进行译后编辑的过程中需要更多地注意定冠词的使用,依据上下文判断此处名词是否是特指,或者是上文中曾提及,考虑是否要删去定冠词。而对于不定冠词的错译,一般出现在“不定冠词+形容词/百分比+名词”的结构中,译者要注意这一结构中不定冠词必不可少。

2.1.3 词汇漏译

Google汉英翻译的文本中存在不少词汇漏译问题。例如,市场价格“出现大幅跌涨”,机器翻译成了“market falls sharply”,只译出了“跌”,而漏译了“涨”,正确译文应该是“a sharp fall or rise in commodity prices”;“技术升级改造”被误译成“the technological upgrading”,并没有将“改造”翻译出来,属于漏译,可以将“升级”和“改造”两个动词名词化,将其译为“technology upgrades and renovation”。翻译中存在两种情况——省略和强调,而当原文中的两个词的意思并不相同或者不相近的情况下译者对其进行了省略处理,则会造成词汇的漏译。在翻译两个词义相对或并列的词汇时,Google机器汉英翻译也是经常省略这类词汇的后一部分,将其漏译,导致意思不完整。因此,在译后编辑时,译者要特别注意这种情况,按照实际情况将机器省略或漏译的部分补充译出。

2.1.4 介词错用

英语中多用名词来表示中文中的动作,而名词与名词之间需要通过介词来连接,因此介词的显化在汉译英的过程中很常见。“介词+名词”结构中,介词后面跟的名词做宾语,涉及到名词与介词固定搭配的情况。英语中介词种类繁多,且有很多相似的用法,Google汉英译本中存在不少介词选择、搭配方面的错用情况。例如在“通过对各国各项指标对比赋值”中对“通过”的翻译,Google机器译文为through,其实此“通过”并不是真正意义上的“通过某地”,所以用by会更合适。另外,对于“在……中的应用”的翻译,应将机器译文中的“The application of the above method to”中的to改为in,因为in指的是“在……方面”。介词属于虚词的范畴,不同的介词与同一动词连用也会有不同的含义,更不用说数量众多的“介词+名词”固定搭配了。译者在进行译后编辑时,可以在语料库中检索具体动词、介词与名词,将多个语料库中的例句与翻译实例进行比对,做出辨析,也可以去电子词典中查看更多双语例句,以帮助进一步判断。

2.1.5 动词误选

以动词的选用,特别是同义词辨析,对于人工翻译来说都非易事,对于机器翻译更是一大挑战。Google机器译文中动词错选的出现频率也很高。例如,对于“阐述”这一动词,机器经常翻译成expound或elaborate,其实两者都有“详细说明”之意,但elaborate更多地用于专业文章,因此在科技摘要的翻译中应该选用该词。有些动词有其特定的使用语域,不少动词含有褒贬义色彩,不同的动词与名词搭配形成的语义韵也不同。动词的选择和名词的选择一样,对于译文的准确起着重要作用,因此,译者在译后编辑的过程中需要注意动词的同义词辨析及其搭配。具体做法可以通过检索大型的英语语料库,如BNC、COCA等快速获得大量具体动词的使用语域、搭配与语义韵的信息,快速做出判断。此外,在线的语料检索平台Sketch Engine则可以提供更加直观的词语描述和搭配信息,对于动词的选用也是帮助良多。

2.2 句法类错误与译后编辑措施

根据统计,句法出现错误的数量仅次于词汇,占本次译文错误总数的20%。中英两种语言的表达方式存在很大区别,在句法结构上表现明显。英语对句法结构的要求更高,机器汉英译文常常受到中文语序影响,加上一些习惯性表达方式存在差异,导致不少的句法错误,体现在时态错用、结构错误、主谓一致错误和被动语态使用错误4个方面。

2.2.1 时态错用

Google机器汉英翻译中时态错用的频率不高,主要是完成时有过多使用情况。原本只需要用一般过去时就可以表达完全的句子,机器翻译会译成现在完成时或过去完成时,译者需要予以纠正。此外,译者需要注意,在表达现实、事实时只需用一般现在时即可。

2.2.2 结构错误

英语对结构的要求极高,而汉语句子结构相对松散。针对Google汉英机器翻译译文中的结构问题,译者首先要厘清汉语原文的句子结构,抓住句子表达的主旨,由此确定英语的主干结构,之后再将机器译文中的各部分位置按照英语的语法和习惯进行调整。

例1.原文:研究煅烧预处理温度对嗜酸氧化亚铁硫杆菌浸出废旧手机板中多种有色金属的影响。

Google译文:The effect of calcination pretreatment temperature on the leaching of many non-ferrous metals from discarded phone boards with Thiobacillus Acidithiobacillus.

Google翻译出来的这句译文无疑存在语法结构错误。因为汉语原文的谓语动词是“研究”,其对象是“影响”,但是译文中并没有翻译出谓语,只剩下一个表示“某方面影响”的名词短语,原文的信息大量缺失。对其进行译后编辑,可在原译文后面补上“were investigated”,运用被动语态结构将其信息补充完整。

例2.原文:它们作为定量化的决策分析工具,不仅能够为企业技术升级改造提供可行的建议和措施,还能为行业宏观节能减排目标的实现程度提供评判依据。

Google译文:As a quantitative decision analysis tool,they can not only provide feasible suggestions and measures for the technological upgrading of enterprises,but also provide the basis for judging the achievement of the objective of macro energy saving and emission reduction in the industry.

汉语原文中“它们作为定量化的决策分析工具”,其实就是全句的主语,并不需要按照原文语序译成“As a quantitative decision analysis tool,they can···”,而直接译成“These two quantitative decision analysis tools can···”则更加紧凑。原句后面的“不仅能够为......提供可行的建议和措施,还能为......提供评判依据”,两个部分可以用同一个动词“provide”来连接,所以not only的位置应该置于provide后面,后一句为了避免重复,直接在but also后接上evaluation basis for··· 即可。这样的结构调整,不仅使句式简洁、紧凑,而且更加符合英文的表达习惯。

2.2.3 主谓一致问题

主谓一致错误在Google汉英翻译译文中很常见,具体体现在主语是第三人称单数,谓语动词没有做出相应的变化。

例如:低温煅烧预处理不仅缩短了浸出周期,还提高了部分有色金属的浸出率。

Google译文:Low temperature calcination pretreatment not only shorten the leaching cycle,but also improve the leaching rate of some non-ferrous metals.

可以看出:主语“低温煅烧预处理”(“Low temperature calcination pretreatment”)是单数名词,其相对应的谓语动词都要用单数形式,shorten和improve后应该加上“s”。

2.2.4 被动语态使用

英语科技文本的一大特点在于其被动语态的高频率使用,但与之形成鲜明对照,汉语中被动句的数量却很少,反而经常出现省略主语的主动句。机器翻译往往更多地按照汉语原文的语序进行转换,违背英语的表达习惯。

例如:以铝、镁、铜、铅、锌等为例,对上述方法在典型有色金属生产中的应用进行了总结和分析,并对其在有色金属工业节能减排中的进一步研究予以讨论和展望。

Google译文:The application of the above method to typical non-ferrous metals production is given by taking aluminum,magnesium,copper,lead and zinc as examples Summarized and analyzed,and discussed and predicted its further research in energy saving and emission reduction of non-ferrous metal industry.

原文的基本结构是一个并列句,由于前后分句句子完整,且单词不少,这种情况下可以分开进行翻译。“对……的进一步研究予以讨论和展望”可以转化为“……的进一步研究被讨论和展望”。这类句子不需要明确主语,可以使用被动语态来凸显动作的对象,同时也符合科技英语的表达习惯。所以,该句可译成:

“The application of these methods in typical nonferrous metals production,such as aluminum,magnesium,copper,lead and zinc,is summarized and analyzed.Further researches of energy saving and emissions reduction in the non-ferrous metals industry are discussed and prospected.”

对于机器翻译的句法错误,译后编辑首先要关注机器译文的句法结构,先找准句子的主干,将各部分的关系理顺,同时观察考虑句子的语态选择,必要的时候,可以对机器译文的语序进行大幅度调整。在句式结构没有问题的情况下,再来看主谓一致和时态选择。总之,译者要兼顾到语法和英语表达习惯,确保句意表达准确、通畅。

2.3 逻辑类错误与译后编辑措施

逻辑错误在汉英翻译错误类型中比较特别。汉语文本中的逻辑关系经常习惯性隐去,而英语却是一门“重形合”的语言,逻辑关系更加明显。根据统计,逻辑错误在本次Google机器译文错误中占比11%,其中最常见的问题就是逻辑缺失。针对逻辑缺失,译者只需在译后编辑时将原文中的逻辑关系显化,通过调整句子结构或添加一些关联词,让其中的逻辑关系变得清晰,从而让译文更加连贯、紧凑。

例:通过构建平滑机制转移空间面板模型探讨了在国际市场冲击下国内25个区域性有色金属市场的波动效应。

Google译文:By building a smooth mechanism to transfer the spatial panel model,the paper studies the volatility effect of 25 regional non-ferrous metals markets under the impact of the international market.

原英文摘要:This paper constructs an endogenous structural break smooth transfer auto regressive spatial panel model and analyzes prices panel data from 25 local non-ferrous metal markets.

在汉语原文中,前面是一个方式状语,主语并没有写出来。机器译文直接按照原文语序进行翻译,它在后面将主语“the paper”显化出来,这个译文已经不错。但如果比较原英文摘要的对应译文,则两个译文水平高下立判。原英文摘要的对应译文直接将句中的方式状语转化为一个动词结构,将其与原来的主句构成并列的成分,将论文研究者既“构建”又“探讨”的逻辑关系展示得清楚明白,能够帮助读者快速、准确地捕捉到论文研究的内容,同时也符合了在此语境下英文“开门见山”的表达习惯。

2.4 其他错误与译后编辑措施

其他错误主要体现在标点符号误用方面,其出现频率较低,占比5%。标点符号错误与句法错误相关,由于不少机器译文直接按照原文语序翻译而成,经常导致句子结构不正确,出现标点符号错误。比如,原文由很多短句构成,则机器译文也往往受到中文原文的影响,甚至一直逗号用到底。所以,针对标点符号错误,译者可以不用专门去进行修改,只需在完成其他三类错误的译后编辑之后进行最后的核对即可。

例如:在利用返回检验对实证结果的功效进行比较研究的基础之上,得出结论:从对ES和VaR的检验结果比较而言,当有色金属期货市场价格出现大幅跌涨时,ES比VaR更能准确地度量市场风险。

Google译文:Based on the comparison of the effectiveness of the empirical results with the return test,we draw the conclusion that compared with the test results of ES and VaR,when the price of non-ferrous metals futures market falls sharply,ES is better than VaR accurate measurement of market risk;

原英文摘要:We adopted backtest to evaluate the power of each method.Our findings indicate that ES is better than VaR in evaluating market risks when there is a sharp fall or rise in commodity prices.

针对以上汉语原文,原英文摘要的译文要比Google译文句意更加清晰,结构更加清晰,标点符号调整的作用明显。本例中,按照英语习惯把时间状语从句“当有色金属期货市场价格出现大幅跌涨时”从主句之前调到了主句之后。另外,Google译文完全按原文语序翻译,前面都是逗号,直到句尾才使用了一个句号。原英文摘要的译文将句子结构进行了拆分重组,将机器译文中的一个句号变成了两个句号,达到了更好的效果。

3 结语

当前,机器翻译发展迅速,尤其是Google公司首创的神经网络机器翻译在多家翻译平台不断得到开发并广泛应用,很大程度上节省了翻译的时间和成本,基于机器翻译译本进行的译后编辑则能大幅度提高译文的质量。本研究选取科技文本摘要进行汉英机器翻译,通过人工分析并比对其原英文摘要,得出了Google神经网络汉英翻译的4种错误类型及其频数分布特点。针对4大类错误类型的二级错误子类,在详细分析更多译例基础上,本研究提出了具体的调整应对措施。以上研究成果对于利用神经网络机器翻译进行译后编辑和汉英翻译实践可以提供一定参考,有益于提高汉英翻译工作效率。不足之处在于本研究所选取的分析样本偏少,相关数据和译例存在一定的局限性。

猜你喜欢

汉英介词译者
介词和介词短语
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
论新闻翻译中的译者主体性
介词不能这样用
英文摘要
英文摘要
英文摘要
汉英中型语文词典义项精细度对比研究
汉英武术词典需求分析——基于新媒体的调查报告
在翻译实践中探讨汉英翻译理论和技巧