机器翻译过程中词汇层面的译前编辑方法
2021-03-14樊飞飞
陈 蓉,樊飞飞,王 晓
(西安邮电大学 人文与外国语学院,陕西 西安 710121)
机器翻译是指无需人工翻译,借助机器将源语言翻译成目标语言。早期机器翻译基于规则与统计模型,随着人工智能的发展,基于深度学习的神经网络机器翻译开始有了突破性的进展,提高机器翻译的质量成为数字经济时代迫切的需求。
国外研究方面,提出了在使用机器翻译前对源文本进行译前编辑的想法,并总结出简化写作的十条规则[1],但其中的大部分建议是基于句子层面的考虑。对研究英语新闻标题的机器翻译,提出可在机器翻译系统中添加译前编辑模块。将英语新闻标题自动改写成普通文本后再进行机器翻译,以提高翻译质量[2],但这一过程的译前编辑主要是对文本进行改写,操作较为复杂。文献[3]提出以人工评估方法发现翻译错误,创建自动的译前编辑模式。文献[4]对基于日语和英语的机器翻译译前编辑系统进行了研究。此外,还从行业和学术研究的角度描述了源文本机器翻译的译前编辑和译后编辑[5]。上述研究虽然就译前编辑做了一些探讨,但是都没有提出较为具体和可行的译前编辑方法。
相比之下,国内研究更注重译前编辑策略的研究。文献[6]以真实的项目案例,结合理论分析了人工干预对机器翻译的重要性,总结出人机共译可以提高翻译效率和质量,通过案例分析了译前编辑策略[7-10]。以上研究都认为译前编辑对提升译文质量有帮助,但其案例分析样本有局限性,并且多采用主观分析对译文效果进行评价。
传统的机器翻译在设计模型时通常根据语言学知识进行架构,而端到端的神经机器翻译,其内部全部使用向量表示,从语言学的角度看可解释性较差。因此,在设计新结构时融入语言学知识成为新的问题。针对机器翻译过程中译前编辑的有效性缺乏客观评价,译前编辑策略与方法的研究较为笼统等问题,拟提出基于词汇层面的译前编辑方法。采用双语评估替换方法(Bilingual Evaluation Understudy,BLEU)对基于词汇层面的译前编辑效果进行质量评估。以Google在线翻译为工具,通过BLEU对原始的机器翻译译文与译前编辑后的机器翻译译文进行比较,从而验证译前编辑方法的有效性。
1 问题描述
随着神经网络与人工智能的飞速发展,机器翻译的译文质量得到提高,翻译速度和效率远超传统的人工翻译。在充分利用文本特征,借助人工干预,并用客观有效的设计提高译文质量方面,人工智能和深度学习为实现这一目标提供了切实可行的思路。
1.1 机器翻译
利用机器进行翻译的想法最早出现于20世纪30年代早期,受当时技术发展水平和条件限制,翻译机器未能被成功开发。1949年,美国科学家韦弗正式提出机器翻译的思想[11]。2013年提出了机器翻译的“解码-编码框架”[12],其以递归神经网络作为解码器,卷积神经网络作为编码器。先将源语言映射为一个连续、稠密的向量,再将此向量转化为目标语言。神经机器翻译在2016年取得重大突破,翻译性能和翻译质量大幅提高,取代了统计机器翻译的优势地位。同年,Google推出神经机器翻译系统,将句子而非短语作为翻译单元,提高翻译的准确度和流畅度[13]。
然而,机器翻译也存在着诸多弊端和问题。文献[14]通过对机器翻译译文中出现的错译进行标注和统计,归纳分析了各类句法错译的典型形式,如动词错译、短语错译及从句错译等,减轻了对语言进行形式化处理的工作。文献[15]以科技文本为例,整理出11种机器翻译错误类型,包括术语翻译错误、形式错误、格式错误、短语顺序错误、过译和欠译等。文献[16]归纳总结出基于实例的机器翻译尚且存在3类典型错误,分别是语内词项、语内结构性关系以及语外因素导致的识别错误。以上研究均表明机器翻译存在缺陷,译文效果未能达到预期目标,并且都从译后编辑的角度提出关于提高译文质量的相应策略,对关注译前编辑在提高译文质量方面的应用方面欠缺。
1.2 译前编辑
译前编辑,即在人工干预、编辑和修改源语文本的前提下,运用机器翻译软件对源语文本进行翻译处理,最终生成目的语译文文本的过程[7]。具体而言,在译前编辑工作中,需要对源文本中不易识别和理解的词汇、句型表达方式等进行处理,使机器能够正确地识别和理解。文献[7]先通过人工评测的方法选择机器翻译引擎,再对源语文本进行词级和句级的译前编辑,以提升译文质量。文献[8]对源文本分别进行了译前编辑、译后编辑以及译前译后结合等3种人工干预,在结论部分未能提供明确的数据支撑,虽然表明了译文质量的提高,但缺乏科学性。文献[9]设计的翻译质量对比实验也是通过人工评测进行结果诠释,缺乏客观性。
综上所述,聚焦词汇层面,借助BLEU,尝试探索机器翻译的译前编辑方法在提高机器翻译译文质量方面的应用。
2 研究工具和语料选取
译前编辑方法有助于机器翻译得到质量更高的译文。具体来看,文献[7]中提出常见的译前编辑工作包括对原文进行格式转换、拼写、标点符号检查、语法检查、句子调整及使用受控自然语言等。文献[17]提到译前编辑通常涉及格式处理和语言处理两部分。文献[18]总结出的译前编辑方法包括对原文进行结构调整、增减、提前翻译术语、歧义消解以及补充标点符号。文献[19]中主要的译前编辑指导包括词法与句法层次的切分,离合词的语义整合,语素词的语义切分,名词性短语、动词性短语、形容词性短语、主谓短语等的短语切分,长句的意群切分和断句等。此外,ACCEPT(Automated Community Content Editing PorTal)系统的译前编辑方法在文献[20]中主要涉及对语体的拼写、语法、形态变化、格式以及专有名词等的调整。经上述文献比对研究之后,总结出词汇的增删、替代以及术语提前是词汇层面较为理想的译前编辑方法。
2.1 研究工具
目前,主流的翻译评测方法主要是人工评测和机器自动评测。考虑译文的表达没有绝对正确或绝对错误的标准,人工评测时,其评测结果会因不同的人在认知、经验和思维方式等方面存在差异而带有很强的主观性,为避免这一影响,采用机器自动评测方法。BLEU是一种基于N元语法的机器翻译自动评测方法[21],其基于文本相似度对译文质量进行评估,结果较为客观,总体评价表达式为
其中:B表示惩罚因子;pn是指出现在参考译文中的n元词组占机器翻译译文中n元词语组总数的比例,ωn=1/N,N为最大的n元语法阶数。
采用BLEU对译文进行评价,用译文中出现的N元组和参考译文中出现的N元组相比,计算匹配的N元组个数与机器翻译译文的N元组总个数的比例,即将机器翻译产生的译文与人工译者提供的参考译文相比较,越接近,则机器翻译译文的正确率越高。
2.2 语料选取
在使用BLEU工具对译前编辑方法进行有效性验证时,需要选取权威可靠的参考译文对机器翻译结果进行比对。何刚强的《笔译理论与技巧》以及武峰的《十二天突破英汉翻译》是通用笔译培训教材,其中的翻译实例堪作范例。典型多元的翻译实例也便于根据其机器翻译结果选择适合的译前编辑方式展开有效性研究。
2.3 研究过程
Google翻译是一款基于浏览器的翻译软件,兼容性很强,是目前业内使用最广泛的翻译引擎,其基本翻译原理如图1所示。
图1 GNMT处理英汉翻译的原理
Google翻译采用了一种可以进行深度学习的神经网络翻译系统(Google’s Neutral Machine Translation,GNMT),通过对句子进行整体翻译,提高了翻译的准确性和流畅度。与此同时,Google还在其中建立了一个端到端的学习系统,使整个翻译系统能够独立地进行学习和训练,从而提高了翻译水平。
采用Google翻译作为机器翻译引擎,具体翻译步骤如下。
步骤1将原文输入到Google翻译引擎中,得到第一组译文。
步骤2针对第一组译文所出现的问题,对原文进行基于词汇层面的译前编辑,包括词类增补、删除、替代以及术语提前等4个方面。
步骤3将经过译前编辑的文本输入到Google翻译引擎中,得到第二组译文。
步骤4通过对比两组译文的BLEU值,判断基于词汇层面的译前编辑效果是否显著。
3 应用结果与分析
汉语与英语属于不同的语系,二者在书写规则、语义对比及句法结构等方面有很大的差别。根据以往的实践经验来看,机器翻译的结果对译者只能起到辅助性的作用,译者的有效介入是译文翻译过程中的重要环节。译前编辑方法在输入原文之前,译者可以根据原文的特征对其进行增补、删减、替代和术语提前等相应的处理,从而使机器翻译能够更好地识别原文的内容,提高译文质量。
3.1 增补
翻译时,译者可以根据英汉两种语言的逻辑结构和表达方式的不同,添加一些词句,使译文的意思表述更准确。因此,在对原文本进行词汇层面的译前编辑时,在原文中增添词语也是提高译文质量的方法之一。
例1原文:Man,was,is and always will be trying to improve his living conditions.
参考译文:无论是在过去、现在还是将来,人们总是在尽力改善生活条件。
译文:过去,现在,将来将永远努力改善他的生活条件。
译前编辑后:Man,no matter was,is and always will be trying to improve his living conditions.
译前编辑后译文:人,无论过去,现在还是将来都将努力改善他的生活条件。
第一组译文的BLEU值为22.01,第二组为38.21,在经过译前编辑之后,BLEU值提高了16.2。在例1中,过去、现在和将来包含一种条件关系,第一组译文不仅没有翻译出这种条件关系,而且主语也被忽略。因此,在译前编辑时对这种条件关系进行补充,得到的第二组译文就更为完善和精确。
此外,在英文原文中没有表达逻辑关系的词语,但根据上下文可以判断出其隐含的逻辑关系,如转折、假设、让步和因果关系等。在译前编辑时,也可以适当地在句中或句子之间补充关联词,如例2所示。
例2原文:Ice is not as dense as water and it floats.
参考译文:冰的密度比水小,因此能浮在水面上。
译文:冰的密度不如水,它会漂浮。
译前编辑后:Ice is not as dense as water and so it floats.
译前编辑后译文:冰的密度不及水,因此它会漂浮。
在例2中,译前编辑时增加了隐含的因果关系词“so”,机器翻译结果就得到了改善,BLEU值由16.91增长到22.77。
例3原文:These concepts,values and objectives provide a solid foundation and clear guidance for our mutually beneficial and pragmatic cooperation.
参考译文:这些理念、价值观和目标为我们的互利务实合作奠定了坚实的基础,并给予明确的指导。
译文:这些概念,价值观和目标为我们互利,务实的合作奠定了坚实的基础和明确的指导。
译前编辑后:These concepts,values and objectives provide a solid foundation and give clear guidance for our mutually beneficial and pragmatic cooperation.
译前编辑后译文:这些概念,价值观和目标为我们互利,务实的合作奠定了坚实的基础,并提供了明确的指导。
在未进行译前编辑时,所获得的译文中出现了动宾搭配不当的情况,如“奠定明确的指导”,在译前编辑时就需要添加相应的动词“give”,BLEU值也随之增长了5.04,表明译文质量得到改善。因此,在译前编辑时,根据上下文的具体意义,需要在某些名词之前或之后增加相应的动词搭配。这里所说的动词不仅指的是句子前面出现过而后省略的动词,还包括原文中没有的动词,才能使译文的意思明确完整,读起来也较通顺自然,符合汉语的表达习惯。
例4原文: We don’t retreat,we never have and never will.
参考译文:我们不后退,我们从没有后退,将来也绝不会后退。
译文:我们不撤退,我们永远也不会。
译前编辑后:We don’t retreat,we never have retreated and never will.
译前编辑后译文:我们不撤退,我们从未撤退,也永远不会撤退。
第一组译文中,机器翻译未完全传达出原文的全部内容,影响原文理解。同时,汉语常使用重复性的表述增强语气,例4便是如此。在译前编辑时,对原文句意中重复的内容进行添加,得到的第二组译文便表达出了原文中的含义,BLEU值也相应增加了10.93。在例4中,词汇增补使译文在内容表达上与原文相同,避免了翻译错误。同样,采用此类译前编辑方法还可以使翻译出来的句子在文化背景、词语联想方面与原文本保持一致,不影响原文理解。
例5原文:To explore the moon’s surface,rockets were launched again and again.
参考译文:为了探测月球的表面,人们一次又一次地发射火箭。
◎益生菌 金双歧、培菲康、妈咪爱都可以。培菲康,胶囊的便宜,和袋装的剂量一样。妈咪爱,相对来说有点怪味道,宝宝不反对的话也可以用。
译文:为了探索月球表面,火箭一次又一次地发射出去。
译前编辑后:To explore the moon’ surface,rockets were launched again and again by people.
译前编辑后译文:为了探索月球表面,人们一次又一次地发射了火箭。
在例5中,“火箭发射”这一动作是被动发生的,但在未经译前编辑时,译文中缺少相应的逻辑主语,对主语进行添加后,译文的BLEU值从46.54增长到68.36,句子成分也变得相对完整,具有逻辑性。此外,考虑表达习惯的不同,汉语语言表达与分析重意不重形,句子中即使没有人称或非人称,没有主语或动词,读者也可以意会到主动或被动[22]。
在译前编辑时,可以根据不同的语境情况对原句进行补充,增补类BLEU值如图2所示。
图2 增补类BLEU值
3.2 删减
删减与增补法相对应,是指将原文中不符合目的语表达习惯以及重复赘余等词汇删去,或者不在译文中进行翻译,但译文给读者的感受和原文相同。删减的原则是不能影响原文意思的完整性,并且要符合汉语表达规范。在此原则下,凡违反汉语表达习惯的词语都应予以删去,使译文简洁。
例1原文:The more he tried to hide his mistakes,the more he revealed them.
译文:他越想隐藏自己的错误,就越能揭示它们。
译前编辑后:The more he tried to hide his mistakes,the more he revealed.
译前编辑后译文:他越想掩饰自己的错误,就越能揭示出来。
第一组译文将“them”翻译成“它们”,而例1中想表达的“越能揭示出来”的内容就是他自己的错误。因此,译文中不必再用“它们”体现,其语意在译文中是不言而喻的。在译前编辑时将代词“them”删去,机器翻译就可以获得不违背汉语语言习惯的译文。其中,第一组译文的BLEU值为34.78,第二组为51.12,译前编辑效果显著。此外,机器翻译译文中均使用了“揭示”这一动词,完整的动宾搭配即为“揭示错误”,而“揭示”是使人看清原来不易看出的事理,一般不和错误搭配使用。因此,此处需要译后编辑进行调整。
例2原文:I had many wonderful ideas,but I only put a few into practice.
参考译文:我有很多美妙的想法,但只有少数付诸实践了。
译文:我有很多很棒的主意,但我只付诸实践。
译前编辑后:I had many wonderful ideas,but only put a few into practice.
译前编辑后译文:我有很多很棒的想法,只有一些付诸实践。
在例2中,未经译前编辑时,“a few”被忽略,没有翻译,造成整个句子意思表示的不完整。根据汉语的表达习惯,前句出现一个主语,后句如果仍为同一主语,就不必再次出现。第一组译文的表述违背了这一原则,而在译前编辑时,将“I”删去,得到的第二组译文在内容表达上基本与原文本一致,且符合汉语的表达习惯,BLEU值也从26.71增长到37.15。
例3原文:We have made some achievements,and we must guard against complacency.
参考译文:我们取得了一些成绩,但还要防止自满情绪。
译文:我们已经取得了一些成就,我们必须防止自满。
译前编辑后:We have made some achievements,and must guard against complacency.
译前编辑后译文:我们取得了一些成就,必须谨防自满。
未经译前编辑的译文与例2一样,同属于不符合汉语的表达习惯。因此,将后半句的主语“we”删去,得到的第二组译文BLEU值就得到提升,由38.09增长为40.52。
例4原文:A domestic appliance,for instance,a domestic refrigerator or a household smoke exhaust ventilator,can electrify itself.
参考译文:家用电器可能带电,比如电冰箱或抽油烟机等。
译文:家用电器,如家用冰箱或家用排烟呼吸机可以使自己通电。
译前编辑后:A domestic appliance,for instance,a domestic refrigerator or a household smoke exhaust ventilator,can electrify.
译前编辑后译文:家用电器,例如家用冰箱或家用排烟通风机,可以带电。
在英语中,有些作宾语的代词,不论前文是否提到过,翻译时往往可以省略不译。在例4中,“itself”作为“electrify”的宾语,在第一组译文中被机器翻译处理成有实际意义的成分,从而造成了翻译错误。因此,在译前编辑时将其删去,原文的内容在第二组译文中被忠实表达。第一组译文的BLEU值为13.85,第二组译文的BLEU值为17.27,经过译前编辑翻译质量得到了提高。
例5原文:Cold rolling enables the operators to produce rolls of accuracy and uniformity,and with a better surface finish.
参考译文:冷轧可以生产出精度高、均匀性好、表面光洁度高的轧制品。
译文:冷轧使操作员能够生产出准确而均匀的轧辊,并具有更好的表面光洁度。
译前编辑后:Cold rolling enables to produce rolls of accuracy and uniformity,and with a better surface finish.
译前编辑后译文:冷轧能够生产出准确,均匀且具有更好表面光洁度的轧辊。
在例5中,“enable”的宾语“operators”,在原文中的前后逻辑关系被暗含在句意中,翻译时可以不必翻译出来,目的是在不改变原文思想内容的基础上使译文更加通顺流畅。因此,在译前编辑时可以将其删去,第二组译文的BLEU值也相应增加了3.8,表明译前编辑有效。在前后两组译文中的“accuracy”都被译为“准确”,但在这个语境中其要表达的含义是“精度高”,需要译者在译后编辑时加以调整。删减类BLEU值如图3所示。
图3 删减类BLEU值
3.3 替代
用替代的形式代替上文或句子中已出现过的词语或内容,以避免重复连接上下文,这是英语说话或者写作的一项重要原则[18]。考虑英文多用代词或具有引申用法的词汇,在翻译时要灵活还原文中所表示的内容。在一些语境中,机器很难区分代词所指代的内容究竟是哪一部分,翻译时容易出错,而且不能翻译出词汇的引申含义。因此,在译前编辑时,可以对相应的指代词进行替换,消除歧义。
例1原文:I chose three modules in the first year because I also had a part-time job.
参考译文:我第一年选择了三门课程,因为我还有一份兼职。
译文:第一年我选择了三个模块,因为我也有一份兼职工作。
译前编辑后:I chose three courses in the first year because I also had a part-time job.
译前编辑后译文:第一年我选择了三门课程,因为我也有一份兼职工作。
在例1中,未经译前编辑时,机器翻译将“modules”译为“模块”,根据对原文的理解,此处应该表示“课程”。因此,在译前编辑时将其替换为“course”。如果在上下文中多次出现,在译者熟悉原文这一步骤时,亦可将其都进行替换,从而减少了译后编辑的工作。第一组译文的BLEU值为40.57,第二组译文的BLEU值为64.33,增加了23.76。
例2原文:Your analysis of current political situation really hits the nail on the head.
参考译文:你对当前政治局势的分析真是一针见血。
译文:您对当前政治局势的分析确实触动了头脑。
译前编辑后:Your analysis of current political situation is really sharp.
译前编辑后译文:您对当前政治局势的分析确实很敏锐。
例2中,“hit the nail on the head”的引申义为正中要害、说得中肯恰当,而机器翻译未能正确理解其引申的含义。第一组译文也只是根据字面逐字进行翻译,和原文所要表达的内容相差甚远。在译前编辑时,直接对这一词组指代的引申含义进行整体替换,得到的第二组译文的表述符合这个语境,BLEU值相应提高了3.22。
例3原文:The radio wasn’t working because of a loose connection in the wires.
参考译文:因线路接触不良,收音机不响了。
译文:由于电线连接松动,收音机无法正常工作。
译前编辑后:The radio wasn’t working because of a bad connection in the wires.
译前编辑后译文:由于电线接触不良,收音机无法正常工作。
在例3中,“loose connection”在未经译前编辑时机器翻译将其译为“连接松动”,而在汉语中,一般使用接触不良泛指家用电器中由于电路连接而出现的故障。根据第一组译文的表述,机器翻译侧重于“loose”的含义。因此,在译前编辑时将其替换为“bad”,从而获得符合汉语表达习惯的第二组译文,BLEU值由14.58增长到38.76。
例4原文:This standard does not purport to address all of the safety concerns,if any,associated with its use.
参考译文:本标准未提及同标准使用有关的所有安全问题。
译文:本标准并非旨在解决与使用相关的所有安全问题。
译前编辑后:This standard does not purport to address all of the safety concerns,if any,associated with its standard use.
译前编辑后译文:本标准并不旨在解决与标准使用有关的所有安全问题。
例4中,未经译前编辑时,机器翻译将“its”指代的内容漏译,造成句意缺失,甚至改变了整个免责条款的适用范围。译前编辑时对“its”的指代含义进行补充,从而限定了句意范围,得到的第二组译文内容更加准确,BLEU值也提高了16.19。
例5原文:Everybody has a responsibility to the society of which he is a part and through this to mankind.
参考译文:每个人都对他所属的社会负有责任,并且通过对社会负责任,而对人类负有责任。
译文:每个人都应对他所参与的社会负责,并由此对人类负责。
译前编辑后:Everybody has a responsibility to the society of which he is a part and through taking a responsibility to mankind.
译前编辑后译文:每个人都有责任对他所参与的社会负责,并通过社会对人类负责。
例5中的“this”指代前面的“a responsibility to the society”,如果只是译成“这个”,则会造成语义不明。译前编辑时将“it”替换成“taking a responsibility”,并添加动词,使语意更加连贯、通顺。其中,第一组译文的BLEU值为26.20,第二组译文的BLEU值为32.41,译前编辑效果显著。替代类BLEU值如图4所示。
3.4 术语提前
机器翻译的程序规则是根据语言的基本规则,通过语料库中的数据计算出相应的译文,对于某些新词汇、新技术及新政策等术语的收集未必完全。因此,译者可在译前编辑时直接翻译出术语,以降低机器翻译的误出率。
例1原文:Non-equilibrium is always fluctuating around the centerline of the equilibrium,thus promoting the economy to move forward and to be infinitely close to the goal of balanced growth.
参考译文:非均衡始终围绕均衡的中心线上下波动,推动经济不断向前发展,无限接近均衡增长的目标。
译文:非平衡总是在平衡的中心线附近波动,从而促进经济向前发展并无限接近平衡增长的目标。
译前编辑后:Non均衡is always fluctuating around the centerline of the 均衡,thus promoting the economy to move forward and to be infinitely close to the goal of balanced growth.
译前编辑后译文:非均衡总是围绕均衡的中心线波动,从而促进经济向前发展并无限接近平衡增长的目标。
“equilibrium”指的是经济活动中的均衡,是一种相对稳定的状态,而“平衡”从某种意义上来说是一种数学概念,二者存在明显的区别。因此,在译前编辑时将其直接翻译替换,得到的第二组译文BLEU值增长了10.43。
例2原文:While the new plant manager has extensive experience improving productivity,many of the workers aren’t ready to hand him a blank check.
参考译文:虽然新厂长在提高生产力方面很有经验,但是很多工人还是不愿意凡事由他全权处理。
译文:新任工厂经理在提高生产力方面拥有丰富的经验,但许多工人还没有准备好给他一张空白支票。
译前编辑后:While the new plant manager has extensive experience improving productivity,many of the workers aren’t ready to hand him 全权处理.
译前编辑后译文:新来的工厂经理在提高生产率方面拥有丰富的经验,但许多工人还没有准备好交给他全权处理。
例2中的“a blank check”是一种英文的惯常表示方式,字面意思就是一张空白支票。经过意义延伸,“a blank check”又可以解释为全权授命、全权处理的意思。根据理解,在这个语境中便是如此,经过译前编辑,两组译文的BLEU值由29.38增长到32.39。
例3原文:Valve regurgitation was assessed according to American Society of Echocardiography recommendations.
参考译文:按照美国超声心动描记术学会的建议评价心脏瓣膜返流。
译文:瓣膜返流是根据美国超声心动图学会的建议进行评估的。
译前编辑后:Valve regurgitation was assessed according to American Society of超声心动描记术 recommendations.
译前编辑后译文:根据美国超声心动描记术协会的建议评估瓣膜返流。
“Echocardiography”指的是“超声心动描记术”,在译前编辑时,提前进行翻译替换,得到的第二组译文的BLEU值增加了16.56。
例4原文:Science only learnt why in the 1940s with the discovery of rejection. When human organs are transferred from person to person,the immune system attacks and destroys what it sees as a foreign substance.
参考译文:直到20世纪40年代发现了排异反应后,科学家才明白了导致器官移植失败的原因。当人体器官从一个人移植到另一个人时,受体的免疫系统即将其视作外来物质进行攻击和破坏。
译文:科学直到1940年代才发现排斥的原因。人体器官在人与人之间转移时,免疫系统会攻击并摧毁被视为异物的物质。
译前编辑后:Science only learnt why in the 1940s with the discovery of 排异反应 When human organs are transferred from person to person,the immune system attacks and destroys what it sees as a foreign substance.
译前编辑后译文:科学只是在1940年代发现了排异反应,才了解了为什么当人体器官在人与人之间转移时,免疫系统会攻击并破坏他视为异物的物质。
“rejection”具有一词多义的特征,被广泛应用于不同的专业领域,其含义及表达均有所不同。在本例的语境中属于医学术语,意为“排斥反应”。因此,在译前编辑时进行替换翻译,第一组译文的BLEU值为13.97,第二组译文的BLEU值为23.36,译文质量得到提升。
例5原文:The calculation result shows that the maximum stress appeared at the edge weld seam.
参考译文:根据计算结果显示,最大应力预计在端接焊缝处。
译文:计算结果表明,最大应力出现在边缘焊缝处。
译前编辑后:The calculation result shows that the maximum stress appeared at the 端接焊缝.
译前编辑后译文:计算结果表明,最大应力出现在端接焊缝处。
“edge weld seam”在未经译前编辑时被机器翻译译为边缘焊缝,与其实际含义存在较大差异。因此,译前编辑时将其替换译为“端接焊缝”,BLEU值相应提高了15.06。术语提前类BLEU值如图5所示。
图5 术语提前类BLEU值
4 结语
机器翻译过程中,采用译前编辑对源文本进行预处理,能够有效地提升机器翻译译文质量。运用BLEU自动评测方法对基于词汇层面的译前编辑方法的有效性进行了验证。根据BLEU自动评测方法的计算,经过译前编辑之后,BLEU值均有不同程度的提升。其中,增补方法平均提高了11.97,删减为7.28,替代效果最为显著,平均提高了14.71,术语提前则为10.89。
通过对英译汉文本词汇层面译前编辑策略的4个方面各选取5个例句进行具体分析,结论如下。
1)词汇增补方面。当把隐含的逻辑关系词、动宾搭配的动词和主语补充到原文中时,可以提高机器翻译的译文质量,得到更标准、通顺、忠实的译文。
2)词汇删减方面。删去原文中可有可无或影响句意表达的冗余词语,使译文更通顺流畅,符合汉语的译文习惯。
3)词汇替代方面。把影响机器理解原文的词汇替换成其指代不清或存有歧义的原文本,将便于翻译,从而提高翻译质量。
4)术语提前方面。在译前编辑时直接将术语翻译出来,可以减少机器翻译的错误率。但是研究发现,在涉及到视角转换的情况下,也存在使用不符合语境的动词或名词搭配的情况,此时,仍需要译后编辑进行调整。
高效的训练文本可以用于翻译引擎进行深度学习。尽管深度学习已在自然语言处理等诸多领域得到了广泛的应用,然而神经机器翻译对训练文本的利用程度还有很大的提升空间。基于词汇层面的译前编辑方法,将文本词汇方面的特征信息与端对端的神经机器翻译有效结合,使用经过译前编辑的文本作为训练语料,提升了神经机器翻译系统的性能。
考虑所选文本存在着一定的局限性,数量有限且仅适用于没有视角差异的情况下基于词汇层面的译前编辑策略,无法对译前编辑策略进行较详尽且全面的探讨。因此,有必要紧跟机器翻译和其他相关科技的发展动态,不断更新对这一议题的研究。