APP下载

计算机辅助翻译软件的译后编辑功能探究

2021-12-17周兴华李懿洋

北京第二外国语学院学报 2021年5期
关键词:句段引擎译文

周兴华 李懿洋

引言

全球化和本地化的蓬勃发展带来了海量翻译需求,单纯依靠人工翻译已远不能满足这些需求。随着深度学习、机器学习和神经网络等人工智能技术的发展,机器翻译的输出质量得到了明显提升,但仍然无法达到职业译员翻译的水平。 为了满足不断增长的翻译需求,同时实现翻译效率与翻译质量之间的平衡,机器翻译译后编辑(machine translation post-editing,MTPE)在语言服务领域得到了广泛应用(刁洪,2017:79)。崔启亮(2014:70)认为,译后编辑是人机交互翻译的重要体现,是语言服务企业新的业务增长点,代表了未来翻译服务的发展方向。

国内外学者均已经开展多视角的译后编辑研究并取得了不少成果,但是现有研究缺少对当前主要翻译工作环境——计算机辅助翻译(Computer-Aided Translation,CAT)软件的译后编辑功能研究。鉴于此,本文在分析国内外译后编辑研究尤其是译后编辑工具研究的基础上,集中考察了4 款主流翻译工具的译后编辑功能,内容涉及机器翻译应用、译后编辑操作、译后编辑内容记录、时间记录、译后编辑工作量统计、工作效率统计、译后编辑工作报价、内容反馈、机器翻译质量评估与机器翻译择优推荐等方面。本研究旨在从技术层面展现当前CAT 软件的译后编辑功能和存在的问题,以期为未来的译后编辑研究和应用提供参考。

一、译后编辑工具研究现状

1. 国内译后编辑工具研究

在中国知网(CNKI)全文数据库中,以“译后编辑”为主题或关键词进行检索(最终检索时间为2021 年8 月18 日),共找到中文论文252 篇,包括期刊和辑刊论文98 篇,硕士论文153 篇,博士论文1 篇。对这些论文进行计量可视化分析之后发现,国内最早的译后编辑研究是黄河燕、陈肇雄(1995),但这篇论文是关于“译后编辑工具的设计与开发”(崔启亮,2014:70)方面的研究。因此,冯全功、崔启亮(2016:73)认为,“国内译界的译后编辑研究始于新千年之后,当以魏长宏、张春柏(2007)发表的论文为标志,相对国外起步较晚”。2015 年后,国内译后编辑论文的发文量呈逐年增多的趋势(201 5 年为4 篇,2020 年达到72 篇),其中翻译专业硕士学位(MTI)研究生2016 年撰写的有关译后编辑的翻译实践报告(即毕业论文)为4 篇,2020 年达到49 篇。

“译后编辑是机器翻译与翻译研究领域共同关注的话题,前者主要关注技术(工具)的研发,后者主要关注译后编辑的应用。”(冯全功、崔启亮,2016:67)国内译后编辑应用研究多为介绍性或概述性研究,内容包括:①译后编辑的概念、发展动力、实践准则(如崔启亮,2014);②译后编辑的工作原理、工作特征、译后编辑错误类型(如崔启亮、李闻,2015);③译后编辑评估、译后编辑能力构建、译后编辑者培养、译后编辑课程设置、译后编辑教学等(如冯全功、张慧玉,2015;冯全功、崔启亮,2016;冯全功、刘明,2018)。研究者还分别对新闻(冯全功、李嘉伟,2016)和外宣(吴萍,2018)等不同专业领域翻译文本的译后编辑进行了研究。近年还出现了眼动实验研究(卢植、孙娟,2018)和人工翻译与机器翻译译后编辑对比实证研究(王湘玲、王婷婷,2019)。

此外,国内还有一些学者的研究侧重译后编辑工具或技术的研发(如黄河燕、陈肇雄,1995/2004;李梅、朱锡明,2013;阿米妮古丽·奥斯曼等,2013),涉及的译后编辑工具主要包括谷歌的Google Translator Toolkit(谷歌译者工具包)、武汉传神公司(Transn)的TCloud、翻译自动化用户协会(Translation Automation User Society,TAUS)研发的 DQF Tools(冯全功、张慧玉,2015:70-71),以及由丹麦哥本哈根商学院A. L. Jakobsen 和L. Schou开发的Translog-II(卢植、孙娟,2018:763;王湘玲、王婷婷,2019:87)等。其中,谷歌译者工具包从2019 年12 月4 日起已经停用;TCloud 已经更名为iCAT,软件架构和功能都已经发生了变化;DQF Tools 自2017 年1 月1 日起一直处于维护中,目前已经停止使用;Translog-II 是一款获取翻译过程数据的工具,主要用于译后编辑的实验或实证研究。另外,也有研究者提到上海一者公司开发的 YiCAT 云翻译平台(秦美娟,2020:66),机器翻译引擎、质量保证功能设置、跟踪修订是该平台进行译后编辑操作的优势,但该平台缺少诸如译后编辑时间记录、译后编辑工作量统计、译后编辑效率统计等功能。

2. 国外译后编辑工具研究

“国外译后编辑研究开始于20世纪80年代中期,至今已有三十余年的历史,发表的论文多达数百篇。”(张慧玉、冯全功,2016:56)国外译后编辑研究多集中在译后编辑概述、译后编辑评估、机器翻译错误识别、译后编辑工具研发、译后编辑研究的行业视角、译后编辑能力与译后编辑者的培养等方面。王湘玲、贾艳芳(2018)聚焦2000—2016 年国外发表的机器翻译译后编辑研究,从译后编辑过程及产品评估、译后编辑效率影响因素、译后编辑工具研发、译后编辑者及人才培养4 个方面出发,分析了国外译后编辑研究的进展、研究方法及未来趋势,指出许多领域的研究仍处于探索阶段。

国外译后编辑研究提到的译后编辑工具主要有PET(Aziz et al.,2012)、ACCEPT(Roturier et al.,2013)、iOmegaT(Moran et al.,2014)、CASMACAT(Elming et al.,2014)等。其中,PET 是一款独立的译后编辑工具,可以记录译后编辑的时间、按键次数、编辑距离等;ACCEPT 是一个在线译后编辑平台,可以记录译后编辑过程并生成详细报告;iOmegaT 是基于开源翻译软件OmegaT的改进版系统,可以记录译员的译后编辑时间、按键次数、自我检查等信息;CASMACAT 是一款在线计算机辅助翻译工具,可以记录译员的行为,具体功能包括眼动追踪、按键统计、鼠标移动等。这些工具都提供了译后编辑环境,能够记录译后编辑操作数据,方便统计译后编辑的工作量和效率,甚至可以用来评估机器翻译质量等,但功能均较为单一,支持的文件格式十分有限,相对而言更适合用于译后编辑研究。目前功能完善且得到广泛应用的专门的译后编辑工具仍然很少。

3.集成翻译环境的译后编辑研究

王华树、李智(2019:68)组织的一项翻译技术应用调查结果显示,译员使用的CAT 工具主要包括“SDL Trados(53.71%)、memoQ(25.52%)和Déjà Vu(18.4%)”。这些软件提供的都是集成翻译环境,其集成模式被称为“TM+MT(translation memory+machine translation)技术”或“MTM(machine translation+translation memory)技术”(王华树,2013)。在这种软件环境中进行译后编辑,集成模式就变成了“MTM+PE”(机器翻译+翻译记忆+译后编辑)(崔启亮,2014:70)或“MT+CAT+PE”(机器翻译+机辅工具+译后编辑)(徐彬、郭红梅,2015:71)。崔启亮(2014:69)将传统意义上的针对机器翻译的初始译文进行的译后编辑称为“狭义的译后编辑”,即机器翻译译后编辑;将集成翻译环境中针对CAT 软件输出的初始译文的译后编辑称为“广义的译后编辑”或“集成翻译的译后编辑”;并认为“随着应用实践的深入,广义的译后编辑研究将成为新方向”。冯全功、张慧玉(2015:69)也同样认为,“机器翻译与翻译记忆的整合是语言服务行业的技术发展趋势,……对此应进行重点介绍和应用”。

目前,CAT 软件已经在语言服务行业中得到广泛应用,特别是其译后编辑功能更是得到了从业者的一致肯定。本文将集中探讨和分析4 款主流 CAT 软件的译后编辑功能,并在此基础上对 CAT 软件环境中的译后编辑工作进行总体评价,阐明其功能和应用优势,同时也指出目前尚存在的问题。

二、CAT 软件的译后编辑功能分析

memoQ①memoQ 网站:https://www.memoq.com/。、MateCat②MateCat 网站:https://www.matecat.com/。、Trados Studio③Trados Studio 网站:https://www.rws.com/cn/translation/software/trados-studio/。、Memsource④Memsource 网站:https://www.memsource.com/。等桌面翻译软件或云翻译软件提供的都是集成翻译环境,即同时具备机器翻译、翻译记忆和译后编辑功能。这些翻译软件不乏相似之处,而其译后编辑功能又各具特色。

1. memoQ 的译后编辑功能

memoQ 软件集成了谷歌、微软、DeepL、KantanMT 等19 个机器翻译插件。通过Intento 或 Tmxmall 机器翻译插件,用户可以“一站式”使用谷歌、微软、DeepL 等国外机器翻译引擎以及百度、搜狗、有道、阿里、腾讯等国内机器翻译引擎,不需要再逐一注册账户。

memoQ 软件既支持狭义的译后编辑,也支持广义的译后编辑。狭义的译后编辑即仅使用机器翻译进行预翻译,然后根据译文质量要求,采用轻度译后编辑(light post-editing)或完全译后编辑(full post-editing)的方法完成译文的编辑工作。译后编辑工作界面是译员和审校人员非常熟悉的编辑器界面,在这个界面中,译后编辑人员可以对机器翻译的初始译文进行添加、删除、替换等操作,也可以参照术语建议修改术语。质量保证功能可以实时发挥作用,预览功能方便编辑人员查看上下文语境和译文格式。所有编辑修改的内容都能以跟踪修订的方式直观地显示出来。

从译后编辑数据统计的角度来说,memoQ 有一个“编辑距离统计”(edit distance statistics)功能。该功能的设计初衷是统计译员对翻译记忆库匹配的编辑工作量或审校员对译员翻译的审校工作量。在译文从机器翻译的初始版本转变为译后编辑完成版本的过程中,该功能同样可以用于统计译后编辑人员的实际编辑数量,即对机器翻译译文的译后编辑工作量进行记录。统计结 果可以选择以字数(编辑距离)或百分比(模糊)的形式呈现,如图1 所示。其中,“绝对编辑距离”指译后编辑员的实际编辑字数,“已标准化的编辑距离”指编辑后的译文与机器翻译初始译文之间的差异程度。

图1 memoQ 编辑距离统计结果

memoQ 能够自动记录编辑时间(editing time),即每个角色、每个句段编辑修改所花费的时间。此外,它还可以在编辑完成后生成一份编辑时间报告,内容包括总编辑时间和根据总编辑时间估算出的译后编辑速度,即每小时的编辑字数,并且能够在编辑器中详细显示每个句段的编辑时间。

综合考虑翻译记忆库的匹配质量和机器翻译的使用成本,语言服务供应商和自由译者大都会采用翻译记忆库加机器翻译(TM+MT)预翻译的方式,即广义的译后编辑模式。具体来说,就是预翻译时优先使用翻译记忆库匹配的译文,对于翻译记忆库没有匹配的句段则添加机器翻译的译文。这里有一个关键问题,即翻译记忆库最低匹配值的设定,它受文本类型、语言对(language pair)、机器翻译引擎等诸多因素的影响。究竟是翻译记忆库模糊匹配的译文质量更高,还是机器翻译译文的质量更高,这一问题目前尚没有定论。在TM+MT 这种模式下,译后编辑人员面对的是翻译记忆库匹配和机器翻译混合的译文。具体编辑操作以及编辑距离和编辑时间统计与狭义的译后编辑一样,故不再赘述。

2. MateCat 的译后编辑功能

MateCat 是一款免费开源的云翻译软件,目前集成了Google、Microsoft、ModernMT、MyMemory 等13 个机器翻译引擎,还有一个包含120 亿句对的公共翻译记忆库(Public TM)供用户免费使用。MateCat 也支持狭义和广义两种译后编辑模式:单纯的机器翻译对应狭义的译后编辑模式;如果同时选择机器翻译和公共翻译记忆库或私人翻译记忆库(Private TM),对应的就是广义的译后编辑模式。

MateCat 的编辑界面和谷歌译者工具包的编辑界面很相似,打开原文时每个句段都会自动添加机器翻译译文或翻译记忆库匹配译文,不需要进行任何预翻译操作。此外,译文句段下方列出了译文匹配的来源,即机器翻译匹配、私人翻译记忆库匹配或公共翻译记忆库匹配。这种译文呈现方式为广义的译后编辑提供了极大的便利,译后编辑人员可以在机器翻译译文和翻译记忆库匹配译文之间进行比较和取舍。每个句段下方也列出了术语匹配的内容。对文本内容的编辑修改、文本格式和标记(tag)的处理都非常简便。

MateCat 的“质量报告”(Quality Report)功能可以在编辑结束后提供详细的译后编辑统计信息,包括总的译后编辑时间、译后编辑百分比以及每个句段的编辑时间和编辑百分比,译文则以修订标记的形式呈现编辑修改的内容,如图2 所示。

图2 MateCat 翻译质量报告

3. Trados Studio 的译后编辑功能

Trados Studio 软件默认仅集成了SDL Language Cloud 和SDL 机器翻译(企业版)两个机器翻译引擎,但用户可以通过RWS①SDL公司已经被RWS(如文思)公司收购,目前Trados Studio软件界面的表述尚未完全统一。AppStore(应用商城)添加和使用几乎所有的机器翻译引擎。

Trados Studio 同样支持狭义和广义两种译后编辑模式。如图3 所示,在RWS Language Cloud 页面中可以选择“翻译引擎”或“SDL 机器翻译”,前者集成了机器翻译引擎和用户个人的云翻译记忆库与云术语库资源,后者则是纯机器翻译引擎。因此,前者对应广义的译后编辑模式,而后者对应狭义的译后编辑模式。具体编辑操作流程与前文介绍的memoQ 和MateCat 类似,不同的是在Trados Studio 机器翻译中,除了可以选择通用神经机器翻译(Generic-NMT)模型之外,还可以选择自适应机器翻译(AdaptiveMT)模型。

图3 RWS Language Cloud 窗口

目前机器翻译最大的痛点是尚未实现在翻译的过程中进行学习,因此同样的翻译错误会反复出现。自适应机器翻译就是针对该问题的一种解决方案,它能够实时记录译后编辑人员所作的每个编辑修改并将其应用到随后的翻译中。图4 是使用自适应机器翻译 引擎的翻译结果,包括初始译文和逐句编辑修改的情况,在原文和译文之间会显示句段状态列,其中的AT 和灯泡图标表示这些译文来自自适应机器翻译引擎。

图4 自适应机器翻译引擎的翻译结果

译后编辑完成之后,可以在分析报告中查看自适应机器翻译引擎的具体使用情况,如图5 所示。需要说明的是,自适应机器翻译引擎越使用效果越明显,编辑的内容就会越少。此外,付费用户还可以选用词典,进一步提高机器翻译的输出质量,减少译后编辑的工作量。

图5 自适应机器翻译引擎分析报告

另外,Trados Studio 还可以添加Post-Edit Compare(译后编辑比较)插件,用来比较译后编辑前后两个译文版本的变化并生成比较报告:首先在机器翻译预翻译之后创建一个项目版本(可命名为“机器翻译版本”),然后在译后编辑完成后再创建一个项目版本(可命名为“译后编辑版本”),最后在Post-Edit Versions 视图中选中这两个版本,就可以生成整个项目或其中某个文档的译后编辑比较报告,整个流程较为简单。如图6 所示,译后编辑比较报告的内容包含详细的译后编辑统计数据和报价等信息,报告的下方还会以跟踪修订的方式列出每个句段编辑修改的内容和编辑距离数值,匹配(Match)栏显示译文的来源,其中AT 表示译文来自机器翻译。

图6 译后编辑比较报告

4. Memsource 的译后编辑功能

Memsource 软件集成了35 个机器翻译引擎,同样支持狭义和广义两种译后编辑模式。Memsource 公司很早就组建了人工智能团队,从2018 年开始先后推出了“AI 驱动的非译元素”功能和“机器翻译质量评估”(machine translation quality evaluation,MTQE)功能。

AI 驱动的非译元素功能不仅能够识别传统的非译元素内容,还可以识别人名和产品名称等新内容,它最大的优势在于可以像翻译记忆库一样提供一个匹配值,表明某个句段“确定是”非译元素句段(匹配值100%)或“可能是”非译元素句段(匹配值95%-99%)。使用该功能可以在译前自动识别出原文中只包含非译元素的句段,并对这些句段进行预翻译,从而提高译后编辑效率。

MTQE 功能可以为机器翻译的输出提供句级质量评估,方法类似于翻译记忆库匹配。虽然目前机器翻译的输出质量在总体上有了较大提升,但因为内容类型和语言对不同,翻译质量并不稳定。因此,译后编辑人员经常要面对很多低质量的机器翻译译文,编辑这样的译文非常浪费时间。同翻译记忆库匹配值相类似,机器翻译译文质量的自动评分有助于预估译后编辑的工作量,并能降低译后编辑的工作强度。此外,MTQE 功能还可以实现针对特定内容和语言对的机器翻译引擎优选。2019 年3 月,Memsource 公司发布了Memsource Translate 功能,这是一种新的机器翻译管理解决方案,可以根据原文内容和语言对自动选择性能最佳的机器翻译引擎。

三、CAT 软件的译后编辑功能评价

前文提到的4 款CAT 软件提供的都是集成翻译环境,并且均支持狭义和广义两种译后编辑模式。根据前文分析可以看出,在CAT 软件中进行译后编辑工作优势和问题并存。

1. 功能及应用优势

(1)灵活的机器翻译应用

在CAT 软件这样的集成翻译环境中,机器翻译既可以单独发挥作用,又可以和翻译记忆库共同发挥作用;既可以进行译前批量预翻译,又可以在翻译过程中实时提供匹配建议,还可以根据翻译内容和语言对自主选择机器翻译引擎。即使只在编辑器中自动提供术语建议,也已经为译后编辑工作提供了很大便利,而且个别机器翻译引擎已经可以支持术语的自动替换。人工智能新技术的融入进一步提高了译后编辑效率,例如,自适应机器翻译引擎解决了译后编辑反馈的问题,改变了提高机器翻译质量的方法,提升了译后编辑人员的人机交互体验,显示了机器翻译和翻译记忆技术的深度融合。此外,以译后编辑人员为导向的个性化机器翻译引擎也呼之欲出。机器翻译质量评估是机器翻译应用的革新技术,无论是机器翻译质量自动评分,还是机器翻译引擎自动筛选,都大大提升了机器翻译的实用性。毫不夸张地说,CAT 软件为各类型机器翻译引擎提供了绝佳的应用环境。

(2)便捷的译后编辑操作

部分国内外学者致力于智能译后编辑器的研发,这些编辑器的设计理念和功能模块与当前主流CAT 软件大致相同。CAT 软件的编辑器界面集多种辅译功能于一身,除了插入、删除、替换这些常规操作,还可以很方便地处理文本格式、标记等,是便捷的译后编辑平台。在错误检查阶段,除了译后编辑人员的人工检查外,QA 功能可以逐句实时发挥作用,自动提示当前句段的一些“技术性”错误,例如数字不一致、格式不规范、缺少标记、标点符号错误、拼写错误、词语重复、禁用术语不当使用等,这些提示对于译后编辑的帮助不言而喻。另外,相关搜索、网络搜索使译后编辑人员可以便捷地查找内部和外部资源,预测输入和片段匹配等功能能够加快译后编辑速度,句段筛选和排序功能可以为译后编辑的批处理提供方便,实时预览窗口也便于查看原文上下文语境和译文格式。除了可以为译后编辑操作提供以上这些便利条件外,CAT 软件还能自动记录译后编辑数据,生成详细的译后编辑报告,包括总的译后编辑工作量和译后编辑时间、每个句段的具体编辑内容和编辑时间等。这些数据对于机器翻译的错误类型分析、译后编辑人员培训、译后编辑人员安排、工作流程设计和译后编辑服务报价等都具有重要意义。

(3)一体化的工作流程

译后编辑工作不是孤立存在的,除译后编辑流程外,整个翻译工作还涉及项目管理、资源管理、人员管理、任务分配、质量保证、工作量统计、格式排版、译文交付等。以往译后编辑研究中提到的译后编辑工具都没有如此完善的功能,而目前主流的CAT 软件却能满足这些需求。例如,从项目管理的角度来说,CAT 软件既可以创建本地项目,又可以创建服务器项目;既可以直接发送文件,又可以发送项目文件包。无论哪种形式,项目经理都可以通过此类软件监督管控项目进度。作为翻译管理系统,目前大多数CAT 软件已经与内容管理系统和企业资源计划系统整合在一起,项目管理者只需对工作流程进行定制,系统就会自动引导每个流程(孔令然、崔启亮,2018:51)。译后编辑重在速度和效率,目前语言服务行业普遍使用的“客户端+服务器软件”架构和云翻译软件架构都是译后编辑工作的一体化解决方案。

2.目前尚存在的问题

CAT 软件用于译后编辑工作拥有巨大的优势,但同时也存在一些问题和不足。例如,仅依靠编辑距离来计算译后编辑工作量并以此作为报价依据的做法有时并不合理,对于文本翻译难度较大或术语较多的译后编辑工作,应该同时考虑译后编辑时间的长短。目前可用的机器翻译引擎大都是通用引擎,通常既没有说明引擎的类型(具体类型可分为基于规则的、基于统计的、基于神经网络的和可自定义的),也没有具体说明支持的语言对和适用的专业领域。这些问题都无形中给机器翻译的应用制造了障碍。目前,自适应机器翻译引擎支持的语言对非常有限,机器翻译引擎自动筛选并择优推荐的功能也还不完善。

结语

“随着机器翻译技术的发展和全球翻译需求的增加,机器翻译译后编辑在语言服务行业中的作用得到了广泛认可。”(王湘玲、王婷婷,2019:84)国内外许多学者已经关注到了这种发展趋势,并从多个视角对译后编辑进行了大量研究。然而,已有研究大多讨论的是支持译后编辑操作和相关研究的工具,对目前业界使用更为普遍的CAT 软件却少有提及。简而言之,前者更适合译后编辑的测试和学术研究,后者才是真正符合行业需求的译后编辑量产工具。因此,今后的研究应更加关注后者,并强化对翻译行业译后编辑实践和需求的关注。同时,人工智能新技术的融入为机器翻译应用带来了创新解决方案,在提高译后编辑速度的同时降低了成本,进一步彰显了机器翻译译后编辑的优势。当然,机器翻译仍处在不断发展的进程中,还存在诸多问题,希望能够在今后的译后编辑研究和实践中尽快地得到解决。

猜你喜欢

句段引擎译文
江阴市“三个创新”打造危化品安全监管新引擎
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
新海珠,新引擎,新活力!
车坛往事4:引擎进化之屡次失败的蒸汽机车
精彩句段一
精彩句段二
弟子规
弟子规
One Engine Left只剩下一个引擎
译文