APP下载

从计算机辅助翻译到协同翻译

2012-10-15张桂平韩亚冬蔡东风

中文信息学报 2012年6期
关键词:译文辅助协同

叶 娜,张桂平,韩亚冬,蔡东风

(沈阳航空航天大学 知识工程研究中心,辽宁 沈阳110136)

1 引言

随着信息技术的进步和全球一体化步伐的加快,跨语种交流的语言障碍问题日益突出,对高效翻译方法的需求愈加紧迫。为了解决这一问题,人们开展了机器翻译(Machine Translation,MT)的研究,旨在使计算机能够代替人类进行全自动翻译。

然而,目前的机器翻译系统所产生的译文仍然无法达到直接可用的程度。在这样的背景下,一些研究人员开始寻求翻译思想的改变,由全自动翻译技术转向计算机辅助翻译(Computer-Assisted Translation,CAT)技术。在计算机辅助翻译系统中,系统为用户(即人类译员)提供辅助译文和各种辅助工具(如术语管理、文件格式处理、词典查询、翻译记忆检索等),用户利用这些辅助工具,对辅助译文进行译后编辑(Post-Editing,PE),直至得到最终可用的正确译文。同时,系统在与用户交互的过程中,能够从用户的反馈中学习,使自身的翻译知识得到增长和完善,不断地提高辅助译文的质量。与机器翻译相比,计算机辅助翻译以机器作为助力,为用户提供所需的知识辅助,使人类充分发挥在推理、分析、归纳方面的优势,取得了很好的实际效果,也出现了一些成熟的实用化产品,例如,国外SDL公司的Trados、STAR公司的Transit、ATRIL公司的Déjàvu、LANT公司的 Eurolang、Google的译者工具包,国内中国科学院的华建CAT、东方雅信的雅信CAT等。这些商用产品的出现大大提高了翻译产业的生产率。

最近,随着计算机辅助翻译技术的快速发展,辅助翻译的工作方式已经从单用户、小规模发展为多用户、大规模。多名在空间上分散的用户被组织起来共同完成一项翻译任务已经成为普遍现象。这种翻译模式可以称为协同翻译(Collaborative Translation,CT)。与计算机辅助翻译相比,协同翻译系统不但能提供计算机辅助翻译系统的全部功能,还能够提供多用户协作管理(如协作进程控制、协作冲突检测、个性化辅助等)、翻译任务管理(如翻译进度控制、翻译任务分配等)和译文一致性检查等功能,以协调多名用户高效率地合作,并保证翻译结果的一致性。

本文对计算机辅助翻译和协同翻译的研究进行了综述。全文内容组织结构如下,第2部分介绍了计算机辅助翻译技术;第3部分分析了计算机辅助翻译与协同翻译技术的联系和区别,并介绍了协同翻译技术的最新研究进展;第4部分总结全文,对协同翻译的未来发展方向进行了展望。

2 计算机辅助翻译技术

传统的计算机辅助翻译系统可以分为两类[1]:①人助机译系统 (Human-Assisted MT system,HAMTS),它是由人来辅助计算机进行翻译的机器翻译系统。可以通过译前编辑对于要翻译的原文进行加工,使之适合机器翻译系统的要求,或者通过译后编辑对于翻译好的译文进行修改,使之满足用户的需要;②机助人译系统(Machine-Assisted MT system,MAMTS),它是由计算机辅助人来进行翻译的机器翻译系统。

现在的计算机辅助翻译系统很难绝对划分为人助机译或机助人译两种系统之一,而是多种翻译技术并存、相辅相成、相互融合的。系统生成辅助译文时,用户可以利用自己的语言学知识为系统提供指导,以获得更好的译文;用户进行翻译时,可以直接对辅助译文进行译后编辑,或将辅助译文作为参考;用户完成翻译后,系统将用户的翻译结果作为对辅助译文的反馈,从中学习翻译知识,来进行自我完善。

由此可见,计算机辅助翻译涉及三个关键技术,即辅助译文生成、译后编辑和系统反馈学习,以下将分别进行介绍。

2.1 辅助译文生成

2.1.1 辅助译文质量评价标准

辅助译文是由计算机辅助翻译系统生成,供用户进行译后编辑,以产生最终可用译文的一种中间翻译结果。作为系统的重要组成部分,辅助译文的质量直接影响着整体的翻译效率。理想的辅助译文应最大限度地减少用户的翻译工作量,提高翻译速度。不可否认的是,过于糟糕的辅助译文反而会给用户增加额外的负担,以至于还不如不用辅助译文,而是直接翻译源文本。

因此,辅助译文质量评价标准的确定是一个重要的问题。传统的机器翻译译文评价指标和方法[2-4]并不完全适合于评价辅助译文,其原因在于,对机器翻译译文的评价角度是译文的“正确性”,而对辅助译文的评价则是衡量它为用户带来了多少便利。例如,有时并未对辅助译文进行译后编辑修改,却要占用一定的译后编辑时间,因为用户必须仔细斟酌才能确定译文是不需修改的。因此,一个更为公正的辅助译文质量评价指标是用户进行译后编辑所需的工作量(Post-Editing Effort),但如何衡量译后编辑的工作量也是一个难题。

Krings[5]提出,译后编辑工作量可以从三个层次来评价:时间(译后编辑所需时间)、技术(用户采取的键盘操作)和认知(用户付出的脑力劳动)。该评价方法比较全面客观,其缺陷在于认知层次的工作量无法直接观察到。一些研究人员[5-6]采用有声思维报告法[7](Think Aloud Protocol,TAP)或选择网络分析法[8](Choice Network Analysis,CNA)来解决这一问题,但仍难以得到量化的结果。

鉴于此,一些研究人员[9-13]直接用技术层次工作量,即通过衡量将辅助译文修改为正确译文所需的译后编辑操作次数,来评价辅助译文。根据操作种类的不同,可以定义多个评价指标,如表1所示。

表1 基于译后编辑操作的辅助译文质量评价指标

上述评价指标的优点是可行性强,缺点是计算代价较高、缺乏语言学知识的支撑,且无法反映用户在译后编辑过程中付出的脑力劳动代价。

Tatsumi[14]研究了 BLEU[2]、NIST[3]、GTM[4]、和TER[13]四种评价指标与译后编辑速度之间的关联,实验数据显示,GTM与译后编辑速度之间的关联度最高。

2.1.2 辅助译文生成策略与方法

不同的系统采取不同的策略来生成辅助译文。最早的计算机辅助翻译系统[15]直接将机器翻译引擎产生的机器译文作为辅助译文。由于机器译文质量较差,现有系统大多对其进行了优化。总体上,当前辅助译文的生成方法主要是基于两种策略:①基于翻译记忆(Translation Memory,TM)的策略;②基于交互式机器翻译(Interactive Machine Translation,IMT)的策略。

2.1.2.1 基于翻译记忆的策略

Bowker[16]将翻译记忆定义为一种用于储存原文本及其译文的语言数据库,其工作原理是将用户已翻译完成的译文及其对应的源语言文本存储起来,在未来的翻译过程中,系统自动搜索翻译记忆库中相同或相似的翻译资源(如句子、段落等),给出参考,使用户避免无谓的重复劳动,只需专注于新内容的翻译。该策略的优化目标是使辅助译文与具有较高匹配相似度的翻译记忆片段尽量保持一致。

翻译记忆的思想几乎在所有的辅助翻译系统中都有所体现。Craciunescu等人[17]指出,翻译记忆技术适用于解决术语一致性、语词、短句和简单句重复出现等问题。

基于翻译记忆的辅助译文生成方法有两种,一种是参考式,由用户选择待翻译的文本,系统在翻译记忆中检索相关译文提供参考。TransSearch[18]、TotalRecall[19]和大部分商用系统均采取了这种方法。另一种方法是自动式,即根据翻译记忆的结果自动优化机器翻译译文,使译文尽量与翻译记忆中的相关片段一致。PECAT系统[20]将句子划分为组块,利用多层匹配算法在翻译记忆里检索最相似的组块生成辅助译文,取得了良好效果。Biçici等人[21]从翻译记忆的模糊匹配结果(Fuzzy Matches)中提取与源语句共有的双语短语,加入统计机器翻译系统的短语表中,获得了更好的译文。Simard等人[22]将翻译记忆中最相似的片段纳入机器翻译候选译文的评价中,提高了机器译文的质量。He等人[23]训练了一个统计分类器,分别判断对机器翻译译文和翻译记忆译文进行译后编辑的工作量,并将工作量较小的译文推荐给用户,取得了很好的效果。

2.1.2.2 基于交互式机器翻译的策略

交互式机器翻译的基本思想是允许用户在译文生成的过程中进行人工干预和指导,以获取较高质量的译文。常宝宝[24]指出,这类研究可以根据人机交互发生的阶段分为:①交互式分析,用户帮助系统得出正确的源语言结构,对多义词进行排歧等;②交互式转换,用户参与选择与源语言结构等价的目标语言结构,排除不适当的转换;③交互式生成,用户协助产生流畅译文。

早期的交互式机器翻译系统[25-31]大都集中于交互式分析和交互式转换技术,主要研究如何使源语言消歧过程更加高效,包括优化问题次序来减少用户需要回答的问题、为用户提供多个候选答案、调整交互方式使用户更熟悉系统等。这些传统的方法存在以下问题:第一,人机间的交互只关注对源文本意思的理解,而忽略了最重要的目标文本生成。第二,用于交互的语言是基于机器翻译模型的,使得问题对用户来讲难以回答,而将机器语言自动表述为自然语言,并使之包含源文本中的相关部分,是难以实现的。

1997年,Foster等人[32]提出了 TransType系统的雏形(TT0),该系统将交互式机器翻译所关注的目标从源文本的消歧转移到译文的生成上,用户不再需要解释分析源文本,而是可以直接控制目标译文的生成。TransType的基本思想是,给定源文本s,观察用户输入的译文,不断针对已经输入的文本h(即译文前缀)计算可能的译文后缀x的概率p(x|s,h),其中概率最大的译文后缀x*就是系统预测的译文,将作为建议提供给用户。用户可以接受、修改或忽略这些建议。实验结果表明,Trans-Type系统使用户得到正确译文所需的键盘敲击次数大幅减少。

2002年,Foster[33]发现,在 TransType系统中,虽然用户的键盘敲击次数减少了,但是翻译效率反而降低了,原因有两个:第一,用户阅读系统的提示占用了很长时间,因此当提示不正确或过短时,系统反而降低了用户的翻译效率;第二,用户不总是理性对待提示,他们有时候会接受错误的提示,拒绝正确的提示。针对上述问题,Foster对系统进行了改进,不再在输入每个字符后都进行提示,而只进行可以最大化用户期望收益B(x,s,h)的预测。系统改进后,用户的翻译效率平均提高了10%。此后又有多名研究人 员[9-12,34-42]对该系统进行了不断的分析和优化,包括利用词图[9,34]或动态规划算法[35]来提高最优预测的搜索效率,利用用户的鼠标点击信息[12]、缓存记录[36]、译文可信度[37-38]和语音识别信息[40]来提高系统预测的准确性等。

2.2 译后编辑

由于机器翻译的译文质量难以达到实用化要求,因此早在20世纪80年代,人们就已经开始对机器翻译结果进行译后编辑。

关于译后编辑的定义,Veale[43]认为是“人类语言学家/编辑人员对机器翻译输出的修正”。OB-rien[6]则将其定义为“修改机器翻译译文中的错误,以保证目标译文达到一定的质量要求的行为”。

在计算机辅助翻译系统中,译后编辑可以使辅助译文的质量达到可用程度,且保证术语的标准化。译后编辑结果可作为反馈来即时优化机器翻译引擎,自动修改一些重复性错误或可预知错误,改善辅助译文质量,用户也可以通过译后编辑工作迅速提高自身的翻译水平[44]。但是,译后编辑也可能带来一些负面作用,例如,用户可能会习惯糟糕的机器翻译结果,对一些错误视而不见[45]。另外,为了提高翻译生产率,需要限制用户修改的范围,同时使用户的压力增大,且难以一直保持非常高的生产率水平。

2.2.1 对译后编辑的要求

Wagner[46]指出,对译后编辑的一般要求是,包含尽可能多的原始译文、不要在一个问题上犹豫太久、不要担心风格是否重复、不要从事耗费时间的术语研究,以及只在必要时进行修改。

Senez[47]也列举了对译后编辑的一些要求,指出译后编辑的一个重要问题是保证译文的可靠性,即必须采取措施,排除掉机器翻译带来的任何对源文本的曲解,保证读者得到一个语法正确而且忠实反映源文本意思的译文,这比提高译文的可读性更加重要。另外,也不必为提高译文的典雅性而浪费太多时间。

2.2.2 译后编辑的分类

一般来讲,译后编辑可分为两类[45]。一类是快速译后编辑(Fast PE,也可称为Gist PE、Rapid PE、Light PE),即速度快,且只进行必要修改的译后编辑。其特点是,在保证准确传递信息的前提下,对译文的语法、风格、术语、连贯性等质量要求较宽松,而对翻译生产率的要求较高。另一类是完全译后编辑(Full PE),即需要为满足较高的质量要求而进行更多修改的译后编辑。

在实践中,具体采用哪类方法进行译后编辑需要视具体翻译任务而定,一般应考虑用户需求、质量期待、时间要求和译文功能等因素。但是,Doyon等人[48]的研究结果表明,从译文的可用性来看,快速译后编辑和完全译后编辑的差别并不明显。

2.2.3 译后编辑人员的训练

译后编辑是一项新的工作,许多翻译人员对此还一无所知,在这方面的信息和训练也很少。为了成为一名好的译后编辑人员,需要学习很多新的方法和工具,要求更高的生产率,且翻译时自由创造的空间较小。

对译后编辑人员的技能要求除了包括与一般翻译人员相同的要求,如熟练掌握源语言和目标语言、具备特定领域的专业知识和文本处理技能之外,还应该有一些特殊的要求[44,49],如具备较强的容忍度、对机器翻译持有积极态度、具有一定的机器翻译知识、术语管理技能(包括词典编纂、语料质量评价、术语工具的使用等)、受限语言(Controlled Language,CL)的使用技能,以及基本的编程技能等。

2009年,在国际机器翻译峰会上,Batoma等人[50]指出,计算机辅助翻译将成为未来的发展趋势,人们应关注如何培养训练翻译人员以使之胜任技术驱动的环境下的翻译工作。

2.2.4 译后编辑效率的影响因素

译后编辑的效率受到多种因素的影响和制约,例如,辅助译文的质量、翻译人员的经验和翻译人员的母语[48]等。除此之外,Martínez[51]还指出了一些其他因素,包括:①计算机辅助翻译系统所提供的辅助工具是否有效、界面是否友好;②是否遵循了合理的流程来进行译后编辑;③翻译之前是否对数据进行了充分的分析,是否创建了用户词典;④所生成的辅助译文是否可信。

Aikawa等人[52]研究了受限语言、机器翻译质量和译后编辑之间的关系,验证了使用受限语言可以提高机器翻译质量,且提高译后编辑效率的假设。

2.2.5 译后编辑数据采集与分析

翻译人员在译后编辑过程中生成大量的行为数据,这些数据是很有价值的线索,可以反映出人类在翻译活动中的思维过程,以及译文中哪些部分给用户带来了翻译困难。这些信息有助于优化计算机辅助翻译系统,给用户提供更有效的辅助。

译后编辑行为数据的采集分为两个方面:操作和认知。操作行为主要指翻译人员的键盘和鼠标等操作,认知行为指的是译后编辑期间发生的人类认知过程的行为。认知行为数据虽然无法直接观察到,但可以部分从操作行为数据中分析、推断得到。

在操作行为方面,Translog[53]是一个有效的采集工具。Translog是记录键盘输入过程的程序,它可以在不干扰用户的前提下,准确记录所有按键的活动,包括修改、删除、增加、剪切、复制、光标移动、电子词典查询等,并能记录按键活动的时间。同时还提供线性表示,通过一系列符号来描述文字输入过程中的各种活动。Carl等人[54]利用Translog所采集的数据,研究了翻译过程的属性。实验数据显示,人类的翻译过程明显分为三个阶段:理解主旨(Gisting)、草拟译文(Drafting)和译后编辑,有经验的翻译人员在译后编辑阶段花费的时间较长。

在认知行为的采集和分析方面,Carl[55]认为,眼球移动可以在一定程度上反映翻译认知过程。例如,阅读通常是从左至右进行的,直至在行末返回下一行,而当用户暂时面临理解困难时,将会长时间地盯住一个词,或往回移动眼球来重新阅读和思考。Koehn[56]则认为,用户的键盘和鼠标操作中的“停顿”可以反映其翻译认知心理,并利用Caitra系统所记录的操作数据,研究了不同长度的“停顿”代表的含义,例如,短于2秒的停顿通常是操作间歇,2~6秒的停顿表示犹豫,6~60秒的停顿表示用户在思索并规划下一步操作,更长的停顿表示用户遇到了难题。

2.3 系统反馈学习

计算机辅助翻译系统的特点和优势之一在于系统和用户之间可以进行交互,用户对系统提供的辅助译文进行验证和校改,并反馈给系统。系统应该对这种反馈信息加以充分利用,不断完善自身的翻译知识体系,提高翻译性能,避免重复生成同样的错误。从反馈中学习的能力是体现计算机辅助翻译系统性能的重要指标之一。

系统进行自我完善的途径有两种。一种是基于自动译后编辑(Automatic Post-Editing,APE)的方法,即从反馈中学习出翻译知识,建立一个译后编辑模型,自动发现系统产生的译文中存在的错误,并对译文进行修改,相当于自动完成译后编辑过程。在这种策略下,系统的翻译引擎并不发生改变。另一种是基于在线学习(Online-Learning)的方法,批量处理用户的反馈信息,不断从中学习,并即时调整系统的机器翻译引擎的各项参数,使其得到实时优化。

2.3.1 基于自动译后编辑的方法

自动译后编辑模型是由系统从反馈中学习到的翻译知识构成的。根据知识表示形式的不同,可以分为基于模板匹配的方法和基于统计机器学习的方法。

2.3.1.1 基于模板匹配的方法

此类方法以模板/规则形式来表示翻译知识,并用模板匹配的方式来修改译文。

Nishida等人[57]提出PECOF系统,将译后编辑的修改作为反馈,从中自动学习模板来提高机器翻译引擎的性能。在几个实例句子上的实验结果表明,PECOF可以修改一些错误,但也可能修改失败。Guzman[58]提出利用正则表达式进行自动后编辑,用人工制定的模式匹配修改了一些语言学错误,但有时也会带来新的错误。Elming[59]使用基于转换的学习(Transformation-Based Learning,TBL)来自动获取错误修改规则,但是该方法只适用于改正选词错误,且需要对原始句子和修改后的句子进行词对齐。

2009年,Groves等人[60]通过分析微软 Treelet机器翻译引擎的机器译文及其译后编辑结果,识别出一系列译后编辑模板(包括基于字符串和基于成分的模板),其中基于字符串的模板是利用动态规划方法,寻找由原始句子出发,到达最终正确译文的编辑距离最小的修改路径,从中自动提取模板。实验证明,这些模板有助于提高机器翻译引擎的性能和译后编辑的工作效率。

2.3.1.2 基于统计机器学习的方法

在此类方法中,翻译知识被表示为统计模型的形式。2007年Simard等人[61]将机器翻译引擎的翻译结果作为源语言,将译后编辑结果作为目标语言,训练一个统计机器翻译模型作为自动译后编辑系统。在翻译时,首先用机器翻译引擎将源文本翻译出来,然后用训练出的统计机器翻译模型对机器翻译译文进行再次翻译,即自动译后编辑。实验结果表明,经过自动译后编辑后,译文的TER值大大降低,BLEU值提高。

Dugast等人[62]对将上述技术引入SYSTRAN系统的实验结果进行了深入分析,统计了该自动译后编辑系统的改词率和改句率。实验结果表明,约98%的句子都被修改了,而改词率相对较低(约30%)。从译文结构来看,修改后的译文结构与原始SYSTRAN译文结构基本相同。译文质量提高最明显的是词汇方面。在语法方面,改正和改错的情况都很多,导致最终提高不大。另外,未发现长距离的结构调整和语序调整,且局部调序的改错率也较高。这表明该方法对于改正译文中的选词错误较为有效,而对译文的调序错误作用不太明显。

2.3.2 基于在线学习的方法

此类方法的主要思想是利用在线学习技术,从用户的反馈中实时获取翻译知识,优化机器翻译引擎的各项参数或知识库。翻译知识可以从用户的译后编辑过程中自动学习得到,也可以通过对比原始辅助译文与修改后所生成的正确译文得到。

黄河燕等人[63]描述了一个智能译后编辑系统的设计原理和实现算法。该系统将意段作为编辑处理的基本单位,并且可以形成编辑反馈信息,提供给知识处理模块。

Llitjos等人[64]通过实时追踪辅助译文中错误的位置,对原始机器翻译引擎的规则库和词典进行修改,相当于从译后编辑过程中即时学习。但该方法要求用户使用TCTool工具进行译后编辑,才能完成错误追踪,给用户带来了一定制约。

Bianchi等人[65]将一个在线学习模块整合入Portage统计机器翻译引擎。用户通过Trados系统提供的界面对机器翻译译文进行译后编辑。学习模块实时调整短语表内的权重等参数,来优化机器翻译引擎。

Martinez等人[66]提出,利用在线学习技术,在用户每次完成一批译文的译后编辑后,实时调整和更新基于对数线性模型的统计机器翻译引擎中各项参数的估计值,使产生的辅助译文质量不断提高,进而使用户的翻译效率不断增长。与Bianchi[65]的方法相比,该方法的可扩展性更强,对机器翻译引擎的优化更为全面。

3 协同翻译技术

从研究现状可以看出,计算机辅助翻译技术的研究正在逐步深化并取得了一定的成果,然而,翻译规模的急速增长迫使人们开始关注多名用户共同完成一项大规模翻译任务的情况,即协同翻译。协同翻译与计算机辅助翻译技术之间有一定的关联,也存在着显著的差异。

3.1 计算机辅助翻译与协同翻译

在协同翻译系统中,对于每个独立用户而言,其翻译过程和翻译环境与使用计算机辅助翻译系统时并没有太大差别,用户仍然从系统那里得到自动产生的辅助译文,在辅助工具的帮助下进行译后编辑,最后提交给系统。但对于协同翻译系统而言,与计算机辅助翻译系统存在着本质的区别,即用户的群体性,多名用户共同完成一项翻译任务,并且不同用户的翻译水平、翻译经验和教育背景等属性都各有不同。协同翻译系统必须充分考虑这种用户的个性化差异,在与用户的交互过程中,逐步对不同用户的翻译状态形成深入了解,才能给每名用户提供最符合他们的个性化特点和需求的翻译任务、辅助译文、辅助工具乃至质检方案等辅助,发挥不同用户的优势,使多用户协同工作的效率达到最高。另外,由于存在多个用户,系统从不同用户的反馈中学习的翻译知识的有效性和整体翻译结果的一致性也需要得到更有效的检查和保证。

综上所述,本文第2部分介绍的计算机辅助翻译的关键技术对于协同翻译系统也极为重要,但协同翻译系统对这些技术又提出了更高的要求。

在辅助译文生成方面,面对相同的源语句,计算机辅助翻译系统给每个用户生成同样的辅助译文。但翻译认知心理学的研究成果表明,不同的译者面对相同的语篇可能产生不同的心理模型[67]。反映在协同翻译中就是不同用户对系统所提供的辅助译文有着不同的需求。例如,辅助译文的句式和选词应符合用户的个性化翻译习惯和知识体系,辅助译文的表示形式应符合用户的个性化翻译心理等。

在译后编辑方面,计算机辅助翻译系统提供的译后编辑环境是固定的,但不同用户对译后编辑的辅助工具、辅助方式和界面风格等均有不同需求,且受到翻译经验、翻译对象和翻译过程的影响。协同翻译系统应能根据用户的交互行为和翻译状态,预测不同用户在不同翻译阶段对译后编辑辅助模式的不同需求,将系统的辅助以合适的方式,在合适的时机提供给用户。

在系统反馈学习方面,与计算机辅助翻译系统相同,协同翻译系统也能够从用户的反馈中学习翻译知识,而且用户的群体性使协同翻译系统能学到更多的翻译知识,知识积累的效率也更高。但是这个特性也会造成来自不同用户的翻译知识之间存在冲突的问题。因此,协同翻译系统还应具备判定翻译知识可信度的能力,只接受最可信的翻译知识,提高翻译知识的准确性。

此外,协同翻译还涉及以下关键技术。

(1)协作策略确定。研究用户与用户、用户与系统之间怎样协同工作,并避免用户在协作过程中产生翻译行为冲突;

(2)协同任务分配。研究如何将翻译任务进行分解,并分配给合适的用户,使整体翻译效率最高;

(3)协同质检。研究如何从用户的质检历史中分析用户的错误倾向,对用户进行有针对性的个性化质检。

3.2 现有研究

王建德等人[68]介绍了一种基于协同机制的多用户交互翻译系统的设计框架,用户与系统之间采用客户—服务器的方式进行协作,用户之间通过互相发送请求或在系统公共数据区发布信息来进行协作。系统将所学习的翻译知识分为公共知识和个性化知识,在客户端上存放了一些用户的个人信息,并结合用户的翻译经验、工作时间和翻译工作量等参数,综合判定用户的优先级,一定程度上实现了对用户状态的了解和协调控制。

Murata等人[69-70]构建了基于 Web的 Yakushite Net协同翻译系统,其中来自不同领域的用户可以协作改进在线机器翻译引擎的系统词典,并实时共享。

Bey等人[71]借鉴 Wiki技术,实现了 TRANSBey协同翻译环境,供翻译志愿者在线协同完成一些翻译任务。该系统很好地发挥了Wiki技术的优势(即允许多名用户自由创建并编辑网页内容,且有简单的句法来创建新网页和已有网页间的关联),为协同翻译系统中的协作策略提供了一种新的思路。

张桂平等人[72]提出了基于知识管理和智能控制的协同翻译技术,其中通过创建用户模型,使系统实现了以用户为核心的决策优化。用户模型由用户行为模型和用户状态模型组成,行为模型描述了用户在翻译过程中的动作和决策,提高了翻译知识积累和应用的有效性,状态模型描述了用户的特征和属性,为协同任务分配、协同质检和翻译知识有效性判定提供了依据。用户模型的建立和应用使协同翻译系统中人机协同的效率和用户的翻译能力得到了同步增长。该平台在大规模科技资料翻译工程实践中取得了显著的应用效果。

还有一些研究人员针对双语译员缺乏的问题,研究如何使单语用户协同完成翻译任务。

Morita等人[73]描述了一个协同翻译系统,可以使源语言和目标语言的单语在线用户协作进行翻译,其中对目标语言和源语言的用户进行了明确的分工,前者负责保证译文的“流畅性”(对机器翻译译文进行修改,使之可读,再由机器翻译引擎将译文翻译回源语言),后者保证译文的“正确性”(确认新产生的源语言句子与原始语句的意思是否相同。若不同,则对原始语句进行改写,再由机器翻译引擎进行翻译,返回给目标语言用户)。该系统充分发挥了两种语言的单语用户在翻译中的不同作用。

Bederson等人[74-75]也提出了一种单语用户协同翻译的策略,首先,源语言句子被机器翻译引擎翻译为目标语言,然后由目标语言的母语者尽力猜想其意思,修改(增加信息)后再由机器翻译引擎翻译回源语言,返回源语言母语者,继续猜想意思并修改,重复该过程直至译文被双方认可为止。

4 结论与展望

本文对计算机辅助翻译和协同翻译技术进行了综述。目前协同翻译系统虽然已经走向大规模真实应用,但一些核心技术仍有待进一步研究和探索。可以预见,以下技术将成为未来的研究重点。

(1)翻译心理学研究。人类用户是协同翻译系统的核心。无论辅助译文的生成、辅助工具的选择,还是界面风格的设计,均需充分考虑用户的翻译过程、翻译习惯等心理因素,因此对人类翻译真实心理过程的研究将对协同翻译系统的设计具有很高的研究价值。

(2)用户角色控制技术研究。不同状态的用户在协同翻译过程中适合不同的角色,现有系统已经根据用户的母语对单语用户进行了分工,将来还应研究如何利用用户的更多属性,进行更为深入、细化的分工。

(3)译文一致性检查技术研究。用户的群体性使得最终译文中可能存在冲突,目前一些协同翻译系统通过术语规范化等方法进行了控制,但仍无法完全保证翻译结果的一致性,需要进一步研究如何自动检测译文中相互冲突的语言点。

(4)协同翻译流程研究。协同翻译是一项大规模、复杂的翻译任务,合理的流程设计和严格的过程控制可以充分发挥计算机在运算和存储方面的优势,降低用户工作量,减少重复劳动的几率,对于进一步扩大翻译规模、提高翻译生产率具有重要作用。

[1]陈群秀.计算机辅助翻译系统漫谈[C]//第十一届全国民族语言文字信息学术研讨会论文集,2007.

[2]Papineni K,Roukos S,Ward T,et al.BLEU:a Method for Automatic Evaluation of Machine Translation[C]//Proceeding of the 40th ACL,2002:311-318.

[3]Doddington G.Automatic evaluation of machine translation quality using n-gram co-occurrence statistics[C]//Proceeding of the ARPA Workshop on Human Language Technology,2002:128-132.

[4]Turian JP,Shen L,Melamed ID.Evaluation of Machine Translation and Its Evaluation[C]//Proceeding of MT Summit IX,2003:386-393.

[5]Krings HP.Repairing Texts:Empirical Investigations of Machine Translation Post-editing Processes[M].Kent State University Press:Koby GS,2001.

[6]O'Brien S.Methodologies for Measuring the Correlations between Post-Editing Effort and Machine Text Translatability[J].Machine Translation,2005,19(1):37-58.

[7]Kussmaul P,Tirkkonen-Condit S.Think-Aloud Protocol Analysis in Translation Studies[J].TTR,1995,8(1):177-199.

[8]Campbell S.Choice Network Analysis in Translation Research[C]//Processes of the Intercultural Faultlines:Research Models in Translation Studies:Textual and Cognitive Aspects,2000:29-42.

[9]Och FJ,Zens R,Ney H.Efficient Search for Interac-tive Statistical Machine Translation[C]//Proceeding of EACL 2003,2003:287-293.

[10]Civera J,Vilar JM,Cubel E,et al.From Machine Translation to Computer Assisted Translation using Finite-state Models [C]//Proceeding of EMNLP 2004,2004:349-356.

[11]Hasan S,Khadivi S,Zens R,et al.A Flexible Architecture for CAT Applications[C]//Proceeding of EAMT 2006,2006:81-88.

[12]Sanchis-Trilles G,Ortiz-Martinez D,Civera J,et al.Improving Interactive Machine Translation via Mouse Actions[C]//Proceeding of EMNLP 2008,485-494.

[13]Snover M,Dorr B,Schwartz R,et al.A Study of Translation Edit Rate with Targeted Human Annotation[C]//Proceeding of AMTA 2006,2006:223-231.

[14]Tatsumi M.Correlation between automatic evaluation metric scores,post-editing speed,and some other factors[C]//Proceeding of MT Summit XII,2009:332-339.

[15]Melby AK.Computer-assisted Translation Systems:The Standard Design and a Multi-level Design[C]//Proceeding of the 1st ANLP,1983:174-177.

[16]Bowker L.Computer-Aided Translation Technology:A Practical Introduction[M].University of Ottawa Press:2002.

[17]Craciunescu O,Gerding-Salas C,Stringer-O'Keeffe S. Machine Translation and Computer-assisted Translation:a New Way of Translating[J].Translation Journal,2004,8(3).

[18]Macklovitch E,Simard M,Langlais P.TransSearch:A Free Translation Memory on the World Wide Web[C]//Proceeding of the LREC 2000,2000:1201-1208.

[19]Wu JC,Chuang TC,Shei WC,et al.Subsentential Translation Memory for Computer Assisted Writing and Translation[C]//Proceeding of the 42nd ACL,2004.

[20]Sun L,Zhang Y,Zhang J,et al.PECAT:A Computer-Aided Translation Tool Based On Bilingual Corpora[C]//Proceeding of the IEEE SMC 2001,2001:927-932.

[21]Bi ici E,Dymetman M.Dynamic Translation Memory:Using Statistical Machine Translation to Improve Translation Memory Fuzzy Matches[C]//Proceedings of CICLing 2008,2008:454-465.

[22]Simard M,Isabelle P.Phrase-based Machine Translation in a Computer-assisted Translation Environment[C]//Proceedings of MT Summit XII,2009.

[23]He Y,Ma Y,Genabith JV.Bridging SMT and TM with Translation Recommendation[C]//Proceeding of the 48th ACL,2010:622-630.

[24]常宝宝,张伟.机器翻译研究的现状和发展趋势[J].术语标准化与信息技术,1998,(2):32-35.

[25]Kay M.The MIND system[J].Natural Language Processing,1973:155-188.

[26]Tomita M.Feasibility Study of Personal/Interactive Machine Translation Systems[C]//Proceeding of TMI-1,1985:289-297.

[27]Whitelock PJ,Wood MMG,Chandler BJ,et al.Strategies for Interactive Machine Translation:the Experience and Implications of the UMIST Japanese Project[C]//Proceeding of COLING 1986,1986:329-334.

[28]Melby A.On Human-machine Interaction in Translation[J].Machine Translation,1987:145-154.

[29]Zajac R.Interactive Translation:A New Approach[C]//Proceeding of COLING 1988,1988:785-790.

[30]Brown RD,Nirenburg S.Human-computer Interaction for Semantic Disambiguation[C]//Proceeding of COLING 1990,1990:42-47.

[31]Yamron J,Baker J,Bamberg P,et al.LINGSTAT:An Interactive,Machine-Aided Translation System[C]//Proceeding of the Workshop on Human Language Technology,1993:191-195.

[32]Foster G,Isabelle P,Plamondon P.Target-text Mediated Interactive Machine Translation[J].Machine Translation,1997,12(1):175-194.

[33]Foster G.Text Prediction for Translators[D].Canada,Universite de Montreal,2002.

[34]Bender O,Hasan S,Vilar D,et al.Comparison of Generation Strategies for Interactive Machine Translation[C]//Proceeding of the 10th EAMT,2005:33-40.

[35]Langlais P,Foster G,Lapalme G.TransType:a Computer-aided Translation Typing System [C]//Proceeding of the NAACL/ANLP Workshop on Embedded Machine Translation Systems,2000:46-52.

[36]Nepveu L,Philippe L,Lapalme G,et al.Adaptive Language and Translation Models for Interactive Machine Translation[C]//Proceeding of the 9th EMNLP,2004:190-197.

[37]Ueffing N,Ney H.Application of Word-level Confidence Measures in Interactive Statistical Machine Translation[C]//Proceeding of the 10th EAMT,2005:262-270.

[38]Gonzalez-Rubio J,Ortiz-Martinez D,Casacuberta F.Balancing User Effort and Translation Error in Interactive Machine Translation Via Confidence Measures[C]//Proceeding of the 48th ACL,2010:173-177.

[39]Tomas J,Casacuberta F.Statistical Phrase-based Models for Interactive Computer-assisted Translation[C]//Proceeding of the Coling/ACL 2006,2006:835-841.

[40]Khadivi S.Statistical Computer-Assisted Translation[D].Ph.D.thesis,RWTH-Aachen University,2008.

[41]Ortiz-Martinez D,Garcia-Varea I,Casacuberta F.Interactive Machine Translation based on Partial Statistical Phrase-based Alignments[C]//Proceeding of RANLP 2009,2009:330-336.

[42]Barrachina S,Bender O,Casacuberta F,et al.Statistical Approaches to Computer-assisted Translation[J].Computational Linguistics,2009,35(1):3-28.

[43]Veale T,Andy W.Gaijin:A Template-Driven Bootstrapping Approach to Example-Based Machine Translation[C]//Proceeding of the NeMNLP 1997,1997.

[44]Koehn P.Enabling Monolingual Translators:Post-Editing vs.Options[C]//Proceeding of NAACL 2010,2010:537-545.

[45]O'Brien S,Roturier J,Almeida G.Postediting Machine Translation Output[C]//Proceeding of MT Summit XII,2009.

[46]Wagner E.Rapid Post-Editing of Systran[C]//Proceeding of Tools for the Trade:Translating and the Computer,1985:199-213.

[47]Senez D.Post-Editing Service for Machine Translation Users at the European Commission[C]//Proceeding of Translating and the Computer,1998.

[48]Doyon J,Doran C,Means D,et al.Automated Machine Translation Improvement Through Post-Editing Techniques:Analyst and Translator Experiments[C]//Proceeding of the 8th AMTA,2008:346-353.

[49]O'Brien S.Teaching Post-Editing:A Proposal for Course Content[C]//Proceeding of the 6th EAMT Workshop Teaching Machine Translation,2002:99-106.

[50]Batoma PP,Girju R,Lowe E.Educating and Assessing the Human Translator in an Age of Technology[C]//Proceeding of MT Summit XII,2009.

[51]Martínez LG. Human Translation versus Machine Translation and Full Post-Editing of Raw Machine Translation Output[D].Dublin City University,2003.

[52]Aikawa T,Schwartz L,King R,et al.Impact of Controlled Language on Translation Quality and Postediting in a Statistical Machine Translation Environment[C]//Proceeding of MT Summit XI,2007:10-14.

[53]http://www.translog.dk/

[54]Carl M,Kay M,Jensen K.Long-distance Revisions in Drafting and Post-editing [C]//Proceeding of CICling 2010,2010:193-204.

[55]Carl M.Grounding Translation Tools in Translator's Activity Data[C]//Proceeding of MT Summit XIIWorkshop: Beyond Translation Memories: New Tools for Translators,2009.

[56]Koehn P.A Web-based Interactive Computer Aided Translation Tool[C]//Proceeding of the ACL-IJCNLP 2009Software Demonstrations,2009:17-20.

[57]Nishida F,Takamatsu S.Automated Procedures for the Improvement of a Machine Translation System by Feedback from Post-editing[J].Machine Translation,1990,5(3):223-246.

[58]Guzman R.Automating MT Post-editing using Regular Expressions[J].Multilingual Computing,2007,18(6):49-52.

[59]Elming J.2006.Transformation-based Corrections of Rule-based MT[C]//Proceeding of the 11th EAMT,2006.

[60]Groves D,Schmidtke D.Identification and Analysis of Post-Editing Patterns for MT[C]//Proceeding of MT Summit XII,2009.

[61]Simard M,Goutte C,and Isabelle P.Statistical Phrase-Based Post-Editing [C ]//Proceeding of NAACL 2007,2007:508-515.

[62]Dugast L,Senellart J,Koehn P.Statistical Post-editing on SYSTRAN's Rule-based Translation System[C]//Proceeding of WMT 2007,2007:220-223.

[63]黄河燕,陈肇雄.一种智能译后编辑器的设计及其实现算法[J].软件学报,1995,(03):129-134.

[64]Llitjós AF,Carbonell JG.Automating Post-Editing to Improve MT Systems[C]//Proceeding of the AMTA Automated Post-Editing Techniques and Applications Workshop,2006.

[65]Cesa-Bianchi N,Reverberi G,Szedmak S.Online Learning Algorithms for Computer-assisted Translation[R].Deliverable D4.2,SMART Project,2008.

[66]Ortiz-Martinez D,Garcia-Varea I,Casacuberta F.Online Learning for Interactive Statistical Machine Translation[C]//Proceeding of NAACL 2010,2010:546-554.

[67]颜林海.翻译认知心理学[M].科学出版社,2008.

[68]王建德,陈肇雄,黄河燕.基于协同机制的多用户交互翻译系统的设计与实现[C]//第六届计算机科学与技术研究生学术讨论会论文集,2000.

[69]Shimohata S,Kitamura M,Sukehiro T,et al.Collaborative Translation Environment on the Web[C]//Proceeding of MT Summit VIII,2001:331-334.

[70]Murata T,Kitamura M,Fukui T,et al.Implementation of Collaborative Translation Environment‘Yakushite Net’[C]//Proceeding of MT Summit IX,2003.

[71]Bey Y,Boitet C,Kageura K.The TRANSBey Prototype:An Online Collaborative Wiki-Based CAT Environment for Volunteer Translators[C]//Proceeding of the 3rd International Workshop on Language Resources for Translation Work,Research &Training,2006:49-54.

[72]张桂平,蔡东风.基于知识管理和智能控制的协同翻译平台——知识管理和机器翻译的融合[J].中文信息学报,2008,22(5):3-11.

[73]Morita D,Ishida T.Collaborative Translation by Monolinguals with Machine Translators[C]//Proceeding of the 13th International Conference on Intelligent User Interfaces(IUI),2009:361-366.

[74]Hu C.Collaborative Translation by Monolingual Users[C]//Proceedings of the 27th International Conference Extended Abstracts on Human Factors in Computing Systems,2009:3105-3108.

[75]Bederson BB,Hu C,Resnik P.Translation by Iterative Collaboration between Monolingual Users[C]//Proceeding of Graphics Interface (GI)Conference,2010.

猜你喜欢

译文辅助协同
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
家校社协同育人 共赢美好未来
小议灵活构造辅助函数
倒开水辅助装置
蜀道难:车与路的协同进化
基于大数据分析的易混淆车辅助识别系统设计与实现
“四化”协同才有出路
弟子规
弟子规
三医联动 协同创新