多策略融合的机器翻译系统研究
2018-08-16高梦璐
高梦璐
【摘要】目前单一策略的机器翻译系统发展过程中遇到瓶颈,译文质量并没有获得较大提高。该文章从共享经济中得到启示,提出融合多种策略的方法来提升机器翻译系统的性能,促进多种策略和语料库的有效利用,在目前较为有效的三种融合方法基础上,根据客户实际需求可以选择便利的单一策略或者有多重译文选择的多种策略融合方式。对多策略的机器翻译系统的研究有助于促进机器翻译系统的突破瓶颈,提供更符合不同用户需求的译文。
【关键词】机器翻译;融合策略;语料库;对症下药
一、引言
在当今机器翻译领域,语义句法知识的欠缺始终难以使基于规则的翻译系统获得突破。虽然基于语料库的翻译系统已能达到较理想的程度,满足小部分人的需求,但是语言研究的忽视和仅靠计算机学者付出的努力,还是难以使机器翻译质量取得较大的发展。近年来出现的共享型经济也为机器翻译系统的进一步发展提供了新思路,即机器翻译系统也可以共享多个语料库并且同时使用多种策略。因此,对于多策略融合的机器翻译策略研究,有助于促进机器翻译领域开启合作共享模式,帮助机器翻译获得更令人满意的译文。
二、多策略融合的机器翻译系统的未来发展
1.发展多策略融合机器翻译系统的必要性。当今社会中,共享型经济颇为盛行,共享式发展体现的是一种资源的有效利用,合作共赢。在基于某一种方式的机器翻譯系统发展陷入停滞时,选择“合作”也未尝不是一个好的选择。从概念上来讲,“共享型经济”是将个体所拥有的资源作为一种沉没成本的闲置资源进行社会化利用的一种商业模式。这实际上是将特定物品在不同需求者间实现使用权移转。如果是对机器翻译系统的多种策略系统和语料资源进行“共享”,这实质上是一种无形资产的分享,将大大促进对资源的高效利用,使得机器译文质量获得更高的满意度,从而满足更多使用者的需求。共享经济关键在于如何实现最优匹配,解决技术和制度问题。反观机器翻译系统的融合也有很多类似的困难要克服。如融合多种策略时能否将多种策略实现“最优配置”,多策略融合时带来的时间增加和性能消耗的技术问题,如何能够使语料库等资源充分流动起来同时又能保护各自资源所有者的合法权益等。
2.多策略机器翻译融合方法的探究。尽管目前对多策略融合的机器翻译系统表示怀疑的学者很多,但目前已有学者融合多种翻译策略生成了更为优质的多策略翻译系统,并且得出的译文质量比单一策略翻译系统得到的结果有明显提升,这都表明了机器翻译系统策略融合的可行性和有效性。多策略机器翻译的主要功能是扬长避短,同时使不同的策略协调运作。目前有三种较为有效的融合方法有,
(1)模块级策略融合。模块级策略融合指以一种翻译系统为主,在一个系统中融合不同翻译系统的模型。例如,同时融合基于规则的分析模块,基于统计的后编辑模块等多种翻译系统中性能最好的部分。
(2)系统级策略融合。系统级融合策略又称混合机器翻译,主要是在译文后处理或整个翻译过程中,融合多个机器翻译引擎的译文,从中组合出更好的译文。按照融合的阶段可分为后处理系统融合和模型间融合。后处理融合,可以在句子、短语或者词层面上进行,也可以在三个层面中同时进行。模型间融合是把两个优势互补的翻译模型结合在一起,以提高机器翻译的性能。
(3)人机交互融合。交互式机器翻译可以使人工译员参与机翻译过程并起到“决策”作用。人工译员可以采用、修改或者直接舍弃机器翻译得到的译文,之后机器会从人工译文中学习并不断完善自己的译文,经过几次循环,机器翻译便可“自己学习”从而提升自己的翻译质量,直至符合人工译员的评判标准。
3.翻译策略融合要“对症下药”。融合多种策略对机器的性能要求会变高,时间的消耗也会成幂式增长,在融合过程中,这些弊端都亟待解决。因此笔者认为,考虑到不同客户的实际需要并且能够使多种策略融合的翻译系统具有更广的适用性,因此是否选择融合多种策略可以考虑两种方案,一是根据用户目的为用户自动选取最快捷的单一策略,二是为无特殊需求的用户提供多种策略的译文供用户选择。
以翻译记忆库为例。翻译记忆库是基于语料库的机器翻译系统中的一种,这种翻译记忆库对专家和专业学者来说更为适用。因为该系统可根据历史翻译资源“记忆”译文。此类学者在撰写学术论文时,用到的较生僻的词汇,能在用户的使用过程中被迅速添加到记忆库中,当用户再次翻译相同或相似的内容时,翻译记忆库中的译文就会显现在用户面前,供用户参考。用户也可以在参考译文中进行编辑修改,这样的源语言和目标语言翻译资源又会再次存入记忆库中,因此这种翻译记忆就能够“辅助”某一方向或者领域的专业学者记录该学者或该领域的专业对应译文,节省许多高频词的翻译时间,而多策略融合的机器翻译系统则会消耗更多的内存和时间。此时这样的翻译记忆库则是最适合这些专家学者的翻译系统工具。
如果说提供单一策略的方案适合具体领域的专家学者,那么基于共享型语料库的多策略融合机器翻译系统则具有更好的普适性。既汲取各系统模型之长,又拥有更丰富的语料库资源,这样的基于共享型语料库的多策略融合机器翻译系统能够适应不同文体不同语境下的翻译任务。
三、结语
目前我们看到,多策略融合的机器翻译已成为未来机器翻译的重要研究方向。在众多对多策略翻译系统表示不赞成的学者看来,多种翻译引擎融合后得到的译文质量参差不齐。但笔者认为,虽然译文由于多种策略提供的组合结果会导致句子的连贯性被打破,但不代表这样的译文在质量上并没有丝毫的提升。所以,在未来机器翻译系统发展的同时,译文的评测方法也需进一步加深探究。此外,在未来的多策略融合机器翻译系统中,笔者认为还有如下几个方面需要重点关注:
在选择翻译模型时要避免选择相似性较大的翻译模型或者翻译质量较差的模型,而应该选择在不同的方面表现卓越但又存在明显弊端的多个翻译系统进行互补融合。
在某一系统中融合多个翻译策略虽能提升译文的质量水平但占用内存和时间消耗的明显弊端也需要合适的解决方案。因此,如何能够做到既兼顾效率又提高系统的鲁棒性就显得尤为重要。
目前的翻译系统中缺乏上下文、语篇文本分析功能等问题,应从语言研究中入手,从根基上找到解决机器翻译系统无“语法语义”思想的方法。
然而,虽然多种策略的融合目前还存在很多问题,但是多种语料库的共享和更多的翻译引擎的融合必将为机器翻译的发展注入新的动力,促进译文质量实现质的飞跃的同时获得更多用户的青睐。
参考文献:
[1]汪云,周大军.基于语料库的机器翻译的现状与展望[J].考试与评价(大学英语教研版),2017(05):45-50.
[2]杜金华,张萌,宗成庆,等.中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望[J].中文信息学报,2013, 27(4):1-8.
[3]张亚鹏,叶娜,蔡东风.利用句法信息改进交互式机器翻译[J].中文信息学报,2017,31(02):42-48.
[4]李业刚,黄河燕,史树敏.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9.
[5]郭俊博,张喜媛,杜金华.N-Best句法知识增强的统计机器翻译预调序模型[J].计算机工程与应用,2016,52(17):160-165.
[6]刘群.机器翻译研究新进展[J].当代语言学,2009,11(02):147-158+190.