译者视角的当代机器翻译发展综述
2020-03-23郁林音
郁林音
摘要:為了进一步打破机器翻译研究领域中翻译学科与计算机学科之间的界限,从译者视角概括了机器发展的主要脉络、当今神经网络机器翻译发展的现状和新动向,总结了现有神经机器翻译的实际应用,从译者角度分析其优势和弱项,并提出对未来神经机器翻译发展的展望和建议,希望能帮助广大译者更深入地了解这一新技术。
关键词:机器翻译 翻译理论与实践 神经机器翻译 谷歌翻译 译者视角
中图分类号:H085 文献标识码:A 文章编号:1009-5349(2020)04-0071-03
近年来人工智能的发展备受翻译界瞩目,机器翻译是否会取代人类这一命题在业内也被广泛讨论。事实上,机器翻译并不是科技的最新产物,而是有着悠久历史的。在经历了萌芽期、停滞期、飞速发展时期的传统机器翻译,于21世纪蜕变,发展为神经网络机器翻译。
神经网络机器翻译以具有深度学习功能的深度神经网络为基础,突破传统统计型机器翻译的算法,利用编码器—解码器框架的循环神经网络,改进传统机器翻译的质量和速度,同时打破传统机器翻译受字典限制和人工制定规则的局限性,自2014年后发展迅猛,日新月异。
神经网络机器翻译被认为是计算机学科下的分支,然而其自然语言处理部分与外语工作者、译者也有密不可分的关系。当代神经机器翻译蓬勃发展,译者需要打破自身学科界限,积极接触了解这一新兴科技。
从译者视角,整合机器翻译相关文献,形成了机器发展的历程及现状的综述,希望为刚涉足神经网络机器翻译的译者提供简要的知识框架。
一、机器翻译发展历程
机器翻译出现的最早标志是1954年美国乔治敦大学和IBM公司合作利用IBM-701计算机首次完成英俄机器互译的实验。1966年ALPAC(Automatic Language Processing Advisory Committee)发表的报告全盘否定机器翻译的可行性,机器翻译发展进入停滞阶段。1975年至1989年,国与国之间频繁的科技情报交流和各国语言障碍对机器翻译的需求日渐上升,机器翻译进入快速发展时期(刘群,2009:147)。
机器翻译的类型由不同的知识获取方式可分为:基于规则的机器翻译和基于语料库的机器翻译。后者根据学习方法又可分为基于实例的机器翻译和统计型机器翻译两种(赵红梅,刘群,2010:36)。
1.基于规则的机器翻译(Rule-Based Machine Translation)
20世纪70年代,语言学和人工智能研究的发展背景下,基于规则的机器翻译(RBMT)应运而生。RBMT的实现依赖双语词典和针对每种语言制定的语言规则,运用实例为PROMPT和Systran。RBMT的翻译方法主要有三种:直接翻译法、转换翻译法、中间语言法。直接翻译法将语句划分为单词,通过简单变形套用语法形成句子,对语言规则的依赖度高。转换翻译法先确定译文语法,再确定句法,最后形成译文。中间语言法基于法国哲学家笛卡尔(Rene Descartes)提出的中间语言(interlingua)形成,将每种语言转化为中间语言,再由中间语言转化为目的语。RBMT由于对语言规则的依赖度高,制定语言规则的工作量因而繁复巨大,且对同音异义词的理解难度较高,有很大的局限性。
2.基于实例的机器翻译(Example-Based Machine Translation)
1984年京都大学长尾真学者提出了EMBT。该观点认为,可以通过向机器输入现有翻译、找出已有翻译和当前翻译任务的差异、替换有差异的词汇来实现机器翻译(Makoto Nagao,1984:353)。此种观点弥补了RBMT语言规则的缺陷。
3.统计型机器翻译(Statistical Machine Translation)
最早的统计型机器翻译系统(SMT)由IBM公司于1990年提出(Brown et al。1990:76)。该系统分析两种语言之间的相似性,学习文本模式,而非学习整体规则及语言学。SMT用切割句子、匹配单字、计算次数、选取次数最多的方式翻译。最初的SMT的翻译方法以单词为基础,后改进为基于短语统计、修改并重新排序,最后升级为基于语法的统计翻译。在神经网络机器翻译出现前,基于语法的统计型机器翻译一度被视作翻译界的未来。
4.神经网络语言模型(Neural Network Language Model)
2003年,神经网络语言模型(NNLM)由Y.Bengio等人首次提出。由于机器在自然语言的自动处理和学习中需要将自然语言数学符号化,将词汇“嵌入”一个固定的实数维度空间,实现向量化(Y.Bengio,2003:1138)。以往所用的one-hot表示法无法体现两个词的相互依赖程度,因而Bengio等人提出用增加词向量层解决这一问题。(徐昊,易绵竹,2019:21)此种模型,将上下文的词向量序列转换成上下文隐藏向量,长度固定,不必储存不同词语的排列组合信息,从而改进传统机器翻译受字典存储限制的问题,(陈晨等,2019:1441)也为后续神经网络机器翻译的发展奠定了基础。
二、神经网络机器翻译发展现状
神经网络机器翻译(Neural Machine Translation)是人工智能深度学习在神经网络语言模型上的发展和延伸。许多研究表明,神经网络可以成功地应用于自然语言处理(NLP)中的许多任务。这些包括但不限于语言建模(Bengio et al.,2003)、意译检测(Socher et al.,2011)和单词嵌入提取(Mikolov et al.,2013)。2016年,Junczys-Dowmunt M等人研究了机器翻译的30种语言间的翻译,发现NMT在27种语言的翻译上都优于SMT。
近年全球流行的谷歌等NMT主要采取的是端到端(End to End)分支下序列到序列(Sequence to Sequence)的機器翻译,其主要编解码模型采用的是深度神经网络(Deep Neural Networks)中的循环神经网络(Recurrent Neural Network)。现代神经机器翻译的基本思路是运用端到端的神经网络实现自然语言间的自动转换,通常采用“编码器—解码器(Encoder-Decoder)”的结构实现其序列到序列的转换(Zhang J et al.,2015)。
1.序列到序列的编码器—解码器翻译模型
序列到序列(Sequence to Sequence)这一理念是2014年由Sutskever等人提出的,为解决DNNs只适用于输入和目标可以用固定维数的向量合理编码这一局限性,因为许多重要的问题都需要通过长度不受限的序列来表达,例如语音识别和机器翻译都是有关序列的问题。
序列到序列的模型,实际上是循环神经网络的进阶版,通过两个神经网络实现,一个循环神经网络负责接收源语言,另一个循环神经网络负责转化并输出目的语言。这两个神经网络分别被称为编码器和解码器。
相较于传统的SMT模型,编码器解码器的翻译框架有两大优势:一是能直接从数据中学习特征,将句法不同语义相近的句子整合到一起,也能区分句法相同语义不同的句子。二是能通过长短时记忆(LSTM)的RNN更加有效地利用上下文资源,使机器翻译的译文更具流畅性、可读性。
2.加入注意力机制的序列到序列学习
然而,这种编码器—解码器的模式有一个潜在问题:神经网络需要将源语言的所有必要信息压缩成一个有固定长度的向量,而这会使神经网络难以处理长句子,尤其是比训练语料库中句子更长的句子。为此,Bahdanau等人在Sutskever的基础上,在这种模式中添加了注意力机制(attention mechanism),解码器决定赋予源语言的哪部分注意力,从而将编码器不必再负担着将源语句中的所有信息编码为固定长度向量的难题(Bahdanau et al.,2015)。使用这种新方法,信息可以在整个注释序列中传播,而相应的解码器可以有选择地检索这些注释,对解决机器翻译中长难句的翻译问题有所帮助。Bahdanau后,2015年Luong将注意力机制细分为全局注意力(global attention)和局部注意力(local attention),进一步改进了注意力机制。
三、神经网络机器翻译的应用成果
尽管NMT在2013年到2015年有了初步的发展框架,其系统翻译性能仍然只是与SMT相去不远。然而,自2016年开始,NMT开启了飞速发展时代,其翻译水平也远超SMT。国内外多家高新科技公司也在大力研究开发,并取得了丰富成果。
1.Google GNMT
谷歌公司于2016年发布了技术报告,谷歌神经网络翻译系统GNMT问世。GNMT的问世直接受Cho等人于2014年发表的基于RNN的编码器—解码器的翻译模式的启发;它的出现和运用致力于消除人类翻译和机器翻译之间的差别,其出现本身也推动了“序列到序列”的映射模式的开创。该报告指出,GNMT以前的神经机器翻译有三个固有弱点,导致实践中NMT系统的准确性比基于短语的机器翻译系统差:训练和推理速度慢,处理罕见词效率低,漏译。
GNMT模型仍以带注意力机制的编码器—解码器的RNN模型为框架,由一个有8个编码器和8个解码器层的深度LSTM网络组成,使用剩余连接以及从解码器网络到编码器的注意连接。为了提高并行度,减少训练时间,GNMT的注意力机制将解码器的底层连接到编码器的顶层。运用低精度算法以提高最终的翻译速度。为了解决罕见词处理效率问题,GNMT将罕见词拆分成子词(sub-word)单元进行处理(Yonghui Wu et al.,2016)。如今,翻译准确率已有显著提高,能为客户带来更好的体验,英法、英西互译准确率已达90%,中英互译也已达到80%。
2.Microsoft Translator
2016年,微软旗下语音翻译工具Microsoft Translator的各大复语互译也改用神经网络驱动。2019年,微软公司发布了有关WMT19的新闻翻译任务的报告,该报告中体现的翻译思维具有创新意义,提出了与先前编码器—解码器框架不同的概念。WMT19上,微软的主要关注点是使用深层转换器模型的文档类的神经机器翻译。从强大的句子级基线开始,训练通过数据过滤和嘈杂的回译(Noisy Back-Translation)创建的大规模数据,并发现回译似乎主要帮助翻译的输入;同时微软还探索微调技术,以更深层次的模型和不同的集成策略来对抗这些影响。利用真实和合成的并行数据中的文档边界,创建了多达1000个子单词片段的序列,并训练了变压器翻译模型(Junczys-Dowmunt,2019)。
3.网易有道神经网络翻译(YNMT)
2017年全球移动互联网大会上,网易宣布自主研发的YNMT翻译软件问世。有道神经网络翻译相比GNMT及国内各大翻译工具有两大优势:一是数据积累。有道作为国内第一批提供机器翻译服务的互联网公司,已经有十多年的历史,多年来一直专注于中外互译,通过不断提高质量吸引了大量的用户,积累的大量的数据和语料库,不断推进自己的NNLM的优化。二是目标更为专注。相比谷歌公司的全球性质的翻译任务,有道专注于中文与其他语言的互译,更精通汉语运用习惯。BLEU评测结果显示,有道的中外互译翻译质量高于同类翻译系统。
4.科大讯飞翻译机
科大讯飞公司长期致力于机器翻译的研究,基于NMT基本框架,实现中外多种语言间的流畅互译。2018年科大讯飞陷入同传造假门,承认机器朗读与机器同传间仍然存在巨大差异。此后,科大讯飞对翻译机的未来发展提出了三个方向的预期:一是在数学基础算法上持续突破,二是将数学统计建模方法与脑科学深度结合,三是人机耦合提高其翻译精度。
5.搜狗翻译
搜狗神经网络翻译SNMT也采用业界主流的带注意力模块的RNN多层编码器—解码器翻译模式。于2017年9月机器翻译大赛中增设的中英新闻数据机器互译任务中获得冠军。
除此之外,国内主要神经机器翻译还有阿里巴巴翻译和腾讯翻译等。神经网络机器翻译的引入和蓬勃发展,体现了我国在机器翻译领域由借鉴向自主研发的转型,是我国语言研究领域的又一进步。
四、译者视角的机器翻译现存问题及发展前景
尽管NMT的发展自2016年以来已经进入了繁荣阶段,其发展仍有诸多缺陷:一是国内外研究成果不透明;二是NMT的发展仍局限于语法和语义上的辨析,文字情感上的分析和表达仍未解决;三是NMT对于术语、罕见词、长句的翻译可读性仍待提升;四是从相关文献作者及内容来看,中国译者对NMT的发展知之甚少,NMT的发展需要译者的配合,应进一步向译者普及这一技术。
NMT的出现顺应时代的发展,随着关注度的上升,其研究热度也会不断上涨。对于译者而言,NMT距离取代人类译者尚有较大距离;与其担忧惶恐,不如尝试了解、学习并利用这门技术。近年來,人工译后编辑和人机耦合的神经网络翻译模式成为大势,NMT的翻译成果评析、翻译结果改进、译后编辑等工作都与人类译者紧密联系。人工智能辅助翻译也将成为翻译界的热门新兴行业之一。
参考文献:
[1]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[J].arXiv preprint arXiv:1409.0473,2014.
[2]Brown P F,Cocke J, Della Pietra S A,et al.A statistical approach to machine translation[J].Computational linguistics,1990,16(2):79-85.
[3]Bengio Y,Ducharme R, Vincent P,et al. A neural probabilistic language model[J].Journal of machine learning research,2003,3(Feb):1137-1155.
[4]Cho K,Van Merri?nboer B, Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv preprint arXiv:1406.1078,2014.
[5]Junczys-Dowmunt M,Dwojak T, Hoang H. Is neural machine translation ready for deployment?A case study on 30 translation directions[J].arXiv preprint arXiv:1610.01108,2016.
[6]Junczys-Dowmunt M.Microsoft Translator at WMT 2019:Towards Large-Scale Document-Level Neural Machine Translation[C]//Proceedings of the Fourth Conference on Machine Translation(Volume 2:Shared Task Papers,Day 1),2019:225-233.
[7]Luong M T,Pham H, Manning C D.Effective approaches to attention-based neural machine translation[J].arXiv preprint arXiv:1508.04025,2015.
[8]Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems.2013:3111-3119.
[9]Nagao M.A framework of a mechanical translation between Japanese and English by analogy principle[J].Artificial and human intelligence,1984:351-354.
[10]Socher R,Huang E H,Pennin J,et al.Dynamic pooling and unfolding recursive autoencoders for paraphrase detection[C]//Advances in neural information processing systems,2011:801-809.
[11]Wu Y,Schuster M,Chen Z,et al.Google's neural machine translation system:Bridging the gap between human and machine translation[J].arXiv preprint arXiv:1609.08144,2016.
[12]Zhang J,Zong C.Deep Neural Networks in Machine Translation: An Overview[J].IEEE Intelligent Systems,2015,5(30):16-25.
[13]陈晨,朱晴晴,严睿,等.基于深度学习的开放领域对话系统研究综述[J].计算机学报,2019,42(7):1439-1466.
[14]冯志伟.自然语言机器翻译新论[M].北京:语文出版社,1994.
[15]刘群.机器翻译研究新进展[J].当代语言学,2009, 11(2):147-158+190.
[16]苏放,王晓宇,张治.基于注意力机制的评论摘要生成[J].北京邮电大学学报,2018,41(3):7-13.
[17]徐昊,易绵竹.神经网络语言模型的结构与技术研究评述[J].现代计算机,2019(19):18-23.
[18]赵红梅,刘群.机器翻译及其评测技术简介[J].术语标准化与信息技术,2010(1):36-45.
责任编辑:杨国栋