APP下载

人工智能翻译的发展现状与前景分析

2017-04-14桂林电子科技大学外国语学院罗华珍潘正芹易永忠

电子世界 2017年21期
关键词:机器人工神经网络

桂林电子科技大学外国语学院 罗华珍 潘正芹 易永忠

人工智能翻译的发展现状与前景分析

桂林电子科技大学外国语学院 罗华珍 潘正芹 易永忠

近年来,人工智能(Artificial Intelligence,以下简称AI)技术迅猛发展,越来越深刻地影响各行各业.其中,语言服务业涉及的机器翻译,有"AI中的AI"之称,一直被视作人类的最后一块智慧高地,"AI王冠上的宝石".这块璀璨的宝石引来了众多高校与研究机构竞相研究,更引来了包括谷歌、阿里在内的企业巨头踊跃投入.此外,不少传统的语言服务企业也意欲向此转型.那么,人工智能翻译技术的现状究竟如何?AI会给语言服务业带来哪些深刻影响?人工翻译与机器翻译的未来,又该何去何从?本文结合人工智能翻译的发展现状及其当前应用的成果,对以上问题进行分析探讨,以期对AI翻译领域的研究方向,提供理论参考依据.

人工智能;机器翻译;人工翻译;深度学习;循环神经网络;积卷神经网络;翻译众包;机器学习技术

一、机器翻译的优点

随着科技和经济的快速发展,全球各国的互联互通已经成为不可阻挡的发展趋势.为了实现不同国家之间低成本的有效交流,机器翻译应运而生.其优点主要体现为:

1.成本低:

相比于人工翻译,机器翻译的成本要低很多.因为机器翻译需要人工参与的时候很少,基本上由计算机自动完成翻译,大大降低了预算.

2.易把控:

机器翻译的流程简单快捷,在翻译时间的把控上也能进行较为精准地估算.

3.速度快

计算器程序的运行速度非常快,机器翻译正好利用了这一优点.

二、机器翻译的发展现状

相信常跟外语打交道的读者都感觉到,机器翻译越来越强大了.从最开始的只能翻译单词,翻译句子简直一窍不通的,到之后翻译出来句子可以符合基本的语法,再慢慢变得越来越有基本的逻辑性了,再到现在部分软件可以联系上下文,翻译结果的可读性与正确性都大为改观.

近年来,加入了"深度学习技术"等人工智能的机器翻译,已经不再简单地将一个个单词翻译成另一种语言,而是可以像人一样,不断向前回顾以理解结构复杂的句子,并且结合上下文,理解每一个It/He/She具体指代谁.

实现这种功能,分别依赖于两种神经网络架构,一个是Recurrent Neural Networks(RNN)--循环神经网络,另一个则是Convolutional Neural Networks(CNN)--卷积神经网络.关于RNN和CNN哪个更适用于机器翻译的争论也很多,我们先来看看这两种神经网络都是如何为机器翻译"开光加持"的.

RNN:机器翻译的创派宗师

首先我们要明白,所谓机器翻译,就是一个解码后再编码的过程.如果要把英语翻译成中文,就要先把英语原文解码成"神经代码",再编码生成中文.

循环神经网络的关键,就在于循环二字上.系统会"记住"上一次输出的内容,以此来决定下一次输出.有了上一次和下一次的概念,神经网络就不会把输入和输出的信息看做独立的,而是相互关联的时间序列.这样就可以通过以往的序列关联猜测到下一个序列会出现的词.

在翻译时,RNN把源语言当做输入序列,把翻译语言当做输出序列,由于每一次输出都会参考上一次输出的结果,所以机器翻译更具整体性,而不是简单的翻译单词.

目前对RNN应用的最为炉火纯青的应该就是谷歌翻译了,去年谷歌提出了用神经网络系统进行机器翻译,据称汉译英的错误率最高下降85%,在当时还小小的引起了一番轰动.

如果说传统神经网络在翻译时,永远是用一片空白的大脑面对每一个句子,那么RNN在翻译时则拥有持久的思想,而谷歌翻译所应用的LSTM更加强了这一点.LSTM是RNN的一类变种,被译为长短期记忆网络,是一种时间递归神经网络.RNN的缺陷在于,"于谦的父亲-王老爷子"这种间隔很短的序列预测以前很容易,但要预测"今天出门晚了,所以上班[]"这类句子,需要联系到间隔较远的上下文,这时RNN可能就表现的没那么优秀了.

而LSTM,就可以学习并理解这种长期依赖关系.LSTM通过一系列计算将句子中的各个元素的特征构建成非线性的组合,同时还设立了"遗忘机制",将权重较低的元素遗忘掉.这就意味着LSTM可以"更新"记忆,让长期依赖因素不断的存在于距离较近的神经元中.

CNN:GPU的宠儿

就在RNN机器翻译还在不断更新时,又有人提出了将CNN--卷积神经网络应用于机器翻译之上.

从上文我们可以得出结论,RNN(LSTM)机器翻译按照序列进行工作,也就是和人一样,按照顺序一个个的进行翻译.但要记住的一点是,目前比较主流的GPU最大的有点是可以进行并行计算.这样一来RNN就没法最大化利用GPU的计算能力.

而CNN则可以同时处理多个语言片段,并且具有信息分层处理能力.将文本序列化、单词向量化,经过分层处理后再输出结果.在分层过程中,还会不断回顾源文本来确定下一个输出序列.

提出这种技术的是Facebook和最近的机器翻译新秀DeepL.2017年上半年,Facebook宣布推出了基于CNN开发的语言翻译模型,据说比基于RNN开发的语言翻译模型速度快9倍,而且准确率更高.在测试上,Facebook翻译系统在英语-德语、英语-法语的测试上都比RNN更接近人工翻译.

并且,不管是CNN还是RNN都不是机器翻译的终点,比如谷歌近期提到的不再基于RNN的注意力机制,以及多层神经网络、深度神经网络等等,都是解决机器翻译的方法.在速度、计算资源消耗、情感理解等等多种维度上都有不同的表现.

如果从最终的实用性来说,神经网络模型能影响到的仅仅只是一部分.更多的是语料库的大小、繁重的语料标注工作等等,同时这也注定了蒙古语、藏语这种语料较少语言仍然无法受益于机器翻译.

三、机器翻译的现有弊端

人工智能翻译技术的飞速发展,使得近几年来机器翻译取代人工翻译的呼声,似乎越来越高.不少人工智能的狂热信徒,动不动就威胁要人工翻译人员下岗,甚至灭绝.

然而,人类语言的复杂性众所周知,人尚且有误解的时候,冰冷的机器真的足以胜任自然语言的翻译吗?

至少目前看来,显然不能.

首先,在人类语言当中,很多用词和表达方式是多义的、模糊的、跟特定应用环境相关的.即使是同一个句子,在不同语境下的意思也不相同.例如碰到这样的情况,机器也会 "迷茫".

请解释下文中每个"意思"的意思:

阿呆给领导送红包时,两人的对话颇有意思. 领导:"你这是什么意思?"

阿呆:"没什么意思,意思意思." 领导:"你这就不够意思了."

阿呆:"小意思,小意思." 领导:"你这人真有意思."

阿呆:"其实也没有别的意思."

我们再通过一些科技文献翻译实例的对比,看看AI翻译与人工翻译的差距:

原句:

One of the valves in the engine must have gone wrong

谷歌翻译:发动机中的阀门之一必须出错.

人工翻译:发动机的一个气门肯定出了问题.

分析:在汽车制造业,VALVE作为汽车零件,不是通常意义上的"阀门",而是发动机的"气门".AI翻译无法辨识特定应用语境中,词汇多种含义的正确对应,导致了错误的翻译结果.而词语组合gone wrong和应该译作"出错"还是"出了问题",机器翻译由于不具备人脑的宏观直觉,故而也没能输出更符合语言习惯的译文.

与人工翻译相比,在处理复杂的、专业性或技术性强的语段时,AI的翻译结果,不仅仅是可读性,流畅性存在差距,纵然是作为基本要求的正确性,也仍有不可容忍的缺陷.更不必说,在不少翻译实例中,得出正确译文的关键点,不仅仅是对原文之字面意义"正确认识",更要求对作者的言外之意加以领会.我们再看看以下的例句:

原句:

The 20th century will not be remembered as the era when space was conquered, or the power of the atom, harnessed, but that in which were made the first machines having intelligence.

谷歌翻译:

二十世纪不会被记住为空间被征服的时代,或原子的力量,被利用,而在第一台有智慧的机器.

人工翻译:

如果在20世纪,人类不制造出具备智能的首批机器,这一时代,也不会作为"征服宇宙的世纪"或"原子能利用的世纪"而被人铭记.

可见,就科技英语而论,理解原文的过程,在多数情况下,是一个语义辩认,语法分析和逻辑分析三方面交互作用的过程,而不单单是一个逻辑分析的过程,请看下面的例句.

原句:

Shortly before the uninhabited space station reached orbit in May 1973,aerodynamic pressure ripped off a meteoroid and heat shield.

谷歌翻译:

1973年5月无人空间站到达轨道之前不久,空气动力学压力剥离了流星体和隔热罩.

人工翻译:

在1973年5月无人太空站到达轨道前不久,它的一个防流星体和防热的护罩被空气动力的压力剥离.

分析:首先,从逻辑上看,说:"空气动力压力扯破了一个流星体",是不合事理的,荒谬可笑的.其次,从语言上看,不定冠词a是说明shield的,而不是说明meteoroid的.通过逻辑分析和语言分析可以清楚地看出,名词meteoroid和名词heat原来都是名词shield的定语.A meteoroid and heat shield 的意思是:一个防流星体和防热的护罩.而想要对文字信息实现这种层次的理解判断,必须具备人脑的认知与联想.

人工翻译的优势在于人是有思维的,具有灵活性,翻译过程中对句子结构,语法应用,以及上下文的逻辑思想等等都可以自由的分析思考,翻译出的东西不至于语法混乱,逻辑不清;而且像有些文学性较强的文章、稿件,人工翻译就可以有血有肉的表达出其中的韵味,其中的各种思想精髓,不至于生涩难懂.还有人工翻译可以根据译语使用者的语言习惯,思维方式,风俗习惯等,把译文翻译的更符合语使用者的阅读思维习惯,使译文更加的地道精确.翻译出的译文也具有很强的可读性.故此在这一层面的应用中,机器翻译仍然存在着难以克服的缺陷.

四、AI翻译的发展前景

语言服务业从刚开始坚信"人工翻译无法替代",到接受人机结合并纷纷试水拥抱变化,中间经历了抵触、恐慌、接纳的各种转变.

当人工翻译遇上AI,是机遇,还是挑战?人工翻译会不会"有朝一日"被机器翻译完全取代?这个问题一直备受争议--并且,在 "被取代"之前,这个争议将一直继续下去.

但可以肯定的是,这一天的到来,必定以"机器完全拥有人类智慧"为前提.如果这一设想当真在有朝一日变为现实,那么届时不止是语言服务行业,而是整个社会的各行各业,人工劳力都将被人工智能所取代.

就目前发展趋势分析,笔者认为,虽然现在可以通过一些实用的技术让机器去模拟人的智能活动,模拟人对语义的理解,但相对于彻底的人工智能和语义理解,还有相当长的道路.如果有一天机器真的能够实现准确的实时翻译,它们的角色更应该是辅助相关产业的工作人员更轻松、便捷地开展工作,而不是取代人工翻译的工作岗位.

此外,针对上文分析到的问题,在人工智能的神经网络翻译技术领域,有一些解决方案可以作为比较高效的补充,也许这些会成为神经网络翻译企业接下来的重点战场.

1.引进NMT以外的人工智能技术:巧合的是,近两年关于机器翻译的技术突破往往来自其他人工智能领域.比如注意力模型,是来自Deepmind在机器视觉领域的技术构想.主动引入其他领域的算法和模型,或许在翻译领域有神奇的效果.

2.建立机器学习使用的用户数据库,激发互动:在机器学习的原理当中,对错误样本纠错往往是最好的学习途径,但翻译上的纠错行为显然是企业难以完成的.调动用户主动纠错翻译结果,并以之建立数据库,或许是非常便捷的办法.现在的机器翻译平台当然都有纠错功能,但用户的参与热情和参与方式是个问题.

3.尝试优质训练资料下的弱监督学习:目前的NMT体系,归根结底是个有监督学习过程,很多所谓"莫名其妙"的翻译结果都来自翻译机制无法优化.尝试一些深度学习架构让翻译系统自我优化,也许是个解决方案.

4.垂直领域语料数据库&数据抽调系统:解决具体的专业领域,甚至文言文的中英互译.

(当然也包括英文的诗歌和文学文本),其实也没什么特别的办法,拥有强大的垂直领域数据库是硬实力,当然好的数据抽调模型会事半功倍.

五、结论

智能+人工=翻译的未来

为了弥补人工智能的不足,许多翻译技术公司已经在尝试新模式,即人工智能+翻译众包(Translation Outsourcing)的结合.这或许代表了翻译的未来发展趋势.

在这种模式中,人工智能首先完成最基本的翻译.在拿到来自机器的初步翻译结果后,普通译者首先对机器翻译的差错进行更正.随后,高级译者将对翻译后文本的文学性和专业性做进一步修订.这样的流水作业将带来更高的效率,同时确保质量.

机器学习技术也会参与这一过程.通过机器学习,计算机将基于人工修订后的结果学到准确的单词表达,以及人类的语言习惯,从而优化未来的翻译能力.另一方面,计算机也会对人工翻译的"硬性"部分进行追踪,帮助译者避免低级错误.在这一过程中,人工智能和人工翻译将形成良性循环.

人工智能对人工翻译的帮助还不仅于此.例如,在众包译者工作的同时,人工智能将会了解不同译者具备的专业性.通过对这类数据的收集和分析,人工智能可以向不同译者分配他们擅长的翻译内容.例如,关于计算设备说明书的翻译将精准分配至电脑专家,而财务报告的翻译将可以由会计专业的译者来担任.

这种模式正在引起全球投资人的关注.例如,硅谷创业孵化器Y Combinator在2014年冬季班时孵化了这样一家公司Unbabel.与传统人工翻译相比,人工智能的引入提高了效率,而不同于单纯的机器翻译,人工翻译使翻译的表达更准确、更流畅,更适合用于正式场合.

在国内,市场最主要的翻译需求是中英文之间的互译,无论是新闻媒体、学术论文,还是英美影剧.人工智能和人工翻译的结合可以优化当前翻译的效率,带来更自由的跨国交流,创造更大的市场机会.

更重要的是,对于尚未被纳入互联网的少数族裔语言,这种模式将带来明显帮助.可以想象,通过统一的人工智能数据库,谷歌、雅虎、Facebook等网站将自动翻译成非洲、南亚或印第安语言,而当地志愿者可以在此基础上高效的完成优化.这将消除互联网向贫穷国家普及过程中的语言障碍,成为真正连接全世界的"信息高速公路".

文章的最后,笔者再做一个小小的展望:未来,在机器翻译领域,一定会出现很多,以某种特定语言为优势的翻译机构.这个领域也将吸引更多在语言方面有天才的创业者的加入,另外,由于文字是文化的重要载体,所以机器翻译对各个国家文化的传承,也将发挥不可磨灭的作用.

[1]Arnold,D.Balkan,L.Meijer,S.Humphreys,R.L.Sadler,Machine Translation:An Introductory Guide[M].University of Essex,2015.

[2]Biber,Douglas,Susan Conrad and Randi Reppen. Corpus Linguistics[M].Cambridge:Cambridge University Press,2013.

[3]Carnie,Andrew.Syntax:A Generative Introduction[M].USA:BLACKWELL PUBLISHING,2014.

[4]Chomsky,N.Aspects of the Theory of Syntax[M].Cambridge,Mass:MIT Press,2016.

[5]Grishman,R.Computational Linguistics:An Introduction[M].Cambridge: Cambridge University Press,1986.

[6]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2004.

[7]胡壮麟.语言学教程[M].北京:北京大学出版社,2007.

[8]易绵竹,南振兴.计算机语言学[M].上海:上海外语教育出版社,2005.

[9]张政,苗天顺.计算语言学与机器翻译导论[M].北京:外语教学与研究出版社,2010.

广西教育厅"英汉机器翻译与语言学接口研究:问题与出路",编号:KY2015YB115.

罗华珍,桂林电子科技大学外国语学院副教授,研究方向:英语教学法.

潘正芹,桂林电子科技大学外国语学院副教授,研究方向:翻译和第二语言习得.

易永忠,桂林电子科技大学外国语学院教授,研究方向:翻译,英语教学法.

猜你喜欢

机器人工神经网络
人工3D脊髓能帮助瘫痪者重新行走?
机器狗
机器狗
人工,天然,合成
人工“美颜”
神经网络抑制无线通信干扰探究
未来机器城
新型多孔钽人工种植牙
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用