APP下载

微信离奇翻译的背后

2019-10-30技术宅

电脑爱好者 2019年8期
关键词:语句语境单词

技术宅

机器翻译——并不陌生的翻译技术

很多经常查找外文资料的朋友都会用到谷歌、百度的在线翻译功能,这其实就是机器翻译的一种典型应用(图1)。

不过由于机器翻译只是简单地对单词进行机械翻译,因此很多时候翻译的结果并不让人满意。因为在实际生活中,很多语句翻译还要结合上下文、语气、语境等综合因素进行,这样才能获得更为准确的翻译结果。

为了让机器翻译的结果更为准確,相应的技术不断更新。早期主要应用的是基于规则的技术,就是为机器配置一些简单的规则,比如名词以特定的后缀-heit、-keit、-ung等结尾,然后机器根据这些规则进行机械翻译。之后随着语音识别、DNN(深度神经网络)技术的快速发展,基于神经网络的机器翻译技术逐渐成为主流。微信翻译目前使用的是“神经机器翻译”(NeuralMachine Translation,以下简称NMT)技术,它就是基于神经网络的翻译技术(图2)。

微信翻译的背后——认识NMT技术

NMT是怎样翻译的呢?为什么这次微信翻译会出现如此大的差错?

NMT和传统的基于规则的翻译技术不同,它不是一次翻译一个单词的破碎句子,而是使用大型人工神经网络计算单词序列的概率,将完整的句子放办P个集成模型中,从而实现更高质量的翻译。

NMT在一定程度上模仿人脑的思维方式,当我们输入一句需要翻译的语句时,NMT首先会根据一个单词在整个句子(可以是长句)当中的语境,为这个单词建立一个神经网络的模型,形成一个语义表示。举个例子,我们输入的是“dog”这个单词,那么NMT会先把它理解为“狗”。但是如果我们输入的是一句话,如“一条狗生下了小狗”,那么NMT就会根据单词在句子甚至段落的语境中,将模型重新转换成另一种语言。比如在法语的语境中,狗默认是“lechien”,但是在上述语境中,显然前一个“狗”指的是狗妈妈,因此这里的“狗”就会被翻译成代表“女性”的“la chienne”(图3)。

既然NMT是基于神经网络的技术,那么就离不开模型和算法。为了让NMT学会翻译各种语句,科学家们会先制定一个模型,然后输入海量数据给NMT训练,通过大量的数据训练,并且结合NMT自主学习,最终形成一套算法。这套算法部署到服务器后,当用户输入特定的语句时,服务器在后台就会根据算法进行翻译,结合上下文语境,将最佳的翻译结果输出到屏幕显示(图4)。

这次微信翻译出现异常,原因可能出现在训练数据上,因为这次用户输入的只是一句类似“you playbasketball like zhangsan?”的句子。在这个翻译场景中,类似人名“zhangsan”是一个不常见的单词,它既没有出现在任何一本英语辞典当中,看上去跟句子的上下文也没什么关系。可以说NMT在之前的训练中可能并没有接触过这样的数据,因此微信翻译服务器在接到类似的语句输入时,NMT就只能根据算法将最优的翻译结果推送给用户,从而出现文章前面所说的翻译Bug(图5)。

不过根据NMT的翻译机制,上述Bug的出现还可能是其他原因导致的。比如iJ I}练集噪音,微信翻译团队人员可能使用生成对抗攻击的方式训练,在训练中手动加入噪音,这样在翻译中会主动对类似的翻译结果进行纠错的操作,最终却干扰了翻译结果。也有可能是学习错误导致的,比如领域不匹配,这次语句出现匕asketball,而微信翻译的训练数据集可能没有篮球领域,或者跟篮球有关的非常少,导致NMT无法精准识别,从而翻译效果欠佳。

因此从严格意义上说,这次Bug并不能让微信翻译团队背锅,这是由于NMT翻译机制导致的,其他使用NMT技术翻译的产品也会出现类似的错误。

小Bug并不影响NMT的应用

这次微信翻译的Bug在网上弄得沸沸扬扬,从上面的描述我们知道,原因并非出在微信身上。这次Bug并不影响NMT技术给我们带来的便利,随着NMT得到更广泛的应用,它必定会给我们的生活带来更多便利。

举例来说,通过使用NMT技术,我们可以和全球任何人进行互动,这在全球一体化的今天具有很大的现实意义,比如很多网店商家,借助NMT就可以和全球客户进行交流。NMT在多语言同声翻译中的应用,则给大家和不同国家的同事之间交流带来方便。基于NMT和语音识别开发,在2018年博鳌论坛担任同声传译的腾讯同传,就让参加会议的各国朋友在第一时间“听”懂和“看”懂了主持人发言(图6)。

猜你喜欢

语句语境单词
重点:语句衔接
单词连一连
看图填单词
看完这些单词的翻译,整个人都不好了
语言学习中语境化的输入与输出
跟踪导练(三)2
论幽默语境中的预设触发语
如何搞定语句衔接题
话“径”说“园”——来自现象学语境中的解读
作文语句实录