微信离奇翻译的背后

2019-10-30技术宅

电脑爱好者 2019年8期

技术宅

机器翻译——并不陌生的翻译技术

很多经常查找外文资料的朋友都会用到谷歌、百度的在线翻译功能，这其实就是机器翻译的一种典型应用（图1）。

不过由于机器翻译只是简单地对单词进行机械翻译，因此很多时候翻译的结果并不让人满意。因为在实际生活中，很多语句翻译还要结合上下文、语气、语境等综合因素进行，这样才能获得更为准确的翻译结果。

为了让机器翻译的结果更为准確，相应的技术不断更新。早期主要应用的是基于规则的技术，就是为机器配置一些简单的规则，比如名词以特定的后缀-heit、-keit、-ung等结尾，然后机器根据这些规则进行机械翻译。之后随着语音识别、DNN（深度神经网络）技术的快速发展，基于神经网络的机器翻译技术逐渐成为主流。微信翻译目前使用的是“神经机器翻译”（NeuralMachine Translation，以下简称NMT）技术，它就是基于神经网络的翻译技术（图2）。

微信翻译的背后——认识NMT技术

NMT是怎样翻译的呢？为什么这次微信翻译会出现如此大的差错？

NMT和传统的基于规则的翻译技术不同，它不是一次翻译一个单词的破碎句子，而是使用大型人工神经网络计算单词序列的概率，将完整的句子放办P个集成模型中，从而实现更高质量的翻译。

NMT在一定程度上模仿人脑的思维方式，当我们输入一句需要翻译的语句时，NMT首先会根据一个单词在整个句子（可以是长句）当中的语境，为这个单词建立一个神经网络的模型，形成一个语义表示。举个例子，我们输入的是“dog”这个单词，那么NMT会先把它理解为“狗”。但是如果我们输入的是一句话，如“一条狗生下了小狗”，那么NMT就会根据单词在句子甚至段落的语境中，将模型重新转换成另一种语言。比如在法语的语境中，狗默认是“lechien”，但是在上述语境中，显然前一个“狗”指的是狗妈妈，因此这里的“狗”就会被翻译成代表“女性”的“la chienne”（图3）。

既然NMT是基于神经网络的技术，那么就离不开模型和算法。为了让NMT学会翻译各种语句，科学家们会先制定一个模型，然后输入海量数据给NMT训练，通过大量的数据训练，并且结合NMT自主学习，最终形成一套算法。这套算法部署到服务器后，当用户输入特定的语句时，服务器在后台就会根据算法进行翻译，结合上下文语境，将最佳的翻译结果输出到屏幕显示（图4）。

这次微信翻译出现异常，原因可能出现在训练数据上，因为这次用户输入的只是一句类似“you playbasketball like zhangsan？”的句子。在这个翻译场景中，类似人名“zhangsan”是一个不常见的单词，它既没有出现在任何一本英语辞典当中，看上去跟句子的上下文也没什么关系。可以说NMT在之前的训练中可能并没有接触过这样的数据，因此微信翻译服务器在接到类似的语句输入时，NMT就只能根据算法将最优的翻译结果推送给用户，从而出现文章前面所说的翻译Bug（图5）。

不过根据NMT的翻译机制，上述Bug的出现还可能是其他原因导致的。比如iJ I}练集噪音，微信翻译团队人员可能使用生成对抗攻击的方式训练，在训练中手动加入噪音，这样在翻译中会主动对类似的翻译结果进行纠错的操作，最终却干扰了翻译结果。也有可能是学习错误导致的，比如领域不匹配，这次语句出现匕asketball，而微信翻译的训练数据集可能没有篮球领域，或者跟篮球有关的非常少，导致NMT无法精准识别，从而翻译效果欠佳。

因此从严格意义上说，这次Bug并不能让微信翻译团队背锅，这是由于NMT翻译机制导致的，其他使用NMT技术翻译的产品也会出现类似的错误。

小Bug并不影响NMT的应用

这次微信翻译的Bug在网上弄得沸沸扬扬，从上面的描述我们知道，原因并非出在微信身上。这次Bug并不影响NMT技术给我们带来的便利，随着NMT得到更广泛的应用，它必定会给我们的生活带来更多便利。

举例来说，通过使用NMT技术，我们可以和全球任何人进行互动，这在全球一体化的今天具有很大的现实意义，比如很多网店商家，借助NMT就可以和全球客户进行交流。NMT在多语言同声翻译中的应用，则给大家和不同国家的同事之间交流带来方便。基于NMT和语音识别开发，在2018年博鳌论坛担任同声传译的腾讯同传，就让参加会议的各国朋友在第一时间“听”懂和“看”懂了主持人发言（图6）。