APP下载

翻译官罗伯特

2017-03-09张睿

第一财经 2017年3期
关键词:搜狗语料短语

张睿

互联网上经常会流传一些中文翻译成英文时闹出的“乌龙”。比如江西省上饶市公安局三清山分局2011年在当地风景区内竖立的一块信息服务牌上,将“有困难,找警察”错误地翻译成“Difficult to find the police”,被眼尖的网友拍照发到了网上,变成一个尴尬的笑话。

如果说当年的错误应由翻译软件负责,最近一两年,我们越来越难把责任再推给它们了。基于神经网络的机器翻译已经将翻译的质量提高到一个新层次—比如“有困难,找警察”,如今Google翻译给出的英文结果是“There are difficulties,to find police”—不完美,但至少和中文的意思大體一致。这是因为从2016年9月开始,Google采用了一种全新的方法—用Google神经机器翻译(GNMT)系统来做双语翻译。

一直以来,包括Google在内,提供机器翻译服务的公司都在追求更好的翻译效果和更高的翻译效率。

此前,统计机器翻译(SMT)是最主流的机器翻译技术,它通过对大量的平行语料做统计分析,构建统计翻译模型,然后使用该模型翻译。

以中文和英文之间的翻译为例,搜狗语音交互中心技术负责人陈伟向《第一财经周刊》解释,“这种翻译方式是把句子的翻译切分成单词、短语,建立中文、英文短语之间的影射关系,然后使用语言模型把中文短语翻译成英文的短语。”

也就是说,翻译的过程实际上是计算概率统计的过程,翻译引擎本身没有规则或语法概念。Google、百度等搜索引擎公司可以搜索大量的双语网页内容,自动选取概率最大的词与词的对应关系,最后给出翻译结 果。

使用这种方式,其效果就像我们常常看到的—每个单词的翻译都正确,连在一起有时却不是通顺的、符合语法逻辑和理解习惯的正确句子,有时甚至出现意思完全相悖的情况。这是因为,统计机器翻译质量的高低,往往取决于概率模型的好坏以及语料库的覆盖,一个使用技术文本训练的翻译引擎,在翻译口语化的文本时效果会很差。

以深度学习技术为基础的神经网络机器翻译模型的出现,正在改善这一状况。

Google的GNMT系统的理论,最早公开出现在2014年,加拿大蒙特利尔大学Yoshua Bengio教授的研究组在开放性论文网站arXiv上发布了他们最新的研究成果,解释了这一翻译模型。

其最基本的架构是由一个编码器(encoder)和一个解码器(decoder)构成的。首先,编码器将汉语句子的每个词编码成一个向量列表,用来描述所有读取到的词的含义,然后解码器从向量列表中读取参数,把这些词向量逐个替换成译句中的某个单词。同时,在编码器和解码器之间引入注意力(attention)机制,用来调整词与词之间的权重关系。

两年后,Google也发布了自己的相关论文,介绍了它在这方面的研究和实践。在双语评估者的帮助下,通过对维基百科和新闻网站例句的测定,Google发现,在多个样本的翻译中,神经网络机器翻译系统将误差降低了55%至85%,甚至更多。

“这种方式更像人类的理解方式。”有道首席科学家段亦涛对《第一财经周刊》说,“先把句子理解了,再把它表达出来。”

微软也在2016年12月中旬发布了新的翻译工具,其现场翻译功能(Live Feature)可以支持多人、多语种之间的实时翻译。

现在,包括有道、百度、搜狗在内的中国技术公司都开始投入到神经网络机器翻译的研究和开发之中。实际上,这些公司使用的框架是类似的,只是在模型、数据、训练、场景等方面存在差异。

“你的模型使用什么样的单元、层次有多深、有没有一些特殊的机制在里面,得到的效果都是不一样的。”段亦涛说。每个公司都在积累和整理自己的平行语料数据,虽然学术界有一些公开的数据集,但是往往比较小,训练的差异体现在如何对参数做调整。此外,不同的公司针对的场景又有不同。

用来衡量机器翻译质量的一个通行指标是BLEU值,其原理是比较机译结果和人译结果的相似度,完全一致得分为100。Google之前的统计型翻译引擎的BLEU值大约维持在40标准加号的水平。

但要横向比较目前几家公司机器翻译的质量并不容易,这一方面与它们的模型有关,另一方面与测试使用的数据集有关。段亦涛说,“任何一个模型都可以针对一个数据集调到非常不错的水平。”也就是说,数据集的选取如果不与应用场景结合,测试的结果就很难反映该模型的质量。

表面上看,在这项新技术面前,大家都处于同一条起跑线。不过段亦涛认为,“上手容易,做好不容易,进一步提高更难。”

神经网络机器翻译对数据量和计算量的要求非常高。百度、搜狗等搜索引擎公司往往有更多的平行语料,而有道原本的翻译服务也提供了更多有用的数据。

“相较于传统的统计机器翻译,神经网络机器翻译的系统部署所需的硬件投入至少上涨十几倍。神经网络机器翻译系统在一台价值4万多元的服务器上运行,其速度和吞吐才接近于统计机器翻译系统在3000多元的PC机上的性能。”小牛翻译的创始人朱靖波说。

Google的优势是,它拥有专门为深度学习设计的处理器TPU(Tensor Processing Unit),原本要10秒处理的句子只需要300毫秒便可完成。

据了解,微软也在运用其可编程芯片FPGA来执行神经网络机器翻译,而百度正在开发不同类型的硅片。

更进一步地说,如果将神经网络机器翻译和语音识别、语音合成结合起来,是否能取代同声传译?2016年,搜狗CEO王小川在乌镇世界互联网大会上演示了搜狗语音实时翻译技术,取得了不错的效果。

在搜狗语音交互中心技术负责人陈伟看来,语音识别与翻译,二者具有共通性。“技术在慢慢交叠和融合,比如端到端的技术,我们发现语音识别和机器翻译都是一个序列到另一个序列的学习过程。翻译的框架,我们现在的语音识别也在用。”

但在对准确性和专业性要求更高的场合,机器翻译尚不能被信赖,比如,当王小川说“我会认为搜索的未来就是问答机器人”时,语音实时机器翻译显示的是“I will think the future of search. The QA Robot.”—这显然不是一个令人满意的结果。

虽然短短一年的时间里,人工智能系统在围棋领域已鲜有对手,但在翻译界,它目前还未能战胜人类。

猜你喜欢

搜狗语料短语
腾讯拟147亿元全资收购搜狗
基于语料调查的“连……都(也)……”出现的语义背景分析
《健民短语》一则
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
搜狗分号工具箱 输入更便捷