火山翻译:打造AI地基之上的巴别塔
2021-08-17张书琛
张书琛
机器翻译新突破
8月5日,ACL 2021正式颁发“最佳论文”奖项,字节跳动AI Lab的机器翻译技术论文在3350篇论文投稿中脱颖而出,当选今年度“最佳论文”。ACL大会由国际计算语言学协会主办,被视为自然语言处理与计算语言学领域最高级别的学术会议。多年来,自然語言处理被誉为“人工智能皇冠上的明珠”,在机器翻译、搜索、信息流、输入法等领域都有着广泛的应用。
自1949年信息论先驱Warren Weaver发表翻译备忘录、提出机器翻译的可能性以来,机器翻译已经过了几十年的发展迭代,如今进入了一个可以运用“神经网络”和加入了“深度学习技术”的AI翻译时代。
不可否认的是,全球化的商业巨头已经走在了最前端。
字节跳动作为互联网新贵,机器翻译是其AI能力发展程度的重要体现之一。该公司业务覆盖150个国家和地区,员工也遍布全球各地。在其11万名员工跨越语言障碍、顺畅交流协作的背后,字节跳动AI Lab火山翻译团队多年打磨的机器翻译模型的支持必不可少。
基于文本翻译、语音翻译、图像翻译、语种识别等技术能力,火山翻译推出了一系列形态多样的产品与服务,包括机器翻译云服务、智能视频翻译、智能同传等。此外,火山翻译还支持垂直领域的快速模型定制,能够满足不同群体和不同行业的翻译需求。
据火山翻译负责人王明轩介绍,内部很多大热的软件中都可以看到火山翻译的身影。无论是在泛娱乐端还是工具端的应用,火山翻译多语言互译的速度和准确度都经受住了考验。
如今,火山翻译已经上线了56门语种之间的互译,支持的语向翻译多达3080个。据透露,今年内火山翻译上线语种将超过150个。值得一提的是,火山翻译不需要英语等通用语作为中间语,可以支持任意两个语种之间的互译,大大提高了翻译速度。
火山翻译的前沿技术也获得了学术界认可。今年共有9篇论文被ACL 2021接收,就是由AI Lab的NLP基础研究团队和火山翻译团队合作实现的。由字节跳动AI Lab提出的一种新的词表学习方案VOLT,更是获得了年度唯一的“最佳论文”奖项。这是ACL59年历史上,华人科学家团队第二次赢得最高荣誉。
王明轩透露,火山翻译现在每天都要处理数亿次翻译请求,可以说每一个上线语种都经过了实际用户的检验,“因此,稳定和高质量的翻译服务是我们必须提供的保障”。
今年内火山翻译上线语种将超过150个
火山翻译多语言预训练新范式源于人类语言学习规律
持续不断地为用户提供高水平翻译服务靠的不是运气,而是火山翻译背后强大的技术支撑和工程能力,以及字节跳动开放体系的联动支持。
技术底色支撑应用落地
火山翻译之所以能在近年快速落地,实现商业价值,离不开其浓厚的技术基底。
微软技术学院院士黄学东曾表示,一家公司构建的翻译系统效果如何,主要取决于两点:一是数据是否够全、够多;二是算法是否足够好。
海量数据是AI自我迭代不可或缺的基础,由于背靠字节全球化布局,火山翻译可以获得更好的AI训练结果,并从AI赋能中率先获益。
同时,得益于字节跳动多年机器学习和自然语言处理领域的深耕,其AI团队拥有百余项技术发明专利,在机器翻译技术上更是独创了multilingual Random Aligned Substitution Pre-training (mRASP)多语言预训练算法,把几十种语言语料融合在一起训练,获得的模型在具体语对上微调取得了44个语对的业界最佳性能。
据悉,目前研究界主流的多语言翻译模型主要在英语相关的语对上进行训练。这样的系统通常在英语相关的语向(有监督语向)上表现不错,而在非英语方向(零资源方向)的翻译效果不佳。针对这个问题,火山翻译团队近期提出了更简洁优雅的大规模多语言预训练新范式mRASP2,通过引入对比学习,辅以对齐增强方法,将单语语料和双语语料囊括在统一的训练框架之下,旨在充分利用语料,学习更好的语言表示,并由此提升多语言翻译性能。
这一多语言预训练新范式运用在机器翻译时,就像是一个精通两三门语言的人类学者,在学习另一门语言时,速度就会更快。“人类在多语言学习过程中会自发去总结语言学习中比较抽象的共性,再去学习新语言的特性。因此想要提升个人语言学习能力,往往需要学习更多的语言。”火山翻译就将这一规律植入神经网络翻译中,创造出了一个统一的具备多种语言能力的模型,在遇到新的语言时,临时少量学习即可达到很流利的语言水平。
Transformer模型结构图(以机器翻译为例)
这意味着,无论是语料库丰富的通用语言,还是训练数据稀缺的小语种,机器都可以通过这一新范式,把翻译能力迁移到不同语言上,使不同语言之间的信息互相利用,完成学习迭代。
随着语种数量增加,翻译任务增多,对机器自然语言处理任务的能力水平也提出了新的要求。
早在2019年12月,火山翻译团队曾经开源过一款Transformer类模型推理加速引擎LightSeq。作为业界第一款支持多种模型和解码方法的推理加速引擎,LightSeq的推理速度快于其他同类软件,更是远远超过了TensorFlow和PyTorch。