搜狗“分身术”：AI合成主播背后的秘密

2019-06-11房晓楠

机器人产业 2019年2期

关键词：陈伟搜狗女主播

房晓楠

在今年的两会期间，由搜狗公司与新华社新媒体中心联合发布的全球首个AI合成女主播“新小萌”，参与了两会报道，引起了国内外媒体的争相关注和大幅报道。在广泛关注的背后，人们更想知道的是这“神奇”技术背后的秘密……

现在的科学技术很发达，那你有没有想过用技术“造出”另一个“你”，他可以替你去做一些繁琐的事情，而你便可以“释放天性”，去做一些更加具有创造性和创新性的事情？

也许对你来说，这种事情还想都不敢想，可实际上，现在的技术已经可以做到这种程度了。

3月初，搜狗公司与新华社新媒体中心联合发布的全球首个AI合成女主播“新小萌”正式上岗新华社，第一个任务便是参与两会报道。

AI合成女主播“新小萌”自然的肢体动作、流畅的播音节奏，以及温和亲切的表情，让观众大呼不可思议，引起媒体的争相报道。此外，“今日俄罗斯”电视台网站、英国Daily Mail、美国Futurism等多家海外媒体也对此进行了大幅报道，堪称惊艳。

在惊叹之余，人们不禁想要知道的更多。作为第一个登上两会的、全球首个AI合成女主播，“新小萌”的表现为何会如此逼真？背后有着怎样的高科技？为什么想要“创造”出这样的AI合成主播？有没有考虑到技术发展所带来的伦理问题？

带着这些问题，我们采访了AI主播背后的技术负责人、搜狗语音交互技术中心高级总监陈伟。

陈伟所在的搜狗语音交互中心团队成立于2012年，成立之初主要进行语音识别研究，后来逐渐从语音识别发展到现在的多模态识别，并将手写识别、唇语识别等与语音识别结合在一起。目前，团队核心在做的事情是解决一种叫做“搜狗之音”的基础框架，而在该框架下又孵化出了多种不同的技术，具备从感知到认知等方面的能力，陈伟表示，更多的是希望能够围绕搜狗在人工智能战略方面的部署进行“自然交互+知识计算”的研究，在自然交互上面做出更多的成果。两会期间引起人们广泛关注的AI合成女主播“新小萌”背后的“神奇”技术就是由该团队负责的。

其实，搜狗AI合成主播背后的技术就是“搜狗分身术”，可让机器更好地去表达信息。陈伟介绍道，最初的理念就是给真人创造出一个他自己的分身模型，替代真人做一些相对来说复杂度较低、低脑力的繁琐工作。基于这样的设想，一个人便可以衍生出多个分身模型，从而让真人从繁重的重复性工作中解放出来。

蓝图已经绘好，接下来便要考虑落地方向了。

搜狗分身在媒体领域的落地

2018年11月，在乌镇的第五届世界互联网大会上，搜狗联合新华社发布了全球首个AI合成男主播，完成了“搜狗分身”在媒体领域的第一次落地。今年2月，该AI合成男主播升级成为站立式AI合成男主播“新小浩”，改变了以往的“坐着播新闻”模式，升级后的“新小浩”可以进行站立式自由播报，并加入了相应的肢体动作，引入了更多的表达方式，以更多姿态、更为自由的方式进行表达。

为什么会想到创造出一个AI合成主播的形象？陈伟解释道，现阶段，主播在播报这件事情上面临很大的问题，我们希望解决媒体领域和新闻播报领域的效率问题。“播报新闻，一般会有场地、时间、主播本身精力等问题的限制，每天的产出有限，资源本身又受限，我们通过AI合成主播可以实现这样一个能力。在给新华社的系统中，新华社只要输入每天想要播报的新闻资料，过几秒钟便生成一个完整的视频，中文、英文不同类型的新闻视频都可以马上出来。”新闻本身就是要快，AI合成主播在时效性上是有一个保障的。当播报新闻的效率提升之后，就可以将真人主播从大量繁重的播报工作中抽身出来，从而将更多的精力投入到访谈类、深度新闻报道等节目中来。

目前，基于搜狗分身技术的AI合成主播已经在新华社平台上播报了几千条新闻，并且是零失误。接下来，搜狗分身将继续在教育、法律、医疗、娱乐等领域纷纷落地。

AI合成主播如何更像人

两会上的AI合成女主播无论是外观还是声音，如果不是对真人很熟悉的话，难以辨别真假，这就涉及到逼真度问题。对于AI合成主播来说，除了声音，面部表情、嘴型、神态的一个微小的不自然状态都可能识破“假人身份”。那么搜狗分身如何才能让AI合成主播更像人呢？实际上，要想使AI合成主播达到与真人无异的状态主要取决于两点，一是表情、唇语和动作，二是声音。而这两点正是搜狗分身一直在做的。

实际上，搜狗分身团队本身就不是纯粹的专注于语音交互的团队，它是语音、图像加自然语言处理（NLP）完整能力的融合。

2018年，在“BlizzardChallenge2018”语音合成大赛上，首次参赛的搜狗就在“可懂度”和“语音停顿”两项任务中获得了排名第一的成绩。可以说，在语音合成上搜狗的能力是毋庸置疑的。陈伟解释道，合成主播上用到的语音合成技术，是当前最先进的端到端的神经网络声码器技术，可以让AI合成主播发音的真实度大大提升。

而接下来，团队将会更加注重微表情的研究与提升，在图像上考虑2D+3D混合的技术，在语音基础上将更多的NLP能力融合进来，加强AI合成主播的认知能力，使AI合成主播在进行新闻播报时，嘴唇与声音完全同步的情况下，神态更为自然。

而对于逼真度的评价方法，搜狗分身团队，也有自己的一套评价标准。早期，相对主观，主要是进行人工评价，团队中负责产品和算法的同事看一看，感觉和真人挺像的，就可以“出世”了。后来，随着技术的不断成熟，有了一些新的指标，截取真人的一段录制视频作为测试集，同时再截取“分身”说同样一句话的视频，将它们压缩在一个相同的时间维度上进行逐帧比较，寻找两者在表情嘴型和姿态上面的差异，然后不断进行优化。

如今，搜狗分身技术仅需几个小時的视频资料就可以合成一个比较逼真的真人“分身”。就新华社上岗的AI合成主播而言，在建模完成后，只要编辑人员在后台输入所需的文字资料，AI合成主播便可以按照这些输入内容进行播报。但对于一些突发情况，现在的AI合成主播并不能进行很好的处理。对此，陈伟解释道，主播一定是要具有认知和理解能力的。搜狗分身的技术路线是希望能够真正做出一个真人的“分身”，这个分身将具有自然交互和知识计算的能力，目前，AI合成主播还没有达到这样的一个状态。我们将采取渐进式的步骤，先造一个“分身”出来，帮助真人解决低脑力的活动，然后一步步前进，最终实现“分身”具有认知和理解能力，达到人机交互状态。而真正想要达到与电影里所展示的那样，与真人无异，至少还需要5至10年的时间。

为此，搜狗分身一直在朝着这个方向前进。据陈伟介绍，搜狗分身将于年底推出交互能力。

用中性的技术为人类赋能

人工智能到底会不会替代人类，使人类走向灭亡？可以说，这是从人工智能诞生的那一天起就一直存在的话题。如今，人工智能能做的事情越来越多，在医疗、教育、金融等领域有着越来越深入的渗入，对此，人们的担心也日益加大。最近，在霍金逝世一周年之际，霍金对于人工智能的悲观论，对于终极问题的解答又在网上引起热潮。刚刚过去的两会上，关于人工智能伦理问题也是代表委员们热切关注的方向，让人工智能在不是很成熟的时候，对其加以规范，使其朝着更好的方向发展。

如今，AI合成主播的出现，让人工智能的伦理问题再一次成为大家讨论的焦点话题。对此，陈伟认为：“做AI的技术团队或者做AI的研究团队一定要先考虑伦理，特别是要考虑这件事到底是不是代表正义，而不是去做恶，这是基本原则。”搜狗在这件事上就是用正向的技术驱动公司的发展。因此，在搜狗分身的技术应用上，我们更多的是希望能跟确定的领域和公司合作，这样的好处是不要让大家把这个东西滥用，这是我们的第一步。技术往前走，一定会有负面的事情出现，防滥用、防欺诈也是技术向前发展的趋势，找到刚需场景，在垂直场景下把人工智能的能力发挥到最大值，这是目前必须做到的。

任何事物都具有双面性，技术也不例外。本质上，任何技术都是中性的，而如何将中性的技术使用得当，为人类赋能才是关键所在。

正如陈伟所言，目前，人工智能还处于初级阶段，它是一种非常弱的人工智能，要想走到通用人工智能、强人工智能还需要很长的时间，而在这个过程中，我们应该把这个技术从不可用变成可用，做到好用的状态，为人类赋能。