以假乱真，AI新闻主播来了

2019-08-12

农村青少年科学探究 2019年5期

一

2018年11月7日，在第五届世界互联网大会上，搜狗与新华社联合展示了全球首个全仿真智能AI主持人。“他”是以中国新闻主播邱浩为原型的，一经亮相便引起了巨大轰动。这名AI主持人之所以成为了最耀眼的明星，主要是因为“他”除了口型稍微有点对不上之外，不论是表情还是声音都达到了以假乱真的地步。

那么，到底什么是全仿真智能AI主持人呢？

要搞清楚这个问题，我们就要先来具体了解一下什么是“AI”。所谓“AI”，其实就是“人工智能”的英文缩写。AI是计算机科学的一个分支，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它主要包括机器人、语言识别、图像识别、自然语言处理以及专家系统等等。

简单地说，全仿真智能AI主持人就是利用人工智能技术，通过模仿真人主播的形象和声音来朗读文本内容的数字化播报员。业界内称其为“AI合成主播”。

二

当然，如果仅仅只是一个简单的数字化播报员也不会引起各界如此强烈的关注。“AI合成主播”能够结合新华社客户端“现场新闻”，将“AI合成主播”与短视频一体化生产制作，呈现了令人耳目一新的新闻短视频。“他”不仅在全球AI合成领域实现了技术创新和突破，更是在新闻领域开创了实时音视频与AI真人形象合成的先河。

根据官方透露的信息，新华社的这个“AI合成主播”主要是在搜狗“分身”技术的支持下，通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术，并结合语音、图像等多模态信息进行联合建模训练后，生成的与真人无异的AI分身模型。

那么，搜狗的“分身”技术又具体指的是什么呢？

搜狗“分身”技术诞生于搜狗“自然交互+知识计算”这一人工智能理念之下。它主要包括了语音合成技术、唇形合成技术、表情合成技术以及自然语言处理技术等多种AI技术。这项技术让机器首次做到了逼真模拟人类说话的声音、嘴唇动作和表情，并且将三者自然匹配，做到惟妙惟肖。这是人工智能技术在模仿人类领域的一个新突破。

简而言之，生成“AI合成主播”大致可分为三步完成：首先，被模仿者在镜头前录制一段音频、视频数据；然后，“分身”技术提取被模仿者的声音、表情、唇形等个性特征；最后，利用语音合成、表情合成、唇形合成技术，再加上深度学习技术即可合成一个活灵活现的“AI主播”。

三

目前，“AI合成主播”已经在新华社正式上岗，并且被运用到了世博会、世界互联网大会等重要新闻事件的报道当中。“他”基本上能够同其他真人主播一起，为观众们带来权威、及时、准确的中英文新闻资讯。

“AI合成主播”相比真人主播最大的优点就是能够24小时不停歇地工作。不但能够提升滚动媒体的新闻制作效率，还可以有效降低新闻的制作成本。

那么，在了解了“AI合成主播”的情况之后，大家难免要为现在的真人主播们担忧了，这不是活生生抢饭碗来了吗？

其实，就目前来看大家的担心还为时过早。因为，作为一名还处于研发过程中的AI新闻主播，“他”本身还有许多需要进一步改进和完善的地方。

不过，未来基于人工智能技术合成的风格各异的人类形象，在医疗、教育、媒体、法律咨询等方面的应用前景无疑是十分广阔的。