AI分身进化之旅：年内将提升交互能力

2019-09-10

电脑报 2019年11期

关键词：陈伟小川搜狗

AI分身技术的落地应用，远比人们想象中发展得要更快。

2018年11月，乌镇世界互联网大会上，以新华社CNC主持人邱浩为原型的AI合成主播首次亮相，引发公众极为热烈的讨论。

到了今年2月19日，全球首个AI合成女主播“新小萌”推出时，不仅能坐着播报新闻，还能站起来，带着手势、姿态等多种肢体动作，让主播的表达方式更加多元化。

接下来，在线教育AI公开课老师、客服、教育以及一些娱乐等等方向，都将是AI分身技术的下一步落地应用方向。

24小时工作，且不担心出错

截至目前，入职新华社的AI合成主播，已生产几千条新闻报道。参与包括第五届世界互联网大会、首届进博会、2019春运、春节、两会等若干重要事件的报道。

在不少媒體看来，一个国家级主流媒体大量运用AI合成主播，这项举动本身具有强烈的象征性意义。包括“今日俄罗斯”电视台网站、英国Daily Mail、美国Futurism等多家海外媒体，对此进行了大幅报道，并称“近年来，中国已成为全球领先的人工智能发展中心之一”。

其实，相比乌镇互联网大会的第一次亮相，AI合成主播技术已经快速升级——读起新闻声情并茂的新小萌，就进一步采用了“搜狗分身”最新的wavernn波形建模技术，可以实现逼真的语音合成效果，让AI声音更具有真实情感和表现力。

“我们提供的系统，新华社只要每天在想要播报新闻时，过几秒钟生成一个完整的视频，中文、英文不同类型的新闻视频就可以马上出来。”作为新华社AI主播背后的技术负责人，搜狗语音交互技术中心高级总监陈伟，对此感慨颇多。

陈伟透露，通常而言，AI分身技术需要几步，第一步通过使用人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术，第二步是结合语音、图像等多模态信息进行联合建模训练后，生成与真人无异的AI分身模型。

搜狗分身技术的魅力在于，让机器能够逼真地模拟人类说话时的声音、嘴唇动作和表情，并且将三者自然匹配，与真人几乎一致。

在陈伟看来，使用AI主播最大的意义在于解决了新闻播报领域的效率问题，在建模完成后，编辑人员仅需要输入文字资料，即可让AI形象按照文字播报。无须进行二次视频编辑，AI主播将自动识别语义并配上对应音调及表情。“播报一个新闻一般会有场地、时间、主播本身精力的限制，每天的产出很有限，资源本身又是受限。但AI主播不同，可以工作24h，也不必担心有错误出现。”

以“语言”为核心展开布局

在看似用户只用输入文本即可创造AI分身背后，难点攻破并不轻松，比如逼真度。

“逼真度”是团队衡量AI分身技术的一个重要指标——根据陈伟的说法，所谓逼真度，就是大家看到的表情、唇语、动作、声音，最基本的需求是保证表情、声音和真人完全同步。

“早期是通过人工来评价的，逼真与否也是内部产品、算法的同事扫一眼，比较主观。现在搜狗在做一些指标，通过大量的假设录制视频切一小部分做一个测试集，与真人的相关视频做对比。压缩在一个相同的时间维度下面来看，逐帧对比，整个表情、嘴型、姿态上面的差异度有多大。”陈伟表示。

“实际上我们每前进一步都很难，比如让AI主播动起来、摆头，这一动作都比单纯的正面播报要困难得多。要想做到电影里展示那样与真人无异，可能还需要5～10年。”陈伟表示，拿AI主播来说，其功能还停留在播报阶段，更多交互功能有待于进一步开发。

陈伟也透露，未来，团队将会更关注眼神、挑眉等微表情的自然表达。在图像上面要考虑2D+3D混合的技术，在语音基础上面有更多NLP的能力进来，让AI分身的认知能力加强。

事实上，AI分身背后，伴随的是搜狗AI多年的研究发展脚步——根据记者了解，早在2012年搜狗围绕感知层面的交互，开始了语音识别相关研究。

过去几年来，人工智能成为搜狗产品的赋能原力，搜狗以“语言”为核心展开布局，纵向向技术天花板不断突破，提升机器翻译技术的准确率和智能服务的深度。与此同时，加大横向的产业布局，拓展更为广阔的应用场景，在搜索、社交、旅游、医疗、法律、翻译等领域，推动人工智能的产业化落地。

2016年世界互联网大会上，搜狗展示了同声传译，那时候搜狗还没有上市，但专注于完善语言处理技能已经成为其未来战略之一。2017年世界互联网大会上，搜狗掌门人王小川对外界表态：“现在很多人认为，语音搜索已经足够方便了，但这还不够智能。”

一年后的2018年7月，王小川在香港公布了“搜狗分身”技术——在现场，王小川展示了一段结合唇语合成、语音合成、音视频联合建模与深度学习技术，可驱动机器生成对应的唇语图像与声音，进而输出统一的音视频素材。

彼时业界很少有人会预料到，如此高逼真的AI合成主播，会如此快与大众见面，甚至影响冲击了整个新闻媒体的生产方式。

AI语音应用场景考量

客观而言，目前AI分身的真实度并未达到令人恐慌的阶段。此外，新华社的AI主播目前主要在单个频道运营，如果想要普及到更大规模的媒体频道，高并发要求将对云端调度提出一定挑战。

陈伟表示，目前搜狗提出两套方案，一套提供公有云服务，另外也支持部署在企业本地的私有云服务器上。“我们的服务在资源占用和实时性上都能满足要求。”

不过，新小萌等AI合成主播的出现，绝非只是播报新闻稿而已。这位美女虚拟主播背后被寄予厚望，搜狗希望在未来将AI语音合成这项技术个性化，为AI语音赋予各种形象和场景。

在陈伟的预想中，在“分身”技术的支持下，视频制作成本将会大大降低，最终惠及用户。首要的就是与搜狗现有产品线打通。像在输入法搜索，包括搜狗AI硬件上面“分身”技术将如何落地，都正在探讨中。

比如在AI老师上，已经有项目正在进行中。“像公开课这种老师单向输出的形态，特别适合做AI分身。老师只需要准备教案和文稿，通过这种方式形成各种教学视频，后期加上一些剪辑也可以带有一定的交互能力。这种比单纯的文字教学效果要好得多。”

此外，法律、医疗、娱乐等领域，也是搜狗AI分身未来发力的方向。而在技术使用的规范问题上，陈伟如此表示：“搜狗选择和明确的公司、在明确的领域合作，尽量通过场景圈定技术的使用范围，这样的好处就是不会把技术滥用。”

这一切，将建立在搜狗如何将人工智能发展战略，延伸到更广阔的应用场景考量上。

对此，王小川曾说：“在AI领域，搜狗在技术和应用层面均取得丰厚成果，奠定了在语音、计算机视觉、机器翻译和问答等多个赛道上的领先地位。展望2019年，我们会将AI技术与业务深度融合，持续提升核心竞争力。”

尽管对于所有人工智能公司而言，在大环境变化如此快的当下，想把AI的故事讲得更好，这都并不容易。

王小川对此已有了自己的判断——那就是以搜狗擅长的语言为核心。今年2月，在发布完2018年Q4财报后，王小川在公司的内部信中写道：日后将强化以语言为核心的AI技术的积累和探索，保持搜狗技术领先性的核心优势。

在这一点上，王小川的看法从未变过，在他看来，“语言”是AI的未来，“掌握一种语言就是掌握了一种灵魂”，而语言则是人工智能皇冠上的明珠。无论是百箱大战中Amazon Echo、Google Home等多款围绕着语音交互打造的智能音箱，还是会打电话的Google Duplex、会辩论的IBM Projector Debater，都聚焦于让机器拥有“语言”这颗明珠。

因此，谁敢妄下断言，AI分身合成主播，将在教育、法律、娱乐等更多领域，带来多大的冲击浪花？