AI分身进化之旅:年内将提升交互能力
2019-09-10
AI分身技术的落地应用,远比人们想象中发展得要更快。
2018年11月,乌镇世界互联网大会上,以新华社CNC主持人邱浩为原型的AI合成主播首次亮相,引发公众极为热烈的讨论。
到了今年2月19日,全球首个AI合成女主播“新小萌”推出时,不仅能坐着播报新闻,还能站起来,带着手势、姿态等多种肢体动作,让主播的表达方式更加多元化。
接下来,在线教育AI公开课老师、客服、教育以及一些娱乐等等方向,都将是AI分身技术的下一步落地应用方向。
24小时工作,且不担心出错
截至目前,入职新华社的AI合成主播,已生产几千条新闻报道。参与包括第五届世界互联网大会、首届进博会、2019春运、春节、两会等若干重要事件的报道。
在不少媒體看来,一个国家级主流媒体大量运用AI合成主播,这项举动本身具有强烈的象征性意义。包括“今日俄罗斯”电视台网站、英国Daily Mail、美国Futurism等多家海外媒体,对此进行了大幅报道,并称“近年来,中国已成为全球领先的人工智能发展中心之一”。
其实,相比乌镇互联网大会的第一次亮相,AI合成主播技术已经快速升级——读起新闻声情并茂的新小萌,就进一步采用了“搜狗分身”最新的wavernn波形建模技术,可以实现逼真的语音合成效果,让AI声音更具有真实情感和表现力。
“我们提供的系统,新华社只要每天在想要播报新闻时,过几秒钟生成一个完整的视频,中文、英文不同类型的新闻视频就可以马上出来。”作为新华社AI主播背后的技术负责人,搜狗语音交互技术中心高级总监陈伟,对此感慨颇多。
陈伟透露,通常而言,AI分身技术需要几步,第一步通过使用人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,第二步是结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。
搜狗分身技术的魅力在于,让机器能够逼真地模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,与真人几乎一致。
在陈伟看来,使用AI主播最大的意义在于解决了新闻播报领域的效率问题,在建模完成后,编辑人员仅需要输入文字资料,即可让AI形象按照文字播报。无须进行二次视频编辑,AI主播将自动识别语义并配上对应音调及表情。“播报一个新闻一般会有场地、时间、主播本身精力的限制,每天的产出很有限,资源本身又是受限。但AI主播不同,可以工作24h,也不必担心有错误出现。”
以“语言”为核心展开布局
在看似用户只用输入文本即可创造AI分身背后,难点攻破并不轻松,比如逼真度。
“逼真度”是团队衡量AI分身技术的一个重要指标——根据陈伟的说法,所谓逼真度,就是大家看到的表情、唇语、动作、声音,最基本的需求是保证表情、声音和真人完全同步。
“早期是通过人工来评价的,逼真与否也是内部产品、算法的同事扫一眼,比较主观。现在搜狗在做一些指标, 通过大量的假设录制视频切一小部分做一个测试集,与真人的相关视频做对比。压缩在一个相同的时间维度下面来看,逐帧对比,整个表情、嘴型、姿态上面的差异度有多大。”陈伟表示。
“实际上我们每前进一步都很难,比如让AI主播动起来、摆头,这一动作都比单纯的正面播报要困难得多。要想做到电影里展示那样与真人无异,可能还需要5~10年。”陈伟表示,拿AI主播来说,其功能还停留在播报阶段,更多交互功能有待于进一步开发。
陈伟也透露,未来,团队将会更关注眼神、挑眉等微表情的自然表达。在图像上面要考虑2D+3D混合的技术,在语音基础上面有更多NLP的能力进来,让AI分身的认知能力加强。
事实上,AI分身背后,伴随的是搜狗AI多年的研究发展脚步——根据记者了解,早在2012年搜狗围绕感知层面的交互,开始了语音识别相关研究。
过去几年来,人工智能成为搜狗产品的赋能原力,搜狗以“语言”为核心展开布局,纵向向技术天花板不断突破,提升机器翻译技术的准确率和智能服务的深度。与此同时,加大横向的产业布局,拓展更为广阔的应用场景,在搜索、社交、旅游、医疗、法律、翻译等领域,推动人工智能的产业化落地。
2016年世界互联网大会上,搜狗展示了同声传译,那时候搜狗还没有上市,但专注于完善语言处理技能已经成为其未来战略之一。2017年世界互联网大会上,搜狗掌门人王小川对外界表态:“现在很多人认为,语音搜索已经足够方便了,但这还不够智能。”
一年后的2018年7月,王小川在香港公布了“搜狗分身”技术——在现场,王小川展示了一段结合唇语合成、语音合成、音视频联合建模与深度学习技术,可驱动机器生成对应的唇语图像与声音,进而输出统一的音视频素材。
彼时业界很少有人会预料到,如此高逼真的AI合成主播,会如此快与大众见面,甚至影响冲击了整个新闻媒体的生产方式。
AI语音应用场景考量
客观而言,目前AI分身的真实度并未达到令人恐慌的阶段。此外,新华社的AI主播目前主要在单个频道运营,如果想要普及到更大规模的媒体频道,高并发要求将对云端调度提出一定挑战。
陈伟表示,目前搜狗提出两套方案,一套提供公有云服务,另外也支持部署在企业本地的私有云服务器上。“我们的服务在资源占用和实时性上都能满足要求。”
不过,新小萌等AI合成主播的出现,绝非只是播报新闻稿而已。这位美女虚拟主播背后被寄予厚望,搜狗希望在未来将AI语音合成这项技术个性化,为AI语音赋予各种形象和场景。
在陈伟的预想中,在“分身”技术的支持下,视频制作成本将会大大降低,最终惠及用户。首要的就是与搜狗现有产品线打通。像在输入法搜索,包括搜狗AI硬件上面“分身”技术将如何落地,都正在探讨中。
比如在AI老师上,已经有项目正在进行中。“像公开课这种老师单向输出的形态,特别适合做AI分身。老师只需要准备教案和文稿,通过这种方式形成各种教学视频,后期加上一些剪辑也可以带有一定的交互能力。这种比单纯的文字教学效果要好得多。”
此外,法律、医疗、娱乐等领域,也是搜狗AI分身未来发力的方向。而在技术使用的规范问题上,陈伟如此表示:“搜狗选择和明确的公司、在明确的领域合作,尽量通过场景圈定技术的使用范围,这样的好处就是不会把技术滥用。”
这一切,将建立在搜狗如何将人工智能发展战略,延伸到更广阔的应用场景考量上。
对此,王小川曾说:“在AI领域,搜狗在技术和应用层面均取得丰厚成果,奠定了在语音、计算机视觉、机器翻译和问答等多个赛道上的领先地位。展望2019年,我们会将AI技术与业务深度融合,持续提升核心竞争力。”
尽管对于所有人工智能公司而言,在大环境变化如此快的当下,想把AI的故事讲得更好,这都并不容易。
王小川对此已有了自己的判断——那就是以搜狗擅长的语言为核心。今年2月,在发布完2018年Q4财报后,王小川在公司的内部信中写道:日后将强化以语言为核心的AI技术的积累和探索,保持搜狗技术领先性的核心优势。
在这一点上,王小川的看法从未变过,在他看来,“语言”是AI的未来,“掌握一种语言就是掌握了一种灵魂”,而语言则是人工智能皇冠上的明珠。无论是百箱大战中Amazon Echo、Google Home等多款围绕着语音交互打造的智能音箱,还是会打电话的Google Duplex、会辩论的IBM Projector Debater,都聚焦于让机器拥有“语言”这颗明珠。
因此,谁敢妄下断言,AI分身合成主播,将在教育、法律、娱乐等更多领域,带来多大的冲击浪花?