AI合成主播闪亮登场
2019-07-16
前段时间,全球首个AI合成女主播“新小萌”正式上岗新华社,而她的第一个工作任务便是参与今年全国两会报道。对此,许多海外媒体进行了大幅报道,并表示“近年来,中国已成为全球领先的人工智能发展中心之一”。
对AI合成主播,人们在惊叹和称赞之余,对于其背后的人工智能技术都无比好奇:AI合成主播是如何诞生的?它未来又将有哪些应用价值?
AI合成主播交出亮眼成绩单
在2018年11月举行的第五届世界互联网大会上,新华社联合搜狗发布全球首个合成新闻主播——“AI合成主播”,运用最新人工智能技术,“克隆”出与真人主播拥有同样播报能力的“分身”,在全球AI合成领域和新闻领域均开创了先河,引起了世界范围内的关注。
路透社报道称,这个AI主播是以中国新闻主播邱浩为原型的,它身穿黑西装打着领带。这是中国旨在提升其在人工智能技术方面能力努力的一部分。
英国《独立报》网站则称,新华社的AI主播是一位栩栩如生的数字化播报员,可以通过模仿真人主播的形象和声音朗读文本内容。
近期,该AI合成主播经过技术攻关,在多项重要技术上取得突破。这款被命名为“新小浩”的站立式AI合成主播,仍然以新华社主播邱浩为原型,在声音和图像两大引擎上有了较大的优化和突破。“新小浩”不仅能坐着播报新闻,还能站起来,带着手势、姿态等多种肢体动作声情并茂地播报新闻,更加智能,更接近于真人。
作为新华社的新员工,AI合成主播上线后立即投入新闻报道并实现量产,目前已发稿3400余条,累计时长超过10 000分钟,参与了包括第五届世界互联网大会、首届中国国际进口博览会、2019年春运、农历猪年春节等重要内容的报道。这些报道充分结合图片、视频、文字、动漫等元素,生产出一系列内容丰富、形式多样、可读性强的融媒体新闻产品。这些产品不仅在新华社中英文客户端、新华社微信公众号、中国新华新闻电视网等平台发布,还以竖屏形态在各移动短视频平台大量播发,引起热烈反响,海内外媒体纷纷跟进报道。
AI合成主播为何如此逼真
AI合成主播闪亮登场,引起了全球传媒业和人工智能领域的极大关注,成为中国人工智能与传媒业大胆融合并付诸规模化应用的典型案例。
AI合成主播无论是声音还是表情,都做到了以假乱真的地步。其不仅能全年365天、每天24小时不停歇地提供服务,还能用无数个分身,同时在不同的现场播报各种资讯。
AI合成主播有极强的“克隆”能力。真人主播面对镜头录制一段播报新闻的视频后,AI合成主播凭借这段视频,就能将真人主播的声音、唇形、表情动作等特征提取出来,随后“克隆”出真人主播的分身。用户只需输入新闻文本,这个分身就能用和真人一样的声音进行播报,而且唇形和面部表情等也能与真人主播完全吻合,真假难辨,效果相当震撼。那么,为什么AI合成主播如此逼真?
初代AI合成主播由“搜狗分身”技术打造,这项技术让机器首次做到逼真地模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,创造出人类的AI分身,进而帮助人类提高信息表达和传递的效率。
而首个入职新华社的站立式AI合成主播,在声音、嘴唇动作和表情之外,利用“搜狗分身”技术继续赋予其肢体语言的能力,让其更加智能逼真。
以新华社主播邱浩为原型的“AI合成主播”(图/搜狗网)
3月初加入全国两会报道的AI合成主播进一步采用了“搜狗分身”最新的wavernn波形建模技术,可以实现逼真的语音合成效果,让AI合成主播的声音更具有真实情感和表现力。而在图像生成方面,新版的AI合成主播实现了更加逼真的表情生成、自然的肢体动作以及嘴唇动作预测等能力,完成了站立并可以做出肢体动作的主播形象,进一步提升了合成主播的表现力。
为不同职业赋能
全国两会期间,AI合成女主播的首次登场亮相,所带来的冲击感是非同凡响的。和真人主播相比,通过“搜狗分身”技术打造的AI合成主播能够不知疲倦地连续工作24小时,同时还掌握多国语言,大大提升了效率、降低了成本。
据搜狗公司透露,随着“搜狗分身”技术能力的不断提高,AI合成主播的定制周期也大为降低,合成效果和稳定性也有着显著提升。仅靠少量用户真实音视频数据,即可快速定制出高逼真度的分身模型,帮助媒体在融媒体转型、新闻时效性、跨语种传播能力等领域升级。全球首个AI合成女主播,正是“搜狗分身”技术持续复制不同类型、不同特点AI合成主播能力的体现。
根据搜狗和新华社达成的战略合作协议,未来双方还将在AI合成主播领域展开长期合作,更多的AI合成主播将不断涌现,而这些主播播报的新闻也将会通过新华社客户端、新华社微信公众号等平台与观众见面。可以预见,AI合成主播注定会成为AI时代信息资讯传播链条相当重要的一环。
然而,AI合成主播仅仅只是一个开始。伴随着人工智能技术的不断升级,个性化内容生产的门槛大大降低,应用范围愈发广泛。未来,“搜狗分身”技术还将应用于娱乐、医疗、健康、教育、法律、金融等多个领域,通过提供个性化的行业解决方案,为不同职业赋能,从而提升整个社会的信息生产力。根据不同场景创造出虚拟教师、虚拟客服、虚拟管家、虚拟医生等,深度渗透到人类的内容表达和信息传递场景中,提供服务并发挥更多价值。届时,各行各业都将迎来AI技术下的新一轮变革。(本刊综合)※