AI能力:虚拟主播的演进、关键与趋势
2022-03-03郭全中黄武锋
□郭全中 黄武锋
一、AI 能力:虚拟主播的三次演进
虚拟主播从发轫到现在经历了虚拟主持人、虚拟主播到AI 合成主播三大阶段,而背后的驱动力量则是AI 技术的发展和演进,不同阶段的虚拟主播不断拓展应用场景。
(一)虚拟主持人难以大规模使用——AI 能力严重不足
2000年,互联网泡沫开始破裂,互联网遭遇了第一次重大挫折。而传媒业为了更好地、更快地报道新闻,需要加快新闻生产速度、提升新闻生产数量,以及提高新闻报道的准确性,虚拟主持人成为一项不错的选项和探索。英国PA New Media 公司于2001年推出了阿娜诺娃(Ananova),并将其作为英国传媒业与美联社对抗的“秘密武器”。CNN 更是将其描述为“一个可播报新闻、体育、天气预报等(节目)的虚拟播音员,堪比一个真实的有血有肉的主播”。当时的阿娜诺娃,可以根据新闻脚本快速制作视频,并可24 小时连续播报,即使其智能化水平很低,只是只有头部动画、表情也略显僵硬的2D 虚拟人物,也引起了全世界传媒业的借鉴和学习。中国推出了GoGirl、丽丽(Lili)、阿拉娜(Alana)、伊妹儿、妹妹(Meimei)、小龙、福老太等,韩国推出了露西雅(Lusia),日本推出了寺井有纪(Yuki),美国推出了薇薇安(Vivian)。而且虚拟主播的形象也在不断完善,从2D虚拟人物到3D 虚拟人物,从只有头部到拥有全部身体,从只有虚拟人物播报到拥有演播室进行播报。
但是由于AI 能力水平的严重不足,诞生4年后的2004年,阿娜诺娃就彻底告别了历史舞台,很多媒体又重新回归真人主持。虚拟主持人之所以遭遇滑铁卢,深层次原因是AI 能力严重不足,具体表现为:一是由于AI 能力不足导致成本高昂,制作效率低下。AI 能力引入的目的是降本提效,但是由于AI 技术远未成熟,导致虚拟主持人的制作成本远超真实主持人,而效率却远低于真实主持人。二是语音识别和自然语言处理能力难以达到对虚拟主持人的基本要求。对主持人来说口才要求极高,相应的,对虚拟主持人语音、表情、肢体等要求也都很高,但是由于语音等AI 能力的严重不足,导致虚拟主持人的“音”“容”“笑”“貌”都不够自然,且时效性不够。
(二)虚拟主播快速起飞——AI 能力获得本质性突破
2016年是毫无疑问的人工智能元年,诞生于1956年的人工智能于这一年突破了全面商业化的临界点,基于深度学习技术的AlphaGo 以4:1 打败围棋世界冠军李世石,微软人工智能的语言理解能力超过人类,科大讯飞、搜狗、百度先后召开发布会,对外公布语音识别准确率均达到97%。
在语音识别等AI 能力得到本质性突破的情况下,虚拟主播热潮再起,而首先体现在虚拟偶像上。2016年,全球第一位虚拟主播(Virtual YouTuber)绊爱(Kizunaai)在YouTube 上线,注册频道名为A.I.Channel。角色形象由森仓圆设计,3D 模型由Tda 制作。绊爱由真人扮演而成,即在绊爱的3D 模型后,由真人穿上动捕设备,在背后控制绊爱的面部动态表情及动作,并由声优去配音及对口型,进而进行直播或录制视频。绊爱与早期的虚拟主持人存在的主要区别在于:一是绊爱背后有真人扮演,而虚拟主持人背后没有;二是绊爱采取的二次元形象,而不是虚拟主持人的“像真人”形象;三是绊爱的智能化水平远远超越虚拟主持人,体现在3D 形象、语音、动作、表情上等;四是制作质量、效率和体验感得到了质的提升,得到了市场的高度认可,绊爱也成为全民偶像。
虚拟形象的生成与打造,尤其是语音技术的突破性进展,为虚拟主播的大规模应用奠定了坚实基础,虚拟主播如雨后春笋般出现,截至2018年底,全球各大平台上的虚拟主播已经超过了6000 个。2018年,科大讯飞携手相芯科技打造了虚拟主播 “康晓辉”,“康晓辉”有着与真人康辉相似的外貌,成功主持了相关节目并在现场进行了实时互动。虚拟主播“康晓辉” 的最大优势是背后的虚拟形象生成技术(PTA),该技术只需普通摄像头和一张自拍,就可实时生成与自己相似且更美观的3D 虚拟形象,而不再需要3D 虚拟形象定制高昂成本。①
(三)AI 合成主播大行其道——AI 能力显著提升
随着大数据、人工智能技术的快速进步,AI 能力得到了显著提升。2018年,搜狗和新华社联合推出了全球首个AI 合成主播;2019年央视网络春晚推出AI 虚拟主播团队;2019年全国“两会”期间,新华社推出AI 虚拟主播“新小萌”,《人民日报》推出AI 虚拟主播“小晴”,AI 合成主播呈遍地开花的状况。
在电影《西蒙妮》中,人们理想中的AI 虚拟主播,是一个由计算机虚拟合成的、高度逼真的三维动画人物。其不仅言行与真人无异,且可以完成所有的表演、播报等工作,她外形美丽、极具魅力但又没有任何绯闻,并且能够翻越“恐怖谷”,是彻彻底底的AI合成主播的“完美代言人”。2019年《阿丽塔:守护天使》中的阿丽塔就满足了上述条件,并成为世界上第一个翻越“恐怖谷”的虚拟人物。当然,阿丽塔的成本很高,而要真正实现AI 合成主播的大规模使用,必须低成本地实现CG(计算机动画)技术从影视级到消费级的大幅度下降。
结合AI 合成主播的业界实践,主要有三类模式。一是来源于影视业的“真人操作”模式。这种模式需要真人配合演绎,前期需要进行大量的数据采集,中期需要动捕设备来配合播报,后期需要对视频制作进行再加工。这种模式的成本很高,仅限于一些大企业和大媒体,很难进行大规模推广。二是来源于全息投影的“AR+AI”模式。该模式严重依赖于增强现实技术,需要提前设置好AI 虚拟主播的回答、动作、表情等,并通过其与真人主播的互动来制造真实感;并且AI 虚拟主播是后期做上去的,现场真人主持与其互动时就需要靠“演”,这种方式对真人主持和后期制作的要求都极高,也难以实现大范围推广。三是专注于AI 能力的全AI 化模式。该模式分为定制AI虚拟主播和使用视频制作后台两个步骤,并专注于用AI 来替代人力,将虚拟主播的语音、情绪、动作,乃至后期视频制作需要的图片、视频等都集成到后台编辑系统中。②该模式的自动化程度高,制作成本较低,且效率能得到大幅度提升,未来的应用前景广阔。
从虚拟主播的三个发展阶段来看,快速跃升的AI 能力至关重要,而核心是能够改善人机交互的自然语言处理技术和让虚拟主播更鲜活的语音动画合成技术。
二、虚拟主播发展的关键与现状
所谓虚拟主播尤其是AI 合成主播,是指存在于虚拟世界中,基于计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术打造的,具有外貌特征、表演能力、交互能力等人类特征的主播。虚拟主播发展的关键是AI 能力,目前已经处于初级发展阶段的爆发期。
(一)虚拟主播发展的关键
虚拟主播发展的关键是技术能力尤其是AI 能力,主要体现在两个方面:一是各种先进技术的技术集合体,集成了计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术;二是具有人类人设的数字化形象,即具有类似于人类特征以及人类的相关能力,而这需要极其强大的AI 能力。
(二)虚拟主播及其产业发展的主要影响因素
虚拟主播及其产业发展的影响因素主要有技术、用户、参与企业、政策、资本五大方面。
第一,技术是核心驱动力。互联网及其相关产业的发展中,技术居于驱动性力量的基础地位,虚拟主播作为新的技术集合体,技术在其中更是起着根本性作用。具体来说,虚拟主播的人物形象已经从2D转变为3D;人物表达、合成显示、识别感知、分析决策的AI 能力都显著提升。
第二,二次元用户是坚实基础。虚拟主播的前期用户和忠诚用户主要是二次元用户,此后不断破圈向其他圈层快速发展。艾瑞咨询发布的《2021年中国二次元产业研究报告》 显示,泛二次元用户规模在2020年突破4 亿,2023年有望突破5 亿。
第三,数量众多、类型丰富的参与企业促进虚拟主播在更多的场景落地。腾讯、字节跳动、网易、科大讯飞等无疑是虚拟主播产业的主导,而芒果超媒、蓝色光标、奥飞娱乐、天舟文化等上市公司也在各个领域广泛布局。尤其随着直播电商的高速发展以及企业品牌营销的需要,虚拟主播在更多的场景、更多的企业、更大的范围内得到应用。天眼查数据显示,我国现有“虚拟人”“数字人”的相关企业28.8 万余家。2016-2020年,5年新增注册企业增速复合增长率近60%,行业进入爆发期。[1]
第四,利好政策助推虚拟主播高速发展。互联网产业尤其是我国的互联网产业对政策高度敏感,利好政策将为相关产业提供良好的保障环境。2020年10月20日,国家广电总局出台的《广播电视和网络视听“十四五”科技发展规划》中明确指出,推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产。这不仅有利于虚拟主播在传媒业的广泛应用,而且有利于虚拟主播向直播电商等领域的拓展。
第五,巨量资本融入极大地缩短成长周期。除了互联网巨头广泛布局虚拟主播之外,各类基金也在大力投资虚拟主播赛道。根据天眼查数据,2021年,虚拟数字人相关投资有16 笔,数量同比翻番,红杉资本、GGV 纪源资本、峰瑞资本等知名投资机构都名列其中。截至2022年4月20日,虚拟数字人领域投资已有9 起,投资总额超百亿元。
(三)虚拟主播正处于初级发展阶段的高速增长期
虚拟主播属于虚拟数字人的重要组成部分。虚拟数字人包括虚拟偶像(洛天依、柳夜熙、翎Ling、梅涩甜等,类似于真人偶像)、虚拟主播(央视网小C、新华社小诤、《人民日报》果果、湖南卫视小漾等,除了新闻主播、视频平台主播外,还包括各种带货主播等)、虚拟员工(百信银行AIYA、哈尔滨啤酒哈酱、OPPO 小布等,企业形象代言人、智能客服等)。发展到今天,虚拟主播处于高速成长期,但是依然处于初级发展阶段。
第一,虚拟偶像(主播)市场需求大。艾媒咨询发布的《2021 中国虚拟偶像行业发展及网民调查研究报告》 显示,2020年中国虚拟偶像核心产业规模为34.6 亿元,同比增长70.3%,预计从2021年到2023年将分别达到62.2 亿元、120.8 亿元、205.2 亿元;虚拟偶像带动产业规模2020年为645.6 亿元,同比增长69.3%,预计从2021年到2023年分别为1074.9 亿元、1866.1 亿元、3334.7 亿元。此外,超过八成网民有日常追星的习惯,其中63.6%的网民支持和关注虚拟偶像的相关动态。同时,有八成网民为虚拟偶像每月花费在1000 元以内,且37.6%的网民表示愿意花更多的钱支持虚拟偶像,手办、唱片等周边产品已经成为虚拟偶像流量变现的重要渠道。有88.5%的偶像爱好者加入社群交流,并通常加入2-3 个社群。
第二,互联网平台企业积极拓展虚拟主播业务。B 站得益于二次元文化,很早布局虚拟主播业务并取得了显著成绩。B 站早在2018年就开通了虚拟主播板块,同年还与日本游戏厂商GREE 合资成立bG Games 公司,共同开展面向中国和日本地区的手机游戏以及Vtuber(虚拟主播)业务。根据陈睿在B 站12周年庆上的演讲,截至2021年6月,B 站有32412 名虚拟主播,同比增长40%。此外,腾讯、阿里巴巴等其他互联网平台也高度重视虚拟主播,并投入巨资开发和运营虚拟主播。
第三,企业纷纷开发虚拟主播进行品牌营销。随着“Z 时代受众”群体的崛起,以二次元用户为核心用户的虚拟主播迎来快速发展期。在虚拟主播1.0 时代,虚拟主播官方主动权更大,且由于互联网发展所限,虚拟主播与粉丝关系多为粉丝单向崇拜;在虚拟主播2.0 时代,虚拟主播与粉丝的关系不再是单向崇拜,而是虚拟主播—粉丝群体的双向建构;而在虚拟主播3.0 时代,随着图形渲染、图像识别、动作捕捉、深度学习等技术的成熟,虚拟主播正不断渗透和参与到现实生活中。[2]
(四)虚拟主播在媒体转型中起着越来越重要的作用
媒体深度融合转型面临多重难题: 一是受制于内容生产能力尤其是短视频内容生产能力不足,难以有充足的内容吸引足够规模的用户;二是AI 能力的不足导致难以与用户进行有机交互,用户体验性不好。进而导致难以建立起紧密的用户连接,而虚拟主播可以在一定程度上解决上述难题。
1.虚拟主播是人工智能时代媒体转型的必然选择
在人工智能时代,传媒业被彻底重构和颠覆,大数据和人工智能技术进入到传媒业的每一个环节并彻底重构,从新闻内容生产、发布,新闻内容的数据化,到用户画像以及与用户的互动、及时反馈。而虚拟主播在降低内容生产成本、全天候服务和生产海量的短视频方面都有突出作用。
第一,虚拟主播能够大幅度降低新闻内容生产成本。虚拟主播是在之前的新闻机器人基础上迭代创新而成的,除了具备新闻机器人的海量、快速、高效的优势之外,且能够大范围覆盖长尾市场和利基市场,极大地减少了人工成本和内容生产成本。
第二,虚拟主播可以全天候服务并分身多个应用场景。虚拟主播作为机器人,不仅可以不知疲倦地24 小时不间断全天候服务,而且可以同时分身服务到多个应用场景,尤其是在重大突发事件主持人难以到场时。
第三,虚拟主播可以提供海量的短视频内容,弥补传统媒体短视频内容生产能力的不足。海量的、多元化内容是互联网转型的必要条件,否则难以吸引足够数量的用户。互联网平台媒体一方面通过平台上的数量庞大的自媒体来提供海量的、多元化的内容,另一方面利用人工智能技术生产大量的短视频。传统媒体囿于人才、技术、资金等各种制约,难以生产出海量的短视频内容,而基于人工智能技术的虚拟主播则提供了一种可能性,可以为传统媒体的互联网转型提供海量的短视频内容,弥补传统媒体创办的互联网媒体的内容短板。
2.媒体转型中的虚拟主播绝大多数尚未实现智能化、个性化
在媒体融合进程中,传统媒体高度重视大数据和人工智能技术,一些技术较为领先的媒体推出自己的新闻机器人,如封面新闻的“小封”等。而在媒体深度融合的过程中,传统媒体高度重视虚拟主播的作用,纷纷和互联网公司或技术公司合作推出各种各样的虚拟主播,但是从实践应用来看,虚拟主播基本上只是实现了“形似”,部分实现了“神似”,远远没有达到智能化和个性化。
第一,部分虚拟主播实现了“神似”。媒体深度融合转型过程中,传统媒体推出了数量众多的虚拟主播形象,基本上实现了“形似”,并且有部分已经达到了“神似”水平,即除了外表及其细节相似之外,借助于自然语言处理技术和语音动画合成技术等新技术,实现了语言、声音及其细节的逼真,虚拟主播的播报更为自然、鲜活。
第二,绝大多数虚拟主播尚未实现智能化和个性化。真正智能化的虚拟主播需要先进的人工智能技术为支撑,以及规模不小的资金投入,并需要长时间的迭代进化。例如,在2019年动画电影《阿丽塔:守护天使》中虚拟卡通人物阿丽塔,就是世界电影史上首次CG 和真人结合的类人类角色,导演卡梅隆组建了800 人的特效团队,当时用于渲染画面的电脑多达3 万台,综合运算时间长达4.32 亿个小时。为了达到细节上的逼真,肢体动作、面部表情都属于基本操作,单单是阿丽塔的皮肤,就做了1000 万根头发和500 万个毛孔,还有毛孔里的绒毛。③但是囿于技术能力欠缺和投入不足等原因的制约,传统媒体打造的绝大多数虚拟主播难以实现智能化和个性化。喻国明认为,虚拟人的第一阶段技术(形似阶段)已经比较成熟,目前已经处在批量推出的阶段,但是一个突出的问题是,虚拟人的个性化程度还远远不够。也就是说,现在的虚拟主播还是“肉喇叭”,只是后台内容简单的传达者。[3]
三、虚拟主播发展的难题与短期引爆点
虚拟主播能够成为现实世界和虚拟世界之间沟通的有效桥梁,但发展中也面临诸多难题,而短期引爆点除了传媒业之外,面向B 端的各类服务将是主要引爆点。
(一)虚拟主播及其产业高速发展仍然面临诸多难题
目前,虽然虚拟主播及其产业已经开始加速,但是要实现大规模商业化,仍面临技术门槛高、周期长、成本高、人才稀缺等难题。正如前文所述,虚拟主播是先进技术集合体,具有较高的技术门槛。真正智能化、个性化的虚拟主播更需要较长周期的迭代创新,尤其是打造一个高精度、高保真的非特异型虚拟主播,动辄就需要百万元甚至上千万元的资金投入,这不是一般的小企业或者小媒体能够承受的。此外,我国虚拟主播产业的人才短缺现象极为明显,不仅相关领域的软硬件工程师极为热门,而且与此相关的技术美术人才如动画师、三维角色绑定师、特效设计师等也出现了巨大的缺口。
(二)虚拟主播短期内的落地场景主要是面向B 端的各类服务
目前来看,虚拟主播主要应用场景是面向B 端的媒体服务、品牌营销服务。尤其在企业品牌营销方面,虚拟主播有着巨大的潜力和发展空间,重点体现在直播带货领域。具体来说,一方面,基于文本共创模式,KOL 粉丝与虚拟主播形成切实利益共同体,更有助于抓住粉丝注意力;另一方面,与粉丝形成强关系链接,提升虚拟主播跨平台牵引力和带货能力,大幅弱化直播带货领域对真人主播的依赖。而未来则可以通过如下两种方式来进一步提升虚拟主播在品牌营销中的应用:一是粉丝共创+私域营销,强化品牌认知。与虚拟主播跨界联合,为粉丝提供广阔的文本生产空间,品牌将获得大量曝光和UGC 内容,强化其在Z 时代受众中的认知和知名度、好感度,为后续转化进行铺垫。二是垂直领域主播+电商平台,刺激消费转化。虚拟主播在社交平台上吸引因一致性趣缘而聚在一起的粉丝,并使之形成粉丝社群,这种模式天然具有分众化趋势,深耕垂直领域成为虚拟主播的不二之选。
注 释:
①②③均参见相芯科技微信公众号《AI 虚拟主播简史,带你走进虚拟主播的前世今生》,2019-05-28。