超写实虚拟主播的技术演进分析与思考
2022-05-30林小慧
摘要:科技是媒体行业发展的重要支撑。数字人被预判为元宇宙产业的入口,成为资本、技术、政策、媒体等关注的焦点。虚拟主播作为数字人的主要呈现形式,当下被融媒体行业作为一种创新应用不断推广。在多方助力之下,虚拟主播技术在数字建模、AI智能驱动、语音生成、数字渲染等多个方面均取得了较大的进步。文章从超写实虚拟主播制作技术切入,分析制作过程中各模块的技术演进,以及不同的技术形态对虚拟主播制作的影响,旨在让公众对超写实虚拟主播有更深入的了解,并为高校影视制作、播音主持等专业人才的培养带来一定的启示。
关键词:虚拟主播;数字建模;驱动技术;语音生成;数字渲染
中图分类号:G222.2 文献标识码:A 文章编号:1004-9436(2022)19-00-04
虚拟主播也被称为合成主播、人工智能主播,数字人主播是其当下比较热门的称谓。虚拟主播作为数字人的主要呈现形式,是元宇宙产业中各方发力的重点。正因为自身还在不断进化发展,虚拟主播目前还没有一个能讓公众信服、经得起检验的定义。单纯从技术角度来看,虚拟主播的特征还是比较明显的:虚拟主播是指基于计算机图像技术(CG)、自然语言处理技术(NLP)、5G、大数据和人工智能技术等制作,在电视、互联网等融媒体平台中承担主持与播报任务的智能产品。其中,超写实虚拟主播更趋近真人,具有“照片级”的画面形象,身体动作和微表情逼真,声音流畅自然,代表着当下虚拟主播最新的技术水平和行业动向。
有研究认为,拟人化能够增强观众对虚拟主播的熟悉感和信任感,虚拟主播一直沿着虚拟人不“虚拟”的技术方向发展,目前技术早已越过了“恐怖谷效应”[1]。例如,2018年全球首个AI合成主播新小浩、2021年社交APP小红书发布的虚拟人AYAYI和短视频APP抖音发布的超写实美妆虚拟主播柳夜熙、2022年北京冬奥会AI虚拟气象主播冯小殊……这些产品在形象和声音方面已经接近真人,但还无法完全代替真人主播。技术演进的路线和发展速度表明,在某些行业虚拟主播完全代替真人主播可能已经不太远了。虚拟主播不仅形象真实、语音生成自然,而且深度神经网络学习技术正在尝试赋予虚拟主播情感和类人思维(如GPT-3)。不断进化的虚拟主播产品也会对高校人才培养产生影响,如虚拟主播会不会让主持专业学生失去工作,学校所学知识和技能能否适应快速发展的行业,学校如何更有针对性地制订人才培养方案等。针对这些疑问,只有研究清楚虚拟主播的技术初衷、演进历程、关键点和边界后,才能给出真正可行的建议。
无限接近真人是虚拟主播技术演进的方向,虚拟主播技术是多学科交叉共同促进的,演进过程中的每一次重大进步又呈现出科技强权的特点,即技术是虚拟主播发展的第一要素。从虚拟主播生成的技术流程来看,其中的技术条块大致可分为数字建模、关键点驱动、语音生成、渲染合成四个方面。
1 数字建模技术的演进
数字建模是电脑图像技术(CG)领域比较基础的概念,通过静态手工重建或高保真度的三维扫描重建技术,实现虚拟人形象的基础构建。建模的重点在于形象的细节制作或还原,建模方式的演进可分为传统三维软件手工建模、3D扫描建模和人工智能建模三个阶段。
1.1 传统三维软件手工建模
建模技术决定虚拟数字主播的人物形象。早期虚拟主播逼真度低,多是二维半身形象或二次元形象,如2000年英国研发的全球第一个虚拟主播阿娜诺娃(Ananova),以及同年国内出现的首个虚拟网络主播GoGir,都是二维半身形象。早期的三维软件建模技术主要依靠人工:在设定好的原画基础上使用电脑建模软件(如雕刻软件ZBrush),手工慢慢打磨成型。2000年在上海国际电视节亮相的比尔·邓(后改名为“言东方”)是国内最早的电视虚拟主播,其最大的亮点是初步实现了3D立体建模,但受限于技术,当时还只能生成一个光头的半身形象。2004年央视电影频道推出《光影周刊》栏目,虚拟主持人小龙的建模技术已经有了明显的进步,脸部建模融合了多位国内男明星的特点,还能适应周播的需要,变化服装和发型。到此,虚拟主播在建模方面实现了从半身到全身,从2D到3D的进步。此后数十年,虽然传统建模技术不断进步,建模软件不断更新,但都没有质的飞跃,建模依然是一个耗时费力的大工程,只能算是艺术家们的手工作品。
1.2 3D扫描建模
3D扫描技术在工业领域运用较为成熟,由此延伸出了拍摄制图技术,可通过对真实主播进行3D拍摄,从而获得孪生数字虚拟主播形象,成为行业追求效率的首选。其根据光场采集原理的不同,又可以分为相机阵列扫描和动态光场重建两类。
相机阵列扫描技术能够通过搭建的球形相机阵列对被摄物体进行全方位拍照,利用不同图片之间重叠的相同像素点实现3D物体模拟。当下比较流行的手机拍照获取人脸三维模型的摄影制图法算是相机阵列扫描技术的初级版。相机阵列扫描建模技术是目前国内制作数字孪生虚拟主播的主要方式,2018年发布的全球首个AI合成主播新小浩正是使用相机阵列扫描技术进行2D建模的。相机阵列扫描受相机分辨率、被摄体光场照明情况等因素的影响较大,缺乏物体动态的反射光场信息,制作出来的模型细节较为扁平。
动态光场重建技术是目前国际上最先进的扫描建模技术,美国南加州大学ICT Graphic Lab的保罗·德贝维奇(Paul Debevec)领导开发了三维采集重建平台系统Light Stage,从2000年问世至今已发展到第六代,被命名为Light Stage X。目前相关技术国内还在研发之中,投入商业使用的较少。动态光场重建技术除了能像相机阵列那样得到被摄体的三维模型,还能够获得物体表面的反射场信息,如在扫描人物面部时分别获取皮肤表面的镜面反射光信息和光线深入表皮毛细血管和组织所形成的漫反射光信息,实现不同光照及不同视角下的模型光场效果,通过在模型上重建反射光场信息,逼真地渲染重现超写实的人脸模型[2]。
1.3 人工智能建模
高精度的三维扫描建模技术需要强大的硬件配置,2022年上半年由Epic开发的Unreal Engine 5完整版正式推出,其中的MetaHuman Creator可以利用自身的扫描数据库,再加上类似游戏软件的捏脸交互系统,让普通用户免费生成“照片级”超写实虚拟人,这标志着建模技术进入了大数据和人工智能助力发展的新阶段,实现了传统三维软件手工建模与三维扫描建模技术(基于现有数据库)的有机结合。小红书在2020年5月正式上线的虚拟主播AYAYI就是使用MetaHuman Creator制作出来的。技术进步让普通用户“捏制”虚拟数字人成为现实,用户可以利用这项技术制作自己理想的虚拟主播形象。
2 虚拟主播驱动技术的演进
绑定模型中的关键点,驱动模型模仿真人主播身体和面部的运动是虚拟主播驱动技术的关键。驱动技术的演进可分为关键帧动画、动作捕捉和人工智能驱动三个阶段。
2.1 关键帧动画
关键帧动画技术由建模人员绘制關键帧图片,由电脑动画软件计算相邻关键帧图片之间的差值并平滑过渡。早期的虚拟主播阿娜诺娃、比尔·邓、伊妹儿、小龙等在驱动方面使用的都是电脑关键帧动画技术。为了避免呈现出来的动作过于僵硬,虚拟主播往往只有简单的手部、头部动作和固定的几个唇动。关键帧动画目前在电脑动画合成软件中依然经常使用。
2.2 动作捕捉
电影特效技术一直处于影视科技的最前沿。早在2001年,电影《指环王》就通过动作捕捉技术和CG技术制作了咕噜。2008年的电影《阿凡达》运用动作捕捉技术完成全部表演。2016年,日本首先将动作捕捉技术运用到网络虚拟主播生产上,推出了动漫虚拟主播绊爱(Kizuna AI)。绊爱通过真人“中之人”佩戴运动捕捉设备来控制,模型的面部表情和前后运动由“中之人”完成,再由配音演员配音,最后形成真人幕后扮演的直播或录像,“中之人”需要实时驱动虚拟数字主播表演[3]。
根据捕捉设备的不同,动作捕捉技术可以分为光学动作捕捉技术、惯性动作捕捉技术和视频识别动作捕捉技术。光学动作捕捉技术利用“中之人”身体上的红外光反射点来采集动作,精确度高,对场地要求苛刻,国内大型媒体运用较多。惯性动作捕捉技术是目前比较普及的技术形式,使用穿戴设备且不受场地影响,由于惯性误差其精度降低,目前网络虚拟主播领域使用较多。视频识别动作捕捉技术是利用电脑或手机自身摄像头,通过视频采集拍摄对象面部和肢体动作并驱动虚拟主播运动,操作简单。如果技术精度能够大幅提升,将有广阔的发展前景。
2.3 人工智能驱动
文本输入后,系统实时“翻译”成语音,再经过深度神经网络学习实现模型对真人运动的智能化模仿,这样的AI智能驱动技术是行业的发展方向。2018年新华社联合搜狗发布了全球首个AI合成主播新小浩,标志着虚拟主播进入AI智能驱动的时代。模型通过前期采集邱浩动捕数据,在深度学习的基础上实现了基于AI算法实时驱动,只需输入文本内容,新小浩就能根据语义实时播报,并实现表情唇动、肢体动作和语音表达的高度契合。2019年新华社联合搜狗又发布了首个3D版AI合成主播新小微。AI虚拟主播的“分身”技术基于“自然交互+知识计算”技术,将真人主播的声音、唇形、表情动作等特征提取出来,然后再通过人脸识别、人脸建模、语音合成、唇形合成、表情合成及深度学习等多项人工智能技术将真人主播“克隆”出来,展现出与真人相似度极高的信息播出效果。
AI合成主播开创了新闻领域实时音频与AI真人形象合成的先河,只需要输入需要播发的文本内容,计算机就会生成相应AI合成主播播报的新闻视频,每天24小时无限时投入工作,不会生病,不会受情感因素影响,极大地提升了电视新闻的制作效率,降低了制作成本,提高了报道的质量[4]。
3 虚拟主播声音技术的演进
虚拟主播声音技术的演进可以分为演员配音合成、AI语音合成和具有交互能力的自然语言生成三个阶段。
3.1 演员配音合成
虚拟主播说话的声音早期是采用演员配音的方式实现,如小龙是配音演员按照写好的台词完成声音部分,再通过后期动画软件为每一段声音匹配上合适的唇动和面部表情。配音合成限制较多,修改成本较高。
3.2 AI语音合成
AI语音合成技术使虚拟主播拥有真人一样的说话能力,是超写实虚拟主播发声的基础。2015年,微软小冰以人工智能气象主播的身份出现在东方卫视《看东方》节目中,小冰没有视觉形象,工作团队采用人工智能技术,让小冰能够基于智能云和大数据解析与预测天气数据,不需要提前人工给定播报文本,在直播现场即可完成纯声音互动播报。2018年科大讯飞打造的AI虚拟主播康晓辉亮相央视《直播长江》节目,既生成了康辉人物形象,又智能合成了康辉的声音。目前科大讯飞已实现多语言新闻播报,支持文本到视频的自动输出。
语音识别技术使虚拟主播能够“听懂”人类的语音,并将语音中包含的文字信息提取出来,相当于给虚拟主播装上了“耳朵”。2022年北京冬奥会期间,百度和央视联合推出“AI手语主播”,利用语音识别技术实现从文字及音视频内容到手语的翻译,再通过专为手语优化的自然动作引擎驱动虚拟形象,将手语实时演绎为数字人的表情动作,为听障用户提供手语服务,完全可以替代人工手语主播。
3.3 可期的自然语言生成
在自然语言生成(NLP)方面,2020年OpenAI公司推出第三代通用预训练转换器GPT-3,全称是“General Pre-trained Transformer-3”,它具有1750亿参数量。GPT-3利用深度学习将文本转化为需求,并将计算结果回归成自然语言文本传递给使用者,实现了人与计算机程序自然语言化的沟通。除了能实现智能人机对话,GPT-3还能自动创作,如写小说、做网页、编写程序等。如果将GPT-3与智能语音合成技术、图像处理技术等整合,虚拟主播将不需要给定文本,直接从新闻大数据中抓取信息,并自动生成播报内容,且可以根据话题与观众互动。
4 虚拟主播渲染技术的演进
电脑3D图形的解算是由各种复杂的坐标转换和光源计算组成的,建模和渲染主要依靠电脑GPU技术的发展。1999年NVIDIA发布了标志性的产品GeForce256,支持3D图形的坐标转换和光源追踪功能,从此电脑3D图像制作和渲染所使用的坐标处理和光源运算可以靠GPU来处理,CPU从繁重的图形计算中解放出来,使个人计算机3D图形加速能力突飞猛进,具有向大众普及3D图形加速的使用场景和能力,此项技术为2000年至2004年3D虚拟主播的问世提供了技术保障。
通过扫描获取到的模型通常存在瑕疵,美术人员利用3D建模工具(如Maya、3DMax等)调整、优化、重新拓扑,然后利用建模软件或材质制作软件(如Substance)进行高精度模型烘焙或制作出漫反射、法线、粗糙度、散射、高光等贴图,之后将制作的模型和贴图导入渲染引擎(如UnrealEngine5,Unity3D等),加入光照、材质、场景等元素,使用PBR(Physically Based Rendering)渲染和着色技术,获得最终成像。渲染技术可以分为实时渲染和离线渲染两类,前者主要应用于游戏领域,实现玩家与角色的实时互动。Unreal Engine作为商业渲染引擎的巨头,在实时渲染领域做了很多创新,采用“漫反射+粗糙度+高光度+散射+法线”等贴图结合的方式,高精度还原人类皮肤细节。
超写实虚拟主播的模型、驱动、光场等数据量较大,普通电脑受硬件配置限制,达不到实时渲染的条件,所以超写实虚拟主播主要以离线渲染后的视频形式传播给观众。以2021年抖音发布的超写实美妆虚拟主播柳夜熙为例,其妆容细腻,皮肤渲染效果令人惊叹,这样的效果还只能通过离线渲染来实现。
5 结语
以2016年基于深度学习的围棋程序AlphaGo击败顶尖职业棋手作为标志性事件,人工智能走进了公众视野。超写实虚拟主播技术在人工智能的助力下不断创造惊喜。技术终究是为人服务的,从技术演进的角度进行分析发现,虚拟主播技术的应用并非为了取代人类主播,而是强调人和虚拟主播之间的协同关系。应勇于尝試,让新技术弥补真人主播的不足。虚拟主播能一直保持工作状态,适合时间长、重复性强、需要快速播报的情况,从而成为真人主播的帮手。从高校人才培养的角度来看,影视制作专业在人才培养方面需要紧跟技术发展步伐,主动引导学生学习并掌握新技术,如最新的动作捕捉技术、声音合成技术、智能建模和渲染技术等,增强学生的市场竞争力,供给行业发展急需的专精人才;播音主持专业在人才培养目标方面要树立人机协作观,构建具有前瞻性的知识体系。在教学模式方面要积极投入,打造超写实虚拟主播实践平台,加强校外相关实习基地建设。从技术导向、人文导向和实践导向三方面完善课程体系,增强学生情感交流、挖掘新闻深度和即兴口语表达等能力。高校培养或引进虚拟主播相关技术人才,也有利于影视制作和播音主持专业人才的培养。
参考文献:
[1] 杜严勇.恐怖谷效应探析[J].云南社会科学,2020(3):37-44.
[2] 城主.虚拟人的手工前世和AI今生[EB/OL].腾讯网,https://baijiahao.baidu.com/s?id=1731820457505264744&wfr=spider&for=pc,2022-05-04.
[3] 吴锋,刘昭希.人工智能主播历史沿革、应用现状及行业影响[J].西南民族大学学报(人文社会科学版),2021,42(5):174-183.
[4] 李仁虎,毛伟.从“AI合成主播”和“媒体大脑”看新华社融合创新发展[EB/OL].新华网时政栏目,http://www.xinhuanet.com/politics/2019-08/08/c_1124850634.htm,2019-08-08.
作者简介:林小慧(1984—),女,河南商丘人,硕士,研究员,研究方向:影视专业教学。