虚拟数字人新范式：SIGGRAPH ASIA 2023电影制作相关研究综述

2024-06-10刘绍龙赵晓雨

现代电影技术 2024年3期

刘绍龙赵晓雨

北京师范大学艺术与传媒学院，北京 100875

1 引言

由国际图形图像协会（ACM SIGGRAPH）举办的国际计算机图形学与交互技术国际会议（SIGGRAPH）是计算机领域的专业会议，自1974 年首次举办以来，逐步成为涵盖计算机图形学（CG）、电影和动画、虚拟现实（VR）、人机交互（HCI）、机器学习（ML）等多领域的综合性国际会议。历年来，会议在推动计算机图形学与交互技术前沿发展的同时，也不断为电影行业引入新的技术与思想，为电影制作提供了更多的创作可能性，包括但不限于数字特效技术、虚拟角色与数字人技术、影片制作工具、实时渲染技术、虚拟现实与交互体验等方面。SIGGRAPH ASIA 是该会议的亚洲地区会议，自2008年起在亚太地区城市举办。

2023 年12 月，SIGGRAPH ASIA 2023 在澳大利亚悉尼举办，本次大会收到了自创办以来最高数量的论文投稿，这一增长也表明计算机图形学与交互技术等领域在生成式人工智能（Generative AI）技术加持下已形成新技术、新算法与新实践。经过笔者对电影制作技术相关应用文章进行梳理总结，本次大会呈现出三个重要趋势：一是深度学习（DL）成为当前计算机图形学技术的核心，并已经被应用到计算机图形学的绝大部分任务领域；二是当前电影制作技术发展趋势仍然以更逼真效果、更高效率、更低成本、更具表现力为重点，随之产生的则是更高的算力需求；三是生成式模型与神经辐射场技术（Neural Radiance Fields, NeRF）成为当前计算机图形学发展的热点。

尤其是从虚拟数字人的角度来看，本次大会有大量关于该细分议题的技术论文出现，从模拟、成像、几何、建模、渲染、人机交互、触觉、制造、机器人、可视化、音频、光学、编程语言、沉浸式体验、视觉计算、机器学习等多个角度对虚拟数字人技术应用进行解读，同时也为电影制作技术的未来发展提供了深刻的洞察，为人机协同创作理念在电影制作中的应用打开了崭新视野。

2 虚拟数字人的研究转向：从“替身”到“多模态”

所谓的虚拟数字人，是通过多种计算机技术对人类的几何结构、表情形态和动作行为进行复制及模拟的虚拟化实体，具有数字外形的虚拟角色。张丽锦等[1]基于模因论（Memetics）的角度，从生物学隐喻阶段、文化研究阶段、多模态智能化阶段对虚拟数字人进行了概念界定与特征分析，这一概念实体也在技术发展的背景下不断迭代。

从传统电影制作思维来看，虚拟数字人及其相关建构技术被较早运用于电影后期特效，并主要运用于替代演员执行危险动作或特技表演，在降低拍摄风险的同时，使故事情节中的惊险动作更为生动逼真。而在动画电影中，虚拟数字人的制作技术对电影技术产业的影响则是多维度的，如虚拟数字人的外观真实感会影响角色塑造，虚拟数字人的动作流畅度和观看沉浸感会影响视觉表现力，也会通过影响制作管线从而影响制作成本等。当然，传统的电影制作技术层面都涵盖着对于虚拟数字人外观真实感的追求。

伴随虚拟现实、虚拟影像制作等应用技术的迭代式发展，影视行业对于虚拟数字人的运用实际上正在逐渐超越传统的电影制作范畴。按照宋雷雨[2]的观点，电影中虚拟数字人的类型与美学转向主要从“替身”走向“独化”，即随着虚拟数字人具备的交互性逐渐增强，虚拟数字人与真人的关系发生场域会更具张力，也会逐渐向真人之间日常化的交流场域靠拢。这里的“独化”是从美学及类型学角度的观点，对应到技术角度，应该被理解为一种“多模态”，即虚拟数字人技术不仅限于大银幕，还可以在互动电影、游戏环境及其他多元影像内容中进行呈现，以多模态的逻辑实现多元跨界，从而体现出影游融合的协同思维。当多模态属性在人工智能生成内容（AIGC）技术的加持下，呈现出更高的自动化程度，那么电影中的虚拟数字人可以不再是被规定的状态，而成为具备一定自我意识的生物体，即成为一个智能体角色（AI Agent）[3]。这也是SIGGRAPH ASIA 2023 会议中关于虚拟数字人细分议题所呈现出的虚拟数字人新范式，为电影制作技术的未来发展带来了新的可能。

3 SIGGRAPH ASIA 2023 中虚拟数字人的应用综述

3.1 几何造型：高保真、快速化、风格化

虚拟数字人的外观造型一直是电影特效技术关注的焦点，精细造型的虚拟数字人能够帮助电影更生动地刻画奇幻生物、历史人物或传统拍摄技术无法呈现的虚构角色等。根据恐怖谷（Uncanny Valley）理论可知，虚拟数字人造型的真实程度影响用户的观影效果，真实逼真的外形能够增强视觉冲击力，刻画角色种族、年龄、风格等角色属性，配合虚拟数字人的运动动画，从而实现扩大表演空间、提升情绪传递能力等。因此关于几何造型的研究主要沿着高保真、丰富细节、快速构建的方向发展。定制化和多样性也是重要的发展方向，包括虚拟数字人的风格迁移、角色融合等。此外，生产效率是电影工业的永恒话题，虚拟数字人的快速造型、高效编辑一直是技术研发的核心。在本次会议中虚拟数字人外观造型相关技术大量引入深度学习方法，用以实现自动化和优化虚拟数字人的创建过程。

在虚拟数字人几何快速构建方面，Bharadwaj等[4]的方法能够在短时间内从几何高保真、可重新照明的视频中高效学习并构建个性化、可运动的三维网格头像。区别于基于隐式神经表达（Implicit Neural Representation）的快速构建方法，该方法能够直接输出兼容当前动画渲染管线的数据类型，从而提高电影后期特效制作效率。Wu 等[5]提出一种可生成肖像动画且具有三维感知的生成式对抗网络（GAN），该方法可以根据一张二维图像生成具有可控面部表情、头部姿势和肩膀运动的三维肖像，同时由于网络框架中添加了姿势变形处理模块，该方法还可增强更多细节，能合理根据人体姿势驱动，平滑实现头发形变。此外，该方法能够应用于电影拍摄近景镜头的人物肖像镜头，如模拟正反打镜头的人物对话场景、模拟人物近景镜头的镜头运动等，从而使该类镜头运动空间更加自由，同样可应用在电影前期虚拟预演（PreViz）工作流中。Duan 等[6]则提出真实感4D（高度、宽度、深度、时间）虚拟人物头像表达方法BakedAvatar。该方法可以通过参照头像驱动目标头像，也能够实现交互式表情和姿势编辑以及面部重演。BakedAvatar 可通过学习样本的连续变形、流形和辐射场，将神经场烘焙成可变形的分层网格和相应的纹理。除了头像编辑和控制，该方法适用于电影后期特效渲染管线中的栅格化模块，可用于提升渲染管线效率。

对于虚拟数字人全身塑造，AlBahar 等[7]提出一种从单个输入图像生成具有一致纹理、高分辨率外观的360 °人物视图方法。该方法创新地将二维图像扩散模型（Diffusion Model）应用于三维纹理虚拟人物的数字化，并将合成的多视图图像融合到UV 纹理映射中实现3D 虚拟数字人的纹理一致性重建。

在虚拟数字人造型风格化和编辑方面，Mendiratta 等[8]的 AvatarStudio 方法通过输入文本语义，驱动对全头头像外观的动态编辑。该方法将神经辐射场的表达和生成式扩散模型融入方法框架中，将虚拟数字人头部作为输入，利用人类头部多视图进行模型训练，可实现电影虚拟数字人快速风格化编辑，通过微调训练批量生成自定义风格化的头像模型。类似于Mendiratta 的方法，Manu 等[9]提出基于文本驱动的3D 头部模型生成方法，该方法采用自然语言（NL）的简单文本提示，描述外观和面部表情，并生成具有精确几何形状和高质量纹理图的头部 3D 神经化身。这一方法的特点在于能够自动对齐网格的UV 纹理坐标并实现可文本引导的高精度纹理合成过程，应用于动画电影中，能够提升角色头像的UV对齐及编辑过程的效率。

在虚拟数字人衣物造型方面，主流方法采用人工几何建模和布料模拟解算的工作流程，需要大量算力和人工成本。在本次会议上，最新研究将服装几何造型融入虚拟数字人几何构建过程中。Xiang等[10]的方法能够构建穿着动态移动宽松衣服的虚拟数字人，该方法可以由稀疏 RGB-D 数据以及身体和面部运动驱动，能够在一定程度上降低电影特效中角色和服装数字化的工作量。与之类似的方法还有Tang等[11]的方法。

对于虚拟数字人的毛发快速构建，Zhou 等[12]提出针对头发发型几何形状设计的生成式模型，他所提出的框架由有发丝变分自编码器（Variational AutoEncoder, VAE）和发型变分自编码器组成，该方法不仅能够实现新颖发型采样和合理发型插值，还支持复杂发型的交互式编辑，甚至可以从图像中重建发型，加快虚拟数字人的毛发构建和编辑过程，进而提高电影后期制作效率。Mohan 等[13]提出一种使用离散微分几何思想参数化头发网格的方法，可定义头发外部形状的网格从而允许艺术家更好地控制虚拟数字人的发型风格，为头发造型提供更大灵活性。虚拟数字人的眉毛构建对面部造型和表情动画至关重要，在影视特效制作中传统方法通常将眉毛嵌入贴图中，或通过毛发系统进行渲染，在真实度和工作效率上都有待提高。Li 等[14]在本次会议上提出基于学习的单视图3D 眉毛重建框架，可辅助眉毛的毛发模拟，通过模型推理给定毛发生长位置、生长时间等参数，根据参数进行眉毛生长的模拟。该方法能够有效辅助电影虚拟数字人眉毛的构建，辅助提升角色真实感。

此外，高保真数字头像捕捉技术早已应用于电影产业中，传统方法大多依赖于庞大昂贵的设备重建显式网格几何和外观贴图，尽管近期基于体积的方法，如NeRF 的方法优化了捕捉过程，但是仍然存在伪影问题。为了解决这些问题，Sarkar 等[15]使用包含15 个相机和15 个光源的稀疏紧凑捕捉装置来实现高质量人脸捕捉，在算法方面结合了神经体积表示和多视图立体重建的传统网格，使捕捉的头像可重新计算照明。该方法的提出降低了对人像三维捕捉的成本，适合在电影行业进行推广应用。在上述方法提到的照明问题上，Jiang 等[16]在3D 感知肖像生成的基础上提出基于预训练三平面（Tri-plane）表示的肖像照明控制方法，该方法可以对三维感知真实肖像进行重新照明，适用于背景与虚拟人的快速合成以及虚拟摄制流程。

3.2 运动控制：多模态、强仿真、高泛化

电影是一门具有时序性的艺术，且主要通过画面运动来推动故事发展，因此角色动作、镜头移动会直接影响电影的情节变化和角色的情感发展。在电影中虚拟数字人运动模拟的效果同样影响视觉冲击力与沉浸感。本次会议成果中虚拟数字人运动控制技术，包括角色肢体运动控制、角色局部特写控制、非人类生物角色控制。

（1）角色肢体运动控制

对于虚拟数字人的动作表达与控制在技术上可分为肢体控制和局部特写控制两部分。针对虚拟数字人的肢体控制方面，最为先进的一类方法为物理模拟角色（Physically Simulated Characters）技术。这类技术结合了物理学原理和计算机图形学，以创建更为逼真的动态虚拟数字人。其核心在于利用物理仿真模拟来控制角色的动作和交互，通过物理模拟，这些角色能以真实世界的物理规则来反应和移动，比如受重力、碰撞等其他外力作用下的运动。这类技术可以让虚拟数字人在虚拟环境中的行为更加符合现实世界的物理规律，特别是在处理复杂的环境交互运动，比如刮风、下雨等情况时，实现更为流畅和自然的动作变化。但该类技术在精确控制复杂物理行为以及管理计算资源等方面仍然有待提高，在本次会议中，多数方法通过深度学习框架训练与推测相关动作。

Dou 等[17]提出的条件对抗式技能框架（Conditional Adversarial Skill Embeddings, C·ASE）可以高效学习角色的动作技能，并可将交互信息加入条件模型动作推理过程中，使用户在控制虚拟数字人行走路线的同时，让角色做出基于物理模拟的逼真动作。Qing 等[18]的方法可以让虚拟数字人根据输入的故事长文本执行与故事内容吻合的运动（包括移动、肢体动作等），即故事生成动作（Story-to-Motion）。该方法首先利用大语言模型（LLM）从长文本中提取文本、位置、持续时间等系列内容，之后通过提出基于运动匹配、运动语义和轨迹约束的文本驱动运动检索方法搜索相关动作，最后用神经网络模型融合两组运动间的中间动作，使运动自然过渡。该方法可以直接根据电影剧本信息模拟虚拟数字人的运动，非常适合电影制作前期非高保真的虚拟预演流程。Feng等[19]的成果主要基于肌肉驱动的角色推测和生成符合生物力学的运动过程。该方法将升级的疲惫动力学模型（3CC-r）嵌入基于变分自编码器的肌肉模拟控制框架（MuscleVAE）中，不仅可以对运动特征编码，还可编码肌肉动力学信息和疲劳属性，从而使呈现的运动效果更加高保真。该方法可以处理电影特效或游戏中角色因长时间疲劳积累所导致的运动风格自然演变。在模拟运动疲劳方面，Cheema 等[20]提出一种基于深度强化学习的方法，用来模拟仿真基于物理的虚拟人物疲劳运动，可以有效地用于电影人物特写和动画电影中。基于强化学习的运动模拟方法还包括Kwon 等[21]、Xu等[22]的方法。

Zhu 等[23]提出基于强化学习框架的数据驱动方法用来提高物理模拟角色的行为真实性和多样性。Jiang 等[24]将运动学的先验知识与牛顿动力学结合，提出基于物理的人类动态响应框架，这使虚拟数字人对虚拟环境有了动态交互能力，从而更真实地模拟电影中带有虚拟数字人的复杂场景。Agrawal 等[25]针对虚拟数字人的骨骼动画控制，在神经反向动力学系统（Neural Inverse Kinematics, Neural IK）的基础上提出SKEL-IK 训练方法，即以基本姿势为条件，将信息直接流送到骨架图结构上，因此可以通过在某些关节处阻止信息流来强制执行硬约束。该方法允许骨骼动画师较少使用手柄就可进行虚拟数字人的运动编辑，且真实性更强。Ramón 等[26]提出虚拟数字人软组织模型表示方法，该方法将软组织动力学模型建立在参数化表达的虚拟数字人上，使虚拟数字人能够表现出运动过程中的身体柔软变形。在电影视觉特效中，该方法能够有效模拟虚拟数字人脂肪等软组织的运动变化。Tao 等[27]设计了一种用于运动合成的神经网络底层结构，叫做神经运动图（Neural Motion Graph）。该网络图的神经节点表示运动类型，比如蒙古舞蹈，节点之间的边表示两个运动动作的转换。将该结构用于深度学习方法中可以合成各种类型的运动并具有泛化能力，所合成的运动可以结合用户指定的路径或实时交互控制，此外该方法可以生成两个动作之间的中间帧动作。

（2）角色局部特写控制

虚拟数字人肢体控制专注于骨骼的运动和刚性变化，而局部特写控制更注重网格（Mesh）表面的细节变形，如面部表情变化、发丝运动、布料模拟、手部运动等。为了使动画或形变更加逼真，该部分同样使用基于物理仿真的方法。Yang 等[28]提出一种基于数据驱动的隐式神经物理面部表示模型，该模型由面部表情表达和风格共同驱动。该方法可以控制动画风格，实现从一个角色到另一个角色的风格迁移或混合不同角色风格。作为基于物理特征的模型，该模型能够充分考虑物理效果，例如碰撞处理等。

语音驱动虚拟人物口型的技术发展已久，但在口型同步过程中往往容易忽略整个面部的情绪表达。为突破该限制，Daněček 等[29]提出针对情感交谈而优化的表达模型（Expressive Model Optinized for Talking with Emotion, EMOTE），该模型对口型同步和情感分别设计损失函数，并利用时间变分自编码器（Temporal VAE）作为运动先验来优化动画。在电影制作尤其是动画电影制作中，该方法帮助电影制作人在处理对白与口型的同时自动调节脸部表情，缩短了工作流程，提升唇音同步（Lip-sync）环节效果，从而提升电影生产效率。

为了更好地模拟虚拟数字人脸部动画，Li等[30]提出一种基于投影动力学（Projective Dynamics, PD）的有限元模拟方法。该方法能够在控制面部运动的同时感知碰撞，高效地处理软体动力学模拟与面部变形引起的交叉（即碰撞）问题，提升了电影虚拟数字人由肌肉驱动的面部模拟真实性和效率。

（3）非人类角色控制

在科幻电影或恐怖电影中经常会出现非人类外形的虚拟数字人，包括但不限于动物、卡通人物、神话生物、机器人或其他超现实生物。在视效后期制作中，艺术家需要针对非人类角色进行创建与运动控制。该类角色在行为和运动模拟过程中仍然要求符合生物力学原理并带有情感艺术性表达，以提高电影叙事的质量与深度。非人类角色控制的传统方法利用艺术家的先验知识进行人工控制，这需要艺术家具有较高的制作技能和经验。为了更好地辅助艺术家控制非人类角色，本次会议提出运动重定向等多种解决方案。

Li等[31]提出基于学习的运动重定向框架，将人体运动重新定位到具有不同身体尺寸和结构的目标角色上，比如带有操纵器的四足机器人、螃蟹和轮式操纵器等。该方法允许艺术家通过自身控制操纵不同结构的虚拟数字人。为了解决重定向和角色交互控制问题，Lee 等[32]提出能够以与骨架无关的方式解决各种动画任务的框架，该框架通过学习一个嵌入空间从运动数据中分离出与骨架相关的信息，同时保留语义，使真实人物的运动更好地映射到卡通人物角色中，高效地解决了卡通动画电影中的角色控制问题。

Takashita 等[33]设计了名为AvatarForge 的虚拟数字人编辑系统，通过实时编辑身体结构，构建身体结构与运动的映射关系，进而设计与控制非人形虚拟数字人。该系统旨在降低设计非人形化身（Avatar）的难度，加快带有骨骼动画的虚拟数字人原型的自定义创建。将该交互系统应用在电影制作中，可以降低角色建模艺术家与动画师的技能要求，提升虚拟数字人前期设计与后期编辑处理效率。

3.3 动作捕捉：高精度、强合成、低延时

动作捕捉改变了电影的制作方式，尤其是在视觉效果、动画和特效领域。在动画电影制作中，动作捕捉技术提供了一种更为高效和逼真的方法来创建复杂的动画序列，特别是针对角色的动态和交互场景。动作捕捉技术可以在某些情况下降低制作成本和时间，尤其适合复杂的特效和动画场景；然而，高质量的动作捕捉系统和专业团队也可能带来显著的成本增加。

单目视频内容捕捉和重建运动数据是当前该领域研究热点之一，但仍然存有技术难点和挑战，如脚部滑动和抖动等伪影等。Cong 等[34]提出一种基于梯度的方法，用于在物理约束下重建复杂的人体运动（包括高度动态和杂技运动）。该方法可根据视频中内容在几分钟内重建复杂的人体运动，物理真实感也更强。Pan 等[35]提出RGB 图像信号与惯性信号融合算法用于动作捕捉任务中，该方法既能够用于遮挡、极端照明/纹理、视觉动作捕捉视野小等情况，也能解决惯性动作捕捉全局漂移问题。Kang 等[36]利用高精双目（Binocular）信息估计人体三维姿态，其方法弥补了身体因遮挡而无法正确估计关节点的缺陷。从单目视频中重建并跟踪角色面部或手部的技术发展已久，但先前的方法由于遮挡问题无法捕捉脸部和手在进行交互时的形状变化。为解决该问题，Shimada 等[37]提出基于学习的运动捕捉方法用于面部和手部的重建，再通过交互面部变形模型实现合理的脸部与手部交互。该方法能够在控制脸部和手运动的同时真实表现手部挤压脸部时形成的脸部表面变形，在拍摄虚拟人物特写镜头时脸部变形会增加镜头的沉浸感。

此外， Pan 等[38]提出一种基于局部性的学习方法，用于清理和解决光学运动捕捉数据，对动作捕捉标记点有遮挡或缺失的情况尤为有效。Qing 等[39]提出针对多个个体密集遮挡情况下的多人物姿态估计组件，并发布了训练与推理策略。该方法适用于大型电影场景中同时捕捉多个人物或人群动作的情况，从而快速对动态大型电影场景进行数字化。Jang等[40]提出动作风格化方法和实时线上框架MOCHA（Motion Characterization），即将没有明显风格特征的动作转换为实时体现显著角色风格动作的框架，比如将普通行走动作风格化为僵尸行走动作。该方法可以将用户给出的目标角色运动风格和身体比例转移至输入的源动作中。在电影特效制作中，艺术家可以利用该方法高效编辑生成能够表现情绪、人物性格的动作，有利于多角色场景的批量化处理，从而提高电影工业化生产效率。

4 总结与展望

纵观整体技术发展，SIGGRAPH ASIA 2023 虚拟数字人趋势可概括为：虚拟数字人技术正全面拥抱基于深度神经网络的人工智能技术，从而实现高保真、高控制性、高效率虚拟数字人制作。高保真度体现在基于物理模拟和大数据驱动的虚拟数字人几何与运动构建方法上，技术逐渐从几何静态3D 重建向4D（高度、宽度、深度、时间）重建过渡，在神经网络的帮助下能够允许考虑更多环境参数和物理条件，在更大空间中寻找最优解，从而提高数字人几何造型与动作模拟的逼真度、合理性和观看沉浸感。高控制性体现在使用多模态手段对虚拟数字人进行局部与全局的构建和运动控制，通过对人类控制指令更准确的理解，实现表情和手势等细节的精细控制。高效率指借助神经网络可以加快物理模拟解算速度，处理动作捕捉数据更具鲁棒性，同时多模态技术特性加强了复杂应用场景虚拟数字人的处理能力，让交互制作和编辑流程更为简化。

在使用方法上，传统图形学方法与深度学习技术方法不断融合，旨在发挥两者的综合优势，例如使用神经辐射场（NeRF）、神经反向动力学（Neural IK）与生成式模型等，相关方法既能体现传统图形学对几何表达、几何处理与物理模拟的认识，又能发挥深度学习方法基于大数据驱动的几何理解能力和计算效率。

会议成果将有助于提升电影级虚拟数字人的制作与编辑水平，进而优化相关工作流。在笔者看来，电影级虚拟数字人要求同时具有适用于真实纹理渲染和物理模拟的几何和拓扑表达结构、基于生理学的动作驱动系统以及基于动力学的运动控制方法，这正符合会议成果高保真、高控制性、高效率的发展趋势。会议成果可提升电影摄制流程中包括虚拟预演、动作捕捉驱动合成、后期视效等环节的制作效果和工作效率，如三维几何造型快速构建方法能够应用于虚拟预演的批量模型处理任务中，骨骼重定向方法和动作风格迁移方法应用于角色动画快速编辑等。另外借助最新的静态场景和动态场景的快速构建方法、物理和空间感知的运动生成与编辑方法，虚拟数字人技术和工作方式将会向低成本和低延时方向进一步发展。

从电影艺术本体的发展角度来看，新技术正加速虚拟数字人从“替身”向“独化”角色的转变，为电影艺术表现开辟新的维度。未来，虚拟数字人技术将更加注重多模态、实时渲染和交互方面的进步，图形学领域也将吸纳更多创新视角，例如融合大语言模型等新兴技术。❖