基于影史分析视角的动作捕捉技术应用发展研究
2021-06-26刘洪琛
周 进 刘洪琛
一、动作捕捉技术概述
人们追求高效率创建高品质影像的努力永远不会停止,其中最重要的路径之一是,如何从现实中提取真实性,并在其上复合幻想和虚构的成分,从而获得可信的虚拟影像效果,这是从特效影像先驱梅里爱开始就未停止过的。在进入数字时代以后,影像创作的几乎所有领域都开始与信息技术相结合,其中最重要的一个部分就是动画。我们的动画通常是通过2D绘制、定格摆拍或3D手调(关键帧动画)的方式实现的。但不管动画师的水准有多高,都很难达到实拍影像那种彻底的真实感。为了实现更加真实的动画虚拟影像效果,动作捕捉技术应运而生。
动作捕捉(Motion Capture,简称Mocap)的应用已经非常广泛,能捕捉的对象不仅包括人,还可以是动物或物品。在动作捕捉的过程中,仪器会对拍摄对象进行每秒若干次姿态采样,将这些采样数据串联到时间线上后,就得到了被摄对象的运动轨迹。因此,动作捕捉只是记录被摄对象的真实运动数据,外观则可以是计算机虚拟的。当动作捕捉应用在电影和数字游戏的开发中时,它主要是指记录真人演员的关节点运动信息,并借此驱动计算机中数字角色的动作。其中,采集精度要求更高、技术更先进的面部捕捉和手部捕捉则可以统称为表演捕捉,也是目前重要的数字技术发展方向之一。
(一)早期的动作捕捉技术
动作捕捉技术在影视行业应用的起源被普遍认为是费舍尔(Fleischer)于1915年发明的动作转描技术(Rotoscope),也就是将实拍的序列帧画面作为底稿,在其上的透明介质中进行逐帧“临摹”和一定程度改造的技术。虽然在今天看来该技术费时费力且画面效果常常有些不伦不类,但在动画技术还不成熟的条件下,它能帮助卡通角色获得更为真实可信的动作表现,这一点非常宝贵。在动画刚刚诞生的草创期,很多动画片就需要使用这种技术来实现。比如,1941年,万氏兄弟联合导演的动画片《铁扇公主》就一定程度上要依靠这种技术;1951年,迪士尼出品的动画电影《爱丽丝梦游仙境》已经在转描的基础上进行了大量创作。
(二)动作捕捉技术方案
动作捕捉技术在进入数字时代后产生了质的飞跃,信号的捕捉和传递提供了多样化的技术可能性,生成效率和表现能力越来越强大,这使得动作捕捉技术逐渐成为数字影像创作中难以取代的核心技术之一。而之所以动作捕捉能够在电影和数字游戏中逐渐普及,这离不开它的几个核心优势:相对关键帧动画,它具有很高的动作生成效率,可以实时获得仿真动画数据;流水线式的生产模式也不会让这个生成效率发生波动,这使得使用动作捕捉的时间越长,成本越低;在相同时间内可以获得庞大的信息量,丰富画面内容。
与此同时,在当前的技术水平下,动作捕捉还存在一些劣势,并限制了它的进一步推广;也存在一些技术和应用上的劣势:技术含量高,软硬件需求相对复杂;对大批量制作的成本降低效应明显,小批量生产则可能成本过高;根据技术方案的不同,对场地和空间具有不同的限制,比如光学方案的空间要求就比较高;非真实运动不适用该技术;演员与虚拟角色的外形差异会造成动作误差。
表1.主要动作捕捉技术方案汇总
当前的动作捕捉系统大致可分为光学系统和非光学系统。光学系统又分为红外式、激光式、可见光式、机器视觉式等,其中红外式方案最为成熟。非光学系统可分为惯性式、电磁式、声学式、拉伸式等,其中惯性式方案使用较多(如表1)。
1.光学动作捕捉系统
一组光学系统的动作捕捉设备至少由6-8个相机环绕动作捕捉场地(如图1),这些相机拍摄范围重叠的区域就可以有效拍摄,而被摄物体上需要有足够明晰的反光点(如图2)以实现追踪。光学系统的动作捕捉方案的精度可以达到毫米级别,这是惯性式动作捕捉方案无法比拟的,加之高帧率和数据修饰软件的发展,这使得光学系统成为应用最广泛的动作捕捉方案。但由于设备较为复杂导致搭建成本高,需要较大空间导致场地成本高,遮挡引发的Marker点定位丢失导致摄像机成本高等原因,致使光学系统动作捕捉方案成本高企,个人难以负担。
光学系统中最常用的是红外式动作捕捉方案(或细分为被动红外式动作捕捉方案)。这是基于红外光发射来采集人体空间坐标的技术,其基本原理是通过若干发射红外光的摄像机,覆盖拍摄动作捕捉空间,而需要采集空间位置的物体则使用反光小球进行标记,小球的反光被捕捉到后就可以计算这些点的位置以及动态变化。
主动红外式、激光式和可见光式动作捕捉方案主要应用在虚拟现实设备上,计算机视觉式动作捕捉主要应用在手势动作捕捉上,计算机视觉式身体动作捕捉还主要存在于实验室中,以上非主流光学动作捕捉方案未来是否会应用在电影的动作捕捉行业中,还需要看当前的被动红外式光学捕捉方案是否能满足电影对动作捕捉精度的要求,以及是否会产生其他的细分行业要求等。
2.惯性动作捕捉系统
惯性式动作捕捉方案是将感应芯片(如图3)封装后绑定在身体的重要关节点,通过芯片捕捉到关节点的多种变换,进而通过算法分析转化为人体的动作数据。但由于这种捕捉和计算方式只存在于动作捕捉服的芯片之中,没有外界参考,致使惯性式动作捕捉设备会产生无法避免的累计误差,这是惯性式动作捕捉精度上不如光学式动作捕捉的主要原因。但也正是由于这一特征,惯性式动作捕捉方案可以用于大多数场景,这解放了动作捕捉的空间限制,给演员与场景之间的互动带来了更多可能性。
惯性动作捕捉是经历了长时间发展的技术方案,其中最知名的国外厂商是荷兰Xsens(如图4)。它从2000年就开始了IMU(惯性测量装置,用于直线和旋转运动)和AHRS(自动航向基准系统,用于校准重力场和磁场方向)的研发工作。国内也有广受认可的北京诺亦腾,它的产品使用便捷、价格亲民,以MENS的形式为主。
图1.典型的红外式动作捕捉设备摄像机分布图
图2.一套典型的光学系统动作捕捉服
图3.一个常见的IMU传感器集合
目前,动作捕捉的各种技术方案各有优缺点,其中,红外式和激光式动作捕捉方案的实时度和准确度占优,惯性式和计算机视觉式动作捕捉方案的便携性和成本占优。当前的很多影视作品在拍摄中会同时使用以惯性式和红外式为代表的多种技术方案。比如,惯性式动作捕捉方案就常用于个体画面占比小、非视觉中心的群体动画和背景路人等,以及不需要非常精确的电影预演制作,而红外式动作捕捉方案就用在需要体现精细表演的主要角色上。
二、电影史上动作捕捉技术应用经典案例分析
动作捕捉技术在电影行业中的普及经历了一段较为曲折的历程。虽然动作捕捉的前置技术应用最早可以追溯到大量转描技术制作的动画片,CG(Computer Graphics)技术也在实验室影像甚至商业广告上取得了突破,但计算机化的动作捕捉技术真正应用到好莱坞商业大片中并成为主流特效技术仍经历了一段相对漫长的时光。
技术的发展不是一蹴而就的,而无数小的技术突破和创作实践积累叠加而成的。同样,动作捕捉技术在电影行业中也经历了由量变到质变,并经由标志性影片呈现出来的过程。通过观察影史中对动作捕捉技术的典型应用案例,我们可以概括性地·提出动作捕捉技术在影史中的四个不同发展阶段。
(一)萌芽期(1990-1999):《泰坦尼克号》中的群众演员
1990-1999年可以看做是动作捕捉技术在电影行业中的萌芽期,这个阶段的主要特征是:(1)动作捕捉数据精度较低(动作捕捉光学摄像机镜头分辨率最高30万像素,模拟视频数据),只有四肢和躯干的简单运动,且经常发生动作抖动(捕捉误差);(2)数据捕捉成功率低,需要反复测试和捕捉才能达到实用水准;(3)动画非实时呈现,需要一段长短不等的时间才能看到动作捕捉数据驱动的计算机图像;(4)受到当时CG技术的发展水平限制,动画渲染效果还很简单、细节较少。
世界上第一个使用动作捕捉技术实现的电影画面是1990年《全面回忆》(Total Recall)中的一个镜头,这是一个只有几秒钟的X光安检机画面。在原本的设想中,影片会用到更多动作捕捉技术制作的画面,但动作捕捉现场出现了严重的技术问题。更重要的是,直到拍摄结束很久以后,技术人员才发现大量动作捕捉的数据并未成功采集。虽然该片依旧凭借出色的特效得到了当年的奥斯卡金像奖,但这一失误也一定程度上造成了在电影界刚受到关注的动作捕捉技术再度沉寂。
1996年,詹姆斯·卡梅隆在创作《泰坦尼克号》的时候,动用了大量先进的电影特效技术,其中就用到了动作捕捉技术,并为此建立了一个CG人物动作库。该片应用动作捕捉技术的主要目的是为了创建一大批各式各样的CG背景人物,从而化解指挥大量真人群演带来的复杂度和成本问题。比如,在一个俯览甲板的镜头中,工作人员就利用微缩轮船模型和CG角色的拼接,巧妙完成了一副宏大的泰坦尼克号出航画面,其大量的背景角色在今天看来依旧不算太过粗糙。这是动作捕捉技术第一次成规模的进入商业电影,成为电影内容不可或缺的一部分,为后来动作捕捉技术的进一步深入发展奠定了基础。
(二)起步期(2000-2006):《指环王2》《金刚》中的主要角色
2000-2006年可以看作是动作捕捉技术在电影行业中的起步期,这个阶段的主要特征是:(1)数据精度较高(动作捕捉光学摄像机从模拟升级到数字,分辨率达到130万像素以上),已经可以用于电影的主要角色表演,但大部分动作,特别是面部和手部数据依然需要动画师手动清理和修饰完善;(2)动作捕捉数据的成功率较高,受到技术性干扰而重新捕捉的情况减少;(3)角色动画基本实现了实时渲染,动作捕捉的同时就能看到简模呈现的渲染效果;(4)动画渲染效果好,虚拟角色的材质和面部细节丰富。
图4.荷兰Xsens惯性动作捕捉设备的芯片位置、动作捕捉服和动作捕捉手套
2002年上映的魔幻史诗电影《指环王:双塔奇兵》带来了咕噜,这一电影史上的里程碑式形象,观众认可这个角色并不仅是因为它惊人的视觉效果,更是因为它是影片最杰出的表演之一,它让人既鄙夷又同情。在咕噜的创造过程中,最具标志性的突破就是动作捕捉技术的成功运用。这部电影使用动作捕捉技术出色表现了一个非常不适合真人演绎的角色,并证明了全动作捕捉影片《最终幻想:灵魂深处》《仙巴历险记》的票房失利并不是因为应用了动作捕捉技术,而是表明了恰当使用动作捕捉技术是能为影片增色的。
在动作捕捉技术还未完全成熟的2002年,剧组成员花费了大量时间来实现咕噜这一形象。首先,扮演者安迪·瑟金斯首先要穿上特制的白色服装与其他演员对戏,这是为了给其他演员一个互动对象,以保证电影的动作和画面效果真实可信的同时,还能在后期通过服装颜色,更方便地抠出瑟金斯的影像,代之以咕噜的形象。
然后,瑟金斯还要穿上带有几十个Mark点的动作捕捉服装进入一个专门的动作捕捉房间,将咕噜的所有台词和动作重新单独表演一遍,此时,瑟金斯表演的动作数据才真正输入了电脑,初步驱动咕噜的动作成为一个鲜活的形象。没有对手演员和真实环境,完全通过想象和讲解来复现每一场戏,这对当时的演员来说是一个巨大的挑战。
即使采用了高度可控的环境,最终的动作捕捉数据也达不到实用的要求,全部数据中只有大约20%可以直接使用,剩下的要依靠十几个动画师来手动完成。特别是面部动画,在参考了瑟金斯表演的基础上,绝大部分要动画师通过传统三维动画技术中的融合动画(Blend Shape)才得以实现。因此,对于最终画面来说,不同职位的人都做出了独特的贡献。“安迪·瑟金斯(Andy Serkis)创作了乐曲,由兰迪·库克(Randy Cook,动画导演)进行指挥,而动画师就是演奏音乐的人。”
在2005年的电影《金刚》中,动作捕捉技术相比《双塔奇兵》有了进一步的发展,面部捕捉技术更加成熟,进入了更加实用化的阶段。影片可以在动作捕捉的同时通过面部的132个反光标记点进行表演捕捉,身体动作、面部表情和声音可以同时记录。在实际拍摄中,瑟金斯的表演会通过面部反光标记点进入计算机中应用于肌肉群组系统,驱动金刚的面部表情,而动画师进行少量夸张和微调,就能确保表情接近巨型黑猩猩。但在类似嘴边这样需要更多情绪,肌肉活动更精细的部分,就依旧需要动画师通过大量关键帧动画的方式实现。
(三)成熟期(2006-2015):《阿凡达》《丁丁历险记》中的角色、镜头与虚拟拍摄
2006-2015年可以看做是动作捕捉技术在电影行业中的成熟期,这个阶段的主要特征是:(1)动作捕捉数据精度很高(动作捕捉光学摄像机分辨率达到千万像素以上),已经很少用到动画师手动清理和修饰,且实现了更为精细的表演捕捉;(2)数据成功率高,由于技术原因被废弃的动作捕捉数据降到最低;(3)虚拟拍摄技术让初步预演最终画面效果成为可能,为艺术创作带来了巨大便利;(4)角色渲染效果好,特别是面部表情和手部细节更为丰富;(5)计算机数据处理能力很大提升,光学摄像机数量增加至一百个以上,可以进行超大规模的动作捕捉,支持极大的表演场地及角色数量。
图5.主动发射红外光的跟踪点
图6.机动化布置的参考摄像机
作为电影史上前无古人的里程碑式作品,《阿凡达》(2009)中所创造的奇观首先源自于其对新技术的开发,以及对技术的高超运用。其中一系列动作捕捉技术的实现和超越,成就了虚拟世界的极度仿真。
首先,为了提高动作捕捉的成功率,防止丢点,不同于以上介绍的被动红外式动作捕捉方案,《阿凡达》开发了全新的主动红外式动作捕捉方案,其中最重要一点是一套主动发射红外光的跟踪点(如图5)。以往的被动红外式主要依靠摄像机发出红外光,跟踪点反光,其成功率很大程度上依赖反光材料以及环境中的光线干扰多寡,外部影响因素较多。主动红外式动作捕捉的好处显然是大大提升了标记点的信号强度,进而提升了采集的精准度。除此之外,为了进一步避免丢点,《阿凡达》还通过软件算法设计提升了小幅误差的猜测能力,并在多达120个的动作捕捉摄像机之外,于场景的薄弱处机动化布置了若干个参考摄像机,从而最大程度的避免遮挡(如图6)。
其次,为了保证面部捕捉能够彻底实现,创造出极为逼真,能够超越“恐怖谷”的角色,《阿凡达》创造出了头戴式面部捕捉设备(Facial Capture Head Rig)。它类似头盔,能够紧密、光滑且舒适的包裹住除了面部以外的部分,保证即使在很大的动作戏中,轻巧的碳纤维杆前的高清摄像头也能结实不晃动。演员面部的追踪点也简化为了绿色的颜料,计算机通过图像识别来进行面部表情追踪。这套新的面部捕捉系统能够精确记录从嘴部到眼球的细微变化,生成的动画中只有10%左右需要调节手动调节关键帧,从而大大提升了表情捕捉的效率,实现了对虚拟角色的面部表情无缝驱动,也避免了以往动作捕捉过程中演员表演和临场体验的割裂。除此之外,《阿凡达》还开发了真人表情到类人造型之间的动画驱动程序,它不仅能将演员面部与类人面部进行对应,还能实时解析面部追踪点,即时呈现面部表情效果。
最后,《阿凡达》还开创性的研发和使用了虚拟拍摄系统,这为后来的虚拟拍摄和现场调度打开了新的大门。实际上在以往的全虚拟影片拍摄中,大部分人认为这只是数字影片拍摄转型中无可避免的“阵痛”:以前人们能在拍摄中看到实景,现在只能时不时地脑补一下。而《阿凡达》所使用的虚拟拍摄系统,将以前实时渲染的虚拟角色和场景加入了实时移动的虚拟摄像机,让任何人都可以在拍摄时步入《阿凡达》的虚拟世界,这大大提升了拍摄的可视性,为艺术化创作提供了巨大便利,也为虚拟制作的无限可能性放开了想象。
《丁丁历险记:独角兽号的秘密》同样实现了史无前例的完美视觉效果和商业成功,一定程度上就要归功于《阿凡达》的创作班底,相同的虚拟拍摄系统、动作捕捉系统、表演捕捉系统等一系列先进数字技术,让迥异于原作的写实版丁丁完全落在了斯皮尔伯格艺术创作能力的“五指山”中,为飞越“恐怖谷”打下了坚实的基础。
(四)新时期(2016-至今):《阿丽塔》《双子杀手》中的全仿真角色
2016年至今可以看做是动作捕捉技术在电影行业中的新时期,这个阶段的主要特征是:(1)动作捕捉数据精度极高,继续提升了前述动作捕捉、表演捕捉、虚拟拍摄的精度,实现了实时高精度的效果呈现;(2)虚拟角色的渲染效果真假难辨,已经能替代真实演员出现在电影中。
2019年上映的《阿丽塔:战斗天使》不再是像《丁丁历险记》或《阿凡达》那样的虚拟世界,而是虚拟角色与真实角色站在一起,相互比较,这种画面对计算机图像仿真度和复杂度的要求更高。因此,可以说《阿丽塔:战斗天使》代表了当前CG技术的最高层次,仅以眼部为例,她的虹膜通过对扮演者罗莎眼睛的真实模拟建立,并可以分解为单条纤维,每只眼睛由九百五十万个面组成,阿丽塔整体则有5000个类似的部分。而《魔戒2》中的咕噜整个角色只有五万个面。当阿丽塔眼周、脸上形成皱纹时,皮肤次表面的血量会微微增加,制造皮肤自然挤压变红的感觉。如此真实的面部效果得益于维塔数字工作室为阿丽塔设计的全新CG面部系统,罗莎通过更加清晰和智能的面部捕捉系统,除了可以同步控制阿丽塔的表层皮肤,还能深度控制底层肌肉系统。罗莎甚至认为,阿丽塔就像她自己一样,每一点细微的不完美和完美都会体现在脸上(如图7)。
2019年上映的《双子杀手》是李安尝试4K+120帧和数字人的最新影片,其中对威尔·史密斯(Will Smith)的数字人重建成为影片视觉特效的核心,因为无论是高清晰还是高帧率,都会毫无疑问的增加细节的呈现,可谓纤毫毕现,这时虚拟角色的仿真度就显得无比重要。维塔数字工作室为虚拟角色升级了解决方案,如在面部模型表现上,为了精确还原史密斯的面部模型,维塔用八个摄像机在史密斯的脸部周围以90度弧度进行了FACS (面部表情编码系统)半小时的拍摄,以获取完整的表情。在面部皮肤表现上,以史密斯的年龄来说,皮肤质感已经不再适用于年轻版的史密斯,因此,维塔数字工作室以一个黑人青年皮肤材质为基础,研发了一套拾取细小毛孔真实形状的技巧,允许毛孔按照一定的流体力场来沿着脸部表面位移,这样便形成了模拟毛孔生长和细小汗毛自然弯曲的形态,还可以借此形成更真实的皱纹。通过维塔高精度的面部捕捉系统来控制精细和写实的面部,《双子杀手》呈现了一个当前视效最顶级的虚拟角色。
三、动作捕捉技术在电影行业的发展历程带来的启示
最近30年,以动作捕捉技术为代表的数字影像科技发展十分迅猛,数字电影视觉效果所需的模型、材质、特效、动画等经历了从无到有,从简陋新奇到真假难辨的发展过程,已经成为众多电影作品的强大创作支撑。当前,基于计算机技术的动作捕捉技术在电影创作中的应用越来越广,从先期创作到最终视觉效果,从角色动画到虚拟预演,动作捕捉技术正在塑造更多的影片内容和视觉效果,创造层出不穷的奇观影像和动人故事。其中,坚持电影创作至上的“创作派”带来了诸如《指环王:双塔奇兵》《阿凡达》《阿丽塔:战斗天使》等技术娴熟、艺术品质极高的影片,取得了票房和口碑的双丰收。这些影片善于利用数字技术为电影艺术创作服务,但却恰恰发挥了人性深处最强大的力量,成为影史上浓墨重彩的一笔。笔者认为近十年动作捕捉技术应用非常成功的一部影片是2011年由梦工厂影业制作,迪士尼影业发行的科幻电影《铁甲钢拳》,这部影片没有大规模应用数字技术制作电影特效画面,只是很纯粹的应用动作捕捉技术制作了一个能够模仿学习人类动作的低端机器人,这个机器人是儿子在垃圾堆里捡回来的,儿子对其抱有极大希望,而退役拳击手父亲则非常藐视。通过这个机器人向主人公父亲学习拳击,不断提升自身拳击水平,父子和机器人一起努力,获得一场又一场比赛的胜利过程,展现出父亲、儿子,以及机器人伙伴之间的患难与共、互相扶持的温暖情感,感人至深,在全球斩获近3亿美元的票房,获得票房口碑双丰收。
表2.“恐怖谷”与技术使用区间对照图
图7.《阿丽塔:战斗天使》动作捕捉画面与最终画面对比
但与此同时,一些坚持技术至上的“技术派”作品则在一次次冲击市场的过程中溃败,大量以新技术为噱头的大制作电影遭遇了口碑和票房的滑铁卢,如《圣诞颂歌》《贝奥武夫》等影片让人看到了只有先进技术并不足以支撑一部优秀的电影作品。很多影片在创作之初虽然看到了数字技术的磅礴力量,却误以为这就是艺术和市场的制胜法宝,殊不知却落入了思维简化、孤芳自赏的误区。好的故事、精彩的叙事、对情感的传达才是电影的根本,才是观众走入影院的原动力。
我们依稀能看到这样的趋势:越是早期的作品,大规模超前使用数字技术的往往效果不好,越是接近当下的作品,有节制的使用数字技术的往往效果较好。在数字技术使用与艺术掌控力上面走钢丝,正是诸多常青树导演的重要能力。“恐怖谷”理论表明从类人到真人之间存在一个逼真度的序列,技术能够提供的逼真度在不断提升,我们不能超越这个逼真度上限,也不追求尽量逼近这个上限,最重要的还是能够掌控技术带来的逼真度,更需要以电影叙事为核心进行灵活的选择和重构(如表2)。
随着数字技术的不断发展,实时渲染、交互影像等新技术还在不断加入创作手段的队伍中来,接纳新技术、使用新技术已经成为未来电影创作的一种必然态度,一味求新或闭门造车都无法取得进步。如何熟捻地使用数字技术为好故事服务,提升电影叙事和角色情感体验,才是我们对待数字技术发展与电影艺术创作辩证关系的真正思路。
【注释】