基于NeRF 的3D 场景动画风格迁移及其技术美学价值研究
2024-03-13王腾飞黄东晋范正辉
王腾飞 于 冰 黄东晋 范正辉
1.上海政法学院上海纪录片学院,上海 201701 2.上海大学上海电影学院,上海 200072
3D 动画制作流程往往采用3ds Max、Maya、Blender 等软件进行建模并添加模型材质,渲染输出3D 动画影像。即便是3D 动画场景也依然遵循这样的基本制作流程,因此在制作过程中需要大量人力物力才得以维持,工作繁杂且制作过程辛苦。而在虚拟现实(VR)、游戏场景设计等诸多领域中,对3D场景以及其中相关事物的建模需求量不断攀升,需求与制作形成严重不平衡的局面。因此,本文提出基于改进的神经辐射场(Neural Radiance Fields,NeRF)技术对拍摄影像进行3D 重构,进而完成动画风格迁移(AnimeGAN),借此形成独特3D 动画场景艺术效果,从而尝试改变传统3D 场景动画制作方式,以期为3D 艺术创作提供解决相关问题的新途径新方法。
2020 年,Midenhall 等人[1]首次提出NeRF 并将其运用于新视图合成。在实现复杂场景高度真实视觉的合成方面,NeRF 是一种新颖的视觉合成与3D 创建方法[2],其模型采用多层感知器[3](Multi-layer Perceptrons, MLPs)进行隐式神经场景体绘制[4](Volume Rendering of Neural Implicit)并实现视觉图像合成[5],且可以只使用单一场景的多视图图像进行训练。目前国内外相关研究主要集中在3D 场景创建领域,只需拍摄较少影像画面,运用NeRF 就可以实现创建3D 影像场景这一目的。
基于NeRF 可以有效解决3D 场景动画风格迁移,相较于传统基于VGG-19[6]神经学习网络,其不只是局限于二维平面中图像纹理等元素的处理。作为人工智能算法的模型之一,NeRF 在3D 场景风格迁移运用中具有较强优势。本文将改进NeRF 基本算法模型,借助神经网络(Neural Network)学习系列剧集《中国奇谭》的动画风格,并针对其3D 场景进行风格化迁移,以期为3D 场景艺术化创作提供思路与参考,并进一步充实技术美学价值。
1 NeRF 研究现状
作为近年来出现的一种新颖的视觉图像合成方式,NeRF 通过多层感知场景进行体积表达,能够实现较好的视觉效果呈现,可以有效将单张图像制作成较好的3D 影像。此外,NeRF 能够实现高质量图像转换,并展现出较好的实验效果,单个图像的影像空间表达等得到较大提升。
传统创作过程中,将二维图像转成3D 影像时,专业人士大多参照二维图像并将其创建成3D 模型,通过模拟二维图像中的纹理,映射到 3D 纹理中从而完成目标物的建模。基于当下生成式人工智能(Generated AI)的方式创建模型,又极具挑战性,无法较好地完成目标任务。同时在3D 风格化方面,也存在其结果与目标样式的相似一致性等诸多问题。
自Midenhall提出NeRF 相关研究之后,通过新颖的视角将任意二维转换成3D,并较好地完成风格迁移与表达,这种方法利用体积渲染(Volume Rendering),达到保持跨视图的一致性,自此陆续出现NeRF相关研究成果。2021 年Zhan[7]等人发表关于多模态图像合成与编辑的调查报告;2022 年Tewari[8]等人发表有关于神经渲染的报告,同年,Chiang[9]等人将NeRF 应用于场景表达;依赖于预训练样式,实现超网格的格式化外观。Kolkin[10]等人提出3D 风格化问题,运用NeRF 可以更加有效地实现图像多样化的问题;Zhang[11]等人提出基于深度学习神经网络技术,进一步提升NeRF 计算能力。目前相关研究主要集中在提高NeRF 体积渲染,通过训练,将现有的NeRF 转化为具有不同风格的场景。训练主要分为两大阶段:第一阶段基于图像中的色彩变换信息进行迁移训练艺术辐射场(Artistic Radiance Fields,ARF),第二阶段则是采用基于匹配的VGG 风格化损失,即最近邻特征匹配损失[10](Nearest Neighbour Feature Matching,NNFM)进一步训练ARF,主要从观测方向的局部向量反射、相机姿势、漫反射颜色、高光色调、表面法线方向等进行突破,并对稀疏输入视图等方面进行训练,采用变形场、深度监督与点云等多种方法提高NeRF 的渲染精度,如Zhang 等[11]提出基于亮度场景的可控制3D 场景风格化解决方案,较为有效地解决体积渲染中存在的样式化问题;Sucar 等[12]则提示可从相机姿态与隐式场景的表示着手,对图像集中的场景进行优化,间接提高体积渲染技术等。
2 NeRF 基本原理
作为新型的影像合成技术,NeRF 基于五维向量、空间中点位置、摄影机观察的角度与方向等获得物体深度,此外还可基于观察角度下物体在空间中点的色彩信息完成体素渲染,借此得到预测像素值。
四维空间是在传统3D 空间基础之上加上时间共同构成。自爱因斯坦相对论诞生以来,空间与时间成为一个不可分割的整体,同时空间和时间可以相互转化。对系统论而言,任何系统都是有层次的,从狭义角度,即随着时间推移,事物不同深度的本质不断演变成事物在发展过程中的不同阶段。层次统一的空间理论与时间、传统空间构成五维空间的理论基础,同时事物正是通过五维空间相关要素之间的相互转化实现发展。在五维空间基础之上加上向量,共同构成五维向量。本文基于对五维空间及其向量的认知,借助计算机有效计算在3D 空间中某一点以及在这个点观察方向上所视该点的色彩信息等,记录该点某一特定时期在系统中的状态。
基于上述原理形成NeRF 模型下对3D 场景的认知基础。NeRF 模型则是将3D 场景表示为由神经网络相似的辐射场,在这个场中,每一个点都有相关颜色,每个方向都有一个较好的观测视角,点和视角可以较好地构成体积密度,对于NeRF 中的五维空间而言,图1 中x、y、z代表3D 空间中点所处的位置信息,θ代表方位角,φ 代表轴视角。在不同方位角度、不同轴视角下,看到3D 空间中的物体其色彩有所不同,点的颜色会随着场中的观察方向以及场景内坐标的变化而变化。通过跟踪光线等,就可以合成出图像中每个点的新颖视图〔图1(a)〕;对于空间中的任意一点,都可以得出这个点的RGB 三基色中所含信息以及该点的深度〔图1(b)〕。在同一系统中的不同摄影机视角下,使用体积渲染生成这个点的色彩信息以及密度〔图1(c)〕,这意味着NeRF 可以实现复杂场景中高真实感视图合成的可能。本文在充分掌握并吸收Midenhall 等提出的NeRF 原理基础上,对其算法等进行改进,并尝试将相关技术运用于动画风格迁移之中,即充分学习二维场景的风格并以其作为参考,借助NeRF 将风格投射到3D 场景之中,以验证其可行性。
图1 NeRF 原理[2]
3 NeRF 基础模型风格迁移算法优化
3.1 NeRF 进行3D 风格效果迁移的步骤
NeRF 进行3D 风格效果迁移主要包括以下基本步骤:
(1)通过神经网络对目标图片进行风格化学习,如VGG-16、VGG-19[14]。运用预先训练好的卷积神经网络[15](CNN),有效学习目标图像中的色相、纹理等相关重要信息,为创造高质量的艺术辐射场奠定基础。
(2)对所拍摄的影像中目标场景进行3D 空间重建,从不同视点来表达影像世界中的场景,并形成场景云。这种方式可以有效模拟并“还原”真实世界场景,包含场景中的光影等。
(3)经过3D 场景重建以及目标图像学习之后,可以有效将图片风格迁移至3D 场景中,从而完成对3D 目标的艺术化创作。NeRF 即可完成3D 场景风格迁移,具体流程如图2所示。
图2 NeRF 风格迁移实验步骤[13]
3.2 基于优化后的NeRF 进行风格迁移的算法
本文在原有风格迁移基础步骤之上,增加针对动画风格中的相关算法。
(1)对拍摄影像中的目标场景,使用COLMAP[6]进行稀疏重建。COLMAP 是一种结合了通用运动结构和多视图立体的3D 重建管线,可以根据不同视角的照片得到目标场景的稀疏重建结果,其输出包括相机内外参数以及3D 点信息的文件。将上述位姿信息转换格式后送入NeRF 进行新视角合成,得到重建后的3D 模型。
(2)使用ARF 算法[5]对重建后的3D 模型进行风格化。由于常用于图像风格化的VGG 风格损失难以将高频细节迁移到3D 场景,ARF 算法使用了NNFM,在将风格图像迁移到3D 场景的同时保证了多视点一致性。具体而言,对风格图像Is和给定视角的NeRF 渲染图像Ir分别提取出VGG 特征图Fs和Fr。Fr(i,j)表示特征图Fr第i 行第j 列像素的特征向量。NNFM 如式(1)所示。
其中,N表示Fr的像素总数表示两个向量之间的余弦距离。即最小化Fr的每个特征与其在Fs特征空间中最近邻的余弦距离。
(3)为了避免最邻近特征匹配损失导致过度风格化,ARF 采用了一个内容保持损失函数来度量内容图与特征图之间的l2距离。
式(2)中,λ是控制风格化强度的权重。ARF 通过VGG 提取特征图,使用以上损失函数不断优化风格化,以期获得具有多视点一致性、艺术性强的风格化结果。
4 优化后NeRF 对3D 场景动画风格迁移实践
我们以上海美术电影制片厂系列剧集《中国奇谭》为例,使用优化后NeRF 对摄影作品进行风格迁移,并验证NeRF 的有效性与可行性。在进行相关实验、收集相关数据时,既有使用大疆无人机拍摄的大型建筑物场景,也有利用普通摄影机记录的小型建筑物场景,确保实验过程中数据的多样性,共同用于3D 风格化迁移实验;同时,也设有同一场景进行不同风格迁移实验,采用多实验选型与多风格迁移共同增强本实验的科学性。
基于NeRF 的风格迁移开展实践。本文截取《中国奇谭》之《小妖怪的夏天》中影像画面(图3)进行实验,实验优先选择小型场景进行风格迁移测试研究,且视点集中在一侧,运用VGG-19 神经网络对图3 进行相关要素学习,以获得目标图像特征。在获取到相应特征后,将所拍到的影像转换成图像序列帧。本实验对相关图像序列每间隔四帧选出特定关键帧(图4),用于对相关场景进行3D 重建。以获取在计算机可视范围内对应像素点,借此形成每一像素点的体积云用于生成3D 影像空间,即完成3D 重建,经过相关算法处理完成之后截取部分具有代表性的图片,整体效果如图5 所示。图5 较为完整地展示了计算机重建3D 空间的过程。在此基础之上,实验借助VGG-19 神经网络进行特征学习,并迁移至3D 重建空间中形成影像(图6)。借助NeRF 可以较为有效地将单一图片中的动画风格迁移至3D 场景中,本文截取此次实验中的三张图片(图7)进行效果分析。经分析,三幅图像中所标注的红色区域部分,其前景中的水泥制喷泉可以较好地与背景建筑物体区分。风格迁移完成后,有关像素点色彩信息在3D 空间中未发生闪烁,且有关色相等并无明显变化,能够较好地与前后景区分,较为成功地完成3D 动画风格迁移实验。
图3 《小妖怪的夏天》图片
图4 建筑物序列
图5 建筑物三维重建
图6 建筑物3D 风格迁移
图7 建筑物风格迁移效果
为增强本实验各类方法的有效性验证,本文截取《中国奇谭》之《乡村巴士带走了王孩儿和神仙》中图像〔图8(A)〕,经过神经网络学习迁移至其他多种不同建筑物体的大型场景,对选用的三组场景〔图8(B)(C)(D)〕进行360°旋转扫描实验,将图8(A)的动画影像风格迁移至(B)(C)(D)这三组不同的场景影像其建筑物整体轮廓部分,最终效果与图8(A)的风格较为相似,整体实验结果尚可。与此同时,在本实验过程中,为进一步验证实验的可靠性与可行性,我们将水墨、油画等不同风格动画影像迁移至同一场景之中,进行效果分析(图9),借助图9(A)场景进行三维重建,采用三种不同影像风格进行三维效果迁移,最终呈现效果如图9(B)(C)(D)所示,整体风格迁移较为完善,且不存在色彩闪烁等现象,同时画面的明暗交接等效果较好。因此,基于神经网络所习得的动画影像风格,借助NeRF 能够将其较好地进行3D 场景迁移,且生成的场景可以接受不同风格动画影像。
图8 同种风格迁移到不同场景效果图
图9 多种风格迁移效果图
经过不同的动画风格学习,改进后的NeRF 可以较为有效地对3D 场景进行风格化迁移,既可将同一动画风格迁移至不同建筑场景之中,也能实现不同动画风格迁移至同一场景之中。在原有的神经学习网络基础上,通过解析影像画面,借助NeRF 将单一图片中的动画风格迁移至三维影像空间之中。从实验结果可知,该方法具备可行性,可以为动画艺术创作提供全新的思路与方法。
5 基于NeRF 进行动画风格迁移的价值思考
作为在计算机技术支持下的人工智能算法之一,经过相关实验,NeRF 能够较好运用于3D 场景动画风格迁移中。这种方式将催生出新的艺术创作手法,促使影像画面具有新的艺术形态,如“动画艺术”,并不断促使“技术美学”走上新台阶。通过对图像进行特征学习,NeRF 能够有效地将风格迁移到其他图片序列中,且保持3D 效果特征,可以视为“技术”通过学习艺术,进而“自行”创造艺术之美的过程。作为计算机技术之一的数字技术,脱离部分物质实体,其艺术材质更多展现为数字化的,形成介入技术美学[16]的典型特征,并为现代技术美学开拓疆域。科技促使哲学美感、伦理美感、文化美感融为一体成为现实可能[17]。
此外,NeRF 表现出突破二维平面风格迁移,带来多元化创作方式的特征。通过处理3D 图像,使得艺术创作获得巨大解放,促使“艺术复制”的快速发展,从而取代“艺术唯一”。在传统艺术创作之中,艺术作品往往具有唯一性和不可复制性,否则只会沦为赝品;但基于数字技术,尤其是在NeRF 支持下,艺术创作突破单一平面,促使对影像画面中的3D 目标物形成风格迁移,此时艺术的“复制”不只是单纯的“照搬”,而是经过人工智能学习之后,对影像进行风格迁移,“艺术永恒”逐渐被冲击。
在NeRF 等技术支持下,形成的新型艺术创作方式促使“制作”辅助“创作”,形成新型的技术美学话语。通过机器学习[11](Machine Learning)制作更多的艺术作品,而艺术创作可以留给艺术家进行思考。技术只需将艺术符号等进行组装,便可形成新的艺术作品,并给艺术审美文化带来冲击。在计算机技术支持下,影视作品中的相关元素呈现多元化发展趋势,NeRF 作为人工智能技术的一种,可以对艺术作品等进行“复制”,从一种“现实”转换为另一种“现实”,促使影像艺术等不再只是对“现实模仿”,而是借助数字技术重新对空间进行改造,制作出更具“幻影”的空间。
随着计算机处理能力以及各类算法的提升,机器学习能够更为高效地整合资源,尤其是未来量子计算将大大满足智能算法的算力要求,计算机将不断参与现代艺术创作,将技术美学推上新的台阶。作为智能算法之一,NeRF 参与影像画面的艺术创作,成为后现代主义美学的新秀。技术美学将直接参与艺术创作并推动艺术发展,这也将导致技术必须直接介入美学,在现代社会文化中,不断形成技术、艺术、美学之间的密切联系。同时,人工智能技术也创造全新的现代审美文化,其能够参与艺术化创作,以技术建构的美促进传统艺术观念发生改变,从原有的“个体创作”“全体创作”不断升级为“机器创作”,借助各类学习算法等促使艺术创作观念发生改变。
6 结论
通过对COLMAP 以及本论文提出的相关算法进行优化改进,并对相关数据进行验证性实验等可知,NeRF 能够针对3D 场景实现效果更佳的动画风格迁移,较为快速生成不同风格的动画影片,提高影视、动画等创作效率,在一定程度上节约成本,为影视动画创作提供艺术创作新思路新方法,进一步拓展视觉艺术创作的深度与广度,也期待未来出现更好的3D 动画效果解决方案。
与此同时,随着人工智能等各类技术不断发展,未来计算机技术、美学、艺术三者将不断融合。这将促使后现代美学不断发展壮大,并冲击传统媒体文化及相关理论研究,改变人们对艺术的认知,艺术创作方式也将发生改变。❖
注释
①本文所使用《中国奇谭》等图片来源于互联网且仅用于学术研究,感谢上海美术电影制片厂,最终版权仍属于上海美术电影制片厂。