基于深度学习的多模态AIGC动画探究

2023-02-19欧阳春雪

现代电影技术 2023年1期

关键词：语义模态动画

欧阳春雪

四川美术学院,重庆 401331

1 引言

人工智能 (Artificial Intelligence,AI)是使计算机或机器模拟人类的智慧、能力的一项技术,其作为二十一世纪的尖端技术之一,近三十年取得了迅速发展,早已成为人类现代生活中不可或缺的一部分。

学习能力是人类智慧的核心能力,如表1所示,机器学习(Machine Learning,ML)是一种使计算机具有学习技能的技术,也是使计算机具有人类“智能”的关键。

表1 计算机技术与模拟能力[1]

为了真正模拟人脑学习的复杂神经网络,从机器学习概念中延展出了 “深度学习 (Deep Learning,DL)”。在解决实际问题时,深度学习技术通常与其他技术融会贯通,为AI赋予了更趋自主、更全面的能力。

AI的深度发展与数字内容供给需求的增长使得各个行业的内容生成方式由传统的专业生产内容(Professionally-generated Content,PGC)、用户生成内容(User-generated Content,UGC)转向了人工智能生成内容 (AI-generated Content,AIGC)[2]。

百度创始人兼董事长李彦宏认为:AIGC 已不是单纯用于辅助人类进行内容生产的助手,目前AIGC正处于“协作阶段”,与人类相互配合完成内容生产；在未来,AIGC将步入 “原创阶段”,能够独立完成内容创作。[3]

2022年8 月,一幅主要使用文本描述生成的AI画作《太空歌剧院》 (Théâtre D'opéra Spatial)夺得美国科罗拉多州博览会大赛数字艺术类别冠军[4],引起群众对AIGC艺术创作的思考。

而早在2022年7月的戛纳短片电影节(Cannes Short Film Festival),就出现了使用AIGC的动画短片《乌鸦》(TheCrow),将真人舞蹈作品PAINTED 基于 “文本-图像-视频”的多模态转换,以“世界末日中起舞的乌鸦”形象再创作,获得最佳短片奖。

据《AIGC深度产业报告》显示,AIGC未来发展更趋向多模态生成方式,且至2030年,AIGC 市场规模将超万亿人民币。[5]动画作为一门具综合性、商业性的艺术,随着深度学习与多模态AIGC 的引入,传统动画生产方式势必会面临冲击,并迎来新的机遇。

2 技术原理

2.1 NLP预训练模型

计算机语言是以 “0”与 “1”组成的二进制,计算机要完成与人进行交互的任务必须通过自然语言处理 (Natural Language Processing,NLP)技术。

Transformer的提出最开始用于机器翻译任务,其基本架构如图 1 所示,Transformer模型的核心自注意力机制 (Self-attention)使得其相对于RNN①和CNN②等传统深度学习网络更擅长处理不同类型的数据,具有更好的并行性与全局性。[6]

图1 Transformer模型架构

NLP的核心是语义理解,为保证计算机能够高效地学习,需要提前建立语义联系,即预训练。通过大量含标签的训练集对文本语句进行向量化表示[7],在下游的具体应用中再对模型进行参数调优,使得模型能更好地匹配任务[8]。

BERT 是典型的一种预训练模型,类似于完形填空,随机遮盖掉部分文本建上下文语义间的联系[9]。

2.2 多模态模型

2019年谷歌发布的VideoBERT 将Transformer拓展到“文本-视频”领域,验证了Transformer预训练用于多模态学习的可行性[10]。

2021年Open AI提出的CLIP 模型基于Transformer进行预训练,分别提取文本与图像的特征并进行对比,得到“文本-图像”的相似度,使得两种不同模态的数据得到关联。[11]

2.3 生成模型

生成模型用于对数据的建模,生成文本、图像、视频等内容,主流的生成模型有生成对抗网络(Generative Adversarial Networks,GAN)和扩散模型(Diffusion Model)。

2.3.1 生成对抗网络

GAN 的框架中含两个模块:生成器 (Generator)和判别器 (Discriminator)。[12]生成器的任务是将输入的初始噪声伪造成一个与真实内容相似的新内容,再由判别器来检验伪造内容的真假,当经过数次对峙训练后,生成内容能够以最大概率“骗”过判别器时,模型则能够生成一张足够“以假乱真”的最优图像。GAN 的基本原理如图 2 所示。

图2 GAN 原理图

2.3.2 扩散模型

扩散模型正向是不断加噪的过程,逆向是根据不同程度的噪声生成新内容的过程,其原理如图3,扩散模型试图学习噪声分布,其在图片生成任务中的表现超越了GAN[13]。

图3 扩散模型对图形加噪、去噪原理

3 多模态AIGC动画生成模式与局限

3.1 图像到动画的生成

视频是连续的图像序列,而动画是以逐格方式拍摄的画面连续播放形成的活动影像。“图像-视频”的跨模态AIGC视频与动画的原理相似,可看作是基于图像的逻辑组合。

由单个图像生成关联图像后进行插帧或者使用扩散模型补充帧数,但在生成动画方面效果存在以下问题:

(1)AI 难以把握无逻辑、主观性语言

由于动画的视觉语言与创作者的主观感受息息相关,根据故事想要传达的内容有不同的表现方式,这样具主观性、非规律性的信息难以对计算机进行学习、训练。

(2)二维图像难以进行三维空间映射

二维动画相对于三维动画更难以让计算机把控摄像机与对象的空间关系,遮挡、透视变换、角度变换会造成 AI 计算错误而导致画面割裂、变形、拖影等[14]。且由于镜头、场景变化多,要得到高准确率的映射需要耗费大量的算力。

(3)运动规律复杂多变

对象的属性、速度影响变形程度,帧数也会影响运动表现的力度,例如表现力度大的动作时会刻意省略帧数,故不是所有运动都适合高帧数的表现方式。

除由图像生成连续画面的视频外,AIGC 还涉及基于二维图像生成三维模型以辅助三维动画创作:

一款用于二次元手绘设定稿动画化的神经渲染器Co NR (Collaborative Neural Rendering)可实现用较少数量的手绘图片映射到A-Pose③下的灰模,导入动作序列即可完成手绘角色模型的三维动画[15]。

谷歌发布的一种端到端的可训练深度神经网络PHORHUM 能够基于单张图像生成三维模型[16],目前尚未开源。新型2D-3D 算法的提出,为三维动画建模提供了便利。

虽然二维图像生成三维模型的技术日益进步,但缺少对动作内容的处理,尚且无法达到依靠硬件设备进行动作捕捉的精度。

3.2 文本到图像的生成

视频内容是图像在时间维度上的叠加,图片生成算法为动画内容的生成奠定了基础。

文本生成图像的热门模型有Midjourney、Disco Diffusion、Stable Diffusion、Dall·E 2等。

其基本原理 (以主流模型为例):CLIP 基于Transformer进行无监督预训练后,会根据扩散模型去噪过程中的图像评估与文本的匹配度,引导扩散模型生成最符合文本的图像。

为提高生成图像的准确度,模型往往支持文本描述与图片参考共同作为生成图像的标准 (即 “文本+图像→图像”),图4、图5、图6为使用Midjourney模型生成图像的实例。

图4 文本描述为:“一位美丽的舞者,身穿舞裙,在莫高窟壁画前跳舞。”

图5 文本描述为:“三只剑齿虎,远处是高山,近处是寸草不生的地,地面有堆积的动物骸骨,背光,夕阳下沉,氛围凄凉。”

图6 在图5基础上增加了参考图 (上)生成的4幅图像 (下)

通过在开源模型试验后,总结出AIGC 由文本生成图像的局限性:

(1)AI 生成场景效果普遍优于生成人物

AI 可以模拟细致的颜色、纹理,且场景的排布较人物限制较少,尤其是在远景时,不用考虑过多透视问题。人物在高透视、多遮挡条件下难以生成符合要求的图像,其中正确生成手的拓扑结构是AIGC的难题(图7)。

图7 Novel AI在生成角色时手与身体结构出现偏差

(2)AI 对训练样本少的语义理解不佳

深度学习是建立在大量数据训练基础上的,必然涉及无样本或样本稀缺的类型,无法建立起文本与图像的语义联系。例如,图4-图6中的 “莫高窟”“剑齿虎” “寸草不生”“骸骨”等描述被忽略。而对于“佛跳墙 (Buddha Jumps Over the Wall)”“过桥米线 (Crossing-the-bridge Noodles)”等词在转换为英文时,AI易仅从字面上理解。

(3)需要参考图的辅助才能使得AIGC 更加准确

文本单模态的语义限制不够,越多的描述词延伸的语义也会越多,对于计算机可学习的样本也越多；相较于描述词限定以外的内容由计算机随机生成来讲,图像可提取的大量特征给了计算机更接近预期的参考。

(4)用户需要经过长时间的熟悉、学习、尝试

基于不同模型的底层代码,用户的操作方式、表述语言都会有所差异。用户使用新模型时需要进行词汇库的积累和学习,了解其工作原理并掌握更加精准的描述词；由于AIGC 的随机性,每次生成均呈现随机结果,即便使用同样的描述词也会呈现不同的最终图像,需要多次生成尝试后用户自主选择最符合目标的内容；对于有创作专业基础的用户来说,获得理想图像所消耗的时间成本不一定小于自主创作的时间成本。