视觉艺术创作领域人工智能技术应用探析

2024-01-23程杨林峰

电脑知识与技术 2023年32期

程杨，林峰

（1.湖北美术学院，湖北武汉 430205；2.奕行智能科技（广州）有限公司，广东广州 511457）

0 引言

近几十年在大数据、大算力、大模型的帮助下，以深度学习为代表的人工智能（AI）技术获得了飞速的发展，在艺术领域也得到了较多的应用。Elliot J.Crowley[1]提出使用AI 进行艺术作品分类。Benoit Seguin 等[2]应用AI 来研究绘画史。肖弋[3]尝试使用AI辅助学生美术教育。Sheng S[4]用AI 来生成艺术图像的描述字幕。

虽然行业内对于AI 能否进行独立创作存在巨大分歧，但是使用AI进行辅助创作的相关技术却在飞速发展，艺术行业从业者是时候关注相关工作原理和发展情况。本文将详细介绍图像风格迁移和文本图像生成的发展历程、工作原理、应用现状。

1 图像风格迁移

艺术风格指的是一件艺术品的独特视觉表现，让它与同一艺术家或同一时期、培训、地点、“学校”、艺术运动或考古文化的其他作品相关联，同时区别于此的其他艺术作品。图像风格迁移是一种将输入图像转换成目标风格的过程，如果采用人工重新绘制，需要经过专业培训的画家花费大量的时间才能完成，但使用计算机的风格迁移技术却能够在很短时间完成这一过程。

1.1 图像风格迁移简介

根据方法的不同，基于计算机的图像风格迁移可以分成基于规则的风格迁移和神经网络风格迁移。其中基于规则的图像风格迁移包括笔画渲染、区域渲染、实例渲染和图像滤波等，这些方法都需要根据目标风格选择合适的规则和参数，需要根据特定目标风格提前设定，需要深厚的数学和艺术背景知识，且远远无法达到模拟真人的效果。

神经网络风格迁移方法提出的时间较短，但是效果已经全面超过基于规则的风格迁移方法。该方法一般由视觉风格建模和图像重构两部分组成。其中视觉风格建模用来描述目标作品的艺术风格，图像重构用于生成目标图片。

1.2 神经网络风格迁移原理

以经典的基于深度学习的风格迁移方法为例来详细说明其工作原理。在进行神经网络风格迁移时，需要将三张图片送入AI 模型中，分别获得三组输出。三张图片分别为内容图片、风格图片和重构图片。其中，内容图片包含我们希望输出图片包含的主要内容，风格图片包含我们期望的目标纹理，重构图片为随机噪声。Gatys L[5]等提出使用格莱姆矩阵(Gram Matrix)对目标风格建模，定义风格图片的输出与重构图片的输出之间的格莱姆矩阵平均距离为图片风格损失。同时，定义内容图片与重构图片的输出之间的欧氏距离为内容损失。风格迁移一般需要减小这两种损失，来趋近目标风格，同时保留原始内容。在图像重构阶段，一般通过梯度反向传播的方法，将三张图片送入模型，并计算损失，然后调整重构图片。经过多次迭代，最终可以获得一张风格损失和内容损失都很小的重构图片，实现图像的风格迁移。并且该方法也可以改变权重，让重构图片更趋近或者远离风格图片，此外还可以调整风格的颗粒度。

1.3 应用现状和问题

神经网络风格迁移已经在爱好者和行业中得到了较大范围的应用，在生活和社交领域出现了诸如手机应用Prisma 和网站Ostagram。Adobe、美图等应用将风格迁移嵌入修图功能中，可以快速地将图片转换到目标风格，大大降低修图的工作量和处理时间。syncedreview 等将图像风格迁移应用到艺术设计中，大幅提升了艺术设计的效率。如图1 是用户在Ostagram上使用风格迁移工具生成并公开的部分作品，每张作品的上半部分为输出图片，左下为内容图片，右下为风格图片。

虽然图像风格迁移已经在很多方向得到应用，但是该方法假设艺术风格可以用数学公式表达，与现实情况并不相符，同时深度学习还存在可解释性低的问题，这些问题阻碍了该技术的发展。

2 文本生成图像

相比图像风格迁移，文本图像生成更接近于“无中生有”的创作过程。使用者只需要输入对目标图片的内容、风格等特点描述的文字（prompt），例如“一只在草地上奔跑的白猫，高清照片”，等待一段时间之后，计算机就会输出几张涵盖这些特点的图片供使用者挑选。如果对生成的图片效果不满意，可以尝试对描述文字进行修改，生成的图片也会随之改变，直至调整到满意的效果。

2.1 文本生成图像简介

在计算机领域，文本生成图像是一个比较困难的任务。在很长时间里，只有人类画师才具有根据客户的语言输入，创作符合其需求作品的能力，直到现今这依然是很多画师和画家的收入来源之一。随着计算机技术和人工智能算法的发展，使用计算机实现文本生成图像成为可能，2016 年Reed 等提出使用对抗神经网络[6]用于文本生成图像时，该方法还只能生成低像素且效果较差的图片。但今天已经可以使用stable diffusion 等免费工具生成媲美真人作品的图片。文本生成图片技术实现了巨大的提升，并且还处在高速发展的状态。

2.2 文本生成图像原理

文本生成图像主要包括两个步骤：提取文本描述中与视觉相关的特征和利用这些信息合成满足期望的图片。针对上述问题，研究者们提出了多种方法，下面选择其中一些经典方法进行详细说明。

用于图像生成的描述文本可能同时包含人物、场景、相对位置、图片风格等多种信息，并且不会按照固定句式描述这些信息，提取文本特征需要尽量包含其中与视觉相关的特征，并转化成计算机能处理的数字形式。当前比较先进的方法，例如OpenAI[7]的DALLE模型，主要利用自然语言理解领域的模型结构（Transformer）对文本进行分词和语义特征提取，生成的图像与文本描述的匹配程度获得显著提升。CLIP 模型使用了几亿张图像及其描述的组合数据，分别用两个子模型对文本和图像进行特征提取，并让文本特征与对应图片的特征的距离最近，且与其他不匹配图片的特征距离尽量远，以此建立文本和图像的联系。训练完成后，利用其中文本特征提取模型来进行图片文本特征的提取。

从文本描述中提取的特征一般是呈数字向量的形式，需要通过图像生成才能转换成图片，并且还需要让生成的图片满足描述文本的要求。研究者尝试过多种方法实现该过程，其中应用比较广泛的对抗生成网络和扩散模型两种方法的基本原理。对抗生成网络包含生成网络和判别网络两部分，生成器用于合成“虚假”结果，判别器用于对生成的结果与真实结果进行判别。从原理上说，生成器会尽量生成接近真实的结果来“欺骗”判别器，而判别器则会努力发现生成器的“虚假”结果，对抗生成网络利用这种相互冲突的目标，让二者在对抗中不断提高生成器和判别器效果。对于文本图片任务，在生成器会使用文本特征作为输入，辅助生成符合文本描述的图片；对于判别器，除了使用区分是否为“虚假”图片的任务外，也可以利用CLIP 来判别生成的图片与文本描述的匹配关系，帮助生成器输出与文本描述更相关的内容，获得的生成模型效果也将更好。扩散模型[8]则利用图片降噪的思想，扩散模型的训练分成扩散和逆扩散两个步骤，在扩散过程中，会手动向图片中多次叠加噪声，逐渐掩盖图片中的内容，直到获得一张全部由随机噪声组成的图片；在逆扩散过程中，扩散模型会基于含噪声的图片重构不含噪声的图片，尝试消除扩散过程添加的噪声。在使用阶段，只会使用模型的逆扩散过程，会将文本特征作为逆扩散的控制条件，从一张随机噪声中重构出目标图片，通过加入文本描述的特征来重构出满足期望的图片。对于图片重构任务，除了上述方法，还有变分自编码器、流模型等方法以及多方法的叠加。

从效果上看，能够利用大量现有数据且不需要做额外特殊处理的无监督学习方法，相比与其他方法，在描述文本特征提取和图像生成上能够获取更优的效果。

2.3 应用现状和问题

伴随着文本生成图片研究的迅速发展和相关技术的日趋成熟，非技术研究者也可以在多个途径上体验文本生成图像的功能。Midjourney、DALLE、novelai等都在提供免费或者有偿的文本生成图像服务。国内的百度、ARTPAI等也提供了相关功能，甚至个人用户可以基于Stable Diffusion提供的模型在个人电脑上自己搭建文本生成图像功能。随着文本生成图像的使用越来越便捷，该功能已经在个人创作、原画、CG、设计原型等多个领域得到广泛运用，与此同时也引起了很多的讨论和争议。设计师杰森·艾伦通过Midjourney工具生成了一幅作品，参与并获得了美国科罗拉多州博览会举办的艺术创作比赛的数字艺术方向第一名。

虽然杰森·艾伦的获奖极大地振奋了相关的技术人员，但是用户在实际使用文本生成图像功能时，还是很容易感受到这项技术的不成熟。图片生成的质量不稳定，例如在人体复杂的部位如眼睛、手指等比较容易出问题，偶尔会输出一些诡异甚至恐怖的图片。若想获得一张满意的图片，需要用户长时间尝试不同输入文本。

3 总结和展望

虽然近年来出现了很多AI 会在不久后取代艺术家的言论，但是通过文中对目前AI艺术创作的两个主要方向的基本原理的分析，我们可以明确现阶段的AI算法尚无法独立进行艺术创作，更不存在独立的创作意识。具体表现在以下层面：①AI算法无法凭空创作全新的艺术风格或者派系，对于风格迁移要求目标艺术风格作为输入，对于文本生成图像更是要求目标风格参与过模型训练；②AI 算法没有美学观念，无论格莱姆矩阵还是CLIP 模型打分，都是在某些维度上对比生成作品和已有作品的相似度，没有任何美学上的定义；③AI算法没有表达情感的需要，现在的AI算法只能模拟人类工作的某一具体过程，还无法模拟人类的意识和思想，更加不会有通过艺术创作表达自我的需要。

与此同时，通过对AI 算法的历史进展的分析，能够清晰地感受到AI 算法惊人的发展速度。虽然现阶段AI算法还无法像艺术家一样自主创作，但是它已经可以作为艺术创作的工具。它可以帮助使用者高效地创作数字艺术作品或者原型，应用在游戏、动画、社交等领域，极大地降低相关工作者的负担。正如同相机出现大大降低对写实油画的需求，进而演化出印象派一样，我们相信，随着AI技术的应用，也必然会给艺术的发展注入新的动力，而且AI算法可以大大降低艺术创作的门槛，让没有绘画基础的使用者也可以通过AI工具创作属于自己的艺术作品，抒发自己独有的情感和体验。

AI 与艺术并不是对立的两面，使用AI 工具可以更高效地满足人们对艺术作品的需求；画家们被释放出来的时间和精力可以更多地投入AI 并不擅长的艺术创新和艺术理论研究，创造出更丰富的艺术形式。AI创作还处于起步阶段，目前主要由计算机等行业的研究者推进。但是方向的进一步发展更需要艺术理论的引导和艺术创作者们的建议，二者的结合也必将为艺术的发展带来更多的可能性。