艺术重构与艺术复制<br/>——基于文本智能生成图像技术的思考

艺术重构与艺术复制
——基于文本智能生成图像技术的思考

2021-11-03刘佳萧惠丹

工业工程设计 2021年5期

刘佳，萧惠丹

北京师范大学艺术与传媒学院，北京100875

从远古时期人类在岩壁上的图像绘制到机械复制技术下的图像复制，再到人工智能时代的图像生成，人类创作图像的历程经过了漫长的岁月。每一次的技术迭代，都会影响人类创作图像的生产方式、欣赏方式、传播方式致使艺术审美发生巨大的变革。人工智能技术经过数十年的发展，在参与数字艺术创作方面已经展现出不容忽视的创作能力，尤其是在图像生成领域，人工智能参与图像生成技术被越来越多的研究者开发，已经引起了艺术界的广泛关注。

文本智能生成图像技术主要的关注重点是将人类单句自然描述形式的文本直接翻译成相应的图像。这项技术的达成首先得解决两个子问题，第一是深度学习捕捉自然语言中的视觉表示信息，第二是根据信息合成相应的图像[1]。初代AI“艺术家”The Painting Fool起源于2001 年，发起人西蒙·科尔顿希望把一些数码照片变成艺术品，经过十多年的改进，The Painting Fool学会了物理绘画、模拟人类情绪绘制肖像、识别和创造三维世界，向着“有创造力的艺术家”不断前进。2014年伊恩·古德费洛等人开发的深度学习模型——“生成对抗网络（简称GAN）”，提出通过对抗过程估计生成模型的新框架，主要应用在图像生成、超分辨率任务、语义分割等方面。2015 年谷歌公司公布Deep Dream项目，通过人工神经网络对图像的深度解读，加大对图像特征的识别，提取越来越高的图像特征，最终作出显示什么内容的决定。Deep Dream 程序使用卷积神经网络，通过算法的空想性错视查找并增强图像中的特征，从而在过度解释的图像中产生类似梦境的幻觉外观[2]。2021 年1 月5 日，Open AI 公布人工智能神经网络“DALL·E”，其因声称可以通过自然语言文本直接生成对应图像而获得广泛关注，本文也将以DALL·E 为基点，研究文本智能生成图像所蕴含的艺术性及其背后的重构与复制，进而探讨“艺术创作与艺术复制”所引发的问题与解决方案。

一、DALL·E的应用机制及技术特点

DALL·E 是变压器语言模型，模型的命名来自艺术家萨尔瓦多·达利和皮克斯的机器人WALL-E 名字的结合。DALL·E 的词汇量同时具有文本和图像概念[3]。经过数据的训练后，向模型输入文本，DALL·E可自动生成相应图像，也就是说，输入进行训练的数据将会影响DALL·E 最终输出的效果。DALL·E 使用CLIP对进行重新排名有交互式视觉对象，取每个标题512个样本里的前32个。此程序也可以被看作是一种语言引导搜索，并可能对样品质量产生巨大影响[4]。

DALL·E 功能强大，不仅可以同时绘制多个不同属性的对象，例如“一只戴着蓝色帽子、红色手套，穿着绿色上衣、黄色裤子的企鹅”（见图1），还可以允许控制场景的视点，例如特写、俯视、仰视等，还可以渲染场景的3D样式及改变风格、设置和时间，绘制内部结构，渲染外部结构等，而引入对象越多，成功率越低。输入替代用语重复文本句可以提高结果的一致性。同时，DALL·E可以将不相关的概念结合在一起生成新的图像，例如“一只带有竖琴纹理的蜗牛”，竖琴和蜗牛概念相距甚远，而DALL.E 可以将两个概念结合生成全新图像（见图2）。基于DALL·E 的功能，用户可以使用DALL·E 进行设计，包括角色、服装、广告、平面、室内设计等。根据上述应用机制，可以归纳出DALL·E的技术特点：（1）视觉效果依赖于训练数据，即无法脱离数据进行独立创作，如数据库不变，输入相同的内容，结果不会变化，不具有独立创新性；（2）视觉效果取决于算法机制，不同的算法或者原算法得到改进，数据库不变，输入相同内容，结果可能会发生变化；（3）拼贴和合成性强，通过学习训练，根据输入文本将数据进行拼贴合成；（4）生成时间短、生成结果多元化，只要向模型输入文本，DALL·E 就可以通过计算迅速生成大量相应图像，相同时间内的效率及数量是人类正常创作无法达到的。

图1 DALL·E生成图像（一）

图2 DALL·E生成图像（二）

二、文本智能图像的生成与艺术特性

（一）文本智能图像的生成过程及特点

以DALL·E 为例，用户只需要输入相关的词语或一个自然单句，即可生成图像。同时，用户还可以设置条件加以限制。基于Image GPT技术，用户向DALL·E 提供上半部分图像，DALL·E 可生成相应的下半部分图像。因此，除了输入相关语句，还可以增加上半部分图像加以限制。可见，基于后台的庞大数据与算法，图像生成过程中用户的参与度是很低的，仅仅需要相应的文字与图像即可。

根据DALL·E 的技术特点，可以归纳出其图像生成的特点：（1）风格、内容等高度依赖于数据库，由于DALL·E的视觉效果依赖于训练的数据库，因此，生成图像的风格、内容等会高度受到数据库的限制；（2）生成图像的拼贴和合成性极强，例如当输入文本“一个商店的店面写着‘open ai’字样”，生成的图片中的商店和街道背景就是由训练数据拼贴组合而成的；（3）生成结果受措辞方式影响，输入替代用语重复文本句可以提高结果的一致性；（4）由于图像由数据、算法决定，只是机器的理性排列的结果，没有人为情感及故事的参与和表达，因此缺乏情感与故事性；（5）训练数据足够庞大时，生成图像可实现多样化。

（二）文本智能生成图像的艺术特性

讨论文本智能生成图像的艺术特性，必须回归到艺术创作本身，首先讨论智能生成图像是否属于艺术，以及是否属于艺术创作的范畴。艺术创作是指艺术家运用自己的艺术经验、艺术观念以及审美体验，通过一定的艺术媒介和艺术语言，把特定的艺术内容、艺术形式转化为艺术形象、艺术作品和艺术文本的创造性活动。艺术创作从根本上来说是人类的自由创造活动[5]。也就是说，艺术创作的重点在于是否具有创造性。尽管人工智能艺术的出现极大地挑战了大众对于艺术本质的理解，但艺术依然应当是艺术家主体观念与自由意志的展现[6]。

再现说认为，艺术是对世界的模仿与再现[7]。模仿是西方艺术理论长久以来的重要原则，并非指机械地进行模仿，而是如丹纳所说，艺术的本质在于表现事物的主要特征，模仿的目的应该指向表现事物的主要特征[8]。现代中国反映论认为，艺术来源于生活，是社会生活的反映，同时，艺术反映生活必须由人来完成[9]。人工智能模仿了人类学习的过程。人工智能输入大量数据进行训练，正如一位画家早期学习绘画技术时，需要大量临摹他人的作品，进而使自己的艺术技巧得到提升，人工智能的学习也是如此。但是，人工智能的学习主要停留在形式上，没有到达艺术的内涵。艺术的基本特征由形象性、审美性、情感性构成[10]，人工智能目前在形象性、审美性上已有较大进展，但情感性依旧缺失。

人工智能经过对文本和图像数据的训练，能够根据文本要求创作出所需要的形象，并且可以具有一定审美价值。微软小冰花了22个月，就学习完了人类艺术历史上400年236位画家的画作，最终参加中央美术学院研究生毕业展，从央美研究生毕业。微软小冰能够根据命题独立完成原创的绘画作品，所得作品无论是笔触、构图、色彩、表现力等都得到了央美老师的肯定。虽然作品的形象性和审美性是得到了肯定，但人工智能所生成的作品缺乏情感性仍是其最大的缺陷，也是其自身生成行为不能被称为艺术创作的重要原因。无论是微软小冰还是DALL·E都需要用户输入一段描述或其他文字作为激发源，微软小冰声称能进行原创创作也是建立在用户的激发之上的。也就是说，人工智能所创作的作品是基于人类所拥有的情感或想法而生成的，但机器本身是不具备情感的，因此作品并不拥有机器的情感。同时，人类处于社会生活中，根据反映论，作品是社会生活的反映，而机器并不处于创作者所处的人类社会中，不具有人际关系，因此也无法自主地在作品中反映自己的生活。

回归人工智能的本身定义，人工智能的定义是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学[11]。对于人类而言，人工智能是模拟人的一项技术科学，而且实质是一项模拟人，帮助人来解决问题的技术或工具。因此，无论是微软小冰还是DALL·E，它们都很难自主独立地进行创作，但却能根据人类的想法来完成创作，是帮助人完成艺术创作的工具。从传统绘画的画笔、颜料到数字绘画的Photoshop、Sai、Procreate等，其实是绘画工具越来越智能化的过程，多种笔刷选择、数字选色、特效处理和历史步骤记录等减少了人类绘画的成本和门槛，没有经过艺术训练的人不再需要进行笔触的训练、颜色的调配就可以选择自己需要的颜色和笔触进行绘画。而人工智能技术则是一项功能更加强大的工具，人们只需要输入文本即可输出相应的图像，人工智能生成图像技术代替人类为使用艺术技巧、工具进行的训练，直接输出创作者需要表达的视觉内容。无论这项工具如何精进，表达的想法仍是创作者的想法，并非机器本身的想法，因此，文本智能生成图像技术更像是一项功能强大的艺术创作工具，而非独立创作者，其艺术价值还是需要创作者的主动性和创造性来实现。

三、文本智能生成的图像与传统图像、数字图像的差异

要探索文本智能生成图像的艺术性，将其与传统图像、数字图像进行比较分析是必要的。下面将梳理三者之间的区别，探讨人与人工智能在图像创作中因主体差异性而产生的创作过程的差异。

传统图像是使用一定的物质材料（包括画笔、颜料、刀等）作为工具，运用线条、色彩等艺术语言，在二维空间（包括纸张、木板、墙壁等）通过构图、造型等艺术手段塑造出的静态视觉形象。传统图像中的传统绘画艺术必须由艺术家去完成，需要较长的创作时间，且具有独一无二的特性。本雅明在《机械复制时代的艺术作品》中提到，传统艺术品的即时即地性，即它在问世地点的独一无二性，是复制所无法达到的[12]。而这种独一无二的特性及需带有一定距离的观赏是“光韵”产生的原因，传统绘画作品所带有的“光韵”是数字图像和文本智能生成的图像难以得到的。然而，摄影技术的出现和发展使得“灵韵”不可逆转地被瓦解。机械复制技术使得一个图像原本可以有多个摹本，图像独一无二的特性消失，观众能够轻易地近距离与作品进行接触，灵韵便也不复存在。

数字图像通过计算机存储和处理，因此以像素为组成数字图像的最小单位。与传统图像相同，数字图像作品的创作者只有创作者本人，由于创作工具从物质材料得到解放，不再像传统绘画一样要调配颜料才可得到需要的颜色，所以创作时间大大减少。人们可以通过Photoshop、Adobe Illustrator、Sai 等软件作为绘画平台进行创作，笔刷、滤镜等功能大大增加了创作的便捷程度。数字图像与传统图像相比，尽管创作工具发生了变化，但创作的灵感仍来源于创作者本人，创作过程仍需要创作者本人来进行。尽管作品可以被无限复制，但艺术家独立创作完成的数字图像的艺术创作仍具有独特性。数字复制技术的出现，确实对艺术领域产生了强烈的冲击，数字影像的爆炸性增值、传播，使艺术的复制达到了新的高度。马克思主义追求的根本价值目标是实现人的自由全面的发展。艺术大众化是必然的发展趋势，而艺术复制技术的革新也是艺术大众化的需要和表现[13]。

文本智能生成的图像也属于数字图像。它是在设计好算法模型后，通过输入大量文本和图像数据对人工智能软件进行训练，用户只需要输入相关的词语或一个自然单句，即可生成相应的图像。与传统图像和数字图像不同，文本智能生成的图像创作者不再仅仅是创作者本人，进行创作的过程由人工智能代替，创作者仅参与文本部分的编写，用于激发模型产生图像。这是人工智能生成图像与传统图像、数字图像最大的差异，即创作过程由算法模型和数据库决定，具有绝对的理性，一切都是数据分析运算的结果，是对已有的数据库的复制和重构。而无论是传统图像还是数字图像，都是由创作者本人进行设计、绘画，仅仅是作画的工具发生了变化。这种创作主体的变化一方面使艺术大众化的发展更加迅速，给艺术领域带来剧烈的冲击；另一方面也引发类似“人工智能能否代替人类进行艺术创作”等关于人工智能的讨论。与此同时，人们也对人工智能创作是否属于艺术发出质问。

四、文本智能生成图像的艺术性与复制性

文本智能生成图像技术在当前的技术条件下尚无法取代人类通过自主情感和创造性完成整个艺术创作的过程。但是文本智能生成图像技术可以通过对以往作品的深度学习，学会精湛的艺术表现技巧，掌握人类个体无法拥有的庞大艺术手段，成为拥有最丰富的艺术创作经验的“艺术家工具人”，以辅助创作者进行创作。就文本智能生成图像技术而言，它的艺术性体现在三个方面：（1）人工智能通过深度学习模拟完成了艺术家的艺术学习过程，为艺术创作积累、沉淀经验；（2）文本智能生成图像对已有艺术图像进行运算、分析，在指令要求下进行相关艺术作品的复制与重构，完成艺术创作；（3）文本智能生成图像将复杂的艺术技巧机械化，变成“傻瓜化”的工具，成为人人都可以参与的艺术创作类型，促进了大众艺术的普及化。

关于通过文本智能生成图像进行创作无可避免的复制性的问题。数字图像的复制性主要发生在其艺术创作完成后，可以随时随地对作品进行拷贝粘贴，甚至进行修改，很难探寻其“原真性”。而文本智能生成图像既具有数字图像的复制性属性，又包含了自身特性的新复制属性，即在作品的创作过程中，根据指令的要求，人工智能生成图像技术会调用数据库，生成目标图像的拼贴、合成作品。这一过程中必然发生对已有艺术作品的复制与重构，而由此引发一系列的问题。

第一，复制性削弱了文本智能生成图形的艺术创新性。人工智能经过学习人类艺术史上的技法，虽然能在艺术技巧上超越单个人类的技法，却无法带来革新的技法，也无法经过生活体验进行创新的艺术构思。单纯由人工智能技术生成的图像仍然是对已有图像进行运算和分析的结果，无法对已有艺术进行创新，仅仅只是对人类已有艺术作品的复制和重构。

第二，复制性受到数据库和算法的影响，难免在创作中出现重复的图像。用户输入同样的文本内容，在相同的算法模型和相同数据库下，得到的结果相同，无法保持作品的独特性。“独特性”的缺失会极大损害文本智能生成图像的艺术价值，从而影响文本智能生成图像成为艺术作品。

第三，人工智能生成内容版权保护问题争议较大，复制行为是否涉及剽窃仍众说纷纭。由于人工智能生成物是计算机运行的结果，缺乏自主独创性，未被视为“作品”，所以并未受到著作权法的保护，其责权规范也并未明确。对文本智能生成图像艺术重构的尺度成为衡量其艺术价值的重要参照。但是目前并没有一个权威的指标体系明确艺术复制与艺术重构之间的界限。

对于文本智能生成图像在艺术创作过程中的复制性问题，可从如下几个角度进行思考和改进。

第一，把文本智能生成图像作为一项高度智能化的工具，用于协助人类进行艺术创作或许是实现人工智能作用最大化的最佳用途，创作者可以通过对文本智能生成图像技术的充分应用来辅助创作。创作者利用庞大的数据库，将所需要的想法转换为文字，输入模型中，以得出的图像作为产生灵感的素材，再由创作者本人进行再度创作，这不仅可以突破个人审美和意识的限制，打开创作思路，还可以避免单纯的复制行为的发生。

第二，在通过文本进行智能图像生成创作伊始，创作者要尽可能地完善自己的艺术构思，让创意性成为主导创作内容的核心力量，而艺术呈现的技巧仅是辅助工具，这样既可以避免文本智能生成图像在创作过程中复制的雷同性，又可以增强文本智能生成图像作品的艺术性价值。

第三，文本智能生成图像的复制性问题的解决还是有赖于人工智能技术的不断提升，在深度学习中模拟人类的能动性和创造性，将文本智能从表层的数据库内容提取提升到创造性的艺术作品重构。在文本智能生成图像模型构建阶段，制定艺术作品重构的指标体系，让艺术学习、艺术模仿与艺术复制在数字化的过程中形成明确区分。

五、结语

在新的艺术创作形式萌芽之时，对艺术作品的看法也在发生着重大的改变。正如乔治·迪基所言：“艺术是一定时代人们的习俗所规定的,任何一个人工制品,如果在一个特殊时代为多数人共同承认为艺术,那么它就是艺术。而且,随着习俗的发展,艺术的范围也会变化、扩大[14]。”艺术创作不再是单一的以人类为创作主体的艺术形式，人工智能成为协助人类艺术创作的助手，是人与机器人的亲密合作。文本智能生成图像作为高度智能化的工具，目前阶段人类依然是其艺术创作的主体，应更多的发挥人类艺术创作的主观能动性；人工智能技术在艺术创作中的主体地位提升还有赖于模仿人类的能动性和创造性能力的继续开发。