AI艺术创作的理论构想<br/>——以文字叙事算法研究为例

AI艺术创作的理论构想
——以文字叙事算法研究为例

2022-04-28陈奇佳徐阳

艺术学研究 2022年2期

关键词：逻辑文字人类

陈奇佳徐阳

中国人民大学文学院

引言

“我想全球市场也许只需要5台计算机。”——国际商用机器公司董事长托马斯·沃森，1943年。

“未来的计算机也许不会超过1吨半。”——《通用机械学》杂志，1949年。

“对任何人来说，640K的内存都应该够用了。”——比尔·盖茨，1981年。

不妨往后退一步，搁置AI写作的艺术性、文学性、诗性，也暂且搁置AI写作的潜能等话题，回到问题的起始之点，叩问今天的AI何种层面、何种形式的活动能够与人类所谓的艺术活动相接近、相配称？其实也就是这样一个问题：当前的AI活动是否已经可以将某些人类公认的艺术形式转化为一种确定的算法？具体到写作领域，我们显然就有必要脱离一般文学研究的领域，撇开文学与其他艺术形式的共性与差异性讨论等传统模式，仅从文学表达的基本物质基础也就是文字表意的可算化这一前提出发，讨论当前AI文字写作算法的逻辑构造样态及其实践成效，分析其逻辑样态的必然结果，以此与人类文字写作的结果比照；并根据当代AI最新、最强大的深度学习模式，追问这种比照学习的发展潜力亦即其达成或超越人类同类型文字写作的可能性。

就AI当前的写作学习来说，其参考人类文字写作模式的逻辑构造，大抵可分作两种基本的类型，即抒情写作与叙事写作。抒情写作的基本学习对象是抒情诗，微软小冰的现代诗创作能力是通过对1920年后519位现代诗人的上千首诗学习上万次后而达成的；而叙事写作的基本学习对象是故事与小说，2015年阿里巴巴推出了声称拥有庞大的故事资料库的智能创作系统“阿里编编”，对外宣称平均创作一集电视剧剧本只要10分钟，而创作一个完整的电影剧本也只需30分钟。2021年，阿里巴巴作为第二大股东的科技公司“海马轻帆”又进一步推出“小说转剧本”智能写作功能。AI的抒情写作和叙事写作涉及两种迥然不同的算法构造逻辑，本文主要讨论AI在叙事写作上，按照人类的写作方式，需要建构什么样的底层的逻辑形态及其实践的可能性。

一、可算：AI创作与人类创作可比较的基础

从根本上讲，人类的思维模式与计算机的处理模式所能直接相比较的地方是算法，这是我们讨论一切问题的前提。

早在20世纪中叶，“计算机之父”约翰 · 冯 · 诺依曼（John von Neumann，1903—1957）曾创造性地从数学的角度对计算机的数学运算和人脑思维的过程进行过比较研究，这一创举不仅为计算机的创新、人工智能的发展指明了方向，也为今天AI艺术与人类艺术提供了可比较的理论基础。这便是冯 · 诺依曼死后所出版的《计算机与人脑》（，1958）一书的基本思想。

基于此，本文就人类自身出发，将人类的艺术形式解析为一种算法。不过，当以算法为基础比较AI创作与人类创作时，我们所必须面对的问题便是算法无法将诸如情感、信仰、宗教等虽对艺术创作至关重要但却不可演算之物统筹在内。事实上，像情感、信仰、宗教等要素对人文艺术的发展功不可没，在中西文明的演进过程中扮演了至关重要的角色。但我们从现实层面让AI如科幻小说中的人物那样拥有情感、保有信仰既无可能更无必要。换言之，在真正对AI作品和人类作品予以比较之时，一是我们仅能讨论二者在客观上可被比较和可被计算的环节，也就是以人类身体为经验的建构艺术作品时所涉及的环节；二是在对比过程中我们的基本设想是将人类艺术创作算法化，而非漫无标准地设想AI依据何种高级程序能够达到人类创作的标准等。在这两大前提下，相较具体AI程序的运作而言，我们的讨论将不可避免地显得粗泛和宏观，但这确是目前研究首先需要澄清的问题。

二、具身习得的逻辑参数：AI创作的理论构想

在对比AI创作和人类创作的过程中，我们所采取的基本思路是将艺术创作所需要的基本要素算法化，以形成AI创作所需的逻辑参数，评估AI对这些逻辑参数进行习得和转化的现实可能性，从而回应AI写作的潜能等话题。这里的逻辑参数是指将艺术创作所涉及的人类所有思维内容还原为明确的生理表征行为，描述为可被描述和必须被描述的要素，因为它们与人类身体经验直接相关，因此又可被称为具身习得的逻辑参数。这种具身习得的逻辑参数从人类自身经验出发，将与艺术创作相关的环节分解为最小的单元模块。最小单元模块是指在现有人类艺术经验层面，以现象学还原的方式考察各种与艺术活动相关的基础范畴，所设定的可算的基础艺术模块。在集合论的意义上，它们又是可算化艺术活动的最大单位。这些模块本身是可微的，但从与人类艺术经验的对应关系来说，它们其实是一种最大的集合，即只有在这些集合条件下，人类那些被具身化的逻辑参数才处于彼此平行、可有交集但互不包容的状态。当然，还有必要指出的是，我们在此讨论艺术活动的具身化，绝不意味着所有艺术活动的形式范畴都是一致或近似的，不同艺术形式所对应的逻辑范畴自然有所侧重，同一艺术形式之中也有非常复杂的逻辑范畴变异情况。

根据人类艺术的实践经验，我们可以将相关可算的具身化逻辑参数分成三种基本类型。

第一类可称为单纯描述性的逻辑参数。这类参数一般涉及人类天赋的理性认知能力，为全人类所共有，有希望以某种刚性的算法求得普通解（当然，这是极端乐观主义的猜想，这类所谓天赋能力完全有可能涉及神秘层次，最终并不能被彻底认识，这就无所谓“普通解”了）。语言问题就是其一。这里所说的语言只涉及音义传播与理解问题（书面文字之间有更复杂的运作机制，不能归入基础算法的层面）。从人类理解的层面来说，单纯语音的交流是完全可能的；单纯依靠语音而完成不同方言和语言体系的交流也是可能的，这足以证明人类拥有某种相同的关于语言习得和运用的类的能力，也就是说，我们获得关于语言的通解是可能的（尽管自乔姆斯基之后语言理论在这方面进展有限）。再比如在图形层面，人类也可能期望通过一种穷尽描述的方法获得准确的具身化逻辑参数。人类的图形认知，大致应当分为几何式、符号式和具象感知等不同类型。根据康德、胡塞尔、荣格、皮尔斯、德里达等人的讨论，也根据目前科学的发展（如费尔马大定理的证明等），在逻辑上AI有希望通过深度学习模式在这些方面获得结构性的突破进展。此外，如果以人的身体为基准作测量，进行命名和限定，那么，运动辨认、空间、时间，包括颜色、声音、触觉等感官认知的内容，也有可能通过刚性的力迫运算，实现其中包含内容的算法化。

第二类则是转化性的逻辑参数。这一类逻辑参数所涉及的现象，大多与个体精神体验相关，具有很大的个体差异性；并且它们牵涉部分大多缺乏客观世界相对应的客体事实，因此AI似乎不可能对其做直接的穷尽描述。但尽管如此，这些艺术现象仍然能够借助某些具身化手段，通过相关生理表征行为的抽样、建模、统计、概率计算等手段予以转化性的过渡描述。这类逻辑参数，多与人类情感相关。各种欲望因素如性欲等，毫无争议与艺术创作具有极为紧密的关联。AI本身没有欲望可言（可算化也许是其唯一欲望），它如果要深度习得人类的艺术创作能力，逻辑上说它应当有能力辨认艺术实践中那些与欲望相关的现象并把它们转化为可算的逻辑单元。但欲望在创作中介入的深度因人而异，比如在《金瓶梅》《索多玛的120天》等书中，很多意象都与性欲相关，但在某些佛教作品中，性欲的因素差可归结到无。如何从具身习得的角度出发描述此种现象，从目前来看，人们尚只能借助血压、唾液、肾上腺素等的分泌、眼球转动等生理指标的测量、计算、模型化等予以转化性说明。这种转化有多少有效性，目前来看自然是很值得质疑的。但从长远来看，如果样本量足够，且当前的AI学习模式有长足进步，AI此种转化性逻辑参数测定、可算化仍有一定的理论实现可能。人类的激情和冲动，如愤怒、悲悯、仇恨、嫉妒、爱好（癖好、习性）、报复（复仇）欲等，以及参与到艺术创作的各种感觉因素（包括嗅觉、味觉等），都属于这个层次的问题。前面我们谈到了此类参数转化生成的可能性，但实践中可能问题重重。如果将各类激情和冲动都转化为生物指标，这类转化需要的人类学证据将是不可思议的庞大。如果还考虑到这些激情和冲动同时还能够构成多少种复杂艺术现象，这些现象且自有其历史演化过程，那么这种转化性可算表达几乎是不可能的。更何况过度依赖心电图、血压、分泌物等来作为艺术具身化的主要参考指标，看起来也过于线性与简单化了。

第三类为综合的逻辑参数。人类艺术活动的基本经验，除了来自那些类属性和个体情感（这些都与身体经验感知直接相关），还有部分与外在存在事实紧密相关。它们属于被建构的实体性精神事件：能够被身体所感知、明证，但一般来说只存在于某一特定的群体中——且在这群体中存在着极大的差异空间，有时涉及重要的时间变量。比如说对特定国家之爱，对现代人来说，它肯定是一个能够被理解的客体性事实，但此种爱意，大多数情况下只存在于该国家的公民群体中，并且群体中个体差别极大，既有勇于为国家之爱奉献生命者，也有背叛国家者。考察这类经验的可算化问题，除了适当引入前述描述性或转化性研究的部分要素，还必须分析其中所包含的各种综合性内容，如历史、地域、文化传承、共同体性质（政治、意识形态）、群体间关系、技术条件等。文化传承包含文字、伦理、信仰、趣味等，其中的信仰等内容也必然是从世俗化一面来作思考的，是去神秘化的、可算的。这些综合生成的东西，其根源尽管不是发自直接的身体经验，但对艺术创作往往具有强大的支配力，因此也可以将它们视同身体本能，必须归纳、总结某些特殊的逻辑参数形态，比如关于文字的感觉、意识模式。再以技术背景为例，在透视法没有被发明之前，它不可能被自觉地应用到绘画领域；在运动摄像技术没有兴起时，便无所谓蒙太奇手法等问题。而在今天，透视、蒙太奇已成为现代人观察世界、想象世界的精神本能，从这个角度说，现代视觉经验包括精神测量世界的基本姿态，就是包含着对现代视觉机器（技术）的理解（想象）的。因此在艺术活动中，它们就显然需要被处理成为一个独立的可算的集合（模块）。这是第三类逻辑参数需要被单独分立的理由。

截至目前，在AI艺术研发史上，绘画是尝试最多且成果最丰富的项目。无论是辅助绘画、模仿绘画，还是AI独立创作技术，都在不断推陈出新，进行着一场场技术革命，其中不少作品已明显能够通过图灵测试。在此，我们以图像为例结合上述分析从理论上还原AI创作的基本逻辑。第一步，分解各种图像素材。无论进行何种图像创作，分解图像素材都是基础步骤。在这一过程中，可能涉及的基本分解逻辑是：（1）分解人、动物、植物与图形相关的基本构造单元（如将脸部肌肉按解剖学意义分解）；（2）按某些功能、组合命名某些表情传意的最小单元（如笑、哭、恐惧等）；（3）按照某些基本物理事态（如光影对比、轮廓变形等）分解最小的功能单位，如石头、皮肤、水、草木等不同的反射率、色彩变化等；（4）分解图形静止态与运动态最核心的姿态差异（如电影《长城》的穿帮镜头其原因就在于完全没有考虑风与毛发飘动的关系）。第二步，按一定的逻辑组合、命名这些素材，以期形成更具表现能力的图像模块。第三步，在更大的尺度上定义某些人类活动的精神运动态势，在此尺度上定义、分解某些人类工作的学习样本，从而使AI学习并模仿生成。

以上是关于一般艺术创作所涉及的内在算法逻辑架构的基本思考，并以图像生成为例尝试分析了AI的艺术创作过程。然而，除却以上的归纳是否还有其他要素类型？如何研究这些要素在不同的艺术形式和艺术类型之间的具体逻辑关系？上述笼统的要素分析其内涵如何更明确地界定？……相当多的问题都超出了现有科学与人文认识的水平，在此只能略过不谈。

三、算法叙事的逻辑参数：AI写作的理论构想

前文讨论了艺术活动可能涉及的一般经验领域如何实现可算的逻辑架构问题，但现实中艺术活动还有很多具体形式架构规定性。简单来说，根据人类的艺术经验，上述要素还有某些结构性的（也许是固化的）稳定的形式样态。这些形式样态也需要做出可算化的逻辑描写，这可能是当前AI写作想要取得明显突破之处的关键。

总体来说，目前AI写作（也包括其他艺术领域）的实践分为抒情与叙事两种基本形式类型，这也吻合人类艺术文体实践的基本经验。我们在此主要探讨文字叙事可算化的前提。

文字叙事写作的可算化又可分为两大板块。

第一板块是文字组合的规律性问题。文字组合的可算化，所需要考虑的逻辑参数至少包含如下七个层面的内容。第一，文字符号的组合规律。涉及文字叙事的演算问题首先要考虑的是文字演算过程中会涉及的符号组合规律，主要是语法问题。相对而言，第一项是最易掌握也最具规律性的，也是目前AI本身取得突破最大的层面。第二，字的层面。这一项主要涉及音、义、字之间可能的不同组合方式。像方块文字、象形文字、表音文字等之间的组合均不一样，不过对于计算机程序本身而言，实现这一层面的突破从理论上讲并不困难，只要学习积累到一定层次，便可以较好地呈现出不同类型文字间的组合方式。第三，词的层面。根据一般的词性分类，在演算过程中必须考虑到名词、代词、动词、介词、形容词及其他如拟声词、数量词等不同的词性。一句话形成的关键在于词和词的搭配使用，从演算角度来讲，词的组合也是构成一个句子表意的关键所在。这其中又涉及两个难点。其一是词与词的组合，从现象上看描述的理论难度不大，但十分烦琐（比如如何限定一个词在什么样的情况下可以与另一个词搭配，且能够准确传达叙事构造所欲传达的涵义）。其二的问题由第一点引发。从人类心智的角度看，习得词的组合能力一定不是描述性的而是生成性的。原则上人类掌握不多的生成规律就能识别一切词义组合的可能性。从这个角度说AI也应当具备生成性的词义组合能力。这完全依赖于人类对各种类词性的本质功能界定和准确描述。但从目前语言学界的研究看，在这方面取得大的突破可能还有很长的路要走。比如说，如何令AI习得识别专有名词及其向普通名词转化的能力，就可能是一件非常困难的事情。在所有的语法理论中，专有名词均是一个自明的语言现象，但各家定义有所不同（有趣的是，人类心智在很早的阶段就已具备这一能力）。第四，文字与声音层面。众所周知，所有的文字符号均来自声音，以至于我们在阅读文字时会不由自主地想象它的声音。不过文字符号的组合又有摆脱声音的过程。文字与声音的关系需要更为充足的、特别是结构主义语言学背景来予以支撑，但二者关系如何转化为文字叙事算法可以习得的逻辑框架仍是未知的问题。第五，文字的历史演变。在设计文字演算过程时，必须要考虑文字的历史演变因素。像汉语便有古今异义词的区分，一些词语意义发展至今其内涵也会有一定的发展变化。人类在创作过程中会有意无意间加入某个或某些词的古意以形成一种特殊的叙事效果，但这些词语如何进行算法，这对AI来讲目前还是一大难题。第六，外来词、生造词（如许多网络语言）的运用。人类对于外来词的识别和转化都不成问题，许多日常词汇如沙发、咖啡等都属于外来词的范畴。但在面对一些较为生僻的外来词时，对计算机而言，要进行合理的算法逻辑描述也具有一定的难度。第七，文字信号与因果律构建。词与词之间、句与句之间逻辑上的因果构造，某一些信号的联系必然会导引出某一种预定的结果。但这种描述若转化成相应的算法则十分困难，因为人类在使用文字来进行叙述时，通过文字的组合形成的与事件相关的演算信号，包含了许多因果律上的直观见解，其中的典型代表便是叙事中的省略问题。对文学叙事而言，省略是最重要的因果律的构建方式之一。而具体的省略如何进行，何种因果条件可以不提及省略的前提，何种情况又可以不谈及省略的过程，何种又不用论及结果，这些都是考验人类叙事能力最直观的部分。但这种能力对于算法的描述而言相当困难。不过，就文字信号和因果律这一层面而言，不排除在计算机层面可以被绕过的可能性（即通过算法与学习穷尽各种省略的必要条件）。关于这方面的具体讨论则需要更为专业的思考。

第二板块，即绕过文字组合规律的细节，根据风格论与叙事类型学的理论，在较大尺度上给出文字组合的基本模型。希望在足够的样本学习基础上，通过恰当调试，令AI掌握基本的文字表现形式，并通过图灵测试。当前AI文字写作的基本逻辑构造，看起来主要便基于第二板块的逻辑构造模式。根据这种模式，目前的AI抒情写作与叙事写作其实是一回事。从现实操作而言，二者的本质逻辑是相同的，即通过有联系的连续几张图像，提取其中可能包含的人物的情感色彩或故事的情节发展，以规定的文字方式呈现出来（参见图1）。不过，AI叙事写作就既有成果而言仍有很长的路要走。比如像同样基于图像学习的微软小冰叙事诗的创作，其生成重点更强调故事情节的连贯性与叙述的完整性。若要培养AI“自主创作”的发展方向，很有可能会无法兼顾AI的诗歌语言学习，这就导致生成的诗歌走向“按图说话”的模式，其叙事功能仅停留在表面，而忽略了诗歌的文学性和抒情功能的表达，这也是叙事诗歌质量较不稳定的原因。而在更为复杂的长篇叙事写作中，AI则面临着更多的挑战。最新的语言生成算法模型GPT-3体现了自然语言处理取得的进步。人工智能语言生成器中的挑战之一是在长文本范围内保持连贯性，像之前的GPT-2模型往往在几句话之后便失去了一致性。GPT-3确实能够在几段文字上仍保持一定的话题性，这主要是因为GPT-3最基本的功能是自动补全，给它一个词或句子，它就会逐字逐句地生成它认为接下来该出现的词句。但从根本上讲，GPT-3不会带来任何新变化，较GPT-2而言所拥有的只是训练数据集和“计算”量，而若想在模型中灌输常识、因果推理或道德判断，仍是AI目前不能实现的挑战。

图1 小冰创作诗歌的过程，[ 图片引自Heung-Yeung Shum, Xiaodong He, Di Li.“From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots.”Rontiers of Information Technology & Electronic Engineering 19.no.1 (2018):10–26.]

基于深度学习的AI写作技术想要真正取得突破必须具备一系列基本条件，包括须是单一任务，任务边界清楚，信息完备，结果判断量化、明确，等等。但就目前而言，AI叙事从理论上来讲就面临着几大难以突破的难题。首先，AI叙事缺乏目的，缺乏标准，样本量太大。事实上这种可再生成性的语汇的逻辑关系，还是需要获得重大突破才可能形成一种内在的可计算的、但是又能自由转化的语言。其次，AI叙事对名词的辨析较为困难。名词，特别是作为普通名词而言，往往包含了非常复杂的记忆性内容。这种记忆性的内容通常还包含家庭、宗教、社会以及文本、虚构科技等要素。人要辨析一个普通名词中所包含的特征即转化机制非常容易，但是对于机器来说却很困难。一旦小说涉及诸多非逻辑的话题如意志、欲望、叙事、暴力、道德、死亡等类似具身体验的东西，机器根本无法习得，就只能在一定逻辑框架中做外部模仿。再次，AI难以将虚构内容向实体性内容转化。实体性的内容是一个客观实在，它的存在不会因为别的任何方式的介入而改变或消失。从这一逻辑来讲，叙事包含着两种实体的天然的区别：一种实体能够找到世界情况的客观对应；另一种实体是人类虚构的，若让机器进行这种虚构向实体的转变则十分困难。最后，AI难以习得纯粹观念性的内容。机器最容易习得的是科学观念性的内容，但是对比如佛、上帝这种概念既找不到它的外延，也找不到它的内涵。

就目前技术水平而言，AI叙事写作之所以看起来像是叙事，是因为：第一，它用来组合的类型化样本片段比较大，这种既有的样本化素材本身就包含了一些事件的组合关系，根据格式塔心理，人们会强行为这些拼贴的样本的事件之间补足因果关系；第二，这些类型学习的样本内在逻辑构造是极其线性化与单调的。这种算法模型能否完成长篇的、有内在变化的因果律组合，颇可怀疑。

结语

从算法角度出发，就计算机与人脑可比较的层面而言，根据现有的计算机技术（包括算法等），拷问AI是否可能具有艺术能力，很可能本质上就是一个缘木求鱼的问题。就目前的AI技术而言，它参与人类活动并能超越人类能力，一般都在可计算的领域。它的内部逻辑构造再复杂，其实目标是单一且确定的。就像阿尔法狗围棋上战胜人类，其突破主要是在发明了一种通过概率计算的方法，绕过了庞大数据对技术能力的考验。但其逻辑目标本身是简单的：设定一种程序，依照围棋的规则，争取在19路棋盘上达到或超过181点以上的点位，能够完成这一目的计算即为成功，否则就是失败。而对艺术工作而言，在大多场合都很难说有什么是非判断的标准；各艺术品之间也很难说有什么统一的标准，那么如何能够有效地根据一定的逻辑计算方法判定AI演算的有效性呢？即便人们在艺术标准等方面达成了一些极有弹性的、通解方面的认识，文中谈到的几个前提仍将对相关的工作提出巨大考验。

尽管如此，当前的AI艺术探索，仍然是极具价值的，我们不能排除AI未来会形成专属于自己的叙事方法的可能性，也不排除会产生一种诸多要素具有通解的逻辑框架。此外，还有一种理论上的可能，那便是计算机通过超大样本的学习，使得AI叙事自动覆盖或超越人类叙事。因为就计算机与人脑的对比而言，人脑的演算精度与计算机相距太远。而是否有可能设想这就是智慧生命最终本质的差距。如果情况是这样，据人类创作过程架构的逻辑框架对具有超精度计算能力的计算机而言，其本身就是一种不好的逻辑框架，我们依据人类艺术活动经验来规约、设想AI艺术的发展可能本身就是一种坐井观天的想法。当然，尽管科幻文艺在这方面已经谈了许多（如阿西莫夫的小说，如电影《银翼杀手》），但从目前AI发展的情况来看，这些基本都可以归于玄谈，暂可存而不论。