音乐人工智能的伦理思考<br/>——算法作曲的“自律”与“他律”

音乐人工智能的伦理思考
——算法作曲的“自律”与“他律”

2018-10-26付晓东

艺术探索 2018年5期

付晓东

（中国音乐学院音乐学系，北京 100101）

20世纪50年代至今，“人工智能”（AI）技术的发展经历多次起落，近几年突然以无可阻挡之势席卷工业、金融、医疗、教育、运输等各行业，并于2017年入选“2017年度中国媒体十大流行语”[1]，由此可见其势头之火热。现在，它正迅猛地向着音乐领域进军，在未来十年内，越来越多未经人类大脑构思的音乐作品将会充斥于我们耳畔。音乐是一种主动侵入性的艺术，它不像视觉艺术那样给人类保留以选择权：如接受，驻足观赏、定睛打量即可；如拒绝，转移视线或索性闭眼即可。音乐以迅雷不及掩耳之速入侵，无法防备，人耳却无法像数字滤波器一般对声音信号进行信噪优化处理：如接受，必须将音乐信号连同所有的背景音响无条件地全部接受；如拒绝，只能捂上耳朵，屏蔽一切音响。所以，相对于其他艺术领域的人工智能技术的应用，音乐人工智能带给我们的冲击可能会更猛烈。

在展望音乐人工智能的前景时，计算机阵营可能会敲键相庆，音乐阵营可能会抚琴长叹。音乐技能与理论的学习是一个漫长的过程。只有熟练掌握乐器演奏技术，基本乐理、作曲四大件的应用规则，庞杂繁复的音乐学相关理论，以及能够敏锐地捕捉节奏、音高与织体，我们才能以之谋生。如今，人工智能突然出现，宣称这一切学习过程都可以略去，无论是创作还是表演，一切交给机器。这个残酷的现实让音乐家震惊且疑惑。本文从传统音乐阵营的立场出发，对音乐人工智能的伦理进行思考：AI要在多大程度上改变我们的音乐生活？在音乐领域内，何为“人工”，何为“自然”？何为“智能”，何为“机械”？或者，从艺术审美的层面来看，它有没有边界？

音乐美学理论界长久以来存在着两种对立的观点：一为“自律论”，一为“他律论”。所谓“自律论”，是指音乐的美存在于其自身的结构与形式之中，无关乎内容，也独立于情感——简而言之，音乐不需要抒情，音响本身的结构序列就是美。欧洲的代表人物有奥地利音乐学家汉斯立克，其代表作为《论音乐的美》，以及德国古典哲学创始人康德；中国的代表则是三国时期的嵇康，其代表为《声无哀乐论》——魏晋玄学的千古名篇。所谓“他律论”，是指音乐的规律和法则受到外来因素，即人类情感的影响和制约。持此观点的欧洲代表人物有舒曼、柏辽兹、李斯特等音乐家以及哲学家黑格尔；中国则以儒家音乐美学思想为代表，如孔子的“尽善尽美”，《尚书·舜典》的“诗言志，歌咏言，声依咏，律和声”，以及《礼记·乐记》所述“凡音之起，由人心生也。人心之动，物使之然也”，等等。

国内音乐理论界曾于20世纪末掀起了一场轰轰烈烈的有关“自律论”与“他律论”的争论，可谓一场音乐美学的“真理标准大讨论”。终于在世纪之交，理论界以辩证法的“自律与他律的矛盾统一”之定论将这场讨论平息（或暂时平息）。笔者更倾向于“他律论”，在这里不阐述理由，只举一个极端的例子：数学与物理中的公式、法则与定律，都体现了纯粹的自律之美。但是当我们面对如质能公式E=mc2时，如果我们对相对论一无所知，对“一切物质都潜藏着质量乘于光速平方的能量”这个伟大命题丝毫不为所动，那么这个公式对于审视者只是一串不知所云的符号。再如同聆听西洋交响乐，如果听者对欧洲音乐没有基本了解，就会像张爱玲所描述的那样“交响乐的攻势是慢慢来的……四下里埋伏起来，此起彼应，这样有计划的阴谋我害怕”[2]。因此，审美主体如果不具备对审美对象构成要素的先验基础，将无法对作品产生审美愉悦。音乐人工智能的实质是机器自主创作音乐作品，其核心是“算法”（Algorithm）。从音乐审美的角度，大致可将机器的算法分为“自律”与“他律”两种类型：前者是机器严格或非严格地遵循事先规定好的内部结构原则，对应于音响素材而生成音乐作品，最终的音响呈现受到内部结构原则的自律性限定；另一种类型是机器严格或非严格地遵循依据人类经验规定好的外部结构原则，并映射为音响而生成作品，最终的音响呈现受到外部结构原则的他律性限定。当然究其根源，任何算法都是由人类所指定，因此并不存在绝对意义上的“自律”型算法。但是自律性限定的算法一旦启动即自主执行，而他律性限定的算法则受外部因素的支配与调整。从这个层面来审视，算法程序仍然能够在某种程度上划分出“自律”类的人工智能与“他律”类的人工智能。以下将根据这个原则对各种算法作曲进行粗略分类。

一、“自律”类音乐人工智能算法

（一）数学模型（Mathematical Model）

以数学算法与随机事件构成数学模型进行作曲。其中算法相当于作曲法则，随机事件相当于音乐元素——音乐中的各种元素可分解为一系列随机事件，如音的四属性、音乐三要素等，作曲家（程序员）赋予其不同权重，使用特定随机算法对其进行运算处理而得出音响序列，其结果是非确定性的。常用的随机算法有马尔科夫链、高斯分布等。目前以数学模型为主的音乐人工智能作品在伴奏的速度跟随、乐句的力度处理、终止式的伸缩节奏方面有相当的“智能”感，但是在作品的整体可听性方面仍有明显的欠缺。

（二）演化算法（Evolutionary Methods）

演化算法源于达尔文所揭示的生物进化理论，用算法模拟物种进化的过程来构建音乐作品。将随机或人为的音响事件集合为一个种群，通过选种、遗传与突变的算法反复迭代，将种群中现有的多个个体进行优胜劣汰，其结果由适应函数构成的审核程序予以矫正，以保证其审美意义的质量。最常见的演化计算方法是遗传算法（Genetic Algorithms）与遗传编码（Genetic Programming）。演化算法试图将物种进化的过程匹配于音乐生成过程的逻辑不够完善，因此作品的审美认可度并不高，如今常用于和声配置与伴奏任务中。

（三）语法系统（Grammars）

音乐的构成法则可类比于人类语言的语法规则。人类语言由字、词、句等按照一定的语法规则构成表达单元，音乐中的动机、乐节、乐句也具有相似的结构特征。首先创建一个特定音乐作品的语法规则，对和声、节奏与音高等各种音乐素材进行组合，最后生成音乐作品。诚然，音乐与语言在某种程度上具有同构性，但是比较而言，音乐规则体现出更大的灵活度与可变性，由一个固定的语法规则附加若干可变规则的语言算法，产生出的音乐作品多少带有生硬而呆板的特征。

二、“他律”类音乐人工智能算法

（一）迁移模型算法（Translational Models）

将非音乐媒体信号源中的信息映射并迁移为音乐音响信息。最常见的是将视觉信息进行转换，例如将图像中的线条转换为旋律，色彩转换为和声，色度转换为力度；将运动物体的空间位移转换为旋律，速度转换为节拍节奏等。也可用于非视觉信息的迁移，如将文学作品中的积极/消极的描述，通过自动情感分析系统迁移为大三/小三和弦。实际上，人类的感官在一定程度上的确具有“联觉”效应，如空间线条与旋律走向的对应，但是如果将其进行严格映射，并没有心理学的有力证据。因此使用迁移模型算法生成的音乐作品，常常出现在交互性的新媒体艺术表演中，更多地以现场的事件相关性与交互性为审美趣味。而一旦音乐作品与其映射对象脱离而单独呈现，这类作品的可听性将会大大降低。

（二）知识推论系统（Knowledge-based Systems）

以某种音乐风格类型为知识库基础，将该音乐风格的审美特征提取出来并进行编码，即归纳推理；以编码程序为算法而创造类似风格的新作品，即演绎推理。例如基于对位法原则的巴洛克音乐风格编码、基于大小调和声体系的古典浪漫音乐风格编码、弱化和声功能的印象派音乐风格编码及各个相应风格作品的生成，即属于知识推论系统算法。这种算法已经在某种程度上接近于音乐学院作曲技术理论的学习过程，生成的音乐作品与其所基于的特定风格知识库非常相像，具有很高的可听性。其缺点在于归纳—演绎两个环节的相对割裂，即风格编码必须由操作者提供，程序本身仅仅是对编码的执行运算，作品的结果会严重受到操作者对创作规则的抽象理解的影响，并且会存在僵化与雷同的缺点。

（三）机器学习（Machine Learning）

操作者为计算机输入大量的音乐音响，计算机对其进行有效“聆听学习”，即运用统计方法对音乐构成的法则进行学习，其过程与知识推论系统相似，但是操作者并不严格指定音乐类型，也不为程序提供风格编码，这个过程由算法程序自动完成，强调其自主性与“无监督”式的学习（unsupervised learning）。当然，从本质上来看，机器学习的“无监督”只能是在一定程度和范围内，它依然囿于操作者所提供的知识素材库。机器学习与数学优化、数据挖掘等计算科学的研究成果相关，更与认知科学领域与神经网络学科的研究成果密切相关，其中最为显著的是采用决策树、人工神经网络、深度学习等方法，是迄今为止对生物学习过程模仿程度最高的一种算法。机器学习仍然属于仿生，但它超越了对结构与力学层面的仿生，是对人类大脑思维过程的仿生。机器学习既可以用于一般意义上的音乐创作，也可用于即兴演奏与竞奏等场合。虽然可以生成各种指定风格或混合风格的音乐作品，但是它仍然取决于操作者提供的音乐数据类型，是通过对随机事件进行概率统计得出规则后的音响预测。

三、算法作曲的论理思考

前文对算法作曲的分类以图1说明如下。

图1

必须承认，这里对音乐人工智能算法的理解，是基于一个音乐家的知识结构而形成的；将其归入“自律”或“他律”的伦理范畴，也是根据这些算法所体现出的显性特征来进行的。因此，“自律”与“他律”的界限并不是泾渭分明的。考虑到在实际运用中，这些算法可能会彼此整合，形成一个混合的超级算法模型，以弥补各自的缺点而得到音乐生成的最优化，所以，并不存在绝对的“自律”或“他律”的音乐人工智能算法。实质上，将音乐美学中的“自律论”与“他律论”观点二元对立化，本身就是对矛盾的割裂与绝对化。并且，随着量子计算技术、脑科学研究以及信息论、控制论的发展深入，将会出现更多的混合型音乐人工智能的算法模型。

之所以作如上划分，是想从音乐审美的角度来说明这样一个观点：倾向于“自律”型的算法可能会陷入音乐审美的“死胡同”。举个例子，20世纪初兴起的以勋伯格为代表的十二音技法，就是一种强调自律的作曲法则：将十二个半音割裂孤立，追求其绝对的平等，就是否定音乐调性——万有引力的联觉作用，就是企图从底层将人类主观体验对音乐构成法则所施加的“他律”作用予以否定。其后的整体序列主义则更是倾尽全力将人类对律动、色彩、力度的主观先验基础从音乐构成法则中彻底地排除，可谓是彻底地“存天理，去人欲”。从这个意义上来看，偶然音乐、噪音音乐等也在美学伦理上属于“自律”的范畴。毋须多言，历史已经证明，这类音乐风格早在世纪之交就基本上销声匿迹了，主流音乐家依然回到由情感支配、联觉控制、先验引导的共识法则的构架体系内进行创作与表演。此外，更不能忽略，这个世界上种类繁多的民间音乐、传统音乐或原生态音乐，自始至终就没有被所谓的“自律”伦理约束过。以音乐风格的演变为鉴，在音乐人工智能的生成过程中，完全采用数学模型、演化算法以及语法系统等具有显著“自律”特征的算法，前途并不乐观。

这么看来，具备了“他律”特征的算法音乐，似乎有一个畅通的未来，尤其是掌握了深度学习技术的算法，如同媒体鼓吹的那样有着灿烂辉煌的前景。问题是，以深度学习为代表的算法作曲技术，到底在何种程度上改变了我们现有的音乐观念、审美趣味乃至我们的音乐生活方式？这个问题仍未得到最终解答，笔者在此试述一二。

如同对“高科技”进行定义一样，“智能”也是一个边界模糊的概念。举两个简单的例子：电动磨相对于水动磨，水动磨相对于驴拉磨，驴拉磨相对于人推磨，前者都更具“科技含量”；电算对珠算，珠算对筹算，筹算对结绳记事，前者都更具“智能因素”。但是，就在十年以前，带有温控、声控、光控开关的电器广告，还动辄冠以“自动”“数字”，甚至是“智能”之名，今天看来，几近荒唐。诚然，智能有“弱智能”与“强智能”的层级之分，但这个集合的边界从来就是从历史这端不断收束，向着未来那端不断延展。以智能演奏为例，从19世纪风靡欧洲的八音盒（Musical Box），到20世纪席卷欧美的自动演奏钢琴（Player Piano），再至21世纪崭露头角的音乐机器人（Musical Robot），智能演奏的定义不断被刷新，所界定的对象也不断被历史封存。自动演奏钢琴比之于八音盒，具有一定“可编程性”（纸带输入）与交互性（人力驱动），这就是八音盒在19世纪后期没落的原因之一。回顾八音盒的发展历程我们会发现，在其最兴盛的19世纪中期，制作者大多数都拥有另一个身份——钟表匠，且国籍多为瑞士或德国。我们可以看出隐藏在其中的寓意：制作精美的八音盒在一定程度上是“醉翁之意不在酒”——它是展示精确、巧妙与完美的机械技术的广告与炫技品。当自动演奏钢琴出现后，八音盒的使命基本告终，钟表匠干回了自己的本行，这就是瑞士钟表与八音盒的渊源。今天的八音盒已沦为礼品店的玩具，但是人们可能忘记了，正是八音盒的卷轴启迪了MIDI音序器及其钢琴卷帘界面。再来回顾一下自动演奏钢琴的发展历程：其在取代八音盒后，于20世纪20年代达到发展顶峰，随即开始急剧衰落——人们不再为键盘自动上下翻飞的技术与音响重现而惊叹，它沦为一个更换曲目繁琐、维护成本高昂的播放器。留声机的出现，立刻宣告了它的使命终结。留下的是自动钢琴的纸带信息记录设计，它启迪了早期计算机指令输入方式的设计。最后来回顾一下音乐机器人的发展：20世纪80年代初，日本早稻田大学研制出能在音乐会上演奏管风琴的音乐机器人“早稻田2号”（WABOT-2）[3]143-155，它具有人类的外表与结构，以摄像头为眼，能够阅读乐谱，演奏中等难度的乐曲。但是它并没有在音乐界引起太多轰动，因为在音乐家的眼中，它至多是一个具备人形而高度自动化的播放器而已。丰田汽车公司于2005年与2007年分别推出了类人形小号音乐机器人与小提琴机器人[4]，具备高度仿生的人类外形，且可以进行交互，引起了一时轰动。但值得注意的是，与八音盒的制作产业类似，丰田公司推出小提琴机器人的目的不是研发智能音乐，而是开发陪护与服务机器人（Toyota Partner Robot）以进军家政市场，演奏乐器仅仅是展示其高超的运动与控制水平，同样是为了达到广告效果与眼球效应。从八音盒到自动演奏钢琴，再到音乐机器人，在音乐家的眼中，其音乐功能的核心只是“自动化”而已，它并没有撼动我们现有的音乐生活方式。

音乐在很多情况下仅仅是科学技术小试牛刀的领域之一。在功能展示与炫耀上，比音乐获得的效应更为轰动的著名例子就是棋类竞赛。早在1997年AI就已经战胜了国际象棋特级大师，对阵双方是IBM的Deep Blue（深蓝）与俄罗斯棋手卡斯帕罗夫，后者的落败引起了世界的震动；2016年3月谷歌的AlphaGo（阿尔法狗，即围棋机器人）以4比1战胜韩国职业棋手李世石，之后一鼓作气以3比0的战绩战胜了世界排名第一的中国职业棋手柯洁。Deep Blue使用“穷举法”的硬编码方案，类似于AI作曲的知识推论算法，而AlphaGo则是基于神经网络深度学习方法，与AI作曲的机器学习是一类。Deep Blue的胜利曾经给人类带来了极大的震撼，以至20世纪末又一次出现“颤抖吧，人类”的恐慌（虽然这种恐慌已经出现过多次），很多人预言，国际象棋作为一种竞技体育项目将从此消失。但事实恰恰相反，20多年过去了，国际象棋爱好者的人数不降反升。20年后AlphaGo的胜利并没有引起之前的恐慌，更没有人为围棋项目的未来而悲观，反而如今越来越多的棋手使用算法程序来辅助训练。尤为值得注意的是，2017年5月，阿尔法围棋团队宣布他们将不再参加任何围棋比赛。这个声明再次向我们证实了AI在音乐领域“醉翁之意不在酒”的意图。

音乐是人类迄今为止难以完全解释与定义的事物之一。对于音乐的起源，无论是劳动说、模仿说、语言说、求偶说等等，都难以准确地解释它为何发生；对于音乐的功能，无论是社会说、审美说、认知说、教化说与娱乐说，也无法将其在人类社会所扮演的角色圆满解读。用发生学的逻辑来看，无法对音乐的起源与功能进行清晰描述，就无法为音乐人工智能的未来进行准确预测。音乐绝不仅仅是音响的组合所带来的听觉体验，它更多联系于人的情感记忆与偏好，它能够唤醒我们一种被称之为“情怀”的感知。音乐不仅仅是引起颤抖、鸡皮疙瘩（gooseflesh effect）与多巴胺分泌的外部刺激，因为吸烟酗酒也会产生同样的生理反应；音乐不仅仅是学习语言的预备，因为大量的失歌症患者并不存在语言的障碍；音乐更不仅仅为了求偶，这一点所有的音乐家与音乐爱好者都会同意，即使大家承认它有点作用；音乐不仅仅是更快、更高、更准的竞赛式炫技，所以从这个角度上而言，所有的音乐机器人演奏，都只是暂时的眼球效应，在新奇感消逝之后，它与博物馆收藏的自鸣钟并无质的区别。

“莫拉维克悖论”如此表达：电脑很容易达到成人博弈的水平，但是让它具备幼儿基本的感知和行动能力相当困难。实际上，人工智能最根本的存在意义是颠覆我们对“智慧”的传统定义——我们之前理所当然地将符号认知与整合、规律总结与提取、定理演算与证明等能力划定为“智慧”，而将直觉、下意识等行为视为生物本能性的刺激反应。人工智能的出现，促使人类重新划分“人工”与“天然”、“智能”与“机械”的边界，这个最终答案可能是颠覆性的。反过来说，现有的人工智能，以其每秒数亿次的逻辑运算能力与人类对弈竞争，值得惊叹的恰恰是人类的智慧。人类除了下棋，还拥有自由意志与行动能力，为理想奋斗以及思考人生等目标，而算法只有一种存在的前提——通电，只有一种使命——替代人类执行枯燥的技术工作。因此，人工智能让我们重新定义艺术与技术的边界，促使我们不断提高艺术创作的智慧含量与人性品质，这就是音乐人工智能存在并发展的意义。

（本文根据笔者在“2018音乐人工智能发展研讨会”上的主题发言整理而成。）