人工智能音乐的“音乐人格”
2021-04-01陈益敏张焜刘聆风
陈益敏 张焜 刘聆风
【摘要】二十一世纪,人工智能在音乐领域潜力无穷,但其仍存在局限性,如何提升人工智能音乐情感性成为焦点。音乐创作的本质就是音乐情感地表达,量化的研究有助于实现音乐的动态性,在语言计算模型中对音乐情感单独标注有助于弥补人工智能在海量数据学习中所丢失的动态性。
【关键词】深度学习;人工神经网络;量化研究;动态性;情感标注
【中图分类号】J60 【文献标识码】A 【文章编号】1007-4198(2021)03-130-03
【本文著录格式】陈益敏,张焜,刘聆风.人工智能音乐的“音乐人格”——赋予音乐创作的动态性以增进音乐的情感性[J].中国民族博览,2021,02(03):130-132.
引言
二十一世纪,人工智能技术在音乐领域应用并快速发展,其在音乐创作、音乐教育和音乐保护领域都有交叉融合的趋势。回望人工智能音乐发展史,AI最早应用于作曲领域,其起源于算法作曲,并走向以马尔科夫链、神经网络、遗传算法等多种人工智能算法为基础的AI作曲[1],到如今深度学习作曲成为主流。
语音合成、音视频与图像识别、交互技术等一系列AI技术,推动了音乐创作模式、流媒体个性化定制以及音响设备制作等方面的革新。[2]但这一应用领域仍有深度发展潜力。现有AI创作的音乐虽然技术成熟,却缺乏一定的情感传达能力。因此对于如何提升人工智能音乐情感性这一议题,本文提出了一种理论阐释和解决方法,并提供了它可能的技术实现方案。
一、人工智能音乐的技术指南
人工智能音乐形成和发展的基础,是人工智能技术的发展。
人工智能的基础是深度学习,即一种连接型表征学习方法,其中的模型由一连串模块组构成,每个模块可看作神经元组成的不同拓扑结构,训练后的拓扑结构分别拿出来都可以作为独立的特征提取器。
深度学习的结构是构造感知机模型,意在模仿神经元工作的工作原理。人脑结构的运转有大量神经元的协作,AI的模仿亦是如此。按照不同的拓扑结构,人工神经网络通过设计不同网络结构,来解决不同問题。其中最基础的网络结构就是全连接网络,在此基础上发展出卷积网络和LSTM记忆网络。卷积网络模拟视神经系统,LSTM记忆网络对某一时刻t的网络信息进行处理,遗忘,接受更新,决策铺入,通过精心设计的称作“门”的结构来去除或增加信息到细胞状态的能力。[3]人工智能根据用户需求,将图像或语音信号由输入层输入,进行传递计算,最后由输出层得到相应的结果,这一过程也被称为前向传播。神经网络的训练目标是达到模型输出等于理想输出,通过误差函数,寻找参数使函数差值最小。但有时最终的理想输出亦不明确,因此要引入生成式对抗网络,其框架内分为两个模块:训练判别网络和训练生成模型。通过两个模块相互博弈学习产生优质的输出。强化学习作为机器学习的范式和方法论之一,则使模型参数愈加适应环境。[4]
二、人工智能音乐进步的音乐基础
人工智能音乐虽前景可观,但我们仍要关注其局限性:人工智能音乐情感性的缺乏。从音乐学的角度,笔者认为,音乐创作本身是音乐情感表达的技术基础。提升人工智能音乐情感性,需要从音乐创作角度提供人工智能音乐的进步空间。
(一)音乐的情感的发生
情感隶属认知科学范畴,当它附着在音乐这一艺术领域时,则必须有行为主体(人)在此起到交互作用。音乐的情感性主要涉及两个行为主体,一类是表现音乐的人(如作曲家),另一类是聆听、鉴赏音乐的人,即通俗意义上的听众。其中交互的链条是从作曲家出发,经由音乐这一客体传达到听众身上。那么音乐中的情感的传导机制究竟如何呢?
1.“作曲家-音乐”中的情感传导
作曲家、音乐批评家科恩曾提出,音乐是一种言说,依靠着完整的音乐人格发声,而这个“人格”正是作曲家意志的投射。[5]音乐表现的是由作曲家的部分意志演化而来的音乐人格,在人文化的语境中,它必然是作曲家情感的寓藏。[5]因此在音乐交互链上,音乐人格来自作曲家的人格,而音乐中的情感首先是来自作曲家的情感。
2.“音乐—听众”中的情感传导
情感被作曲家以丰富的创作与音乐所粘合后需传递给听众。音乐交互链的第二个进程,便是听众的音乐感知活动和情感共鸣活动。
广泛的音乐情绪研究认为音乐能够引发听众的情绪活动。[9]音乐情感反应的神经机制的研究显示,音乐会促使脑释放神经递质(包括血清素、多巴胺等),并可激发负责情绪、奖赏与动机的脑区。[8]可见,“音乐—听众”中的情感传导通路是成立的。
对于音乐情绪主体,性别、年龄、有否音乐训练等影响聆听音乐时的相关脑区激活程度。[8] Juslin在2010年提出的音乐线索一致性中分析,其程度会受到音乐线索、呈现效果、听众特点和背景因素地影响,[10]但对于其中的详尽机制没有完整的理论体系。较为著名的Juslin和V?stfj?ll的六个心理机制理论和 Kone?ni的中介说[9],亦缺乏实证研究。但已见得,这种共鸣离不开主客体因素的共同影响。
(二)音乐思维
音乐创作的脑功能机制是音乐思维的生理基础。[6-7]《音乐教育神经科学》一书指出,“音乐创作需要整合听觉动作/声音与运动行为并匹配动作与声音的初级皮层以外的脑区(额下回、前运动区与顶上回),这一脑区所属的神经网络尤其在音乐作曲和音乐技能学习过程中发挥重要作用。”[7]可见,音乐训练中特定行为运动(如弹钢琴的手指运动)和有意义的声音辨别的独立训练和有机结合形成了音乐家与非音乐家之间的脑差异,亦是音乐创作、音乐思维的基础。[7]
同时,音乐思维的个人训练离不开结构思维的培养,依靠整体分析去把握要素分析。音色思维、和声思维与复调思维,是对于音乐创作要素地把握。感性基础和知性认识、建立在逻辑思维基础上把握意象特征的自主行为,亦是音乐思维形成的重要要素。掌握每个要素的认识后,亦需融入到对结构地把握中去。[6]
(三)音樂创作与音乐情感[6]
认识音乐思维后,音乐创作具体的行为模式和其中的情感传导机制则不难了解。
音乐创作,即在把握听知觉训练和艺术知觉训练后,形成的非自觉意识和自觉意识的统一,音乐技能与音乐教养的统一,在以音乐要素(和声、音色、织体等)思维为基础的音乐结构思维下进行音乐元素建构的行为。此音乐构建过程中往往同时形成情感模型的构建。其建立一方面来自逻辑(自觉),通过对已知的包含特定情感特征的和弦、音色、调性等的确立和规划,来达成结构性的、自主性的情感确立,这种情感的创造力在一定程度上是建立在相应的音乐创作经验、写作知识和生活意象结构之上的,但又具有原理上的确定性。另一方面则来自非自觉,其也是建立在一定的音乐基础之上,但更多的是不需要建构情况下的音乐元素与生活意象的自然组合,具有流动性,表现时间进程,有时还因“动作思维”而激发。
(四)音乐动态性与音乐情感
最后,我们提出本文最重要的概念:音乐动态性。经过音乐创作与音乐情感的关系探讨后,我们提出了音乐创作中情感传导的建构(非自觉)-流动(自觉)平衡理论。而音乐动态性则是在理论中的平衡区域。
将音乐赋予动态性,通俗来说就是在进行音乐情感内涵赋予时,除了建立基本的情感模型外,在时间进程中给与音乐元素充分的流动性,使音乐元素在“前理解”的基础上自然进入模型。这样创造出来的音乐既具有情感的整体性,又充满个性化的灵动感。
由前述可以推出,创造音乐动态性的关键点有三:其一是音乐情感模型,即结构思维的构建;二是丰富的前理解,即乐感、非自觉意识地形成;其三,便是时间进程地把握,构建动态序列的分布。抓住这三个要素,则音乐动态性基本形成,音乐的情感性也就此完善。
三、以人工智能实现音乐创作的动态性[11-16]
分别了解人工智能和音乐情感基础后,现在我们可以把人工智能音乐的情感性提升落实到创造人工智能动态性上来,而关键便是抓住以上三点。
音乐创作的动态性的根基在于结构思维的构建,在于音乐情感的模型化。
对此,人工智能音乐利用音乐规律给人工智能制定算法规则,通过吸纳海量从曲式、调式、意境等不同方面的音乐建立数据库,进行深度学习,在分析、概括其原曲的规则、结构等各项要素,解读出原曲的情感表达后,重新根据指令操作生成音乐。
而乐感、非自觉意识地形成则是人工智能音乐形成动态性、迈入情感化的门槛。
首先,乐感地形成需要良好的情感空间的构造。人工智能音乐创作的传统训练方式具有数据依赖性,并没有将音乐情感单独标注,而是与曲式、调式、意境等音乐元素在通过信号流传输后,被共同提取为特征流进入特征空间进行学习。音乐情感被削弱,从而减少了音乐动态性的创造。
在音乐心理学中,心理模糊性是人脑反映客观差异的中介过渡性以及所致的不确定性的量化,是理解人与音乐交互过程中产生音乐情感的心理过程的重要因素。由于音乐情感在大众的理解中具有的相通性,个人主观因素的存在不会影响音乐情感量化后在音乐创作中的再输出。 通过模糊隶属函数形成基于语义相似关系的语言计算模型,借助语言值产生对音乐情感的良好表达。通过前期基于语义相似关系的语言计算模型对音乐情感的单独标注,音乐动态性地表达将得到丰富。
其次,人工智能音乐前理解地形成,则需要借助音乐主旋律的识别记忆,以进行情感分类判别。人工智能在学习训练时,定位主旋律轨道并提取相应乐段是判断其风格并归类的重要因素,结合音程特征的统计与分析,制定主音轨自动判别算法。该算法的本质是分类函数的应用,在这里我们以BP算法,即前向反馈神经网络模型为核心,根据实际的训练样本与检验样本数量稍稍加以改动,以此得到高拟合度的分类判别。
最后,时间进程地把握、构建动态序列的分布则是音乐动态性的核心。对已经攫取的主旋律音轨,确定其中的主题旋律,是给人工智能通过数据库训练再创作的关键,主题旋律往往具有的高重复性特征,能够让计算机通过字符串连接的操作手段提取主题旋律,但通过矩阵的方式检测分割片段的运算会占据计算机大量内存,降低了人工智能自我处理的时间效率。因此我们在字符串连接方式上做出优化,分割片段不再以音符为最小单位,而是以小节为最小单位,小节相较音符,在旋律上表达更为宏观,每一小节不仅蕴含了音符的时间信息,也包含了不能从单音符分析提取出的节拍信息,增强了音乐的流动性。
总结来说,音乐特征检索与识别的多重算法结合音乐情感量化研究中构建的模型,形成了以音乐作品输入信号流为分割,情感标注和特征提取并行分类处理的模型运行过程,面向音乐创作的动态性,情感流和特征流的信号被分别进入情感空间和特征空间,最终进入模型的样本空间进行深度学习。作为广泛应用于机器翻译、对话生成和编解码领域的结构,LSTM长短期记忆神经网络对人类逻辑思维的表征有着明显的优势,人工智能音乐的学习包含了大量经量化后的主观因素,以LSTM作为训练模型将有助于音乐动态性的生成训练,之后通过机器学习将离散序列平滑完整的拼接,最终形成满足动态特征的音乐序列,实现人工智能音乐创作的动态性。
四、结论
音乐融汇艺术与科学,因此技术支撑其在数字化时代更好地探索和发展。动态性是音乐的脉搏、情感性是音乐的本质,二者描摹着人工智能音乐人格的外在色彩。算法是人工智能的血脉、模型是人工智能的骨架,二者探索着人工智能音乐人格的内在特征。本文分别从音乐基础和人工智能技术对人工智能音乐发展展开论述,并结合二者,试验性地提出了实现音乐创作动态性在人工智能模型与算法上的需求与演化。目前的时代仍是弱人工智能时代,相信未来,当AI走向强水平,人工智能音乐情感局限将得以瓦解。
参考文献:
[1]周莉,邓阳.人工智能作曲发展的现状和趋势探究[J].艺术探索,2018,32(5):107-111.
[2]王铉,雷沁颖.人工智能对中国音乐产业链的渗透与革新[J].现代传播,2019(12):131-134.
[3] 吴兵兵.基于词向量和LSTM的汉语零指代消解研究[D].哈尔滨:哈尔滨工业大学,2016.
[4] 赵德宇.关于深度强化学习的应用研究[J].中国新通信,2019(15):227-228.
[5][美]爱德华·T·科恩,何弦,译,杨燕迪,校.作曲家的人格声音[M].上海:华东师范大学出版社,2011.
[6]林华.音乐家是如何“思维”的[M].上海:上海音乐出版社,2018.
[7]浦江.全认知情感理论——一种新的心智计算模型[J].计算机科学,2014,41(7):15-24.
[8][美]弗朗西丝·H·劳舍尔,[德]维尔弗里德·格鲁恩,南云等译.音乐教育神经科學[M].上海:上海教育出版社,2020.
[9]陈凯珊,兰文杰.音乐情绪内涵及音乐与情绪的关系探析[J].肇庆学院学报,2013(1):55-59.
[10]罗琳.音乐情绪识别诱发的因素[J].赤子,2017(27):213-214.
[11]李洪伟.音乐情感的脑电信号分析技术及神经机制研究[D].哈尔滨:哈尔滨工业大学,2018.
[12]崔佳.试论“人工智能技术”(ai)在赋格创作中的应用[J].齐鲁艺苑,2019(1):25-29.
[13]刘涛.音乐情感认知模型与交互技术研究[D].杭州:浙江大学,2006.
[14]邵桂兰,王建高.论音乐创作动机的复杂性及其多维结构[J].交响(西安音乐学院学报),2001,20(1):37-39.
[15]陈世哲.浅谈人工智能技术在音乐创作中的应用[J].音乐探索,2020(1):125-132.
[16]朱晨阳.动态色彩与音乐情感表达的互动关系[J].音乐传播,2016(4):106-108.
作者简介:陈益敏(2000-),女,汉族,浙江省杭州人,本科,温州大学商学院,研究方向为金融工程;张焜(2000-),男,汉族,山西省太原人,本科,诺丁汉大学马来西亚分校,研究方向为计算机科学与人工智能;刘聆风(2001-),女,汉族,安徽合肥人,本科,佐治亚理工学院,研究方向为数学。