交互音乐中基于实时机器听觉的互动策略研究

2023-12-25赵艺璇

音乐探索 2023年4期

赵艺璇

在音乐科技领域，越来越多技术的交叉使交互音乐创作有了更多的可能性。这些可能性既体现在多元化的交互音乐类型上，也体现在创新的设计理念和丰富的艺术表现力上。托德·温克勒（Todd Winkler）在《互动音乐作曲：Max 的使用技巧和理念》一书中曾描述交互音乐系统的组成部分为“人为或乐器输入—计算机聆听和分析—计算机解释—计算机创作—声音的生成和输出”①Todd Winkler, Composing Interactive Music: Techniques and Ideas Using Max （Cambridge: MIT Press, 2001）, pp.6-7.。其中，人为或乐器输入与创作理念或者人类表演紧密相关，而末尾端的输出则代表了计算机对输入的响应结果。机器听觉技术在交互音乐系统中发挥了人机之间音频信息转换和分析的功能，对于计算机响应人为输入的结果至关重要。机器听觉也称作计算机听觉，是一个基于音频信号处理和机器学习对数字化声音与音乐的内容进行理解和分析的学科②李伟、李硕：《理解数字声音——基于一般音频/环境声的计算机听觉综述》，《复旦学报（自然科学版）》2019年第3 期，第269 ～313 页。，基于实时机器听觉的互动策略需要根据人机听觉的不同特性进行针对性设计，而这些策略设计也代表和承载了作品创作的核心理念。

一、三个不同维度音频描述符的针对性

在机器听觉中，音频描述符可以对音频特征进行不同维度的描述，包括物理维度描述符、感知维度描述符和认知维度描述符。无论是哪个维度的描述符，其存在的目的都是用于描述提取的音频特征或在提取特征之后对音频内容进行进一步分析。物理维度的描述符是描述声音信号特征的基础，它可以被用于所有关于声音物理信号的领域；而感知维度描述符和认知维度描述符则是在物理维度基础上进一步进行整合和拓展的描述符，对声音的描述更接近人类对声音的感知特征。从音频描述符的用途出发，虽然所有维度的音频描述符都可以被用于描述声音源，但是由于交互音乐创作中声音源的种类较多，不同维度的描述符适用于不同的声音种类；因此，针对性地使用音频描述符更有助于对声音源进行恰当描述，这或将影响到互动策略中的映射环节。

（一）物理维度

物理维度的音频描述符是3 个维度中数量最多的，它主要关注声音频谱表面的相关信息，包括频率、振幅、频谱质心、粗糙度等声音细节参数，这些微观的细节参数更多地代表了声音音色的构成，也是最直观的可以直接从声音物理信号中提取到的特征参数。由于不使用音乐中的乐理常识进行定义，此维度描述符在使用时对无典型节奏和音高的音乐或声音更为有效，甚至一些噪音、人声、环境声作为交互声音源时也同样可以感测到其特征的微弱变化。物理维度的音频描述符对声音源的适用范围最广，没有明确的限制，任何有关声音的信号都可作为声音源进行特征提取，并且由于声音的构成成分非常复杂，对相关细节的描述十分多样。目前许多技术专家仍在探索和扩展更多的可以被用于交互音乐创作的物理维度音频描述符。例如：频谱质心（Spectral Centroid）参数，即频谱一阶矩，代表频谱的重心位置来进行映射；频谱延展度（Spectral Spread），又称为频谱二阶中心矩，是频谱质心的方差，它描述了频谱中心周围的分布情况，在使用时对声音源的关注点产生细微变化；频谱斜率（Spectral Slope）和频谱下降（Spectral Decrease）的性质相似，都是对频谱幅度减少量的计算，但是两者的算法不同，通常认为后者所代表的描述符与人类感知到的声音现象联系更密切。

另一方面，虽然物理维度的音频描述符可以描述非常丰富的声音细节，但细节参数一般不能表示一种声音现象，因此在针对带有音乐性或者情感特征的声音源时，物理维度的音频描述符不能够理解和分析作曲家的创意和构思。

（二）感知维度

相比于物理维度的音频描述符，感知维度和认知维度的描述符似乎更带有指向性，两者都提升了对声音或音乐的认知和审美。感知维度的描述符试图模仿人类对声音的感知，例如响度、噪度、音高等人类可以明显感知到的声音特征。当声音源存在明显的感知特征或者作曲家希望听众明确听辨出声音源的感知特征时，感知维度描述符的使用就是恰当的。例如在笔者的作品Still Life①作品Still Life 创作于2021 年，是为钢琴和现场电子音乐而作的交互音乐作品。中，其中一个片段存在大量强弱对比且需要强调重音的部分，笔者在此片段中使用响度这一感知特征控制效果器Flange②Flange：可视化编程语言交互软件Max 中的镶边类效果器模块。的调制速率。如图1所示，当演奏者演奏的响度强时，听众可以很明显地感知到效果器Flange 的镶边效果；当响度弱时则不能够明显感知到。使用响度特征进行效果映射可以加强“强”与“弱”的对比效果，促使听众更关注此部分的力度变化。如果物理维度提取的特征细节过于微观而导致声音源与反馈方的交互不够明确，认知维度需要听众拥有基本的乐理常识才能够理解双方的互动行为；那么感知维度的描述符是作曲家或艺术家在交互音乐创作中最常用的描述符，它虽然不能处理声音信号中非常细节的特征信息，但是可以提升实时机器听觉对音乐表情的理解，也能为听众提供较清晰的互动行为。

图1 效果器Flange 控制图示

（三）认知维度

认知维度和感知维度的音频描述符之间没有非常明显的划分界限，但认知维度会对听众的音乐素养有一定的要求。目前，认知维度的音频描述符多用于音乐人工智能领域，通常结合机器学习来模拟人类对声音的认知。

在交互音乐创作中，认知维度首先在使用方面较为复杂，往往需要通过在系统内进行多次计算和训练，不能够像其他两个维度那样使用一般的通用模块。它的使用大部分存在于作曲家或艺术家的专有系统中，对创作者的编程能力有很高的要求。例如瑞典作曲家马林·邦（Malin Bång）和英国音频技术专家杰米·布洛克（Jamie Bullock）合作的作品Sparkling Box①Sparkling Box 是一首创作于2007 年的为小型合奏组和现场电子音乐而作的交互音乐作品，其中小型合奏组由低音提琴、长号、低音单簧管、钢琴和大提琴组成。，其交互程序没有简单地使用感知维度的响度、音高等描述符，而是在此基础上添加了音频特征导数②音频特征导数指音频特征变量随时间变化的变化率，此变化率为导函数，其单调性（递增或递减）对应导数的正负，从而决定音频特征的变化趋势。的计算，使机器可以理解渐强/渐弱、音高上升/音高下降等音乐表情。这些特征描述显示了感知维度到认知维度的提升，也是更符合音乐性质的特征参数。而对于听众来说，由于机器听觉分析的是旋律、节奏、音乐情感等抽象或含有大量音乐常识的内容，因此回应方与声音源之间的关系会由于数据算法的复杂而导致呈现不够直接。其次，由于认知维度已经拥有复杂的音频内容分析和理解能力，因此系统中的机器回应更为独立且可以具有自己的个性行为。最后，认知维度的音频描述符在交互音乐创作中的应用是目前最热门并待于开发的研究方向，它平衡了人机交互的双方，展现了机器创造与人类创造的“思想”碰撞。

二、综合使用多种音频描述符的必要性

除了不同维度音频描述符的针对性使用之外，一部作品中一般含有大量音乐元素或声音方面的构思，单独使用一种音频描述符构建系统中的互动行为往往不能够完整体现创作者的创作理念。因此，多种音频描述符以及多维度音频描述符的使用在作品中是非常必要且更有效果的，这种使用方式可以用来在系统中构建一个互动行为，也可以构建不同的互动行为，还可以从整体上对演奏者的演奏进行乐谱跟踪，以此来辅助互动行为。

（一）实时数据传输的稳定性和灵敏度

在交互音乐现场，人类演奏家的实时演奏会产生持续变化的数据流信息，这些数据在实时机器听觉感测之后的系统传输过程中会存在有关稳定性和灵敏度的问题。如果声音数据的感测和传输没有得到很好的过滤和控制，则会直接导致输出的回应参数不够准确，系统整体也不够稳定。因此，我们可以在系统中使用多个特征参数共同协助和构建互动行为，这种互相牵制的方式使声音的感测数据不会在传输过程中过于灵敏或者过于死板。以意大利作曲家兰贝托·科切里尼（Lamberto Coccioli）在作品Touch①Touch 创作于2002 年，是一首为钢琴和现场电子音乐而作的交互音乐作品。中的共振模块为例。如图2 所示，以共振效果器的核心控制参数为中心频率，由从iana～②iana～：可视化编程语言交互软件Max 中的模块，用于分析和提取复杂管弦乐的频率分量。中提取的演奏者演奏声音的第一个泛音频率参数r freq1 来决定，但由于泛音频率参数会在整个钢琴声音包络③声音包络指声音的4 个阶段，即ADSR（触发、衰减、持续、释放）。的所有阶段中不断变化，因此作曲家选用另外一个参数r ap1 来控制r freq1 的输入。r ap1 是在感测到演奏者演奏声音的起音峰值后进行延迟触发的控制按钮，起音峰值在每一个声音包络中只显示一次，当系统感测到一个起音峰值，便会触发和执行中心频率的变化，而在其他阶段中产生的泛音变化参数不会影响中心频率发生变化。这样做的目的是使中心频率以演奏者演奏的每一个音符为单位进行变化，保证了每一次钢琴演奏触发的共振效果在整个声音包络内的稳定性。此外，起音峰值的变化还控制了采样开启时的淡入效果和共振效果器的品质因数Q，这两者同样也是为保证共振效果器各个参数可以随演奏者演奏稳定变化而设置的。作曲家需要的共振效果是伴随整个声音包络过程的统一效果，使用起音峰值协助控制共振效果器的中心频率、品质因数Q、采样淡入的变化，对核心控制参数的映射起到了稳定数据的作用，也更好地表达了作曲家想要的声音效果。

图2 共振效果器控制图示

（二）交互设计细节的提升

从创意设计出发，多个音频描述符的使用也可以起到提升设计细节的作用。在使用感测特征控制核心变化时，为使回应结果更富有创意和表现力，许多作曲家不是将感测到的数据提取后直接进行映射，而是通过采用其他与演奏者关联的音频特征来增添互动过程中的细节。这些细节可能会改变回应内容的结构和表现方式，甚至为回应内容提供更多的不确定性。例如笔者的交互音乐作品Still Life中关于泛音提取再触发的模块（图3），在这个模块中，笔者希望可以从演奏者的演奏中提取到部分泛音频率参数，然后随机映射至正弦波采样并出现在演奏时的背景效果中。随机效果是由声音源中的基频频率来设置的，这是由于analyzer～①analyzer～：可视化编程语言交互软件Max 中的模块，基于FFT 原理，可分析感知层面的音高、响度、亮度等音频特征参数。中提取的基频频率参数为相对瞬时的变化参数，而提取的泛音序列是持续变化的参数，因此基频频率的变化既可以进行随机触发，也可以关闭映射效果。具体的触发过程首先以基频的变化与否来控制随机触发的总开关，其次根据变化次数对提取到的第1 ～ 7 个泛音频率参数进行随机触发，最后映射至正弦波采样。此设计细节是提取泛音频率映射至正弦波采样之间增加的步骤，与演奏者演奏的声音相联系，依旧由演奏者控制。

图3 背景泛音效果控制图示

（三）声音源的定位与分析

多种音频描述符的使用可以对声音源进行定位与分析，最典型的是在乐谱追踪（Score Following）中的使用。乐谱追踪通过使用机器听觉技术，综合音高、时值等音频特征参数分析音乐并自动跟踪提前预设的乐谱，其研究领域涉及音乐、人工智能、模式识别、信号处理等多个学科，该技术不属于交互音乐创作的研究范畴，但其应用可以辅助交互音乐创作，并成为现场电子音乐的组成部分。

在一部真实乐器参与的交互音乐中，传统乐谱是作曲家表达音乐的重要工具，它建立在以音乐节拍为单位的时间基础上。人类演奏家在演奏乐谱时由于自然的音乐表情表达，会使所谓的音乐节拍产生一定的物理时间偏差，而计算机程序的运作、触发和响应均遵循准确的物理时间。因此，如果想要在一首作品的完整表演中实现人类演奏家演奏和计算机响应的基本同步，首先需要在时间方面进行统一规范，即计算机根据机器听觉识别人类演奏并自动对乐谱进行校准。其次，由于人机互动可能存在多种处于不同时间点开启的互动模块，在表演过程中需要对其进行手动切换，而切换时可能会导致表演中断或造成时间错位；因此对声音源进行定位之后，在指定的乐谱时间点自动执行互动行为对辅助交互音乐创作和表演同样具有重要意义。

以Antescofo 为例。Antescofo 是2007 年由法国工程师阿西亚·孔特（Arshia Cont）与德国作曲家马可·斯特罗帕（Marco Stroppa）在IRCAM①IRCAM（the Institute for Research and Coordination in Acoustics/Music），1977 年由皮埃尔·布列兹（Pierre Boulez）创立，是世界上最大的致力于音乐创作和科学研究的公共研究中心之一。合作开发的程序，它最初的开发目的是用来帮助同步现场电子音乐中的人类演奏家和电子设备，后来通过拓展也可被用于多种复杂的交互音乐场景中。为解决实时交互中人类演奏家的乐谱语言和计算机的编程语言之间存在的表达障碍， Antescofo 为其提供了一套通用表达，它将乐谱与编程语言相结合，使用统一的语言进行乐谱追踪和互动执行，不仅可以实现一些复杂的互动方案设计，还可以容忍一些人类演奏的错误和自然的时间偏差。Antescofo 的乐谱由两部分组成：事件（event）和动作（action），事件代表传统乐谱部分，动作代表机器响应，事件由通过实时机器听觉获得的音符的音高和时值构成，可具体标注为：音符（note）、和弦（chord）、颤音（trill）及复合事件（multi）。图4 是皮埃尔·布列兹（Pierre Boulez）作品Anthèmes II的一个片段，其中第38 行NOTE 8100 0 表示这个音符音高的MIDI 音分值为8100，时值为0 拍，可判断为装饰音；第39 行是计算机识别到第38 行音符后执行的响应行为，具体表示为在识别到第38 行音符后立刻开启和声生成器②和声生成器：一种音调移位器，可以在原有音高的基础上叠加两个或多个音调移位后的音高，例如叠加三度、五度、七度等，由此产生和声效果。，同时控制输出音量将其提升至-6dB。计算机追踪到乐谱第47 行的音符时会执行第49 ～84 行之间的一系列复杂的机器回应行为，包括移频器的开启、延迟效果的开启、和声生成器的关闭以及伴随各效果变化的声音空间化设计等等。Antescofo 的乐谱优势在于可以将所有有关音符、采样、效果器、声学空间参数等可以被编码的行为综合在一个电子文档中，此电子文档可以在Max/MSP 中作为一个对象（object）被读取，然后通过其内部的编程语言自动控制与之连接的效果器或音响模块，使人类演奏家通过演奏自动控制所有互动行为，无需手动操作任何模块。

图4 重制版Anthèmes II 片段

虽然声音源的定位与分析不能为创作服务，但使用统一语言将乐谱和计算机联系起来为交互音乐表演现场提供了更智能的互动模式。它不仅可以更好地在现场实时同步人类演奏家演奏和计算机响应，还可以为作曲家的乐谱创作和互动行为创作提供统一的规范语言。

三、人机音乐内容表达的关联性

我们通常被交互音乐中人机交互的新颖表演方式所吸引，无论是真实乐器的增强、新型数字乐器的发明，还是传感器和控制器的设计。近年来，交互音乐在表演形式方面已经得到了广泛发展，相较于将人机互动置于数字信号控制层面进行研究，如何使人与机器的互动产生音乐内容表达层面的抽象连接，是众多作曲家和艺术家在交互音乐创作中重视和探索的另一个方向。

交互音乐系统虽然可以收集和分析人类演奏家演奏的声音内容，但一般情况下的人机互动都以人为主导来进行，机器作为与人交互的另一方很难真正成为与人类同等的伙伴。这是由于交互音乐中的机器一方普遍缺乏基础的人工智能能力，无法真正理解音乐情感，对于接收到的音乐内容缺少创造性反馈。虽然目前在探索机器智能程度的过程中仍然有大量棘手的问题存在，但已有一些研究成果显现出了此研究方向的潜力和价值，而机器听觉技术在整个研究过程中占据了重要地位。笔者认为利用机器听觉生成的创造性反馈可以从音乐本质上推动作品内容的发展，对作品创作理念的传递和表达有着重要意义，是人机音乐内容表达关联性的主要体现。下面笔者将从不同方面分别阐述机器创造性反馈在人机音乐内容表达关联性方面的作用和影响。

（一）机器创造性反馈对音乐内容表达的促进

人与人在表演或创作中的互动充分强调“交流”的重要性。无论是带有固定乐谱的表演，还是无固定乐谱的即兴演奏或创作，人与人之间需要通过传递和交换彼此的想法来达到互相理解，共同促进作品内容的发展。这种想法可能是乐谱中的音乐表情，也可能是音乐动机、音乐概念等。无论如何，音乐交流是一种抽象意义上的对话，交互音乐中的人机互动同样如此。我们通常在人机互动中强调和放大人对机器的控制和作用，事实上，机器对人的影响也至关重要，这种影响不能仅仅停留在欣赏或者接受层面，有创造性内容的机器反馈可以为人带来更多音乐本质上的思考，激发人类的音乐表达欲望，更能加深人机交流的层次。

彼得·贝尔斯（Peter Beyls）1988 年在ICMC①ICMC（International Computer Music Conference）：国际计算机音乐会议是每年一次的为计算机音乐研究人员和作曲家举办的年度国际会议，由国际计算机音乐协会（ICMA）举办。会议上提出的 Oscar②Peter Beyls, “Introducing Oscar,”in Proc. Int.Computer Music Conference 1988, pp.219-230.系统是第一个尝试使用“虚拟音乐家”称号的交互音乐系统。他在会议上对Oscar 系统的阐述和定位对之后交互音乐系统中人机关系的研究和发展有非常关键的作用。彼得设计Oscar 的目标是希望它可以像人类演奏家一样独立在表演中发挥作用，在表演和创作中与人类互动和交换音乐思想，共同创造和表演出最终的音乐作品。Oscar 被称为现场表演者的伙伴，可以倾听演奏家的表演，并以连贯的音乐表达作出反应。在具体技术方面，Oscar 通过使用机器听觉技术对音频和萨克斯键位数据进行音高追踪，经过一系列的运算之后输出MIDI 信号进行反馈，其中音高内容是主要的互动主题。彼得将人机互动关系等同于人人互动关系，把人与人互动时的心理状态映射至Oscar 上，对其进行了拟人化描述。他表示Oscar 对当前的音乐状态有自己的观点，主要体现在两个方面：它当前的自身状态和它对人类音乐家的感受方面。图5 可以展现这种二维关系，横向表示的是Oscar 对人类演奏家演奏内容的感受程度，这种程度是一种惯性改变，需要一定的时间来识别；纵向表示的是Oscar 的自身状态，取决于人类演奏家对它的刺激程度。具体表现为，如果人类演奏家长时间保持沉默或长时间演奏相同的无变化的音乐内容，那么Oscar 会感到无聊；相反，如果人类演奏家演奏的音乐内容持续变化，则Oscar 会处于持续或过度被刺激的状态，此时它会对人类演奏家呈现出复杂且热烈的回应。

图5 Oscar 状态表现图

彼得对Oscar“心理状态”的描述借鉴了人类在互动过程中的心理状态，在他的引导下，Oscar 更适合处理抽象事件而并非直观的数字信息。人类有着非常神奇和复杂的独立思考能力，可以通过感知声音中的复杂结构推断出其背后的意义。对于机器来说，我们需要赋予它一种推断机制，使它经过底层数据的复杂计算之后可以逐渐进化至对高层语义信息的理解。Oscar 对外界刺激实时调整自身的状态，同时人类本能地也会因为受到机器回应的刺激而改变自身的状态和反应。这种情况下的人机互动不再倾向于人影响机器，而是更加注重互相影响，音乐的发展也将由人机双方回应的内容来共同推动。无论是固定乐谱还是开放乐谱，人机之间通过同等的互相激励，音乐中的表情和内容都会进一步朝开放和创新的方向发展，相较于以人为完全中心的交互机制，此类交互音乐系统除了承担呈现触发结果的作用之外，通过加深机器反馈内容的深度，将和人类共同引导音乐内容的表达和发展。

（二）机器创造性反馈对艺术表现力的提升

交互音乐中的机器反馈必须是实时的，并且带有不确定性和自发性的特点，其中实时的程度取决于音频信息处理的手段和技术，而不确定性和自发性普遍来源于作曲家或艺术家的精心设计。在交互音乐范畴里，人机交互中的不确定性程度和智能程度也存在较大的差异。机器的创造性反馈是作品不确定性和自发性的高级体现，它表明机器拥有一定程度的独立思考能力，对人类表演作出的反馈有可能在人类的预料之外。这种创造性反馈增加了现场表演的趣味性，加深了人机互动在作品内容方面的深度，从整体上提升了作品内容的艺术表现力。

以英国作曲家尼克·柯林斯（Nick Collins）的作品为例，Free Jazz Simulation①Free Jazz Simulation 创作于2005 年，是一首由1 名人类吉他演奏家和4 名计算机演奏家组成的爵士乐合奏。]模拟了人类爵士乐合奏的演奏模式，其中计算机演奏家被称为“自动代理”（Autonomous Agent），见图6。整首作品基于多个音频信号和检测器组成了一个网络拓扑结构②拓扑结构是引用拓扑学中研究与大小、形状无关的点、线关系的方法。。在这个完全互联的结构中，乐队成员彼此之间互相监听，任何成员的音频输出都有可能触发其余成员进行反馈。作品从人类演奏家的主题开始，人类演奏家和4 位自动代理通过互相监听和反馈形成作品的表演，其中自动代理的反馈行为受到频谱斜率、反应时间和独立程度等参数控制。由于这些参数会在演奏过程中发生变化，因此网络拓扑结构也是一个动态结构。此外，由于作品采用了多位自动代理同时工作，人类演奏家不得不在同一时间适应多位自动代理的反馈结果。

图6 Free Jazz Simulation 演奏成员网络图

作品艺术表现力基于人机交互的形式和内容，精心的系统设计不仅用来制造现场表演，也是作曲家或艺术家创作理念的体现。Free Jazz Simulation采用4 位自动代理在现场与人进行互动，除了展现人机交互形式之外，也着重体现出了机机之间的交互。在作品创意中加入计算机演奏的作品还有很多，艺术家也在积极探索着除了单一人机交互形式之外的复杂互动模式。另一方面，利用机器听觉生成的机器创造性反馈赋予了作品不可复制的特点，展现了机器与人类演奏家的“思想”碰撞，通过为机器建构人工神经网络模型，加深机器对音乐内容的理解。无论是从表面上提高作品内容的不确定性，还是从实质内容上增强反馈内容的创造性，都有助于提升作品的艺术表现力和现场表现力。

（三）机器创造性反馈对创作和表演的挑战

人类对音乐的诠释除了对乐谱的基本认识之外，还会受到自身音乐经验或社会经验的影响。在固定乐谱的演奏中，不同的人类演奏家会使用不同的音乐表情来阐述个人对乐谱的理解，而无固定乐谱的即兴演奏与创作则更开放，几乎完全取决于人类音乐家的音乐经验和文化背景，不同的人类音乐家会呈现出完全不同的作品表演和创作。由于机器本身没有创作和表演基础，因此依附于训练它的人类音乐家或者与它一同表演的人类演奏家上。机器的音乐经验同样完全依靠人类的经验，它通过在人类建立的运行规则上积累经验而逐渐拥有一定程度的创造“思维”，甚至成为可以独立思考的个体。对于一个拥有机器创造性反馈的通用系统来说，我们通常会面临一个难题，那就是机器可能无法拥有足够的音乐经验数据，这也是音乐人工智能的评估成为近些年不可忽视的问题的原因。但针对于本文探讨的艺术化创作与表演，笔者认为此问题可能是一把双刃剑，虽然系统所属的音乐背景受限，反馈内容有可能在风格或概念等方面存在争议，但这同时也成就了机器独一无二的反馈机制。带有不确定性和自发性特点的机器创造性反馈体现了艺术家独有的审美和创作理念，无论是利用机器听觉中物理和感知维度进行简单创造，还是利用认知维度通过机器学习进行复杂创造，机器创造性反馈会非常明显地呈现出创作者的个人色彩。笔者认为一部艺术作品需要体现独特性而并非普及性，在有限背景内的创造性反馈不一定得到所有人的理解，但可以为创作者本人或其他感兴趣者提供创作和表演上的灵感和思路。

机器创造性反馈对基于艺术化的创作和表演面临以下两个方面的挑战：第一，人类的思维构造极其复杂，虽然机器产生创造性反馈的机制是对人类大脑结构的模拟，但毕竟不能够完全等同于人类，因此在运行过程中可能会出现误差或者不能够完全准确地检测到信息。在这一方面我们可以参考史蒂夫·赖希（Steve Reich）的“移相”（phasing）类作品。赖希在此类作品中通常使用两条相同的音乐旋律，它们开始时是同步的，但在演奏过程中有时会使用轻微偏离而使两者不完全重合，有时也会再重新回归同步演奏。赖希的移相类作品展示了一种新的创作途径，也影响了后来的很多作曲家。我们可以通过赖希得到一些启示：小范围地偏离阙值而造成的误差可能并不是一件坏事，误差可能会激发人类的联想，刺激表演者和创作者展开新的思路，这与拥有经验丰富的人类之间的沟通是完全不同的，我们必须承认机器误差可能会存在潜在的“创造力”。第二，无论是机器创造性反馈中的音乐内容受限还是系统运行过程中存在的误差或不确定因素，对于创作者和现场表演者来说都存在挑战。首先，在训练系统或者与人类演奏家进行彩排时，创作者需要不断地对机器产生的创造性反馈进行思考，较浅层次的创造性反馈对参数进行手动调整即可，而较深层次的创造性反馈则需对系统的整体运行机制进行复杂的调整和完善。其次，机器在产生创造性反馈的同时也要求人类演奏家不断适应机器演奏中出现的变化，因此在表演时要求人类演奏家有一定的应对能力和预判能力。

机器的创造性反馈反映了系统内部结构的运行机制，不同的运行机制产生的反馈结果不同，这也是长期以来众多作曲家和研究者不断提出新的交互音乐系统的原因。虽然对人类抽象思维规律的探索困难重重，但在将其映射至机器运行机制的过程中我们也渐渐发现，带有抽象模式思考的系统机制可以为音乐家带来全新的创作体验和表演体验，加深人机之间的“思想交流”，增强人机在音乐内容表达的关联性。

结语

基于实时机器听觉的交互音乐创作离不开人与机器之间的“理解”和“沟通”，当作曲家和艺术家们构造其核心的“互动”行为时，不可避免地需要考虑多种不同因素。如果我们从概念上界定或理解互动行为，需要考量它的美学价值、存在意义和艺术表现力等；而如果我们从实践层面考虑，则需要在系统中设计它“互动”的环节。构造一个互动行为往往需要经过多个环节才能实现，其中每个环节之间都是环环相扣、互相影响的，因此，“互动”是一个需要多方面考虑才能被有意义呈现出来的行为。

对于创作交互音乐的作曲家或艺术家来说，创作思维需同时建立在对互动的理解和对科学技术的运用上，两者是不可分割的，在不断拓展和提升创作理念的同时也应积极探索科学技术的创新和应用，唯有两个方面的配合才能共同推动交互音乐的发展。