交互音乐设计及对音乐内容的延伸
2022-04-29冯楚然
冯楚然
[摘要]交互音乐作为前沿音乐形式在近年逐渐被更多地认识并介绍。然而因其在我国发展和研究仍处于早期阶段,这一技术尚未被完全了解和运用。相关资料、文献更多的是对于此类音乐的定义、作品分析和技术研究,交互音乐的具体创作实践报告较少。因此本文尝试以个人交互音乐作品《VoyagetotheOtherShore》在创作和制作中的实践经验,分别解释交互音乐中的概念和技术,并结合音乐表演,分析音乐内容在这一新的音乐形式中的运用。
[关键词]交互电子音乐;体感摄像头;数据驱动;Kyma;Max/MSP/Jitter
[中图分类号]J605[文献标识码]A[文章编号]1007-2233(2022)12-0202-04
一、交互音乐简介
交互音乐,“交互”一词概括了此类音乐的创作过程、传达媒介和呈现形式,强调的是对象与音乐之间的相互作用和关系。而有别于传统演奏,交互逻辑中的相互作用与影响能带来许多随机和不确定性,这一概念可被比喻为车载导航:“……驾驶员可通过GPS设备明确车辆的方位,而当其改变行车轨迹时,GPS设备又能依照现有路径重新规划路线,这样,驾驶员与GPS设备之间便形成了交互。”[1]
因交互音乐中音乐呈现形式的自由性,作者在创作中可通过特定机制的设定决定音乐中各种触发条件和反馈方式。前文中提到的“对象”,在不同类型的交互音乐中是灵活的,可以是设计交互形式的创作者,可以是操作设备的演奏者,也可以是交互装置艺术空间中的参与者和观众。下文将避免罗列编程公式和算法,从创作和演奏的角度分析交互音乐的设计思路与传达。
二、音乐创作背景
笔者硕士毕业于美国俄勒冈大学音乐与舞蹈学院跨媒体音乐技术专业,导师为著名电子音乐家杰弗瑞·斯托莱特。跨媒体音乐技术是交互音乐的载体,而研究的着重点在于交互音乐的设备。所谓跨媒体,强调的是有别于传统音乐媒体,既传统乐器和音乐控制器,如:各类MIDI输入设备;跨媒体技术注重开发各种并非为音乐目的而设计的控制装置,如笔者硕士在读期间俄勒冈大学FutureMusicOregon未来音乐实验室已经开发的:游戏手柄和控制器任天堂WiiMote、Game-trak;微软Xhox360Kinect体感摄像头;WacomTablet数位画板;LeapMotion手部动作追踪器。
另外,为达到更特定的交互与艺术表达需求,创作者也会充分发挥想象力,创造新的控制设备,并利用各类传感器(光、电、压力、红外线、湿度、加速器、陀螺仪等)丰富动作甚至是数据的“个性”,增加演奏和控制的张力和戏剧性。
俄勒冈大学该专业使用的主要声音系统为SymbolicSoundKyma(以下简称“Kyma”)和Cycling74Max/MSP/Jitter(以下简称Max)。Kyma是由软、硬件共同构成的声音及音乐设计引擎,通过软件端功能模块的链接以及数学化指令的驱动,配合硬件处理器的运算,完成音频处理,具有处理极复杂运算的能力以及高自由度,当今被广泛运用于国外交互音乐工程及影视、游戏音效设计中。Max由其名字的三个部分构成:代表数据处理的Max功能模块、音频处理的MSP模块以及视频处理的Jitter模块。Max的模块设计思路与Kyma相似,但自由度更高,三种类型的模块可以自由组合搭配。不同点在于Kyma更注重声音的处理与合成,而Max更注重数据本身的灵活,被运用在各个行业的交互设计中。在俄勒冈大学的跨媒体音乐技术专业中,Kyma常用作音乐和声音部分的设计系统,Max常用作介于控制器与Kyma之间处理数据的中间件。
Kyma(上)和Max(下)本文分析作品《VoyagetotheOtherShore》为笔者硕士毕业项目作品,设计、创作、制作时长一年,曾在2015Kyma国际声音研讨会以及俄勒冈大学FMO音乐会上表演。该作品翻译为《航行到彼岸》,俄勒冈大学位于美国西海岸尤金市,笔者生长在中国东南沿海城市深圳,两座城市相隔太平洋互为彼岸,作为留学生三年之间往返于两个彼岸,该作品主题意在表达两个地域和两种文化带给个人的文化冲击、影响以及感受。
三、技术设计、参数、系统平台
该作品在设计时希望表演具有视觉张力,需要能够做出较大动作的控制装置。笔者意图将“两个地域”的概念在演奏时通过舞台的空间区域展现出来,表演者可以在音乐中走动于不同位置之间,故排除了限定演奏位置的控制器(笔者归类为“接触式”控制),选用微软Xbox360Kinect体感摄像头。
该作品创作分为4个阶段:1.动作捕捉和数据化;2.数据整理和定义;3.数据分配、绑定;4.音乐制作、排查测试和声音输出。
第一阶段选用DelicodeNiMate作为端口接收Kinect输出的原始数据。Kinect将人体完整捕捉为15个关键点:头、脖子、躯干、左右肩、左右肘、左右手、左右腰、左右膝盖、左右脚。Kinect带有距离感应功能,因此每一个点都能以立体坐标的形式体现出位置信息,即“X-Y-Z”。
另外,每个数据都可以选择输出数据类型:MIDI、OSC[2]。与MIDI的0~127数据范围不同,OSC可自由定义,因此需要提前对每个数据所控制的音乐要素有设计,例如:右手控制某个音色的音高,选择MIDI更为合适;而左手控制另一个音色的明亮到暗淡的效果变换,更为线性的OSC数据则更合适。
第二阶段选用Max处理数据,将从NiMate接收到的数据规整化。由于NiMate的数据输出是从单一频道,因此需要在Max中重建每个身体部位的频道,并将接收到的数据定位到各个频道,保证从Max输出到下一阶段的各项数据是带有命名且独立频道的。
更重要的两点:第一,由于Kinect捕捉到的所有信息都是“隔空”完成的,包括光线在内的许多因素都会导致数据波动和不准确,因此必须在Max中通过各种算法进行处理,例如笔者用到的取平均值法(将最后收到的5个数值相加再除以5,以得到相对稳定的数据变化,每接收到一个新的数据都会替换掉5个数值中最早接收到的一个),但此方法的弊端是导致所有通过Max的信息产生5次数据接收时间的延迟;第二,需要使用的数据区间未必是接收到数据的完整区间,因此要为每个数据重新定义范围,例如某个MIDI信号可控制的旋律音域为中央C上下两个八度(48~72),不需要用到0~47和73~127两段更低和更高的区间,并且如果把整个数据范围定义给某个身体部位控制,过于高密度的数据排列,会导致实际操作难以把控,一个细微的位置变化都可能造成演奏失误,因此设计每个部位的活动范围和数据范围是必要的。
第三阶段进入音乐创作系统,选用Kyma作为平台,接收Max处理后的数据。从表演角度,传统乐器的演奏,由于观众对各个乐器的认知,特定的演奏及肢体动作都会带来指向性的情绪引导。交互表演中的所有动作完全由创作者设计和决定,这既是优势也是困难所在。每一个动作的设计,都要符合音乐的内容、走向以及想象。创作中需要找到与音乐中每个要素关联性最高的动作,并设定演奏机制,完成动作设计。
任何身体部位或数据都未必只能控制一个音乐变量,同样的,未必任何身体部位的数据都需要被用到并且设计成动作。笔者在创作中将Kyma内具有相同音乐能量的控制要素归类,如:高音、高频率、提升音量、增加某个效果密度、提速等划分为同类型。相同类型的元素变化可在某片段用同一动作驱动。当某一个或一个类型的动作在不同段落重复驱动同一种音乐能量的变化,并在一首作品时长内,让观众感受到这种趋势,且能够在再一次出现前有所预测,这个设计就是成功的。
第四阶段的音乐制作部分更偏向传统制作,将提前在Kyma完成的各个声音模块按设计排列在时间轴上,并根据实际测试效果做调整。这一过程会出现反复于第二、三、四阶段的情况,为某个效果或是动作重复调整数据范围和动作设计,又或是某一时间点同一个数据使用冲突,必须重新选择其他身体部位控制,并构思新的机制。
需要强调的是,因为交互表演中存在的自由度和随机性,交互音乐工程中的时间轴并不像传统音乐制作模式中每个声音按照准确时间点开始和结束。笔者采用的方式是为每个音乐段落结尾或开头增加“WaitUntil”模块,既当时间标尺在时间轴走到该模块位置时保持位置,直到满足预设条件后继续进行。如果实际演奏速度比设计速度慢,此操作能够保证不产生演奏失误;而解决演奏速度快于设计的方法,则是可以将时间轴上这一段落的长度大幅缩短,甚至可以设置成几秒,当时间停在WaitUntil模块后继续演奏,直到段落结束,再去触发时间继续的条件。
相同原理同样可以应用到任何一个声音模块上,笔者将多个不论出现和结束时间的所有模块长度都拉伸到整段,但为每个声音模块都设置了触发和结束的条件,此方法极大增加了演奏时对于整体音乐节奏和任意单个声音的掌控程度。
声音输出方案笔者选择传统左/右双声道输出而非许多交互音乐的8声道环绕声,原因是考虑到该作品可能在不同场所表演,8声道环境普及率低,双声道能够确保在任何演出场所都顺利进行。斯托莱特教授就曾多次在授课中提到,保证演出的稳定性比追求更好的声音效果更重要。
四、音乐创作与设计
《VoyagetotheOtherShore》的素材由3段旋律和若干场景录音片段构成。音乐主题是一个钢琴独奏版本和一个弦乐版本,另一条是钢琴主题录音的倒置。音频素材有:水龙头出水、海岸线、海浪、飞机引擎、国内家中炒菜的铁锅锅铲翻炒的碰撞声、国内公园老人拉二胡、国内下班高峰马路边、美国大学课堂中老师和同学对话、美国酒吧内朋友边看球边聊天及两段人声独白录音。下文将着重解析几个重要音乐片段与交互部分的设计。
音乐的开头将水龙头音频交由左手,海岸线和海浪音频交由右手,将录音的播放位置绑定到左右手的前后位置(Z),设置可正反向播放,因此音频不会跟随时间顺序播放和播放结束,而是跟随双手的前后位置反复,手的高低位置(Y)线性控制音频的音调。为防止手的方向变换和动作幅度变慢造成音频失真,添加了超过2秒的混响。开头段用“小”和“大”的水声,比喻生活和远航,双手前后动作的推动观感,营造水的“能量”。
NiMate软件在头部左上和右上方为演奏者增加了虚拟的“按钮”,双手“触碰”到这个位置,就会输出“0-1-0”的开关型数据,原理是手的横向与纵向位置(X、Y)同时满足大于临界值。笔者用这个虚拟按钮作为几个段落开始和音效的触发。音乐进入主体段正是使用这个按钮进入并同时触发人声独白录音。
NiMate中的实时捕捉和虚拟按键进入新的段落播放弦乐版本主题,这里笔者对弦乐音频做了颗粒化处理,即:使用Kyma的SpectralAnalysis光谱分析功能,分析音频在每个频率上的内容并可视化,选择内容密度最高的若干频段,将音频切分为一个个短时间段,同时播放设定数量的切片,以时间顺序向前行进。这里播放的数量,称为颗粒化密度,由左手(Y)控制。
此时对独白录音同样做光谱分析并颗粒化,右手(X)控制独白录音的播放位置,(Z)控制颗粒化密度。本段通过左右手对这两个音色的动态控制,体态动作可以巧妙地设计成小提琴的演奏姿势,模拟了弦乐主题的演奏,增加可视化效果。
在钢琴版本主题出现的段落,笔者为音频增加了混响,效果大小由演奏者位置决定,越靠近观众越小,越往舞台后方,混响越深越远。同时加入另一个从录音素材截取的自行车铃声,降低两个八度,音调变低音频变长,听感较为空灵。这个声音的时间轴被定义在左手(X),而音频的音头在时间轴的位置靠近身体,演奏机制为手慢慢靠近身体,当触发音头时,手横向快速向外拿开,类似竖琴拨弦动作。延音高低则由右手(Y)控制,右手(Z)控制延音的颗粒化密度和长短。
再现段之前会出现上文提到的演奏位置的变化。舞台定义为左前、左后、右前、右后四个区域,左边绑定了两个国内场景录音,右边则是美国的场景,循环播放,在空间上分别代表两个海岸,随着演奏者在舞台上位置的改变,不断改变四个音频的音量比例。演奏者在用肢体控制其他音色的同时,在舞台不同位置徘徊,逐渐回到中心,影射感受到的两种文化带来的影响。
最后再现段结束前播放的倒置钢琴主题音频设置了较长的延迟和混响,而混响时间和扩散则由右手(X-Z)共同控制,右手左右摆动延音产生类似脉冲的效果,而右手的动作则是挥手告别,寓意音乐和硕士经历的结束。
五、技术难点
该作品在创作中遇到若干因设备、软件和环境的局限性带来的技术难点,以下举例。
一,尽管NiMate显示设备的捕捉为每秒30帧,但实际刷新率会在每秒10~30帧之间波动。
二,在Max接收数据超过10个后,庞大的数据量会偶然导致程序崩溃。笔者的解决方案是在Max中为每个数据插入接收速率限制模块Speedlim并将刷新速率限制在20,可以保证Max稳定运行。
三,虽然随着使用数据的增多,演奏可以更加丰富,但笔者在测试中发现当同一时间身体控制数据超过10个后,很难完全协调身体和控制。
四,部分数据具有相似的特点,例如:手、肘、肩膀;腰、膝盖、脚。这些部位的动作属于同一肢体系统,因此相比肘和肩膀,笔者更倾向使用可以完成幅度更大和更快的动作的手部,而对数据的选择也因此十分重要。
五,Kinect所摆放的高度和角度会对所有距离数据(Z)产生极大影响,为了保证演出的稳定性笔者会携带自己的设备架,并在固定高度和角度位置做好标记。
六,环境和光线都会影响到设备对人物的识别,Kinect视野内的大型家具、小型物件和正在移动的物体都会偶然被识别成人物。因此确保演奏区域内明亮以及没有障碍物至关重要。
七,为演出设定可视化观测和提示是必要的,演奏者需要时刻监测设备捕捉数据的情况,随时准备调整,这一点适用于所有交互工程。
结语
交互音乐是一门结合感性创作和理性设计的艺术形式,相信从文中的解析中不难看出,许多设计思路都是数学化的,这要求创作者在发挥艺术想象力的同时保持严谨的分析思维。笔者文中提到的各种设计和思路都来自该作品创作阶段大量的测试和实践,并不一定适用于所有交互环境和工程设计,但也同样希望这些经验能给创作者带来启发,为音乐作品增添表现力和多样性。
伴随科技发展,新技术和设备陆续面世,交互艺术正是极其依赖计算机技术的领域。现阶段因部分技术壁垒及发展阶段处在早期,交互音乐尚未被主流音乐风格和大众所完全熟知及接纳。但笔者相信,随着国内陆续有高校开设新媒体音乐技术类的专业和课程,交互音乐的研究和创作者不断增加,新技术和新理念的不断碰撞,这一前沿音乐必会陆续融合更多的风格和领域,输出更多有趣的作品,得到长远的发展,让更多人参与到交互作品中感受由科技和技术带来的独特美感。
注释:
[1]范翎.交互式电子音乐的概念界定[J].音乐传播,2017(04):93—97.
[2]OpenSoundControl(OSC)是一種用于应用程序和硬件之间实时消息通信的数据传输规范,由MattWright和AdrianFreed开发,最初设计为一种高精度、低延迟、轻量级和灵活的通信方法,用于实时音乐表演。他们于1997年提出OSC作为“计算机、合成器和其他多媒体设备之间通信的新协议,该协议针对现代网络技术进行了优化”。
(责任编辑:韩莹莹)