APP下载

音乐情感识别研究进展

2017-03-22陈晓鸥杨德顺

复旦学报(自然科学版) 2017年2期
关键词:音频特征情感

陈晓鸥,杨德顺

(北京大学 计算机科学技术研究所,北京 100080)

随着互联网音乐的发展,对数以千万计在线音乐作品的组织和检索问题,越来越受到工业界和学术界的广泛关注.鉴于音乐表达和唤起情感的普遍共识,基于音乐情感属性来组织和检索音乐的需求是客观存在的.有研究发现,检索和描述音乐最常用的词就是情感词[1].

为了实现基于情感的音乐检索,往往需要标注音乐作品的情感.如果使用人工方式对海量音乐进行情感标注,不仅工作量巨大,而且质量无法保证.因此,研究音乐情感自动识别技术,实现音乐作品的自动情感标注就成为必然的选择.

音乐情感自动识别是指,根据音乐的音频数据和其他相关信息构建计算模型,实现音乐情感自动判别的过程.音乐情感识别技术涉及多个领域,包括音乐学、心理学、音乐声学、音频信号处理、自然语言处理和机器学习等,是一个多学科交叉的研究领域.

音乐情感自动识别研究已有十几年的历史,且研究者渐多,研究成果更新很快,及时对这些新的成果进行总结十分必要.2010年,Kim等曾对当时音乐情感识别研究的最新进展做了全面综述[2].2012年,Yang等又对基于音频的音乐情感机器识别做了详尽的总结[3].尽管经过了三、四年的发展,现在看来他们的不少判断和结论依然是正确的,例如:

1) 与其他的音乐概念识别任务相比,情感识别还处于初级阶段;

2) 音乐本身是表达情感的,但这种情感是非常主观且难以量化的.音乐情感识别是个很困难的问题,主要是因为人的情感固有的模糊性;

3) 音乐情感识别都依赖一个情感模型,但情感模型仍然是心理学研究的一个活跃课题;

4) 音乐情感并不是完全包含在音频中.单靠音频数据本身,不能完全识别音乐情感;

5) 基于音频的音乐情感识别是音乐信息检索研究者的一项长期目标.

本文拟对音乐情感识别研究的基本理论和概念进行梳理,并对近些年音乐情感识别研究的新进展进行归纳总结,同时对下一步的研究问题提出一些看法.

1 音乐情感定义和表示

音乐情感识别系统基本上都是采用机器学习的方法来建立计算模型的,图1为该类系统的一个典型结构图.本文将依照图1的逻辑展开讨论.

图1 音乐情感识别系统基本框架Fig.1 Framework of music emotion recognition systems

基于机器学习的音乐情感识别系统中,情感模型贯穿始终.这里的情感模型是指情感的区分和刻度体系.选择何种情感模型,直接关系到整个系统的识别行为.

1.1 情感的心理学界定

心理学中关于情感的定义有多种说法,普通心理学中一种比较通行的说法是“情绪和情感是人对客观事物的态度体验及相应的行为反应,它们是以个体的愿望和需要为中介的心理活动”.概括起来情感的内涵包括人的主观体验、生理唤醒和外部表现(行为反应)3个方面.就主观体验而言,情感体验可发生在多个层面,如直觉层、认知层、意识层、语言意识层等,但最成熟的情感体验应该出现在语言意识层,比如人们往往可以用语言清楚地描述自己的情感感受,如高兴、伤心、害怕、生气等.关于情感的生理唤醒是指情感所产生的生理反应,如心跳加快、血压升高、脸色发白等;所谓情感的外部表现,是指情感所产生的行为或表情,主要通过人的面部肌肉、肢体姿势和语音语调等方面的变化表现出来[4-5].

1.2 音乐情感的表达说与唤起说

从情感的定义可见,情感的主体是人.对作为客体的音乐而言,应该如何界定情感这一概念呢?就情感主体而言,所谓音乐的情感一定是指人的情感,那么是谁的情感呢?是作曲家、演奏(演唱)者的情感,还是聆听音乐的人的情感?由于对音乐情感主体的不同认定,导致学术界对音乐情感的界定一直存在两种不同的观点,即: 音乐情感的“表达说”和“唤起说”.“表达说”认为,所谓音乐的情感是指作曲家或演奏者情感体验的表达.而“唤起说”则认为,音乐的情感是聆听音乐过程中听者所经历的情感体验[6].从情感内涵的角度来理解,“表达说”倾向于认为,音乐情感是作曲家、表演者情感的外部表现,而“唤起说”倾向于认为,音乐情感是听者情感的主观体验和生理唤醒.

有超过百项的相关研究结果表明,不同人在判断音乐表达的情感时通常是一致的.也就是说,人对音乐表达的情感的判断是系统的、可靠的,因此可以以较高的精度进行预测.同样有大量的研究结果证实,表达不同情感的音乐,确实可以使人产生不同的生理反应(唤起情感).但是,听者感知到的音乐所“表达的”情感,与体验到的音乐“唤起的”情感之间是有很大差别的[7].

对基于机器学习的音乐情感识别研究来说,“表达说”和“唤起说”意味着标注在训练样本上的情感标签,代表的是词曲作家和演唱者情感的外部表现,还是听众聆听音乐后情感的主观体验和生理唤起.由于采集生理数据困难的原因,多数研究者采纳了“表达说”.Kim等在2010年的音乐情感识别综述[2]中,就明确说明聚焦在音乐“表达的”情感识别上.近年来,随着具有人体生理数据采集能力的移动和可穿戴设备的发展,对基于唤起说的音乐情感识别的研究也开始活跃起来.就应用而言,“表达说”更符合音乐检索的需求,因为表达说排除了个体差异的影响,反映的是大多数人对一首音乐作品所表达情感的一致看法,更具有客观性.“唤起说”则更接近音乐推荐的需求.

1.3 音乐情感模型

音乐情感表示是情感心理学和音乐学研究的一个课题.相关研究已有数十年的积累,尽管研究成果还值得继续研究,但已经有多种方案可供音乐情感识别研究人员来选择.从情感识别的角度看,情感空间可以用离散类别模型或连续维度模型来表示,这样,情感识别问题就分别对应到机器学习的分类问题或回归问题.

在十几年的音乐情感识别研究实践中,研究人员从不同的研究角度出发,选用了多种不同的情感模型.一般来说,情感模型分为通用模型(或日常情感模型)和领域专用模型(对于音乐来说就是音乐情感模型)两大类.每大类都包含离散类别模型和连续维度模型两种具体类型.对于音乐情感模型,还有表达模型和唤起模型之分.

在音乐情感识别中,使用比较多的是通用连续维度情感模型、音乐表达情感离散类别模型和音乐唤起情感离散类别模型这3种模型.采用通用情感模型的优点是,在研究多模态情感识别时,情感模型可作为各模态数据情感语义关联的媒介.采用音乐情感模型的优点是,描述音乐情感时更准确、更细致,与人的情感体验更一致.

1.3.1 通用连续维度模型

连续维度模型将人类情感状态表示为二维或三维连续空间中的点.维度模型的优点在于,它可以描述和刻画情感状态的细微差别,且不限于描述情感的主观体验,也可用于情感外部表现和生理唤醒的描述.缺点是与人们认知上的情感语义有很大距离.例如用二维坐标表示的情感状态与人们常说的快乐、悲伤的关系,在语义上是不直观的.在音乐情感识别研究中,被广泛采用的通用连续维度模型是环形(circomplex)模型(也称为VA模型)和PAD模型.

环形情感模型是由Russell提出的[8-9].该模型认为情感状态是分布在一个包含效价度(快乐基调程度)(valence)和激活度(arousal)的二维环形空间上的点(参见图2).其中纵轴表示激活度,横轴表示效价度,圆心代表中性的效价度和中等水平的激活度.

PAD情感模型是由Mehrabian等提出的.该模型使用P、A、D这3个数值来表示所有的情感状态[10-11].PAD模型的3个维度分别代表愉悦度(pleasure)、激活度(arousal)和优势度(dominance).其中,愉悦度表示个体情感状态的正负特性;激活度表示个体的神经生理激活水平;优势度表示个体对情景和他人的优势程度.PAD模型的优势在于,它能够很好地区分VA模型难以区分的某些情感状态,如区分愤怒和恐惧等.

1.3.2 音乐表达情感离散类别模型

出现最早、影响最为广泛的音乐表达情感的离散类别模型,当属1936年Hevner在“音乐中表达元素的实验研究”[12]一文中提出的音乐情感离散类别模型.Hevner用67个情感形容词来描述音乐表达的情感空间,并且将这67个情感形容词分成8个类别,每个类别有一个代表性的形容词: 庄严的(dignified)、悲伤的(sad)、如梦的(dreamy)、宁静的(serene)、优雅的(graceful)、快乐的(happy)、激动的(exciting)、有力的(vigorous).Hevner情感模型如图3所示.

图2 VA情感模型Fig.2 VA emotion model

图3 Hevner情感模型Fig.3 Hevner emotion model

由于Hevner情感词表是针对音乐艺术表现而建立的,因此在音乐心理学相关的研究中被广泛引用.而且,不少研究人员对Hevner情感模型进行了持续的研究和改进[13-15].

1.3.3 音乐唤起情感离散类别模型

基于“唤起说”的音乐情感离散类别模型研究的主要问题是,选择哪些词来准确描述和区分音乐唤起的情感.日内瓦情感音乐量表(the Geneva Emotional Music Scales, GEMS)被认为是第一个专门为度量音乐唤起的情感而设计的工具[16],是这方面研究的一个典型成果.

GEMS-45包含45个情感标签,这45个情感状态又被分为9大类,即: wonder、transcendence、tenderness、nostalgia、peacefulness、power、joyful activation、tension、sadness(奇妙的、超越的、温柔的、怀旧的、歌舞升平的、强大的、快活的、紧张的、悲伤的).相关实验表明,这些情感标签在描述音乐唤起的情感状态时,听众的选择具有一致性.

1.4 情感模型的应用

在音乐情感识别研究实践中,在采用离散类别模型时,往往将音乐情感表示为一个有限符号集合(每个符号有一个默认的情感语义),情感识别问题被作为分类问题来对待.当采用连续维度模型时,则可以将音乐情感表示为一个向量(每一维有默认的情感语义),每一维的值都可以是实数(表示情感的程度).情感识别问题被作为回归问题来处理.

从情感模型实际采用的情况来看,音乐情感回归的研究者大多采用VA模型或PAD模型.音乐情感分类研究者的情况比较复杂.其中一些人将不同的情感类别看成是互斥的(即一首音乐只能属于某一个情感类),有些人则认为一首音乐可以属于多个情感类.研究者采用的类别模型十分庞杂,一些模型是基于音乐心理学研究成果的,也有的不是,比如MIREX情感分类评测使用的5类模型[17].

此外还有一些研究者采用的情感模型介于类别模型和维度模型之间,可称之为“扩展的”类别模型.在这种模型中,除了若干可区分的类别外,每个类别还对应一个表示该类别程度的实数[18].还有的研究者用回归方式处理分类任务,此时都会涉及维度空间到类别空间的映射问题,如将VA空间映射为(+V+A)、(-V+A)、(-V-A)和(+V-A)的4个离散类别.

2 音乐及相关数据

音乐情感识别系统的输入是音乐及相关数据(见图1).其中,音乐数据是音乐最原始的表示,是识别音乐情感的惟一可靠依据.音乐数据的来源为各种编码格式的音乐音频文件.所谓音乐相关数据包括与音乐相关的歌词、乐谱、评论和社会标签等.音乐相关数据的来源是互联网和印刷出版物.

在音乐相关数据中,歌词和乐谱属于音乐作品的组成部分,它们包含与音乐数据相同或相关的情感倾向,大多在音乐情感的多模态识别中被用到.有音乐情感回归研究表明,歌词在愉悦度上的表现,明显优于音频数据[19].音乐评论和社会标签不属于音乐作品的组成部分,因此,这类数据仅用于音乐情感模型建模和训练集的间接情感标注[17].基于上述考虑,本文将聚焦在基于音频数据的音乐情感识别的相关研究上.

3 训练集构建与情感标注

音乐训练集的建设是开展基于机器学习的音乐情感识别技术研究的基础,主要包括两方面的工作,即训练样本的选定和情感标注.从某种角度讲,音乐情感识别的研究活动都是围绕训练集来展开的,训练集左右着音乐情感识别研究和发展的水平.在没有权威的共享数据集的情况下,很难客观、公平地比较和评价各种识别方法的优劣.

构建音乐情感识别的训练集,一般而言有如下几个方面的基本要求:

1) 音乐数量和多样性 音乐数量要多,覆盖的音乐类型要多、要典型;

2) 音乐元数据 元数据要丰富,如曲风、词曲、乐器、语种,便于综合分析;

3) 音乐情感模型 尽量采用标准的情感模型,便于学术界共享交流;

4) 音乐情感标注 标注者多且典型,有原始标注数据(可对其做相关分析);

5) 数据集的说明文档 包括数据集的相关统计信息、采用的情感模型及情感标注方法、标注者情况、情感标注执行过程及标注结果处理方法等的介绍.

训练集建设的主要困难和代价来自两个方面: 一是保证样本音乐的多样性;二是情感标注.选定具有多样性、代表性的训练样本,除了要考虑曲风、乐器、歌手等因素外,更要考虑音乐样本情感的多样性、代表性.在没有进行标注前,要满足情感多样性的要求是比较困难的.一种解决办法是,尽量采集有情感社会标签的音乐样本.在标注完成后,发现样本分布有缺陷时,可以用同样的方法补足.就情感标注而言,无论采用“表达说”,还是“唤起说”,都要经过情感模型选择、情感测量对象的选择、标注活动的组织和标注数据处理等阶段.目前常见的方法是采用专门开发的工具软件来完成整个标注过程.另外,采用众包方式进行标注也开始流行起来.

目前学术界公开的音乐情感识别训练集的情况并不乐观.很多研究工作,都是基于研究者私有的训练集.实验表明,训练集规模越大,训练出来的模型性能越好[20].下面简单介绍一下几种典型的数据集.

3.1 CAL500(Computer Audio Lab)

CAL500是一个包含500首西方流行音乐的公开数据集[18].该数据集采用了135个音乐相关的概念,涉及情感、曲风、乐器、场合和演唱特性等方面的174个语义关键词,对每首音乐进行标注.其中,情感相关的概念(关键词)有18个: angry/aggressive, arousing, bizarre/weird, calming, carefree/lighthearted, cheerful/festive, emotional/passionate, exciting/thrilling, happy, laid-back/mellow, light/playful, loving/romantic, pleasant, positive/optimistic, powerful/strong, sad, tender/soft, touching/loving.

CAL500所采用的情感模型属于离散类别模型,但18个情感概念间不是完全互斥的,且对于每个概念,其标注值是1到5之间的整数.基于CAL500,如对每个情感概念对应的值做二值化(即有或无),就可以做音乐情感分类研究;如将每个情感概念对应的值看作连续值,也可以做相应的维度情感回归研究.

3.2 MIREX 2007 AMC(Audio Mood Classification)数据集

MIREX(Music Information Retrieval Evaluation eXchange)从2007年开始组织音乐情感分类算法评测活动.这个数据集就是那时创建的,且一直沿用至今[17].MIREX 2007 AMC数据集由600首音乐组成(均为30 s的音乐片段),来自APM Music音乐库[21].数据集中的音乐被分成5个情感类,每类120首.

MIREX 2007 AMC数据集采用一种5类的类别模型来表示音乐情感,且情感类之间是互斥的.这个类别模型是通过对互联网音乐情感相关的社会标签做聚类分析而得来的[21],每个情感类用若干情感词来代表,如表1所示.由于是作为评测数据,所以该数据集没有公开.

3.3 MIREX 2013 K-POP Mood Classification数据集

从2013年开始,MIREX为音乐情感分类算法评测引入一个新的数据集,称为K-POP音乐数据集[23].该数据集有1437首韩国流行歌曲.采用的情感类别模型与MIREX 2007 AMC数据集所采用的模型相同,歌曲也是被分成互不重叠的5类(各类歌曲数不完全相同),且被标注了两次: 一次由美国人标注,另一次由韩国人标注.这样做目的有两个: 一个是检验在西方音乐集上开发的分类模型是否适于韩国流行音乐;另一个是检验分类算法预测美国人标注的标签和预测韩国人标注的标签是否一样有效.由于评测的需要,这个数据集没有公开.

3.4 MediaEval Emotion in Music任务数据集

MediaEval Emotion in Music是一个动态(连续时间)音乐情感识别算法评测[24].这个评测所使用的数据集来源于Mohammad Soleymani等的研发成果[25].评测用数据集包含约1744首音乐,均为45s的片段.每段都标有一个段级的静态VA值和一组间隔为0.5s的动态VA值.该数据集的音乐情感标注是通过众包方式(采用Amazon Mechanical Turk)完成的,每首歌至少有10个人标注.动态VA值是以连续时间方式标注的,可根据需要做欠采样(例如,每0.5s一个采样).这个数据集的曲目、音频和情感标注是完全公开的.

3.5 AMG1608数据集

AMG1608数据集[20]包含1608首当代西方音乐(均为30s片段).音乐情感标注也是采用众包方式,有665个标注者参与了标注.其中,46个标注者每人至少标注了150个片段.音乐情感模型采用VA维度模型,每个音乐片段只标注一个VA值.

这个数据集最主要的特点是: 因为有46个标注者每人至少标注了150个片段,所以这个数据集可以用来分析和研究情感识别的个性化问题.这个数据集对研究界是公开的.

4 基于音频的音乐情感识别情况

最近几年,基于音频的音乐情感识别研究主要围绕以下几个方面:

1) 特征提取 寻找语义明显或反映音乐时间结构的特征;

2) 生成式及高斯过程模型 可解释或可高效地训练和运行的情感识别模型;

3) 深度学习 通过深度神经网络建立识别模型;

4) 曲风辅助情感识别 对不同曲风的音乐采取不同的识别模型;

5) 动态音乐情感识别 识别连续时间音乐情感;

6) 音乐唤起及个性化情感识别;

7) 跨文化音乐情感识别 考虑文化因素带来的音乐情感感知差别.

下面仅就上述7个方面的研究进展情况进行介绍.

4.1 特征提取

音乐情感识别常用的音频特征是以“帧袋”(bag of frames)方式提取的.这种特征提取方法忽略了音乐的时间结构及相关语义.然而,音乐随时间呈现的变化(具体体现为旋律、和弦进行和节奏等高层语义)对音乐情感识别来说可能很重要.

Madsen等[26]为了验证时间信息对预测音乐表达的情感的重要性,提出一个验证过程: 1)将音乐变成一个特征向量时间序列;2)用生成式模型(高斯混合模型、自回归模型、向量空间模型、马尔可夫和隐马尔可夫模型)来表示该时间序列(后3种模型都基于特征向量量化结果);3)通过使用概率乘积核(probability product kernel),将生成式模型用于情感区分任务.实验表明,利用时间信息后,情感预测性能得到了提高.

长时调制特征能反映音乐的速度、旋律和节奏等高层语义.Ren等[27]认为,Lee等[28]的调制分析中的两个操作可能平滑掉有用的调制信息.所以,他们提出一种声音频率和调制频率联合的特征.用新提出的特征(Acoustic-Modulation Spectral Contrast/Valley(AMSC/AMSV)和Acoustic-Modulation Spectral Flatness/Crest Measure(AMSFM/AMSCM)),辅助以Mel-scale Frequency Cepstral Coefficients(MFCC)调制特征和短时音色统计特征,在3个情感数据集上实验,都得到比以前方法更好的结果.

低层音频特征与人理解的音乐语义相去甚远,所以不好解释,实际效果也有限.Gao等提出一种基于音乐字典对音乐的每一帧频谱做稀疏分解的方法[29],并以音乐字直方图作为音乐的特征,用于情感识别.音乐字语义明确可解释性好.作者在两个(纯音乐)数据集上验证了这种稀疏表示对情感识别的有效性.

Caetano等提出一个听觉记忆计算模型的理论框架,明确地将时间信息结合到情感识别系统中[30].他们主张,听觉记忆的组织方式将时间信息放在了联系音乐意义和音乐情感的核心位置.

4.2 生成式及高斯过程模型

4.2.1 声音情感高斯模型

多个人对同一首音乐的情感标注经常是有所不同的.因此,Wang等认为音乐情感应表示为概率分布.针对VA音乐情感标注和检索,他们提出一个音乐情感生成式模型,称为声音情感高斯(Acoustic Emotion Gaussians, AEG)模型[31].先学习一组声音隐特征类(高斯分布),然后为每个隐特征类学习一个VA高斯分布.音乐情感表示为该组VA高斯分布的加权混合,混合权重取决于该音乐在各个隐特征类上的权重.因为是生成式模型,所以其学习过程容易解释.他们在两个数据集上做了情感自动标注实验,结果表明AEG模型的效果比此前的最好方法要好.

AEG模型的一个好处就是便于针对具体用户构建个性化情感识别模型.Chen等就是采用AEG模型来为VA音乐情感识别建模,并且提出一个基于线性回归的调整方法来对一般模型进行个性化调整[32].

4.2.2 声音情感直方图混合模型

用VA概率分布来表示音乐情感时,一般的概率密度模型都有相应的假设(如文献[31]中的),但这种假设实际上不一定成立.Wang等[33]提出一个直方图密度混合(Histogram Density Mixture, HDM)模型,来预测音乐的VA概率分布.将VA空间划分为G×G格,用G×G二维直方图表示音乐情感.HDM方法先学习一组音频“主题”,然后为每个音频主题学习一个VA隐直方图.未知音乐的情感表示为这些隐直方图的线性组合.HDM方法的优点是: 不需要VA值的概率分布的任何假设,易于用EM算法实现,可扩展成实时预测连续时间情感,而且可以高效地训练模型和做预测(适合大规模数据集).

4.2.3 高斯过程方法

高斯过程(Gaussian Process, GP)方法是一种贝叶斯非参数模型,因其能捕捉高度非线性的数据关系,故其应用越来越多.与支持向量机(Support Vector Machine, SVM)方法类似,GP方法也是基于核函数,但GP方法给出的是真正概率意义上的输出,带有显式的预测不确定度取值.另外,GP方法有现成的超参数学习算法.

Markov等将GP方法用于音乐曲风分类和VA情感估计,研究其可行性和可用性[34].他们用GP和SVM做曲风分类和VA情感估计实验.研究了不同的特征(MFCC、LPC、音色特征和Chroma等)及其组合的效果.实验表明,GP方法的效果一致优于SVM方法.但是,与SVM方法相比,GP方法的计算复杂度高,所以很难直接用于大规模任务.

Chen等提出一种基于深度高斯过程(deep Gaussian process)的音乐情感识别方法[35].他们提取节奏、力度、音色、音高和音调相关的特征(共38维),以回归方式处理分类问题,为每个情感类构建一个GP回归器.

一种较好的音乐情感回归方法,是训练并聚合多个回归器.但是,训练完成之后,聚合方式就固定了,因此不能适应新输入的音乐特征.针对这个问题,Fukuyama等提出一种采用某GP回归器并对其进行自适应聚合的方法[36].GP回归器给出的方差越大,说明该回归结果的重要性(可靠性)也应较低.

4.2.4 情感类联合建模

Saari等[37]研究了语义层映射(Semantic Layer Projection, SLP)方法在音频音乐情感预测上的应用.与其他方法不同,SLP将音频特征映射到一个低维度的语义层(与一个情感类模型对应),而不是为每个情感类分别建一个识别模型.他们用两个音乐网站的众包标签及编辑标注来构造语义层,并用其中的部分数据来训练SLP.

Wang等认为现实中的音乐情感类之间有重叠(有关联),所以不应该孤立地为单个情感类建模,而应该对所有类别综合建模[38].他们提出一种“层次狄利克雷过程混合模型(Hierarchical Dirichlet Process Mixture Model, HDPMM)”,在音乐情感类之间共享一组全局分量(component),将音乐情感表示为与这些分量对应的权重系数.

4.3 深度学习方法

深度学习(deep learning)方法能从数据中学习更一般的从底层特征到高层概念的多层抽象表示,已经在分类、回归和特征提取等学习问题中取得成功,其应用已涉及图像、视频、音频[39]和自然语言等的识别和理解.

目前的音乐情感识别系统性能遇到“天花板”,根本原因在于音频信号低层特征和音乐的高层概念之间有一道难以跨越的语义“鸿沟”.将深度学习方法用于音频音乐情感识别,可能有助于跨越语义鸿沟.

针对在线(on-line)连续时间音乐情感回归,Weninger等提出一种基于循环神经网络(Recurrent Neural Network, RNN)的情感识别方法[40].他们先从帧频谱提取低层特征,然后再以1s为一段,在低层特征的轮廓上计算矩、百分位数和回归系数等一般特征(共4777个,反映音乐短时变化),作为RNN的前端输入.他们具体采用LSTM(Long Short-Term Memory)型的RNN,且是做多变量回归(同时计算愉悦度和激活度).在MediaEval 2013音乐情感数据集上,他们提出的模型的性能优于支持向量回归(Support Vector Regression, SVR)及前馈神经网络(Feedforward Neural Network,FNN),R2值达0.70(对激活度)和0.50(对愉悦度).

Li等提出一种基于DBLSTM(Deep Bidirectional Long Short-Term Memory)的音乐动态情感预测方法[41].该方法的主要特点是基于多种不同尺度的时间序列,训练多个DBLSTM,然后通过超限学习机(Extreme Learning Machine, ELM)方法将多尺度DBLSTM的结果融合成最终结果.前端输入的音乐特征都是些常用的短时特征.在MediaEval 2015音乐情感数据集上,对愉悦度回归,均方根误差(Root-Mean-Square Error, RMSE)值最好达到0.308;对激活度回归,RMSE值最好达到0.230(显著好于其他方法).

4.4 曲风辅助的情感识别

与情感识别相比,曲风识别的性能要好很多.因情感与曲风有一定关联,故利用音乐曲风信息可能有助于情感预测.

Chin等针对不同曲风分别构建情感识别模型[42].他们基于字典对音乐进行稀疏表示,并据此表示计算音乐的曲风指数(genre index).另外,针对每种曲风训练一个情感识别模型(SVM),然后根据待识别音乐的曲风指数来聚合各个模型的结果.

Saari等也对不同曲风分别建立情感预测模型[43].除音频外,他们还使用了包含情感相关信息的社会标签,并提出将具有曲风适应性的标签语义计算和音频建模结合起来.

4.5 动态音乐情感识别

音乐是一种时间的艺术.音乐情感随音乐进行而变化.所以,用一个情感值来代表一首音乐的情感显然不够具体细致.动态音乐情感识别就是要识别音乐在各个时间点的情感,即: 连续时间情感.

Yang[44]等提出一种融合多时长局部预测结果的连续条件随机场(Continuous Conditional Random Field, CCRF)回归算法.用多个基于不同时长的支持向量回归器(SVR)对每个时刻的情感做局部预测,然后通过CCRF在纵向融合每个时刻的多个局部预测结果,并在横向对情感值时间序列建模,以修正各个时刻的情感预测值.

Xianyu等通过音乐实例观察发现,一首音乐的情感有整体(区别于其他音乐的基本情感)和局部(情感变化)特性.基于此,他们提出一种双尺度支持向量回归(Double Scale SVR, DS-SVR)模型,分别对整体情感和局部情感变化进行识别[45].该方法在MediaEval 2015音乐情感数据集上,对愉悦度回归,RMSE值最好达到0.303(明显好于其他模型);对激活度回归,RMSE值最好达到0.245.

Weninger等提出的基于RNN深度学习的音乐情感识别建模方法[40],以及Li等提出的基于DBLSTM的方法[41],都是面向连续时间音乐情感预测的.而且,Weninger等的方法适合于做在线(on-line)预测.另外,Wang等[33]提出的HDM模型也适合预测连续时间情感.

4.6 音乐唤起及个性化音乐情感识别

4.6.1 音乐唤起的情感识别

Liu等试图从音乐信号中挖掘音乐唤起情感的关联因素[46],并将这一问题具体化为维数约简问题.人在标注音乐情感时,一般只能指出情感有无,而难以指出程度.为此,他们提出一种基于脑电信号(Electroencephalography,EEG)的“情感平滑”技术,利用脑电信号来补正情感程度.在降维之后的(维度很低的)特征空间上,情感类之间的关系得到更明确的展示.

Aljanaki等[47]认为,VA模型不足以表示音乐情感的多样性,尤其是对音乐唤起的情感.因此,他们采用一个专为表示音乐唤起的情感而提出的模型GEMS.尽管音乐唤起的情感还取决于音乐本身之外的其他因素,但他们只根据音乐的音频特征来预测音乐唤起的情感.

4.6.2 个性化音乐情感识别

不同的人对音乐情感的感知有所不同.要给某个用户构建个性化的情感识别模型,就需要该用户标注一些训练样本,但不能要求用户标注大量样本(工作量很大).

Chen等提出一种对一般模型做个性化调整的方法.他们采用以前提出的AEG概率框架[31]来为VA音乐情感识别建模,并且提出一个基于线性回归的调整方法来对一般模型进行个性化[32].在个性化标注数据有限的情况下,该方法更有效,而且可以利用领域知识.

Hsu等的工作也是构建个性化的情感识别模型.考虑到自我报告方式的问题,Hsu等将脑电信号(EEG)引入音乐情感研究,提出一个基于证据的个性化的音乐情感识别模型[48].基于特定用户的听歌脑电信号对一般模型做个性化调整.

4.7 跨文化音乐情感识别

一般认为,具有不同文化背景的人对音乐情感的感知是有差别的.跨文化音乐情感识别相关研究的问题包括: 不同民族和文化的人,对音乐情感感知有什么不同?音乐情感识别系统在不同文化的数据集之间的交叉泛化情况如何?

Yang等对英文歌曲和中文歌曲情感分类做了比较研究,试图回答上述问题[49].他们收集了一组中文流行歌曲,用现有的针对英文歌曲的情感类别对其做标注,并采用6种常用的音频特征,实验比较英文歌曲和中文歌曲分类性能,还测试了分类模型在英文歌曲和中文歌曲之间的交叉泛化能力.

Hu等研究了数据集大小、人工标注的可靠性、音乐的文化背景和标注者的文化背景等因素对回归模型性能及模型泛化能力的影响[50].他们基于3个数据集做了5组实验,结果表明,训练集大小和测试集标注的可靠性影响情感回归性能.当上述两个因素受控时,在两个不同的音乐集之间,当所含音乐的文化背景相同时,或情感标注者的文化背景相同时,回归模型是可较好地泛化的.

Kosta等以希腊音乐为样本,研究文化因素对人感知的音乐情感的决定作用[51].他们构建了希腊歌曲集.音乐按曲风分成两类: 受东方影响的和受西方影响的.参与者分成两组: 希腊和非希腊人.结果表明,希腊人之间情感感知的一致性高于非希腊人之间的一致性.另外,对东方曲风的音乐,两组人的情感感知有明显差别.

Singhi等以加拿大人和华人为例,研究了语言熟练程度和文化背景等不同而导致的音乐情感感知的差别[52].

5 情感识别算法的国际评测

公开的算法评测都是基于相同样本音乐数据集,对算法的性能进行客观评测和比较.目前国际上主要有两个评测活动,一个是MIREX Audio Mood Classification任务[23],另一个是MediaEval Emotion in Music任务[24].

5.1 MIREX Audio Mood Classification任务

该评测活动从2007年开始举办,评测任务数据集情况见3.2,3.3节.最近3年提交评测算法的性能见表2和表3(详细评测结果见文献[53]).

表2 算法在600首歌曲数据集上的表现

表3 算法在1437首韩国流行歌曲数据集上的表现

注: 2016年只有两个算法被提交到韩国流行歌曲数据集上参加评测.

5.2 MediaEval Emotion in Music任务

这个评测活动的评测任务是预测音乐的连续时间情感(VA值),从2013年开始举办,已举办3次(2016年未举办).向参评者提供一个算法开发用的数据集(详见本文3.4节),另提供专门的测试歌曲集(不带情感标注).

2013年到2015年的3次评测结果可参见文献[54-56](Emotion in Music任务).

6 结 语

目前,音乐情感识别研究还处于初级阶段,识别的准确率不高且似乎触及“天花板”.音乐情感识别是一个很困难的问题.首先,音乐是表达和唤起情感,但这种情感比较主观且难以精确量化.不同人之间对音乐感知和态度体验有不一致的地方;同一个人在不同处境下也有不一致.其次,样本音乐真实情感(ground truth)标注的代价很高,尤其是当样本数量较大时.样本音乐集规模小,或真实情感标注不准确,将直接制约识别模型的性能.第三,音乐要素与音乐情感之间的关系非常复杂.音乐学和心理学中虽然对音乐要素与音乐情感之间的关系有研究,但研究成果定性的居多,定量程度不够,因此对音乐情感自动识别研究的指导意义不够.第四,音乐高层特征(直接体现旋律、节奏和和声等音乐要素)提取非常困难.所以,一般只能采用底层信号特征来表示音乐.这些底层特征与人所能理解和交流的音乐高层语义相去甚远,因而其效果有限且难以解释.

良好的音频特征,对音乐情感识别算法的有效性起着非常关键的作用.目前音乐情感识别中选取特征的策略,或根据研究者的经验选择一组频域和时域特征,或运用特征选择算法在更大范围的频域和时域特征集中筛选.大量的研究成果显示,没有任何一种特征能单独使用而达到最佳效果.现有特征工程方法具有很大的盲目性和不确定性.采用现有频域和时域特征的机器学习方法,很难使音乐情感识别的性能再有太大的改善.

我们认为,将深度学习方法应用到音乐情感识别,很有可能有效地提高识别性能.深度学习是一种基于特征层次结构的、可无监督特征学习的学习方法,具有很多隐层的人工神经网络所有的优异的特征学习能力,学习而来的特征对数据有更本质的刻画.尽管我们只能标注少量样本音乐的真实情感,但数以百万计的音乐无需情感标注即可用于特征学习.目前虽已有研究者将深度学习技术用于音乐情感识别,但随着研究的不断深入,基于深度学习的方法有望给音乐情感识别研究带来新的面貌.

[1] KIM J Y, BELKIN N J. Categories of music description and search terms and phrases used by non-music experts [C]∥3rd International Society for Music Information and Retrieval Conference. Paris, France: IRCAM—Centre Pompidou, ISMIR,2002: 209-214.

[2] KIM E Y, SCHMIDT E M, MIGNECO R,etal. State of the art report: Music emotion recognition: A state of the art review [C]∥11th International Society for Music Information and Retrieval Conference.Utrecht, Netherlands: ISMIR,2010: 255-266.

[3] YANG Y H, CHEN H H. Machine recognition of music emotion: A review [J].ACMTransactionsonIntelligentSystemsandTechnology,2012,3(3): 40.

[4] 孔维民.情感心理学新论 [M].长春: 吉林人民出版社,2002.

[5] 张积家.普通心理学 [M].北京: 中国人民大学出版社,2015.

[6] 斯蒂芬·戴维斯.音乐的意义与表现 [M].宋 瑾,柯 杨译.长沙: 湖南文艺出版社,2007.

[7] JUSLIN P N, LAUKKA P. Expression, perception, and induction of musical emotions: A review and a questionnaire study of everyday listening [J].JournalofNewMusicResearch,2004,33(3): 217-238.

[8] RUSSELL J A. A circumplex model of affect [J].JournalofPersonalityandSocialPsychology,1980,39(6): 1161-1178.

[9] POSNER J, RUSSELL J A, PETERSON B S. The circumplex model of affect: An integrative approach to affective neuroscience, cognitive development, and psychopathology [J].DevelopmentandPsychopathology,2005,17(3): 715-734.

[10] MEHRABIAN A. Basic dimensions for a general psychological theory [M]. Cambridge, MA: Oelgeschlager, Gunn & Hain, Incorporated,1980: 39-53.

[11] BALES R F. Social interaction systems: Theory and measurement [M]. Piscataway, New Jersey, USA: Transaction Publishers,2001: 139-140.

[12] HEVNER K. Experimental studies of the elements of expression in music [J].AmericanJournalofPsychology,1936,48(2): 246-268.

[13] FARNSWORTH P R. A study of the Hevner adjective list [J].TheJournalofAestheticsandArtCriticism,1954,13(1): 97-103.

[14] 孙守迁,王 鑫,刘 涛,等. 音乐情感的语言值计算模型研究 [J]. 北京邮电大学学报,2006,29(s2): 41-44.

[15] SCHUBERT E. Update of the Hevner adjective checklist [J].PerceptualandMotorSkills,2003,96(3 Pt 2): 1117-1122.

[16] The Personality, Emotion and Music Laboractory. The Geneva emotional music scales [EB/OL]. http:∥www.zentnerlab.com/psychological-tests/geneva-emotional-music-scales.

[17] HU X, DOWNIE J S, LAURIER C,etal. The 2007 MIREX audio mood classification task: Lessons learned [C]∥Proceedings of the 9th International Society for Music Information Retrieval Conference. Philadelphia, USA: ISMIR,2008: 462-467.

[18] TURNBULL D, BARRINGTON L, TORRES D,etal. Semantic annotation and retrieval of music and sound effects [J].IEEETransactionsonAudio,Speech,LanguageProcess,2008,16(2): 467-476.

[19] GUAN D, CHEN X O, YANG D S. Music emotion regression based on multi-modal features [C]∥The 9th International Symposium on Computer Music Modeling and Retrieval(CMMR2012). London, UK: CMMR,2012: 70-77.

[20] CHEN Y A, YANG Y H, WANG J C,etal. The AMG1608 dataset for music emotion recognition [C]∥2015 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). South Brisbane, QLD: ICASSP,2015: 693-697.

[21] APM Music. APM collection [EB/OL]. https:∥www.apmmusic.com/.

[22] HU X, DOWNIE J S. Exploring mood metadata: Relationships with genre, artist and usage metadata [C]∥Proceedings of the 8th International Conference on Music Information Retrieval. Vienna, Austria: ISMIR,2007: 67-72.

[23] International Music Information Retrieval Systems Evaluation Laboratory(IMIRSEL). 2013: Audio K-POP Mood Classification [EB/OL]. http:∥www.music-ir.org/mirex/wiki/2013: Audio_K-POP_Mood_Classification.

[24] MediaEval Benchmarking Initiative for Multimedia Evaluation. 2015 emotion in music task [EB/OL]. http:∥www.multimediaeval.org/mediaeval2015/emotioninmusic2015/.

[25] SOLEYMANI M, CARO M N, SCHMIDT M E,etal.1000 songs for emotional analysis of music [C]∥Proceedings of the 2nd ACM international workshop on Crowdsourcing for multimedia. New York, USA: ACM,2013: 1-6.

[26] MADSEN J, JENSEN B S, LARSEN J. Modeling temporal structure in music for emotion prediction using pairwise comparisons [C]∥Proceedings of the 15th International Society for Music Information Retrieval Conference. Taipei, China Taiwan: ISMIR,2014: 319-324.

[27] REN J M, WU M J, JANG J S R. Automatic music mood classification based on timbre and modulation features [J].IEEETransactionsonAffectiveComputing,2015,6(3): 236-246.

[28] LEE C H, SHIH J L, YU K M,etal.Automatic music genre classification based on modulation spectral analysis of spectral and cepstral features [J].IEEETransactionsonMultimedia,2009,11(4): 670-682.

[29] GAO B, DELLANDRÉA E, CHEN L. Music sparse decomposition onto a MIDI dictionary of musical words and its application to music mood classification [C]∥10th International Workshop on Content-Based Multimedia Indexing. Annecy, France: CBMI,2012: 1-6.

[30] CAETANO M F, WIERING F. Theoretical framework of a computational model of auditory memory for music emotion recognition [C]∥Proceedings of the 15th International Society for Music Information Retrieval Conference. Taipei, China Taiwan: ISMIR,2014: 331-336.

[31] WANG J C, YANG H Y, WANG H M,etal. The acoustic emotion Gaussians model for emotion-based music annotation and retrieval [C]∥Proceedings of the ACM Multimedia. Nara, Japan: ACM,2012: 89-98.

[32] CHEN Y A, WANG J C, YANG Y H,etal. Linear regression-based adaptation of music emotion recognition models for personalization [C]∥2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy: ICASSP, 2014: 2149-2153.

[33] WANG J C, WANG H M, LANCKRIET G. A histogram density modeling approach to music emotion recognition [C]∥2015 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). South Brisbane, QLD: ICASSP,2015: 698-702.

[34] MARKOV K, MATSUI T. Music genre and emotion recognition using Gaussian processes [J].IEEEAccess,2014,2: 688-697.

[35] CHEN S H, LEE Y S, HSIEH W C,etal. Music emotion recognition using deep Gaussian process [C]∥2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA). Hong Kong, China: APSIPA,2015: 495-498.

[36] FUKUYAMA S, GOTO M. Music emotion recognition with adaptive aggregation of Gaussian process regressors [C]∥2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). Shanghai: ICASSP,2016: 71-75.

[37] SAARI P, EEROLA T, FAZEKAS G,etal. The role of audio and tags in music mood prediction: A Study using semantic layer projection [C]∥Proceedings of the 14th International Society for Music Information Retrieval Conference(ISMIR 2013). Curitiba, Brazil: ISMIR,2013: 201-206.

[38] WANG J C, LEE Y S, CHIN Y H,etal. Hierarchical Dirichlet process mixture model for music emotion recognition [J].IEEETransactionsonAffectiveComputing,2015,6(3): 261-271.

[39] SEIDE F, LI G, YU D. Conversational speech transcription using context-dependent deep neural networks [C]∥Proceedings of the International Conference on Spoken Language Processing. Florence, Italy: INTERSPEECH,2011: 437-440.

[40] WENINGER F, EYBEN F, SCHULLER B. On-line continuous-time music mood regression with deep recurrent neural networks [C]∥2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy: ICASSP,2014: 5412-5416.

[41] LI X X, XIANYU H S, TIAN J S,etal. A deep bidirectional long short-term memory based multi-scale approach for music dynamic emotion prediction [C]∥2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). Shanghai: ICASSP,2016: 544-548.

[42] CHIN Y H, LIN P C, TAI T C,etal. Genre based emotion annotation for music in noisy environment [C]∥2015 International Conference on Affective Computing and Intelligent Interaction(ACII). Xi’an: ACII,2015: 863-866.

[43] SAARI P, FAZEKAS G, EEROLA T,etal. Genre-adaptive semantic computing and audio-based modelling for music mood annotation [J].IEEETransactionsonAffectiveComputing,2016,7(2): 122-135.

[44] YANG W Y, CAI K, YANG D S,etal. Pyramid continuous conditional random fields: An exploration on dynamic music emotion recognition [C]∥11th International Symposium on Computer Music Multidisciplinary Research. Plymouth, UK: CMMR,2015: 1-16.

[45] XIANYU H S, LI X X, CHEN W X,etal. SVR based double-scale regression for dynamic emotion prediction in music [C]∥2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai: ICASSP,2016: 549-553.

[46] LIU Y, LIU Y, WANG C G,etal. What strikes the strings of your heart?-Multi-label dimensionality reduction for music emotion analysis via brain imaging [J].IEEETransactionsonAutonomousMentalDevelopment,2015,7(3): 176-188.

[47] ALJANAKI A, WIERING F, VELTKAMP R C. Computational modeling of induced emotion using GEMS [C]∥Proceedings of the 15th International Society for Music Information Retrieval Conference(ISMIR 2014). Taipei, China Taiwan: ISMIR,2014: 373-378.

[48] HSU J L, ZHEN Y L, LIN T C,etal. Personalized music emotion recognition using electroencephalography(EEG) [C]∥2014 IEEE International Symposium on Multimedia (ISM). Taichung, China Taiwan: ISM,2014: 277-278.

[49] YANG Y H, HU X. Cross-cultural music mood classification: A comparison on English and Chinese songs [C]∥Proceedings of the 13th International Society for Music Information Retrieval Conference, ISMIR 2012. Mosteiro de S. Bento da Vitória, Porto, Portugal: ISMIR,2012: 19-24.

[50] HU X, YANG Y H. Cross-dataset and cross-cultural music mood prediction: A case on western and Chinese pop songs [J].IEEETransactionsonAffectiveComputing,2016,PP(99): 1-14.

[51] KOSTA K, SONG Y D, FAZEKAS G,etal. A Study of cultural dependence of perceived mood in Greek music [C]∥Proceedings of the 14th International Society for Music Information Retrieval Conference(ISMIR 2013). Curitiba, Brazil: ISMIR,2013: 317-322.

[52] SINGHI A, BROWN D G. On cultural, textual and experiential aspects of music mood [C]∥Proceedings of the 15th International Society for Music Information Retrieval Conference. Taipei, China Taiwan: ISMIR,2014: 3-8.

[53] International Music Information Retrieval Systems Evaluation Laboratory (IMIRSEL). Audio music mood classification [EB/OL]. http:∥www.music-ir.org/mirex/wiki/MIREX_HOME.

[54] Sun SITE Central Europe. 2013 emotion in music [EB/OL]. http:∥ceur-ws.org/Vol-1043/.

[55] Sun SITE Central Europe. 2014 emotion in music [EB/OL]. http:∥ceur-ws.org/Vol-1263/.

[56] Sun SITE Central Europe. 2015 emotion in music [EB/OL]. http:∥ceur-ws.org/Vol-1436/.

猜你喜欢

音频特征情感
根据方程特征选解法
如何在情感中自我成长,保持独立
如何表达“特征”
情感
不忠诚的四个特征
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
诗歌与情感的断想
基于Daubechies(dbN)的飞行器音频特征提取
如何在情感中自我成长,保持独立
抓住特征巧观察