APP下载

基于深度学习的音乐情感识别

2019-05-24唐霞张晨曦李江峰

电脑知识与技术 2019年11期
关键词:卷积神经网络深度学习

唐霞 张晨曦 李江峰

摘要:随着互联网多媒体技术的发展,越来越多的音乐歌曲通过网络发布并存储在大型数字音乐数据库中。针对传统音乐情感识别模型音乐情感识别率低的问题,本文提出一种基于深度学习的音乐情感识别模型。该模型使用音乐信号特征语谱图作为音乐特征输入,使用卷积神经网络和循环神经网络相结合的方法对语谱图进行特征提取和情感分类。实验表明,相比于单独使用CNN、RNN等情感识别模型,该模型对音乐情感识别率更高,对音乐情感识别的研究具有重大意义。

关键词: 音乐情感识别; 深度学习; 语谱图; 卷积神经网络; 循环神经网络

中图分类号:TP18 文献标识码:A

文章编号:1009-3044(2019)11-0232-06

Abstract:With the development of Internet multimedia technology, more and more music songs are issued through the Internet and stored in large digital music databases. Aiming at the problem that the emotion recognition accuracy of traditional music emotion recognition model is low, this paper proposes a music emotion recognition model based on deep learning. The model uses the music signal feature spectrogram as the music feature input, and uses the combination of convolutional neural network and recurrent neural network to extract features of spectrograms and classify their emotions finally. Experiments show that compared with the emotion recognition models such as CNN and RNN, the model has higher emotion recognition accuracy for music, which is of great significance for the study of music emotion recognition.

Key words:music emotion recognition; deep learning; spectrogram; convolutional neural network; recurrent neural network

引言

随着计算机多媒体技术的不断发展进步,人类与计算机的关系日益密切,人们通过计算机网络获取大量的视频、音频和文字信息并从中得到精神上的享受,其中音乐对于人类来说至关重要。由于互联网音乐的快速发展,大量的歌曲通过网络发布并存储在大型数字音乐数据库中,而检索和描述音乐最常用的就是情感词[1],因此对海量音乐作品基于情感的组织和检索问题,越来越受到人们的关注。

为了实现基于情感的音乐检索,往往需要标注音乐作品的情感,如果使用人工方式对海量音乐进行情感标注,不仅工作量巨大,而且工作效率较低。因此,研究音乐情感识别技术,实现音乐作品的自动情感标注就成为必然的选择。音乐情感识别模型就是通过分析音乐的音频信号构建计算模型,从而实现音乐情感自动识别[2]。

在音乐情感识别模型中,音乐情感模型贯穿始终,它决定了情感分类的类别。1936年Hevner [3]提出了音乐离散类别情感模型,用67个情感形容词来描述音乐表达的情感空间,并且将这67个情感形容词分成8个类别,每个类别有一个代表性的形容词。除了音乐离散类别情感模型,还有学者提出音乐情感通过连续的空间维度来表示,这便是Russell提出的Valence-Arousal情感模型(后文简称为V-A模型)[4][5]。该模型认为情感状态是分布在一个包含Valence(效价度)和Arousal(激活度)的二维空间上的点,效价度反映情感的积极和消极程度,激活度反映情感的激烈程度。本文正是采用Russell提出的Valence-Arousal情感模型作为音乐情感模型。

传统的机器学习方法是从音乐音频信号中手动提取声学特征作为特征输入,例如手动提取出音乐信号的音调特征,节奏特征和音色特征等,但是这样带来的问题是在大样本上面表现力不足,效果不佳。除此外还有使用处理后的音乐信号特征,例如梅尔倒谱系数MFCC,但实际取得的效果也不明顯。因此在本文中特征输入采用包含了音乐音频信号所有频谱信息,没有经过任何加工过的语谱图。很显然,使用完整的音乐信号特征能更加完善的保留音乐信号的特征,为后续特征提取提供完整的特征原本。

深度学习(deep learning)能从音频数据中学习音频的底层特征与高层概念的关系。而音乐情感识别面临的巨大挑战在于音频信号的特征与音乐的情感语义之间存在着难以用物理参数描述的差异,通过深度学习进行情感识别,也许能够跨越这一差异。其中卷积神经网络(Convolutional neural network, CNN)已经在许多音乐分类任务中展现了它的优秀性能,例如,音乐标注[6][7],体裁分类[8][9]和音乐推荐[10]。

因此,本文提出基于深度学习的音乐情感识别模型采用深度学习神经网络Convolutional Recurrent neural network(CRNN),通过结合卷积神经网络(CNN)和循环神经网络(Recurrent neural network, RNN),充分利用CNN对于图像极强的综合特征提取能力和RNN对于时间序列数据时序特征的提取能力,对语谱图从综合特征和时序特征二个方面进行特征提取,从而实现音乐的情感分类。通过在公开音乐数据集上进行实验,与单独使用CNN和RNN比较,CRNN具有更好的音乐情感准确率。

1 深度学习神经网络模型

1.1 模型框架

本文基于深度学习的音乐情感识别模型是采用机器学习的方法来建立分类模型,图1所示为该模型的基本框架图。

模型设计思路为:将包含音乐信号和对应情感标签的音乐数据集分为训练集和测试集,在训练阶段,先对训练集中的音乐信号样本进行预处理,再对其进行特征的提取,之后与对应的情感标签通过分类模型进行训练。在测试阶段,对测试样本提取相同的特征,并利用训练阶段得到的分类模型,进行音乐情感的分类判别。

1.2 情感模型

本文采用Russell提出的Valence-Arousal情感模型作为音乐情感模型,情感状态是分布在一个包含Valence(效价度)和Arousal(激活度)的二维空间上的点,其中纵轴表示激活度,横轴表示效价度。总的來说就是,效价度反映了情感的积极和消极程度,Valence值越大,则情感的积极程度越高,反之则消极程度越高;激活度反映了情感的激烈程度,Arousal值越大,则情感的激烈程度越高,反之则越低。V-A情感模型如图2所示。

本文将V-A二维空间映射为(+ V + A )、(-V+A)、(-V-A)和(+V-A)的4个离散类别,再分别对应离散类别情感模型中的四种典型情感,从而获得本文的音乐情感类别,更适合实验的开展。四个类别的音乐情感的对应关系如表1中所示。

1.3 语谱图

语谱图(Spectrogram)是时序相关的傅里叶分析的显示图像,是一种可以反映音乐信号频谱随时间改变而变换的二维时频图,其横坐标表示时间,纵坐标表示频率。语谱图中显示了大量与音乐信号特性相关的信息,如共振峰、能量等频域参数随时间的变化情况,它同时具有时域波形与频谱图的特点。也就是说,语谱图本身包含了音乐信号的所有的频谱信息,没有经过任何加工,所以语谱图关于音乐的信息是无损的。这也是本文选择语谱图作为音乐信号特征输入的原因。语谱图的生成流程如图3所示。

语谱图的生成需要先进行分帧加窗、短时傅里叶变换将是时域信息转换为频域信息,进行刻度转换成振幅的分贝表示,然后将处理后的频域信息按照时序拼接形成语谱图。针对具体的音乐信号,从波形图到语谱图的生成过程如图4所示。

在本文中,考虑到人耳听觉特性,所以所选择的频率为Mel频率,由此得到的语谱图是Mel范围内的语谱图(Mel-Spectrogram)。语谱图的横坐标是时间,纵坐标是Mel频率,坐标点值为音乐信号数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。如图5所示就是本文使用的灰度化的语谱图。

1.4 深度学习神经网络模型

1.4.1 卷积神经网络模型

卷积神经网络之所以可以在音乐情感分析中进行应用,是因为音乐的特征除了时域特征,还有频域特征。可以将先将语音信号分帧,对每一帧进行傅里叶变换成频谱图,然后将频谱图在时间维度上进行连接,形成成语谱图。一张语谱图中可以包含所有的音频信息,再加上卷积神经网络对于图片超强的自动特征提取的能力,所以可以使用语谱图作为卷积神经网络的原始输入,从而将音乐信号和卷积神经网络联系在一起。

在卷积神经网络模型中,输入是音频的语谱图,经过卷积神经网络结构进行自动特征提取,在此过程中不断将特征进行降维以及特征再提取,最后将提取出来的特征向量展平,输入到全连接网络后通过Softmax回归得到输出结果。关于该网络模型的详细结构流程如图6所示。

如图6所示,在CNN音乐情感识别模型中输入的语谱图生成参数是帧长256,帧移是128,由此得到的音乐片段语谱图的大小以height*width的形式表示为96*1366,因为是由一个音乐片段生成的一张语谱图,所以输入层就表示为1@96*1366。将输入数据1@96*1366进行Batch Normalization处理后再输入到大的卷积层中,在每个大的卷积层里面,都要进行卷积、池化(子采样)、标准化,dropout等操作。进行了5层的卷积层操作后,将输入数据由1@96*1366特征提取,降维处理为256@1*1的形式。在CNNs 计算完毕后将输出进行展开为256维的向量,然后输入到一层全连接层中,得到一个4维的向量,最后将这个4维的向量输入Softmax中进行分类处理得到最后的分类结果。

1.4.2 循环神经网络模型

由于生成的语谱图具有时间序列的特征,所以可以考虑使用循环神经网络RNN提取其时序方面的特征进行分类处理。RNN音乐情感识别模型的输入是一张原始音频生成的语谱图,经过RNN网络后将最后一个step的输出连接全连接神经网络中,最后通Softmax回归得到分类结果。图7展示了RNN音乐情感识别模型的详细结构网络流程图。

如图7所示,在RNN音乐情感识别模型中输入的语谱图生成参数是帧长256,帧移是128,由此得到的音乐片段语谱图的大小以width*height的形式表示为1366*96,因为是由一个音乐片段生成的一张语谱图,所以输入层就表示为1@96*1366。对于输入数据1@96*1366先对数据进行Batch Normalization处理,然后再输入到循环神经网络中,这里采用GRU作为RNN的cell单元,在每一个cell单元中都包含dropout层,以此来防止过拟合。在经过RNN网络后将最后一个step的输出连接全连接神经网络中,得到一个4维向量,最后将这个4维的向量输入Softmax中进行分类处理得到最后的分类结果。

1.4.3 深度学习神经网络CRNN模型

为了能充分利用语谱图中的时序特征,获得更好的分类效果,我们将语谱图作为特征输入,先使用CNN对语谱图进行特征提取,在此过程中同时保留语谱图的时序特征,以此获得综合特征的时序数据特征图,再将特征图输入到RNN中,利用RNN的时序特征提取能力,对特征图针对时序特征再进行特征提取,以此获得最终的特征向量。这就是本文使用的CRNN模型。CRNN模型系统是一个以音频为原始输入,语谱图为音乐信号特征,CRNN模型进行特征训练的一个端到端的音乐情感识别模型。如图8所示为CRNN模型的结构图。

在图8中,CRNN模型以音乐信号语谱图(横轴为时间方向,纵轴为频率方向,单声道灰度表示)为输入。在CNN子结构中,利用CNN神经网络对于图像二维数据特征提取的能力,将蕴含在语谱图中频率方向的音乐情感特征提取出来并保留其时序特征,从而获得1*15*N(频率*时间*特征图数目)的特征图,这样就可以去掉频率维度,获得了形如(时间*特征图数目)的二维特征数据。在RNN子结构中,利用RNN模型提取时间序列数据时间方面特征的能力,把形如(时间*特征图数目)的二维数据输入到RNN模型进行情感分析,最后获得one-hot向量。

CRNN模型的关键在于卷积神经网络CNN的卷积和池化过程中,通过卷积核,步长,层数等参数设计,巧妙地使最后获得的特征图频率方向的维度降为1,这样既提取了频率方向的特征,又保留了一定的时序特征。

该模型综合了CNN对于图像(二维数据)极强的综合特征提取能力和RNN对于时间序列数据时间特征的提取能力,对语谱图从综合特征和时序特征二个方面进行特征提取,既考虑到语谱图作为图像角度的特征提取,又兼顾了音乐信号时间序列角度的特征提取。如图9所示为CRNN音乐情感识别模型的流程图。

如图9所示,CRNN音乐情感识别模型的流程为:将一段音乐歌曲信号进行切分,获得合适大小子音频信号然后转换为语谱图。在本文中,获得的是大小形为height*width的96*1366的语谱图,然后将每张语谱图输入到卷积神经网络CNN中。在图9中,输入层是1@96*1366的数据,表示为CNN的输入形状(shape)[batch_size, height, width, channels]就是[batch_size, 96, 1366, 1],其中batch_size为训练集中所取的批数据的大小,channels是图像的通道数,因为本文的语谱图都处理为单通道灰度图,所以channels取1。

为了数据的方便处理,本文对输入数据[batch_size, 96, 1366, 1]进行pad操作,于是获得的输入数据shape为[batch_size, 96, 1440, 1]。进行4层卷积神经网络CNN操作后(每个CNN中,卷积、池化、标准化,dropout等操作),获得shape为[batch_size, 1, 15, 128]的向量,过程中的特征图shape如图中所示。

对于shape为[batch_size, 1, 15, 128]的向量可以理解为高度为1,宽度为15,通道数为128的图像。因为高度为1,所以可以降维处理为[batch_size, 15, 128],此时,向量的shape就是理解为[batch_size, time_steps, features],把宽度15看作是RNN输入的time steps,1*128就是每个step的特征向量,这样就符合RNN的输入格式了。于是把[batch_size, 15, 128]的向量,通过GRU为cell的RNN,取最后一个step的结果,在经过一层全连接神经网络通过Softmax回归分类就可以得到分类结果了。

2 实验过程及结果

2.1 数据集

为了对以上模型进行训练和测试,我们使用MediaEval Emotion in Music任务数据集[11]。在MediaEval Emotion in Music任务数据集中,1000首歌曲片段以1到1000作为歌曲片段id保存在一个文件夹database中,在annotations文件夹中注释了每首歌曲的描述信息,以第二首歌曲为例,所使用到的描述信息如表2所示。

数据集中每个歌曲片段的时长是45s,45s的歌曲片段均采用44.1kHZ的采样频率,单通道,1000首歌曲片段的保存格式为MPEG layer 3(MP3)格式。

由于去除了重复片段,所以有744个片段被标注。在数据集的静态注释中,每段音乐的静态V-A值设置在范围1到9中。本文取平均Arousal值和平均Valence值作为整个片段的V-A值,然后采用Valence-Arousal情感模型,将V-A值映射到四类情感上,以(5,5)作为坐标原点,得到表2中的情感标签。

然而,在上述数据集中,每个音乐歌曲片段有45s的时长,不管是对人还是对分类模型而言,45s对于识别一首音乐的情感类别绰绰有余。因此,本文将45s的音乐片段分隔成若干4s左右的音乐片段,以扩充音乐数据集,同时以整个片段的情感标注作为子片段的情感标注,最终得到包含8184个音乐片段的数据集。

2.2 参数设置

本实验中CRNN模型的网络结构参数如表3和表4中所示,该网络的输入参数形式是[batch_size, height, width, channels],考虑到电脑内存情况以及模型的复杂度,batch_size取24,也就是一次输入24张大小为96*1366的语谱图,该语谱图的生成参数帧长256,帧移是128,每张图片都是单通道。对输入数据[batch_size, 96, 1366, 1]进行pad操作,于是获得的输入数据shape为[batch_size, 96, 1440, 1]。然后經过4层卷积神经网络,每层都进行卷积+标准化+ReLu激活函数,然后进行池化+dropout,卷积层的padding方式取“same”,池化层的padding方式取“valid”。经过CNN的处理获得shape为[batch_size, 1, 15, 128]的特征图向量。把shape为[batch_size, 1, 15, 128] 的特征图向量进行reshape操作,获得shape为 [batch_size, 15, 128]的向量,此时向量的shape就是理解为[batch_size, time_steps, features]。

之后将shape为 [batch_size, 15, 128]的向量输入到RNN中。输入到RNN的时候,将 1x128 作为一个time step的输入,这样共有15个time_step。内部的RNN结构设置为多层GRU-Cell,并且用dropout进行包装处理,keep_prob参数设置为0.7。在RNN多层GRU-Cell处理结束后,将最后一次time_step的输出结果形如[bacth_size, state_size]的向量输入到全连接层中,输出形如[batch_size, num_class]的特征,接着进行Softmax回归进行分类处理。

本实验中,超参数设置为CNN部分dropout为0.5,RNN部分dropout为0.3,初始学习率设置为0.001,迭代周期epoch设置为400,损失函数选择交叉熵cross entropy,优化器选择Adam优化器。

2.3 实验结果

本实验的分类结果列在表5-7中。表5是使用CNN网络(网络结构图如图6所示)的情感分类的结果,表6是使用RNN网络(网络结构图如图7所示)的情感分类的结果,表7是使用CRNN网络(网络结构图如图9所示)的情感分类的结果。为了验证模型的泛化性能,本文采用10折交叉验证,将数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行测试,每次取模型收敛后最后10组性能指标数据的算数平均值作为本次的训练的性能指标,指标使用宏平均的计算方式,重复10次获得测试数据。

通过上述实验结果可以看出,相比于单独使用CNN对语谱图进行综合特征提取和单独使用RNN对语谱图进行时序特征提取,先将语谱图通过CNN进行综合特征提取再使用RNN对保留时序特征的特征图进行时序特征提取的CRNN模型实验取得的分类效果更好。

3 结论

随着机器学習领域的不断发展,与日俱增的实际应用问题也不断被提出,其中音乐情感的识别问题依旧是具有挑战的。在本文中,我们没有使用传统的手工特征,而是使用包含了音乐信号所有频谱信息没有经过任何加工的语谱图作为特征输入,与单独使用CNN的音乐情感识别模型和单独使用RNN的音乐情感识别模型相比,先将语谱图通过CNN进行综合特征提取再使用RNN对保留时序特征的特征图进行时序特征提取的CRNN音乐情感识别模型实验取得的分类效果更好。这个比较为我们以后的研究提供了坚实的基础。在以后的研究中,我们将着力于音频和视频的多模型情感识别任务。

参考文献:

[1] Woo W,J I Park,Y lwadate. Emotion Analysis from Dance Performance Using ime-delay Neural Networks [J]. 2000,Atlantic City,NJ,United States: Duke University,Association for Intelligent Machinery,Durham,NC 27708-0291,United States.

[2] Kim Y E,Schmidt E M,Migneco R. State of the Art Report: Music Emotion Recognition: A State of the Art Review[C]. International Society for Music Information Retrieval Conference,Ismir 2010, Utrecht, Netherlands, August,DBLP,2010,255-266 .

[3] Hevner K. Experimental studies of the elements of expression in music[J]. American Journal of Psychology, 1936, 48(2): 246-268.

[4] Russell J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology,1980, 39(6): 1161-1178.

[5] Posner J, Russell J A, Peterson B S. The circumplex model of affect: An integrative approach to affective neuroscience, cognitive development and psychopathology[J]. Development and Psychopathology, 2005,17(3): 715-734.

[6] Sander Dieleman, Benjamin Schrauwen. End-to- end learning for music audio[C]. Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014:6964-6968.

[7] Keunwoo Choi, George Fazekas, Mark Sandler. Automatic tagging using deep convolutional neural net- works[C]. International Society of Music Information Retrieval Conference. ISMIR, 2016.

[8] Siddharth Sigtia, Simon Dixon. Improved music feature learning with deep neural networks[C]. 2014 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2014.

[9] Paulo Chiliguano, Gyorgy Fazekas. Hybrid music recommender using content-based and social information[C]. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016:2618-2622.

[10] Aaron Van den Oord, Sander Dieleman, Benjamin Schrauwen. Deep content based music recommendation[C]. Advances in Neural Information Processing Systems, 2013:2643–2651.

[11] MediaEval Benchmarking Initiative for Multimedia Evaluation. 2015 emotion in music task [EB/OL]. http://www.multimediaeval.org/mediaeval2015/emotioninmusic,2015.

【通联编辑:唐一东】

猜你喜欢

卷积神经网络深度学习
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望