基于神经网络的语音情感识别分类
2018-11-01姜芃旭傅洪亮
姜芃旭 傅洪亮
摘要:为了提高语音情感识别的准确性,提出了一种基于神经网络的语音情感识别模型,利用OpenSMLIE进行特征提取,输送进模型后进行特征变换,最后利用SoftMax进行情感分类,与传统的SVM,KNN分类器相比,识别率分别提升2.5%和3.3%。具有更好的识别效果。
关键词:神经网络;情感识别;特征提取;情感分类
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0173-02
Speech Emotion Recognition Classification Based on Neural Network
JIANG Peng-xu,FU Hong-liang
(College of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China)
Abstract: In order to improve the accuracy of speech emotion recognition, a speech emotion recognition model based on neural network was proposed. Feature extraction was performed using OpenSMLIE, and then transformed into the model for feature transformation. Finally, sentiment classification was performed using SoftMax, and traditional SVM and KNN classification. Compared with the device, the recognition rate increased by 2.5% and 3.3% respectively. Has a good recognition effect.
Key words: neural network; emotion recognition;Feature Extraction; Emotion Classification
人之所以能从对方的语言中捕捉出其情感的变化,是因为话语中有能反映出人特定情感信息的特征。语音情感识别研究的开展距今已有30余年的历史,情感不再仅仅是指人的喜怒哀乐,美国心理学家Ekman把人类的基本情绪归为6种,分别是愤怒,惊讶,恐惧,快乐,嫉妒和悲伤。这6种基本情绪可以相互结合派生出各式各样复合情绪,例如焦虑,紧张等。这一观点当时也得到了许多人的同意。再后来又加上了一种中性的情感,所以人类的基本情感目前可以分为这七大类[1]。近些年来随着人工智能领域的飞速发展,深度学习在语音识别方面的应用越来越广泛[2],对情感分类计算的愿望也越来越迫切,与情感相关的比赛和会议自21世纪以来相继被创立,其中比较著名的有:The INTERSPEECH 2009 Emotion Challenge,The INTERSPEECH 2010 Paralinguistic Challenge,The INTERSPEECH 2011 Speaker State Challenge,The INTERSPEECH 2012 Speaker Trait Challenge,The INTERSPEECH 2013 ComParE等。
一般来说语音情感识别的过程分为以下几个方面:建立情感描述模型,搭建语音数据库,语音情感特征提取,特征选择以及选择识别算法。本文通过深层神经网络(Deep Neural Network,DNN)来对语音情感进行分类识别,首先利用OpenSMLIE[3]软件对CASIA公开库进行特征提取,输送进DNN模型后对特征进行加工变换,最后利用SoftMax[4]把特征分为6类,实验表明DNN网络模型相较于其他分类模型具有更好的分类效果。
1 情感识别的分类流程
图1给出了语音情感识别分类的流程框图,包括特征提取,DNN模型,情感分类。
流程首先利用OpenSMILE软件对CASIA公开库进行特征提取,提取方法采用了2009情感挑战所使用的标准化的特征集[5],然后将特征输送进DNN模型中,最后利用SoftMax分类器对特征进行分类识别。
2 深度神经网络
深度学习目前为止已经经历了三次浪潮,第一次的控制論,然后是联结主义,但是直到2006年深度学习和深度网络被提出,神经网络才开始焕发新一轮的生命[6]。
人工神经网络初次被提出是在20世纪40年代,被称为threshold logic,它能实现一些简单的逻辑运算,早亲的人工神经网络的提出是为了模拟大脑的工作原理,它能从信息的角度对人的大脑进行抽象,从而达到模拟人脑的认知和学习的目的。
深度神经网络[7](DNN)是一个拥有一个或者一个以上隐层的传统多层感知机[8](MLP)。图2为一个4层的DNN,它拥有1个输入层,1个输出层还有2个隐层,其中隐层的每一个神经元都与输入层的每一个神经元相连接,每一个输出层的神经元都与上一层的隐层的每一个神经元相连接,是一个全连接的神经网络,即第n-1层的任意一个节点,都与第n层的所有节点相连接。
每个神经元都等于上层的所有神经元乘以对应的权重再加上对应的偏值,如图3所示。
每一个神经元的计算公式如下:
最后输出层利用SoftMax进行分类,对应为每个标签的输出概率,公式为:
3 实验结果与分析
本實验所使用的情感语料库为CASIA库,该库由中国科学院自动化研究所所录制,由两男两女在信噪比为35db的纯净环境下录音,包括6种情绪,1200句不同发音。本文对CASIA公开库中的1200条语音进行特征提取,将数据集按一定的比例分为训练集和测试集进行训练与测试,为了保证泛化性加入了Dropout函数。在Python软件上进行实验,其中SVM选用线性核,C值在0-1的范围内选取,在C=0.1时准确率最高。KNN中K值在0-30的范围内选取,当K取28时准确率最高。实验结果如表1所示。
从上表中可以看到,DNN的识别率为84.1%,较其他分类模型相比,在语音情感识别分类上有着更好的分类效果。
4 结论
本文在多类分类模型上对语音情感识别的分类效果进行了对比,验证了DNN网络模型在语音情感识别的可行性,并且在识别效果上优于KNN分类器以及SVM分类器,对神经网络在语音情感识别上的发展做出了贡献。
参考文献:
[1] 韩文静, 李海峰, 阮华斌,等. 语音情感识别研究进展综述[J]. 软件学报, 2014, 25(1):37-50.
[2] Mencattini A, Martinelli E, Ringeval F, et al. Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models[J]. IEEE Transactions on Affective Computing, 2016, PP(99):1-1.
[3] Eyben F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//ACM International Conference on Multimedia. ACM, 2010:1459-1462.
[4] Eyben F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//ACM International Conference on Multimedia. ACM, 2010:1459-1462.
[5] Schuller B, Steidl S, Batliner A. The Interspeech 2009 Emotion Challenge[C]//INTERSPEECH 2009, Conference of the International Speech Communication Association. DBLP, 2009:312-315.
[6] 段玉三. 人工神经网络文献综述[J]. 科技风, 2011(5):185-185.
[7] 谢承泮. 神经网络发展综述[J]. 科技情报开发与经济, 2006, 16(12):148-150.
[8] Pinkus A. Approximation theory of the MLP model in neural networks[C]// ACTA NUMERICA. 2008:143-195.