APP下载

基于KPCA和模糊核Fisher判别的语音情感识别*

2013-11-02邢玉娟李恒杰胡建军王万军

关键词:特征向量识别率语音

邢玉娟,李恒杰,胡建军,王万军

(甘肃联合大学电子与信息工程学院,甘肃兰州730000)

语音情感识别[1]就是根据说话人的语音特征识别出说话人的情感状态(如愤怒、喜悦、惊讶、悲伤、害怕、厌恶等),包含语音情感特征参数的提取以及情感状态的判定,在信号处理和人工智能领域有着重要的研究意义。

在语音情感识别中,为了获得理想的识别率,主要提取基音频率、短时能量、共振峰、MFCC参数以及它们的派生参数作为语音的情感特征。特征向量的维数很高,并且高维特征向量往往也存在着一些对情感分类贡献小,甚至没有贡献的特征[2]。采用这样的高维特征向量进行情感识别,势必会产生识别率低和实时性差的问题。近几年来,基于核函数的机器学习方法如支持向量机法、核Fisher判别技术等以其出色的分类性能成为模式识别领域的研究热点。核Fisher判别(Kernel Fisher Discriminant,KFD)技术在分类时采用了所有的训练样本,而不是少量的称之为“支持向量”的样本,因此KFD的识别率在某种程度上优于支持向量机[3]。然而KFD的求解难度随着样本数目的增加急剧提高,同时在KFD的计算中并没有考虑到样本对所属类别的相对重要性或对所属类别贡献的大小问题,并且语音特征向量中存在噪声点和野值向量,导致KFD训练速度慢且识别率不高。因此此处提出一种基于核主成分空间的(Kernel Principle Component Space,KPCS)模糊核Fisher判别(Fuzzy Kernel Fisher Discriminant,FKFD)语音情感识别方法。采用核主成分分析(Kernel Principle Component Analysis,KPCA)和模糊C均值聚类(Fuzzy C-means Clustering,FCM)对特征向量进行降维去噪、聚类的同时,对不同的样本赋予不同的惩罚权系数,得到样本的隶属度,使得不同样本对Fisher目标函数的贡献不同,进而提高FKFD判别的准确率。

1 基于KPCA核主成分空间的模糊核Fisher判别在语音情感识别中的应用

此处提出的语音情感识别方法的系统框图如图1所示。

图1 语音情感识别系统框图

1.1 KPCA 降维去噪

KPCA的核心思想是通过核函数技巧,将原始数据映射到高维特征空间,然后在高维特征空间中利用主成分分析法(Principle Component Analysis,PCA)求出最佳投影方向,从而获得非线性特征[4]。

假设情感语音样本为{x1,x2,…,xN},xi∈Rm,通过非线性映射Φ:x∈Rm→z∈Rh将样本映射到高维空间H。在该空间样本的协方差矩阵可以表示为:

其中<x,v>代表x与v的点积。公式(2)意味着λ≠0所对应的v都一定在)中,因此,存在系数αi(i=1,…,n)可以满足:

将式(4)得到的特征值由大到小排序,λ1≥λ2≥…≥λn,其对应的特征向量为 μ1,μ2,…,μn。语音特征向量经过KPCA变换之后,选择前q个特征分量构成核主成分空间:,…,N。

1.2 模糊C均值聚类

在核主成分空间P(s)中,对KPCA降维去噪后得到的约简特征向量集,采用模糊C均值聚类计算向量的隶属度。假设约简数据集,其中xi∈Rq,FCM聚类主要是最小化目标函数:

其中n是训练样本的数目,c表示指定的聚类数目。X={x1,x2,…,xn}和M={m1,m2,…,mc}分别表示训练样本集和聚类中心。模糊矩阵U=(uj(xi))c×n由每一个训练样本xi对于聚类mj的模糊隶属度组成。同时,b>1用于控制分类结果模糊量的指数权重。是样本xi到聚类中心 mj的欧几里得距离。根据定义,每个样本xi满足条件:

在此条件下,最小化目标函数。这是一种受限优化问题,通过拉格朗日乘子法将其转换为一个非受限优化问题。

FCM算法的具体步骤如下:

Step1:确定聚类的数目c,b=2,给定非负的收敛误差ε,同时设定t=0用于记录聚类中心。

Step4:如果‖Ut-Ut-1‖<ε停止聚类,否则转到step3。

1.3 KFKD 最终判别

由于核主成分空间已经是高维线性空间,因此在该空间KFD的核函数映射计算可以省略,直接采用线性判别(Linear Discriminant Analysis,LDA)算法进行最终分类识别。LDA核心问题是样本隶属度的确定以及如何在目标函数中引入隶属度。在目标函数中起决定作用的是类间离散度矩阵Sb和类内离散度矩阵Sw。因此,提出在用FCM得到的模糊隶属度矩阵U=(uij)C×N和聚类中心矩阵M=[m1,m2,…,mC]对Sb和Sw进行重新定义[5]。

类内离散度矩阵和类间离散度矩阵可重新定义为:

其中p是控制模糊量的指数权重,mi是第i类样本的聚类中心,¯m是样本的整体均值向量。将重新定义的FSb和FSw代入Fisher目标函数式可得:

重新计算输入样本的最优投影方向w=Sw(m1-m2),最后使用分类判别函数式(12)即可得出识别结果。

综上所述,FKFD判别算法描述如下:

Step 1:在KPCA的核主成分空间进行模糊C-均值聚类,得到模糊隶属度矩阵U=(uij)C×N和类中心矩阵 M=[m1,m2,…,mC]。

Step 2:根据模糊隶属度矩阵U和类中心矩阵M重新计算LDA中的类内离散度矩阵Sw和类间离散度矩阵Sb。

Step 3:将FSb和FSw代入目标函数计算样本的最优投影方向。

Step 4:根据最优投影方向采用判别函数得出识别结果。

在语音情感识别中,很明显识别模型是一个多元分类器,在此参照支持向量机构造多类分类器的方法,设计了一个二叉树FKFD多元分类器,其结构如图2所示。

图2 二叉树FKFD多元分类器

2 实验结果及分析

2.1 实验环境及语音情感数据库

仿真实验平台为PC2.6G/1G,Windows XP2003操作系统/Matlab7.0,结合语音工具箱 Voicebox以及SVM Toolbox 1.0验证语音情感识别的性能。核函数采用分类性能较好的RBF核函数(σ=1.3)。采用自己录制的语音数据,录音软件采用Cool Edit pro 2.0,录音时采用单声道、11.025 kHz采样频率、16位采样精度,录制语音保存为PCM编码的wav格式。录制26位说话人的6种情感状态语音:愤怒、喜悦、惊讶、悲伤、害怕、厌恶。其中男性13名,女性13名,每人每种情感录制10条语句,其中5句用于训练,剩余5句用于测试。利用Cool Edit中的降噪器工具,清除各种背景杂音。

2.2 情感特征提取

对语音库中每条语句进行端点检测、预加重,以帧长30 ms、帧移15 ms为语音信号加汉明窗,窗长N=200。提取基音频率、第一共振峰、短时能量、MFCC(Mel-frequency Cepstral Coefficients)4类基本情感声学特征及其派生特征参数作为语音情感特征向量。在仿真实验中,逐帧计算语音的基音频率、第一共振峰和短时能量的最大值、最小值、均值、范围、标准差、斜度、峰度、曲线抖动均值以及曲线抖动范围,各9维共27维特征向量。逐帧提取前13维MFCC参数。通过语音情感参数的提取,每位说话人的每条语句共可提取40维的特征向量。全部特征参数数据归一化到[0,1]。

图3所示为语音库中一名男性语音“你可真伟大呀!”的喜悦和悲伤两种情感语音的短时能量和基音周期,其中基音周期采用短时自相关函数法检测。

图3 喜悦和悲伤两种情感语音短时能量和基音周期

2.3 实验结果

实验1 识别性能实验。在实验中,此处提出的方法和传统的支持向量机法、核Fisher判别法进行比较分析,实验结果如表1所示。

表1 情感识别率 %

由表1可知,在3种方法中,此处提出的方法在愤怒和惊讶状态识别率都有显著的提高。在愤怒状态,KPCA+FKFD方法比SVM提高了7.81%,比KFD方法提高了4.62%;在惊讶状态,KPCA+FKFD方法比SVM提高了6.99%,比KFD方法提高了4.7%。而3种方法的悲伤、害怕和厌恶的识别率都普遍不高,主要是由于这3种情感在发音时,许多生理特征相似,较易混淆。

实验2 抗噪实验。为了测试提出方法的抗噪性能,采用Matlab7.0对测试语音进行加噪处理,产生带白噪声的语音测试库[6]。选择的信噪比分别为:40 dB、35 dB、30 dB、25 dB、20 dB、15 dB、10 dB、5 dB。实验结果如表2所示。为了更好地描述不同信噪比下识别算法的情感平均正确识别率的变化趋势,绘制了情感平均识别率曲线图,如图4所示。

表2 不同信噪比下的情感平均正确识别率 %

图4 不同信噪比下情感平均识别率曲线图

由表2和图4可知,在不同的信噪比实验中,随着信噪比的降低(噪声的增加),SVM和KFD分类器的情感平均正确识别率下降较快,而此处提出的方法(KPCA+FKFD)下降较慢,而且平均正确识别率均高于其他方法。即使当信噪比降低到5 dB时,此时语音信号中的噪声强度已经非常高,KPCA+FKFD的情感平均正确识别率也达到了48.17%,而其他两种的情感平均正确识别率降至20%左右。因此,在上述3种情感识别方法中,KPCA+FKFD具有最好的抗噪声性能。主要原因是KPCA在对语音数据降维的同时,也去除了语音向量中的冗余信息,这些冗余信息主要是一些噪声信息。

3 总结

在深入分析研究语音情感识别算法的基础上,提出基于核主成分空间的模糊核Fisher判别算法。该算法一方面借助于KPCA和FCM对语音数据在维度和数量上进行了约简,可以有效地降低后续LDA的计算复杂度;另一方面,通过KPCA的转换矩阵得到核主成分空间,在该空间进行FCM,对不同输入样本根据其贡献度引入隶属度,根据隶属度重新定义LDA,不仅大大地简化了KFD的计算步骤,并且有效地提高了KFD的高分类性能。仿真实验结果表明,此处提出的方法和传统SVM、KFD相比,在纯净语音和噪声语音的情况下都取得了较为理想的的情感平均正确识别率,具有良好的抗噪性能,是一种有效可行的语音情感识别算法。然而,仿真实验也表明,悲伤、害怕和厌恶3种情感状态的识别率不高,因此在后续的研究工作中,将侧重于寻找更有效的参数提取方法,使得这3种情感状态识别率也能具有较高的识别率。

[1]AYADI E l M.Survey on speech emotion recognition:Features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572-587

[2]BITOUK D,VERMA R,NENKOVA A.Class-level spectral features for emotion recognition[J].Speech Communication,2010,52(7/8):613-625

[3]WANG J H,LI Q,YOU J,et al.Fast kernel Fisher discriminant analysis via approximating the kernel principal component analysis[J].Neurocomputing,2011,74(17):3313-3322

[4]李童.基于改进的2DPCA人脸识别方法研究[J].重庆工商大学学报:自然科学版,2012,29(04):45-49

[5]ZHENG Y J,YANG J Y,WANG W D,et al.Fuzzy Kernel Fisher Discriminant Algorithm with Application to Face Recognition[A].The proceedings of Sixth World Congress on Intelligent Control and Automation(WCICA2006)[C].中国,大连:2006

[6]张石清,赵知劲.噪声背景下的语音情感识别[J].西南交通大学学报,2009,44(3):442-447

猜你喜欢

特征向量识别率语音
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
基于类图像处理与向量化的大数据脚本攻击智能检测
魔力语音
基于MATLAB的语音信号处理
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
提升高速公路MTC二次抓拍车牌识别率方案研究
一类特殊矩阵特征向量的求法