VMD改进GFCC的情感语音特征提取
2020-09-04刘雨柔张雪英陈桂军黄丽霞
刘雨柔,张雪英,陈桂军,黄丽霞,张 静
(太原理工大学 信息与计算机学院,山西 太原 030024)
0 引 言
语音情感识别是人工智能领域的一个重要分支,主要分为预处理、特征提取、识别模型3个部分,提取能有效表达情感信息的特征对识别结果起着关键的作用。目前应用最广泛的特征是Mel频率倒谱系数(Mel-frequency cepstral coefficients,MFCC),研究发现MFCC提取过程中存在两个问题,一方面利用三角形滤波器组会出现相邻频带间能量的泄露,不利于反映共振峰特性,另一方面频带的划分是以中心频率按照Mel尺度均匀分布为前提,与听觉特性中临界带宽概念不完全相符[1]。文献[2]指出MFCC在用于识别时若无干扰则识别效果很好,但在噪声干扰条件下识别效果急剧下降。Gammatone滤波器组能有效模拟人耳的频谱分析与频率选择特性,而且具有很强的抗噪性[3]。文献[4]在说话人识别系统中选用由Gammatone滤波器代替Mel尺度的三角形滤波器组提取的Gammatone频率倒谱系数(Gammatone frequency cepstral coefficients,GFCC),结果表明其识别率与鲁棒性均优于MFCC。传统的MFCC、GFCC忽略了信号本身非线性、非稳态特性,不能全面地获取语音中的情感信息。经验模式分解(empirical mode decomposition,EMD)是一种能有效处理非线性、非平稳信号的技术,可以用于解决上述问题。屠彬彬等提出一种基于EMD改进MFCC的新特征用于语音情感识别,相比传统的MFCC识别率提高了3.26%[5],但是EMD会出现波形混叠现象。文献[6]提出一种能够有效抑制模态混叠现象的信号分解方法——变分模态分解。文献[7-9]研究结果表明,与EMD算法的分解结果相比,VMD不仅去噪效果好,而且可以准确地分解出不同频率段的信号。
VMD可以解决语音信号的非线性、非稳态问题,GFCC具有较好的噪声鲁棒性,因此本文将VMD算法与GFCC特征相结合,得到一种VMD改进GFCC的新特征——VGFCC用于语音情感识别,并通过实验验证其有效性。
1 VGFCC特征提取及识别系统
语音情感识别是一项利用计算机提取说话者语音中的特征参数,并将其通过识别模型对说话者的情感状态进行判别的技术。本文所提新特征VGFCC的提取识别系统框架如图1所示。
图1 VGFCC提取识别系统框架
1.1 变分模态分解算法
2014年由K.Dragomiretskiy等提出一种不同于经验模态分解、局部均值分解(local mean decomposition,LMD)的信号分解方法——变分模态分解[6]。VMD算法核心是通过迭代搜索获取约束变分模型的最优解,自动获取固有模态函数的中心频率及带宽。信号f的约束变分模型可用式(1)表示
(1)
式中:K代表分解的IMF个数,{uk={u1,u2,…,uK表示IMF分量集;{ωk={ω1,ω2,…,ωK是IMF分量集对应的中心频率集。
为获取式(1)最优解,引入二次惩罚因子α降低噪声干扰,通过拉格朗日乘子λ保持约束的严格性,约束变分问题转为非约束变分问题[10]
(2)
图2 VMD迭代运算流程
VMD分解所得的固有模态函数分量的中心频率值从低到高分布,IMF分量个数K从1开始取值,如最后一个IMF的中心频率第一次达到最大值,则代表未出现分解不足的问题,K值逐渐递增,直至最大的中心频率保持相对稳定,即可认定此时的K值为最恰当的分解个数[11]。表1是根据情感语句分解得到的各IMF中心频率,K=7时频率最大值最小值基本保持不变,因此确定K的最佳值为7。
表1 各IMF分量的中心频率/Hz
图3为EMD、LMD与VMD这3种不同的信号分解方法对EMO-DB中随机选取语音的分解结果,观察可得:3种分解方法都存在不同程度的端点效应导致分解信号波形失真的问题,但VMD分解的IMF1与原信号最相似,具有较好的鲁棒性,分解效果优于其它两种方法。
1.2 提取VGFCC
通过研究人的听觉特性发现,耳蜗相当于一个滤波器组,很多学者对此深入研究并取得了一定成果,Lyon提出共振峰滤波器[12],Patterson等提出Roex函数滤波器[13],但是共振滤波器不具备非线性特性且无法主动反馈,Roex滤波器难以用简单的冲激响应函数表示。1972年Johannesma提出Gammatone(GT)滤波器模型模拟人耳所需参数少,具有简单的冲激响应表达式[2],之后Gammatone滤波器被广泛应用于模拟听觉的频响性质,其时域形式如下
g(f,t)=ctm-1e-2πntcos(2πft+φ),t≥0
(3)
式中:f表示中心频率,c表示对应滤波器的增益,m为滤波器所选阶数,φ为相位,衰减因子n与中心频率f关系如式(4)
n=24.7(4.37f/1000+1)
(4)
GFCC是基于Gammatone滤波器提取的一种语音参数,语音信号是随时间改变的信号,传统的GFCC提取将信号直接经过FFT,设定信号在短时间内是近似不变的,没有体现出信号的非线性、非平稳性,忽略了部分信息;VGFCC的提取先通过VMD分解信号再进行FFT,准确地反映了信号的局部特性,可以得到更全面的语音信号情感特征。VGFCC的详细计算过程分5步:
(1)预处理:将语音信号x(n)经过预加重、分帧、加窗(汉明窗)后为x′(n);
(2)VMD分解后进行FFT:经过VMD分解x′(n)为K个IMF分量{uk={u1,u2,…,uK,对所有IMF分量进行FFT
(5)
其中,N是傅里叶变换点数,r表示每帧信号的点数,k=1,2,…,K;
(3)频率合成:对IMF分量的频谱幅度Xk(r) 取模平方得到信号的能量谱
图3 EMD、LMD、VMD分解语音信号对比
(6)
将各个频段相加
(7)
(4)滤波后求对数能量:S(r)通过Gammatone滤波器进行滤波,最后对频谱能量取对数
(8)
式中:m代表滤波器通道号,CH是通道总数,l代表滤波器阶数,L一般取12~16;
(5)计算VGFCC:将上一步中的E(m)做离散余弦变换,可得系数
(9)
对所得系数求最大值、最小值、平均值、标准差、中值5种统计参数即为VGFCC。
2 实验与结果分析
2.1 情感语音数据库
选取由柏林工业大学录制的德语EMO-DB与太原理工大学信息与计算机学院数字音视频实验室录制的汉语TYUT2.0作为数据库进行实验,详细情况见表2和表3。
表2 EMO-DB实验数据库
表3 TYUT2.0实验数据库
2.2 特 征
提取特征VGFCC,EGFCC(基于EMD改进GFCC)与LGFCC(基于LMD改进GFCC),同时提取传统的语音特征对比验证所提改进特征的可行性。特征详细介绍见表4。
2.3 识别网络
识别网络为常见的SVM,其核函数的选择对于性能的表现有至关重要的作用,径向基核函数(radial basis func-tion,RBF)是一种局部性强的核函数,可以实现将一个样本映射到一个更高维的空间内,应用较广,无论样本大小都有较好的性能,因此本文选用RBF作为SVM的核函数。
表4 语音情感特征及其统计参数
2.4 情感识别
为了说明VGFCC新特征的优势,设计以下实验进行论证。
2.4.1 对比不同信号分解方法改进的GFCC
分别采用EMD、LMD与VMD这3种不同的信号分解方法处理情感语音信号之后提取GFCC,通过SVM分类器分别对两种语音库中的不同情感进行识别,实验结果见表5。
表5 与不同改进特征比较的识别结果
从表5中可以看出:
(1)无论是EMO-DB还是TYUT2.0语音库,所提新特征VGFCC的识别效果均是最优的;相比于传统的GFCC识别率有了显著的提高,说明通过信号分解方法可以有效解决传统信号处理中忽略语音非线性、非平稳性的问题,更全面地捕捉语音中所包含的信息;
(2)与EGFCC、LGFCC相比,VGFCC识别效果更好,进一步验证相比于EMD、LMD,VMD可以更有效地处理非线性、非稳态的情感语音信号,分解信号具有更好的自适应性。
2.4.2 对比VGFCC与传统语音特征
提取韵律、非线性几何、非线性属性、MFCC这4种传统的语音特征与改进的新特征VGFCC,采用SVM进行分类,结果见表6。
表6 与传统语音特征比较的识别结果
由表6可知两种语音库中,相比于传统的语音特征,改进的新特征VGFCC总能得到最高的识别率,传统特征中表达情感效果最好的是MFCC,在EMO-DB语音库中,VGFCC比MFCC提高了5.48%,在TYUT2.0语音库中,VGFCC比MFCC提高了5.06%。
为了充分验证VGFCC的有效性,图4和图5分别是两种语音库中每一种情感的识别率,图中观察可得:无论是EMO-DB语音库中的6种情感还是TYUT2.0语音库中的4种情感,相比于传统的语音特征,VGFCC对于每一类情感的识别结果均是最优的,与表6的实验结果是一致的。
图4 不同情感在EMO-DB中的识别率
图5 不同情感在TYUT2.0中的识别率
3 结束语
本文提出一种基于VMD改进GFCC——VGFCC情感语音特征的提取方法,通过VMD分解信号可以准确表现情感语音信号的非线性、非稳态特性。选用EMD-DB与TYUT 2.0两种语音库,以常用的支持向量机作为分类器进行实验对比验证所提新特征的有效性,实验结果表明:两种语音库中,VGFCC识别效果均优于传统的语音特征、GFCC、EGFCC和LGFCC,是一种有效的情感特征。目前关于情感语音跨库识别的效果不好,下一步计划寻找性能更好的识别算法,结合本文所提出的识别效果较好的VGFCC特征构造一个完整的识别系统以提高跨库语音的情感识别率。