基于Gabor滤波的语音识别鲁棒性研究
2018-06-04缑新科徐高鹏
缑新科,徐高鹏
(1.兰州理工大学电气工程与信息工程学院,甘肃 兰州 730050; 2.甘肃省工业过程先进控制重点实验室,甘肃 兰州 730050;3.兰州理工大学电气与控制工程国家级实验教学示范中心,甘肃 兰州 730050)
0 引 言
语音识别系统的鲁棒性一直是语音识别领域研究的重点问题,提高语音识别鲁棒性的方法大致分为2类,一类是基于模型的鲁棒性改善,另一类是通过提取声学特征来提高鲁棒性。声学特征的优劣很大程度上决定了语音识别系统的鲁棒性,因此研究声学特征的提取对提高语音识别系统的抗噪能力有很大的价值。语音鲁棒特征又可以划分为基于统计特性的鲁棒特征和基于听觉机理的鲁棒特征这2大类。
短时修正的相干系数(SMCC)[1]、高斯超向量(GSV)[2]、自相关梅尔倒谱系数(AMFCC)[3]以及i-vector[4]为基于统计特征的几种常见统计鲁棒特征。SMCC和AMFCC常被用来抑制宽带噪音,但它们对于非平稳噪音的抵抗能力不足。GSV是一种基于GMM[5]的语音特征,它继承了高斯混合模型的鲁棒性,而且包含说话人发音个性统计信息,然而在信道畸变的环境噪声下它的鲁棒性不佳。i-vector在GSV的基线上降低了特征的维数,提高了识别的效率。与统计特性的特征不同,基于生物机理的声学特征提取尝试模拟生理器官对语音的感知来描述声学特征,常见的特征有LPCC[6]、MFCC[7]和GFCC[8]。LPCC是线性预测系数(LPC)的倒谱参数,可以较好反映声道特性,但对于频率特性的反映不符合实际。基于MEL谱[9]的MFCC特征考虑了人类听觉系统的基本听觉原理,如频率分辨率和强度感知,却对语音信号高频段的特性描述精度不足。GFCC特征,通过动态地模拟人耳基底膜来提取特征,很大程度上提升了识别的鲁棒性。毋庸置疑,上述特征的研究对于语音识别鲁棒性的提升作出了很大贡献,但是它们都基于特定的域进行特征提取,这导致局部特征的丢失。
针对上述工作的不足,本文尝试通过联合时域和频域来提取声学特征,提出一种利用Gabor滤波器[10]跨时域和频域提取声学特征的方法,并将高维GBFB特征映射到时域和频域不同的子空间中,从而消除噪音成分,保留鲁棒特征,经实验证明,GBFB特征在噪音环境下与常见的几种声学特征相比有更好的鲁棒性。
1 基于Gabor滤波的特征提取
Gabor特征提取是在加窗的Fourier[11]变换基础上实现的,通过Gabor变换可以跨时频域对特征信息进行提取,因此可以获取到更多有用的特征信息。
1.1 二维Gabor滤波器
一个二维Gabor滤波器是由复平面波和高斯窗函数的乘积构成的,二维Gabor滤波器可以同时在频域和时域提取局部化的特性,利用二维Gabor滤波器可以同时描述时域局部信息,其空间域描述如公式(1):
(1)
图1 二维Gabor函数时域实部
其中,n和k分别表示时域的水平和垂直方向,x=ncos θ+ksin θ,y=kcos θ-nsin θ,δ表示高斯窗函数的标准差,ω和θ表示中心调制频率和方位,exp (-w2σ2/2)表示直流分量,这个直流分量的存在可以抵抗外部环境对滤波的干扰。在时域中可以通过调节θ的值来改变方位,从而得到良好的方向特征;同样,可以通过改变w的值来改变频域的参数,当选定固定的w和θ参数时就可以构造出特定方向和频率上的模式图。如图1所示,w=3π/4、θ=0时,Gabor核函数在时域的实部部分。Gabor滤波器在时域与频域中都有很好的辨识度,通过选择不同的方位和频率就可以构造不同的滤波器,在不同的方位和尺度上提取需要的特征。
1.2 基于Gabor滤波器组声学特征提取
一个用于声学特征提取的二维Gabor函数定义如下:
(2)
其中,γ=kveiφ决定了Gabor滤波器的方位和尺度,ε(n,k)表示经FFT[12]得到的声谱样本点,φ=u(π/k),kv=2-((v+2)/2)·π,可以通过改变u,v调整Gabor滤波器组的方位和尺度,如图2所示,本文中尺度和方向均取4,γ可以控制u、v。
图2 二维Gabor滤波器组
在确定的时域窗口下声谱x(n,k)=RNn×Nk可以用向量空间ζ∈RNn×Nk×Nu×Nv来表示,其中Nn×Nk表示时域和频域的坐标,Nu×Nv表示尺度和方位。通过将原始信号的声谱与4方向、4尺度组成的Gabor滤波器组进行卷积,得到16幅局部特征谱,采样时将其分为64个小块,每块取8个量级进行量化,最终形成512维,16幅一共构成8192维特征。当尺度和方位一定时,卷积过程可表示为公式(3):
Gu,v(n,k)=|X(n,k)·gu,v(n,k)|
(3)
为了去除冗余,保留对声学感知有用的特征信息,利用mel滤波器对Gu,v(n,k)进行滤波,滤波的表达式如公式(4):
(4)
其中,MELl(n)表示mel滤波器组,mel滤波器的最低频率和最高频率由Lt和Ht表示。
(5)
(6)
Uu,v=[max ((Gjk)ij)]p×q
(7)
对新的特征矩阵Uu,v进行向量化,表示为:
UQ=[Q(U0,0),…,Q(Up,q)]
(8)
利用PCA将UQ投影到低维的子空间:
P(UQ)=AT(UQ-μ)
(9)
其中,μ为UQ的均值,维数为M×1,M=p×q,AT为低维的映射矩阵,维数为M×d,d表示主成分个数,因此最终可以得到d×1维的GBFB特征,本文取d=81。将向量化后的特征投影到时域和频域不同的维度上,投影到不同维度上的语音信号的能量会集中到少数的特征分量上,将有用的特征保留到投影矩阵中,当噪音掺杂入干净的语音时,与干净语音特性一致的成分会被保留,噪声的能量会被削弱,最终得到抑制噪音的GBFB特征。
通过以上的分析,得到如图3所示的GBFB特征提取的过程:
图3 GBFB特征提取过程
1)对原始的语音信号做预处理,并通过FFT得到对应的声谱图。
2)利用二维的Gabor滤波器组对声谱进行卷积。
2 实验设计及分析
2.1 实验介绍
为了验证算法的有效性,本文通过2个实验进行测试,分别采用TIMIT[14]语音库和NOIZEUS[15]语音库。语音的采样率为16 kHz,采样精度为16 bits,选择基于3状态HMM[16]的上下文相关音素模型作为声学模型,在实验中先对语音信号进行预处理,再对每一帧语音提取GBFB、MFCC、GFCC、LPCC特征,其中选取GBFB的特征参数为81维,MFCC、GFCC、LPCC特征参数均取39维,用GMM作为分类器进行识别,混合度可选8、16、32。
2.2 实验设置
实验1在纯净语音环境下,测试GBFB特征的有效性,采用TIMIT语音库,该语音库共采集了50名说话人语音,其中男性说话人35名,女性说话人15名,从每名说话人语音中选择7句用于实验训练,3段用于实验测试。在GMM混合度不同的情况下,分别用LPCC、MFCC以及GBFB特征测试在干净语音环境下的识别率。
实验2首先对Gabor滤波器提取的原始特征与分块大小为16×16的GBFB特征在25 dB的噪声环境下进行识别率对比,观察PCA降维对GBFB特征的影响,然后在NOIZEUS语音库的White noise噪声环境下对分块为4×4、16×16以及64×64的GBFB特征的识别率进行对比,最后在Factory noise、White noise和Babble noise噪声环境下使用SOX[17]工具加入不同信噪比的噪音,对MFCC、LPCC、GFCC以及GBFB特征的鲁棒性进行对比。
2.3 实验结果
实验1的识别结果如图4所示。
图4 纯净语音的识别结果
从图4可以看出,在未加入噪音的环境下,3种声学特征识别的准确率随GMM混合度的增加而增加,随着混合度的增加,GBFB识别率的提升最大,综合来看GBFB的识别率比LPCC的识别率高,与MFCC接近,验证了基于Gabor滤波的GBFB特征的有效性。同时,从实验1的结果可以看出,GBFB在纯净语音环境下的识别率相较其他几种特征并没有明显的提升,这是由于Gabor滤波器在提取纯净语音特征时,将纯净语音中绝对值较小的成分当做噪音,在经过PCA投影后部分特征的系数被削减,因此导致了识别率的下降。
现在分析实验2的识别结果。如表1所示,经PCA降维后的GBFB特征的识别率高于原始Gabor滤波器提取的特征,说明通过PCA算法在缩减了特征维数的同时保留了信息的主要成分,生成了更好的鲁棒特征。不同分块的GBFB的识别率如图5所示,其中p、q大小为4×4时特征识别率较低,增加到16×16时识别率提升了13%,当取值增加到64×64时识别率再次下降,说明不同大小的分块对GBFB的识别率有很大影响,p、q的取值太小会导致语音信号主分量被削减,过大会导致特征的冗余过多。
表1 PCA降维对识别率的影响 单位:%
图5 不同分块PCA下的识别率
对GBFB以及其他声学特征进行抗噪测试时选取分块16×16的GBFB特征,结果如表2和图6所示。在低信噪比的环境下,4种特征识别的准确率都较低,随着信噪比的增加,准确率都有提升,其中基于GBFB特征在6种不同信噪比语音环境下的识别率都高于MFCC、LPCC、GFCC。与鲁棒性较好的GFCC相比GBFB特征的准确率提高了5.35%,与MFCC特征相比提升了7.05%,比LPCC特征识别的基线低9 dB,说明了本文提出的GBFB特征可以增强噪声环境下语音识别的鲁棒性。
表2 不同环境下4种特征的识别率 单位:%
(b) Babble噪声下的识别率
(c) 工厂噪声下的识别率图6 不同噪声环境下的识别率
3 结束语
本文采用Gabor滤波器组来提取语音信号的鲁棒特征,采用分块PCA对特征降维,验证PCA降维对识别率的影响,并测试了不同分块大小的GBFB特征对识别率的影响,最后对GBFB、MFCC、LPCC、GFCC特征在多个噪声噪音环境下进行性能测试。从实验结果可以看出,基于Gabor滤波的GBFB特征在不同信噪比语音环境下的识别率都明显高于MFCC、LPCC和GFCC特征。说明了本文提出的GBFB特征可以更准确地反映语音信号在噪音环境下的特征,提升说话人识别在噪声环境下的识别率。
此外,从实验1的结果可以看出,由于GBFB特征在提取纯净语音声学特征时会误将绝对值较小的成分当做噪音处理,对干净语音有一定程度上的损伤,导致GBFB在纯净语音环境下的识别率相较其他几种特征并没有明显的提升,某些情况下甚至低于其他特征,下一步工作将研究GBFB特征在纯净语音环境下识别率提升的方法。
参考文献:
[1] 罗仁泽,蒋涛,敬龙江,等. 一种低信噪比SMCC+系统快速同步算法[J]. 信号处理, 2005,21(3):236-239.
[2] 刘伟伟. 基于GSV-SVM的语种识别关键技术研究与实现[D]. 郑州:解放军信息工程大学, 2012.
[3] 赵彦平. 孤立词小词汇量抗噪声语音识别方法的研究[D]. 长春:吉林大学, 2006.
[4] Glembek O, Burget L, Matejka P, et al. Simplification and optimization of i-vector extraction[J]. IEEE International Conference on Acoustics, 2011,125(3):4516-4519.
[5] 陈强. 基于GMM的说话人识别系统研究与实现[D]. 武汉:武汉理工大学, 2010.
[6] Zbancioc M, Costin M. Using neural networks and LPCC to improve speech recognition[C]// International Symposium on Signals, Circuits and Systems(Vol 2). 2003:445.
[7] 蒋文建,韦岗. 基于掩蔽的噪声环境下语音识别新特征[J]. 声学学报, 2001(6):516-520.
[8] Islam M A. GFCC-based robust gender detection[C]// IEEE International Conference on Innovations in Science, Engineering and Technology. 2017:1-4.
[9] 王让定,柴佩琪. 语音倒谱特征的研究[J]. 计算机工程, 2003,29(13):31-33.
[10] 曹丽. 基于Gabor滤波器的人脸特征提取算法研究[D]. 沈阳:东北大学, 2008.
[11] 孙晓兵,保铮. 分数阶Fourier变换及其应用[J]. 电子学报, 1996(12):60-65.
[12] Pei Soo-chang, Ding Jian-jiun, Chang Ja-han. Efficient implementation of quaternion Fourier transform, convolution, and correlation by 2-D complex FFT[J]. IEEE Transactions on Signal Processing, 2001,49(11):2783-2797.
[13] Roweis S. EM algorithms for PCA and SPCA[C]// Proceedings of 1997 Conference on Advances in Neural Information Processing Systems. 1997:626-632.
[14] 林海波,王可佳. 一种新的听觉特征提取算法研究[J]. 南京邮电大学学报(自然科学版), 2017,37(2):27-32.
[15] 黄玲,李琳,王薇,等. 基于Sparse K-SVD学习字典的语音增强方法[J]. 厦门大学学报(自然科学版), 2014,53(1):36-40.
[16] Tokuda K, Masuko T, Miyazaki N, et al. Multi-space probability distribution HMM[J]. Ieice Transactions on Information & Systems, 2002,85(3):455-464.
[17] Mathew L R, Anselam A S, Pillai S S. Analysis of LD-CELP coder output with Sound eXchange and Praat software[C]// IEEE International Conference on Advanced Communication Control and Computing Technologies. 2015:1281-1285.