噪声环境中基于VQ说话人识别
2010-06-22张飞云王红艳
张飞云 王红艳
摘 要:噪声环境下,为了提高说话人识别系统的鲁棒性,需要对系统进行各种抗噪声处理。采用梅尔频率倒谱系数作为语音的特征参数,矢量量化方法进行模式匹配,将改进的基于听觉掩蔽效应的语音增强器作为预处理器,对语音信号首先进行降噪处理。语音增强器实验结果表明,经过降噪处理后提高了输入信号的信噪比,减少了语音失真,同时很好地抑制了背景噪声和残余音乐噪声。将经过降噪处理的语音信号送入说话人识别系统,提高了系统的识别性能。
关键词:说话人识别;矢量量化;掩蔽阈值;掩蔽效应;MFCC
中图分类号:TP391.4
0 引 言
说话人识别可以看作是语音识别的一种特殊形式,是指通过对说话人语音信号的特征分析与参数提取,从而对说话人身份进行辨认和确认。它与语音识别的不同之处在于:前者力求挖掘出包含在语音信号中的说话人的个性因素,强调的是不同人之间的个性差异;而后者则是为了提取语音信号中包含的词语的共性信息,尽量把不同说话人的差别归一化。
在实际应用中,由于多种因素的影响,音频信号往往带有不同类型的背景噪声。这种差异性导致实验室环境下成熟的说话人识别系统性能迅速下降。目前,带噪语音的说话人识别是现今说话人识别研究的一个热点和难点。
1 改进的基于听觉掩蔽效应的语音增强
将改进的基于听觉掩蔽效应的语音增强器作为预处理器,对语音信号首先进行预处理,再送入说话人识别系统组成抗噪声说话人识别系统。如图1所示。
在众多基于听觉掩蔽效应的语音增强方法中,对噪声的估计大都使用MS(Minimum Statistics)方法。但经试验发现这些方法并不是最好的。而对噪声的估计不当,则会使得对后续的掩蔽参数调整出现偏差,从而影响增强效果;若对噪声估计合理,则可以得到很好的增强效果。改进的基于听觉掩蔽效应的语音增强可以快速跟踪外界环境变化的噪声估计方法来估计噪声,该方法先在帧上判断语音的有无,而后在频率点上判断语音的有无,然后利用估计出的噪声同时结合掩蔽效应自适应设定增强系数。
1.1 算法描述
假设含噪语音信号y(n)表示为:y(n)=s(n)+d(n)。式中:s(n)为纯净语音信号;d(n)为加性噪声。由于增强是按帧进行的,所以可把上述模型写成帧的形式:y(m,n)=s(m,n)+d(m,n),m=1,2,…,N;㎞=1,2,…N-1。式中:m为帧号;N为帧长,对其进行傅里叶变换得:Y(m,k)=S(m,k)+D(m,k)。б用一种常用的语音增强减谱法模型
否则:
和β(m,k)分别为时间和频率的函数;α(m,k)用于控制增强语音的残留音乐噪声,其值根据人耳的听觉掩蔽特性确定;而系数β(m,k)в糜诳刂圃銮坑镆舻男旁氡取F渲蹈据最小均方误差准则确定。
1.1.1 噪声的估计
先在三个频率子带(0~1 000 Hz,1 000~3 000 Hz,3 000 Hz以上)上计算带噪音的信噪比都小于某个门限σ时,该帧就被认为是非语言帧,噪音被更新为:[JP]
ИD(m,k)=εD(m-1,k)+(1-ε)|Y(m,k)|2И
否则被认为是语音帧。再按照频率点来判断语音是否存在,具体方法为:先找出当前带噪语音的最小能量Е血┆玬in(m,k),如果ρ┆玬in(m-1,k)<ρ(m,k),那么:
否则:
ИЕ血┆玬in(m-1,k)=ρ(m,k)[JY](9)И
然后计算带噪语音能量与当前最小能量的比值S玶(m,k)=ρ(m,k)/ρ┆玬in(m,k)。将该比值与一个依赖于频率的门限δ(k)相比,若大于该门限则认为在这个频率点上包含了语音,此时平滑参数α玸(m,k)=α1;否则没有包含语音,α玸(m,k)=α2,其中的α1,α2Ь为经验值。至此噪声利用下式确定为:
1.1.2 掩蔽阈值的计算
在此首先将语音信号进行临界频带分析或Bark分析。利用FFT求得语音信号功率谱E(m,k),将语音信号的频率域划分为不同的临界频带,语音在各个临界频带的能量B璱=分别表示临界频带的上限和下限,i=1,2,…,i┆玬ax是临界带号。考虑到各个频带间相互掩蔽的影响,定义如下的传播函数:
由于噪声和音调的掩蔽特性不同,因此首先判断各个频带是噪声还是音调,可以根据谱平坦度И玈FM=μ玤/μ玜来判断,其中,μ玤,μ玜Х直鸨硎靖鞲銎荡功率谱的几何和算术平均值,且SFM∈[0,1],为0表示具有纯音调特性,纯音调的掩蔽阈值偏移量为(14.5+玦)dB;为1表示具有白噪声特性,白噪声的掩蔽阈值偏移量为0.5 dB。根据SFM的定义,定义音调系数Е=玬in(玈FMヾB/-60,1),则相对的掩蔽阈值偏移量为:㎡璱=φ(14.5+i)+5.5(1-φ),此时掩蔽阈值㏕(m,i)=10┆玪g玕[C璱-(O璱/10)]。在各个临界频带上,语音信号具有相同的掩蔽特性,将T(m,i)扩展到各个频谱上,记为T′(m,i)。则最终的掩蔽阈值为T(m,i)=玬ax玕[T′(m,i),T璦(m,i)],其中T璦(m,i)为绝对听阈,定义为:3.6f-0.8-7玡xp(f-3.3)2+0.007f4。И
2 说话人识别特征的提取
[JP2]多年以来,为找到合适的说话人识别特征参数,研究人员进行大量的验证和研究。目前说话人识别研究中已使用过的特征参数主要有基音及其共振峰、线形预测系数、倒谱系数,而较常用的是美尔频率倒谱系数[1,9,10](Mel[CD*2]Frequency Cepstrum Coefficent,㎝FCC)。[JP]
与普通实际频率分析不同的是,MFCC的分析着眼于人耳的听觉机理,依据听觉实验的结果来分析语音的频谱,使之更加符合人耳对频率高低的非线性心理感觉,以期获得高的识别率和好的噪声鲁棒性。具体的算法是将频谱转化为基于Mel频标的非线性频谱。㎝el频标与频率的关系可用式(13)近似表示:
在实际应用中,MFCC的计算过程为:
(1) 将信号进行短时傅里叶变换得到其频谱;
(2) 求它的频谱幅度的平方,即能量谱,并用一组三角形滤波器在频域对能量谱进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻度均匀排列的(间隔150Mel,带宽300Mel),每个滤波器的三角形的两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个相邻的滤波器的过渡带相互搭接,且频率响应之和为1;滤波器的个数通常与临界带数相近(略小),设滤波器数为M,滤波后得到的输出为:X(k),﹌=1,2,…,M;
(3) 将滤波器组的输出取对数,然后对它做2MУ隳胬肷⒏道镆侗浠,即得到MFCC。由于对称性,此变换式可简化为:
这里MFCC系数的个数獿通常取12~16,本文采用13节狹FCC系数。
3 VQ说话人识别算法
矢量量化的基本原理:将若干个标量数据组成一个矢量(或者是从一帧语音数据中提取的特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。在以下的讨论中S表示样本点集合,[WTHX]X[WTBX]表示一个样本,d([WTHX]X[WTBX],[WTHX]Y[WTBX])表示两个矢量[WTHX]X和Y[WTBX]е间的距离。
3.1 分裂法求初始码本
首先求出S中全体[WTHX]X的质心Y[WTBX]([WTHX]Y[WTBX]=∑[WTHX]X[WTBX]/N),然后在S中找一个与此质心的畸变最大的矢量[WTHX]X[WTBX]璲,再在S中找一个与[WTHX]X[WTBX]璲的误差最大的矢量[WTHX]X[WTBX]璳,以[WTHX]X[WTBX]璲和[WTHX]X[WTBX]璳为基准,S中的矢量与[WTHX]X[WTBX]璳距离较近的矢量归于子集S璳,反之归于S璲,Х直鹨哉饬礁鲎蛹作为初始码本。
3.2 LBG算法来实现
(1) 将形成VQ码本所需全部输入矢量[WTHX]X[WTBX]存储于计算机内存中;
(2) 设置迭代算法的最大迭代次数L;
(3) 设置畸变改进阀值δ;
(4) 设置M个码字的初值[WTHX]Y[WTBX]01,[WTHX]Y[WTBX]02…[WTHX]Y[WTBX]0㎝;
(5) 设置畸变初值D(0)=∞;
(6) 设置迭代初值m=1;
3.3 改进的LBG算法
由于LBG算法生成码本的好坏与初始码本有很大关系,采用改进的LBG算法,即先由分裂法产生2个矢量的初始码本,再由LBG算法聚类,生成2个子集;2个子集分别用分裂法各产生2个矢量的码本,再用LBG算法优化,如此反复B次,可产生含2獴个矢量的码本。
4 实验与分析
实验中的干净信号是由消声室中利用专业音频卡录制的“干”信号卷积混响时间为0.43 s的虚拟脉冲得到的;采样频率11 025 Hz,16 b量化,用于测试的带噪语音是由干净语音叠加白噪声得到的。输入的语音信号取每帧长256点,帧移128点,加Hanmming窗,预加重系数取0.95。利用VC++6.0组成抗噪声说话人识别系统。
参加实验的人数共有40人,均为在校学生,年龄在25岁左右,其中19位女生,21位男生,每人录制了5段12秒语音。前三段训练,后两段识别。在实验中,如果只对干净的语音信号进行识别,待识别的语音只用通过系统中的识别,不需要任何的增强处理,识别率可以达到99%。
对含噪的语音信号进行识别,在识别之前,经过改进的基于听觉掩蔽效应的语音增强降噪处理后,识别率会得到很大的改善。
[HJ0]改进的基于ぬ觉掩蔽ばвΦ挠镆舄ぴ銮35.561.572.095.5[HJ][HT5SS]
由表1可以看出,当信号受到白噪声污染时,直接接入说话人识别系统进行识别时,系统性能急剧下降。谱减法对于降低噪声对说话人识别系统有一定的作用,而当受白噪声污染的语音信号经过改进的基于听觉掩蔽效应的语音增强方法进行降噪处理后,再接入说话人识别系统,系统性能得到大大提高。
5 结 语
将改进的基于听觉掩蔽效应的语音增强器作为预处理器,用于噪声环境下说话人识别中。实验结果表明经过降噪处理后提高了输入信号的信噪比,减少了语音失真,同时很好地抑制了背景噪声和残余音乐噪声。将经过降噪处理的语音信号送入说话人识别系统,提高了系统的识别性能。
参 考 文 献
[1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2]Heck L P,Konig Y,Sonmez M K,玡t al.Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design[J].Speech Communication,2000,31:181[CD*2]192.
[3]王吉林,赵力,邹采荣.基于概率DP匹配法的噪声环境下说话人识别方法的研究[J].电声技术,2005(8):17[CD*2]19.
[4]Damper R I,Higgins J E.Improving Speaker Identification in Noise by Subband Processing and Decision Fusion[J].Pattern Recognition Letters,2003(24):2 167[CD*2]2 173.
[5]马义德,邱秀清,陈昱莅,等.改进的基于听觉掩蔽特性的语音增强[J].电子科技大学学报,2008,37(2):255[CD*2]257,304.
[JP2][6]Sundarrajan R.Noise Estination Algorithms for Highly ㎞on[CD*2]stationary Environments[D].Dallas:University of Texas,2004,1(1):305[CD*2]308.[JP]
[7]Srael C.Noise Estination by Minima Controlled Recursive Averaging for Robust Speech Enhancement[J].IEEE Signal Processing Letters,2002,9(1):12[CD*2]15.
[8]江小平,姚天仁,傅华.基于最小统计量和掩蔽效应的单通道语音增强[J].通信学报,2003,24(6):23[CD*2]31.
[9]余建湖,张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计,2009,30(5):1 189[CD*2]1 192
.
[10]宫晓梅.噪声环境下的MFCC特征提取[J].微计算机信息,2007,23(8):247[CD*2]249.
[11]桂苹,吴镇扬,赵力,等.基于VQ的说话人自动识别系统实现[J].电声技术,2003(10):11[CD*2]14.
作者简介 张飞云 女,1976年出生,河南周口人,讲师,硕士研究生。主要研究方向为语音信号处理。
王红艳 女,1980年出生,河南许昌人,硕士研究生。主要研究方向为数字控制、计算机控制。