基于多窗频谱估计的PLAR特征提取＊

2014-11-22尹聪，白静

中北大学学报(自然科学版) 2014年1期

尹聪，白静

（太原理工大学信息工程学院山西太原 030024）

0 引言

说话人识别主要包含两个阶段，特征提取和模式识别.特征提取的过程，实际上是去除原来语音中的冗余信息，减小数据量的过程［1］.因此，如何提取能够充分表征说话人个性信息的特征参数一直是说话人识别面临的最大问题之一.

说话人识别系统常用的特征参数有：LPC，LPCC及MFCC 等，但这些参数的应用都受到各种因素的制约，如说话人周围环境中噪音的干扰，以及说话人情绪、健康状况等自身因素的影响.此外，随着时间和年龄的变化，这些特征参数也会随之发生变化，从而影响说话人识别系统的稳定性.近几年，有学者提出将感知对数面积比系数（Perceptual Log Area Ratio，PLAR）［2-3］特征参数应用于说话人识别系统，该特征从人类听觉感知机理出发，运用听觉心理学概念表征说话人的个性特征，具有维数低，运算速率快，抗噪性能强等特点，是一种稳健的特征参数.在噪音环境下，其说话人辨认系统的性能明显优于传统特征参数MFCC的系统；但在说话人确认系统中，其系统性能却随着信噪比的增大而急速下降.因为在该特征的提取中，采用固定窗的短时傅里叶变换（Discrete Fourier Transform，DFT）对语音信号进行预处理，获得信号的频谱信息，这种短时加窗处理的频谱估计方法导致了计算误差的产生［4］，虽然PLAR 参数在纯净语音环境下具有较好的识别性能，但在噪音的干扰下，说话人确认系统的性能却急剧下降.T.Kinnunen［5］等人提出具有鲁棒性的多窗频谱估计（Multitaper Spectrum Estimate，MSE）.多窗频谱估计（Multitapering［6-8］）通过采用多个窗函数对语音信号进行频谱分析，将各个独立的子频谱估计进行加权平均，作为该语音信号最终的频谱估计.

本文着眼于特征提取中的前端处理，提出一种基于Multitapering的PLAR 特征提取方法，改进了PLAR 提取过程中对语音信号的预处理，通过Multitapering获得语音信号的频谱估计.由于该方法对信号的频谱估计方差更小，减小了噪音对信号频谱的影响，因此通过该频谱估计方法获得的频谱分析可以更好地反应说话人的声道结构，继而可以获得更加稳定的特征参数，简称MTPLAR.实验结果表明：与传统的DFT 相比，该频谱估计法对信号的频谱分析更加准确，在噪音环境下，基于新特征参数的系统性能比PLAR的系统有明显的提高.

图1 Multitapering的实现框图Fig.1 Flow diagram of Multitapering

1 多窗频谱估计

多窗频谱估计采用具有不同权值的多个窗函数，用频域的平均值来获得信号的频谱估计，该方法是对传统加权的DFT 的一种扩展.多窗频谱估计法曾被用在语音增强方面［9］，最进几年才被引入说话人识别领域［5-6，10］，并在频谱泄露及频谱估计方差方面都体现出优于DFT 的特性［11-12］.

Multitapering 的定义如下：

式中：K为窗的个数；wj（t）为窗函数；λ（j）为第j个窗函数的对应权值；N为语音帧的个数.其中j＝1，…，K；t＝0，…，N-1.加权的DFT 是一种特殊情况，即K＝1，λ＝1.

Multitapering的具体实现如图1 所示［5］，多窗频谱估计方法利用多个相互独立的窗函数对信号进行频谱分析，并最终产生幅度上存在微小差别的多个子频谱，这些子频谱的加权平均值构成了信号的最终频谱.由于频谱之间的平均减小了对整个信号频谱估计的方差，因此与传统的单一窗函数的估计方法相比，该方法获得的信号频谱对噪音的敏感性更弱.

由Multitapering 的定义式可以看出，有两个因素需要确定，即窗函数及其对应的权值.窗函数包括三种类型：Thomson［7］，Sine［8］和 Multipeak［12］.在倒谱分析中，Sine 窗用于寻求最优的权重值［13］.不同类型的窗函数适用于不同类型的随机过程（假设信号服从某种随机过程）.例如，Thomson窗函数适用于频谱平坦的信号（白噪声），而Multipeak 窗函数更适合于对带峰值频谱信号的分析（例如语音信号）.总之，窗函数的选择是为了使不同子频谱的估计误差之间近似不相关，从而降低频谱估计的方差值.

本文研究了对于不同窗个数的情况，SWCE（Sine-Weighted Cepstrum Estimator），Thomson以及Multipeak 三种多窗频谱估计方法对一帧语音信号的频谱估计性能，并与传统汉明（Hamming）窗的DFT 进行对比分析，结果如图2所示.

图2 不同类型窗函数的频谱估计图Fig.2 Diagrams of spectrum estimation with different type of window functions

由图2 可知，与Hamming窗的DFT 方法相比，三种多窗频谱估计法获得的频谱结构更加平滑，主要是因为Multitapering 减小了对语音信号进行频谱估计的方差值.三种Mulitapering相比，Thomson产生类阶梯状的频谱结构，Multipeak获得具有比较清晰的峰值的频谱结构，而SWCE产生的频谱结构更加平滑，是以上两种方法的一种折中.此外，频谱估计的性能也会受到窗个数选择的影响，当窗个数比较少时（如K≤4），三种Multitapering都保留了谐波（由声源产生）及谱包络（由声道结构产生）的信息；但当窗个数较多（如K≥12）时，频谱中的谐波成分便会消失，即反应声源的信息便会被忽略，因此窗个数的选择很大程度上取决于具体的应用环境.对于说话人的识别，声源和声道的信息都不同程度地表征了说话人的个性特征.因此，为了充分体现说话人的个性信息，应选择相对较少的窗函数来估计语音信号的频谱结构.

2 基于Multitapering 的PLAR 特征提取

假设x＝［x（0）…x（N-1）］T表示一帧语音信号，DFT 是信号处理中广泛应用的频谱估计方法，其频谱估计如式（2）所示.

式中：f∈｛0，1，…，N-1｝为离散频域的序列；w＝［w（0）…w（N-1）］T为Hamming 窗函数.

从统计学角度看，Hamming窗虽然减小了频谱估计的均值，但仍具有很大方差，说明通过传统单一窗函数的方法估计的频谱波动性较大，从而导致最终的特征参数稳定性变差.因此，为了解决传统方法中频谱估计稳定性差的问题，本文将Multitapering方法应用到PLAR的提取中，在语音信号预处理过程，采用Multitapering替代传统的DFT，对信号进行频谱估计；再对频谱进行PLAR特征参数的提取，从而获得新的特征参数MTPLAR.其提取过程如图3 所示.

图3 MTPLAR的提取过程Fig.3 Extraction process of MTPLAR

MTPLAR参数的提取过程如下：

1）对语音信号进行频谱估计，利用Multitapering方法得到其频谱S（ω），进而获得其功率谱.

2）对功率谱进行Bark域的转换，其公式为

式中：ω为角频率；Ω为Bark域角频率.对变换后的功率谱进行临界带谱分析，得到临界带的功率谱

式中：Ψ（Ω）为临界带曲线［14］.

3）采样后的Θ［Ω（ω）］用模拟的等响曲线进行预加重，

函数E（ω）是对不同频率不等的人类听觉敏感度的一个近似估计，模拟了声强为40dB 的听觉敏感度.

4）对Ξ［Ω（ω）］的立方根的幅值进行压缩，其计算公式为

5）对Φ（Ω）进行IDFT 变换，得到其自相关函数，使用莱文逊-杜宾递推算法求得PLP 系数.若将声道视为由多个不同剖面面积、相等长度的声管串联而成的系统，则MTPLAR系数为相邻两个声管剖面面积比.MTPLAR系数与PLP系数之间的关系为

式中：Ai为第i个声管的剖面面积；αi为第i阶PLP 系数；为第i阶PLP 模型的第i个系数.

3 实验与分析

实验数据来源于自录语音库，该语音库是在安静的实验室环境下录制的纯净语音，语音信号的采样频率为8kHz，采样精度为16bit，单声道录音.语音库包含80个说话人，男、女各40人，训练语音长度为30s，测试语音长度为10s.

为了测试本文提出的MTPLAR特征参数的鲁棒性，实验中采用三种Multitapering 方法，Thomson，Multipeak 以及SWCE，提取了20 维MTPLAR特征参数.采用GMM 模型来建模，对基于MTPLAR特征的说话人确认系统进行识别性能的测试，并与基于传统DFT 方法提取的PLAR特征的基线系统进行对比分析.首先，研究了在纯净语音下Multitapering方法中窗个数对系统性能的影响，对基于三种Multitapering方法的MTPLAR特征参数的说话人确认系统的识别性能进行了对比分析，结果如图4 所示.

由图4 可以看出，当窗个数4≤K≤8 时，通过三种Multitapering 方法提取的特征系统的EER 均低于基线系统.由此可以说明，Multitapering方法对信号的频谱分析优于传统的DFT，但其频谱估计性能会受到窗个数的影响.实验证明：对于Thomson，当K＝4 时，系统的性能最佳；SWCE 及Multipeak 最佳性能对应的窗个数为8.

图4 不同窗个数下，Multitapering的性能比较Fig.4 Comparison of Multitapering performance with different number of window functions

其次，研究了在噪音环境下，MTPLAR特征参数的鲁棒性.实验选取噪音库NOISEX-92［15］中的Factory 噪声.噪声按信噪比SNR为0dB，5dB，15dB，20dB 分别添加到干净语音中.实验中，Thomson，SWCE 以及Multipeak 的窗个数分别为4，8，12，结果如表1所示.由表1可以看出，使用Multitapering改进后的MTPLAR特征参数系统的EER均小于PLAR参数，说明此改进方法可以有效提高说话人确认系统的识别性能.在纯净环境下，SWCE 表现最佳；在不同信噪比下，3种方法的识别性能不同.

表1 不同信噪比情况下新特征的识别性能Tab.1 Recognition performance of the new feature under different SNR

4 结束语

本文通过改进前端处理的频谱估计方法，提出了一种基于Multitapering 的PLAR 特征提取方法.由于该方法可以对信号进行更加稳定的频谱分析，故由此获得的特征参数也具有更加鲁棒的特性.实验结果表明：窗个数的选择对该频谱估计方法的性能产生了很大的影响，不同类型的窗函数对应不同的最佳窗个数.在噪音环境下，本文方法获得的MTPLAR参数比传统PLAR 方法在系统的识别性能方面得到了明显的提高，同时也体现出了良好的抗噪性能.但本文并未对所有种类的噪声进行实验分析，故该方法是否对噪声类型具有稳定性仍需要进一步研究.

［1］王炳锡，屈丹，彭煊.实用语音识别基础［M］.北京：国防工业出版社，2000：265-266.

［2］Chow D，Abdulla W H.Robust speaker identification based on perceptual log area ratio and gaussian mixture models［C］.Proceedings of the 2004-ICSLP，Jeju Island，South Korea.USA：IEEE，2004：1761-1764.

［3］李燕萍，唐振民，钱博，等.基于PLAR 特征补偿的鲁棒性说话人识别仿真研究［J］.系统仿真学报，2009，21（2）：409-412.Li Yanping，Tang Zhenmin，Qian Bo，et al.Robust speaker recognition based on PLAR features compensation transformation and its simulation study［J］.Journal of System Simulation，2009，21（2）：409-412.（in Chinese）

［4］Percival D B，Walden A T.Spectral Analysis for Physical Application ［M］.Cambridge University Press，1993.

［5］Kinnunen T，Saeidi R，Sandberg J，et al.What else is new than the Hamming window robust MFCCs for speaker recognition via multitapering［C］.In Proc.Interspeech，2010：2734-2737.

［6］Sandberg J，Hansson-Sandsten M，Kinnunen T，et al.Multitaper estimation of frequency-warped cepstra with application to speaker verification［J］.IEEE Signal Processing Letters，2010，17（4）：343-346.

［7］Thomson D J.Spectrum estimation and harmonic analysis［J］.Proc.of the IEEE，1982，70（9）：1055-1096.

［8］Riedel K S，Sidorenko A.Minimum bias multipletaper spectral estimation［J］.IEEE Trans.on Signal Proc.，1995，43（1）：188-195.

［9］Hu Y，Loizou P.Speech enhancement based on wavelet thresholding the multitaper spectrum［J］.IEEE Trans.On Speech and Audio Proc.，2004，12（1）：59-67.

［10］Kinnunen T，Saeidi R，Sedlak F，et al.Low-variance multitaper MFCC features：A case study in robust speaker verification［J］.IEEE Transactions on Audio，Speech and Language Processing，2012，20（7）：1990-2001.

［11］Hansson M.Optimized weighted averaging of peak matched multiple window spectrum estimates［J］.IEEE Trans.on Signal Processing，1999，47（4）：1141-1146.

［12］Hansson M，Salomonsson G.A multiple window method for estimation of peaked spectra［J］.IEEE Trans.on Signal Processing，1997，45（3）：778-781.

［13］Hansson-Sandsten M，Sandberg J.Optimal cepstrum estimation using multiple windows［C］.IEEE Intemational Conference on Acoustics，Speech and Signal Processing，2009：3077-3080.

［14］Hermansky H.Perceptual linear predictive（PLP）analysis of speech［J］.Journal of Acoustical Society of America，1990，87：1738-1752.

［15］Varga A P，Steeneken H J M，Tomlinson M，et al.The noisex-92study on the effect of addictive noise on automatic speech recognition［R］.Technical Report.Malvern UK：Speech Research Unit，Defense Research Agency，1992.