基于改进噪声估计的谱减法应用于说话人识别

2016-10-31李哲军景新幸

计算机测量与控制 2016年4期

关键词：特征参数频谱语音

李哲军，周　萍，景新幸

(1.桂林电子科技大学电子工程与自动化学院，广西桂林　541004；2.桂林电子科技大学信息与通信学院，广西桂林　541004)

基于改进噪声估计的谱减法应用于说话人识别

李哲军1，周萍1，景新幸2

(1.桂林电子科技大学电子工程与自动化学院，广西桂林541004；2.桂林电子科技大学信息与通信学院，广西桂林541004)

针对语音信号中存在加性噪声使MFCC的鲁棒性和识别系统的性能下降的问题，基本谱减法的引入在增强MFCC抗噪性上取得的效果有限，为了使MFCC具有更好的抗噪性，提出了一种改进算法，在谱减法的基础上引入谱熵的思想，利用谱熵值的分布逐帧进行噪声估计，可更精确地谱减去噪；实验结果表明，当语音中含有加性噪声时，与基本谱减法相比，改进谱减法的说话人识别系统抗噪性与鲁棒性更好。

说话人识别；谱减法；谱熵；噪声估计；梅尔频率倒谱系数

0　引言

`声纹识别[1]是通过语音识别说话人的身份，与指纹识别、文字密码等认证技术相比，其具有不会遗失、无须记忆、实现简单等特点，是一种非接触识别方式。有效特征参数[2]的提取是其关键问题，常见的特征参数有线谱对参数(LSP)、线性预测倒谱参数(LPCC)、Mel频率倒谱系数(MFCC)等，其中MFCC因能充分描述人耳的感知特性而应用广泛[3]。

语音纯净不含噪时MFCC的鲁棒性及系统识别效果都比较好，但系统在语音含噪时的识别性能下降明显。针对语音中存在的加性噪声降低识别性能的问题，已经有许多改进算法[4]，有倒谱均值与方差规整(CepstralMean and Variance Normalization，CMVN)、特征弯折、RASTA滤波等，都曾被用来提高MFCC的鲁棒性，但它们都存在需要延迟处理的缺点。

首先，本文研究了语音增强中的谱减法[5](Spectral Subtraction,SS)，相比传统MFCC，加入谱减法的系统处理含有加性噪声的语音时性能有提高但程度有限，于是提出了改进算法以进一步提高MFCC的抗噪性。在基本谱减法基础上引入谱熵[6]的概念，根据谱熵的定义和性质分析噪声与语音信号的谱熵分布规律，用以动态更新噪声谱值，使谱减更精确、所提取的MFCC抗噪性更好。此外，实验采用GMM-UBM模型[7]代替GMM模型以弥补样本的不足。实验结果表明改进谱减法的说话人识别系统抗噪性改善明显。

1　MFCC特征参数

常用特征参数可分为时域和频域两类，时域中有幅度、平均过零率等参数；频域中有线谱对参数(LSP)、线性预测倒谱系数(LPCC)、共振峰频率、Mel频率倒谱系数(MFCC)等，其中MFCC因反映了人耳听觉特性而具有较好的鲁棒性。

MFCC采用的是梅尔频率，代表着人耳对不同频率声音的感受程度[8]：在1 000 Hz以下人耳感知较为敏锐，与频率近似成线性关系；在1 000 Hz以上人耳感知与频率成对数关系。梅尔频率与赫兹频率的转换公式为：

fmel=25951g(1+fhz/700)

(1)

其提取过程如图1所示。

图1　MFCC提取流程

1)预加重：滤除低频干扰，补偿受发音系统所抑制的高频部分，其传递函数为：

H(z)=1-kz-1

(2)

其中:k介于0.9和1.0之间，本文实验中取0.95。

2)分帧：将N个采样点集合成一个观测单位，称作帧，为避免相邻两帧间变化过大，相邻帧间有一段重叠区域，称作帧移，常为N的1/2或1/3。

3)汉明窗：增加窗边界处信号的连续性，减小吉伯斯效应：

(3)

4)离散傅里叶变换：将信号的时域分布变换为频域上的能量分布：

(4)

5)Mel滤波：消除谐波，降低数据维数，将离散谱X(k)通过M个Mel滤波器组，得到M个h(m)参数：

(5)

6)离散余弦变换：将经过对数运算的滤波输出变换到倒谱域，得到MFCC参数：

(6)

由以上步骤得到的静态MFCC，经差分运算可得到一阶差分倒谱系数ΔMFCC，ΔMFCC作为动态特征参数，能更加完整地表征说话者的动态语音特征[9]，描述语音信号帧间变化即说话者的动态特征。本文实验中采用MFCC与ΔMFCC的组合参数。

2　基于谱减法的语音增强

语音增强是从带噪语音中消去或减小其中的噪声以获得较纯净的语音，使提取的特征参数接近于无噪声的情况。语音增强主要有谱减法、Wiener滤波法、最小均方误差估计法等，其中谱减法具有计算量小、引入约束条件少等优点而应用广泛。

2.1基本谱减法

基本谱减法中，假定且噪声和语音不相关且噪声为加性噪声，记为z(n)，纯净语音信号为平稳信号，记为s(n)，则带噪信号为：

(7)

设y(n)、s(n)、z(n)的傅里叶变换分别为Yk、Sk、Zk，则对(7)两边进行傅里叶变换有：

(8)

于是可得：

(9)

由于s(n)与z(n)相互独立，则Sk和Zk独立，且Zk满足高斯分布且均值为零，则有：

(10)

记为无语音时的统计平均值，则对于分帧内的短时平稳过程有：

(11)

于是，增强后的语音信号为：

(12)

基本谱减法的核心是以无语音帧中噪声的统计均值替代整段语音的噪声估计，但以不变的统计均值替代随机变化的噪声进行谱减就会产生很大误差，出现残留噪声即音乐噪声。为了改善音乐噪声问题而出现了许多改进的谱减法：有人将听觉掩敝模型用于谱减法[10]，但要人为设定参数，会增加系统复杂度和引入新的失真；有人提出在谱减法计算谱值时引入修正系数[11]，但人为确定的系数并没有改变以偏概全的本质；还有人提出添加语音活性检测[12]步骤，但在低信噪比时效果较差。本文在基本谱减法的基础上引入谱熵的概念，用以更为精确地进行噪声估计以获得更好的去噪效果。

2.2谱熵与频谱的关系

针对短时平稳的语音信号，将其分成若干短时帧，然后经傅里叶变换得到的短时频谱并进行归一化处理，其概率密度函数如下：

(13)

其中：s(fi)是频率分量fi的频谱值，对应的概率密度值为pi，N为FFT的频率点数，每帧谱熵定义为：

(14)

谱熵是熵的一种形式，具有熵的基本性质[13]：熵值不因各分量的次序改变而变化；熵值在集合中的事件等概率发生时达到最大值，例如在式(14)中有H≤log2(N)。由谱熵的定义和性质可知，每帧谱熵值仅与频谱的分布有关，与频谱值不直接相关，且语音谱熵值随频谱分布的变化有如下规律：

纯静语音的频率分布的范围较小，频谱s(fi)及其概率分布pi较为集中，可表示为pi1=(p1,p2,…,ps,0,0,…,0),i=1,2,…,N,s≪N；噪声的频谱较为丰富，频谱s(fi)及其概率分布pi也较为分散，可表示为pi2=(p1,p2,…,pn,0,0,…,0),i=1,2,…,N,n≈N；对于H(pi1)和H(pi2)，由于s≪n，根据谱熵的性质可以知H(pi1)

综上可知，谱熵值受频谱分布影响且与频谱幅度不直接相关，于是可根据谱熵值更准确地区分噪声帧和语音帧使提取的特征参数具有更好的鲁棒性。

2.3基于谱熵的谱减法改进

噪声值的估计不准会使谱减去噪时产生音乐噪声，且噪声值随机变化，但其谱熵值变化不大，本文根据各帧的谱熵变化来确定并动态的更新噪声值，每一帧都减去更新后的噪声值，由信号的短时平稳性可知，这样进行谱减更为准确[14]。

基于谱熵噪声估计改进的谱减法 (Improved Spectral Subtraction,ISS)分为3个部分：

1)初始噪声估计，将谱熵值最大的一帧作为噪声帧并将该帧频谱值更新为初始噪声值；

2)噪声更新，根据判断新一帧与前一噪声帧谱熵值的比值是否大于设定阈值r(根据实验，取为0.95)：是则判定此帧为新噪声帧并更新其频谱值为噪声谱值，否则当前帧的噪声值等于前一帧的噪声值；

3)谱减，每一帧减去更新后的噪声值完成消噪。

加入改进谱减法后的MFCC提取算法过程如下：

1)输入含噪语音；

2)对每一语音帧进行FFT变换，得到语音频谱Si，其中，i=1,2,…,N；

3)计算每一帧的谱熵值h(Si)，将谱熵值最大的一帧m作为初始噪声帧，即Noise=Sm；

4)若新的一帧的谱熵值与前一纯噪声帧的比值大于阈值γ(取为0.95)，即h(Sn)/h(Sm)>γ，n=1,2,…,N,此时便更新噪声估计Noise=Sn；

5)利用前面已得到的语音谱Si以及更新后的噪声帧估计Noise进行谱减；

6)输出消噪后的增强语音频谱。

3　GMM-UBM模型

3.1GMM模型

GMM[15]模型原理是若干高斯函数的线性组合可逼近任意曲线，其作为一种概率统计模型能精确地描绘说话人特征参数的概率分布。对于混合度为M、模型参数为λ的GMM，特征矢量为X，则X在该GMM模型下的似然度为：

(15)

(16)

式中，μi表示均值向量，∑i表示协方差矩阵，本文∑i采用对角阵的形式以方便计算。

GMM模型参数包含混合权值、均值矢量及协方差矩阵，即λ={ωi,μi,∑i}，i=1,2,…,M，λ可通过EM算法[16]估计得出。

3.2GMM-UBM模型

GMM模型在训练和测试语音都足够长且语音较纯净的情况下，其识别效果比较理想。当训练语音只有数十秒、测试语音只有几秒时，GMM模型就不能很好地刻画说话人特征。GMM-UBM模型的原理是先利用所有的语音训练得到一个UBM，然后基于MAP(Maximum A Posteriori)自适应UBM得到目标说话人的GMM模型，可用来弥补数据的不足。UBM是一个大型的高斯混合模型，可反映所有说话人语音特征以及环境通道的共性，通过大量说话人在各种环境下的数据训练获得。

在GMM-UBM模型中，对于测试语音的特征矢量序列X={Xi},i=1,2,…,M，每个说话人的对数概率得分计算公式如下：

(17)

式中,λs为目标说话人的GMM模型参数，λUBM为UBM模型参数。

训练阶段利用大量的语音进行训练得到UBM，在UBM的基础上通过MAP自适应得到目标说话人的GMM模型。测试阶段根据已经训练好的UBM模型和GMM模型，利用公式(17)计算出对数概率得分，找到最大的得分者即目标说话人。基于GMM-UBM模型的说话人识别原理框图如下：

采用似然比打分的方式是一种归一化处理，可对不同的目标话人设置统一的判决阈值。识别时分别计算似然度得分，选取最大者对应的目标说话人即为识别结果[17]。

4　实验结果与分析

4.1实验设置

硬件环境：PC个人计算机(Intel(R)Core(TM) i5-3210M CPU@2.5 GHz)。

软件环境：Windows 7操作系统、MATLAB R2010a和CoolEditpro-v2.0录音软件。

实验采用的语音库为自建小型普通话语音数据库。语音文件在普通研究室环境下录制，采样频率为8 kHz，量化精度为16 bit。60名录音者(34名男性、26名女性)随机朗读5分钟(文本无关)。从每人语音中截取UBM训练语音(1 min)、GMM训练语音(10 s)和测试语音(5 s)。为提高本文后续实验的有效性，进行截取时避免所截取的语音段重复。

实验采用13维MFCC与13维ΔMFCC组成的组合参数，按帧长256个采样点、帧移128个采样点逐帧提取语音特征参数。训练阶段依次训练UBM模型(高斯混合度为128)和GMM模型，之后通过MAP自适应得到目标说话人的GMM模型。测试阶段从语料库中选取50个说话人构成测试集，每个人有5段测试语音。

4.2实验结果与分析

实验一：不同信号的幅值及谱熵值的对比：

图3　纯净语音信号S

图5　纯高斯白噪声N

图6　N的谱熵值

图7　加噪语音S1

图8　S1的谱熵值

从图4和图5可以看出，纯净语音信号中语音帧的谱熵值都比较小，在5.8上下波动，静音帧的谱熵值较大，在7.0之上波动；从图6和图7可以看出，纯高斯白噪声的谱熵值较大，在7.5之上波动；从图8和图9可以看出，在含噪语音中，语音帧和噪声帧的谱熵值分别在6.0和7.2左右。因此可据此将谱熵值最大的一帧作为噪声帧，并根据各帧的谱熵变化来确定并动态的更新噪声值。

实验二：低噪环境中GMM与GMM-UBM模型对比：

在未加噪情况下，采用未加入谱减法的MFCC作为特征参数，对比GMM与GMM-UBM模型识别效果，分别取GMM混合度为8,16,32,64进行实验，得出识别率如下表：

表1　不同混合度的GMM模型与GMM-UBM模型对比

由表可见，在基于GMM模型中，混合度为32时的识别性能最好，而GMM-UBM模型识别性能远高于GMM模型。

实验三：不同参数在不同噪声环境中识别率对比：

分别在SNR=10dB、5dB、0dB、-5dB环境下，对未进行语音增强的MFCC、采用基本谱减法(SS)得到的MFCC和采用改进谱减法(ISS)得到的MFCC进行说话人识别实验，得到识别结果如下：

表2　不同信噪比下3种参数识别率　%

由表可见，在相同信噪比环境下，基本谱减法所提取的MFCC性能好于未进行语音增强的MFCC，而本文提出的改进谱减法提取的MFCC性能优于基本谱减法所提取的MFCC。随着信噪比的降低，各方法提取的特征参数识别率均有所下降，本文提出的改进谱减法所提取的MFCC对识别性能的改善更为明显，在SNR=-5dB的环境中也能达到75%以上的识别率，较基本谱减法所提取的MFCC在识别率方面有30%以上的提高。

5　结束语

本文提出了改进谱减法用以改善加性噪声降低说话人识别系统性能的问题，首先介绍了传统的MFCC提取算法，随后对语音增强中的基本谱减法进行改进，并仿真实现了改进谱减法的MFCC提取。基于GMM-UBM系统经加噪测试实验，结果表明改进谱减法提取得到的MFCC较基本谱减法具有更强的鲁棒性，在低信噪比环境中有更好的表现。此外，采用GMM-UBM计算量较大，耗时较长，如何减少识别系统的计算量，提高识别效率将是接下来的研究工作。

[1] 徐子豪,张腾飞. 基于语音识别和无线传感网络的智能家居系统设计[J]. 计算机测量与控制,2012 ,01: 180-182.

[2]张雪英. 数字语音处理及MATLAB仿真[M]. 北京: 电子工业出版社,2011.

[3]Yu G H,Zhao Y L,Wei Z X. A descent nonlinear conjugate gradient method for large-scale unconstrained optimization[J]. Applied Mathematics and Computation,2007,187(2):636-642.

[4]曾祺,甘涛,曾红斌.改进的多窗谱MFCC在说话人确认中的应用[J].计算机系统应用,2014,23(11):192-195.

[5]王路露,夏旭,冯璐,等. 基于频谱方差和谱减法的语音端点检测新算法[J].计算机工程与应用,2014 ,50 (8): 194-197.

[6]李晔,张仁智,崔慧娟,等. 低信噪比下基于谱熵的语音端点检测算法[J]. 清华大学学报(自然科学版),2005,45 (10): 1397-1400.

[7]周国鑫,高勇. 基于GMM-UBM模型的说话人辨识研究[J]. 无线电系统,2014,44(12):14-17.

[8]杨海燕,景新幸,曾招华.基于DSP开发板的语音识别系统的研究[J]. 计算机测量与控制,2013(01): 210-212,220.[9] 吴迪,曹洁,王进花. 基于自适应高斯混合模型与静动态听觉特征融合的说话人识别[J]. 光学精密工程,2013,21(6):1598-1604.

[10] 马义德,邱秀清,陈昱莅,等. 改进的基于听觉掩蔽特性的语音增强[J]. 电子科技大学学报,2008,37(2): 255-25.

[11] 茅正冲,王正创,龚熙. 一种低信噪比下的说话人识别算法研究[J]. 计算机应用与软件,2014,31(12): 218-220,251.

[12] Kitaoka N,Yamamoto K,KusamizuT,et al..Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance[A]. Automatic Speech Recognition & Understanding[C],Kyoto,Japan,2007:607-612.

[13] 李振静,王国胤,杨勇,等. 基于谱熵噪声估计的改进谱减法[J]. 计算机工程,2009,35(18):164-166.

[14] 杜志然,周萍,景新幸,等. 基于谱熵的耳语音增强研究[J]. 传感器与微系统,2012,31(6):69-72.

[15] 蒋晔,唐振民. GMM文本无关的说话人识别系统研究[J]. 计算机工程与应用,2010,46(11):179-182.

[16] 赵立辉,毛竹,霍春宝,等. 基于GMM-SVM的说话人识别系统研究[J]. 工矿自动化,2014,40(5):49-53.

[17] 侯珏,刘轶,郑方,等. 基于VP树结构的多层匹配算法在哼唱识别中的应用[J]. 清华大学学报(自然科学版),2009,49(S1):1419-1424.

Speaker Recognition Using Spectral Subtraction Method Based on Improved Noise Estimation

Li Zhejun1,Zhou Ping1,Jing Xinxing2

(1.School of Electronic Engineering and Automation,Guilin University of Electronic Technology,Guilin541004,China; 2.School of Information and Communication,Guilin University of Electronic Technology,Guilin541004,China)

Aiming at the problem that additive noise in speech signal makes the performance of speaker recognition system degradate when using MFCC. The introduction of traditional spectral subtraction achieved some effect on enhancing noise immunity of MFCC,but the improvement is limited. To get a better result,a novel algorithm of spectral subtract is proposed in this paper. The concept of spectral entropy is introduced based on the spectral subtraction，the noise of each flame is estimated more accurately according to its spectral entropy and subtracted to get better denoising effect. Experimental results show that when there is additive noise in the test speech,compared with traditional spectral subtraction,the speaker recognition system of novel algorithm has better noise immunity and robustness.

speaker recognition; spectral subtraction; spectral entropy; noise estimation; MFCC

1671-4598(2016)04-0155-04DOI：10.16526/j.cnki.11-4762/tp.2016.04.046

TN912.34

2015-10-10；

2015-11-08。

广西研究生教育创新计划资助项目(YCSZ2015152)；国家自然科学基金(61363005)。

李哲军(1990-)，男，湖北天门人，硕士研究生，主要从事语音识别方向的研究。

周萍(1961-)，女，河北唐山人，教授，硕士研究生导师，主要从事智能控制及语音信号处理的研究。

景新幸(1960-)，男，湖北武汉人，教授，硕士研究生导师，主要从事语音识别及其混合集成电路的研究。