基于最小控制GARCH模型的噪声估计算法
2016-05-06孟宪波鲍长春
孟宪波,鲍长春
(北京工业大学电子信息与控制工程学院语音与音频信号处理实验室,北京100124)
基于最小控制GARCH模型的噪声估计算法
孟宪波,鲍长春
(北京工业大学电子信息与控制工程学院语音与音频信号处理实验室,北京100124)
摘要:MCRA(Minima-Controlled Recursive Averaging)方法是经典的噪声估计算法,然而在语音段MCRA方法存在不能对噪声功率谱进行有效更新的问题.针对这一问题,本文利用广义自回归条件异方差(Generalized Autoregressive Conditional Heteroskedasticity,GARCH)模型在时频域对噪声信号建模,在MCRA算法原理的基础上,提出了基于最小控制GARCH模型的噪声估计算法,实验结果表明,本文所提的噪声估计算法能够更为准确估计噪声功率谱,将该算法应用到语音增强中能够获得到较好的语音增强效果.
关键词:噪声估计;GARCH模型;MCRA算法;语音增强
1引言
语音通信过程中不可避免地受到来自周围环境噪声的干扰.语音增强的目是尽可能地抑制噪声,有效地提高信噪比,同时保证很高的主客观语音质量,提高语音的整体听觉效果.经过最近几十年的发展,学者们提出了许多种单通道的语音增强算法.在单通道的语音增强算法中,噪声估计算法的性能直接影响着增强后语音的效果.因此,噪声估计算法一直是各国学者广泛研究的重要课题[1,2].
基于最小统计量(MS,Minimum Statistics)的噪声估计算法[3]可以在搜索窗中较好地搜索噪声功率谱的最小值,但该方法对于噪声突变情况适应性较差.MCRA噪声估计算法把MS方法与递归平均方法结合到了一起[4],比MS方法更为平稳和更具适应性.然而根据MCRA算法原理,在语音存在的假设条件下,只是简单的利用前一帧的噪声功率谱来更新当前帧信号的噪声功率谱.因此,一但搜索窗内的语音成分较强时,此算法不能很好地跟踪噪声信号功率谱的变化.
近些年,GARCH模型广泛应用在金融预测和统计等领域,它对波动簇信号的预测有很好的表现,已经有研究者利用GARCH模型对语音信号建模,并在语音增强中取得了很好的效果,但在噪声估计中鲜有研究.为了解决MCRA算法在语音成分较强时不能很好的跟踪噪声信号功率谱变化的问题,本文结合噪声信号的功率谱具有波动簇信号的特点,尝试利用GARCH模型在时频域对噪声信号建模,在MCRA算法原理的基础上,提出了一种基于最小控制GARCH模型(MC-GARCH,Minima-Controlled GARCH)的噪声估计算法.根据MCRA算法原理,在语音存在的假设条件下,利用针对噪声信号建立的GARCH(1,1)模型递推公式对噪声功率谱进行计算更新.这样就可以在语音存在段实现对噪声功率谱的有效跟踪和更新,得到更为准确的噪声功率谱估计.实验结果表明,本文提出的基于MC-GARCH模型的噪声估计算法,能够更为有效的估计噪声信号功率谱,当将所提算法应用到语音增强算法中时,得到了更好的增强效果.
2噪声信号的GARCH建模方法
2.1GARCH原理简介
GARCH是常用的统计分析模型工具中时间序列模型的一种,其基本原理是用过去时间的误差和方差信息来预测当前时刻的方差.GARCH对于方差时变的波动簇时间序列预测有很好的效果,这使得GARCH在数据处理方面有重要的应用.2004年有学者首次将GARCH应用到语音信号处理中[5].其基本原理如下.
(1)
定义yt在以t-1时刻为信息条件下的条件方差为λt,那么条件方差λt可用如下公式表示为
(2)
通过用过去p个时刻的条件方差和过去q个时刻的条件预测误差建立当前时刻条件方差λt的如下函数关系,
(3)
我们就完成了一个(p,q)阶的广义自回归条件异方差模型,记作GARCH(p,q)[5].
GARCH(p,q)模型通常用线性方程表示为[6]
(4)
式中κ、αi、βj是模型参数,且满足
κ>0,αi≥0,βj≥0
i=1,…,;j=1,…,p
由于最为简单的GARCH(1,1)模型也隐含地考虑到了过去若干时刻信息对当前时刻的影响,因此在实际应用中GARCH(1,1)模型最为常用.
2.2噪声的GARCH建模
通过分析可知,噪声信号的STFT(Short Time Fourier Transform)系数满足利用GARCH建模的基本条件.即噪声信号的STFT系数的方差具有波动性,其时频域在统计分布上具有重尾效应,此外,噪声信号具有一个重要的特点:当在同一频点上观察连续时间的噪声信号的STFT系数序列时可以发现,相邻时刻的STFT系数的幅度高度相关.因此我们尝试利用GARCH模型在时频域对噪声信号建模.
首先,定义实际噪声信号的STFT系数谱为Dt,k,Θt-1表示已知的前一时刻条件信息,那么就可以得到在信息Θt-1为条件下的当前时刻噪声信号STFT谱系数的误差,
σe(t,k)=Dt,k-E{Dt,k|Θt-1}
(5)
式中σe(t,k)是噪声信号STFT谱系数的预测误差,t是帧标号,k是频点序号.
而噪声信号STFT谱系数的方差可以表示为
=E{(Dt,k-E{Dt,k|Θt-1})2}
(6)
由于通常情况下假设Dt,k具有零均值,所以进一步可以得到
(7)
根据GARCH建模原理,可以得到关于噪声信号STFT谱系数的GARCH(p,q)模型为
(8)
为实际应用,定义噪声信号功率谱预测的GARCH(1,1)模型为
(9)
式中式中α,ρ,η为模型参数.满足
α>0,ρ>0,η>0,ρ+η<1
这样,式(9)就是我们所要建立的关于噪声信号STFT谱系数的GARCH(1,1)模型的递推表达式.
3基于MC-GARCH模型的噪声估计
3.1估计原理
在基于语音存在和语音不存在的两种假设基础上,MCRA噪声估计算法针对语音存在与否,给出如下表达式[4]:
(10)
分析式(10)可知,MCRA噪声估计算法只在语音不存在时更新噪声信号的功率谱估计,而当语音存在时,噪声信号每个频点的功率谱估计用上一帧该频点的噪声估计结果近似代替.因此,MCRA噪声估计算法不能在语音存在段对噪声进行有效的估计更新,因此会影响噪声估计算法的准确性.
(11)
从式(10)可以看出,其得到的噪声功率谱估计实质是以第t-1帧噪声功率谱估计为条件下的第t帧噪声功率谱估计.因此式(11)就可以表示为
(12)
对比式(10)和式(11)可以发现,MCRA噪声估计方法在语音存在时刻只是利用前一帧的噪声功率谱来更新得到当前帧的噪声功率谱,这就使得MCRA对语音存在段的噪声估计能力较弱,而本文利用GARCH模型在语音存在段对噪声信号建模,利用了GARCH模型对波动信号的预测的性能优势,能够较好跟踪噪声信号的波动趋势.从而使得本文所提的噪声估计方法可以更为准确的估计噪声,尤其是在语音存在段,本文提出方法的效果更为明显.
(13)
当令模型参数α=(1-β)|Yt,k|2,而参数η=β时,上式就可以简化为
(14)
进一步令γ=1-β,可得
(15)
式中γ,ρ,η为参数因子,根据实验经验取得,满足γ>0,ρ>0,η>0,ρ+η<1.这里分别取γ=0.005,ρ=0.3,η=0.6.
从式(15)可以看出本文所提噪声估计算法的递推关系式同样为一个GARCH(1,1)模型的形式,与MCRA噪声算法相似,本文所提噪声估计算法的递推关系式同样受到pt,k的影响,因此将本文提出的噪声估计算法称为最小控制GARCH模型噪声估计算法,记为MC-GARCH.而语音存在概率也是同通过在时间窗内搜索含噪信号的功率谱最小值并与含噪信号平滑功率谱比较判定的方法得到的,文献[7]中给出了求解语音存在概率pt,k的详尽算法,这里不再赘述.
3.2噪声估计误差项的更新方法
表1 子带划分表
(16)
而带减系数εn不同子带对应不同的值,即
(17)
其中ε1,ε2,ε3为验经因子,这里取ε1=1.5,ε2=2.5,ε3=1.2.
然后根据含噪信号的功率与增强语音功率谱的比值的方式找到对应的过减系数φn,定义比值为SSRn
(18)
(19)
(20)
式中常数因子ζ取0.001
通过以上过程就完成了对噪声信号功率谱估计的误差项更新过程.
4实验及测试结果分析
本文实验采用的纯净语音信号选自NTT标准语音库中的中文子库,采样率为8kHz.噪声信号选自ITU-T噪声库.
下面将给出本文所提算法和参考算法得到的在特定频率处的噪声功率谱估计曲线.
图2和图3分别是在白噪声和有色噪声(street)条件下的含噪语音信号频谱图和在频率约为680Hz处MC-GARCH模型法、MCRA方法和MS方法所对应的噪声功率谱估计曲线比较示例.从中可以看出,本文提出的MC-GARCH模型算法对应的噪声功率谱估计能够较好的跟踪噪声信号功率谱的趋势.特别是在有语音成分存在的时间段,MC-GARCH模型算法能够较好地更新噪声功率谱估计,这是因为本文在语音存在时段引入了GARCH对噪声信号建模,而GARCH模型对于在时频域上具有波动簇特性的噪声信号有很好的估计效果.因此,相对MCRA方法,MC-GARCH模型法可以在语音存在时段对噪声功率谱估计进行更为有效的更新.
针对噪声估计算法在噪声估计方面的性能表现,本文采用计算均方误差(MSE)的方法对所提出的噪声估计算法和参考方法进行测评.它能反映估计噪声与实际噪声之间的接近程度,相对估计误差值越小则表明估计噪声功率谱越接近实际噪声的功率谱[9].
相对估计误差(MSE)定义如下:
(21)
在信噪比为0dB、5dB、10 dB和15dB下,本文分别对白噪声、street噪声、volvo噪声和babble噪声功率谱估计进行了MSE测评,结果如表2~5所示.
分析各表可以看出在不同信噪比和不同噪声环境中,本文提出的MC-GARCH模型噪声估计方法的MSE均明显小于参考算法,这说明本文提出的算法对噪声的估计更为准确.原因是MC-GARCH模型噪声估计方法可以在语音存在段有效的更新噪声估计,因此本文所提算法比参考算法更为准确有效.
为进一步说明本文所提方法的优势,图4给出了一段基于统计模型[7]的增强语音的语谱比较示例,噪声为街道噪声,输入信噪比为10dB,使用的噪声估计方法分别为MS法、MCRA法和MC-GARCH模型法,图4(a)~图4(d)分别对应含噪语音的语谱、用MS增强的语谱、用MCRA增强的语谱和用MC-GARCH模型增强的语谱.从频谱图可以看出本文提出的MC-GARCH模型噪声估计算法对应的图4(d)中的噪声残留明显少于参考方法,并且语音成分也得到了较好的保留.尤其是在语音存在时间段,与参考方法相比,MC-GARCH模型方法对应的图4(d)中的噪声得到了较好的消除.
表2 白噪声功率谱估计的MSE比较
表3 street噪声功率谱估计的MSE比较
表4 volvo噪声功率谱估计的MSE比较
表5 babble噪声功率谱估计的MSE比较
5结论
针对经典MCRA噪声估计方法在语音段不能对噪声信号进行有效更新的问题.本文利用GARCH模型在时频域对噪声信号建模,在MCRA算法原理的基础上,提出了基于MC-GARCH模型的噪声估计算法,实验及测试结果表明,与参考算法相比,本文提出的基于MC-GARCH噪声估计算法可以更为有效地跟踪噪声信号的变化,能够较为准确的进行噪声信号功率谱估计,当应用到语音增强后算中可以获得较好的增强效果.
参考文献
[1]Hendriks R C,Heusdens R,Jensen J.MMSE based noise PSD tracking with low complexity[A]. 2010 International Conference on Acoustics,Speech,and Signal Processing[C].Dallas,Texas,USA:IEEE Press,2010.4266-4269.
[2]张东方,蒋建中,张连海.一种改进型IMCRA非平稳噪声估计算法[J].计算机工程,2012,38(13):270-272.
Zhang Dong-fang,Jiang Jian-zhong,Zhang Lian-hai.Improved IMCRA non-stationary noise estimation algorithm[J].Computing Engineering,2012,38(13):270-272
[3]Martin R.Spectral subtraction based on minimum statistics[J].European Signal Processing Conference,1994,1182-1185.
[4]Cohen I,Berdugo B.Noise estimation by minima controlled recursive averaging for robust speech enhancement[J].Signal Processing Letters,IEEE,2002,9(1):12-15.
[5]Cohen I.Modeling speech signals in the time-frequency domain using GARCH model[J].European Signal Processing,2004,84(12):2453-2459.
[6]Cohen I,Speech spectral modeling and enhancement based on generalized autoregressive conditional hetero-skedasticity models[J].European Signal Processing,2006,86(4):698-709.
[7]Loizou P.Speech Enhancement:Theory and Practice[M].Boca Raton,FL,USA:CRC Press,2007.435-439.
[8]Kamath S,Loizou P.A multi-band spectral subtraction method for enhancing speech corrupted by colored noise[A].IEEE International Conference on Acoustics Speech and Signal Processing[C].Orlando,Florida,USA:IEEE,2002.4164-4164.
[9]周旋.基于统计模型和经验模式分解的宽带语音增强技术研究[D].北京:北京工业大学,2012.
孟宪波男,1987年出生,河北承德人,北京工业大学硕士研究生,主要研究方向为语音与音频信号处理.
E-mail:mengxianbo@emails.bjut.edu.cn
鲍长春(通信作者)男,1965年出生,内蒙古赤峰人,博士,北京工业大学教授、博士生导师,IEEE 高级会员,国际语音通信学会(ISCA)会员,亚太信号与信息处理学会(APSIPA)会员,中国电子学会理事,中国声学学会理事,信号处理专业委员会委员.主要研究方向为语音与音频信号处理.
E-mail:chchbao@bjut.edu.cn
Noise Estimate Algorithm Based on Minima Controlled GARCH Model
MENG Xian-bo,BAO Chang-chun
(SpeechandAudioSignalProcessingLaboratory,SchoolofElectronicInformationandControlEngineering,BeijingUniversityofTechnology,Beijing100124,China)
Abstract:Considering the problem that the typical MCRA (Minima-Controlled Recursive Averaging) noise estimate algorithm fails to update the power spectrum of noise effectively when the speech is present,so this paper proposes a noise estimate algorithm based on minima controlled GARCH model.The noise signal is modeled as a GARCH process in time-frequency domain and then the proposed noise estimate algorithm is achieved combined with the basis of the framework of MCRA method.Experimental and testing results indicate that the proposed algorithm can estimate the spectrum of noise more accurately compared with the reference methods.When the proposed algorithm is applied into speech enhancement,a better performance can be achieved as well.
Key words:noise estimate;GARCH model;MCRA algorithm;speech enhancement
作者简介
DOI:电子学报URL:http://www.ejournal.org.cn10.3969/j.issn.0372-2112.2016.03.037
中图分类号:TN912.3
文献标识码:A
文章编号:0372-2112 (2016)03-0747-06
基金项目:国家自然科学基金(No.61471014)
收稿日期:2014-10-08;修回日期:2015-04-28;责任编辑:梅志强