基于多窗谱估计谱减法和能熵比法的语音端点检测算法
2016-02-08赵发
赵发
(安徽工程大学,安徽 芜湖 241000)
基于多窗谱估计谱减法和能熵比法的语音端点检测算法
赵发
(安徽工程大学,安徽 芜湖 241000)
语音端点检测是语音处理中非常关键的一个环节,目前主要的语音端点检测算法都侧重于语音特征参数的提取而忽略了之前的语音增强。论文提出一种基于多窗谱估计谱减法和能熵比的语音端点检测复合算法,该算法利用多窗谱估计谱减法将有噪声环境下的语音信号减噪,提高性噪比,达到语音增强的效果,再结合能熵比法进行端点检测。仿真结果表明,算法在低信噪比情况下,可以提高语音端点检测的正确率。
多窗谱估计;谱减法;能熵比;端点检测
语音端点检测属于语音信号处理的范畴[1],是语音识别、语音合成等语音应用方面非常关键的一个环节[2];它是指从一个连续的语音流中检测出有效的语音段,包括检测出有效语音的起始点和结束点。
现在的语音端点检测算法很多,但是主要的方法都是基于特征参数的提取,如基于短时能量和短时过零率的双门限法、倒谱法、谱熵法[3-6]等,这些方法在针对实验室高信噪比语音信号端点检测时能取得较好的效果,但是当在更真实自然的带噪声语音环境中,由于信噪比的降低,信号的特征参数提取变得困难,这时端点检测的性能将急剧下降。针对这种低信噪比的带噪语音信号,目前又提出一些改进检测算法,如基于短时能量和过零率相结合的能零比法,基于频谱方差与谱减法的语音端点检测算法,基于短时能量和谱熵相结合的能熵比法等。但以上算法都侧重于语音特征参数的提取,而对之前的语音增强工作有所忽视,这对低信噪比下的语音端点检测性能将会产生一定的影响。
本文提出一种基于多窗谱估计谱减法和能熵比法的语音端点检测算法改进算法,本算法通过多窗谱估计谱减法将有噪声环境下的语音信号减噪,提高性噪比,达到语音增强的效果,之后利用能熵比法进行语音端点检测。仿真实验结果表明基于多窗谱估计的谱减法和能熵比的复合算法比单纯的能熵比法在低信噪比的情况下检测准确率有了很大的提高。
1 谱减法
谱减法[7]是利用语音信号的短时平稳性,从带噪语音信号中估算噪声的短时谱,然后利用带噪语音短时谱减去噪声的短时谱,从而提高带噪语音的信噪比,达到语音信号的增强效果。
设带噪语音信号的时间序列为x(n),进行加窗分帧后的第i帧带噪语音信号为xi(m),帧长为N,任何一帧语音信号xi(m)做DFT后为:
对Xi(k)求出每个分量的幅值和相角,幅值是,相角是
在谱减中要把这两组数给予保存。
已知前导无话段(噪声段)时长为IS,对应的帧数为NIS,可以求出该噪声段的平均能量值为
谱减算法为
式中,a和b是两个常数,a称为过减因子,b称为增益补偿因子。
图1 谱减法的算法示意图
2 多窗谱估计谱减法
多窗谱估计谱减法[8]是在谱减法的基础上提出的一种改进谱减法,谱减法通过一个窗来求出幅度谱及相位谱,而多窗谱估计谱减法是通过多个相互正交的数据窗分别来求直接谱,然后通过求多个直接谱的平均值来得到谱估计,这样就可以得到比较小的估计方差值。
多窗谱定义如下:
x(n)为数据序列;N为序列长度;L为数据窗长度;ak(n)为第k个数据窗并满足:
多窗谱估计谱减法的算法示意图如下:
图2 多窗谱估计谱减法的算法示意图
通过图2与图1的比较可知多窗谱估计谱减法是在分帧后进行多窗谱功率谱计算的基础上,分别计算了平滑功率谱和噪声平均功率谱,从而导出谱减增益因子,利用谱减因子然后再进行谱减计算,这样可以得到更好的语音增强效果。
3 基于多窗谱估计谱减法和能熵比法的端点检测算法
3.1 能熵比法
3.1.1 对数能量[9]计算
设含噪语音信号的时间序列为x(n),加窗分帧后得到的第i帧语音信号为xi(m),帧长为N,则每一帧的能量为,在这里引入改进的能量计算:
式中,AMPi是计算出的每帧的能量;a是一个常数。由于有a的存在,当a取较大的数值时,AMPi幅值有剧烈变化时将在LEi中得到缓和,所以适当选择a,可有助于区分噪声和清音。
3.1.2 谱熵[10]计算
设含噪语音信号的时间序列为x(n),加窗分帧后得到的第i帧语音信号为xi(m),则经过FFT变换后,设第k条谱线频率分量fk的能量谱为Yi(m),则每个频率分量的归一化谱概率密度函数为
式中,pi(k)为第i帧第k个频率分量fk所对应的概率密度。每个语音帧的短时谱熵为
3.1.3 能熵比计算
3.2 算法实现步骤
(1)给带噪语音x(n)进行加窗分帧,采用汉明窗,相邻帧有重叠,xi(m)为加窗分帧后的第i帧信号。
(2)对xi(m)进行FFT,并计算出幅度谱以及相位谱,同时在相邻帧做平滑处理,计算出平均幅度谱
以i帧为中心前后各取M帧,共有2M+1帧进行平均。实际中可取M为1或2。
(3)对xi(n)进行多窗谱估计,计算平滑功率谱和噪声平均功率谱,并计算出谱减增益因子。
(6)计算增强后信号的对数能量和谱熵,并由二者计算出能熵比。
(7)根据双门限法进行端点检测。
4 仿真实验结果与分析
针对本文提出的复合算法,利用MATALB进行仿真并进行分析。首先在实验室环境下录制一段中文语音“电子信息工程”的纯净语音信号,采样频率为8KHz,利用汉明窗对此段语音进行加窗分帧,帧长为240点,帧移为80点,相邻帧重叠160点;其次对信号进行预加重,提升语音在高频部分的能量;最后给此语音信号添加加性高斯白噪声来形成带噪语音信号。图3、图4是基于多窗谱估计谱减法和能熵比法的复合算法在信噪比是0 dB和-5 dB时的端点检测波形;图5、图6是没有进行多窗谱估计谱减法的单纯能熵比法的端点检测波形。图中的实线部分是有效语音的起始点,虚线部分是有效语音的结束点。比较在低信噪比条件下本文算法与单纯用能熵比算法的端点检测的性能。从图3、图4可以看出,经过多窗谱估计谱减法后,语音信号的信噪比有了很大的提高,SNR=0 dB时,提高到11.01 dB;SNR=-5 dB时,提高到6.79 dB;同时,语音端点检测效果也很好。而从图5、图6可以看出,在SNR=0 dB和-5 dB时,由于信噪比的下降,纯能熵比的端点检测效果受到很大影响,甚至出现了检测错误的情况,如语音“电子信息工程”中的最后一个“程”字完全被漏检。由以上分析可知,本文基于多窗谱估计谱减法和能熵比法的复合算法在处理低信噪比的带噪语音信号时,首先通过多窗谱估计谱减法大大提高了信噪比,然后再利用能熵比进行端点检测。这种复合算法的检测效果比直接用能熵比法进行端点检测的效果要好很多。
图3 SNR=0 dB时的复合算法端点检测
图4 SNR=-5 dB时的复合算法端点检测
图5 SNR=0 dB时的能熵比算法端点检测
图6 SNR=-5 dB时的能熵比算法端点检测
为了更好地比较本文算法与纯能熵比算法的性能,通过端点检测正确率[11]来进一步比较,端点检测正确率定义为:
其中总帧数为语音的分帧后的总帧数,错误帧数为语音误判为噪声的帧数与噪声被误判为语音的帧数之和。通过表1可知,本文基于多窗谱估计谱减法和能熵比的复合算法的端点检测正确率在低信噪比时要远远高于直接用能熵比进行的端点检测正确率;在高性噪比时要略高于直接用能熵比进行的端点检测正确率。
表1 端点检测正确率比较
5 结束语
本文把多窗谱估计谱减法和能熵比法相结合,提出基于多窗谱估计谱减法和能熵比的端点检测算法,多窗谱估计谱减法是在多窗谱功率谱计算的基础上,分别计算了平滑功率谱和噪声平均功率谱,从而导出谱减增益因子,改善了谱减功能。实验结果表明,本文复合算法与直接用能熵比算法相比较,本文算法在低信噪比环境下检测效果更好,准确率更高,并能改善信号的抗噪声性能,该算法结合了多窗谱估计谱减法和能熵比的优点,使得该算法具有更好的端点检测性能。
参考文献:
[1]董胡,钱盛友.改进的能量谱熵端点检测算法[J].测控技术,2016,(6):26-29.
[2]李晋,刘甫,王玲,等.改进的语音端点检测技术[J].计算机工程与应用,2009,(24):133-135.
[3]ZEDDELMANN D V.A feature-based approach to noise robust speech detection[J].ITG-Fachbericht,2012,(9):243-246.
[4]王民,孙广,沈利荣.基于对数能量倒谱特征的端点检测算法[J].计算机工程与应用,2014,(16):198-201.
[5]董胡.倒谱距离和短时能量的语音端点检测方法研究[J].计算机技术与发展,2014,(7):77-79.
[6]MA Y N,NISHIHARA A.Efficient voice activity detection algorithm using long-term spectral flatness measure[J].EURASIP Journal on Audio,Speech,and Music Processing,2013,(1):21.
[7]姜占才,孙燕,王得芳.基于谱减和LMS的自适应语音增强[J].计算机工程与应用,2012,(7):142-145.
[8]彭军,王忠,刘兴涛.基于多窗谱相关加权语音增强[J].计算机仿真,2011,(3):142-145.
[9]徐岩,孟静.基于粉红噪声的语音增强算法性能评价研究[J].铁道学报,2011,(4):53-58.
[10]张满,陶亮,周健.基于实值离散Gabor变换的谱减法语音增强[J].计算机工程与应用,2012,(29):109-113.
[11]赵欢,王纲金,赵丽霞.一种新的对数能量谱熵语音端点检测方法[J].湖南大学学报(自然科学版),2010,(7):72-77.
A STUDY OF ESTIMATING THE SPEECH ENDPOINT DETECTION AlGORITHM OF SPECTRAL SUBTRACTION AND ENERGY-ENTROPY RATIO BASED ON MULTI-TAPER SPECTRAL METHOD
ZHAO Fa
(Anhui Polytechnic University,Wuhu Anhui 241000)
Speech endpoint detection is a very important part of speech processing.At present,the main endpoint detection algorithms mainly focus on the extraction of phonetic characteristic parameters but ignore the previous speech enhancement.In this paper,a speech endpoint detection composite algorithm based on multi-taper spectral estimation of spectral subtraction and energy entropy ratio is proposed.The algorithm can denoise the speech signal in noisy environment and improve the SNR(signal-noise ratio)to achieve the effect of speech enhancement by using multi-taper spectral estimation of spectral subtraction.Then the energy entropy ratio method is used for endpoint detection.Simulation results show that under the condition of low SNR,the algorithm can improve the accuracy of speech endpoint detection.
Multi-taper spectral estimation;Spectral subtraction;Energy-entropy ratio;Endpoint detection
TN912.3
A
1672-2868(2016)06-0080-06
责任编辑:杨松水 校对:袁宗文
2016-10-15
赵发(1983-),男,安徽巢湖人。安徽工程大学电气与工程学院,讲师。研究方向:信息处理。