一种基于MMSE-LSA和VAD的语音增强算法
2014-08-08晏光华
【摘要】通过介绍语音增强的特点,详细分析了最小均方误差对数谱幅度估计(MMSE-LSA)算法,并提出了与MMSE-LSA算法相匹配的语音激活检测(VAD)算法。该方案计算简单、易于实现且语音增强效果好,能够动态地跟踪背景噪声的变化。最后通过仿真分析,比较了MMSE-LSA与其它几种语音增强算法的增强效果。
【关键词】MMSE-LSAVAD语音增强
中图分类号:TN912.35文献标识码:B文章编号:1006-1010(2014)-10-0059-04
A Speech Enhancement Algorithm Based on MMSE-LSA and VAD
YAN Guang-hua
[Abstract] The minimum mean square error of log-spectral amplitude estimator (MMSE-LSA) algorithm is analyzed in detail by introducing the characteristics of speech enhancement, and voice activity detection (VAD) algorithm matching with MMSE-LSA algorithm is proposed. This scheme is simple and easy to implement and its speech enhancement effect is good. In addition, it can track the changes of background noise dynamically. Finally, the enhancement effect of MMSE-LSA is compared with that of other algorithms by the analysis of simulation.
[Key words]MMSE-LSAVADspeech enhancement
1 引言
在语音通信特别是军用语音通信中,各类的噪声干扰较为普遍,坦克、飞机、舰船上的电台常常会受到很强的背景噪声干扰,严重影响语音通信的质量和效果。普通滤波手段作用有限,难以有效地消除噪声,因此有必要采用语音增强技术,提高语音通信的效果。
语音增强是消除语音中噪声干扰的重要手段,它在语音低速编码、语音识别和人机语音交互等领域都有着重要的应用,在军用语音通信中具有重要的意义。语音增强的基本思想是从与噪声混淆的语音信号中提取纯净的语音信号,消除背景噪声的影响,提高语音的清晰度和自然度,使收听者能够更清楚、更舒适地听清话音。典型的语音增强算法有减谱法、自适应滤波、维纳滤波、最小均方误差估计(MMSE)等。其中,减谱法及其改进算法会存在较明显的音乐噪声;自适应滤波和维纳滤波算法会造成语音信号的失真;而基于短时谱分析的最小均方误差估计(MMSE-STSA)算法的语音增强效果最优,对背景噪声的抑制度高、使语音信号的失真度低。
本文详细分析了一种改进的MMSE-STSA算法——最小均方误差对数谱幅度估计(MMSE-LSA)算法,并利用该算法对数谱幅度已知的特点,提出了仅需对数谱幅度的VAD算法与之结合使用,最后还给出了测试结果和结论。
2 MMSE-LSA原理
语音增强是从语音和人讲话的特点发展而来,人们在说话的时候总是存在停顿,据统计停顿时间约占讲话总时间的40%~60%。而收听到的语音信号可以看作净语音与噪声的叠加,因此在讲话的停顿时间就认为只存在噪声而不存在语音。利用语音激话检测(VAD)算法判断语音的停顿,并统计噪声,最后利用MMSE 算法估计出纯净的语音。语音增强的处理对象是语音信号,效果表现形式是人耳对语音的感知,在做数字信号处理时需要以下两点作为依据:
(1)语音信号是时变、非平稳随机过程,但是它在10~30ms可以近似看成平稳的;
(2)人耳对语音的感知主要依赖语音信号的幅度,而对其相位不敏感。
MMSE-LSA算法的结构如图1所示。首先根据语音信号的准平稳特性对语音信号进行分帧处理,这样每一帧信号都认为具有平稳特性,再求出每帧信号的短时频谱,提取特征参数;然后利用VAD算法判断每帧信号是噪声还是含噪语音,并用MMSE方法估计出纯净语音的短时谱幅度(STSA);最后利用人耳对语音相位不敏感的特性,用输入信号的短时谱相位和估计的短时谱幅度重构语音信号,从而得到增强后的语音信号。
图1MMSE-LSA算法结构图
设收到的带噪语音信号y(t)可以表示为:
y(t)=x(t)+n(t)(1)
其中,x(t)为纯净的语音信号;n(t)为加性噪声。
根据语音信号短时平稳的特性,对输入的带噪语音信号y(t)分帧,为了避免分帧时产生截断效应,影响话音质量,对分帧的信号加窗处理。同时,为了保证输出语音的连续性,采用滑动窗方式分帧。出于硬件平台对FFT运算的要求,本文处理的帧长度为256点,每帧更新100采样点,采用汉明窗。分帧后的语音信号如式(2)所示:
(2)
其中,yn(t)表示滑动窗分帧后的第n帧信号;H(t)表示汉明窗;为加窗后的语音信号。
对做FFT运算,得到语音信号的第n帧短时频Yn(W),通过VAD判断每一帧的输入信号是噪声或者是含噪语音信号,并利用判断结果更新噪声短时谱幅度的统计值N(W)。根据人耳对相位不敏感的特性,只考虑短时谱的幅度,利用|Yn(W)|2和|N(W)|2可以直接求得后验信噪比。后验信噪比可以表示成当前输入信号功率与噪声功率的比值。由于当前输入信号功率可以近似看作语音信号功率与噪声功率之和,因此后续的计算要减1。后验信噪比可以表示为:
(3)
使用后验信噪比计算增益函数固然可以起到语音增强的目的,但是使用先验信噪比计算增益函数能更加有效地抑制音乐噪声。采用直接判决法(DD)对先验信噪比进行估计,如式(4)所示:
(4)
其中,Yn-1(W)为上一帧输入的语音信号;Gn-1(W)为上一帧的增益;α为平滑系数,范围为0~1;max{}表示两者中值较大的一个。通过式(4)可以看出,先验信噪比是以递推方式求出的。
根据选取代价函数的不同,增益因子可以衍生出多种估计行形。其中,基于先验信噪比的对数谱估计增益函数能较好地消除噪声。增益函数如式(5)所示,其中积分为指数积分函数。
(5)
通过增益函数可求得增强后的语音信号短时谱,如式(6)所示:
Xn(W)=Gn(W)*Yn(W) (6)
用IFFT运算将估计的纯净语音信号短时谱Xn(W)变换为时域信号,并通过窗叠加保证输入输出的点数一致。
endprint
3 VAD检测
在语音增强方案中,VAD算法是非常重要的一部分。由于现实环境中大部分的背景噪声是非平稳的,为了保证语音增强的效果,需要时刻跟踪背景噪声的变化。VAD的目的就是判断输入的语音信号是语音还是背景噪声,同时VAD判断的准确程度直接影响着语音增强的效果。根据语音在短时能量、短时过零率、倒谱系数等方面的特征,VAD具有多种算法。本文采用的VAD算法利用语音信号的短时全带能量包络、低通带能量包络和高通带能量包络进行决策,计算量小且准确度高,能够在低信噪比下保持较小的虚警概率。
根据以上对MMSE-LSA的描述可知,在VAD检测中语音信号的短时对数谱幅度是已知的,VAD算法仅需要对各子带的能量进行简单的计算和判决,而不需要再计算语音信号的短时能量。接收语音信号的全带能量Ep、低通带能量Elp和高通带能量Ehp计算公式分别如下:
(7)
(8)
(9)
其中,p表示输入语音信号的第p帧;n表示全带的各频点;l表示截止频率以内的各频点;h表示截止频率以外的各频点。为了平滑各带能量值,在几帧内对能量做一阶低通滤波处理,若能量增加则不做平滑处理,防止造成拖尾效应。最后,算法利用每帧信号各带能量的最大值、最小值进行VAD检测。VAD算法的流程图如图2所示。
VAD算法首先要初始化能量包络的各参数,根据人讲话的特点,假设语音开头的100~200ms为背景噪声,利用这段时间的语音信号能量平均值初始化包络参数如下:
Emin=Ep,Emax=Ep(10)
Elp.min=Elp,Elp.max=Elp (11)
Ehp.min=Ehp,Ehp.max=Ehp (12)
对三个子带包络能量的最大值、最小值做一阶滤波平滑处理,并计算每个子带能量最大值和最小值之间的差值。
Δ=Emax-Emin(13)
Δlp=Elp.max-Elp.min (14)
Δhp=Ehp.max-Ehp.min (15)
最后,对各包络能量进行多边界判决得出VAD检测的结果。多边界判决的门限值η和权值pc可以自适应地调整以满足不同的需求。
4 仿真结果分析
如何客观地评价语音效果是一项非常重要且繁琐的工作,因为语音的最终目的是让收听者听清话音,需要根据人耳独特的听觉特性来评价语音质量的好坏。目前还没有比较客观的方法来准确地评价语音质量的好坏,所以测试大多采用主观评价方法。常用的主观评价方法有平均意见得分(MOS)、判断韵字测试(DRT)和判断满意度测试(DAM)。目前国际上最通用的主观评价方法是MOS评价,它是从绝对等级评价法发展而来,用于对语音整体满意度或语音通信系统质量的评分。标准的MOS测试要求参加测试的实验者人数应在40人以上,所测试的语音材料要足够丰富,测试环境要尽量保持一致。
由于实际的测试条件有限,本文对语音增强效果的评价采用了简单化的平均意见得分(MOS)方法,并根据增强语音对语音信号本身的失真程度以及背景噪声的抑制程度进行综合评价。测试者仅限于实验室的8个人,语音增强的语料库采用了不同信噪比下自录的男生、女生及标准播报员声音测试,噪声选用包括白噪声在内的noise92噪声库的多种噪声。
本文在VC平台上实现了几种语音增强方法,包括:MMSE-LSA、基本减谱法、多带减谱法、维纳滤波法。经过实验者仔细测试比对得出结论:基本减谱法语音增强效果最差,存在较明显的音乐噪声,同时对背景噪声的抑制也不够;多带减谱法虽然减少了部分的音乐噪声,但是语音信号本身的失真较严重;MMSE-LSA和维纳滤波法语音增强效果最好,但是通过对各种背景噪声下的语音测试发现,维纳滤波法对于语音信号的失真要比MMSE-LSA严重,并且在低信噪比下语音效果不如MMSE-LSA方法。总体来说,语音增强对于白噪声之类的平稳背景噪声具有较好的抑制效果,而对于机关枪等非平稳背景噪声的抑制效果不明显。图3给出了0dB白噪声下MMSE-LSA方法语音增强的语音波形图:
5 结语
本文研究了最小均方误差对数谱幅度估计(MMSE-LSA)语音增强算法,并利用MMSE-LSA对数谱幅度已知的特点采用了简单高效的VAD算法。通过对仿真结果进行详细分析,比较了MMSE-LSA与其它几种语音增强算法的增强效果。MMSE-LSA能够有效地消除白噪声之类的平稳噪声,但是对于突发的非平稳噪声效果不明显,仍有待于进一步研究。
参考文献:
[1] 易克初,田斌,付强. 语音信号处理[M]. 北京: 国防工业出版社, 2000.
[2] Rabiner L R, Schafer R W. 语音信号数字处理[M]. 朱雪龙,等译. 北京: 科学出版社, 1983.
[3] Y Ephraim, D Malah. Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1984: 1109-1121.
[4] Rainer Martin. Spectral Subtraction Based on Minimum Statistics[C]. Proc Eur Signal Processing Conf, 1994: 1182-1185.
[5] Rainer Martin. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2001,9(5).
[6] Mark Marzinzik, Birger Kollmeier. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2002,10(2).★
作者简介
晏光华:学士毕业于大连舰艇学院,现任职于海军司令部信息化部,主要研究方向为无线通信。
endprint
3 VAD检测
在语音增强方案中,VAD算法是非常重要的一部分。由于现实环境中大部分的背景噪声是非平稳的,为了保证语音增强的效果,需要时刻跟踪背景噪声的变化。VAD的目的就是判断输入的语音信号是语音还是背景噪声,同时VAD判断的准确程度直接影响着语音增强的效果。根据语音在短时能量、短时过零率、倒谱系数等方面的特征,VAD具有多种算法。本文采用的VAD算法利用语音信号的短时全带能量包络、低通带能量包络和高通带能量包络进行决策,计算量小且准确度高,能够在低信噪比下保持较小的虚警概率。
根据以上对MMSE-LSA的描述可知,在VAD检测中语音信号的短时对数谱幅度是已知的,VAD算法仅需要对各子带的能量进行简单的计算和判决,而不需要再计算语音信号的短时能量。接收语音信号的全带能量Ep、低通带能量Elp和高通带能量Ehp计算公式分别如下:
(7)
(8)
(9)
其中,p表示输入语音信号的第p帧;n表示全带的各频点;l表示截止频率以内的各频点;h表示截止频率以外的各频点。为了平滑各带能量值,在几帧内对能量做一阶低通滤波处理,若能量增加则不做平滑处理,防止造成拖尾效应。最后,算法利用每帧信号各带能量的最大值、最小值进行VAD检测。VAD算法的流程图如图2所示。
VAD算法首先要初始化能量包络的各参数,根据人讲话的特点,假设语音开头的100~200ms为背景噪声,利用这段时间的语音信号能量平均值初始化包络参数如下:
Emin=Ep,Emax=Ep(10)
Elp.min=Elp,Elp.max=Elp (11)
Ehp.min=Ehp,Ehp.max=Ehp (12)
对三个子带包络能量的最大值、最小值做一阶滤波平滑处理,并计算每个子带能量最大值和最小值之间的差值。
Δ=Emax-Emin(13)
Δlp=Elp.max-Elp.min (14)
Δhp=Ehp.max-Ehp.min (15)
最后,对各包络能量进行多边界判决得出VAD检测的结果。多边界判决的门限值η和权值pc可以自适应地调整以满足不同的需求。
4 仿真结果分析
如何客观地评价语音效果是一项非常重要且繁琐的工作,因为语音的最终目的是让收听者听清话音,需要根据人耳独特的听觉特性来评价语音质量的好坏。目前还没有比较客观的方法来准确地评价语音质量的好坏,所以测试大多采用主观评价方法。常用的主观评价方法有平均意见得分(MOS)、判断韵字测试(DRT)和判断满意度测试(DAM)。目前国际上最通用的主观评价方法是MOS评价,它是从绝对等级评价法发展而来,用于对语音整体满意度或语音通信系统质量的评分。标准的MOS测试要求参加测试的实验者人数应在40人以上,所测试的语音材料要足够丰富,测试环境要尽量保持一致。
由于实际的测试条件有限,本文对语音增强效果的评价采用了简单化的平均意见得分(MOS)方法,并根据增强语音对语音信号本身的失真程度以及背景噪声的抑制程度进行综合评价。测试者仅限于实验室的8个人,语音增强的语料库采用了不同信噪比下自录的男生、女生及标准播报员声音测试,噪声选用包括白噪声在内的noise92噪声库的多种噪声。
本文在VC平台上实现了几种语音增强方法,包括:MMSE-LSA、基本减谱法、多带减谱法、维纳滤波法。经过实验者仔细测试比对得出结论:基本减谱法语音增强效果最差,存在较明显的音乐噪声,同时对背景噪声的抑制也不够;多带减谱法虽然减少了部分的音乐噪声,但是语音信号本身的失真较严重;MMSE-LSA和维纳滤波法语音增强效果最好,但是通过对各种背景噪声下的语音测试发现,维纳滤波法对于语音信号的失真要比MMSE-LSA严重,并且在低信噪比下语音效果不如MMSE-LSA方法。总体来说,语音增强对于白噪声之类的平稳背景噪声具有较好的抑制效果,而对于机关枪等非平稳背景噪声的抑制效果不明显。图3给出了0dB白噪声下MMSE-LSA方法语音增强的语音波形图:
5 结语
本文研究了最小均方误差对数谱幅度估计(MMSE-LSA)语音增强算法,并利用MMSE-LSA对数谱幅度已知的特点采用了简单高效的VAD算法。通过对仿真结果进行详细分析,比较了MMSE-LSA与其它几种语音增强算法的增强效果。MMSE-LSA能够有效地消除白噪声之类的平稳噪声,但是对于突发的非平稳噪声效果不明显,仍有待于进一步研究。
参考文献:
[1] 易克初,田斌,付强. 语音信号处理[M]. 北京: 国防工业出版社, 2000.
[2] Rabiner L R, Schafer R W. 语音信号数字处理[M]. 朱雪龙,等译. 北京: 科学出版社, 1983.
[3] Y Ephraim, D Malah. Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1984: 1109-1121.
[4] Rainer Martin. Spectral Subtraction Based on Minimum Statistics[C]. Proc Eur Signal Processing Conf, 1994: 1182-1185.
[5] Rainer Martin. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2001,9(5).
[6] Mark Marzinzik, Birger Kollmeier. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2002,10(2).★
作者简介
晏光华:学士毕业于大连舰艇学院,现任职于海军司令部信息化部,主要研究方向为无线通信。
endprint
3 VAD检测
在语音增强方案中,VAD算法是非常重要的一部分。由于现实环境中大部分的背景噪声是非平稳的,为了保证语音增强的效果,需要时刻跟踪背景噪声的变化。VAD的目的就是判断输入的语音信号是语音还是背景噪声,同时VAD判断的准确程度直接影响着语音增强的效果。根据语音在短时能量、短时过零率、倒谱系数等方面的特征,VAD具有多种算法。本文采用的VAD算法利用语音信号的短时全带能量包络、低通带能量包络和高通带能量包络进行决策,计算量小且准确度高,能够在低信噪比下保持较小的虚警概率。
根据以上对MMSE-LSA的描述可知,在VAD检测中语音信号的短时对数谱幅度是已知的,VAD算法仅需要对各子带的能量进行简单的计算和判决,而不需要再计算语音信号的短时能量。接收语音信号的全带能量Ep、低通带能量Elp和高通带能量Ehp计算公式分别如下:
(7)
(8)
(9)
其中,p表示输入语音信号的第p帧;n表示全带的各频点;l表示截止频率以内的各频点;h表示截止频率以外的各频点。为了平滑各带能量值,在几帧内对能量做一阶低通滤波处理,若能量增加则不做平滑处理,防止造成拖尾效应。最后,算法利用每帧信号各带能量的最大值、最小值进行VAD检测。VAD算法的流程图如图2所示。
VAD算法首先要初始化能量包络的各参数,根据人讲话的特点,假设语音开头的100~200ms为背景噪声,利用这段时间的语音信号能量平均值初始化包络参数如下:
Emin=Ep,Emax=Ep(10)
Elp.min=Elp,Elp.max=Elp (11)
Ehp.min=Ehp,Ehp.max=Ehp (12)
对三个子带包络能量的最大值、最小值做一阶滤波平滑处理,并计算每个子带能量最大值和最小值之间的差值。
Δ=Emax-Emin(13)
Δlp=Elp.max-Elp.min (14)
Δhp=Ehp.max-Ehp.min (15)
最后,对各包络能量进行多边界判决得出VAD检测的结果。多边界判决的门限值η和权值pc可以自适应地调整以满足不同的需求。
4 仿真结果分析
如何客观地评价语音效果是一项非常重要且繁琐的工作,因为语音的最终目的是让收听者听清话音,需要根据人耳独特的听觉特性来评价语音质量的好坏。目前还没有比较客观的方法来准确地评价语音质量的好坏,所以测试大多采用主观评价方法。常用的主观评价方法有平均意见得分(MOS)、判断韵字测试(DRT)和判断满意度测试(DAM)。目前国际上最通用的主观评价方法是MOS评价,它是从绝对等级评价法发展而来,用于对语音整体满意度或语音通信系统质量的评分。标准的MOS测试要求参加测试的实验者人数应在40人以上,所测试的语音材料要足够丰富,测试环境要尽量保持一致。
由于实际的测试条件有限,本文对语音增强效果的评价采用了简单化的平均意见得分(MOS)方法,并根据增强语音对语音信号本身的失真程度以及背景噪声的抑制程度进行综合评价。测试者仅限于实验室的8个人,语音增强的语料库采用了不同信噪比下自录的男生、女生及标准播报员声音测试,噪声选用包括白噪声在内的noise92噪声库的多种噪声。
本文在VC平台上实现了几种语音增强方法,包括:MMSE-LSA、基本减谱法、多带减谱法、维纳滤波法。经过实验者仔细测试比对得出结论:基本减谱法语音增强效果最差,存在较明显的音乐噪声,同时对背景噪声的抑制也不够;多带减谱法虽然减少了部分的音乐噪声,但是语音信号本身的失真较严重;MMSE-LSA和维纳滤波法语音增强效果最好,但是通过对各种背景噪声下的语音测试发现,维纳滤波法对于语音信号的失真要比MMSE-LSA严重,并且在低信噪比下语音效果不如MMSE-LSA方法。总体来说,语音增强对于白噪声之类的平稳背景噪声具有较好的抑制效果,而对于机关枪等非平稳背景噪声的抑制效果不明显。图3给出了0dB白噪声下MMSE-LSA方法语音增强的语音波形图:
5 结语
本文研究了最小均方误差对数谱幅度估计(MMSE-LSA)语音增强算法,并利用MMSE-LSA对数谱幅度已知的特点采用了简单高效的VAD算法。通过对仿真结果进行详细分析,比较了MMSE-LSA与其它几种语音增强算法的增强效果。MMSE-LSA能够有效地消除白噪声之类的平稳噪声,但是对于突发的非平稳噪声效果不明显,仍有待于进一步研究。
参考文献:
[1] 易克初,田斌,付强. 语音信号处理[M]. 北京: 国防工业出版社, 2000.
[2] Rabiner L R, Schafer R W. 语音信号数字处理[M]. 朱雪龙,等译. 北京: 科学出版社, 1983.
[3] Y Ephraim, D Malah. Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1984: 1109-1121.
[4] Rainer Martin. Spectral Subtraction Based on Minimum Statistics[C]. Proc Eur Signal Processing Conf, 1994: 1182-1185.
[5] Rainer Martin. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2001,9(5).
[6] Mark Marzinzik, Birger Kollmeier. Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics[J]. IEEE Transactions on Speech and Audio Processing, 2002,10(2).★
作者简介
晏光华:学士毕业于大连舰艇学院,现任职于海军司令部信息化部,主要研究方向为无线通信。
endprint