APP下载

基于听觉小波包自适应语音增强方法

2013-12-13陈春辉

关键词:波包小波频段

陈春辉,冯 刚

(华南师范大学计算机学院,广东广州510631)

基于小波的语音增强一直是语音增强领域的一个研究热点并取得了许多研究成果,但在语音增强处理中当噪声与语音的频谱相似时[1],传统的软硬阈值法处理往往无法有效地去除噪声.因此,找出合适的阈值,一直是小波语音增强的难点之一.对于语音分析来说,人类听觉系统对于声音频率的感知与实际频率的对应关系是一种非线性映射关系[2].

本文基于Bark 尺度采用小波包模拟人耳的频率分析机制,根据空域滤波方法估计出噪声的下限阈值,通过通用阈值确定每一频率群噪声的上限阈值,最后在每一频率群里采用新的阈值动态除噪.

1 人耳的听觉模型

人耳是相当完美的声音信息采集和处理器,人耳基底膜如同一个频谱分析器,BARKHAUSEN 等学者依据人耳的掩蔽效应的实验结果,提出了频率群的概念.即在20~16 000 Hz 范围内分解为24个频率群,频率群的划分相应于基底膜分成许多很小的部分,每一部分对应一个频率群,并且长度相等[3].也就是说,人类听觉系统对于声音频率的感知与实际频率的对应关系,是一种非线性映射关系,这就引出了所谓的Bark 尺度的概念. TRAUNMULLAR[4]给出了线性频率与Bark 频率之间的函数关系,即

2 小波包与Bark 尺度

2.1 小波包频率分解

小波分解只是将信号的近似系数Aj用于进一步分解(图1). 而小波包可根据需要选取近似系数Aj或细节系数Dj做进一步分解(图2),小波包变换的基本思想是根据有用信号在近似系数和细节系数的特性,从而找出规律[5].

图1 三层小波分解图Figure 1 Three-level wavelet decompression diagram

图2 三层小波包分解图Figure 2 Three-level wavelet packet decompression diagram

2.2 听觉小波包

采用固定分解方式的小波包变换,在0~4 000范围内,划分52个频段.对8 kHz 的采样信号,用8阶的Daubechies5 小波对信号进行变换,可得到一个听觉小波包,具体做法如下:

(1)0~500 Hz 的范围内以31.25 Hz 为间隔划分出16个频段,对应着小波包分解的尺度8;

(2)500~2 000 Hz 以62.5 Hz 为间隔划分出24个频段,对应着小波包分解的尺度7;

(3)2 000~3 000 Hz 间隔是125 Hz 有8个频段,对应着小波包分解的尺度6;

(4)3 000~4 000 Hz 间隔250 Hz 有4个频段,对应着小波包分解的尺度5;

在0~4 000 Hz 范围内以52个频段按顺序对应18个Bark,其频率对应情况如图3 所示.

图3 小波包变换频段与Bark 的对比Figure 3 The comparison of wavelet packer banks and Bark

图3 的2 条曲线十分接近,表明用听觉小波包分析可较好地模拟人耳基底膜的频率分析特性[6].

3 自适应动态阈值法去噪

3.1 噪声方差的估计和通用阈值

实际应用中噪声方差是未知的,因此需要对其进行估计. 假设含噪声信号

其中,s(x)和ε(x)分别为真实信号和白噪声.

f(x)其小波变换可表示为

其中,Wf(i,j)为含噪声信号小波分解的系数,Ws(i,j)为真实信号小波分解的系数,Wε(i,j)为白噪声小波分解的系数,i 表示尺度,j 表示第j个系数.

其中,WHf(i,j)为含噪声信号小波分解的高频系数,WHs(i,j)为真实信号小波分解的高频系数,WHε(i,j)为白噪声小波分解的高频系数.

在高频部分,除了少数几个由真实信号引起的变量值较为突出外,高频部分整个尺度基本上由噪声所产生的系数控制. 可据此来估计语音信号中噪声的方差.

设含噪声信号f 在尺度i 上变换为Wf(i,j)(j=1,2,…,N),则

其中,PW(i)是尺度i 的高频能量.实际上,PW(i)中也包含了真实信号高频部分的能量,这样近似结果在噪声偏小或细节较丰富(即高频部分多时)误差较大.为了提高估计精度,将前两尺度的小波变换值相乘[7]:

做归一化处理,可得:

再与WHf(i,j)相比较,若则置该点为零.这样处理后得到的值记为(i,j),则(i,j)中基本消除了真实信号剧变引起的较大变换值.设共消除了k个这样的点,可得σ1(i)的近似值[8],根据这个σ1(i)找出噪声的近似阈值

DONOHO 等[8-9]用小波进行了各种信号去除噪声方法,提出了噪声系数的幅值是以较大的概率小于λ2(i)的,λ2(i)计算表达式如下:

其中,Wf(i,j)表示小波分解尺度i 的小波系数,median()为中位数绝对值.

性质1 白噪声且噪声分解后系数绝对值不高的语音信号的小波包分解,在同一尺度下,λ1(i)<λ2(i).

证明 语音信号是短时间相关的,白噪声是加性噪声,信号的子波系数幅值要大于噪声的子波系数幅值[10].

对于高频部分:

所以对8 000 Hz 的采样频率的语音信号进行8 阶的小波分解,得到小波子带的系数的个数N >10,因此,>2.对于均匀分布,幅度趋于平坦的白噪声,有

可得

对于低频部分:设

其中,WLf(i,j)为含噪声信号小波分解的低频系数,WLs(i,j)为真实信号小波分解的高频系数,WLε(i,j)为白噪声小波分解的高频系数,i 表示尺度,j 表示第几个系数.

由于语音主要集中在低频,集中了相关的点

由式(13)可得

所以,λ1(i)<λ2(i).

由以上结果可以得出,含白噪声且噪声分解后系数绝对值不是很高的语音信号的小波包分解后,在同一尺度上

证毕.

3.2 自适应动态阈值

根据上面对8 kHz 的采样信号,用8 阶的Daubechies5 小波包对Bark 尺度的模拟可知,可以通过式(5)~(10)由每一尺度的高频系数估计出4个尺度λ1(i)(i =5,6,7,8)的噪声阈值;通过式(11)、(12)求出52个频段每个频段内噪声的最大阈值λ2(i,n)(i=5,6,7,8;n=1,2,…,52),i 表示的是小波分解的尺度,n 表示频率段. 由性质1 可知,在同一尺度上

图4 表明,式(11)算出的阈值λ2(i,n)偏大,尤其是在N 较大时,倾向于将子带的小波包系数全部为零,因此通过阈值处理,留下的系数很少,而由式(10)估计出来的噪声方差λ1(i)作为阈值,存在着阈值偏小的情况,使保留下来的系数不够纯净.

为了克服上述缺点,尽可能减少语音失真,而又使还原的语音具有较高的清唽度和可懂度,避免产生音乐噪声,本文使用了半软阈值函数—双曲阈值法,与其他曲线相比,双曲线具有连续可导性,得到的结果逼近原数值,减少语音损失.

新的阈值定义为:

传统使用的是软硬阈值对含噪声语音进行处理:(1)硬阈值法:小于阈值的系数被置零,大于阈值的系数保持不变;(2)软阈值法:小于阈值的系数被置零,大于阈值的系数以阈值为大小,作一个收缩如图5.实验表明,“硬”阈值法对噪声清除不够干净,且在一些地方会产生突变,使处理后的语音混有类似音乐声的噪声.而“软”阈值法虽然噪声去除很彻底,但对原始语音的损害较大,使语音的清晰度大大降低.

图4 λ1和λ2阈值比较Figure 4 The comparison of threshold λ1 and λ2

新阈值能动态跟踪噪声的变化:噪声的阈值是由λ1和λ2共同决定,在每一尺度上,λ1为下限,当噪声能量变大时,λ2相对变大,反之则变小,动态跟踪语音的变化.新阈值与硬阈值相比具有较好的连续性,与软阈值相比,又减少了语音的损失,如图6.

图5 软阈值与硬阈值比较Figure 5 The comparison of soft threshold and hard threshold

图6 新阈值与软硬阈值比较Figure 6 The comparison of new threshold、soft threshold and hard threshold

4 结果与分析

4.1 含噪声的语音处理

利用话筒通过Windows 的录音机采集到计算机的一段男声语音信号. 采样频率为8 kHz、PCM 编码、16 位量化、单声道、噪声为正态白噪声.

取一段自然连续语音,语音长1 s,经8 kHz 采样后加入正态白噪声,采用8 阶的Daubechies5 小波对信号进行变换,并用以上动态阈值法对其进行增强.当信噪比为10、5 dB 时处理前后的时域波形如图7、图8 所示.

4.2 数据分析

采用主观评测方法MOS 评分和客观评价方法的结果如表1 和表2,并比较几种常见噪声环境下本方法与其他方法的对比,结果见图9,可得如下结论:(1)通过主客观评测可知:主观听觉上,基于听觉小波算法清晰度和可懂度均优于谱减法和小波算法,且没有谱减法所特有的残留音乐噪声,听起来较悦耳.(2)比较输出信噪比可以看出,基于听觉小波算法保持了小波域降噪的高信噪比的特点,增强后的语音几乎听不到残留噪声. 与谱减法、小波法相比,基于听觉小波算法不仅输出信噪比提高了,而且失真也降低了.

图7 信噪比为10 dBFigure 7 Signal noise ratio is 10 dB

图8 信噪比为5 dBFigure 8 Signal noise ratio is 5 dB

表1 MOS 评分Table 1 MOS score

表2 各种阈值法的消噪结果对比Table 2 The comparison of de- noising results of different thresholds

图9 常见噪声环境下几种主要去除噪声方法的对比Figure 9 The comparison of several main methods of de-noising in some common noise environment

5 结论

利用小波包分析可对听觉模型进行较好地模拟.新的阈值不仅抑制了背影噪声,减少了语音的失真和音乐噪声的产生,而且增强后的语音具有较好的清晰度和可懂度,是一种有效的语音增强方法.人的听觉系统远比上述系统的描述复杂得多,抵抗噪声能力也强,语音增强方法还有待进一步研究.

[1]李野,吴亚锋,刘雪飞.基于BARK 子波变换的语音增强方法研究[J]. 计算机工程与应用,2009,26(4):13-14.

[2]施晓敏,顾济华,陶智,等. 基于听觉感知小波变换的电子耳CIS 语音信号处理[J]. 微电子学与计算机,2006,23(12)-42.

[3]付强,易克初. 语音信号的Bark 子波变换及其在语音识别中的应用[J]. 电子学报,2000,28(10):102-104.

[4]TRAUNMULLAR H. Analytical expression for the tonotopic sensory scale[J]. J Acoust Soc Am,1990,88:97-100.

[5]高志,余啸海. Matlab 小波分析与应用[M].2 版. 北京:国防工业出版社,2007:7-67.

[6]王炜,杨道淳,方元,等. 基于听觉模型的小波包变换的语音增强[J]. 南京大学学报,2001,36(5):630-636.

[7]李野,吴亚锋,刘雪飞. 基于感知小波变换的语音增强方法研究[J]. 计算机应用研究,2009,26(4):1313-1315.

[8]DONOHO D L,JOHNSTONE J M. Ideal spatial adaptation by wavelet shrinkage[J]. Biometrika,1994,81(3):425-455.

[9]DONOHO D L. De-noising by soft-thresholding. IEEE Trans[J]. On Information Theory,1995,41(3):613-627.

[10]樊启斌.小波分析[M].武汉:武汉大学出版社,2008:302.

猜你喜欢

波包小波频段
构造Daubechies小波的一些注记
基于支持向量机和小波包变换的EOG信号睡眠分期
5G高新视频的双频段协同传输
gPhone重力仪的面波频段响应实测研究
基于MATLAB的小波降噪研究
基于小波包Tsallis熵和RVM的模拟电路故障诊断
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
基于小波包变换的电力系统谐波分析
推挤的5GHz频段
基于FPGA小波变换核的设计