后置维纳滤波和可调波束成形器的语音信号增强*
2018-03-02同晓荣
同晓荣
(渭南师范学院网络安全与信息化学院,陕西 渭南 714099)
0 引言
移动运营商充分意识到语音质量对吸引消费者的重要性,提升语音服务质量已成为传统通信运营商提高品牌竞争力、吸引用户、保持用户忠诚度的首要途径与核心方法[1]。影响语音质量的主要因素之一是环境噪声,消除环境噪声提高语音信号质量是语音识别技术研究的重要方向之一[2]。所以任何抑制噪声的方法都为手机制造商提供了一个潜在的优势。最近,噪声抑制技术主要集中于减少慢变静态噪声源。例如处于静态环境中的风扇噪声可以通过传统的技术来识别并有效消除。然而,许多噪声源通常为非平稳噪声,是瞬息万变的,而不被抑制。这种非平稳噪声在生活中是常见的,比如一个人的讲话声、背景音乐、或键盘打字声。因此,用户无法在繁忙的街道上、拥挤的餐馆、甚至在家里可靠地使用他们的手机。所以,下一代噪声抑制技术使用多麦克风来更准确地识别、定位和用于有多个信号及噪音源的情况,而这基本不可能由一个麦克风来实现。
使用麦克风阵列[3-6]的波束形成系统被广泛用于改善接收信号的质量。比较典型的应用不只是局限于上面提到的手持设备系统,还有当开车打电话时的免提情况。最广泛被研究的波束形成方法是集中于自适应波束形成器,例如,Frost的线性约束自适应波束形成器[7]。这种自适应波束形成器的问题是,它有可能会导致期望信号的不可预知的失真[8]。这是不容易被一些自适应干扰消除器最小化的。然而,在文献[9-11]中,证明了对于给定的应用,自适应干扰消除器不会优于一个优化的常数波束形成器,比如汽车车厢环境。常数波束形成的另一个优点是滤波性能是确定的。这个性能在一些处理中是非常有用的,例如,对功率谱的估计。基于上述两个原因,可调滤波器和求和波束形成器被用于滤波器的第1级,不同到达方向的优化过的滤器被提前计算。为了能获得可视导向,最优滤波器系数的收集不得不存入到存储器,并通过从存储器中检索滤波器系数不断更新。
滤波器的第2级是维纳滤波器[12]。该算法对理想信号的功率系统的估计是通过短期测量麦克风的自相关和互相关函数来计算的[13]。
1 滤波器与求和波束形成器
输入信号:麦克风阵列是由4个全向麦克风组成。输入信号源都是点光源发出的球面波。位于Mi处理想的全向麦克风的输出可以为:
c 是声速,s(t)是点源的波动方程,ri是源位置S到麦克风位置Mi的距离。在本文中,使用一维信号举例。因此,源位置S只用当r是已知时的方向来定义,阵列如图1所示。
假设S源方程是一个规范化的余弦波,频率ω0,麦克风的位置是 mi,1≤i≤N。根据式(1),可得:
2 滤波器及求和波束形成滤波器结构
滤波器及求和波束形成滤波器是由M个长度为L的FIR滤波器组成,如图2所示。
其中,hik为滤波器系数,根据式(1)及一些变换可得:
其中,fML(n)为滤波器及求和波束形成滤波器的脉冲响应。
通过傅里叶变换之后可得:
其中:
接着,可以扩展位置为i的N点输入信号,其傅里叶变换Si(w),1≤i≤N为
设计的目标之一是优化滤波器响应FML(w,φ),为可期望视方向φdes提供一个稳定幅度响应。另一个准则则是在任何方向都有一个稳定频谱响应。第3个目的是能够在0°≤φdes≤180°范围内操控期望的可视方向φdes。下页图3说明了目标响应|FMLφdes(w,φ)|,用于滤波器优化和相应的φdes的方向。
如果想要得到一个方向为100的解,即hik(φdes)的18个集。由于π-φdes和φdes-desdes的关系,通过转换麦克风的系数hik(φdes)的顺序,可以很容易地得到hik(π-φdes)。因此,存储hik(φdes)的单元数目可以减少一半。
3 后置维纳滤波器
经过理想幅度响应为|FMLφdes(w,φ)|、相位延迟为零的波束形成器设计之后,可以得到位于φdes处的期望点源信号函数为:
良好情况下的维纳滤波器,麦克风阵列的孔径是足够大的,从而使语音源不是一个点源。它涵盖了很多点。对于可视方向为φi和φj的相邻输出Xi和Xj,语音源在其所有区域都可获得语音信号的频谱信息和噪声。
在时域
下面讨论来自两个独立噪音源ni(n)和nj(n)的最简单情况。信号功率谱估计为:
其中,Φij(ω)为输出xi(n)和xj(n)的互能谱,那么,维纳滤波器为:
其实,这种情况确实符合实情。当两个相邻位置的输出噪音互相关,特别是在低频区。那么,语音功率谱的估计将变得非常困难。有一些解决方案被提出,例如,联合自相关和互相关来功率谱估计[14-15]。
4 仿真
运行一个如图2所示线性全向麦克风阵列传感器的波束形成滤波器。选择5 cm的传感器间距和最高频为3.4 kHz的窄带语音信号来避免空域混叠。
仿真环境:创造一个如图4所示的仿真环境。
其中,φ1=200,φ2=-100为两个已经确定的波束形成器的可视方向。r=0.4 m为一已经确定的变量。3个变量∠Speecharea=40°、∠NoiseAarea=40°和∠Noise-Barea=40°定义了语音信号、噪音A和B的覆盖区域。噪音A为100个人在半径大于2 m的餐厅里说话的babble噪音;因此,每个人的声音都可以被轻微听到。噪音B是车辆的车内噪声。从而构成了一个理想的模拟的真实环境。
设计准则:设计一种优化方向敏感性的求和波束形成器方法。通过调整滤波器系数来最小化期望的和波束形成器的实际响应数之间的均方误差[16]。
定义均方误差为:
其中,|FMLφdes(w,φ)|是频域中滤波器响应。Ωω,φ是ω,φ的集合。这里需要计算FML(w,φ)和FMLdes(w,φ)。为了满足设计准则,最优化滤波器参数hik,取M=4,L=20。
仿真结果:下页图5显示了滤波器及波束求和形成器的效果,其语音分别为‘this is the VOA special English’和‘independent’。
输出性能通过平均对数光谱距离测量,定义为:
图6显示了含噪语音信号的谱图和由该算法去噪语音信号的图谱。
图7显示了基于平均对数光谱的失真测量。结合图6可以看出,语音信号的输出具有一个比较低的平均对数光谱测量距离和优越的性能,该方法提高信噪比约6 dB。
5 结论
本文提出了一个新的麦克风阵列处理的两级滤波器,可以有效抑制周围不期望的噪音,并提供一个相对干净的语音环境。此方法是结合空域及时域实现的。仿真结果表明,该方法具有对含噪语音信号良好的抑制噪声的能力,语音性能得到相当大的提高。
[1]陈婵娟.移动通信语音质量评估系统的设计与实现[D].厦门:厦门大学,2011.
[2]李克粉,王直.改进的小波阈值去噪在语音识别中的应用[J].计算机技术与发展,2013,23(5):231-234.
[3]许佳龙,张一闻,刘建平.基于麦克阵列的信号采集处理系统设计[J].电子科技,2011,24(9):124-127.
[4]钟强,黄青华.基于球麦克风阵列的多声源定位方法[J].计算机工程与应用,2012,48(5):149-152.
[5]周述畅,宋亚男,吴光波.基于麦克风阵列的语音增强研究[J].计算机技术与发展,2012,22(7):204-206.
[6]王勇,刘颖,刘建平.一种基于麦克风阵列的声源定位算法研究[J].现代电子技术,2011,34(19):61-64.
[7]FROST O L.An algorithm for linealy constrained adaptive array processing [J].Proceedings of the IEEE,1972,60(8):926-935.
[8]GRENIER Y.A microphone array for car environments[J].Speech Communication,1993,12(1):25-39.
[9]GOULDING M,BIRD J S.Speech enhancement for mobile telephony[J].IEEE Trans.Vehicular Technology,1990,39(4):316-326.
[10] AFFES S,GRENIE Y.The adaptive beam-formers for speech acquisition in cars[J].International Conference on Signal Processing Applications and Technology,1994(10):154-159.
[11]张丽艳.复杂环境下麦克风阵列语音增强方法研究[D].大连:大连理工大学,2009.
[12]BITZER J,SIMMER K U,KAMMEYER K D.Theoretical noise reduction limits of the generalized sidelobe canceller(GSC)for speech enhancement[J].IEEE International Conference on Acoustics,1999,5(171):2965-2968.
[13]ZELINSKI R.A microphone array with adaptive post-filtering for noise reduction in reverberant rooms[J].IEEE International Conference on Acoustics,Speech and Signal Processing,1988(5):2578-2581.
[14]MEYER J,SIMMER K U.Multichannel speech enhancement in car environment using wiener filtering and spectral subtraction [J].IEEE International Conference on Acoustics,Speech and Signal Processing,1997(2):1167-1170.
[15] MCCOWANI A,BOURLANDH.Microphonearray post-filter for diffuse noise field [J].IEEE International Conference on Acoustics,Speech and Signal Processing,2002(1):905-908.
[16] KAJALA M,HAMALAINEN M. Filter-and-sum beam-former with adjustable filter characteristics[J].IEEE International Conference on Acoustics,Speech and Signal Processing,2001(5):2917-2920.