APP下载

基于Kalman滤波的GSC改进语音增强算法

2021-10-27郭业才刘力玮

数据采集与处理 2021年5期
关键词:旁瓣麦克风波束

郭业才,许 雪,刘力玮

(1.南京信息工程大学电子与信息工程学院,南京210044;2.南京信息工程大学滨江学院,无锡214105)

引 言

语音增强的主要目的是提高环境中各种噪声干扰下的语音质量与清晰度[1]。过去几十年里,多种单麦克风语音增强方法,如谱减法(Spectral subtraction,SS)[2]、Kalman滤波[3]等被提出。与单麦克风受方向性噪声影响较大相比,麦克风阵列可利用语音的空间信息来增强目标信号,滤除干扰信号,提高语音的清晰度,因此麦克风阵列语音增强技术近些年来逐渐成为语音增强领域研究热门[4]。

1982年由Griffiths等提出的广义旁瓣相消结构[5]是线性约束最小方差(Linearly constrained minimum variance,LCMV)波束形成器的等效实现结构,它将LCMV的约束优化问题转化为无约束的优化问题,并且只需要较少的麦克风就能达到较强的噪声抑制性能,因此成为一种主流的语音增强算法。但广义旁瓣相消器(Generalized sidelobe canceller,GSC)同样存在过度抵消、非相干噪声抑制性能不佳等缺陷,学者们已经提出了一些方法来对GSC的性能进行改进[6-11]。Zelinski[12]设计了一种可以同时抑制非相干噪声以及相干噪声的维纳滤波多通道后置滤波器;Chang等[13]通过对GSC输出误差进行估计来估算时变波达方向(Direction of arrival,DOA),可适用于目标源处于移动状态情况;Yu等[14]利用SS对GSC输出后的信号进行滤波处理,有效改善了GSC非相干噪声抑制能力差的缺陷,但SS本身的固有缺陷也会产生“音乐噪声”。

本文在前人研究的基础上,提出了一种利用Kalman滤波改进的广义旁瓣相消算法。该算法首先通过归一化最小均方算法改进的GSC波束形成方法对接收到的麦克风阵列信号进行方向性干扰噪声的抑制,输出后的语音信号再利用Kalman滤波器将剩余背景噪声消除以更好地改善语音质量。

1 GSC改进算法

广义旁瓣相消波束形成算法是一种经典的麦克风阵列自适应波束形成语音增强方法,该算法主要由3部分组成:固定波束形成(Fixed beamforming,FB)模块、阻塞矩阵(Blocking matrix,BM)模块以及自适应噪声相消(Adaptive noise canceller,ANC)模块。FB模块对时间进行延迟估计后补偿声源到达每个麦克风阵元的延迟时间,并对接收信号校正延迟形成同步,累加生成初级波束信号。BM将阵列信号中的目标语音过滤后生成一个不包含目标语音的带噪参考信号。最后通过归一化最小均方方法进行ANC,噪声一般通过FB输出信号获得的参考噪声进行估计。GSC系统的结构,如图1所示。

图1 GSC结构图Fig.1 Structure schematic of GSC

假设麦克风阵列有M个阵元,首先通过FB模块对每个信道的信号进行过滤,然后将过滤后的信号进行相加,输出为

式中,X为M个麦克风阵元上接收到的经延迟补偿后具有完整相位的语音信号,X=[x1(n),x2(n),…,xM(n)]T;A为FB模块的权系数,A=[a0,a1,…,aM]T。

B为BM,它将X中的期望信号滤除,只包含干扰信号与噪声。BM输出信号为

式中Z=[z1(n),z2(n),…,zM-1(n)]T。设是B中的第一个线性向量,需满足条件

在语音信号处理中,BM为

自适应相消模块将FB输出信号与BM输出信号进行自适应滤波。设自适应FIR滤波器系数表示为wk(n),与BM输出噪声相乘后为

式中,WK=[w1(n),w2(n),…,wM-1(n)]T(k=1,2,…,m-1),将初级波束信号yFBF与yANC(n)进行相减后,GSC最终输出为

滤波器权系数的递归公式为

式中,μ是自适应收敛系数,决定了算法的收敛速率和收敛稳定性。∇(n)=∇E[y(n)2]是难以精确计算的梯度算子,可以采用y(n)2作为E[y(n)2]的值估计为

将式(9)代入(7),得

式中,μ的取值会影响整个GSC系统的降噪能力,其取值越大,滤除噪声越多,但同时也会使语音泄露更严重。现采用归一化最小均方算法来校正算法缺陷,即

式中φ为调节因子。由于处理后非常小,导致参数太大,进而导致语音信号抵消过于严重。因此引入参数β>0来解决这个问题。式(11)改写为

2 基于Kalman滤波的GSC方法

基于GSC波束形成语音增强算法对方向性干扰噪声具有很好的抑制效果,但在非相干噪声的处理上效果很差,仅依靠FB模块。本文采用Kalman滤波来改善GSC输出后的语音质量。算法整体流程如图2所示。

图2 算法流程图Fig.2 Flow chart of algorithm

Kalman滤波器采用递归估计,利用上一时刻状态的估计值与当前状态的观测值来计算出当前时刻状态的估计值,其计算量和数据存储量都比较小[15]。假设GSC系统的输出信号为

式中:x(n)与v(n)分别表示目标信号和残余噪声,假设两者之间不相关。

语音信号具有非平稳性,因此通常使用短时分析来对其进行处理。即在短时帧(20~30 ms内)内假设语音信号是平稳的,用p阶自回归(Autoregressive,AR)模型表示为

式中:p为模型阶数,{ai}为线性预测系数[16]。

令X(n)=[x(n-p+1),x(n-p+2),…,x(n)]T,在状态空间中式(13,14)分别转化为状态方程与测量方程,即

式中

式中:g(n)为过程噪声,这里假设g(n)与v(n)是均值为0、方差分别为σ2g与σ2v的高斯白噪声,并且两者互不相关;A是状态转移矩阵。现用Kalman滤波器的循环迭代对每帧带噪语音进行估计:

(1)初始化

(2)迭代过程:对于n=1,2,…

图3 Kalman滤波流程图Fig.3 Flow chart of Kalman filtering

3 仿真实验

3.1 仿真环境

为验证本算法的噪声抑制能力,本文使用MATLAB平台搭建麦克风阵列进行实验仿真,并与传统GSC语音增强方法以及文献[14]所提出的GSC-SS算法进行分析比较。实验设置安排如下:仿真采用6阵元均匀线性麦克风阵列,阵元间距为5 cm,目标声源距离2 m入射角为30°,干扰声源距离2.5 m入射角为-20°,采样频率为16 000,如图4所示。Kalman滤波器迭代次数为12次,自适应滤波器为20阶。其余参数均与文献[14]一致:GSC在32阶自适应滤波器中,正实数φ=1,β=40。

图4 麦克风阵列示意图Fig.4 Schematic of microphone array

下面采用客观语音质量评估PESQ分别对GSC增强信号、GSC-SS增强信号及所提算法增强信号进行评估分析,并通过不同算法增强信号的波形图与语谱图更为直观地展现本文算法的性能。

3.2 PESQ指标

PESQ是评价语音质量的一项客观指标,同时也是国际电信联盟ITU-T的P.862建议评价算法。PESQ以-0.5~4.5之间的数值表示增强后语音的质量高低,通过数学模型量化语音的响度、频率等物理与人类心理的感知特性。评估分数越高则输出语音质量越高,反之则质量越低。PESQ的结构如图5所示。

图5 PESQ结构框图Fig.5 Structure diagram of PESQ

3.3 PESQ实验

为验证所提算法的性能,在-22~5 dB不同输入信噪比条件下分别计算GSC输出信号、GSC-SS输出信号与所提算法的PESQ值,如图6所示。图6表明,与GSC及GSC-SS算法相比,本文所提的算法的PESQ值在不同信噪比环境下均较高,这说明所提算法增强后的语音信号失真度更低,更符合人耳听觉主观感受。尤其在信噪比较低时,本文所提算法依旧有较高的PESQ值,相比其他两种算法优越性明显。

图6 不同信噪比下PESQ评估Fig.6 PESQ evaluation at different signalto-noise ratios

3.4 语谱图分析

图7 (a,b)分别为原始目标语音信号与阵列接收到带噪信号的波形图和语谱图。图7(c)是经GSC增强后的语音信号的波形图和语谱图,可见在对干扰性噪声的抑制上,GSC效果显著,但残留的非相干噪声仍然很多。图7(d,e)分别是采用文献[14]所提出GSC-SS和本文所提出的算法增强后的波形图与语谱图,由比较可知,本文所提出算法在对背景噪声的抑制性能上比GSC-SS更优越,同时有效保留目标信号减少了语音失真。

图7 不同算法语谱图对比Fig.7 Comparison of spectrogram of different algorithms

4 结束语

本文在传统GSC波束形成语音增强方法的基础上加以改进,采用归一化最小均方算法校正自适应对消模块语音泄露的缺陷。输出后的GSC增强信号仍存在热噪声及非相干噪声残留过多的问题,提出后置Kalman滤波器进行迭代MMSE估计,利用前刻状态与当前状态观测值估计当前值。仿真结果验证,本文所提算法在噪声抑制上与传统的GSC算法及后置谱减滤波算法相比具有明显的优越性,增强后的信号可保留更多有用信息并增强语音可懂度。但在声学环境较为复杂无法准确获取方向角信息时性能表现较差,值得加以改进。

猜你喜欢

旁瓣麦克风波束
基于圆柱阵通信系统的广义旁瓣对消算法
一种基于线性规划的频率编码旁瓣抑制方法
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
毫米波大规模阵列天线波束扫描研究*
基于数字麦克风的WIFI语音发射机
圆阵多波束测角探究
基于加权积分旁瓣最小化的随机多相码设计
Helix阵匹配场三维波束形成
麦克风的艺术
基于四项最低旁瓣Nuttall窗的插值FFT谐波分析