基于频域Bark 子带的声源定向方法

2020-12-16张小博

电声技术 2020年7期

王荔，张小博，陈龙

（1.北京中电慧声科技有限公司，北京 100015；2.中国电子科技集团公司第三研究所，北京 100015）

基于麦克风阵列的声源定向是语音信号处理中的一个重要问题，在视频会议、智能监控、人机语音交互等领域有着广泛应用［1-3］。基于麦克风阵列的声源定向方法大致可以分为基于到达时间差的定向方法、基于最大输出功率的可控波束形成方法和基于高分辨谱估计的定向方法［4-6］3 类。本文研究的基于频域Bark 子带的波束扫描声源定向方法属于基于高分辨谱估计的定向方法。

由于语音信号属于宽带信号，传统基于高分辨谱估计的声源定向方法在处理宽带信号时大多采用子带波束扫描方法，根据均匀子带划分的方式，将语音信号按照频带连续的原则分割成若干个相同带宽间隔的子带。先在各子带求取空间谱，再将多个窄带空间谱进行平均，最终得到谱估计［7］。然而，语音信号能量大多集中在低频段（小于3 400 Hz），并不是在每个频段都一直包含语音成分，如有些波段可能仅包含了噪声［8］。传统方法并未充分利用语音信号的频率特性，采用全频带定向，易受噪声波段影响，存在定向精度有限和计算复杂度高的问题，且在低信噪比情况下算法极易失效。

人的耳蜗在处理声音信号时，具有与频谱分析仪类似的功能。耳蜗的基底膜对声音信号有频率选择作用。在20～22 050 Hz 范围内的频率，可划分为25 个频率群。频率群的划分相当于将基底膜划分成许多很小的部分，每部分对应一个频率群。这个频率群的频率范围被称为不等带宽（Bark）子带。人耳所听到的声音在同一频率群中能量互相叠加，构成了人耳听觉特性的临界带频率分布［9-10］。受人耳听觉选择性的启发，考虑Bark 子带具有以下优点：（1）Bark 子带划分充分利用人耳听觉的感知特点，对信号低频刻画较细致；（2）用较少Bark子带计算代替大量频带计算，能降低运算复杂度，便于实时实现。因此，本文提出了一种基于Bark子带的波束扫描声源定向方法。

全文结构设计如下：第1 节将介绍宽带麦克风阵列输出信号模型，第2 节将介绍提出的方法，第3 节给出计算机仿真实例来验证算法的性能，第4节总结全文。

1 宽带麦克风阵列输出信号模型

以均匀圆阵为例，建立信号处理数学模型。假设宽带信号s(t)从远场入射到一个由N个各向同性麦克风均匀分布的圆阵上，圆阵半径为r，令阵列中心（圆心）为参考原点。设入射信号俯仰角为φ0=90°，方位角为θ0∈[0°,360°]。各个麦克风阵元的噪声为空间白噪声，即各个噪声之间相互独立。此外，噪声与信号之间相互独立。均匀圆阵观测模型及远场信号传播示意图如图1 所示。

信号s(t)的传播矢量为：

用dn表示阵元n的位置矢量，则信号到达阵元n相对于到达参考原点的传播时延τn为：

式中，c为信号传播速度。

于是，第n个阵元时域输出可以写为：

式中，vn(t)为第n个阵元的噪声。

假设阵列数据观测时间为T0（T0＞＞τn,n=1,…,N），第n个阵元频域输出可以写为：

式中，S(ωk)为频点ωk处信号的有限时间傅里叶变换，vn(ωk)为频点ωk处第n个阵元上噪声的有限时间傅里叶变换。

对于N元阵列，阵列频域输出信号矢量具有下述形式：

式中，a(ωk,θ0)为信号在频点ωk处的导向矢量，v(ωk)为频点ωk处的噪声矢量。

2 算法原理

经典的子带波束扫描方法是根据均匀子带划分的方式，将宽带信号按照频带连续的原则分割成若干个相同带宽间隔的子带，再分别对每个子带数据求取空间谱，然后对所有子带空间谱进行平均，利用平均空间谱搜索，估计最终宽带信号的波达方向。由于语音信号并不是在每个频段都一直包含语音成分，很大部分时间里有些波段可能仅包含噪声特点，因此采用全频带定向很容易出现较大角度估计误差，且计算复杂度高，很难实时处理。为解决上述问题，结合语音信号的频谱特性和耳蜗的分频特性，提出了一种基于Bark 子带的波束扫描定向方法。

本文采用Capon 设计准则，即要求对应于频点ωk的子带波束主瓣指向某一方向θ的输出功率不变，使总输出功率最小化，则子带波束形成器的权矢量可按式（8）进行设计：

式中，Rxx(ωk)为频点ωk处阵列频域输出的协方差矩阵。它的估计方法是先选取阵列数据观测时间T0内snap帧语音数据，每帧点数wlen，利用离散傅里叶变换将snap帧数据分别变换至wlen个公共处理频点，然后对各帧所得到的对应于相同频点的频域数据进行平均，即：

式中，xp(k)为第p帧语音数据的离散傅里叶变换在频点ωk处的值。

利用拉格朗日乘子法，可得式（8）的解：

于是，对应于频点ωk的子带空间谱表达式为：

受人耳听觉系统启发，人耳耳蜗不同的区域能够感受不同频率范围的声音。基底膜可以看成是一组频带重叠的非线性带通滤波器。这组带通滤波器将整个频带划分为若干个不等宽频带，称为Bark 滤波器。Bark 滤波器的中心频率如表1 所示。

同时，考虑语音信号能量通常集中在较高的低频段（小于3 400 Hz），所以选取Bark 滤波器前17个频带中心频率作为声源定向感兴趣频点的选择。又考虑到50 Hz 通常会引入工频噪声，所以将第一感兴趣频率修改为60 Hz。为防止频点溢出，除第一频率只采用向上取整，其他感兴趣频率f对应的频点都采用向上向下取整，计算公式如下：

式中，fs为信号采样率。

用K表示感兴趣频点总数，则最终平均空间谱表达式为：

表1 Bark 滤波器的中心频率

利用Capon 平均空间谱并在全部角度区域上搜索其峰值，即可估计出声源方向。

3 实验分析

下面通过计算机仿真来验证所提方法的有效性，实验结果为30 次独立重复实验的平均值。定向质量评价指标采用分辨概率和角度估计均方根误差两个，定义如下。

对于分辨概率（Resolution Probability，RP），假设信号估计角度和实际角度偏差的绝对值不超过10°，且空间谱中的最大谱峰值比可能的伪峰高1 dB 以上，则认为信号被成功分辨，则分辨概率定义为：

式中，Ts为所有实验中判为成功的次数，T为独立重复实验总次数。

对于角度估计均方根误差（Root Mean Square Error，RMSE），有：

式中，θ0为信号的真实入射角度，为信号的估计入射角度，T为独立重复实验总次数。

3.1 实验1

采用半径为6 cm 的均匀圆阵，阵元个数为6。语音信号从远场入射，方位角为300°，真实语音数据在消声室采集，采样率为16 kHz。噪声为高斯白噪声。阵列数据观测时间T0内取16 帧语音数据，每帧点数256。空间谱搜索步径设置为1°。图2和图3 分别给出信噪比为5 dB 和20 dB 情况下本文方法和传统方法平均空间谱对比图。实验结果表明，在所设定实验条件下，本文方法能准确检测出信号，而传统方法伪峰较多，在低信噪比情况下几乎失效。

3.2 实验2

实验条件同实验1，阵列数据观测时间T0内取16 帧语音数据，每帧点数256。图4 给出两种方法分辨概率随输入信噪比变化图。实验结果表明，在设定的实验条件下，两种方法的分辨概率随输入信噪比的增加而增加。本文方法的分辨概率优于传统方法，在信噪比大于7.5 dB时，分辨概率接近于1；传统方法受伪峰影响较大，在低信噪比情况下分辨概率接近于0。

3.3 实验3

实验条件同实验1，阵列数据观测时间T0内取16 帧语音数据，每帧点数256。图5 给出两种方法角度估计均方根误差随输入信噪比变化图。实验结果表明，在设定的实验条件下，两种方法的角度估计均方根误差随输入信噪比的增加而减小。本文方法的角度估计均方根误差控制在7°以内，当信噪比大于10 dB 时，角度估计均方根误差小于2°。

3.4 实验4

实验条件同实验1，比较两种方法的平均计算时间。仿真所用计算机配置如下：CPU 为Intel（R） Core（TM） i7-7700K CPU@4.20GHz，内存16.0 GB，系统为Windows64 位操作系统；MATLAB版本为2016b。表2 为两种方法不同空间谱搜索步径在30 次独立实验下的平均计算时间。从表2 可以看出，本文方法的计算复杂度远低于传统方法。

表2 两种方法计算时间比较

4 结语

本文提出了一种基于Bark 子带的波束扫描声源定向方法，从语音信号能量集中低频的特点和人耳听觉系统耳蜗具有分频的特性出发，以Bark 子带的中心频率为主频点进行非均匀频点选取，利用Capon 平均空间谱搜索确定声源方向。相比于传统均匀子带波束扫描法，本文方法具有更高的分辨概率和更小的角度估计均方根误差，同时减少计算复杂度，实用性强。