基于Mel谱特征提取的直升机声信号识别

2022-06-14宋玉宝魏春华陈正武

计算机仿真 2022年5期

王勇，宋玉宝，魏春华，陈正武

(中国空气动力研究与发展中心气动噪声控制重点实验室，四川绵阳 621000)

1 引言

直升机在飞行过程中通常会充分利用地形地貌等条件进行低空或超低空飞行，以避免被雷达、红外等探测手段发现。但是，直升机无论是在悬停状态还是在前飞状态，均会产生强烈的声信号，特别是其主旋翼扰动空气时产生的中低频声音具有传播距离远、衰减速度慢等特点。同时，直升机声信号能够绕过遮蔽物(如山体、丛林等)传播，且不受烟雾阻挡和光照影响。因此，利用直升机辐射的声信号来分辨其类型是直升机探测识别的重要手段。

如何有效地提取出直升机声信号中隐含的能反映目标类型的个性特征是直升机声信号识别的关键环节。近年来，研究者们采用了多种信号处理方法来提取待识别直升机目标的最有效或最具代表的特征，典型的方法大致可以分为时域特征提取[1]、频域特征提取[2]以及以短时傅里叶变换和小波分析为代表的时频域特征提取[3-5]。时域方法提取速度快、实时性好，但低信噪比下的识别性能大大降低。传统的频域方法和时频域方法大多以傅里叶变换为构建基础，而傅里叶变换得到的频谱在频率域上线性分布且维数较高，通常需要加以改进才能得到更高的识别率。众所周知，人类可以在低信噪比和多种干扰环境下稳定地识别目标，例如训练有素的声呐兵依靠耳朵判识水下目标的能力超过很多现有的识别系统。因此，通过模拟人类听觉系统的声信号处理过程，构建听觉模型来改进传统方法、提取稳定特征引起越来越多研究者的关注和兴趣[6-8]。

Mel滤波器组通过一组相互交叠的、中心频率呈非线性分布的三角形带通滤波器组将线性频谱转化为基于Mel频率尺度的非线性频谱，符合人耳的听觉特性，具有良好的识别性能和抗噪能力，已被广泛应用于语音识别和水下目标识别中[9-11]。声信号经过Mel滤波器组处理后具有更敏感的中低频分析能力，而直升机声信号识别中的关键成分正是传播距离远、衰减速度慢的中低频声音。因此，本文提出了基于Mel滤波器组的Mel谱特征提取方法应用于直升机声信号识别，并通过数值仿真验证了所提出方法的有效性和噪声鲁棒性。仿真结果表明：Mel谱特征提取可以有效地辨识直升机类别，具有一定的应用前景；低信噪比下，识别率和鲁棒性受帧长、频率下界和Mel滤波器个数的影响较大，而受频率上界的影响较小。

2 基于Mel谱特征提取的直升机声信号识别

2.1 人耳的听觉特性

人耳听觉感知机理的生理学研究表明，人类听觉系统的特殊结构使之在听声辨物的过程中具有动态、非线性的振动响应，以及一定的频率选择能力和更敏感的中低频声信号分析能力。感受声音刺激并进行初步分析和处理的耳蜗类似于一个频谱分析仪，具有频率选择和分解作用，其基底膜的不同部位对接收声信号的不同频率成分产生共振响应，将复杂的声信号分解成各种频率分量[12]。声音频率较低时，基底膜的顶部附近出现振幅峰值；相反，声音频率较高时，基底膜的基部附近出现振幅峰值。不同频率的声音，其峰值对应的基底膜位置并不是均匀等距分布的，而是呈现近似对数型的非线性分布。另一方面，耳蜗基底膜还起到了听觉滤波器组的作用，且不同位置对应不同的滤波带宽，顶部附近的带宽小而基部附近的带宽大，这使得耳蜗处理声信号时具有特殊的频率分辨特性，即低频分辨率高而高频分辨率低。

2.2 Mel滤波器

Mel滤波器组是一系列相互交叠的三角形带通滤波器，其中心频率在Mel尺度上等间距分布。Mel尺度与线性频率f的关系可近似表示为

Mel(f)=2595log10(1+f/700)

(1)

相应地，有

f=700(10Mel(f)/2595-1)

(2)

Mel滤波器组中相邻的三角形滤波器相互交叠，每个三角滤波器的两个底点频率分别对应其相邻的两个三角滤波器的中心频率，即第i个滤波器的中心频率对应第i-1个滤波器的上限频率和第i+1个滤波器的下限频率。因此，在确定声信号的频率分析范围[lowf，highf](lowf、highf分别为分析频率的下界与上界)和Mel滤波器个数N后，第i个滤波器(i=1，…，N)的中心频率fi对应的Mel尺度为

(3)

进一步，可以利用式(2)得到中心频率fi。

第i个Mel带通滤波器的传递函数为

(4)

其中f0=lowf，fN+1=highf。

图1给出了频率分析范围0Hz～12800Hz、N=30时，前10个Mel滤波器组的传递函数值以及每个滤波器对应的中心频率和Mel尺度值。从图中可以看出，Mel滤波器是一个在中心频率处具有最大系数的带通滤波器，只在其下限频率和上限频率之间大于0，很好地模拟了耳蜗基底膜的频率分解特性。三角形滤波器在低频段密集且系数高(放大低频成分)，而在高频段稀疏但系数低(弱化高频成分)，模拟了人耳低频处分辨率高、高频处分辨率低，更敏感的中低频声音信号的分析和处理能力。此外，随着滤波器次序的增加，三角形带通滤波器的带宽逐渐增大，与基底膜具有相似的听觉频率带宽和滤波特性。图1(b)显示Mel滤波器组的中心频率在Mel尺度上等间隔分布，而在线性频域上呈对数型非线性分布，模拟了人耳听觉系统的非线性特性。

图1 Mel滤波器组示意图及其每个滤波器对应的中心频率和Mel尺度值

2.3 Mel谱特征提取与声信号识别

基于Mel谱的直升机声信号识别利用Mel滤波器组细化并加强中低频范围内直升机声信号的频率分析方式和特征表达能力，随后送入分类器识别直升机的类型。算法流程如图2所示。

图2 基于Mel谱特征提取的直升机声信号识别算法流程图

具体过程如下：

1) 分帧与加窗由于直升机声信号只在较短时间内才可视为平稳过程，因此需要将目标声信号划分为长度L的若干帧，得到帧信号x(n)，1≤n≤L。同时，相邻帧之间需要设置一段重叠区域(通常为帧长的50%)以防止直升机声信号中的连续动态变化信息丢失(即Gibbs效应)。

为了增加帧信号左端和右端的连续性，减小分帧截断导致的“频谱泄漏”，将每帧信号乘上窗函数w(n)得到加窗后的声信号y(n)=x(n)w(n)。窗函数通常选择Hamming窗

1≤n≤L

(5)

2) FFT变换对加窗声信号进行快速傅里叶变换(Fast Fourier Transform，FFT)，得到其频谱

(6)

对应的分析频率为

(7)

式(6)和(7)中，j=sqrt(-1)为虚数单位，Δt=1/Fs为采样间隔，Fs为直升机声信号的采样率。

进一步对频谱取模，得到声信号的幅值谱。

可以看出，过程1)和过程2)相当于对输入信号进行了时频域的短时傅里叶分析(Short Time Fourier Transform，STFT)。

3) Mel滤波器组滤波在指定的频率分析范围[lowf，highf]内，用N个Mel滤波器组对幅值谱进行带通滤波，得到更符合人耳听觉特性的输出

(8)

4) 对数压缩模拟听觉系统的非线性效应，对每个Mel滤波器的输出取对数得到log10(Bi)，压缩数据的动态范围并滤除乘性噪声。将所有数据帧的对数输出取均值得到一组Mel谱特征。

5) 分类器识别将训练集的Mel谱特征送入分类器进行训练，利用训练好的模型判识测试集的Mel谱特征，以确定直升机的类型。

3 实验结果与分析

3.1 实验数据与设置

实验数据来源于低背景噪声环境下采集的3类直升机旋翼在悬停和前飞等10种不同工况下辐射的声信号，采样时间和采样率分别为10 s和25600 Hz。将获取的每条直升机声信号间隔0.5 s截取1 s时间段的数据，得到共597段样本。仿真中，训练集和测试集的样本数分别占每类直升机声信号的75%和25%，即448和149。分类器选择简单的基于欧式距离的最近邻分类器。

为考察所提出的Mel谱特征提取方法的噪声鲁棒性，在原始数据中加入不同强度的高斯白噪声，得到信噪比(Signal-to-Noise Ratio，SNR)分别为0 dB、±10 dB、±20 dB和±40 dB的含噪数据。图3给出了某段直升机声信号加入不同信噪比白噪声后的频谱图。从图中可以看出，高信噪比时声信号的能量主要集中在100Hz以下的低频段，以及桨叶通过频率及其谐波频率所在的中间频段。信噪比SNR=-20 dB时，桨叶通过频率及其谐波频率附近的频谱尖峰基本消失；SNR=-40 dB时，各频段的频谱呈近似直线的平坦分布，已经没有明显的可区分特征。

图3 不同信噪比下的声信号频谱

3.2 实验结果与分析

从2.3节的算法描述中可以看出，基于Mel谱特征提取的直升机声信号识别包含4个参数：帧长L、频率分析范围[lowf，highf]、Mel滤波器个数N。下面逐一考察参数设置对识别性能及其噪声鲁棒性的影响。

3.2.1 帧长的影响分析

图4给出了不同帧长时的识别准确率。从图中可以看出，本文提出的基于Mel谱特征提取的直升机声信号识别方法具有很好的识别性能和噪声鲁棒性。当信噪比SNR≥0 dB时，不同帧长时的识别率均接近100%；随着信噪比的进一步降低(SNR<0 dB)，本文方法的识别率逐渐降低，其原因在于：如图3所示，信噪比为负时，有效信号逐渐淹没于噪声之中，可区分特征逐渐消失。从图4中还可以看出，当帧长取适当大小(最优长度L=2048)时，可以提高识别率和抗噪能力。出现这种现象的原因在于：一方面，帧长较小时，每一帧声信号包含的有效信息较小不利于识别信息的提取，且FFT的频率分辨率较低不能有效地分辨两个不同频率的直升机声信号；另一方面，帧长较大时，短时平稳条件难以满足且频率分辨率较高，导致算法容易受噪声的影响。

图4 不同帧长下的识别准确率

3.2.2 频率分析范围的影响分析

图5给出了频率分析范围采用不同下界lowf和上界highf时的识别准确率。从图中可以看出，尽管频率下界lowf的最大变化范围只有320 Hz，远小于频率上界highf的变化范围6400 Hz，但频率下界对识别率的影响却更大。频率下界设置得越小，噪声鲁棒性越强、识别率越高。这与图3所揭示的直升机声信号的主要能量聚集于中低频段是相符的，也说明直升机声目标识别的有效特征主要是能量大、传播远、衰减慢的中低频信号。

3.2.3 Mel滤波器个数的影响分析

图6给出了不同Mel滤波器个数时的识别准确率。从图中可以看出，随着Mel滤波器个数的增加，识别率呈现先增加再降低的趋势，特别是在信噪比较低时。图7给出了Mel滤波器组的滤波带宽随滤波器个数的变化情况。从图6和图7中可以看出，识别率和滤波带宽随滤波器个数的变化趋势基本相反。结合图1(a)可知，当Mel滤波器较少时，滤波带宽过大造成频率分辨率低，这与Mel谱特征提取中引入Mel滤波器组加强直升机声信号中低频段的频率分辨率的初衷是背离的，因此无论信噪比大小均不能得到较好的识别率。另一方面，当Mel滤波器较多时，滤波带宽较小频率分辨率高使得滤波效果容易受噪声的影响，进而引起低信噪比时(SNR<0 dB)识别率反而随着滤波器个数的增加而降低。此外，滤波器个数越多，算法复杂度越大，且Mel谱特征越多、耗时增加，因此综合考虑，需要设置恰当的滤波器个数。