基于稀疏非负矩阵分解的低空声目标识别

2020-03-23杨立学王志峰周印龙

声学技术 2020年1期

杨博，杨立学，王志峰，周印龙

(中国电子科技集团公司第三研究所，北京100015)

0 引言

被动声探测技术在低空探测预警方面具有重要的军事应用。它被动接收低空/超低空飞行器目标引擎发出的辐射噪声信号，并利用阵列信号处理和模式识别等方法，得到低空/超低空目标的方位、属性、运动状态等信息[1]。其中，目标属性(或类型)的正确识别至关重要，它有助于排除虚假目标，或可根据识别的目标类型进行威胁等级评估。

低空声目标识别包括特征提取和分类器设计，其中前者是决定识别效果的关键因素。传统的声信号特征类型包括：时域特征，如短时能量、过零率、自相关系数等[2]；频域特征，如功率谱、AR 谱等[3]；时频特征，如小波包系数等[4]；听觉感知类特征，如梅尔(Mel)频率倒谱系数[5-6]。对于特定的目标识别任务，需要对这些特征进行精心的设计和选择才能达到理想的效果；然而，这一过程通常耗费较大的时间和精力，同时应用环境的改变也会导致所提取的特征不稳健，因而识别效果也随之下降。

近年来，特征学习技术(即从数据中自动学习特征的技术)为低空声目标识别提供了新的思路，它在很多音频识别任务中表现出较之传统特征提取方法更优的效果[7-9]。非负矩阵分级(Nonnegative Matrix Factorization, NMF)为一种经典的特征学习方法，可将一个所有元素均为非负实数的特征矩阵(如声信号时频谱或Mel 频率幅度谱)分解为一组模板矩阵和编码矩阵的乘积，其中模板矩阵的列向量对应不同谱模式，而编码矩阵的列向量则表示该时刻对不同谱模式的加权系数。理论上，不同类别的声信号特征可学习得到不同的谱模板，如果将这些谱模板合并对目标信号特征进行分解，得到的编码系数可作为特征进行目标分类。进一步对编码系数施加稀疏性约束，即少数几个模板(通常为同一目标类型的不同谱模式)对应的系数不为0，则可增强不同目标间的可分性[10]。

考虑到人耳在听音辨物中出色的分辨力和稳健性，以及非负矩阵分解方法在声信号的时频幅度谱(满足非负特性)上进行特征提取的可行性，本文将以信号的Mel 频率谱为特征矩阵，并基于稀疏NMF 方法对不同类别目标的Mel 谱进行特征学习，学习到的特征将与通过对Mel 谱进行离散余弦变换得到的梅尔频率倒谱系数(Mel-frequency cepstrum coefficients,MFCC)特征进行对比，验证这种特征学习方法在低空声目标识别中的有效性，为实际应用奠定基础。

1 方法

本文的主要任务是低空声目标识别，主要目标类别包括无人机、直升机和战斗机。环境噪声干扰将作为一组与目标同等地位的一个类别，考察对真实环境下虚警的抑制能力。

1.1 Mel 频率谱提取

人耳在各种嘈杂环境中具有出众的目标辨识能力，其中耳蜗起了关键作用。耳蜗实质上相当于一个滤波器组，耳蜗滤波作用是在对数频率尺度上进行的，因而其低频分辨率高，高频分辨率低。由于一些低空目标(如直升机和无人机)的线谱主要集中在低频，较高的低频分辨率有助于目标特性的描述。根据人耳音调感知关系，可得到Mel 频率尺度及对应的滤波器组。Mel 频率尺度与普通频率尺度的关系为[11]

Mel 滤波器组由一系列三角形滤波器构成，其频率响应定义为

式中：k 为频率；fL(m )、 fH(m )和 f (m )分别代表第m 个滤波器的上、下截止频率及中心频率。

本文所用的目标信号采样频率均为4 096 Hz，传感器采集的声信号通过模拟电路滤波，带宽变为10 Hz～1 kHz，依据通常的应用需求(1 s 输出1 次识别结果)，利用长度为1 s 的短时窗对信号进行分段，然后进行傅里叶变换获得幅度谱，并通过Mel 滤波器组获得不同频带的能量，最终得到Mel 频率谱。

图1 对比了三类低空目标和环境干扰的声纹时频图，颜色越深，幅度越大。由图1 可见，直升机信号在300 Hz 以下具有较强的线谱，无人机信号在200～600 Hz 的频率范围内有较强的线谱，战斗机信号具有频率较高的宽带谱，而环境干扰(主要为道路噪声)的能量则主要集中在低频。依据所分析的目标特性差异，本文提取了3 个频带范围的Mel 谱，中心频率范围分别为10～300 Hz、300～600 Hz 和10～600 Hz，分别对应于直升机、无人机和战斗机的特征频率范围；对于不同目标采用不同的分析频带可有助于降低宽频带环境干扰的影响；每个频带范围均包含40 个滤波器组，Mel 谱也相当于对原始的时频谱进行初步降维。再对Mel 谱能量取对数后进行离散余弦变换，可获得MFCC 特征。不同阶的MFCC 系数能够描述目标信号谱包络的整体或精细的形状特征，是一种声纹识别的常见特征，这里保留较大的20 个系数作为特征与稀疏NMF 方法进行性能对比。

1.2 稀疏NMF

1.2.1 NMF 基本思想

NMF 的基本思想是：已知所有元素均为非负实数的矩阵X(此处为训练样本的Mel 频率幅度谱特征矩阵)，寻找一种分解方法，使其等于两个非负矩阵D 和C 的乘积，即：

式中：X ,Λ∈ℝM×N；D∈ ℝM×R，C ∈ℝR×N，D 和C 均为非负实数矩阵；M 代表特征维数(此处对应Mel频带数40)，N 代表样本数(此处对应以秒为单位的时间长度)，R 表示谱模板数；矩阵D 为模板矩阵(template matrix)，其包含的列向量为基向量，矩阵X中的列向量即是由矩阵D 里面的基向量线性组合构成；矩阵C 称之为编码矩阵(code matrix)，包含了由模板向量构建矩阵X 的组合方式。通常情况下，R 小于M 及N，用少量的模板向量表征大量的数据向量。

在矩阵分解中，完全精确的分解过程是难以实现的，因此一般通过定义目标函数来保证矩阵分解中的逼近效果。目标函数C 可使用KL 散度准则[12]：

图1 三类目标与环境干扰的时频图比较Fig.1 Comparison between the spectrograms of four kinds of targets

通过构造辅助函数，可推导得到乘法法则迭代公式为[13]：

式中：.∗和./分别代表两矩阵元素间的相乘和相除，I 是与X 同大小、元素全部为1 的矩阵。式(5)和(6)右侧的乘法运算完毕后，将得到的值替代上一步的模板矩阵和编码矩阵。

对目标函数收敛性的判断一般可以通过计算目标函数的相对变化比值来完成，如果目标函数相对变化比值小于阈值ε，则可认为目标函数收敛[13]：

根据经验，取ε= 1 0−3。

1.2.2 稀疏NMF

如果对编码系数施加稀疏约束，则某类目标的信号特征只由其学习到的模板向量加权和表示，而其他模板的编码系数近似为0，这样可增加编码系数在不同目标类别间的可分性。在施加稀疏约束后，代价函数变为

而迭代公式变为

式(8)中，λ1= ，代表稀疏约束加权系数。将4 类目标分别进行稀疏NMF 分解获得各自的模板矩阵，并将其按列合并；当未知目标信号到来时，利用合并后的模板矩阵依据式(11)进行分解，一定会在该信号所属目标类别对应的模板上具有较大的编码系数，因而编码系数可作为分类特征。

1.3 识别流程

针对低空目标信号特点，本文采用如图2 所示的分频段特征提取和顺序二类分类的方法。

首先，对输入的1 s 长信号进行短时FFT 获得幅度谱，并依次计算300～600 Hz Mel 频带能量(无人机在该频带特征显著)、10～300 Hz Mel 频带能量(直升机在该频带特征显著)和10～600 Hz Mel 频带能量(战斗机在该频带范围具有宽谱特性)；然后，针对无人机和非无人机、直升机和非直升机、及战斗机和非战斗机任务分别利用稀疏NMF 算法获得描述目标和非目标的模板矩阵，编码系数可作为分类特征；最后，利用支持向量机(Support Vector Machine，简记为SVM)模型依次进行无人机和非无人机、直升机和非直升机、以及战斗机和非战斗机的分类，得到最终的目标类型。

图2 低空声目标识别流程Fig.2 The procedure of low-altitude acoustic target recognition

2 实验结果

本节将检验稀疏NMF 方法在低空目标识别中的识别效果，并与MFCC 特征进行效果比对。

2.1 数据集

本文所关注的低空目标类型包括无人机、直升机、战斗机。此外，环境干扰信号作为与其他三类目标同等地位的一个类别，用于考察虚警抑制能力。近几年，项目组针对四类目标在不同时间和不同地点进行了多次数据采集，每次的环境噪声水平及干扰情况均不同，既包括较为安静的田野，也包括车流量较大的街道旁，从而考察算法对于环境变化的稳健性。

声音采集设备如图3 所示。该设备为32 通道三层立体阵，最下面一层为8 元圆阵，直径为2.4 m；中间层为16 元十字阵，阵元间距为0.2 m；最上层为8 元十字阵，阵元间距为0.2 m；层与层之间间隔0.4 m。设备采样频率为4 096 Hz，传感器采集的声信号经过模拟电路滤波后频率范围变为10 Hz～1 kHz，数据可实现实时存储。识别算法处理的数据来自设备所设置的专用传感器通道。

图3 声音采集设备Fig.3 The sound acquisition equipment.

在每次目标数据采集实验中，通过掌握的目标飞行信息，在其飞行路径上选取开阔平整的地方进行设备布设，进行连续不间断采集；每个批次的目标声信号可持续几十到几百秒。通过多次试验，收集到的无人机目标包括固定翼无人机和涵道式无人机，直升机包含3 种机型，战斗机包含2 种机型。在数据集划分时，使训练集和测试集包含不同机型，以考察识别算法对未见过机型的适应性。环境干扰主要采集了道路噪声，采集设备位于两条道路的交叉处，一侧为车流量较大的主干道，设备距其几十米；另一侧为车流量较少的小路，设备距其仅几米；环境噪声分两个时段测量，一段用于训练，另一段用于测试。表1 给出了训练集和测试集不同类别目标的信号长度。

表1 训练集和测试集不同类别目标的信号长度Table 1 The signal lengths of training and testing datasets for different kinds of targets

2.2 识别结果

针对无人机和非无人机的判别，利用300～600 Hz 频率范围内获得的Mel 谱进行稀疏NMF 分解，无人机数据学习得到32 个模板，直升机、战斗机和环境干扰数据分别学习得到16 个模板，将它们合并得到80 个模板(40×80 矩阵)，利用合并后的模板矩阵对所有训练数据的声特征进行分解，得到的编码系数作为分类特征进行模型训练。对于测试数据，同样利用合并后的模板矩阵对其特征进行分解，得到的编码系数作为特征输入到模型中得到目标类别标记。MFCC 特征在归一化后直接输入到模型进行训练或测试。表2 给出了两类特征的识别结果，其中对于无人机和非无人机的判别MFCC特征的识别率为94.02%，而经稀疏NMF 分解得到的特征对应的识别率为95.77%。

表2 两类特征识别正确率对比Table 2 Comparison between the recognition accuracies of two kinds of features

针对直升机和非直升机的判别，利用10～300 Hz 频率范围内获得的Mel 谱进行稀疏NMF 分解，直升机数据学习得到32 个模板，战斗机和环境干扰数据分别学习得到16 个模板，将它们合并得到64 个模板(40×64 矩阵)，稀疏NMF 和MFCC特征训练/测试过程与无人机和非无人机分类过程类似。表2 中对于直升机和非直升机的判别，MFCC特征的识别率为88.22%，而经稀疏NMF 分解得到的特征对应的识别率为97.36%。

针对战斗机和非战斗机的判别，利用10～300 Hz 频率范围内获得的Mel 谱进行稀疏NMF 分解，战斗机数据学习得到32 个模板，环境干扰数据学习得到32 个模板，将它们合并得到64 个模板(40×64 矩阵)。表2 中对于战斗机和非战斗机的判别，MFCC 特征的识别率为96.94%，而经稀疏NMF分解得到的特征对应的识别率为98.45%。

采用如图2 所示的顺序识别过程，获得了两类特征对于四类目标测试样本的总体识别率，其中MFCC 特征的识别正确率为85.71%，而稀疏NMF特征的识别正确率为93.57%。综上所述，稀疏NMF 无论是在单类目标识别还是在多类目标分类上，性能均优于MFCC 特征，从而显示出更高的目标分辨能力。

3 结论

本文研究了稀疏非负矩阵分解技术在低空声目标识别中的应用。首先，基于信号Mel 谱特征，利用稀疏NMF 方法学习得到各类目标的谱模板矩阵，并将其合并；然后，基于合并后的模板矩阵对每个样本的信号特征进行分解，得到的编码系数作为识别特征；最后，结合四类目标的特点，采用无人机和非无人机、直升机和非直升机以及战斗机和非战斗机的顺序识别过程，并将稀疏NMF 方法与MFCC 特征的识别结果进行比较。结果显示，无论是在单类目标识别还是多类目标分类中，稀疏NMF方法均取得了较好的识别结果。

对于实际应用，该算法虽然采用离线方式训练，所需时间相对较长，但是，一旦特征模板矩阵和识别模型确定后，可针对未知信号特征进行在线分解和识别模型运算，能够满足实时处理要求。因此，该算法具备较好的实际应用前景。