基于小波包分解和PCA-Attcntion-LSTM的舰船辐射噪声识别技术
2022-05-17吴承希徐千驰朱雨男
吴承希,王 彪,徐千驰,朱雨男
(江苏科技大学电子信息学院,江苏镇江 212100)
0 引 言
辐射噪声作为水声目标主要的信号源之一,由于目标发声机理复杂,加之多变的舰船航行工况和海洋环境声场的干扰,给目标的识别带来较大困难[1]。但舰船辐射噪声具有不同的声学特性,经过对目标噪声不同特征的提取和选择后,可以得到舰船不变的物理特征,甚至是舰船的工作状态信息。这些特征信息通过一定的方法获取,可以用于舰船的识别工作。目前主流研究使用希尔伯特-黄(Hilbcrt-Huang)变换[2-4],梅尔倒谱系数[5-8],高阶谱估计[9-10]等信号处理的方法进行特征提取,之后再在决策树、支持向量机[11-12]等学习分类器完成目标识别分类。随着深度学习在音频识别和图像处理领域取得了一系列成果,近年来深度学习算法也被广泛应用于舰船辐射噪声的识别与分类。
国内外对舰船辐射噪声的多特征分类学习已有了较多研究,并取得了一定进展。张岩等[13]提出基于主成分分析法(Principal Componcnt Analysis,PCA)信号重构和主成分空间聚类分析方法研究舰船目标的特征提取和分类。Zhang等[14]基于声矢量传感器的梅尔倒谱(Mcl-Frcqucncy Ccpstral Cocfficicnts, MFCC)多维度特征,通过基于误差反向传播(Back Propagation, BP)算法进行特征融合,来识别水下目标。朱可卿等[15]将提取特征后的图像样本分别用于训练卷积神经网络和深度置信网络,对船舶辐射噪声进行识别。曾赛等[16]提出一种水下目标的多模态深度学习分类算法,结合LSTM和卷积神经网络(Convolutional Ncural Nctworks, CNN),对一维时域信号和二维频域信号分别并行处理。Wang等[17]提出了一种多维特征融合和改进的深度学习神经网络模型,利用 Gammatonc倒谱系数(Gammatonc Frcqucncy Ccpstral Cocfficicnts, GFCC)特征和改进的经验分解模型来提取多维特征,同时,利用高速混合模型修改深度神经网络模型的结构以得到较高准确率。倪俊帅等[18]采用了BP算法建立具有多个输入分支的深度神经网络,同时对舰船的频谱特征、梅尔倒谱系数和功率谱特征参数进行学习分类。
文章为了改善识别系统的性能、提高舰船辐射噪声识别的准确率,提出了一种基于小波包分解的PCA-Attcntion-LSTM 多特征分类方法。根据小波包分解原理,分频段提取目标信号特征,对提取的特征矩阵进行 PCA降维处理,再放入带有注意力机制的LSTM网络中对数据进行学习分类。文章在实测舰船辐射噪声数据上进行了实验,对比了分频段与不分频段的特征、多特征与单一特征、不同信噪比下算法进行分类的准确率和识别性能。
1 特征提取
辐射噪声信号经过数据预处理步骤后,需要对辐射噪声的特征进行提取。由于小波包分解技术在振动噪声特征融合上取得了良好的识别效果[19],且辐射噪声中包含大量船舶机械振动产生的噪声,因此,考虑利用小波包分解技术,将辐射噪声信号先分频段,然后在不同频段下提取信号的时域频域特征、梅尔倒谱系数、小波变换、线性预测编码(Lincar Prcdictivc Coding, LPC)和频带功率特征等多维度特征,对提取后的特征重新拼接合并组成混合特征集。
1.1 小波包分解
小波包分解(Wavclct Packct Dccomposition,WPD)是一种将原始信号分解成多个频段的技术,可以对低频、高频部分进行分解。舰船辐射噪声主要集中在低频部分,通常小于1 000 Hz,由机械振动噪声、螺旋桨空化噪声、机舱噪声等噪声构成,导致信号的频域信息分布不均。因此,利用小波包对非平稳随机信号良好的处理能力,剔除随机波动数据,可以减少噪声信号对预测识别结果精度的不利影响。
辐射噪声原始信号经过i层小波包分解可得到2i个不同频率区间的子频带。根据舰船辐射噪声特性和实际需求对原始信号进行合适层数的小波包分解,层数越高,分解的特征越细致。图1是3层小波包分解的示意图。
图1 小波包分解示意图Fig.1 Schematic diagram of wavelet packet decomposition
图1中,S为输入的原始信号,LS和HS分别表示原始信号第一次分解所得的低频分量和高频分量,LLS和LHS分别表示第一次分解所得的低频分量再进行第二次分解所得的低频分量和高频分量,以此类推,原始信号经过i层小波包分解后,可以得到2i个不同频率区间的子频带。
1.2 时域频域和频带功率特征
时域特征主要包括平均能量、最大能量、过零率等共计6个维度的传统时域特征量;频域特征包括有频谱平坦度、频谱滚降系数、频谱通量等共计21维传统频域特征量;频带功率特征是针对不同频带功率特征的不同,利用功率谱特性公式,求幅度平均函数的统计平均,提取频带上的功率谱特征。
1.3 小波变换特征
小波变换相比传统傅里叶变换是时空频率的局部细化,可以自适应聚焦信号的细节,解决傅里叶变化对高低频信号分离的处理难题。由于不同类型舰船的辐射噪声在不同频带下能量分布不同,不同船只的能量分布频率也不相同。小波分析可以对噪声信号不同的频段进行划分,提取不同频段的能量分布特征,重点刻画辐射噪声所在低频信号细节。
1.4 MFCC特征
MFCC特征是经典的人耳听觉感知特征,但人耳听到的声音与频率并不成线性关系,通常采用Mcl频率来模拟人耳的听觉特性,因此常被用于水声目标信号识别的特征提取。
辐射噪声信号在预处理后,通过快速傅里叶变换,经过三角形Mcl频率滤波器组的处理,对所有滤波器输出数据进行对数运算,最后通过离散余弦变换得到梅尔倒谱系数。
1.5 LPC特征
1.6 特征矩阵
2 辐射噪声识别模型
辐射噪声识别模型首先对预处理后的信号提取特征,将提取的 81维特征按不同频段进行串联组合,组成包含有 32个子频带信息的辐射噪声特征集。对特征集进行 PCA降维选择特征,再放入Attcntion-LSTM模型中进行分类识别,由于特征集的多维特性,模型分类时需考虑训练的泛化能力。
如图2所示是基于小波包分解和 PCAAttcntion-LSTM的辐射噪声识别流程图,本文提出的方法分为数据处理和识别分类两个阶段。在数据处理阶段获取所需分类的特征集合,并利用 PCA进行特征选择,然后划分训练集和测试集。最后,在识别分类阶段使用合适的模型得到分类结果。
图2 基于小波包分解和PCA-Attcntion-LSTM的辐射噪声识别流程图Fig.2 Flow chart of radiated noise recognition based on wavelet packet decomposition and PCA-Attention-LSTM
2.1 数据处理
首先,对辐射噪声信号数据的特征异常值进行预处理,给特征集数据打上分类的标签。然后,按4:1 的比例从特征集中随机划分训练集和测试集,用来对辐射噪声进行分类识别。不同船型的辐射噪声数据归一化处理后的特征分布情况如图3所示。
图3 不同船型辐射噪声数据在不同频段的归一化特征值分布Fig.3 Distributions of normalized eigenvalues in different frequency bands for different types of ships
2.2 PCA主成分分析法
2.3 基于Attcntion-LSTM的模型的分类识别
在训练集上引入注意力机制算法训练LSTM模型,使得算法可以有重点地选择并优化网络参数,建立识别分类模型。再将训练好的 LSTM 分类模型在测试集上进行分类预测,得到舰船分类的结果,并计算分类正确率和识别性能。基于Attcntion-LSTM的分类步骤如图4所示。
图4 基于LSTM的特征融合分类步骤图Fig.4 Procedure of LSTM-based feature fusion classification
2.3.1 LSTM模型
一系列时序模块组成了LSTM模型,一般包括有输入门,遗忘门和输出门,利用门控机制,来控制记忆块内的信息流动,使其具备长期和短期的记忆能力,LSTM的网络结构图如图5所示。
图5 LSTM运行原理图Fig.5 Principle diagram of LSTM operation
LSTM 的训练可以分为 4个步骤:(1) 前向传播,计算网络输出值;(2) 后向传播,计算时间和网络误差;(3) 计算梯度值;(4) 更新权重系数。
2.3.2 注意力机制
注意力(Attcntion)机制源于生物观察的注意力过程,重点突出了对关键输入数据的贡献度。Attcntion机制可以对贡献多的区域投入更多的注意力资源,抑制无关信息,是一种可以提高局部区域观察精细度的机制。
目前 Attcntion机制在自然语言处理和文本翻译等领域取得了一系列成果。通过对输入模型的变量进行分析,并给予不同的输入变量权重,对影响因素高的元素赋予较高权重比例,突出关键元素在模型中的作用,使得网络模型做出最优的判断。同时,由于Attcntion机制在计算时通常采用并行计算的方式,无需考虑模型在计算方面的时间损耗。
针对本文提及的通过多特征表示来确定输入的不同方面的情况,Attcntion机制可以将不同的权重分配给不同贡献的特征表示,以减少噪声等情况对识别结果的干扰。最后的表达式是不同方面特征及其注意力模型的加权组合。
如图6所示,x1,x2,… ,xt为待预测时刻之前的特征,xk为总输入量特征。s1,s2,… ,st为输入特征对应的隐藏层特征,sk为输入量特征对应的隐藏层特征。pak1,pak2, … ,paki为历史输入量对当前输入量的注意力概率。C是输入给解码器 Dccodcr 的向量,用来计算下一时刻的预测结果。根据示意图分析得出Attcntion机制的计算公式为[22]
图6 Attcntion机制示意图Fig.6 Schematic diagram of Attention mechanism
其中,eki表示第i时刻的隐层向量,αki表示隐层状态的权重系数。wk表示隐藏状态的权重系数,wi表示第i个隐藏状态对应的权重系数,a表示相对应的偏置值。
2.3.3 模型运行步骤
(1) 通过声学传感器获取水声目标辐射噪声数据,预处理后,对收集的数据做小波包分解的多频段下的特征提取。
(2) 利用PCA降维,保留80%特征的要求,筛选出影响舰船辐射噪声的关键因子,减少输入维数,选择特征,划分训练集和测试集。
(3) 建立LSTM网络,选择需要记住的重要信息。LSTM运算时间和网络层数等参数有关,因此在训练模型前要先选择合适的隐藏层数和网络参数。如表1所示是LSTM网络训练参数。
表1 LSTM网络训练参数Table 1 LSTM network training parameters
(4) 在全连接层前,添加Attcntion机制,将模型学习到的权重赋值给下一个时刻作为输入,重点强调关键特征在预测学习中的重要水平,最后利用softmax函数输出分类结果。
(5) 评估模型指标,利用均方根误差(Root Mcan Squarc Error , RMSE)、平均绝对误差(Mcan Absolutc Error, MAE)、决定系数R2来说明验证预测结果的准确性:
其中:yi是真实的结果,y是真实结果的平均,ai是预测的结果,N是测试样本的数量。
3 实验结果与分析
3.1 数据预处理
本文采用的实测舰船辐射噪声库,包含有渔船、商船、货船和油船等不同船型的辐射噪声数据。从中选择 4种不同类型船舶的辐射噪声建立数据集,每个辐射噪声音频信号均为采样频率44.1 kHz、16 bit输出、wav格式的数字信号。并在其中添加-10、0、5、10 dB信噪比的加性高斯白噪声噪声,构建添加辐射噪声的数据集。
辐射噪声是一种典型的非平稳随机信号,预处理包括对数据标准化、分割、分帧。每一个信噪比下每一类辐射噪声信号总计15 502个样本,一共4类数据共计62 008个样本。
实验时,舰船辐射噪声特征集按照4:1的比例被随机划分为训练集和测试集,用于识别模型的训练和测试,具体实验流程如图7所示。
图7 识别模型训练流程图Fig.7 Flowchart of recognition model training
训练过程中,选择适当的分区大小和优化算法,能提高训练效率,LSTM网络训练参数见表1。
其中训练时间步根据输入数据的特征确定,没有PCA降维前,输入时间步为32,特征数为81;PCA降维后,输入时间步为5,特征数为3。同时网络层数也要相应改变,没有 PCA降维前,网络层由3层128个LSTM单元组成;PCA降维后,网络层由1层64个LSTM单元组成。同时建立早停机制,对训练loss设置监控的数据接口,在连续5次迭代loss没有改变的情况下,神经网络提早停止工作。
数据集的标签采用Onc-Hot编码,为了高效地训练样本,引入交叉熵损失函数作为模型的损失函数来训练,形式如下:
3.2 分频段和不分频段特征的模型性能对比
利用小波包分解技术提取特征,在传统特征提取方法的基础上,分频段刻画信号的细节特征,将辐射噪声集中的低频频段特征放大,再将辐射噪声数据放入 K 最近邻(K-Ncarcst Ncighbor , KNN)模型中进行分类识别,并与未频段划分的特征模型进行对比。最终得到如表2所示的识别准确率对比。
表2 KNN模型对未划分频段和多频段划分的特征的识别准确率对比(未添加噪声)Table 2 Comparison of the recognition rate of the features with and without frequency band partition in KNN model (no noise added)
表2中比较了不同特征在未经过小波包分解划分频段和经过小波包分解划分频段的情况下识别的准确率。基于小波包分解的多特征提取相比于未划分频段的方式,识别准确率提高了0.9个百分点,相比于单一特征识别准确率最高的MFCC,提高了0.18个百分点。其中经过小波包分解的各频段下的单一特征相比于未划分频段下的单一特征,识别率方面均有所提高,其中时域能量的准确率提高最为明显,达到了 8.86个百分点。因此,小波包分解划分频段提取特征的方式能够有效提高识别的准确率。
3.3 单一特征和混合特征的模型性能对比
从数据集中提取特征,将全部 32个频段下的81组特征组成特征集,再放入分类器模型中进行训练和测试。将单一特征和混合特征进行对比,根据输入数据的多少,选择合适的网络结构。其中,单一特征的LSTM网络选择1层64个LSTM单元,小波包分解特征的 LSTM 网络选择 3层 128个LSTM单元,以达到最优情况。
表3中比较了基于小波包分解的特征在单一特征和多特征条件下的识别准确率,图8直观地展示了识别准确率情况。其中,基于小波包分解的多特征模型比单一特征模型识别准确率高,效果好。这些特征在KNN模型下就达到了不错的识别效果,在LSTM和Attcntion-LSTM模型中识别效果更好,混合多特征分别提升了2.69个百分点和2.37个百分点。其中,时域能量的识别准确率提升效果最明显,达到了 4.28个百分点和 3.79个百分点。Attcntion-LSTM和LSTM在此类情况下的识别准确率相差并不大,甚至部分情况下 Attcntion-LSTM的识别率低于LSTM,主要是由于Attcntion是一种注意力机制,不依赖于上一步的计算结果,从一段长特征中提取重点信息,因此在有些情况下会导致部分识别率降低。但将其引入长片段特征或者复杂特征情况,会使识别效果更好。
图8 不同模型对单一特征的识别准确率对比Fig.8 Comparison of recognition accuracies of different models for a single feature
表3 不同模型对单一特征和混合多特征的识别准确率对比(未添加噪声)Table 3 Comparison of recognition accuracies of different models for a single feature and the mixed multiple features (no noise added)
3.4 不同信噪比时模型的性能对比
为了对比不同信噪比时不同模型的识别效果,在保留原有测试集的基础上,分别添加信噪比为10 dB,5 dB,0 dB,-10 dB的高斯加性白噪声,重新构建加入噪声的数据集,按照信噪比大小整理4个部分,经过分类器模型计算得到不同信噪比下的识别准确率、运算时间和模型精度。
由于特征提取种类涵盖MFCC、PLC、时域能量、小波变化等各个方面,会导致模型的训练和预测精度降低。因此,需要根据特征值和累计贡献率对主成分进行选择,将提取的特征按贡献率80%特征保留,压缩成 15个主要成分。其中信噪比为-10 dB的渔船数据集的部分主成分表如表4所示。
表4 信噪比-10 dB渔船数据集PCA特征提取的部分结果Table 4 Partial results of PCA feature extracted in fishing boat data set at SNR=-10 dB
表5比较了不同信噪比下的模型识别分类的准确率,图9直观地展示了识别准确率情况。在未添加高信噪比噪声的情况下,分类器识别准确率相差不大,KNN和PCA-KNN模型精确度较低,PCALSTM和PCA-Attcntion-LSTM的识别准确率较高。最高可以达到 98.15%,相比传统 KNN模型和LSTM行分别提升了7.98个百分点和5.29个百分点。添加噪声后,各模型识别率有所下降,其中KNN下降速率最为明显,随着信噪比的降低,均有约3个百分点的准确率下降。LSTM模型在0 dB到-10 dB信噪比区间准确率也迅速下降,达到11.99个百分点。因此传统方法在应对环境噪声强的情况下容易导致识别准确率下降。相较于此,经过 PCA降维的深度学习模型识别准确率变化波动小,最大变化准确率仅为4.38个百分点,对低信噪比目标的识别率比较稳定。
表5 各模型在不同信噪比时识别准确率对比Table 5 Comparison of recognition accuracies of different models under different SNRs
图9 不同信噪比下不同模型的识别准确率对比Fig.9 Comparison of recognition accuracies of different models at different signal-to-noise ratios
此外,对比不同学习方法,传统机器学习模型识别效果不佳,相较于LSTM和Attcntion-LSTM模型,在-10 dB信噪比条件下,KNN模型识别率分别降低了5.49个百分点和5.57个百分点。PCA降维前后的LSTM模型和Attcntion-LSTM模型分别提高了10.55个百分点和12.15个百分点。而PCA-LSTM和PCA-Attcntion-LSTM模型相比PCA-KNN模型分别提高了14.45个百分点和16.13个百分点。
表6在预测性能方面做了比较。LSTM 的ERMS、EMA、R2等精确度指标远好于KNN模型,在低信噪比时更为明显,经过 PCA降维和添加注意力机制后的模型精确度要好于没有经过降维和添加注意力机制的模型,因此PCA-Attcntion-LSTM模型有较好的识别效果。
表6 各模型在不同信噪比时预测精度对比Table 6 Comparison of prediction accuracies of different models under different SNRs
表7在运算时间方面做了比较。传统机器学习算法KNN的分类时间少于LSTM的训练时间。其中 PCA-KNN的运算时间最少,但识别率相对较低。PCA-LSTM和PCA-Attcntion-LSTM的运算时间远小于不降维的模型,在未添加噪声的情况下,运算时间分别提升了96.32%和95.46%,模型准确率效果较好,且与 PCA-KNN的分类时间相差不多,能够有效提高运算速度,提升训练效率。
表7 各模型在不同信噪比时运算时间对比Table 7 Comparison of operation time of different models under different SNRs
因此,提出的基于小波包分解特征的 PCAAttcntion-LSTM模型能够有效地提高识别准确率和预测精度,减少运算时间。
4 结 论
本文提出的基于小波包分解的多特征舰船辐射噪声识别模型具有良好的识别性能,提高了辐射噪声的识别准确率,降低了训练时间,为辐射噪声识别提供了新的方法和思路,为精确识别目标、确定目标类型提供了保证。
(1) 用小波包分解技术提取不同频段上多个特征,重点刻画频段细节,提升特征提取的全面性。
(2) 用PCA算法对数据进行降维,提取辐射噪声特征的关键影响因子,降低输入数据的维度,减少模型计算时间,提高性能。
(3) 在LSTM模型的基础上,引入注意力机制,重点关注对识别结果有影响的特征序列,在输入的特征数据中寻找有用信息,提高识别准确率。实验结果表明,引入注意力机制算法对低信噪比辐射噪声的识别分类更有效。
(4) 提出的基于小波包分解和 PCAAttcntion-LSTM 模型可以准确识别辐射噪声的目标类型,相较于KNN算法,在识别效果上有了显著提升,相比于LSTM算法既保证了识别准确率又降低了训练时间,表明该方法在识别辐射噪声目标方面具有明显的优势。
(5) 特征提取是按照小波包进行频段分解,分解后既有高频分量又有低频分量的特征,且添加的噪声不仅有低频信息,也有高频信息。虽然舰船辐射噪声的能量通常集中在低频段,但模型可以有效地适应高频干扰信号达到较好的识别效果。因此当小波分解只分离低频信息时,效果还会有所提升。
(6) 对于实际应用领域中更多舰船种类的识别,可以通过增加数据集种类、提高泛化能力和增加深度网络的分支数量来解决。