融合人耳听觉特性与SAE 模型的船舶辐射噪声分类方法
2020-10-29李海涛邱家兴
李海涛,刘 振,陈 喆,邱家兴
(海军潜艇学院,山东青岛266071)
0 引 言
船舶辐射噪声分类识别是判别船舶目标类型的重要方法。近年来,深度学习技术的发展为船舶辐射噪声分类识别提供了一个新的方法。国内外许多专家学者将深度学习技术应用于船舶辐射噪声分类识别上,以提高船舶目标分类识别能力。Sabara R基于图形信号处理和卷积神经网络研究,开发了一种基于图形卷积神经网络的水声目标识别系统[1]。Kamal S使用深度置信网络提取信号时频信息的深度特征用于分类识别[2]。国内也对基于深度学习的船舶辐射噪声分类识别方法进行了深入的研究,主要方法是使用深度神经网络[3~5]、卷积神经网络[6~13]、深度置信网络[13~16]、自编码神经网络[17~19]等模型提取不同输入数据的深度特征,并用于分类识别。
人工听测判型是船舶辐射噪声分类识别的重要方法。在此过程中,操作员获得的信息仅为人耳听测得到的船舶辐射噪声。经验丰富的操作员根据多年积累的先验知识对听测的噪声信号进行分类识别。研究人耳听觉特性,对于分类识别具有重要意义。张大伟[20]将听觉中枢上的二维听觉谱图作为卷积神经网络的输入,提取出深度特征并用于分类识别。杨宏晖[21]使用多尺度卷积滤波器将时域信号分解为具有不同频率分量的信号,使用卷积神经网络对每个信号进行特征提取用于分类识别。本文从人耳听觉的角度出发,提出一种融合人耳听觉特性与堆叠自编码神经网络(Stacked Auto-Encoder Network,SAE)的船舶辐射噪声分类方法。该方法首先使用Mel滤波器提取船舶辐射噪声模拟人耳听觉特性的特征量,然后将该特征量作为堆栈自编码神经网络的输入,逐层提取输入数据的深度特征并用于分类识别。
1 人耳听觉特征量的提取
1.1 Mel滤波器
研究表明,人耳对声音的选择不均匀。它在自己关注的频率范围内听测度较高,在其他频率范围内听测度较低,人耳的这种选择可以用一组Mel滤波器来模拟。Mel滤波器在频率上分布不均匀,它在高频段分布稀疏,在低频段分布密集。通过Mel滤波器可以将信号真实频率转化为人耳听觉关注的Mel频率,Mel频率与真实频率近似满足如下关系式:
其变化趋势图如图1所示。
图1 Mel频率与真实频率关系图Fig.1 Diagram of the relationship between Mel frequency and real frequency
在0~10kHz频带设计的20组Mel滤波器,其频率响应与频率的关系如图2所示。
图2 Mel滤波器频率响应与频率关系图Fig.2 Diagram of frequency response and frequency of Mel filter
1.2 船舶辐射噪声信号的人耳听觉特征量
针对某商船信号进行处理,信号时长25s,时域波形如图3所示。
图3 某商船信号时域波形图Fig.3 Time-domain waveform of a merchant ship signal
对信号进行分帧处理,每帧信号时长1s,帧移0.5s。计算每帧信号的人耳听觉特征量。取第1帧信号,作DFT处理:
得到信号频域特征如图4所示。
图4 商船某帧信号频域特征Fig.4 Frequency-domain characteristics of a frame signal of merchant ship
针对信号频域特征,在频域范围内设置1000组Mel滤波器,得到如图5所示的特征谱图,该特征谱图即为模拟人耳听觉获得的特征量。
图5 通过 Mel滤波器后的特征谱图Fig.5 Characteristic Spectrum after Mel filtering
2 堆栈自编码神经网络[22]
2.1 自编码器
自编码器由编码器和解码器2部分组成,结构如图6所示。
图6 自编码器结构图Fig.6 Structural diagram of self-encoder
2.2 自编码神经网络
自编码神经网络是一种特殊的自编码器,它通过神经网络实现自编码器的功能,其结构如图7所示。自编码神经网络通过训练一个神经网络来得到一个恒等函数,使得网络模型的输出等于输入。训练完成的模型具备了的能力。当层神经元节点数小于层神经元节点数时,为了能够重构输入数据,网络模型必须自动学习输入数据的压缩表示,这个过程是对输入数据的特征压缩和提取。
图7 自编码神经网络结构图Fig.7 Structural diagram of self-coding neural network
2.3 堆栈自编码神经网络
图8 深度特征的逐层提取过程Fig.8 Extraction of depth features layer-by-layer
3 融合人耳听觉特性与 SAE 网络的船舶辐射噪声分类方法
3.1 基于SAE网络提取人耳听觉信息的深度特征
3.1.1 自编码网络参数选择
自编码神经网络训练中最重要的参数是确定隐含层神经元节点数。目前理论上还不存在普遍的方法用于确定隐含层节点数,节点数的选择主要是通过经验选择和实验确定[23]。训练自编码神经网络的目的是为了使输出数据尽可能复原输入数据,因此本文通过计算神经网络输入与输出之间的误差来确定隐藏层节点数,计算公式为:
选择某一帧商船信号的人耳听觉特征量,将其作为自编码神经网络的输入,网络输入节点数为1000,选择不同的隐含层神经元节点数,计算网络输入与输出之间的误差。随机挑选了5帧信号作为输入,得到如图9所示的统计结果。
图9 自编码网络输入与输出之间的误差Fig.9 Error between input and output of self-coding network
通过计算可以看出,当网络隐藏层神经元节点数选择为输入层节点数的一半时,网络输入与输出之间的误差最小。因此本文设置网络隐藏层节点数为输入神经元节点数的一半。
3.1.2 深度特征提取
针对船舶辐射噪声的人耳听觉特征量,设置5层自编码神经网络提取其深度特征,设置每一层网络节点数时,隐藏层节点数为输入神经元节点数的一半。网络模型的训练采取逐层训练的方法,每次只训练一层网络模型,上一层网络训练完成后,提取隐藏层数据作为下一层网络的输入,以此类推。
当5层自编码神经网络全部训练完成之后,提取每层网络的输入层和隐藏层数据堆叠成SAE网络模型,则该网络模型的节点数设置为1000-500-250-100-50-25。选择某商船信号进行试验,提取该信号通过Mel滤波器的平均能量谱图,使用上述5层自编码神经网络提取其深度特征。观察每一层网络的输入数据与输出数据的相似度情况,得到5层自编码神经网络输入数据与输出数据的对比图,如图10所示。
可以看出,每一层自编码神经网络对输入数据都有很好的复原效果。但是,当输入层网络节点数较多时,输出数据与输入数据之间相对误差较大。随着输入层网络节点数的减小,自编码神经网络对输入数据的复原效果越来越好。尤其在第5层自编码神经网络中,输出数据与输入数据基本相同。提取每一层自编码神经网络的隐藏层数据,该数据即为深度特征的逐层提取过程。
图10 五层自编码神经网络输入数据与输出数据对比图Fig.10 Contrast diagram of input data and output data of five-layer self-coding neural network
3.2 建立数据集
使用实测船舶辐射噪声信号建立训练集和测试集,信号总数为913条,每条信号时长在35~60s之间。对所有信号按照船舶类型分类,共分25类。针对每一条信号,以3s为一段划分样本,对每一个样本进行分帧处理。计算每一帧信号模拟人耳听觉特征量的特征数据,取平均值作为样本的特征数据。取每条信号前3/4样本及其对应的类别标记作为训练数据集,后1/4样本及其对应的类别标记作为测试数据集。
3.3 训练与识别过程
训练过程分2步进行:
第1步为无监督训练,使用训练集数据对5层自编码神经网络进行训练。通过训练获得一个初始化的网络权值,训练完成后提取每层自编码神经网络的输入层和隐藏层,堆叠得到SAE网络模型。
第2步训练过程为有监督训练,使用训练数据集和其类别标记对SAE网络进行训练。在此过程中,统计网络前向运算与数据类型标记之间的交叉熵损失函数,对网络模型进行反向传播训练。当训练集所有数据训练一遍时,记为迭代一轮。统计每一轮迭代过程中产生平均损失函数随迭代轮数的变化过程,如图11所示。
图11 平均损失函数随迭代轮数变化图Fig.11 Variation diagram of average loss function with the number of iteration rounds
保存训练完成的SAE模型,使用测试数据集检测SAE网络模型的识别能力。统计识别结果发现,针对本实验所使用的数据集,识别正确率为91.19%,结果表明该方法具有较好的识别效果。
4 结 语
人耳听测是船舶辐射噪声分类识别的重要方法,本文从人耳听觉角度出发,提出一种融合人耳特性与SAE网络模型的船舶辐射噪声分类方法。该方法使用Mel滤波器模拟人耳对噪声信号频率的选择,使用SAE网络逐层自动提取舰船辐射噪声模拟人耳听特征量的深度特征,并将该特征用于分类识别。针对实测船舶辐射噪声信号进行试验,结果表明,本文提出的方法在试验数据集上的识别正确率为91.19%,具有较好的识别效果。通过本文的研究可以看出,舰船辐射噪声的人耳听觉特征量可以用于分类识别,SAE网络模型能够对输入数据进行深度特征提取并用于分类识别。本文的研究对于进一步探索深度学习技术在船舶辐射噪声分类识别上的应用具有重要意义。