APP下载

基于堆栈稀疏去噪自编码器神经网络的舰船辐射噪声目标识别算法研究

2022-01-04鞠东豪王宇杰张春华

振动与冲击 2021年24期
关键词:舰船编码器特征提取

鞠东豪,李 宇,王宇杰,张春华

(1.中国科学院 声学研究所,北京 100190;2.中国科学院大学,北京 100039;3.中国科学院 先进水下信息技术重点实验室,北京 100190)

近年来,各类航行器和传感器不断更新迭代,在海洋探测及识别领域取得了极大的进步,与此同时也对水下目标探测技术和航行器的智能化程度有了更高的要求,水下被动目标识别技术作为水下探测技术和航行器智能化的关键一环,一直以来受到了国内外学者的广泛关注,但是由于特殊种类的舰船辐射噪声(如:军用舰船、潜艇、鱼雷等)获取难度较高且带有类别标签的数据稀少,这为舰船辐射噪声分类识别工作增加了许多难度。许多学者通过对舰船辐射噪声数据的分析提出了一系列基于人的先验知识提取特征的方法,1997年声学所的吴国清等[1]提出在舰船噪声图谱的基础上使用模糊神经网络进行舰船辐射噪声的分类识别;章新华等[2]将小波变换用于舰船辐射噪声的特征提取,并且使用BP(back propagation)神经网络进行分类,该方法具有一定的分类正确率;此外,Tucker等[3]受到声纳兵人耳识别的启发,利用听觉特征进行水下目标的识别。上述各类方法都基于人为设定的特征量进行特征提取,依赖于设计者的先验知识,由于没有充分利用水下大量的无类标数据,所以限制了这类方法的准确性和泛化能力。

除此上述方法外,还有许多机器学习特征提取算法也被人应用于舰船辐射噪声的特征提取当中,其中比较具有代表性的是主成分分析(principal component analysis, PCA)算法[4],这类方法具有简单易行的特点,但是因为PCA算法没有利用已有的数据标签进行训练,所以对于目标分类识别算法而言难以保证提取的特征具有很强的区分度。

近年来深度神经网络技术不断发展,深度神经网络算法使用类似大脑的多层结构来分层对特征进行处理,同浅层网络相比深度神经网络可以学习到更加抽象的特征,且随着网络层数加深学习到的特征对于环境变化的鲁棒性则越强,故该方法具有很强的环境适应性。越来越多的学者将深度神经网络算法和水声目标识别这一任务相结合,提出了一系列基于深度神经网络的水声目标识别算法,Williams[5]使用卷积神经网络(convolutional neural networks, CNN)对水声图像进行了识别,取得了较高的分类正确率。但相比于水声图像识别领域,舰船辐射噪声的带类标样本数量稀少,难以训练出理想的分类模型。2017年杨宏晖等[6]使用(deep belief nets,DBN)算法对深度神经网络进行预训练,并使用少量带有标签的样本进行神经网络的全局优化,这种无监督和有监督结合的方式能够更加充分地利用水下大量的无类标数据,为本文的工作提供很好的基础。

自编码器(autoencoder, AE)是一种无监督的深度学习方法,往往应用于数据降维和特征学习等任务中,是生成模型理论的一个重要组成部分。本文提出一种基于堆栈稀疏去噪自编码器(stack sparse denoising auto-encoder, SSDAE)的用于水下目标识别的神经网络。提取具有噪声鲁棒性的特征一直是水下目标特征提取的一个重要内容,本文通过对输入数据人为添加噪声,从而使训练出的神经网络模型具有更强的噪声鲁棒性,并利用堆栈自编码器的训练深度神经网络以提取目标的深层特征,此外通过对舰船辐射噪声频谱成分的分析,在代价函数中加入稀疏惩罚项,以此得到更加具有代表性的频域稀疏特征。

本文使用Softmax算法对经过SSDAE预训练的神经网络进行有监督的全局微调,这一过程利用有类标数据,通过全局微调可以提升神经网络提取特征的区分度,通过与多类特征提取算法对比试验可以看出,本文所提出的SSDAE-Softmax联合处理算法具有更好的分类效果。

1 舰船辐射噪声预处理

对于接收到的舰船辐射噪声时域数据要对其变换为低频分析与记录谱图(low frequency analysis recording, LOFAR),即LOFAR谱。由于水声信号具有非平稳的特点,所以采用短时傅里叶变换(short time fourier transform, STFT)来绘制LOFAR谱,STFT变换公式如式(1)所示

(1)

式中:w(t)为窗函数;s(t)为舰船辐射噪声时域信号。除STFT变换外,为了保证训练过程当中模型的收敛速度,往往还需要对每个特征值分别进行标准化,本文使用min-max标准化方法[7],min-max标准化根据S(τ,ω)的最大最小值进行规范化,将S(τ,ω)矩阵中的值转化至[0,1]内,转化公式如式(2)所示

(2)

式中:maxS,minS分别为矩阵S(τ,ω)中的最大值和最小值;SNorm(τ,ω)为经过min-max标准化后的LOFAR谱矩阵。经过STFT变换和数据标准化以后的渔船辐射噪声LOFAR图,如图1所示。

图1 渔船辐射噪声标准化LOFAR图

由图1可以看出,舰船辐射噪声频域由线谱和连续谱组成,其中线谱分量能量更加集中,视觉上具有十分明显的特征,这些稳态的线谱分量是由舰船上的机械部件循环往复运动产生的,本文希望从数据当中学习并提取这类特征作为目标识别的主要依据。

2 基于自编码器的目标特征提取算法

本章对堆栈稀疏去噪自编码器神经网络算法进行介绍,该方法通过给输入数据添加噪声的方式训练出更加具有鲁棒性的神经网络模型,可以更好地适应复杂多变的水下环境,并且结合对舰船辐射噪声产生机理的先验知识,在代价函数中加入稀疏惩罚项,有针对性的提取稀疏特征,从而提高分类的正确率,利用大量的无类标数据,通过自编码器堆叠的方式逐层训练出具有提取舰船辐射噪声特征能力的神经网络模型。

2.1 去噪自编码器

自编码器神经网络是神经网络算法的一种,属于一种无监督的学习算法,同传统的神经网络一样利用了误差反向传播算法,其特殊之处在于自编码器要求期望输出向量和输入向量的近似值,换言之,自编码器的目标是重构原始输入。一般的自编码器神经网络具有三层结构,分别是:输入层、隐藏层和输出层,自编码器的网络结构如图2所示。

图2 常规自编码器神经网络结构示意图

对于单隐藏层自编码器而言,将原始输入数据x∈RN映射到隐藏层表示为h∈RN′,这一过程被称为对原始数据的编码,如式(3)所示

h=fθ(x)=σe(Wx+b)

(3)

式中:θ={W,b},W为一个N′×N的权重矩阵,b为偏置向量;σe(·)为编码过程中的激活函数。经过编码后的原始数据再经过隐藏层重构原始数据,这一过程被称为解码,如式(4)所示

y=gθ′(h)=σd(W′h+b′)

(4)

式中:θ′={W′,b′};y∈RN为自编码器输出;σd(·)为解码过程中的激活函数;一般情况下W′=WT,对于N个样本的数据集,自编码器的二次代价函数,如式(5)所示

(5)

式中:J(θ)为N个样本的平均重构误差;xm为第m个样本;ym为第m个样本的重构结果。除二次代价函数外,交叉熵函数作为代价函数可以提高自编码器的学习效率,所以交叉熵函数往往也被作为自编码器的代价函数,如式(6)所示

(6)

为了提升算法的鲁棒性和泛化能力,避免对数据的过拟合现象出现,将自编码器输入加入随机噪声进行“破坏”,从而迫使神经网络学会去除噪声从而获取没有污染过得真实输入,这样一来可以提取出输入数据中更加具有鲁棒性的特征。这种加噪声的方式有很多种。Ogasawara等[7]使用对于输入x随机选取vd个元素并将其置零,其余数据保持不变,通过训练将已经置零的数据位填充;也可以通过对数据直接加入高斯白噪声来来引入噪声,将引入随机噪声的输入数据设为xn∈RN,去噪自编码器(denoising autoencoder, DAE)的隐藏层表达式更新为式(7)

h=fθ(xn)=σe(Wxn+b)

(7)

重构原始数据的表达式更新为

y=gθ′(h)=σd(W′h+b′)

(8)

使带噪输入产生的输出y尽可能的接近纯净的输入数据x,同常规自编码器一样最小化代价函数

(9)

此时的y为带有随机噪声的x的函数。

2.2 稀疏惩罚

对于被动声纳识别算法而言频域上离散窄带的分量往往具有大多数舰船辐射噪声的特征,这些特征主要由舰船的主机、推进装置、辅机等机械噪声构成,使用上述频域稀疏特征不仅能够提升提升网络的分类效率,还可以有针对性的提取舰船辐射噪声当中的稀疏特征,同时增加数据的可分性。稀疏自编码器一般通过给隐藏层神经元增加稀疏惩罚来实现,使隐藏层只有少部分神经元被激活,我们定义神经元的平均活跃度为

(10)

(11)

加入稀疏性限制,需要对代价函数加入稀疏惩罚因子,如式(12)所示

(12)

(13)

式中:J(θ)同上文所述;β为新加入的稀疏惩罚项的系数。

2.3 堆栈稀疏去噪自编码器

深层神经网络具有更好的非线性表达能力,为了提取舰船辐射噪声深层的抽象特征,需要深层的神经网络进行特征提取,但是往往随着网络层数增加在数据训练过程当中会出现梯度不稳定的现象,堆栈自编码可以构建深层网络的同时避免上述情况的发生。SSDAE算法是将SDAE进行叠加,每次只训练一个隐藏层的神经网络,逐层进行训练从而构建出具有多个隐藏层的神经网络,SSDAE的训练示意图,如图3所示。

图3 SSDAE训练流程示意图

由图3可知,SSDAE逐层训练过程是前一个SDAE神经网络训练的隐藏层输出作为下一个SDAE神经网络的输入,设第k个SDAE的编码过程如式(14)所示

h(k+1)=σe(W(k+1)h(k)+b(k+1)),k=0,1,…,n-1

(14)

式中:h(0)为最原始的输入数据,即2.1节中的x;h(n-1)为最终SSDAE提取的深层特征,解码的过程如式(15)所示

y(k+1)=σd(W′(L-k)y(k)+b′(k+1)),k=0,1,…,n-1

(15)

式中,y(0)为第一个解码层输出,即h(n)。最后一个解码层输出结果为重构的原始输入数据。再整个训练的过程中,每更新一层的参数都保证上一层的参数不会改变,逐层训练后再将自编码器视为一个整体进行全局的无监督微调,对模型进行统一的修正。利用SSDAE算法一方面可以通过逐层训练避免梯度弥散现象;另一方面也通过训练获得了较好的神经网络参数,避免了局部极值的出现。

3 有监督微调

如2.3节所述,SSDAE可以以无监督的方式利用大量无类标数据训练特征提取神经网络,但对于水下目标识别任务而言,该方法所提取的水下目标噪声特征的区分度不足,本章应用Softmax分类器利用少量有类标数据对SSDAE神经网络进行全局微调,从而提升算法的分类正确率。

3.1 Softmax分类器算法

Softmax是Logistic回归模型的在多分类问题上的推广,假设训练集由N个样本构成:{(x(1),y(1)),…,(x(N),y(N))},对于k类的分类问题,类标y可以取k个不同的值,即:y(i)∈{1,2,3,…,k},对于每个输入都有对应各个类别的概率

(16)

代价函数表示为

(17)

式中,I{·}为指示函数,大括号内表达式为真则数值为1,反之为0。本文为了防止参数值过大,对代价函数加入一个权重约束项,如式(18)所示

(18)

式中,d为Softmax分类器输入层维数,Softmax分类器的输出表征了多种不同类别之间的相对概率,通过对比概率得到对应输入的类别输出。

3.2 SSDAE-Softmax联合分类算法

由于水下环境复杂多变,而且近年来随着减振降噪技术的发展,各类航行器的隐蔽性逐渐增强,获取有类标的舰船辐射噪声这一任务变得十分困难,如何在小样本的情况下有效提取特征并准确分类就成为了水下目标探测中亟待解决的问题。本文应用SSDAE-Softmax联合分类算法来解决这一小样本识别问题,首先利用SSDAE算法基于大量易获取的水下无类标样本对于深度神经网络进行预训练,从无类标样本中获取先验知识,再利用Softmax算法利用少量有类标的舰船辐射噪声样本进行全局微调。SSDAE-Softmax联合分类算法神经网络结构图示意图,如图4所示。

图4 SSDAE-Softmax联合分类算法神经网络示意图

由图4可知,将SSDAE的解码部分去除,保留其编码层,以此来提取舰船辐射噪声的深层特征。SSDAE-Softmax联合分类算法的算法训练流程如下所示:

步骤1数据预处理;

步骤2使用大量无类标数据训练SSDAE神经网络,得到深度神经网络的初始参数;

步骤3设置Softmax层的初始参数;

步骤4将有类标数据作为输入,对SSDAE-Softmax神经网络进行全局参数的微调。

经过上述训练之后的神经网络,H2输出即为SSDAE-Softmax算法所提取的深度特征,Softmax层的输出即为网络的分类结果。一方面SSDAE-Softmax算法利用有类标数据进行训练,提升所提取特征的区分度提升分类正确率;另一方面相比于未经过大量无类标数据预训练的神经网络而言SSDAE-Softmax能够更好地利用已有的无类标数据,在小样本的条件下也达到较高的分类正确率。

4 试验及结果分析

4.1 数据描述

本文使用海试收集到的5类舰船辐射噪声作为数据集对本文所提出的算法进行评价,具体参数如表1所示。

表1 本文使用数据集信息

除表1数据外,本文还使用湖试海试收集到的时长约为3 h的渔船噪声数据以及时长约为1 h的环境噪声数据进行SSDAE神经网络的预训练。

4.2 参数设置

4.2.1 预处理参数

对原始数据预处理分为绘制LOFAR谱、数据标准化两部分。本文使用STFT变换绘制舰船辐射噪声的LOFAR谱,使用汉明窗作为滑动窗,窗长nsc=2 s,相邻窗重叠率nov=0.5,每个窗口fft点数nfft=44 100。由于舰船辐射噪声特征主要集中于0~1 500 Hz频段,故截取0~1 500 Hz的数据作为处理频段。

4.2.2 神经网络参数设置

利用网格搜索算法寻找最优的训练参数,网格搜索算法是一种穷举搜索的调参手段,通过循环遍历来求得一个可以使模型分类效果最好的参数集。待搜索的参数以及区间,如表2所示。

表2 网格搜索参数

经过网格搜索后可以得出最优的神经网络参数集,如表3所示。

表3 最优参数集

下文均使用上述参数集进行SSDAE神经网络训练。

4.3 算法的对比与分析

除SSDAE算法以外还有许多机器学习领域的数据特征提取算法,其中比较有代表性的是:主成分分析算法、线性判别分析算法以及局部线性嵌入算法(locally linear embedding, LLE)。

本文将上述三种传统机器学习特征特征提取算法同本文提出的SSDAE-Softmax联合处理算法进行对比,分类器均使用Softmax分类器,训练集占有类标样本的比例为0.7。首先,以二分类问题为例定义分类正确率Ac、精确率Pr、召回率Re以及F1值(F1-score)四项评价指标如式(19)~式(22)所示

(19)

(20)

(21)

(22)

式中:TP,TN分别为被正确划分为正例和负例的样本个数;P,N分别为正例和负例的样本总个数。使用蒙特卡洛方法绘制不同信噪比下上述四种方法的分类评价指标曲线,如图5所示。

图5 不同信噪比下各方法分类结果对比图

由表2所示结果可见,PCA-Softmax、LDA-Softmax、LLE-Softmax三种算法对于舰船辐射噪声数据均具有一定的分类正确率,但是分类效果都要略差于本文所提出的SSDAE-Softmax算法。由图5结果可以看出,SSDAE-Softmax算法可以更好地对含噪声数据进行分类,相较于其他三类算法在低信噪比下仍有较好的分类效果,但在信噪比低于-10 dB时分类正确率有明显下降。此外为了体现本文所提出的SSDAE-Softmax算法在小训练集下的分类效果,本文在信噪比为-10 dB的条件下对比了不同训练集占总数据量比重下的各类方法的分类效果,如图6所示。

图6 不同训练集占比下各方法分类结果对比图

由图6可以看出,本文所提出的SSDAE-Softmax算法在少量训练样本的情况下依然有较高的分类正确率,主要原因是本文使用了SSDAE进行预训练,将大量的无类标数据预先进行训练,使神经网络能够从无类标数据中获得先验知识,从而能够在少量有类标样本的条件下得到相比于其他方法更高的分类正确率。

为了更加直观的验证本文所提出的SSDAE-Softmax算法对于舰船辐射噪声的特征提取能力,我们利用主成分分析算法在信噪比为-10 dB的条件下分别提取原始频域特征以及微调后SSDAE输出特征的前三个主元,对三个主元成分进行可视化的结果如图7所示。

图7 特征提取散点对比图

由图7可以明显看出,直接使用原始数据进行PCA提取的前三个主元成分的特征完全混叠在一起,很难将五种舰船辐射噪声数据分开,而经过本文所提出的SSDAE-Softmax算法提取的特征,将数据将目标1、目标3、目标5三类数据很好的聚集在一起,且这三类舰船辐射噪声类别之间的边界分明,但是目标3和目标5出现了交叉混叠的现象,目标3和目标5的频谱特征如图8所示。

由图8可见,目标3与目标5的LOFAR谱在低频的特征较为类似,且两类目标的频谱特征均不稳定,在这种情况下两类目标特征提取的结果可能存在一定的混叠现象,一般需要对信号进行增强处理提取稳定特征来解决这一问题。

图8 目标3与目标5 LOFAR谱对比图

5 结 论

针对水下复杂环境以及小样本条件下的舰船辐射噪声识别问题,提出了一种基于SSDAE-Softmax算法的水下目标识别方法。使用大量易获取的无类标样本进行SSDAE特征提取神经网络的训练,并且在代价函数中引入了稀疏惩罚项,使特征具有更强的区分度,再使用少量有类标的样本对模型进行全局微调,形成具有分类能力的SSDAE-Softmax神经网络模型。经过海试数据验证,SSDAE-Softmax算法能够显著地提升在低信噪比下的识别能力,性能明显优于PCA、LDA以及LLE;且在训练集占比较低的情况下SSDAE-Softmax算法依然可以保证较高的分类正确率,证明本文算法具有较强的环境自主适应能力。

猜你喜欢

舰船编码器特征提取
舰船通信中的噪声消除研究
舰船测风传感器安装位置数值仿真
基于Daubechies(dbN)的飞行器音频特征提取
基于FPGA的同步机轴角编码器
基于双增量码道的绝对式编码器设计
Bagging RCSP脑电特征提取算法
舰船腐蚀预防与控制系统工程
JESD204B接口协议中的8B10B编码器设计
基于MED和循环域解调的多故障特征提取
多总线式光电编码器的设计与应用