基于卷积神经网络的水声目标分类技术∗

2019-03-01

舰船电子工程 2019年2期

（海军航空大学烟台 264001）

1 引言

随着潜艇隐身技术的不断发展，潜艇运行的自噪声越来越低，而且受海洋环境噪声、海洋生物噪声以及商船渔船的噪声影响，给搜潜和反潜工作带来了很大的挑战，如何准确从其他噪声中辨识出潜艇和舰艇噪声成为了搜潜的关键。新的降噪技术的不断发展，大大降低了潜艇目标的显著性特征，使之前使用的线谱、LOFAR（Low Frequency Analysis and Recording）谱、Mel复倒谱等特征提取技术提取的特征效果明显降低，而且由这些方法得出的分类结果类间相似度很大，同样削弱了分类效果。因此，如何提取各类目标的显著性差异特征仍是制约水声目标辨识的关键，而深度学习（Deep Learning，DL）方法通过模拟人脑神经网络对物体的由局部到整体的辨识过程，为水声目标辨识提供了一种新的方法，它通过对训练集中的数据的学习，可以自动提取各种不同种类目标的分类特征，从而将测试集中的数据进行正确的分类识别。所以，通过大数据量的训练集的训练，可以直接应用到对各类水声目标的分类辨识中，而且识别率比之前的方法高。

深度学习的概念起源于人工神经网络，在本质上是指一类对具有深层结构的神经网络进行有效训练的方法。神经网络是一种由许多非线性计算单元（神经元）组成的分层系统，通常网格的深度就是其中的不包括输入层的层数。最早的神经网络是心理学家McCulloch和数学逻辑学家Pitts建立的MP模型［1］，该模型实际上只是单个神经元的形式化数学描述，具有执行逻辑运算的功能，但不能进行学习。Hebb首先提出了对生物神经网络有关学习的思想［2］。Rosenblatt随后提出了感知器模型及其学习算法［3］。在随后的几十年里，尽管神经网络的研究出现过一段与Minsky对感知器的批评有关的低潮期［4］，但 Grossberg［5］、Kohonen［6］、Narendra&Thathatchar［7］、von der Malsburg［8］、Widrow&Hoff［9］、Palm［10］、Willshaw&von der Malsburg［11］、Hopfield［12］等仍然逐步提出了许多神经网络的新模型。最开始的感知机拥有输入层、输出层和一个隐含层。

2 卷积神经网络

卷积神经网络是近年发展起来并被广泛应用的一种高效的识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional Neural Networks，CNN）。CNN现在被广泛应用于图像、语音等目标的分类识别。

2.1 卷积神经网络的结构

卷积神经网络的结构布局更接近于实际的神经网络，它也可以简化为从一个神经元的输入输出开始计算来推导整体神经网络的计算。神经网络中的单个神经单元的模型可以简化如图1所示。

图1 单个神经元结构

其中，x1、x2、x3代表输入的数据，b表示偏置，hw'b(x)代表数据经过单个神经元变换后得到的输出。 f函数为激活函数，在本文中使用Sigmoid函数作为激活函数。

当多个神经元分层次联结在一起组成神经网络共同对输入的x1、x2、x3数据作用时，所得到的结果即为神经网络的输出。

图2 卷积神经网络的结构

卷积神经网络是上述神经网络的特例，其结构有很大的相似之处。卷积神经网络主要分为五层结构：输入层、卷积层、下采样层、全连接层和输出层。

在卷积神经网络中，起主要作用的是卷积层和下采样层，在一个卷积神经网络中可能同时具有多个卷积层和下采样层，两者共同组成卷积流。其中，卷积层是卷积神经网络的核心，它主要用来进行特征提取的工作，大部分的计算量都在卷积层中进行。下采样层也叫池化层，主要是为了降低卷积神经网络的参数和计算量，防止过拟合。

2.2 卷积神经网络特点

卷积神经网络与传统神经网络的一个很大的区别就是卷积神经网络的输入层与相应的隐含层之间不采用全连接的方式。因为全连接方式会由大量的训练参数而且全连接所得到的特征不具有旋转不变性、平移不变性等特性。

1）稀疏交互影响

传统的神经网络使用矩阵乘法来建立输入与输出的关系，卷积神经网络中对其进行了改进，卷积神经网络具有稀疏交互的特性，卷积核的大小远小于输入的大小，所以在处理一个包含成千上万个像素点的图像时，卷积神经网络通过只占用几十到上百个像素点的卷积核来检测一些小的有意义的特征来描述整幅图像，大大提高了卷积神经网络的计算效率。如图3展现了稀疏连接和全连接的结构对比。

图3 稀疏连接和全连接结构对比示意图

2）参数共享

参数共享是指在一个模型的多个函数中使用相同的参数。在卷积神经网络中，卷积核的每一个元素都作用在输入的每一个位置上，卷积运算中的参数共享保证了只需要学习一个参数集合，而不是对于每一位置都需要学习一个单独的参数集合。

图4中上边的图表示参数共享的情况下，当卷积核为3核时，卷积核中间参数的使用情况。由于参数共享，卷积核中间的参数被用于所有输入位置的计算。下边的图表示当参数不共享时，全连接模型中权重矩阵的中间参数只被使用了一次。

图4 参数共享与不共享的连接示意图

3 基于卷积神经网络的水声信号特征提取方法

本文在利用基于卷积神经网络的深度学习方法对水声信号进行训练时，主要用到了两种算法：卷积计算方法和反向传播算法。水声信号生成的训练集输入卷积层中时，经过卷积计算后输出权重系数矩阵，此时的权重系数矩阵不是期望的结果，其结果没有与设定的标签集产生对应关系，故需要反向传播算法对其进行参数的调整，增强训练的效果。

3.1 卷积计算方法

在将水声信号组成的训练集输入卷积神经网络后，需要将其与卷积核进行卷积以突出其显著性特征而淡化无用特征。卷积操作指的是输入数据矩阵和滤波权重矩阵做内积，也就是两个矩阵的元素逐个相乘后再求和。

如图5所示，展示了一个3×3的卷积核在5×5的水声信号上做卷积的过程。每个卷积核都是一种特征提取方式，将图像中符合条件（激活值越大越符合条件）的部分提取出来。

通过图5可以看到，卷积核的每一次卷积计算都只是针对输入水声信号的一部分数据窗口进行卷积，这就是上文所说的局部连接机制。而且只是输入数据在不断改变，而卷积核的权重参数自始至终都未发生改变，这个权重不变即上文中提到的卷积神经网络的参数共享机制。

3.2 反向传播算法

水声信号经过卷积计算后，输出一个权重系数矩阵。但此时的权重系数矩阵与训练集的标签矩阵并不能对应起来，这就需要一个算法对输出的参数进行调整，使其能与标签矩阵建立对应关系。神经网络的训练过程，就是通过已有的样本，求取使代价函数最小化时所对应的参数。代价函数测量的是模型对输入的水声信号样本的预测值与其真实值之间的误差，最小化的求解一般使用梯度下降法。其中，最重要的就是求梯度，这可以通过反向传播算法来实现。

图5 输入水声信号与卷积核的卷积计算过程

为了简便起见，先从单个神经元的训练计算开始。单个神经元的结构如图6所示。假设一个训练样本为(x 'y)。在图6中，x是输入的水声信号，通过一个激励函数hw'b(x)得到一个输出a，a再通过代价函数得到J。

图6 单个神经元结构图

其中，激励函数为Sigmoid函数。则可以得到关于W和b的公式：

图7 单个神经元对水声信号的计算流程图

在神经网络对水声信号的训练过程中，要求代价函数J关于W和b的偏导数，可以先求J关于中间变量a和z的偏导：

再根据链导法则，可以求得J关于W和b的偏导数，即得W 和b的梯度如式（7）和式（8）所示。

以上计算过程中，先计算∂J∂a，进一步计算∂J∂z，最后求得 ∂J∂W 和 ∂J∂b。结合单个神经单元的结构图以及链导法则，可以看出这个过程是将代价函数的增量∂J自后向前传播的过程，从而称为反向传播算法。

4 实测水声目标噪声分类技术

4.1 训练集/测试集生成方法

本文从时域中对声信号的特征进行提取，从而提取不同目标的显著性特征。基于卷积神经网络的深度学习方法从水声目标噪声中提取最基本的声音结构，建立每种目标所特有的声音特征的对应，完成对不同水声信号的分类识别。

海洋中的声源很多，其中最常见的有四类：商船噪声、渔船噪声、舰艇噪声、潜艇噪声。将实测的水声信号噪声数据按照这四个种类进行分类，然后根据卷积神经网络的需要创建训练集和测试集。基于卷积神经网络的深度学习方法所需要的训练集中的元素为一个矩阵，它由对水声信号采样得来。训练集的构成方法如下：

1）将水声信号做分帧处理，每帧信号长度为784个采样点，符合短时信号处理的要求。

2）将每帧信号重新组合，使其变成28×28的矩阵形式，从而将所有的帧均变成训练集中的一个元素。

3）对训练集中的样本做归一化处理，统一样本的统计分布性。神经网络是以样本在事件中的统计分布概率来进行训练和预测的，且Sigmoid函数的取值是0到1的，网络最后一个节点的输出也是如此，所以经常要对样本的输出做归一化处理。归一化主要是为了加快网络的学习速度。

4）对建立好的训练集中的样本设定标签，每个样本的标签各不相同，通常用0和1的二进制组合来设定相应的标签。将设定好的标签组成新的集合，与输入数据相对应。

5）将不同水声信号均按上述步骤操作组成一个大的训练集，而且将输入数据和标签做好一一对应以后，随机打乱输入数据的顺序，重新组合训练集，防止出现过多的相同类型的噪声数据聚集在一起，同时训练神经网络，造成过拟合的情况。

训练结束后，一个输入可得到一个与之相对应的假设函数hθ(x)，从而就可以得到该输入归为某一类的概率值。

4.2 基于实测数据的算法验证

设定卷积神经网络的学习率为1，训练集中总共四类信号，每类信号均是由不同情况下测量的100个音频信号分别取150帧信号组成，故训练集总共60000帧信号，每类信号各占15000帧。将其分别按照所属种类设定好标签后，随机打乱顺序。每50帧信号进行一次循环训练，得到训练集辨识错误曲线如图8所示。

图8 卷积神经网络训练集辨识错误率

另将海洋环境噪声、商船渔船噪声、舰艇噪声和潜艇噪声四类信号分别取5000帧组成卷积神经网络的测试集，然后利用训练完毕的网络对其进行辨识，辨识结果如表1所示。

表1 测试集辨识识别率

由表1结果可以明显看出，基于卷积神经网络算法的深度学习方法在水声目标辨识中效果显著。其中，海洋环境噪声和商船渔船噪声的特征与舰艇潜艇噪声的特征差异比较明显，而且海洋环境噪声与商船渔船的噪声之间也有很大的差异，故两者的识别率相比另两种而言较高。

为了验证基于卷积神经网络的深度学习方法对水声目标分类的辨识性能，将其结果与传统水声目标分类方法做比较。

高阶谱方法：利用高阶谱中的双谱对所需识别的信号进行计算，将计算结果输入BP网络进行分类。

MFCC即Mel频率倒谱系数，根据人对语音的感知特性，即对不同频率的声波有不同的听觉灵敏度实现。从低频到高频这一频段内，按照临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波，将每个滤波器输出信号的能量作为信号的基本特征进行分类识别。

UDM-NMF方法：即基于非负矩阵分解的全局基矩阵字典模型，利用非负矩阵分解方法提取水声目标的特征，基于全局基矩阵字典对水声目标进行识别，分类结果如表2所示。

表2 高阶谱方法识别率

表2中展现了不同方法对水声目标的分类结果，由表2的结果表明，基于卷积神经网络的深度学习方法对水声目标的识别效果远好于其他传统方法。

5 结语

本文对基于卷积神经网络的深度学习方法进行了研究，着重研究了卷积神经网络的结构特点。利用卷积计算方法和反向传播算法对输入的水声信号进行训练和计算，通过模拟人脑神经网络对物体的由局部到整体的辨识过程，对水声信号生成的训练集进行学习，自主提取水声目标信号中的显著性特征，从而完成对所需辨识的水声目标的正确分类。