基于卷积神经网络的AUV水下识别算法设计与实现

2021-05-17王俊雄

舰船科学技术 2021年4期

李昱，王俊雄

(上海交通大学，上海 201100)

0 引言

由于自主式水下机器人（AUV）在海事研究和海洋开发中具有远大前景，在未来水下信息获取、精确打击和“非对称情报战”中也有广泛应用，因此自主式水下机器人技术在世界各国都是一个重要和积极的研发领域[1]。AUV导航系统一直是近几年的研究重点，AUV需要通过导航系统实现高精度自主导航。AUV基本惯性导航系统一般采用捷联式惯导，由于AUV特殊的工作环境限制和惯性器件产生的固有漂移误差，单一的导航设备无法满足AUV长期高精度导航的需求，需要采用组合导航系统。AUV在远距离端一般采用水声引导的方法，或者采用惯性导航系统和多普勒速度计程仪组合导航的方法接近目标物，AUV对远距离端导航精度要求并不高，而近距离端导航定位才是AUV进行水下目标探测的关键[2]。目前，用于水下测量的传感器有：惯性导航传感器、声呐传感器和视觉传感器等。其中，惯性导航传感器测出的是水下机器人的相对位置，由于累计误差的产生，其精度会随着时间的推移而下降，一般应用于水下的远距离端导航；声呐传感器分为长基线、短基线和超短基线等类型，但其测量精度较差，不适用于复杂的水下环境。视觉传感器是近几年兴起的传感器，其成本低，体积小、运动方式灵活，适用于局部的精确定位，是近几年来各国的重点研究方向。AUV的水下视觉引导一般是通过摄像机来获取目标物信息，从而进行目标物识别与测距定位[3]。

图1 卷积神经网络网格图Fig.1 Convolution neural network grid

水下目标自动识别是目前水下识别技术的主要研究领域，如何对图像进行特征提取是目标识别的重点研究内容。基于深度学习的发展，卷积神经网络广泛应用于物体检测、动作识别、图像分类识别等领域，能有效提取特征，性能远远优于传统方法[4]。基于卷积神经网络的视觉导航系统能够使AUV对目标观测物进行自主识别，大幅提升AUV的图像特征提取和图像识别能力，实现近距离对目标物的精准定位[5-6]。

1 卷积神经网络设计

本文采用卷积神经网络对矩形木框和三角形木框进行分类，数据集来自水下对三角形木框和矩形木框的图像采集，采用1 340个大小为1 0 0×100的RGB图像，在此基础上设计卷积神经网络网格图如图1所示。

本文设计的卷积神经网络共有9层，有关矩形木框和三角形木框识别的详细过程如下：

1）输入层

利用双线性插值算法对原始输入图像进行缩放处理，把图像大小缩放为1 0 0×100。

2）Conv1-Relu1层

Conv1-Relu1层是一个特征提取层，利用32个5×5的卷积核对原始图像进行卷积计算，提取特征，并获得32个1 0 0×100特征图。在第一层卷积层，本文采用32个 5 ×5大小的卷积核对输入层大小为100×100的图像分别进行卷积计算，提取特征，卷积核步长设置为1，采用图像边缘自动补零的方法对输入图像进行卷积计算，最终得到32个大小为1 00×100的特征图。本文拟采用ReLU激活函数对卷积结果进行激活，计算公式如下式：

式中：X为输入图像，Y1为Conv1-Relu1层输出特征图， ω 为卷积核，b1为偏置项，制造噪声，增强鲁棒性，最终得到Conv1-Relu1层特征图。

3）Max-pooling层

该层是子采样层，对Conv1-Relu1层得到的32个100×100特征图进行二次特征提取。本文采用32个2×2大小的卷积核分别对Conv1-Relu1层得到的32个100×100特征图进行卷积计算。卷积核移动步长为2，采用图像边缘不自动补零的方法，最终得到32个50×50大小的特征子图，如式（2）所示，即采用2倍速对特征图进行缩放。缩小的速度过快会使得得到的特征图过于粗糙，缩小的速度过慢会使得计算量过大。为了得到更多图像细节[7]，一般缩放因子设为2。为了能够有效控制特征图的缩放速度，之后的子采样过程的缩放因子也都设为2。

4）Conv2-Relu2层

为了更好地提取出图像的局部特征，扩展神经元的感受野，本文对Max-pooling层得到的特征子图像进行二次卷积操作，本层采用64个 5 ×5大小的卷积核，移动步长为1，图像边缘自动补零，遍历整个特征子图，最终得到64个 5 0×50大小的特征图。通过前两层操作后，神经元的感受野较原始输入图像扩展为10×10，经过本层操作后，每一个神经元的感受野又增加5倍，扩展为 5 0×50，同时特征图个数也增加了一倍，增加至64个。

5）Max-pooling层

该层同样是子采样层，对Conv2-Relu2层得到的64个 5 0×50特征图进行二次特征提取。为了控制图像的缩放速度，同样采用64个 2 ×2大小的卷积核，卷积核移动步长为2，采用图像边缘不自动补零的方法，遍历Conv2-Relu2层得到的64个 5 0×50特征图进行卷积计算，最终得到64个 2 5×25大小的特征子图。

6）Conv3-Relu3层

为了增加CNN的深度，提高分类的准确性，本文继续采用128个 3 ×3大小的卷积核遍历上一层得到的特征图。卷积核的移动步长同样设为1，采用边缘自动补零的方式对上一层得到的特征图进行进一步卷积操作，得到128个大小为 2 5×25的特征图，增加了卷积神经网络的深度。

7）全连接层和输出层

经过6层卷积池化操作后，得到128个大小为12×12的特征图，全连接层将上一层所得的特征图像组合成列向量，最后通过softmax函数对图像进行二分类[8]。

2 实验与测试

本文所使用的图像数据集是来自水下对矩形木框和三角形木框不同角度的拍摄图片，数据集包含有1 340张图片。实验通过TensorFlow软件完成，Linux操作系统，Intel i7-4 710 CPU，主频3.00 GHz，8 G内存，显卡GTX860。

通过上述设计的卷积神经网络进行训练和测试，可以得到训练损失随着训练迭代次数的增多而降低，测试准确率也随之提高。当训练迭代的次数达到一定时，测试的准确率和损失相对处于一个平稳的状态。

由图2训练损失值图和准确率图可得，经过100次迭代训练后，卷积神经网络的训练损失值下降为10，训练准确率达到90%，变化较缓慢，且测试集精确度不高，卷积神经网络的泛化能力弱。为了将分布式特征图映射到样本标记空间，减少特征位置对分类带来的影响，本文采用了3层全连接层，并增加一层卷积层和池化层，增加训练深度，卷积神经网络如图3所示。

图2 训练结果图Fig.2 Training results

采用三段式全连接方式，对卷积神经网络进行训练，如图3所示。在FC1层中，输入的神经元数量为6*6*128=4 608个，设置输出的神经元数量为1 024个，对权重进行dropout函数操作和L2正则化，降低过拟合现象，采用ReLU激活函数进行激活，在FC2层中，同样对权重进行dropout正则化，将神经元缩减为512个，在FC3层中，采用softmax函数对输入进行二分类。

训练准确率如图4所示。比较两图可以得到，在本次试验中，经过90次训练迭代后，网络基本收敛，网络迭代了100次，卷积神经网络结构参数优化后的测试损失值为5.8%,准确率达到99.18%。

同时对比2次测试集精确度，如图5所示。加入3层全连接后，对权重参数进行dropout正则化后，测试集精度提高，卷积神经网络的过拟合现象降低，泛化能力增强。

图3 改进卷积神经网络网格图Fig.3 Improved convolution neural network grid

图4 训练结果图Fig.4 Training results

图5 测试结果图Fig.5 Test results

3 结语

本文将卷积神经网络应用于AUV，利用卷积神经网络进行水下目标识别，建立一个9层的卷积神经网络对水下拍摄的木框和三角框进行训练分类，使用卷积神经网络提取水下目标特征，通过目标特征提取和池化，水下目标识别在经过100次迭代训练后准确率达到90%。之后对上述神经网络结构进行优化改进，将1层连接层化分为3层连接，采用三段式全连接方式，对卷积神经网络权重分别进行dropout正则化，并增加一层卷积层和池化层，训练经过90次迭代后基本收敛，训练速度得到提高，在100次迭代训练后，水下目标识别的准确率达到99.18%，同时降低了的过拟合，提高了卷积神经网络的泛化能力。