结合区域提取和改进卷积神经网络的水下小目标检测*

2023-11-23符书楠

应用声学 2023年6期

符书楠许枫刘佳逄岩

(1 中国科学院声学研究所北京 100190)

(2 中国科学院大学北京 100049)

0 引言

水下小目标检测是水声领域的热点之一，在水下搜救、石油勘探和可疑物探测等方面有着重要应用[1-3]。电磁波等探测媒介在水下传播衰减明显，相比之下，声波的衰减较小，声呐成为最常用的水下探测设备。然而由于水下环境复杂多变，声呐图像存在低信噪比、干扰严重的问题，同时小目标相对于海底背景较小、所含信息较为有限，难以提取出表达力强的特征，导致水下小目标的检测效率低、漏检严重[4]。因此，如何更好地利用小目标的特征信息，实现准确、低虚警的水下小目标检测已成为当前亟需解决的问题之一。

针对上述问题，相关学者提出了许多基于传统机器学习和深度学习的水下小目标检测方法。王梁等[5]利用拟合的超椭圆曲线的尺寸、形状和位置参数构建分类特征对水下小目标进行分类，实验证实该方法可行有效，但对于极不规则的小目标识别效果不佳。Abu等[6]利用目标统计特征对分割后的区域进行分类实现了一种无监督水下小目标探测方法，该方法实现了较高的检测率和虚警率，然而实时性较差。Zhou 等[7]提出了一种基于脉冲耦合神经网络和Fisher 判别的水下远距离小目标实时检测方法，优于常用的深度学习方法，步骤却较为繁琐复杂。谌雨章等[8]采用多速率空洞卷积方法检测复杂水下环境中的小目标，提高了对水下小目标的检测能力，但该方法使用反卷积操作会产生伪影现象，影响目标检测性能。Chen等[9]基于样本加权混合网络提出了一种有效处理水下弱小目标的深度集成检测器，然而计算复杂度较高。

水下小目标检测任务通常分为区域提取和分类两个阶段，即先从存在较多干扰的声图中提取感兴趣区域(Region of interest,ROI)，确保潜在目标被筛选出来，同时尽可能多地消除虚警，然后利用分类算法对潜在目标区域进行分类。区域提取阶段常用方法有阈值分割法、区域生长算法、马尔可夫随机场(Markov random field,MRF)分割方法[10]等。其中，MRF分割算法因参数设置少、分割效果好，而被广泛应用于声呐图像的区域提取[11-13]。分类阶段的关键是提取出具有代表性的特征，通常利用人为设计的多种特征提取算法进行提取，操作难度较高。而深度特征是一种通过卷积神经网络(Convolutional neural network,CNN)自主提取，具有丰富特征表达的隐式特征，常用于水下目标分类[14-16]。但CNN 的多层卷积和池化易导致部分底层特征信息丢失[17]，较难取得理想的检测效果。为进一步增强CNN 对目标特征的表征能力，可将目标的基础特征融入CNN，形成更有利于分类的网络，提高目标检测效率。

综上所述，针对水下小目标信息量有限而难以提取有效特征导致目标检测性能不佳的问题，本文提出了一种基于区域提取和融合Hu 矩特征的改进CNN 水下小目标检测方法。该方法包括区域提取和分类两个阶段。首先，利用基于MRF分割算法的区域提取方法从声图中提取ROI，实现潜在目标定位。然后为进一步降低区域提取阶段带来的虚警，同时保持较高的检测率，将ROI 输入融合Hu 矩特征的改进CNN 中完成水下小目标检测。第一阶段的区域提取方法可以有效地从复杂水下环境中筛选出潜在目标，避免后续的分类被环境因素影响。分类阶段的改进CNN 融合了潜在目标的深度特征和形状特征，形成形状特征表征能力更强的特征融合网络，有利于提升目标检测性能。最后以侧扫声呐实测数据为例进行处理分析，实验结果表明，本文提出的方法可以有效提高对水下小目标的发现概率和正确报警率，同时对不同侧扫声呐获取的数据进行验证，证明该方法具有一定的泛化性。

1 区域提取

1.1 MRF分割算法原理

为定位潜在目标区域并保留其完整性，本文对声图进行分割处理。MRF 分割算法常用于对图像特征(区域标签、边缘等)的连续性进行建模，能够最大限度地保留目标完整性[18]，因此本文选择基于MRF 分割算法对声呐图像进行区域提取。MRF 分割算法本质上是一种对声图的每个数据点进行标记的统计方法，利用MRF 对数据点的空间域进行建模，并将其作为先验知识，在贝叶斯准则下对声图的数据点进行分类。

设一个M×N的声图是一个MRF，S={(i,j)|1 ≤i≤M,1 ≤j≤N}是该声图上定义的空间位置集合。设Y={ys,s ∈S}是观测到的声图数据，称为观测场；X={xs,s ∈S}是数据点的类别标签，称为标记场，即声图的分割结果。根据贝叶斯定理：

其中，P(Y|X)为待分割声图的概率模型，P(X)和P(X|Y)分别为标记场的先验概率和后验概率，P(Y)为计算中未考虑的常数。因此，声图的分割问题可以转化为最大后验问题，即当后验概率P(X|Y)达到最大值时，得到此时的标记场：

其中，似然函数P(Y|X)可由混合高斯模型表示：

其中，n为声图数据点的标签类别数，μs和Σxs分别是隶属不同类别的观测场数据的均值和协方差矩阵。

由Hammcrslcy-Clifford 定理，MRF 与Gibbs随机场具有等价性，则MRF先验概率可表示如下：

其中耦合系数β一般取值[0,2]，本文中该系数取为1。

算法具体流程图如图1所示。

图1 MRF 算法流程图Fig.1 The flowchart of MRF algorithm

1.2 基于MRF分割的区域提取方法

受海水介质、成像环境、混响等因素影响，声呐图像存在较多噪声干扰，为准确提取潜在目标区域，在图像分割之前需要进行预处理操作。同时，由于分割后的区域仍存在与目标尺寸差距较大的干扰，需要对分割区域进行筛选，从而精准地获取潜在目标区域。本文提出的区域提取方法如图2 所示，该方法主要由5个步骤组成，具体操作如表1所示。

表1 区域提取步骤Table 1 Region extraction steps

图2 区域提取流程图Fig.2 The flowchart of region extraction

2 特征融合分类网络

2.1 Hu矩特征

水下小目标的基础特征是形状特征、尺寸特征等，可作为主要特征用于目标分类。Hu 矩特征[19]是一种有效描述目标形状的矩特征，具有平移、旋转和尺度不变性，不受目标位置和方向影响，常作为水下目标特征，应用于小目标分类[20-21]。

设f(x,y)(x=1,···,M，y=1,···,N)为大小M×N图像在(x,y)处的灰度值，则它的p+q阶几何矩mpq定义为

通过几何矩mpq构建的中心矩反映了图像灰度相对于灰度重心的分布，p+q阶中心矩μpq如式(8)所示：

其中，(x0,y0)是图像的重心坐标，x0=m10/m00，y0=m01/m00。

该图像的p+q阶归一化中心矩ηpq定义为

其中，r=(p+q)/2+1。

通过式(9)归一化中心矩的多种线性组合，可计算出7个Hu矩，如式(10)～(16)所示：

上述7 个Hu 矩构成了目标的形状特征H=(H1,H2,H3,H4,H5,H6,H7)。

2.2 融合Hu矩特征的改进CNN

LeNet-5[22]是由Lecun于1998年提出的7层CNN，主要用于手写数字识别，常用于低分辨率图像的分类。本文以LeNet-5为基础，设计包含3 个卷积层、3 个池化层、3 个全连接层的基础CNN 结构，其中激活函数采用ReLU 函数。各网络层详情如表2所示。

表2 基础CNN 各网络层详情Table 2 Details of basic CNN

由于CNN 的多层卷积和池化易使潜在目标的部分底层特征丢失，为进一步增强CNN分类特征的表征能力，在基础CNN 中融入Hu 矩特征，构建融合Hu 矩的改进CNN (Hu-CNN)，最终构建的由两条分支网络构成的Hu-CNN 网络结构如图3 所示。其中，基础CNN 分支网络提取目标深度特征，输入FC-1全连接层进行映射；另一条分支网络提取目标Hu 矩特征，输入FC-4 全连接层进行映射；最后将两条分支网络映射得到的特征向量进行融合，经过FC-2 全连接层映射后输入FC-3 层进行目标分类。Hu-CNN的具体细节如下：

图3 改进的分类网络结构(Hu-CNN)Fig.3 Structure of the improved classification network (Hu-CNN)

(1) CNN 深度特征提取：由于提取的ROI尺寸不同，所以在提取深度特征之前对ROI进行双线性插值，将大小调整为64×64。然后将其输入设计的基础CNN中，通过FC-1层输出为256维特征向量。

(2) Hu 矩特征提取：为保留目标更多的特征信息，直接提取原始ROI 的七维Hu 矩特征，并通过FC-4全连接层映射为48维。

(3) 特征融合与分类：将步骤(1)和步骤(2)中得到的256 维和48 维特征向量进行拼接融合，形成304 维特征向量，由具有128 个节点的FC-2 层映射输出后，通过FC-3层得到最终分类结果。

3 实验验证

3.1 数据集介绍

以侧扫声呐实测圆柱目标数据为例，对方法的有效性进行分析。本节数据集来自不同海域，分别记为DATA 1和DATA 2。从DATA 1和DATA 2的40 张和85 张声图中分别提取得到了172 个和179个ROI，其中DATA 1 得到41 个目标和131 个非目标，DATA 2 得到93 个目标和86 个非目标。实验数据集详细情况如表3 所示。图4 为大小调整为64×64 的ROI 示例，即CNN 端的输入，其中包括DATA 1 和DATA 2 中的目标和非目标。

表3 数据集详情Table 3 Datasets details

图4 提取出的ROI 示例Fig.4 Examples of extracted ROI

3.2 性能指标

本文采用发现概率(Detection rate,DR)、正确报警率(Correct alarm rate,CAR)以及AUC 值3个性能指标来评价实验结果。

发现概率反映正确检测到的目标占目标总数的比例，正确报警率反映所有预测目标中正确的比例，其计算公式如式(17)～(18)所示：

其中，TP 表示正确检测到的目标数，FP 表示误检为目标的数量，TN表示正确检测到的非目标数，FN表示误检为非目标的数量。

AUC 值为受试者工作特性(Receiver operating characteristic,ROC)曲线下的面积，ROC 曲线是根据不同的阈值，以模型分类结果的假阳性率(False positive rate,FPR)为横坐标，真阳性率(True positive rate,TPR)为纵坐标绘制的曲线，其中

曲线越靠近左上角，即AUC 值越接近1，则模型的整体性能越好。

3.3 实验设置

为验证该方法的有效性，分别进行实验1 和实验2，同时采用五折交叉验证评估方法的性能。在实验1 中，将DATA 2 随机分成5 份，其中一份作为测试集，剩余4份作为训练集，重复训练测试5次，该实验中的测试集记为测试集1；同时利用训练好的5个模型分类DATA 1 (记为测试集2)，以验证方法对不同环境的适用性。在实验2 中，所有数据(DATA 1和DATA 2)随机分成5 份，按4:1 的比例重复训练和测试5 次。两次实验中均取五次测试结果平均值作为最终的结果。

考虑到试验海域水声环境、试验工况等因素对目标声图的影响，为保证算法的泛化性，对两个实验的训练集进行数据增强，分别进行旋转90°、180°、270°、水平翻转、垂直翻转、变亮、变暗、加入高斯带限噪声的操作，将训练集扩充为原来的9倍，测试集保持不变。

为验证本文提出方法的优越性，本文使用常用的水下目标分类器(Haar+AdaBoost)[23]、小波包变换(Wavelet packet transform,WPT)+支持向量机(Support vector machine,SVM)[24]、方向梯度直方图(Histogram of oriented gradient,HOG)+SVM[25]和传统CNN)进行比较，不同分类器对输入特征的敏感性不同，识别精度也不同，设置每个分类器的参数如下：

(1) 基于WPT+SVM的分类器采用db3小波函数，对输入进行5 层分解，支持向量机采用RBF核函数；

(2）基于Haar+AdaBoost 的分类器中迭代次数设为50；

(3) 基于HOG+SVM 的分类器，也采用RBF核函数；

(4) 对于传统的基于CNN 的分类器和本文提出的分类方法(Hu-CNN)，采用随机梯度下降算法和交叉熵损失函数，学习率设置为0.01，批大小设置为64，epoch设置为100。

3.4 实验结果与分析

两次实验的检测结果如表4 和表5 所示，ROC曲线如图5 和图6 所示。由表4 可以看出，在实验1中，对于测试集1，由于训练集和测试集均来自于DATA 1,发现概率可达93.2%，性能指标均优于其他方法。其中相较于传统CNN，Hu-CNN 的发现概率和正确报警率分别提高了5.0%和2.7%。对于来自不同海域的测试集2，由于成像环境不同、噪声干扰等因素的影响，检测性能略低于测试集1，但Hu-CNN 的性能指标均高于其他方法，发现概率达到87.8%，比传统CNN 提高了4.9%。实验1 结果表明Hu-CNN可以有效检测不同环境下的小目标。

表4 实验1 结果Table 4 Experimental 1 results

图5 实验1 的ROC 曲线及AUC 值Fig.5 ROC curves and AUC values of Experiment 1

图6 实验2 的ROC 曲线及AUC 值Fig.6 ROC curves and AUC values of Experiment 2

通过表5 可以看出，在实验2 中，Hu-CNN 的发现概率和正确报警率分别达到89.0%和86.4%，与其他方法相比，性能指标均得到显著提升。同时相较于传统CNN，Hu-CNN 的发现概率提高了6.6%，正确报警率提高了6.2%，证明了改进方法的有效性。

从图5 的ROC 曲线及AUC 值可以看出，对于实验1 的不同测试集，Hu-CNN 的AUC 值分别为0.93 和0.90，均高于其他4 种方法。同时由图6 的ROC 曲线可以看出，实验2 中Hu-CNN 的AUC 值为0.91，比传统CNN 提高了0.03，证明了改进方法的优越性。

Hu-CNN 融合Hu 矩特征和CNN 深度特征，克服CNN 卷积和池化操作导致底层特征信息丢失带来的影响，形成具有形状特征表征能力更强的改进CNN，有效利用了小目标关键特征信息，从而提高目标检测的准确性。

3.5 泛化性验证

为检验提出方法的泛化性，采用不同侧扫声呐获取的数据进行泛化性测试。本节数据集共14 张声图，提取ROI 得到16 个目标和121 个非目标，输入实验2 得到的5 个分类模型中进行目标分类，结果如表6所示。

表6 泛化性验证结果Table 6 Generalization verification results

由表6 可以看出，本文方法对不同侧扫声呐测得的数据仍然具有较好的检测性能，相较于传统CNN，改进后的Hu-CNN 发现概率提高了6.3%，达到96.3%，正确报警率提高了2.1%。泛化性验证实验结果表明，该方法具有良好的泛化性能，可以有效应用于不同侧扫声呐获取的数据。

4 结论

本文提出了一种结合区域提取和融合Hu 矩特征的改进CNN 的水下小目标检测方法，该方法由区域提取和分类两部分组成。区域提取阶段根据目标特征采用基于MRF 分割算法的5 个步骤提取声图中的ROI，实现潜在目标定位。在分类阶段，本文提出的Hu-CNN 特征融合网络将CNN 深度特征与Hu矩特征融合，形成更具代表性和精确性的融合特征，可有效区分目标与伪目标，提升目标检测性能。在不同数据集上的实验结果表明，该方法对不同侧扫声呐数据均具有较优越的检测性能和泛化性，对水下小目标的检测具有一定的研究意义。