基于多卷积神经网络融合的SAR舰船分类

2023-03-21吕继宇吴羽纶王春乐

计算机与现代化 2023年1期

张骁，吕继宇，赵爽，吴羽纶，王春乐

（1.中国科学院空天信息创新研究院，北京 100190；2.中国科学院大学电子电气与通信工程学院，北京 100049）

0 引言

合成孔径雷达（Syntactic Aperture Radar，SAR）作为一种主动式微波成像传感器，具有全天候、全天时的成像能力［1］，自其提出以来，已经被广泛应用于遥感、军事、水文、地矿以及其他领域，具有很高的军用和民用价值［2］。因此开展基于SAR 图像的舰船目标分类研究具有十分重要的意义。

目前的SAR 图像舰船分类算法主要分为传统算法和深度学习算法。传统的SAR 图像舰船分类方法主要集中于特征选择［3］和优化分类器技术［4］。目前常用的特征有几何特征［5］、轮廓特征［6］和散射特性［7］。分类器包括机器学习模型［8］和高分类精度分类器模型［9］。然而，传统的分类算法存在提取特征困难、效率低下的问题，同时在提高模型迁移和泛化能力方面面临着巨大挑战。

随着深度学习的提出，卷积神经网络（Convolutional Neural Network，CNN）在图像分类中逐渐得到应用［10］，CNN 可以自动从图像中提取目标的特征，大大提高了分类性能［11］。 SAR 数据集（Open-SARship［12］、FUSAR-ship［13-14］）的发布为基于深度学习的SAR 图像舰船分类研究奠定了基础；Bentes 等人［15］通过CNN 网络识别了TerraSAR-X 图像的货物、油轮、风车、平台和港口等结构；Wu 等人［16］提出一种用于小规模SAR 图像舰船分类的联合卷积神经网络框架；He 等人［17］提出了一种密集连接的三重CNN 网络来提取图像特征；Zhang 等人［18］提出梯度直方图特征融合的深度学习网络以平衡传统特征和CNN 抽象特征；Xu 等人［19］提出了使用有限样本的几何迁移度量学习。针对SAR 数据集解译困难、数据集较小的特点，研究人员提出了数据扩充［20］、迁移学习［21-23］和微调模型［24］等方法用于解决小数据集SAR 图像的舰船分类问题。与传统的分类算法相比，上述SAR 舰船分类算法在准确性方面取得了质的飞跃。

目前对SAR图像的分类研究集中于串联型CNN，与VggNet、ResNet等网络一样，都是逐渐减小特征图的空间尺寸，将高分辨率到低分辨率的卷积层串联起来，进行分类处理。高分辨率SAR图像中，不同类别舰船目标的尺度差异较大，串联型CNN在对特征图进行降采样的过程中会出现特征信息丢失导致无法很好地区分小尺度舰船目标，从而影响舰船分类的准确率。

针对以上问题，本文提出一种多卷积神经网络融合的舰船分类算法。为了解决串联型CNN 特征信息丢失的问题，构建高分辨率卷积神经网络，对特征图进行多尺度融合；为了减少SAR 数据集经常出现的训练过拟合问题，提出针对目标像素的数据集扩充方法，引入标签平滑和微调模型方法；为了使分类结果更加精确，采用高分辨网络、MobileNetv2 网络和SqueezeNet网络融合的方法。

1 高分辨率卷积神经网络结构

高分辨率卷积神经网络由高分辨率和低分辨率并行的子网组成，多分辨率子网之间有重复的信息交换（多尺度融合）。该网络的前2 层为2 个步长为2 的3×3 卷积层，随后是高分辨率网络的主干部分，由分辨率逐渐减半、通道数翻倍的并行子网组成的4 个阶段。以一个高分辨率的子网作为第一阶段开始，逐步增加高分辨率到低分辨率的子网，形成新的阶段，并将多分辨率的子网并行连接。因此，后一阶段并行子网的分辨率由前一阶段的分辨率和一个较低的分辨率组成。高分辨率卷积神经网络的基本结构见图1。

图1 高分辨率卷积神经网络基本结构

如图1 所示，蓝色背景的4 个部分即为4 个阶段，分别包含1、2、3、4 个子网，其中第一阶段由一个与ResNet 相同的3 层残差单元构成，第2、第3、第4 阶段的所有子网全部由2 个与ResNet 相同的2 层残差单元构成。在每个阶段后会将不同分辨率的子网并行连接，进行多次的多尺度融合。

为了方便每个子网重复接收来自其他并行子网的信息，该网络在并行子网中引入交换单元。图2给出了第3阶段信息交换方案的示例，图2（a）、图2（b）、图2（c）分别为聚合高分辨率、中分辨率和低分辨率特征图信息。

图2 多尺度特征图融合

假定网络有r个子网，则输入特征图为：｛X1，X2，…，Xr｝，分辨率和通道数与输入完全相同的输出特征图为｛Y1，Y2，…，Yr｝，每个输出都是输入映射的集合，即：

其中，Yk表示第k个子网的输出，函数a（Xi，k）包含从子网i到子网k的上采样或下采样。下采样单元由一个步长为2 的3×3 卷积组成；上采样单元由一个步长为1的1×1卷积和最近邻采样组成。如果i=k，即不同阶段的同一子网，a（·，·）仅为一个标识连接，此时a（Xi，k）=Xi。

图3 给出了高分辨率网络的分类部分。首先是由1 个3 层残差单元组成的卷积层，将4 个子网的通道数从（16，32，64，128）增加到（128，256，512，1024），然后通过步长为2 的3×3 卷积对高分辨率子网进行降采样，并将其添加到第2个高分辨率子网中，重复2次此过程，在低分辨率子网中得到通道数为1024 的特征图，最后经过1×1卷积将特征图的通道数增加为2048，并进行全局平均池化，将得到的特征图输入到分类器中，即可得到分类结果。

图3 高分辨率网络分类部分

2 分类算法

本章介绍多卷积神经网络融合算法的实现流程、MobileNetv2 和SqueezeNet 的网络结构以及加权融合的方法。

2.1 多卷积神经网络融合算法

高分辨率SAR 图像中，不同尺度的舰船目标的像素点数量有明显差异，即尺度较大的舰船像素点数量要远大于尺度较小的舰船像素点数量，因此利用串联型CNN 网络对其进行分类的时候，降采样操作会导致舰船目标信息丢失的问题。

针对该问题，本文采用高分辨率网络对高分辨率SAR 图像进行初级分类。该初级分类旨在利用高分辨率网络的多尺度融合特点，对舰船目标的特征进行重复训练和学习，以提高小型舰船的分类准确率。然后借鉴集成分类器的思想，将初级分类结果与MobileNetv2 网络和SqueezeNet 网络的分类结果加权融合进行二级分类，根据3 个网络由于结构不同导致分类结果存在差异的特性，进一步精确化初级分类结果。在充分发挥高分辨率网络分类性能优势的情况下弥补其不足，以提高舰船分类的准确率并增强分类模型的迁移能力。

本文提出的SAR 图像舰船分类算法流程见图4。该算法主要包括3个部分：

图4 基于多卷积神经网络融合的SAR图像舰船分类算法流程

1）数据集扩充。将数据集以7：3 的比例分为训练集和测试集，通过本文所提的数据集扩充方法对训练数据集进行扩充，增加训练数据集的图像样本数，避免卷积神经网络训练过拟合的问题。

2）初级分类。使用训练数据集对高分辨率卷积神经网络进行训练，并在测试数据集上进行测试，得出该分类模型初步的分类结果，计算出模型分类的准确率，作为算法的初级分类结果。

3）二级分类。使用训练数据集训练MobileNetv2网络和SqueezeNet网络，并设计融合规则对各个卷积神经网络模型的结果进行加权融合，对初级分类结果进行进一步的纠正，得出更加精确的二级分类结果。

2.2 MobileNetv2网络结构

MobileNetv2［25］是结合了深度可分离卷积和线性瓶颈逆残差结构的轻量级的注意力模型。基本构造块即为带残差的深度可分离卷积，详细结构如图5所示。其输入通过1×1卷积对特征图进行升维，之后通过3×3可分离卷积层对图像进行降采样（步长大于1时），最后通过1×1卷积进行降维。逆残差包含2种结构，当步长为1时输入和输出会有捷径直接相加（图5（a）），当步长为2时输入和输出不会有捷径直接相加（图5（b））。

图5 带残差的深度可分离卷积结构

MobileNetV2 的网络结构参数见表1。首先是32通道的3×3 初始卷积层，然后是19 个逆残差层，最后为1280通道的1×1卷积层和平均池化层。表1中t代表残差模块的扩展因子，c是输出特征矩阵的通道数，n是逆残差层的个数，s是每个模块中第一个卷积层的步长，其余卷积层步长均为1，Dropout0.2 表示随机失活20%神经元。

表1 MobileNetv2网络参数

2.3 SqueezeNet网络结构

图6 SqueezeNet基本结构Fire模块

SqueezeNet 的网络结构参数见表2。首先是64通道的7×7 卷积层，然后包括8 个Fire 块、3 个最大池化层和1个平均池化层。表2中是Si挤压层的输入通道，So表示挤压层的输出通道，Eo，1是扩展层1×1 卷积的输出通道，Eo，1是扩展层3×3 卷积的输出通道，Dropout0.5表示随机失活50%神经元。

表2 SqueezeNet网络参数

2.4 标签平滑

标签平滑［27-28］是深度神经网络的一种有效正则化工具，它通过在均匀分布和真实标签分布之间应用加权平均来生成软标签。它通常用于减少训练深度神经网络的过拟合问题，因此本文引入了标签平滑方法进一步提高SAR图像舰船分类性能。

给定一个包含K类目标的数据集Dtrain={ (xi，yi) }，其中xi表示输入图像，yi表示相应的真实标签。对于每个样本（xi，y）i，深度学习模型预测一个概率p（k｜xi），表示该样本属于第k类目标的可能性。真实标签yi的分布q可以表示为q（k=y｜ixi）=1和q=（k≠y｜ixi）=0。用于（xi，y）i样本分类的标准交叉熵损失函数定义如下：

标签平滑通过在均匀分布和真实标签分布之间应用加权平均来生成软标签，使用软标签代替硬标签进行模型训练。在软标签下，样本xi为第k类目标的概率为：

其中，ε∈（0，1）为超参数，通常设为0.1。

2.5 多卷积神经网络融合规则

加权投票是集成学习的一种方法，经常应用于多分类模型算法，其给分类性能高的分类模型赋予一个高的权值，融合结果往往能利用单分类模型间的互补功能来减少单个分类模型的误差，提高预测性能和分类精度［29］。多分类模型融合包括级联方式和并联方式，在级联方式中一个模型的分类结果会影响另外一个模型的结果。为避免单个模型的分类错误造成目标的分类错误［30］，本文采用并联方式对多个卷积神经网络进行融合。

针对SAR舰船图像进行单模型训练，得到N个分类模型。对于样本{ }(xi，yi) ，N个分类模型的输出结果分别为fi（x）（i=1，2，…，N），然后分别计算出3 个模型的分类准确率Ai（x），i=1，2，…，N，作为各个分类模型的权重，则融合后的分类模型输出为：

根据融合模型的输出确定最终的分类结果。

2017年5月，习近平在国际合作高峰论坛的开幕式发表演讲，沿线130多个国家各界代表参加此次盛会，赢得了国际社会的高度关注与热议。它对中国树立大国形象、深化同沿线各国的互利合作、构建新型国际关系意义重大。自2013年以来，“一带一路”的倡议得到平稳推行原因是多方面的。其中，习近平卓越的演讲能力无疑为此起着直接推动作用。该文以习近平在国际合作高峰论坛开幕式上的演讲为研究对象，运用同一理论对演讲所采用修辞进行详细分析，挖掘其修辞策略，并首次提出运用列数据、沿线国家共性典故等方式达到同情认同的修辞策略。

3 实验结果和分析

在本章中，首先给出实验数据集的介绍、实验的参数设置和实验结果评价指标，然后在SAR图像数据集上对不同的分类模型进行对比实验和消融实验，验证本文提出的算法以及算法所采用的策略的有效性。

3.1 GF-3数据集

本文实验数据采用我国高分三号（GF-3）舰船分类数据集［14］。GF-3是中国第一颗民用全极化C波段SAR卫星，主要用于海洋遥感应用。本文采用的数据集共有450 幅3 m 分辨率SAR 图像，其中散装船100幅、渔船100幅、其他船只100幅、油轮100幅、虚警50幅。每一幅图像数据像素大小均为256×256，舰船图像如图7 所示，从上到下各行的图像分别是散装船、渔船、油轮、其他船只和虚警。在本文的实验中，对数据集进行了扩充，新数据集包含1890 幅训练集图像和135幅测试集图像。

图7 数据集中不同种类的船

3.2 数据扩充

为了更好地保留图像重要信息，本文提出一种针对目标像素的新数据扩充方法。该方法具体思想为：对舰船目标像素进行旋转、增亮等操作，填充空出的背景像素部分。该方法的流程图见图8，扩充后的数据集图像见图9。

图8 本文所提数据扩充方法流程图

图9 本文所提数据扩充方法

本方法的实现步骤如下：

1）H-CFAR 算法求取初始阈值。统计图像灰度直方图分布并归一化，给定虚警概率T，从阈值T=0开始依次增加，对小于等于阈值T的直方图概率求和，直至满足给定的虚警概率，该阈值即为初始阈值。

2）基于迭代删减目标像素［31］的CFAR 检测算法分割目标和背景。利用该初始阈值得到目标像素的索引矩阵，作为迭代删减CFAR 算法的输入，迭代删减CFAR 算法不断更新索引矩阵，直至索引矩阵不再变化，根据该索引矩阵分割图像。

3）针对目标像素进行图像数据扩充。对目标像素进行旋转、增亮等操作，并用SAR图像原本的背景像素对空出的背景部分进行填充，即可得到扩充数据集。

3.3 超参数设置

本文在利用卷积神经网络模型对数据集进行训练的过程中，损失函数为基于标签平滑的交叉熵损失函数，梯度计算方法采用自适应时刻估计算法（Adam）。经过大量的仿真结果对比，将学习速率设置为0.0002，训练批尺寸设置为32，即每次从训练集中随机抽取32 幅图片用于卷积神经网络一次迭代的参数更新。仿真迭代次数设置为200，即需要更新200次卷积神经网络参数。

3.4 实验结果评价指标

本文实验采用精确率precision、召回率recall 和F1分数f1-score对实验结果进行评估。3个性能指标定义如下：

其中，TP 表示实际为正样本中被识别为正样本的比例，FN 表示表示实际正样本中被识别为负样本的比例，FP表示实际负样本中被识别为正样本的比例。

3.5 对比实验

为了验证基于多卷积神经网络融合的SAR 图像舰船分类方法的有效性，本文利用GF-3 号舰船数据集对该方法进行实验并与其他分类算法进行对比，对比实验的分类结果见表3。

表3 对比实验分类结果

从表3 可以看出，在不同的神经网络分类算法中，本文提出的基于多卷积神经网络融合的分类算法具有最好的分类性能，精确率达到94.83%，比其他网络高2.15 个百分点～4.70 个百分点，召回率达到95.43%，比其他网络高2.09 个百分点～5.45 个百分点，F1 分数为0.9513，比其他网络高0.0212～0.0471。由此可知，本文所提分类算法在精确率、召回率和F1分数上都取得了最优结果。

综上所述，对比实验的结果从分类精确率、召回率和F1分数等方面验证了本文算法的有效性。

3.6 消融实验

为了证明本文算法所采用策略的有效性，本文在所提算法的基础上进行了6 组消融实验，包括：1）传统数据集扩充+卷积神经网络融合分类+标签平滑+微调模型；2）边缘像素扩展数据集扩充［20］+卷积神经网络融合分类+标签平滑+微调模型；3）针对目标像素数据集扩充+神经网络加权融合分类+微调模型；4）针对目标像素数据集扩充+卷积神经网络融合分类+标签平滑；5）针对目标像素数据集扩充+高分辨率网络+标签平滑+微调模型；6）针对目标像素数据集扩充+卷积神经网络融合分类方法+标签平滑+微调模型（本文算法）。消融实验的分类结果如表4所示。

表4 消融实验分类结果

由表4可以进一步看出，本文所提的SAR 图像舰船分类算法具有最优的分类效果。消融实验组1 和实验组2 与本文算法对比可知，针对目标像素的数据集扩充方法分别比传统的数据集扩充方法和边缘像素扩展数据集扩充方法的分类性能优越，精确率分别高2.90个百分点和2.48个百分点，召回率分别高2.93个百分点和3.78 个百分点，F1 分数分别高0.0292 和0.0313。消融实验组3 和实验组4 与本文算法对比，分别表明了标签平滑和微调模型2 种策略的有效性，使用标签平滑损失函数分类算法的精确率、召回率和F1 分数分别提高了2.20 个百分点、3.78 个百分点和0.0299，使用微调模型分类算法的精确率、召回率和F1 分数分别提高了4.65 个百分点、6.28 个百分点和0.0547。消融实验组5 与本文算法对比，证明了多卷积神经网络融合算法比高分辨率网络单模型算法的精确率、召回率和F1分数分别提高了1.30个百分点、1.09个百分点和0.0120。

综上所述，消融实验的实验结果从分类精确率、召回率和F1分数等方面验证了本文算法所用策略的有效性。

4 结束语

本文提出了一种基于多卷积神经网络融合的SAR 图像舰船分类算法。该算法构建了高分辨率卷积神经网络，对特征图进行多尺度融合，初步提高了舰船分类的准确率，然后将该网络的分类结果与MobileNetv2 网络和SqueezeNet 网络的分类结果加权融合，从而得到更加精确的分类结果；同时为了减少训练过拟合的问题，提出了针对目标像素的数据集扩充方法以及引入了标签平滑和微调模型等方法。利用GF-3 号SAR 舰船数据集进行了对比实验和消融实验，实验结果验证了本文所提算法的有效性。本文算法得到了较高的舰船分类准确率，未来将研究如何在保证该算法分类准确率的同时降低模型的参数规模，提高算法的分类效率。