上下文信息融合与分支交互的SAR图像舰船无锚框检测

2022-02-24曲海成高健康刘万军王晓娜

电子与信息学报 2022年1期

曲海成高健康刘万军王晓娜

(辽宁工程技术大学软件学院葫芦岛 125105)

1 引言

海面舰船目标的检测在海运管制、渔业管理和军事监控等领域有着重要的现实意义[1]。不同于红外、光学等被动式成像传感器，合成孔径雷达(Synthetic Aperture Radar， SAR)利用主动式微波遥感技术，可在全天时、全天候条件下获取高分辨率遥感图像[2]，因此，利用SAR技术实现对舰船目标检测是SAR图像解译领域的研究热点。由于SAR图像中小尺寸舰船居多，且在海陆交接近海岸区域，受背景杂波、相邻区域类似目标散射的影响，舰船的目标提取和检测仍然存在很大的困难。

经典的SAR图像目标检测方法多采用恒虚警率(Constant False Alarm Rate， CFAR)及其衍生算法[3]，预先对海杂波分布建立统计模型，利用舰船本身与海洋背景之间的特征差异进行检测。CFAR检测算法高度依赖人工设计滑窗，算法泛化能力弱，海杂波分布模型建立过程复杂，使得其针对复杂场景的SAR图像目标检测效果不理想。近年来，基于卷积神经网络(Convolutional Neural Network，CNN)的目标检测方法开始应用于SAR图像目标检测领域。该类方法利用标注的数据集训练网络，提取深度的舰船特征，不受SAR图像场景的限制，检测模型具有准确率高、鲁棒性强的特点。海军航空大学的Li等人[4]构建了国内首个公开SAR舰船数据集(SAR Ship Detection Dataset， SSDD)，并采用多层特征融合、迁移学习的方式优化Faster RCNN[5]检测方法，在该数据集上取得了78.8%的平均精度。Jiao等人[6]提出了基于稠密连接网络的多尺度检测算法，将不同层次的特征自上至下密集连接，使高层语义信息融合进每个低层特征中，舰船检测性能得到明显提升。胡昌华等人[7]基于YOLOv3检测框架，利用改进的特征金字塔网络(Feature Pyramid Networks， FPN)[8]，提高了小尺寸舰船的检测效果。Cui等人[9]提出了将注意力机制嵌入至FPN中，同时使用密集连接的方式，在复杂场景下取得了不错的检测效果。

相比于传统方法，基于CNN的检测方法在性能上的确有很大的提升。但是，以上CNN算法都是基于锚框(anchor-based)的检测方法，其网络参数和锚框的比例是针对目标密集的可见光图像而设定的，而SAR图像中舰船目标分布稀疏，锚框机制生成大量非目标的检测框，造成内存的占用和计算量的增加，从而制约检测速度。因此，本文尝试将无锚框(anchor-free)算法用于 SAR图像舰船检测。将无锚框算法直接应用于SAR图像中，依然存在两个问题：(1) 受SAR成像原理的影响，图像中舰船尺寸各异，目标存在漏检问题；(2) 背景复杂的SAR图中，近岸区域的舰船被沿岸建筑干扰，造成检测框无法包含完整的目标。

针对这些问题，本文提出了上下文信息融合(context fusion)与分支交互(interacting branch)的SAR图舰船无锚框检测算法，命名为CI-Net。提出的上下文信息融合模块，采用自底向上的模式，利用高层语义信息引导低层特征融合，对融合后的特征做上下文信息提取，得到信息丰富的待检测特征层。采用自注意力模块建立相互作用的分支结构，利用强调目标位置的分类分支指导回归分支优化检测框，输出定位精准的检测结果。

2 无锚框检测模型

针对自然场景的目标检测，研究者常用基于锚框的检测模型，不管是单阶段的SSD[10]、YOLO系列[11]，还是双阶段的Faster R-CNN等算法，都取得了不错的检测性能，是当前主流的检测模型。但SAR图像中的舰船目标分布稀疏，锚框的设计会引入无舰船的背景框，导致正负训练样本的不均衡问题[12]；其次大量无用的锚框浪费内存资源和计算时间，对检测速度造成影响。相对而言，无锚框的检测算法更适用于SAR图像检测，例如CenterNet[13]，FCOS[14]等算法，根据目标特征形状、关键点生成稀疏的检测框，摆脱了锚框机制的制约，使得网络参数大幅减少，检测速度是很可观的。无锚框的检测模型如图1所示。

图1 无锚框的检测模型

以FCOS算法为例，无锚框的检测算法分为3阶段：首先是特征提取阶段，选用合适的主干网络提取图像中的目标特征，获取到多尺度特征图。第2阶段，以逐像素点预测的方式，对目标框中的所有像素点进行边界框标定，直接在特征图中回归预测目标的位置。在最后的检测头阶段，分别输出分类分支、回归分支、中心点分支3个分支，中心点的值表示当前像素点偏离真值框中心的程度，中心点值越大，代表当前像素点越接近目标正中心。利用中心分支可以优化分类和回归分支，保留高质量的检测框作为最终的结果。考虑到SAR图像舰船分布稀疏的特点，以及检测模型的实时性要求，本文选择将无锚框的检测算法应用于SAR图像的舰船检测。

3 CI-Net检测模型

将FCOS无锚框的检测算法直接用于SAR图像舰船检测，仍然存在一些问题：首先，该算法针对的是多类别目标检测，对语义信息的依赖程度高，所以FCOS在特征金字塔中添加了更深层的网络，获取语义信息丰富的深度特征，深度特征层是由网络连续降采样获得的，其分辨率低，目标的空间信息缺少，然而SAR图像中小尺度舰船居多，存在小目标漏检现象。其次，SAR图像中的目标是后向电磁波辐射成像，在近海岸区域，舰船目标同岸上建筑会表现出相似的辐射特性，算法很难对背景和目标进行判别，造成这些区域检测框的定位不准确。因此，本文在FCOS算法模型的基础上，提出了上下文信息融合与分支交互的无锚框检测算法CINet，检测模型框架如图2所示。

图2 CI-Net检测模型框架

CI-Net检测模型包括特征提取阶段、上下文融合模块以及多任务检测头。首先将SAR图像输入主干网络ResNet_101中进行特征提取，特征层{C3，C4， C5}分别获取的是 ResNet_101中Conv3_x，Conv4_x， Conv5_x的最后一层特征。然后将{C3，C4， C5}在特征金字塔网络中进行高低层特征融合，得到{P3， P4， P5， P6}4个融合特征层，融合特征层通道数均为256。不过融合后的高层特征仍存在分辨率低、空间信息丢失的问题，并不利于SAR图像中的舰船检测。模型设计了上下文融合模块，采用自底向上的方式，将底层特征与高层上采样后的特征融合，得到一层与P3层分辨率一致、包含空间信息与语义信息的融合特征，并将其送入检测头中实现最后的检测。在检测头阶段，保留了FCOS算法原有的4次卷积，得到共享的待检测特征，输出分类(classification)、回归(regression)、交并比(Intersection Over Union，IOU)3个分支，分类分支可以指引回归分支对目标框进行修正，经过自注意力机制之后微调检测模型，输出最好的检测结果。

3.1 上下文融合模块

CNN被用来提取图像的特征信息，低层特征有较高的分辨率，空间细节信息丰富却缺少语义信息，语义信息的缺少导致目标漏检。FPN基于特征融合的思想，采用自顶向下的方式，将高层语义信息融入较低的层级中，实现低层特征语义信息的填充。然而经过FPN特征融合之后的特征层表现出不平衡状态，高层特征仍然缺少空间信息[15]，针对二分类的SAR图像舰船检测任务，本文提出了上下文融合模块，将语义信息和空间信息融合，再经过上下文信息提取，丰富特征层的信息表达。上下文融合模块如图3所示。

图3 上下文融合模块

首先采用自底向上的方式，从底层P3开始，将P3层与P4层进行特征融合，融合的特征经过全局平均池化(Global Average Pooling，GAP)和Sigmoid运算后得到第1个注意力图，它包含更高一层的语义信息，可以指导低层特征着重关注目标特征部分。以此类推，每两层之间进行层级融合，利用得到注意力图指导低层网络重建特征，同时保持特征图分辨率与P3层的大小一致，高分辨率层包含更多空间信息，有利于小尺寸目标的检测。该模块中的卷积特征以及融合后的特征通道数沿用了FPN的设计，均保持256通道数不变。层级融合是对每个像素点(x，y) 进行的操作，定义为

上下文信息描述了目标位置和其周围区域的共性关系，在背景复杂的SAR图像中，目标周围区域可以提供有用的上下文信息，有利于检测特征表达不明显的目标。本文方法在层级融合之后，添加上下文提取网络GCNet[16]，将提取到的上下文信息进一步与其余层进行融合。GCNet是Non-local网络[17]和SENet[18]的结合，通过全局注意力在目标区域建模，能轻量、高效地获取空间上下文信息，可以应用于多层特征提取网络中。GCNet包含上下文模块(context module)和转换模块(transform module)，如图4所示。

图4 GCNet结构

在上下文模块中，C×H×W的特征经过1×1卷积后，被重塑为HW×1×1，通过Softmax层可以获得全局注意力图，反映了每个位置的

3.2 分支交互模块

由于SAR图像中的复杂背景淹没目标，造成目标区域的特征表达不明显，进而影响检测框的精准定位，因此，需要采用多任务检测提高模型检测框的精确度。本文提出分支交互(interacting branch)的多任务检测，弥补检测框定位准确性的不足。

图2的检测模型中，检测阶段输出3个分支：分类分支是检测框的类别置信度，回归分支预测检测框相对于真值框的偏移量，交并比分支预测的是检测框和真值框之间的交并比。相比于FCOS的centerness分支，IOU分支使高质量检测框的类别置信度得到提升，只有类别置信度高，才可能回归出高质量检测框。可见分支之间是有关联的，而FCOS的检测阶段却是独立检测3个分支，势必会降低三者之间的依赖性。因此，本文提出分支交互模块，使用自注意力机制，使3个检测分支互相作用，利用它们之间的关联性优化输出的检测框。具体的做法是：将分类分支和回归分支的特征结合，利用自注意力模块[19]重新排列结合后的特征，并将特征融入IOU分支，建立一个相互作用的分支结构。自注意力模块获取特征图之间的联系，可以选择适用于各分支的特征，自注意力模块如图5所示。

图5中自注意力模块通过3个卷积核为1的不同卷积，将特征映射到f(x)，g(x)和h(x)3个转换特征中，然后将f(x)与g(x)进行乘积运算，利用Softmax函数对结果进行归一化，得到相关系数矩阵，将矩阵同h(x)相乘再加上原始输入的特征，输出的特征是所有特征的加权平均值。自注意力模块可表示为

图5 自注意力模块

其中，M为Softmax函数得到的相关系数矩阵，x表示输入特征，o为最终输出特征，相关系数矩阵M与h(x)相乘得到注意力特征，使用比例系数η平衡原始特征和注意力特征，η由网络自主学习得到，不受人为因素干扰。

3.3 损失函数

本文方法使用多任务损失训练网络模型，利用特征图上的所有位置计算损失。为了平衡单阶段目标检测中的正负样本，采用focal loss优化分类损失，损失函数定义为

4 实验结果与分析

4.1 实验数据和实验环境

本文的实验数据选择SSDD数据集1)，它是国内首个公开的SAR图像舰船检测数据集，共有1160张SAR图像，本文按照7:2:1的比例将数据集划分为训练集、验证集和测试集。本文还使用SARShip-Dataset数据集2)，验证CI-Net方法的泛化能力，该数据集包括102景GF-3号SAR图像与108景Sentinel-1 SAR图像，共有43819张舰船分割图[21]。两种数据集中卫星传感器来源、空间分辨率、极化方式、输入图像大小、图像场景等情况见表1。

表1 舰船数据集的基本信息

SSDD数据集来源于RadarSat-2， TerraSAR-X，Sentinel-1 3个卫星传感器，空间分辨率为1～15 m，代表SAR图中每个像素对应实际地面大小为1 m×1 m至15 m×15 m不等。SAR-Ship Dataset数据集来源于GF-3， Sentinel-1卫星，空间分辨率跨度相对较小。极化方式是指卫星发射和接收无线电波的方式[22]，两种数据集均为水平极化(HH)、垂直极化(VV)与交叉极化(VH， HV)方式。此外，两种数据集的图像大小、场景均有所区别。

本文的所有实验是在 Ubuntu16.04系统、GPU为NVIDIA GeForce GTX 1080Ti和内存为11 GB 的计算机上进行，基于TensorFlow框架编写程序。为加快模型收敛，使用ResNet_101的预训练参数对网络进行初始化。检测框架初始学习率设为0.001，每40k次迭代，学习率衰减为当前的1/10，训练过程中使用TensorBoard监测训练过程，经过80k迭代后，网络完全收敛，得到最优的检测模型。

为了评定不同检测框架的检测效果，选用PR曲线、平均精度(Average Precision， AP)、F1分数作为评估指标，三者均由准确率(Precision， P)和召回率(Recall， R)构成，精确率和召回率的计算采用Kang等人[23]的定义方式，即在交并比(Intersection Over Union， IOU)阈值为0.5，分类阈值为0.4时计算得出。这些指标越高，表明模型的检测性能越佳。

4.2 实验结果及分析

本文选用FCOS算法作为基础网络，从准确率、召回率、平均精度、F1值、检测速度等方面对CI-Net检测模型进行定量化评价，其中检测速度采用fps衡量，fps表示每秒内算法可以处理的图像帧数。模型实验结果见表2。

从表2可以看出，FCOS的平均精度为86.27%，F1值为88.54%，fps是23，尽管它将多层特征送入检测阶段，但是提取到的特征效果并不好，导致目标漏检现象严重。本文方法的上下文融合模块，将多层特征以一定的方式融合，召回率提高到92.23%，平均精度达到90.69%，其次由于只检测一层信息丰富的特征，检测速度更是提升至29，所以该模块不仅使得检测精度提高，检测速度也有很大提升。将分支交互模块单独加至FCOS中，分支之间的相互作用使舰船目标被准确检测，准确率达到了93.41%。最后，本文提出的CI-Net的方法，结合了上下文融合模块和分支交互模块，检测性能取得最好的效果，平均精度为92.56%，F1值为93.14%，两个评价指标均是最优值，并且检测速度依然很快，fps达到28。

表2 模型实验结果

本文选用小目标数量居多和近海岸区域的SAR图像，比较不同模块的检测效果，检测结果对比如图6所示。

图6(a)为真值图，图6(b)为FCOS算法的检测效果，可以看出FCOS算法针对海面小目标舰船，检测效果不是很好，部分目标被漏检，受近海岸区域建筑物、岛屿的影响，非舰船目标被误检为舰船，对岸边复杂场景下的舰船定位不精准。图6(c)为仅使用上下文融合模块的检测结果，图6(d)为仅使用分支交互模块的检测结果，相比于FCOS算法，单独使用这两者，均可使检测效果有一定的提升。图6(e)为本文提出的CI-Net方法的检测效果，该方法准确地完成对海面小尺寸舰船的检测，舰船漏检现象得到改善。其次，上下文信息的融合与分支之间的交互作用使算法更易区分目标与非目标，在港口、岛屿等复杂场景中，算法依然有很好的检测效果。

图6 检测结果对比图

为了直观地理解上下文融合模块对特征的增强效果，本文利用 Tensorboard 工具将训练好的CI-Net模型中不同层的特征以及融合后的特征进行可视化，为方便对比各层特征，将每层特征图调整至输入图像大小如图7 所示。

在特征提取网络中，低层网络的感受野较小，空间位置信息表达能力强，但是缺乏语义信息，很难判别待检测框所属类别；深层网络的感受野比较大，语义信息表征能力强，可是特征图的分辨率低，缺乏空间细节特征。从图7也可以看出，P3和P4层可以提取到舰船的空间位置信息，P5层空间信息减少，P6层甚至提取不到目标信息，可见高层特征并不利于小尺寸舰船的检测，本文提出的上下文融合模块，以自底向上的方式，将低层特征的空间信息与高层特征融合，重建特征至P3层分辨率大小，融合后的特征目标位置更加明显。其次，针对大的舰船目标，高层特征语义信息表达能力强，可以判别待检测框是否为舰船。因此，语义信息和空间信息的融合，确保了充足的目标信息用于后续的检测，减少了舰船目标的漏检现象。

图7 上下文融合模块特征可视化

4.3 实验对比

为了验证本文方法的有效性和实用性，将CINet与Faster R-CNN， RetinaNet以及DCMSNN方法作比较，不同方法在SSDD数据集上的检测性能对比结果见表3。

表3中的Faster R-CNN是经典的双阶段有锚框检测算法，与CI-Net比较，并未有较好的检测结果。RetinaNet是单阶段算法，检测速度快于Faster R-CNN，但其还是基于锚框的检测，速度和精度都逊色于CI-Net。DCMSNN算法采用密集连接金字塔网络，实现了特征的重用，检测性能是三者中最好的，但是它无法快速地检测舰船，不能满足实时性要求。综上所述，与其他方法相比，本文提出的CI-Net可以高精度高速度地检测舰船。

表3 不同方法在SSDD数据集上检测性能对比

为进一步地验证本文所提方法的鲁棒性和泛化能力，本文还将CI-Net与其他3种检测方法在SARShip-Dataset数据集上进行了实验，实验结果见表4。

表4 不同方法在SAR-Ship-Dataset上检测性能对比

从表4可以看出，在不同的SAR舰船数据集上，本文提出的CI-Net仍有较好的检测效果，平均精度达到88.32%；与同为单阶段检测算法的RetinaNet相比，CI-Net检测速度依然保持领先，fps为34。

P-R 曲线平衡了准确率(Precision)和召回率(Recall)的关系，曲线越靠近坐标(1，1)的位置，表示模型检测准确率高且漏检现象少。4种检测方法在两个数数据集上的P-R曲线如图8所示。从图中可以看出，在同一准确率下，本文方法的召回率基本是最高的，在同一召回率下，准确率也是最高的，相比于其他方法，本文方法的整体表现较优异。

图8 不同方法的P-R曲线图

5 结束语

本文提出了上下文信息融合和分支交互的SAR图像舰船无锚框检测算法—CI-Net。首先，CINet算法摒弃了与锚框有关的复杂计算，使得算法的检测速度有了很大的提升，其次模型可以自主训练，不存在人为设置超参数的干扰。所以，无锚框的方式更适合SAR图舰船数据集。为了提高算法的检测精度，本文提出了上下文融合模块与分支交互模块，将提取到上下文信息的多层特征融合，使待检测特征兼具语义信息和空间信息；分类分支指引回归分支，优化定位检测框，利用IOU分支提高检测框的质量，极大地提高了模型的检测性能。在公开的SAR舰船数据集上的实验结果表明，本文算法在舰船检测的速度和精度方面表现优异，验证了本文方法的有效性和实时性。