FCOSR:一种无锚框的SAR图像任意朝向船舶目标检测网络
2022-07-01徐昌贵高建威
徐昌贵 张 波* 高建威 吴 樊 张 红 王 超
①(中国科学院空天信息创新研究院 北京 100094)
②(中国科学院大学资源与环境学院 北京 100049)
③(中国空间技术研究院卫星应用总体部 北京 100094)
1 引言
合成孔径雷达(Synthetic Aperture Radar,SAR)能够全天候实现大场景数据获取[1],已广泛应用于海洋资源监测、非法捕鱼、船舶目标检测等。近年来,目标检测领域取得了长足进展,相比于人工设计特征的传统目标检测算法,神经网络能够在大量标注数据集驱动下自动学习适用于目标检测的特征,取得了优于传统算法的检测性能,表现出巨大的应用潜力。
近年来,研究者已做大量研究工作表明深度学习在SAR船舶目标检测中的适用性[2–10],这些网络使用预设锚框与船舶样本边界框的交并比来搜索包含目标的潜在区域,并通过网络自学习锚框参数偏移量来更好地拟合目标边界框,其结果输出的边界框依赖锚框偏移量与锚框尺寸。为了提高检测精度,现有方法主要更改特征提取结构[4,5,8,10]或者添加注意力机制模块[2,7,9]来提高检测精度。以上这些改进均基于预设锚框(Anchor-based)网络,虽然能够在一定程度上提高船舶目标的检测性能,但仍然存在以下两个问题有待完善改进:(1)预设锚框参数的引入带来了额外的调参负担,研究者需要不断调整锚框的尺寸、数量以及长宽比来获取更好的结果。(2)SAR船舶在海洋中分布稀疏,在待处理的大场景影像中引入大量锚框将带来额外计算资源消耗。
上述提到的预设锚框缺点使研究者开始关注并发展无锚框(Anchor-free)目标检测网络,其典型代表为CornerNet[11],CenterNet[12],FCOS[13],FoveaBox[14]。不同于锚框检测网络,无锚框检测网络在检测中无需预设锚框参数,在回归阶段直接预测边界框的关键点位置[11,12]或者特征图目标点到船舶目标边界框的位置信息[13,14]来表示最终的边界框。近年来,无锚框网络也被成功用于SAR船舶检测任务中[15–18]。船舶目标具有长宽比较大、任意朝向及密集排列的特点,然而上述网络无论是否采用锚框,其结果输出框的类型均为水平框,无法适应任意朝向下船舶外轮廓以及航向精确输出的需求。
为了满足以上需求,研究者通过添加额外的角度信息或者使用嵌入方位信息的4个顶点坐标来表示旋转框。受RRPN[19],RCNN[20]在文本检测领域的启发,研究者在光学遥感目标检测中发展出了SCRDet[21],R3Det[22],ReDet[23]等网络。然而,不同于光学遥感影像中的检测目标,SAR影像中的船舶目标具有弱的纹理特征且影像信噪比低、视觉场景较为单调,这些综合因素导致直接使用光学检测模型并不能取得良好的检测结果。Wang等人[24]首先将角度信息回归整合进边界框回归模块中之后,一些适用于SAR船舶检测任务的网络模型被陆续提出,例如DRBox[25],DRBoxV2[26],MSARN[27],MSR2N[28],R2FA-Det[29],RRetinaNet[30]。然而以上方法均基于锚框检测网络,同时角度信息的引入使得研究者需要考虑额外平铺不同角度的锚框来进行训练时的偏移量预测,这无疑又增加了新的调参负担。
目前,在SAR任意朝向船舶检测任务中,无锚框研究相对较少。考虑到无锚框无需设置锚框参数的优点以及船舶外轮廓精确输出的需求,本文基于FCOS提出了一种名为FCOSR的检测算法。首先,在FCOS回归分支输出结果中添加角度参量,将水平框结果转化为旋转框结果,实现了任意朝向下的船舶目标检测。其次,在检测头部网络中使用基于可形变卷积的9点特征参与目标置信度的预测和残差回归分支边界框偏移量的预测,提升了网络的感受野,使得网络不再局限于点周围的像素特征,而在目标层次上进行预测,降低了陆上虚警并提高了边界框的回归精度。最后,在训练阶段采用自适应正负样本选择(Rotatable Adaptive Trainins Sample Selection,RATSS),为每个船舶样本分配距离目标中心的正样本点,使得目标能够在合适的特征层上获得更多的正样本点参与训练,从而实现整个网络检测精度的提升。
2 FCOS算法原理
FCOS[13]框架如图1所示,通过ResNet50和FPN (Feature Pyramid Network)输出P3,P4,P5,P6,P7融合特征图,之后通过检测头部网络输出每个特征图上各个点位置的特征向量,用于表示最后的边界框结果。
图1 FCOS算法的基础框架图Fig.1 The basic framework of the FCOS
FCOS不同于锚框检测网络的部分主要表现在以下两点。
2.1 检测头部网络
如图2所示,FCOS通过回归分支和分类分支直接对特征图Pi上的每个点位置(x,y)回归一个位置向量(l,t,r,b)和C个类别目标的置信度,如图3(a)所示,位置向量用于表示点位置到边界框边界的距离,不需要与锚框共同作用,直接表示了目标边界框。这种预测方式去除了检测过程中的锚框设定,带来了更少的模型参数调整。
图2 FCOS的检测头部网络Fig.2 The structure of the FCOS detection head network
图3 水平框与旋转框的参数表示Fig.3 The parameters representation of horizontal bounding box and rotatable bounding box
FCOS引入了Center-ness用于描述特征图中点位置到目标中心距离的远近,将特征点的回归真值(l*,t*,r*,b*)代入式(1)计算获得,如图2所示,FCOS添加Center-ness分支预测特征图点位置的c enterness*,通过加权边界框损失值和目标置信度来抑制远离目标中心点的低质量边界框,实现检测性能的提高。
2.2 样本选择方式
图4展示了基于锚框和基于点位置的正负样本选择策略。如图4(a)所示,锚框检测网络在特征图点位置中平铺不同长宽比、数量以及尺寸的锚框,计算锚框和样本边界框的交并比后通过固定的阈值筛选训练过程中的正负样本。FCOS由于检测中无需设置锚框,因此采用基于特征图点位置的正负样本选择方式,如图4(b)所示,将落入样本范围内的点当作正样本。计算这些点位置到样本边界的最大距离,与不同特征层负责的最大距离范围进行比较,将落入范围内的目标当作正样本点,否则为负样本点。通过这种范围限制将不同尺寸的目标分配给合适的特征层进行训练,其中FCOS设置的P3—P7层的范围为((–1,64),(64,128),(128,256),(256,512),(512,∞))。
图4 正负样本选择方式对比Fig.4 Comparison of the positive/negative sample selection methods
3 本文方法与原理
FCOSR网络结构如图5所示,本文在FCOS回归分支的输出结果中增加参数θ,将水平框转化为旋转框结果用于拟合任意朝向下船舶目标的外轮廓;为了避免直接回归边界框带来的精度损失,在检测头部网络中添加基于可形变卷积的9点特征表示用于分类分支目标置信度的预测和残差回归分支边界框输出残差值的预测;为了进一步提高网络的检测精度,本网络在训练阶段使用RATSS算法,使得船舶样本能够依据自身尺寸在特定大小的特征层获取接近目标中心的正样本点进行训练。在本节最 后给出整个网络的损失函数。
图5 FCOSR结构图Fig.5 The architecture of FCOSR
3.1 旋转边界框的参数化表示方法
本文在FCOS输出的基础上增加了角度θ的输出,图3(b)展示了回归结果l,t,r,b,θ与船舶的对应关系。将旋转框最低点作为x轴的原点,此时θ定义为x轴逆时针旋转触碰到检测框第1条边的角度,范围为[-90°,0)。参数b表示特征图Pi上点位置(x,y)触碰到该边的垂直距离,r,t,l则逆时针标识该点到旋转矩形框各边的垂直距离。然后将该点的旋转框回归结果使用下面公式进行转化,并用于后续损失函数的计算:
3.2 基于可形变卷积的9点特征表示
由于FCOS网络中的Center-ness分支仅考虑4条边的关系,未考虑角度参量的影响,因此本文设计了一种基于可形变卷积[31]的9点特征表示方式实现目标置信度的预测,加强回归分支和分类分支的信息交互,如图5蓝线所示。具体过程如下:
(1) 初始边界框回归结果获取:对于特征图中的点位置 (x,y),使用多层卷积获取初始的边界框回归矢量(l′,t′,r′,b′,θ′)。
(2) 9点固定采样位置获取:利用该特征矢量获取图6(a)所示的9个特征点,图中展示了各点与回归矢量的关系,然后代入式(7)获取图6(b)的9个特征点,并映射回原始特征图尺寸。式中xi,yi依次代入图6(a) 9个点的坐标值为转化后的点坐标位置。
图6 9点位置的坐标变换Fig.6 Coordinate transformation of the nine points location
(3) 基于可形变卷积的目标置信度回归 :将获取到的9点坐标作为特征图点位置 (x,y)可形变卷积的偏移量,分别用于分类分支的目标置信度回归和后续残差回归分支边界框偏移量参数的计算。
3.3 残差回归分支
为了进一步提高旋转框的定位精度,本文基于9点特征表示的信息,将旋转框的回归问题转化为残差学习问题。针对初始回归矢量 (l′,t′,r′,b′,θ′),通过3.2节所述方法将其转化为可形变卷积的偏移量参与运算,如图5红线所示,添加独立回归分支预测旋转框的偏移残差矢量 Δl′,Δt′,Δr′,Δb′,Δθ′,因此最终的检测框被表示为(l,t,r,b,θ)=(Δl′×l′,Δt′×t′,Δr′×r′,Δb′×b′,Δθ′×θ′)。
3.4 旋转框自适应训练样本选择策略
ATSS (Adaptive Training Sample Selection)[32]算法已证明了其正负样本选择策略的优越性,然而该算法采用水平框的输入,无法直接作用于旋转框。因此,本文先取船舶样本的最小外接水平框送入ATSS算法中,并在最后添加了点区域判定,使其实现旋转框网络训练过程中的自适应正负样本选择。该方法称为RATSS,具体算法流程如下:
步骤1 船舶样本最小外接水平边界框获取:对于每个船舶样本,获取其最小外接水平边界框。
步骤2 候选目标点集合获取:选择每个特征层中距离船舶样本中心最近的k个点加入到候选目标点集合中,并为每个点设定尺寸为8s大小的水平锚框。其中,s为特征图下采样的步幅。值得注意的是,这里平铺的锚框仅用于计算交并比,不用于指导目标检测。
步骤3 自适应IoU阈值获取:计算候选目标点集合中各点预设框与船舶样本水平边界框的IoU,计算阈值I=mean(IoU)+std(IoU)。当候选点IoU大于I则判定该点为正样本,否则为负样本。
步骤4 点区域判定:对于上述获取的正样本点判定该点是否坐落于船舶样本旋转边界框的区域范围,为了避免点坐落于船舶边界带来的样本模糊问题,如图7所示,将落于船舶样本中心0.8倍长宽范围内的点标记为最终的正样本点,否则标记为负样本点。为了避免小目标的丢失,当目标没有正样本点时,直接采取步骤3的结果。
图7 训练样本的筛选准则(蓝:正样本点,灰:负样本点)Fig.7 The selection criteria for training samples (Blue:Positive sample points;Gray:Negative sample points)
通过以上算法,如果点位置 (x,y)与船舶样本边界框G={x*,y*,w*,h*,θ*}相关联,那么最小化该位置的矢量t′={x′,y′,w′,h′,θ′} 与G的距离即可完成网络模型权重的更新。
3.5 损失函数
网络训练的损失函数由分类损失、初始边界框以及精细化边界框的精度误差3部分组成,如式(8)所示:
其中,Npos表示正样本的个数,λ0,λ1为旋转框损失函数权重调整因子用1指示船舶类别,0表示背景;px,y为目标置信度为回归分支的输出值,分别对应着初始回归值和精细化回归值,为船舶样本边界框。
分类损失函数Lcls采用Focal Loss[33],公式如下,α表示平衡因子,用于平衡正负样本的数量。
Smooth L1 Loss用于初始边界框以及精细化边界框的参数回归,表示如下:
为了保持不同大小目标损失函数的尺度一致性,上式中ti计算如下:
式中,(x′,y′,h′,w′,θ′)由 (l′,t′,r′,b′,θ′)通过式(2)—式(6)转化得到,(x′,y′,h′,w′,θ′)表示预测框的结果,(x*,y*,h*,w*,θ*)表示船舶样本边界框的结果。(x′,y′,h′,w′,θ′)替换为(x,y,w,h,θ)即可求得精细化边界框的损失。
4 实验验证
4.1 实验数据集
为了验证本网络模型的检测性能,本文在SSDD+[34]和HRSID[35]数据集上进行了验证实验。
(1) SSDD+:该数据集于2017年出版,是SAR船舶领域较早出版的SAR船舶检测数据集,由Radarsat-2,TerraSAR-X,Sentinel-1影像组成,分辨率范围为1~15 m。数据集中共有1160张SAR影像切片,共计2456个船舶目标。
(2) HRSID:该数据集于2020年出版,用于船舶目标检测与船舶实例分割,由Sentinel-1,Terra-SAR-X影像组成,分辨率为0.5 m,1.0 m以及3.0 m。HRSID数据集中共有5604张SAR影像切片,共计16591个船舶目标。
4.2 性能指标
本文引入了Precision(P),Recall(R),mean Average Precision(mAP)下、训练时间Time以及每秒帧数FPS用于评估不同模型的表现,mAP指标的具体表示如表1所示,本文所有mAP以及召回率R单位均为%。
表1 COCO指标Tab.1 COCO metrics
式中,Time代表模型训练过程中,平均每一次迭代所需的时间,其中,n为模型训练至收敛的迭代次数,ti代表训练第i次所需要的时间。FPS代表检测速度的快慢,其中N为测试集的样本数量,T为测试集检测所需时间。
4.3 执行细节
(1) 影像预处理:由于HRSID数据集提供实例分割标注,未提供旋转框标注,因此在处理时对该数据集影像标注格式中的实例分割字段通过取最小倾斜外接矩阵当作样本的旋转框真值标注。
(2) 数据增广:为了加强数据集在网络模型中的鲁棒性,提高网络对于不同角度船舶的敏感性,网络内部集成了常见的数据增强方式,在影像训练时会随机进行对比度增强、旋转、错切、平移以及镜像翻转。
(3) 训练参数设置:所有的网络模型均基于开源的mmdetection目标检测框架开发,并在 Intel i9-10900k以及Nvidia RTX2080Ti GPU 上使用随机梯度下降 (SGD) 算法进行训练。每次迭代的批量大小为 4。初始学习率2e-3,并在第8,11,16次下降至原来的0.1,验证时交并比阈值设置为0.1,最小目标置信度阈值设置为0.05。损失函数调控因子λ0和λ1分别设置为1.25和1.5。Focal Loss损失函数a设 置为0.25,λ设置为2。Smooth L1 Loss中的β设置为0.11。
4.4 算法性能评估
本节主要开展正负样本选择策略对比用于检验RATSS的效果,并通过消融实验体现9点特征表示和残差回归分支的作用。
4.4.1 正负样本选择策略对比
为了验证RATSS算法的有效性,本文与3种基于点位置的样本选择方式进行了对比,分别标识为a,b,c。如图8所示,采样方式a,b将落入船舶样本范围内的所有点进行训练,两者区别在于限定范围不同。采样方式c则采用FCOS的正负样本选择策略,限定不同特征层负责训练的最大样本点距离。为了验证RATSS步骤4点区域判定的作用,本文增加了去除该步骤的对比实验。在SSDD+数据集上的验证结果见表2。
图8 不同的正样本选择方法Fig.8 Different positive sample selection methods
表2显示RATSS的结果明显优于采样方式a,b,c,在k值为5的情况下,mAP50值分别高出16.0%,6.1%,8.2%。表2结果显示不同方法中 mAP50的差异主要体现在中大型船舶目标。对于中大型目标而言,采样方式a,b容易在P3层分配大量的正样本点进行训练,然而该层对于中大型船舶目标而言特征提取能力较弱,使得检测率偏低。采样方式c由于采用最大距离限定,当特征层的点位置接近于船舶样本中心时,计算获得的最大距离容易小于特征层负责的范围,使得该点被误分配为负样本,这导致了不合理的样本选择。
图9记录了RATSS训练过程中不同尺寸船舶目标样本点在不同特征层的分布情况。由于RATSS采用平铺水平锚框与船舶样本边界框计算交并比的方式,使得不同尺寸的目标在适应大小的特征层中具有较高的交并比,因此网络会自动将目标分配给合适的特征层进行训练,同时中心选择候选点的方式,也使得选择的样本点趋向于目标中心,表征出更高的检测精度。对比去除RATSS步骤4点区域判定的结果,m AP50提升了4.5%,表明了点区域判定步骤的有效性。从表2训练时间看出,该方法仅带来8%的训练时间损耗。
表2 不同样本选择方法的实验结果Tab.2 Results of different samples selection methods
图9 用RATSS后的正样本在不同特征层的分布比例Fig.9 The distribution ratio of positive samples in different feature layers after using the RATSS
本文调整超参数k值进行了实验,从表2的结果可以看出虽然参数k值造成了检测结果的波动,但其检测结果依旧高于非RATSS的采样方式,且mAP50的差异保持在1.9%,同时不同参数带来的训练时间损失几乎可以忽略,表明RATSS方法的稳定性。
4.4.2 消融实验
本节开展了消融实验用于验证9点特征表示以及残差回归分支对检测的影响,所得结果见表3。
表3 消融实验结果(%)Tab.3 Results of ablation experiments (%)
4.4.2.1 9点特征表示的影响
从表3的检测结果可以看出,将9点特征表示应用于分类分支后各项指标均获得了提升。图10展示了部分场景下的检测结果,可以看出9点特征参与目标置信度预测后,降低了第1行陆地边缘以及第2行岸上虚警目标的干扰;第3行的检测结果显示了该方法有利于提升复杂环境下的目标检测率;第4行结果则说明该方法有利于提高小目标的检测率。这是因为可形变卷积提升了分类分支的感受野,使得目标置信度预测时不再局限于锚点周围像素信息,而在目标层次上进行预测。同时初始边界框的参数作为偏移量送入分类网络中,加强了分支之间的信息交互,有利于提升边界框的回归精度。
4.4.2.2 残差回归分支的影响
表3显示残差回归分支在保障小型目标检测效果的前提下,有效提升了中大船目标的 mAP精度,表明了该方法的有效性。
图10第2、第3两行的(c)(d)列可以看出,残差回归分支有效地将偏离目标边界框的检测结果进行了校正,使其更加贴近船舶目标。同时第4行的结果也说明了添加残差回归分支并不会对小型目标造成精度的损失。残差回归分支利用9点特征融合了目标周围的背景信息用来预测边界框的偏移量,有效地避免了旋转目标检测过程中过多关注目标自身特征的问题,因此能够有效地提升边界框的回归精度。
图10 消融实验结果对比Fig.10 Comparison of ablation experiment results
4.4.2.3 讨论
表4记录了SSDD+数据集下远岸与近岸环境下的实验结果。结果显示本文的方法在直接输出5参数的基础框架上,近海和远海的mAP分别提升了14.6%和2.3%,mAPL提升了32.6%和37.5%。本文方法采用了基于可形变卷积的9点特征表示参与目标置信度以及边界框残差值的预测,因此对于船舶目标而言无论近岸还是远海提升效果都更为明显。
表4 近岸与远岸船舶的mAP结果值(%)Tab.4 The mAP results of the ships in inshore and offshore (%)
4.5 网络整体性能对比
本节开展与FCOS网络、其他锚框旋转检测网络的对比,用来进一步说明本文方法的精度和速度性能。
4.5.1 与FCOS网络的比较
本节比较了FCOSR与FCOS的差异,同时添加了变换FCOSR骨干网络和通道数的实验,表5记录了相应的实验结果。从表5的结果可以看出,ResNet50+256通道数的组合相较于ResNet34+128通道数的组合并未带来实际性的性能提升,却额外增加了训练时间和检测时间,这是由于简单的特征提取网络就可以充分拟合SAR影像中较弱的船舶纹理特征。综合考虑时间与性能的差异,本文将Res-Net34+128通道数当作最终的网络模型设置。
表5结果中SSDD+数据集上FCOS的 mAP50高于FCOSR的结果2%,这是由于两者交并比的计算方式不同,旋转框的交并比受角度影响较大,因此表征出略低于FCOS的检测结果。但是在HRSID数据集中本文的网络表现出优于FCOS的 mAP50。观察图11可以看到水平框的结果无法拟合目标轮廓,无法直接获取船舶的朝向信息,因此无法满足任意朝向下的船舶目标检测需求。如图11(c)绿色区域所示,对于并排船舶目标而言,FCOS容易出现并排船舶目标的漏检,而FCOSR由于输出旋转框,有效地避免了NMS阶段船舶目标的漏检,且旋转框的引入降低了模型训练时非船舶像素的干扰,减少了岸上的虚警目标。
图11 FCOSR和FCOS的检测结果(蓝色:真值;黄色:虚警;绿色:漏检;红色:检测结果)Fig.11 Results of FCOS and FCOSR (Blue:Ground truth;Yellow:False alarm;Green:Missing ship;Red:Detected result)
表5 FCOS与FCOSR的对比Tab.5 The performance comparison of FCOS and FCOSR
4.5.2 与锚框旋转检测网络的比较
为了验证本网络的检测能力,本文在SSDD+以及HRSID数据集上将FCOSR与双阶段锚框旋转检测网络ReDet,R3Det,FasterRCNN-O[36]以及单阶段锚框旋转检测网络R-RetinaNet进行了性能对比。表6结果显示FCOSR实现了最高的 mAP50值与召回率,证明了本文方法的有效性。同时,FCOSR网络采用ResNet34+128通道数的组合,以及单阶段的设计方法,使得本文算法相较于其他旋转检测方法保持着最小的模型尺寸、最快的训练时间和检测速率。
表6 不同检测网络的精度对比Tab.6 The comparison of the accuracy of different detection networks
图12展示了纯海面小型船舶目标的检测结果,本文方法并未出现目标漏检,且表现出更高的定位精度和召回率。由于SSDD+数据集和HRSID中船舶样本长度分布不均匀,设定的锚框并不能充分适应样本长度的分布,造成基于锚框的目标检测网络对于小目标的丢失。而FCOSR无需预设锚框,避免了锚框设置带来的精度损失,因此对于小型船舶目标具有良好的检测效果。
图12 远岸目标的检测结果(蓝色:真值;黄色:虚警;绿色:漏检;红色:检测结果)Fig.12 Results of the offshore ships (Blue:Ground truth;Yellow:False Alarm;Green:Missing ship;Red:Detected result)
对比图13近岸背景下不同网络模型的检测结果,本文的方法采用了9点特征表示突出目标整体,并将其作为可形变卷积的参数输入,使得目标置信度的预测和边界框的回归融合了背景信息,此外提升的感受野使得结果的预测更关注于目标,因此有利于减少检测过程中的虚警目标。在图13中,相较于ReDet,R-RetinaNet,本方法并未出现虚警目标和漏检目标,这说明了FCOSR能够在近岸背景下实现良好的船舶检测效果。
图13 近岸目标的检测结果 (蓝色:真值;黄色:虚警;绿色:漏检;红色:检测结果)Fig.13 Results of the inshore ships (Blue:Ground truth;Yellow:False alarm;Green:Missing ship;Red:Detected result)
对比图14河道复杂环境下的检测结果,本文的方法相较于FasterRCNN-O,ReDet,R3Det对密集分布的船舶目标表现出更高的召回率,且在陆地中并未出现虚警目标,表征出更低的陆上虚警。综上所述,本文的方法相较于锚框检测网络,无论是远海还是近岸复杂环境背景下均表现出更好的检测性能和鲁棒性。
5 结论
本文在FCOS的基础上通过添加角度参量θ使其适用于任意朝向下的船舶目标检测,并基于可形变卷积设计了一种9点特征表示,用于目标置信度的预测和残差回归分支偏移量的预测。同时通过一种自适应样本选择策略RATSS自动选择训练过程中的正负样本,降低了低质量样本对检测精度的影响。SSDD+和HRSID数据集检测结果表明,相较于锚框旋转检测网络,本文算法无论是远岸还是近岸复杂环境的多尺度船舶目标,均能保证更高的检测精度。在检测效率上,本文采用的模型也具有最小的模型尺寸和更快的检测速率,能够适应未来要求更高的实时船舶目标检测任务。