特征图知识蒸馏引导的轻量化任意方向SAR舰船目标检测器
2023-03-06陈诗琪占荣辉刘盛启
陈诗琪 王 威 占荣辉 张 军 刘盛启
(国防科技大学自动目标识别重点实验室 长沙 410073)
1 引言
合成孔径雷达(Synthetic Aperture Radar,SAR)作为一种主动式微波成像传感器,以其全天时、全天候、作用距离远的技术优势,成为对地观测的主要手段之一,广泛应用于军事侦察和民用遥感领域[1,2]。近年来,随着SAR系统技术和成像算法的日趋成熟,国内外多个先进的SAR卫星获取了海量广域高分辨率和高质量的SAR图像。SAR图像舰船目标检测可实现宽阔海域和港口中目标的快速提取定位,能为海洋交通、渔业管理、战场态势评估和军事目标侦察提供重要信息支撑。传统的SAR图像目标检测通常包含恒虚警率(Constant False Alarm Rate,CFAR)方法[3]和模板匹配方法[4]。前者需要构建杂波统计模型来确定检测阈值,参数估计和计算求解复杂耗时;而后者需要建立全面的模板库,且常常依赖专家经验,泛化性能较差。
近年来,深度学习凭借其强大的表征能力和特征学习能力在目标分类、检测、分割等各类任务中显现出巨大的优势,并且在SAR目标检测方面也取得了良好效果。基于深度学习的目标检测方法无需海陆分割,能适应于不同复杂程度的场景,具有高精度和高效性等优点。文献[5]通过改进Faster RCNN[6]对舰船目标进行检测,结合了特征融合、迁移学习、难例样本挖掘等策略在SSDD数据集上取得了79%的检测精度。文献[7]将单阶段检测器SSD[8]用于SAR舰船检测,提出轻量化特征优化网络,通过双向语义信息聚合与注意力机制改善了多尺度目标的检测性能。文献[9]在YOLOv3网络[10]的基础上,采用深度可分离卷积网络重新搭建轻量级网络SARShipNet-20,结合了通道、空间注意力机制,能在提高检测速度的同时达到较高的检测精度。Gao等人[11]提出的SAR舰船目标检测器针对YOLOv4在特征融合结构、解耦分类和回归分支以及轻量化检测头部进行改进,所提网络比原始网络轻量化了约33.3%,参数量为42.6 M。Zhu等人[12]基于YOLOv5检测器提出了高速高精度的检测器H2Det,仅有14.4 M的参数量。文献[13]在无锚框检测器FCOS[14]的基础上设计特征平衡和优化网络,并结合注意力机制引导金字塔网络不同层级特征的提取。文献[15]提出了由海陆分割、分块区域筛选和改进的FCOS3部分构成的大场景目标检测框架。该方法引入特征优化模块,且针对漏检和虚警问题优化了位置回归分支的特征表达,从而提升定位精度。文献[16]基于CenterNet[17]设计特征精修模块以提取多尺度上下文信息并改进了特征金字塔融合方式,同时为解决正负样本不平衡问题对检测头部进行增强。
上述方法大多基于锚框遍历机制,需要手工预设锚框尺寸、比例等属性来初始定位目标,特征图上产生的密集候选框不仅计算资源消耗大,且仅有少量候选区域能匹配目标的高质量锚框,由此会带来严重的正负样本不平衡问题。此外,大多表征能力强的检测骨干网络体积庞大,网络参数较多,一定程度能提升检测精度但会导致检测速度降低。
此外,当前大多SAR舰船检测方法用最小外接水平框定位目标,忽略了角度信息。当目标的长宽比较大时,检测框会包含大量背景杂波区域且不能反映舰船分布的方向信息。当多个目标紧密排列时,检测框之间的交并比增大,在非极大值抑制(Non-Maximum Suppression,NMS)阶段容易被滤除从而产生漏检。为提升近岸舰船目标的检测性能,基于有向框标记的舰船检测方法受到了广泛关注。文献[18]第一次将旋转角度加入目标真值框实现了基于SSD的SAR目标方位角预测,该方法通过结合线上难例挖掘、焦点损失等方法解决了正负样本不平衡问题。文献[19]在RetinaNet框架[20]上提出尺度标定方法来对齐特征图输出尺度和目标尺度,并通过基于任务的注意力金字塔网络解耦分类和回归任务的优化过程。文献[21]基于YOLOv3框架提出任意方向目标检测模型,通过设计多任务损失函数和方位角偏差校正能同时输出垂直框和旋转框。Fu等人[22]采用gliding vertex[23]中的旋转框表示法,设计了动态特征提取模块来增强目标的语义和空间信息,并根据SAR成像特性定义属性散射中心点来引导特征自适应学习。
上述旋转目标检测方法大多由基于锚框的方法改进而来,需要设置不同角度参数的锚框以匹配旋转候选区域,在复杂场景下难以正确匹配真实框。其次,这类方法会引入大量依赖数据集而定的参数,增加网络的计算量和复杂度。再者,SAR图像中舰船目标既稀疏分布于空旷海域中,部分也密集分布于近岸区域。尤其在大场景图像中大部分是背景区域,若采用基于锚框的方法会引入大量的重复计算,导致正负样本分配严重失衡。最后,在实时性要求高的舰船检测部署应用中,不仅要考虑高检测精度还需要轻量化的网络模型和较好的实时性。在计算能力及存储能力受限的移动设备上部署神经网络模型更需要设计轻量化的骨干网络和检测头。但现有的轻量化网络[9,11,12]均根据现有的检测器改进或者直接设计轻量化网络,对骨干网络的选取依赖较大。本文先学习表现好的教师网络,再通过模型压缩得到学生网络,最后通过蒸馏结构进一步优化学生网络模型。
针对上述问题,为减少计算资源并提升检测方法的实用性,本文提出一种基于知识蒸馏的轻量化SAR任意方向舰船目标检测器。该检测网络能直接预测出目标的中心点位置,长宽以及方向角信息。检测架构由骨干网络特征提取模块和多分支预测模块构成。前者输出像素级的概率图,其中每个位置的值表明该像素属于目标区域的概率,后者通过回归目标的定位参数并解码获取最终的检测结果。最后,在轻量化的学生网络上提出基于像素点相似度的改进热度图蒸馏和前景注意力区域引导的特征蒸馏。为弥补前景引导时上下文信息的缺失,提出全局语义模块将像素间的关系建模为蒸馏对象。将来自教师模型的各层次暗知识传递到学生模型以提升检测精度,最终得到轻量化、实时性强且定位精度高的SAR舰船检测网络模型。
2 检测器整体框架
本文提出的轻量化检测器主要由3部分构成:特征提取骨干网络、多分支检测头网络以及蒸馏模块。首先构建基准教师网络检测结构,其基础框架如图1所示:给定输入图像,采用编解码骨干网络输出4倍下采样高分辨率特征图,同时将其作为前景注意力引导模块的输入使得网络更加关注前景区域的特征。然后以中心点作为关键点代替锚框进行热度图分类和边界框回归,对输出的偏置值、边框位置参数以及角度参数进行解码可得旋转框检测结果。最后,为轻量化网络的同时保持检测精度,设计知识蒸馏模块完成从教师网络到学生网络的模型知识迁移。
图1 基于关键点的旋转框检测器整体框架Fig.1 Overall framework of keypoint-based oriented detector
2.1 骨干网络
基于CenterNet的检测器通常需要获取高分辨率的热度图,而常用的网络结构如VGGNet,ResNet等获取的最后一层特征图分辨率较低,导致小目标信息损失严重。U-Net和Hourglass采用高到低和低到高层特征图双向融合的方式以递归式结构得到高分辨率特征图,网络复杂且效率较低。本文选取高分辨率网络(High-Resolution Network,HRNet)[24]作为特征提取骨干网络获得具有丰富细粒度信息的特征。如图2所示,HRNet能从输入到输出始终保持高分辨率特征图,对于密集排列或者有轻微遮挡和重叠的目标也能有效提取其关键点信息。
图2 HRNet骨干网络结构图Fig.2 Structure of HRNet backbone network
HRNet中大量残差模块会带来庞大的参数量,本文选取深度可分离卷积和1×1卷积的结合代替常规卷积,由此轻量化网络中的残差模块。为达到模型参数量和性能的平衡,在残差模块中保留一层常规卷积,另一层用轻量化卷积模块代替,能减少大约一半的模型参数。得益于高分辨率网络反复融合多尺度特征的特性,特征图没有因为连续下采样而损失大量细节信息,一定程度保留了SAR图像中小舰船目标的信息。为增强网络对多尺度目标的特征提取能力,对HRNet输出的4个阶段的特征图进行自底向上的特征融合操作,取4倍下采样的顶层特征图作为检测头部的输入特征。为使检测头轻量化,用5×5深度可分离卷积替换原始3×3卷积核,在不损失速度的同时增大卷积核的感受野,从而能覆盖更多不同尺度的舰船目标。除了宽高预测分支使用两个3×3的卷积之外,其余分支均使用一个3×3卷积加上1×1卷积。
2.2 二维高斯分布表示法
常用基于关键点的检测方法在定义正负样本位置时没有充分考虑目标的形状大小和方向,难以适应SAR舰船目标角度和长宽比的多样性。本部分提出结合长宽和方向角信息的旋转高斯分布函数来产生样本的真值热度图,更好地刻画舰船分布的长宽比和方向角。
对于SAR舰船单类目标检测器而言,输入宽和高为W和H的特征图,其输出通道数为1,因此热度图尺度为W×H ×1。在原始圆形高斯热度图上进行改进,用旋转的椭圆高斯区域表示目标的正样本区域。定义中心点热度图的真值为,产生热度图的高斯核为
X=(x,y)表 示目标在特征图中所处位置,µ=(cx,cy)对应于4倍下采样的真值框坐标。
别表示由目标真值框角度确定的旋转矩阵,以及由目标旋转框宽高确定的对角矩阵。σx,σy表示由目标长宽确定的标准差值,k表示确定旋转高斯核方向的指数,其与目标边框尺寸的具体关系如式(3)。
2.3 结合前景注意力机制的检测头
由于SAR图像中近岸区域场景复杂,大多靠岸舰船目标与码头、岛礁、岸上建筑物等背景有相似散射特征,难以被准确区分。为使模型更加关注前景信息,本部分提出前景注意力引导模块学习图像的前景区域特征,在凸显目标区域的同时抑制杂波背景的影响,结构如图1中橙色框所示。前景注意力生成模块由一个3×3普通卷积层、一个3×3空洞卷积核和两个1×1的卷积层构成。
旋转框检测框架中检测头包括中心点热度图、偏置值、旋转框参数和前景注意力预测图4个分支。由于中心点热度图和偏置值预测负责精确定位目标中心点,而旋转框参数预测部分更关注目标的形状,这里仅在旋转框参数预测时使用前景注意力增强后的特征。
受语义分割任务中像素级分类方法的启发,可由目标的实例级标注信息获取前景区域的标注,即所有在边框内的像素值定义为1,超出边框边界的像素值为0。考虑到目标周围区域包含的边缘信息对精确定位和回归有益,将目标周围一定范围内的区域作为过渡区域。根据经验值,本文选定超出真值框1/4大小的边框为中间区域,在制作前景分割图标签时,将中间区域的像素值设置为0.5。将目标的分割图作为监督信息可训练该注意力模块。经过前景注意力增强的特征图包含了目标的长宽信息,能为前景目标的尺度预测提供有效指引。
给定骨干网络最后阶段的输出特征图F,定义得到的前景注意力特征图为M(F)。该特征图有两方面作用:一是产生注意力掩模图,在训练前景注意力分支时将上述前景区域的像素级标注作为监督信息;另一方面可用于增强骨干网络的原始输出特征图。增强后作为目标形状预测分支的输出特征图可表示为
⊙表示逐元素相乘,exp表示指数操作,⊕表示特征拼接操作。指数操作一定程度避免了特征图中有利于预测目标尺度的信息丢失。
2.4 预测模块
2.4.1 中心点和偏置值回归
在训练热度图时选取高斯分布的峰值为正样本,其余点为负样本。由于高斯分布中心附近的点也有一定的预测概率,为高斯核内的其他点赋予由距离中心远近所度量的权重。为解决正负样本严重不平衡问题,训练高斯热度图分支时采用改进的焦点损失函数,即
其中,pxy表示第xy个像素点的热度图预测值,gpxy为该像素点对应的真值,N表示目标总数量。默认取值α=2,β=4。同训练中心点热度图一致,前景注意力分支也由上述损失函数训练得到。
在网络推理阶段,将提取到的预测热度图的峰值点作为目标中心点。当输入SAR图像中舰船目标位置为 (x,y)时,骨干网络中输出特征图对应位置为。由于特征提取网络中的下采样操作会带来量化误差,为弥补将热度图中的位置重映射到原图时的精度损失,构建预测特征图为O ∈RW×H×2的偏置值分支。用平滑L1函数优化偏置值可得损失值:
其中,oi和分别表示第i个目标的偏置值预测值和对应真值。
2.4.2 旋转框回归
由于SAR图像中存在一定比例的近乎水平或者垂直分布的目标,本文考虑两种回归方式,将带有旋转角度的目标边框(OBB)定义为水平框(HBB)和旋转框(RBB)。当目标真值框呈现水平分布时,回归宽和高即可得到边框位置。当目标真值框带有旋转角度时,可通过回归最小外接矩形框的宽高和目标中心点到四边的距离得到旋转框位置。引入旋转因子来确定真值框回归时按水平或者旋转形式:
IoU表示旋转框和最小外接矩形框的交并比。基于上述旋转因子可构建旋转分支的输出特征图Θ ∈RW×H×1,将训练旋转因子转换为分类任务,用二值交叉熵损失来优化旋转分支:
对目标进行旋转框表示时,用中心点到四条边构成的4个向量来描述旋转框。检测头部预测的边框参数为(t,r,b,l,w,h),构建由此组成的旋转框回归分支。同偏置值分支一致采用如下损失函数:
其中,Bi和分别表示目标边框的真实值和预测的目标边框参数。当值为1时,回归B中旋转框表示法的10个参数;当值为0时,仅回归B中宽高两个参数。
2.5 蒸馏结构
虽然HRNet骨干网络通过信息交换和多尺度特征融合能得到表征能力极强的高分辨率特征图,但多阶段之间大量重复的融合操作和密集的层间特征融合会产生较高的计算复杂度,使得网络参数量庞大。本文对上述基于关键点的旋转检测框架进行知识蒸馏可得到轻量化检测器,具体蒸馏框架如图3所示。骨干网络HRNet32作为教师网络,HRNet16作为学生网络进行蒸馏(32表示高分辨率子网在最后3个阶段的宽度分别为96,192,384;16表示并行子网的宽度为64,128,256)。前者检测头部的卷积层输出通道数为32,后者为16。
图3 蒸馏结构示意图Fig.3 Schematic diagram of distillation structure
2.5.1 蒸馏损失函数构建
训练轻量级学生网络时,将目标真值作为硬标签,教师网络预测作为软标签,整体损失函数如下:
其中,A表示检测头部预测的中心点位置、偏置值、旋转框尺度、角度因子参数的集合,λ为蒸馏损失所占比例。在目标真值作为硬标签时,加入前景注意力引导模块的损失函数,在蒸馏时加入特征层次的损失函数。其中yA表 示目标的真值标注,At和As分别表示教师和学生网络的角度预测输出。Ldet将真值作为硬标签计算损失来训练学生网络(同训练教师网络的相应分支),LKD将教师网络的预测作为软标签,可表示如下:
其中,λhm,αhm表示常规训练和蒸馏训练中热度图损失所占比例,λatt和αfea表示注意力分支损失和特征图蒸馏损失所占比例。Ldet中各项损失同2.4节中各预测模块的损失一致,LKD由特征图蒸馏损失和检测结构预测头部的各部分蒸馏损失共同构成,下面将分别介绍改进的特征图和热度图蒸馏模块。
2.5.2 特征图蒸馏
由于HRNet最后阶段提取的特征已融合了各层级的特征,本文仅对末阶段特征图进行蒸馏。SAR图像中存在前景和背景样本严重不平衡现象,若对整个特征图进行蒸馏将引入大量噪声,导致学生网络难以学习到教师网络中对检测有益的特征。由于近岸SAR图像中背景与目标散射特性存在相似性,在特征蒸馏时需要既能考虑到与目标区域相关的有效特征,同时结合港口、岛礁、码头等背景特征来辅助舰船目标特征的蒸馏。因此本文提出前景注意力掩模引导的上下文信息增强特征蒸馏策略。
定义Ft和Fs分别为教师和学生网络的特征图输出,当两者通道数不匹配时,加入通道自适应函数φ对齐通道数。为使蒸馏过程更加关注前景区域的特征,将教师网络检测头分支产生的前景注意力特征图M(Ft)作为骨干网络特征蒸馏的监督信号。
文献[25]中结合Non-Local模块捕捉目标的上下文信息,建模了图像中两个像素之间的关系。但由于其计算量大、难以即插即用,本文采用GCblock[26]构建全局语义建模模块,使得蒸馏过程中不仅能学习舰船目标特征图中单个像素的知识,同时也能捕捉周围地物背景与目标像素的关联信息。该模块的内部结构可由式(12)表示,由此改进的特征蒸馏损失可由式(13)表示:
其中,LN 表示层归一化操作,Np表 示特征图Fm中的像素个数。
2.5.3 热度图蒸馏
在对检测头进行蒸馏时,将从中心点热度图、偏置值和尺度、旋转角因子3个方面设计蒸馏损失函数。中心点热度图的预测决定了目标定位的精确度,因此如何缩小教师和学生网络预测热度图的差异对学生网络的检测精度至关重要。由于热度图的预测实质是像素点分类问题,本文将不同空间位置的像素点作为节点,节点间的相似度作为边来构建邻接图结构。对于每个节点,只计算其与周围m个节点的相似性。这种基于点对点相似度保持的蒸馏策略,能最大化保持教师和学生网络预测热度图中像素对的一致性。将图结构中点对点相似度蒸馏损失表示为
其中,教师网络中像素点i和j之间的相似度为,学生网络中对应的相似度为。对于W×H ×1大小的中心点热度图,用fi表示第i个 空间位置上特征图的值,相似度可由式(15)计算:
由于旋转角因子的确定可视为二分类问题,定义最小均方差蒸馏损失:
同理,对于偏置O和旋转框除角度因子外的其余参数表示S,选取平滑的L1损失函数计算损失:
3 实验验证
本文实验平台硬件配置为Intel®CoreTMi7-8700K CPU,32 GB内存计算机,使用NVIDIA RTX2080Ti GPU进行加速运算。软件环境为Linux平台,操作系统为Ubuntu16.04。文中实验基于Pytorch深度学习框架构建网络模型,并使用CUDA10.0和CUDNN7.6实现程序加速。
3.1 训练策略与评价指标
本文方法在公开SAR图像舰船目标检测数据集HRSID[27]上进行验证。在实验中,按照7:2:1的比例划分训练、验证和测试集,使用Adam优化器对网络参数迭代更新,权重衰减率为0.0005。将CenterNet检测器作为基准模型且用骨干网络HRNet提取图像特征。教师和学生网络训练时各项损失值的比例分别设置为λhm=λatt=0.8,蒸馏时αfea=αhm=3且λ=0.5。设置初始学习率为1.25E-4,按照step的学习策略分别在70和90epoch时候学习率衰减为原始的0.1倍,共训练100个epoch。每训练10个epoch保存一次网络模型,根据训练结果保存最优模型。一批训练4张图片,采用随机裁剪、翻转、亮度变换等操作扩充数据集。
实验中,当检测边框与真值边界框的IoU超过0.5时,即可认为检测正确。本文采用深度学习中的评价指标,即召回率Recall,精度Precision以及平均精度AP。定义TP (True Positive)为正确的舰船检测数目,GT (Ground Truth)为真实的舰船数目,FP (False Positive)为错误检测的舰船数目,FN (False Negative)为漏检的舰船数目。则召回率、准确率和F1值可分别定义为
平均精度定义为
其中,p为 精度,r为召回率,p(r)表示精度和召回率的曲线。AP的值越大表示算法性能越好。
此外,用网络参数量Params(M)和网络前向计算量FLOPs(G)衡量模型的轻量程度。
3.2 实验结果分析
3.2.1 消融实验
为说明本文提出的尺度和方向自适应的高斯核、前景注意力引导模块的效果,将基于CenterNet的旋转框检测方法作为基线模型在HRSID数据集上进行消融对比实验。该实验以骨干网络HRNet32为基准,输入网络的图像大小为608 pixel×608 pixel,每组实验设置的参数保持一致。表1展示了不同模块下的各项评价指标。
从表1可看出,加入改进的高斯核热度图表示后,AP从0.7833提升至0.7927,F1分数提升了3.8%左右。说明提出的旋转非归一化高斯核能更好地刻画舰船分布的方向角和长宽比,目标的关键点预测更加准确。图4展示了测试图像中各个目标的预测热度图和前景注意力预测特征图。
表1 HRSID数据集上的消融实验Tab.1 Ablation experiments on HRSID dataset
从图4可以看出,预测的高斯热度图能准确地反映目标的长宽和方向角信息。前景注意力特征图的激活位置能精确反映前景区域,而尺度预测分支能通过增强的前景特征表示更精确地预测目标的长宽比信息。在复杂近岸场景下检测时,通过加入前景注意力引导机制,网络将更关注前景目标区域,一定程度减少了目标周围岛岸背景的干扰,使得定位精度上AP提升了2%,F1从0.7759提升至0.8082。加入两个模块的结合后对检测器召回率的提升没有单独加入前景注意力机制时提升明显,可能是由于旋转高斯核的引入一定程度降低了密集排列目标的漏检率,此时前景注意力机制主要作用于提升回归精度方面。
图4 热度图可视化Fig.4 Heatmap visualization
上述结果表明,引入前景注意力引导模块优化旋转框尺度参数回归,并根据目标尺度和方向角改进高斯核表示都能提升舰船目标检测的精度。
3.2.2 无蒸馏与不同蒸馏策略下的对比实验
为进一步轻量化网络结构,考虑对骨干网络的卷积通道数进行精简得到HRNet16。表2展示了不同骨干网络下本文所提旋转框检测方法的精度和参数量对比。表中所示方法结合了本文改进的高斯核并引入前景注意力引导模块,仅改变骨干网络进行实验。
表2 教师和学生检测网络的性能比较Tab.2 Performance comparison of teacher and student detection network
尽管骨干网络为HRNet16时参数量和浮点计算量均大大降低,检测精度也有所损失。当对检测头部分支的角度预测、偏置值和边框参数3部分进行知识蒸馏后,得到的学生网络能在保证模型轻量化的条件下提升检测精度,但远低于教师网络的检测精度。
为进一步说明本文所提蒸馏策略的有效性,主要从中心点热度图和骨干网络特征蒸馏两方面展开对比实验。图5展示了近岸和远海场景下不同蒸馏策略下的PR曲线。可以看出在远海场景下,目标分布较为分散且没有岛屿、礁石等干扰,检测准确率均在90%以上,各种蒸馏策略下的性能差异甚微。在近岸场景中,用普通热度图蒸馏(L2)或普通特征图蒸馏(L2)时与学生网络性能差异不大;当使用基于点对点相似度保持的蒸馏方法时,随着召回率的提升,改进方法的准确率更高,对应的PR曲线与坐标轴包围面积更大。当进一步加入改进的特征图蒸馏后,由于结合了前景掩模知识并建模了目标与周围上下文信息的语义联系,利用改进的热度图和特征蒸馏策略得到的学生网络在近岸条件下的检测性能比教师网络还稍有提升,进一步说明特征的知识迁移对近岸检测的性能影响较大。
图5 不同蒸馏策略下PR曲线比较Fig.5 Precision-Recall curves under different distillation strategies
图6对网络预测头输出的中心点热度图进行可视化,响应值强的地方对应目标的中心位置。从左至右分别是检测结果、基于均方差损失蒸馏的中心点热度图、本文所提蒸馏方法和教师网络预测的热度图。可以看出本文所提改进蒸馏方法产生的热度图上最亮点突出了目标的中心点位置,在目标附近的岛屿、礁石或者海岸上几乎未产生响应或响应值极弱。这是由于基于像素点对点相似度保持的蒸馏策略最大限度保留了教师网络对中心点位置的估计知识,且结合前景注意力掩模的特征蒸馏能在学习前景特征的同时减少背景杂波的干扰。
图6 不同蒸馏策略下预测热度图比较Fig.6 Comparison of predicted heatmaps under different distillation strategies
为衡量不同蒸馏策略下学生网络定位旋转框的精度,改变交并比阈值进行实验,检测精度随交并比阈值的变化曲线如图7所示。通常用AP75表示检测器的定位回归能力,可以看出基于点对点相似性度量的热度图蒸馏策略将AP75提升了2.54%。进一步融合前景区域引导的特征蒸馏策略,AP75从31.26%提升至34.86%,比加入未改进的特征蒸馏策略提升了1.44%。定位精度比教师网络AP75高1.15%,同时AP0.5:0.75能达到61.58%,同教师网络相当(61.48%),说明蒸馏后的学生网络充分迁移了教师网络训练旋转框检测器中特征层面和不同预测分支尤其是热度图分支的知识。
图7 不同蒸馏策略下不同IoU阈值下的检测定位精度变化图Fig.7 Changes of detection performance under different IoU thresholds of different distillation strategies
表3展示了近岸和远海场景下结合不同蒸馏方法时的指标比较。Baseline表示仅对偏置值、角度和框回归参数蒸馏的学生网络,AT fea[28],Mimic fea[29]为检测任务中经典的蒸馏方法,将其引入特征层次进行蒸馏。可以看出单独使用Mimic特征蒸馏或者均方差热度图蒸馏时,两者相对于未蒸馏学生网络性能提升程度相似(热力图的影响更大)。在改进的热度图蒸馏方法上结合不同的特征蒸馏形式后,本文方法在近岸场景下F1和AP值比结合AT fea蒸馏形式分别提升0.245和3.24%,即虚警和漏检相对较少。相对于Baseline蒸馏的学生网络,近岸场景下平均精度提升高达9.59%,远海场景下也有0.65%的提升。
表3 不同蒸馏方法在近岸和远海场景下的检测性能比较Tab.3 Detection performance comparison of different distillation methods under inshore and offsihore scenes
3.2.3 主流旋转框检测算法对比实验
在对基于关键点的旋转框检测方法进行改进高斯核设计,并引入前景注意力模块后得到基准教师检测网络,然后对骨干网络压缩的学生检测模型进行蒸馏,得到了本文最终的轻量化模型。为进一步验证所提算法的性能,将本文的轻量级检测器与其余基于旋转框的检测方法对比,主要分为双阶段、单阶段检测方法和其余无锚框检测方法。图8展示了HRSID数据集上由不同检测方法的准确率和召回率绘制的PR曲线,统一每个检测器的置信度阈值为0.1。
图8 HRSID上不同旋转框检测方法的PR曲线比较Fig.8 Precision-Recall curves comparison of different oriented detection methods on HRSID
从图8可以看出双阶段旋转框检测方法的平均精度整体优于单阶段和无锚框检测方法。本文所提方法与BBAV[30]和DAL[31]相比在高召回率下准确率更高,且蒸馏后的轻量化检测网络性能与教师网络性能接近。
表4展示了不同旋转框检测方法下的精度、模型参数量、检测速度等指标。测试时间为每张608×608大小切片输入网络后经过图像预处理、网络检测以及图像后处理的总时间,表中由此计算出帧率。可以看出蒸馏后的学生网络相比于其他基于关键点的检测方法BBAV,CenterNet-R等帧率高出近1.5倍。在保证检测精度的同时能达到较高的召回率,同时虚警较少,F1值达到0.809且AP值有0.8071。光学遥感图像上性能较好的双阶段检测器如RoI Transformer[32]以及Oriented-RCNN[33]等在SAR图像上效果一般,精度在76%左右,这是由于SAR图像中舰船目标所处场景更为复杂,和目标具有相似成像特性的岛礁、甲板等以及陆地强散射体的干扰会造成大量的虚警和漏检。而本文方法采取基于关键点的旋转框检测方法,考虑了目标的形状和方向角,同时结合了前景区域信息预测尺度,提高了召回率。同时进一步结合知识蒸馏策略压缩网络体积,能实现高精度条件下的轻量化检测。
表4 典型旋转检测器上的性能比较Tab.4 Performance comparison on typical oriented detectors
3.2.4 检测结果可视化
为了验证本文算法的改进效果,在HRSID数据集上选取了3幅近岸场景下的测试图像,这些图像中包含海岸、岛礁和港口等复杂场景,目标排列紧密,分布形式多样化且与陆地背景区分度较差。图9从左至右分别是基于RetinaNet的旋转框检测算法、BBAV、单阶段旋转框改进算法DAL和本文所提方法的检测结果。其中绿色框表示算法正确检测出的结果,红色框为虚警目标,黄色框表示漏检目标。从图9可以看出RetinaNet-R方法下的检测结果虚警、漏检较多。在舰船靠岸分布时,BBAV方法产生的漏检有所减少,但在陆地上仍存在不少虚警。DAL方法对第2行中长宽比大的高分辨率舰船均能正确检测,仅有一个虚警和漏检,但在陆地上仍存在部分散射强度高的建筑物构成的虚警。而本文所提方法对于密集靠岸分布的目标、停靠码头的大长宽比目标以及岛礁、陆地强散射体干扰场景下的目标基本能正确检测,虚警和漏检个数最少。
图9 不同旋转框检测方法下不同场景下的检测结果比较Fig.9 Detection results of different oriented detection methods under different scenes
3.2.5 大场景SAR图像下的迁移实验
为验证本文方法在复杂场景下SAR图像近岸舰船目标检测的性能,使用HRSID数据集上训练得到的模型对高分三号卫星SAR舰船目标数据集AIR-SARShip-1.0[34]进行泛化性测试。测试图像包含两幅近岸和远海场景下不同尺度的舰船目标,由于岛礁、码头和海岸的存在背景相对复杂,部分目标还存在散焦和十字旁瓣等强散射干扰。图10是两种算法迁移到该数据集上的检测结果。其中绿色框为算法检测结果,红色框中是错误检测的目标,黄色框表示漏检目标。由此证明所提出检测器具有较强的迁移能力,在不同传感器下的SAR图像上具有一定的泛化能力。对于1000 pixel×1000 pixel大小的大图输入,测试时间为1.84 s和1.96 s左右。在图10(a)和图10(b)上能达到0.650和0.632的F1值。可以看出远海目标均能正确检出,靠近码头的近岸目标基本都能检测到,但港口附近存在少许虚警和漏检。相较于其余检测方法,本文方法在保证检测精度的同时具有更高的实时性和部署灵活性。
图10 大场景图像迁移检测结果图Fig.10 Migration detection results on large scene images
4 结语
针对近岸目标易受复杂背景干扰和检测网络参数繁多难以部署的问题,本文提出一种基于CenterNet和知识蒸馏的SAR图像舰船目标旋转检测模型,能够较好地满足实时性解译对模型轻量化和检测高精度的需求。文中首先改进了基于关键点检测框架中的高斯核,结合目标的形状和角度信息生成旋转的椭圆高斯热度图区域。其次,为抑制复杂背景杂波对感兴趣目标的影响,使得模型更加关注前景信息,设计了前景区域注意力增强分支以监督目标尺度的回归。为进一步压缩模型容量且减少推理时间,引入了知识蒸馏策略,并将其应用于骨干网络特征、输出热度图以及检测头部的各回归参数中,完成教师模型知识的学习。通过结合近岸舰船周围背景复杂的特点,对目标热度图计算相似度改进蒸馏策略,同时结合前景区域掩模对上下文信息建模的特征图加以蒸馏。基于公开舰船数据集HRSID展开实验,最终能训练得到与教师模型性能相当(精度为80.71%)的轻量化学生检测模型(仅有9.07 M)。下一步工作中,将更加关注靠岸舰船目标检测,结合不同传感器下的SAR图像做网络结构优化,使得检测器的鲁棒性和适应性更强。