APP下载

改进锚点框与融合多尺度特征的光学遥感目标检测

2021-09-07王志欣万绍俊马晓莹

无线电工程 2021年9期
关键词:锚点尺度聚类

王志欣 ,万绍俊 ,马晓莹*

(1.国家无线电监测中心,北京 100037;2.深圳大学 电子与信息工程学院,广东 深圳 518000)

0 引言

遥感技术是人类探索地球的有效手段之一。近年来,随着各国发射光学遥感卫星的数量逐年增长[1],光学遥感图像来源愈发丰富。同时,随着以深度卷积神经网络[2]为代表的深度学习技术的发展,基于深度学习的光学遥感图像目标检测算法发展迅速。

Chen等人[3]通过改进HDCNN网络,实现了光学遥感图像中的汽车目标检测;Feng等人[4]通过在R-CNN中引入运动信息实现了小目标的有效检测;Yao等人[5]首次将Faster R-CNN算法应用于遥感图像检测,相较于传统遥感检测算法其检测精度有明显提升;Li等人[6]针对遥感图像中目标方向变化问题,在Faster R-CNN的RPN模块中加入多角度锚点框,有效地解决了遥感图像中目标方向多变的问题;Wang等人[7]通过优化RPN模块并应用于检测机场、操场等基础设施,得到了较好结果;Li等人[8]在Faster R-CNN基础上加入类型先验网络(CPN),实现了自适应的目标检测;Cheng等人[9]提出的RICNN网络基于旋转不变层实现,也在一定程度上解决了遥感图像中目标方向多变的问题;Liu等人[10]构建的基于旋转区域的RR-CNN网络,提出了基于旋转边界框的旋转感兴趣区域池化层,并添加了多任务损失以学习每个候选区域的非极大值抑制分数;Wang等人[11]和Cui等人[12]在FCN算法上进行了改进,分别在舰船和油罐检测上取得了良好效果;Yang等人[13]通过构建稠密特征金字塔,利用稠密连接自上而下地生成信息丰富的融合特征,以提升舰船目标检测精度;Guan等人[14]提出了胶囊特征金字塔,提高了道路网络的检测精度。综合来看,目前基于深度学习的光学遥感图像检测算法尽管取得了一定效果,但光学遥感图像存在目标尺度变化大、小目标众多、目标排布密集和目标方向任意等检测难点,基于深度学习的光学遥感图像检测仍然存在很大的改进空间。

为实现光学遥感图像目标的精确检测,本文针对光学遥感图像目标尺度变化大、小目标众多的检测难点,提出了一种基于锚点框改进与多尺度特征融合的光学遥感图像检测方法。算法以YOLOv4[15]为基础架构,选取CSPDarknet53作为主干网络。首先采用K-Means++聚类算法对数据集目标样本聚类,以得出更加贴合目标样本实际尺度的预设锚点框,相较于原始预设的锚点框,改进的锚点框充分利用了数据集中的先验信息。然后,在原网络的Feature Pyramid Network + Path Aggregation Network (FPN+PAN) 特征融合结构基础上增加了一条特征融合线路,获得更大尺度、更高分辨率的融合特征层,有针对性地提升了检测算法对于小目标物体的敏感程度。最后,在网络颈部构建了多空间金字塔池化结构以扩充网络感受野,增加主干特征接收范围,实现不同尺度的特征融合,以应对遥感图像目标尺度变化范围大的检测难点。

1 锚点框改进设计

与YOLOv4采用K-Means聚类算法获取先验锚点框不同,本文算法采用K-Means++聚类算法获取先验锚点框。K-Means算法收敛速度快,且易于实现,但聚类效果受K值选取影响较大。K-Means++算法针对这一问题,优化了聚类中心选取步骤。

为了获得与目标边界框相似程度高的先验锚点框,本文算法使用基于目标框与预测框交并比的距离公式,通过K-means++算法聚类出更加符合光学遥感图像数据集特点的先验锚点框。基于目标框与预测框交并比的距离为:

(1)

Dist(box,centroid)=1-IoU(box,centroid),

(2)

式中,IoU(box,centroid)为目标框与聚类中心框的交并比,交并比越大则距离越小。

2 多尺度特征融合网络设计

设计特征融合模块时,在FPN结构基础之上使用了调整的PAN结构对特征进行加强。FPN+PAN结构示意如图1所示。

图1 FPN+PAN结构示意Fig.1 Schematic diagram of FPN+PAN structure

在FPN层之后增加了一个Bottom-Up金字塔结构,在该结构中包含3个PAN结构。当输入图像尺寸为608 pixel×608 pixel,经过FPN层能得到152 pixel×152 pixel,76 pixel×76 pixel,38 pixel×38 pixel,19 pixel×19 pixel四种不同尺度的融合特征。需要注意的是,使用的PAN结构是对原始特征直接相加进行连接(Concat)操作。此外,并不直接使用FPN层输出的特征图进行预测,而是只将152 pixel×152 pixel尺度的特征作为预测特征,并通过其余3个PAN结构输出另外3种尺度预测特征。

经过FPN+PAN结构产生的4种尺度预测特征同时具备了低层特征位置信息丰富与高层特征语义信息丰富的优点。新增的152 pixel×152 pixel预测特征更加有利于小尺度目标检测,也能更好地解决遥感图像小尺度目标数量多的检测难点。

设计特征融合模块时,还添加了Spatial Pyramid Pooling(SPP)模块并将其设置在主干网络之后,具体做法是将输入特征分别通过池化核大小为1 pixel×1 pixel,5 pixel×5 pixel,9 pixel×9 pixel,13 pixel×13 pixel的最大池化层进行下采样,再将这些经过池化,具有相同维度的特征矩阵沿深度方向拼接。池化层步长设置为1,填充方式和输出特征图尺寸计算如下:

padding=(k-1)/2,

(3)

(4)

式中,k为池化核尺寸;n为输入特征尺寸;p为填充大小;s为步长大小。

SPP模块结构如图 2所示,假设输入特征图深度为512,经过最大池化并进行特征拼接后,输出特征图深度为原来的4倍,即2 048。在原YOLOv4算法中,只在第一个预测特征层之前添加了SPP模块,本文算法分别在4个预测特征层之前都添加了SPP模块。

图2 SPP模块结构示意Fig.2 Schematic diagram of SSP module structure

SPP模块主要起到扩充感受野、增加主干特征接收范围及实现不同尺度的特征融合作用。

3 实验步骤

本文算法采用Mosaic数据增强方式[15]。损失函数分为预测框回归损失、置信度损失和分类损失三部分,其中置信度损失和分类损失部分与YOLOv3相同,而对于预测框回归损失则采用Complete IoU Loss (CIoU Loss)[15],CIoU Loss作为IoU Loss的改进版,其性能要优于MSE Loss、GIoU Loss等多项损失函数。

本文选取武汉大学发表的DOTA遥感数据集[16],将该数据集的1/2划分为训练集,1/6划分为验证集,1/3划分为测试集。由于检测模型输入图像尺寸是固定的,而原始图像尺寸大小不一,在网络训练前,原始图像按照200 pixel重叠的方式分割为多个子图像,子图像尺寸调整为608 pixel×608 pixel。输入图像尺寸统一为608 pixel×608 pixel,网络使用SGDM梯度优化算法,动量设置为0.9,衰减系数设置为0.000 1,初始学习率设置为5×10-4,每经过50次迭代学习率降为原来的1/10,训练遍历数为300。

本文算法总共设置3组实验,分别验证锚点框优化策略的有效性、网络结构改进策略的有效性,同时将改进算法与主流检测算法做性能对比。

(1) 对比了采用原始锚点框的YOLOv4算法与采用经K-means++聚类优化锚点框的YOLOv4算法在DOTA数据集上的表现,除锚点框设置不同,其余设置包括输入图像尺寸、训练超参数和数据增强方式等完全相同。

(2) 以包含三尺度预测特征结构及单SPP模块的YOLOv4+为基准,分别构建YOLOv4-4模型、YOLOv4-SPP3模型和YOLOv4-4-SPP4模型。三尺度特征层的尺度分别为19 pixel×19 pixel,38 pixel×38 pixel,76 pixel×76 pixel,四尺度特征层的尺度分别为19 pixel×19 pixel,38 pixel×38 pixel,76 pixel×76 pixel,152 pixel×152 pixel。单SPP模块位于特征图尺寸为19 pixel×19 pixel的主干网络后,多SPP模块分别位于网络的各个上采样层之后。其中,YOLOv4-4相较YOLOv4+增加了152 pixel×152 pixel尺寸的特征预测分支;YOLOv4-SPP3总共包含3个SPP模块,相较YOLOv4+增加了2个SPP模块(分别位于第一次、第二次上采样之后);YOLOv4-4-SPP4总共包含4个SPP模块,相较YOLOv4+增加了152 pixel×152 pixel尺寸的特征预测分支和3个SPP模块(分别位于第一次、第二次和第三次上采样之后)。以上检测模型除了相应结构做出调整,其余设置完全相同(均使用优化锚点框)。

(3)选取目前主流的检测算法与本文算法做性能对比,选取的对比算法包括通用目标检测算法SSD、Faster R-CNN和旋转目标检测算法R2CNN[17]、RRPN[18]。

实验硬件环境为Dell Precision 7920T塔式工作站,硬件参数如表 1所示;软件环境基于Linux系统和TensorFlow深度学习框架,具体配置如表 2所示。

表1 硬件环境配置Tab.1 Hardware configurations

表2 软件环境配置Tab.2 Software configurations

4 实验结果

4.1 锚点框优化策略有效性验证

锚点框改进策略有效性验证结果如表 3所示。在15个类别目标中,YOLOv4+有11个类别准确率高于YOLOv4(相差小于0.5%认为准确率近似),在船舶、港口目标上的提升幅度可观,准确率平均增长约4%。实验结果表明,使用K-means++聚类的锚点框更能反映遥感图像目标真实形状特点,在船舶、港口等具有大长宽比的物体检测中具有明显优势。

表3 锚点框改进策略平均精度验证结果Tab.3 Averageprecision for models with and without anchor frame 单位:%

4.2 网络结构改进策略有效性验证

各检测模型在数据集上的PR曲线如图3所示。

图3 各检测模型在数据集上的PR曲线Fig.3 Precision-Recallcurve for detection models

由图3可以看出,相较于本组实验基准算法YOLOv4,各项改进模型在PR曲线上的总体表现均优于基准算法,其中YOLOv4-4-SPP4模型表现最佳,其余YOLOv4+、YOLOv4-4和YOLOv4-SPP3模型也取得了不同程度的提升。

网络结构改进策略平均精度验证结果如表4所示。

表4 网络结构改进策略平均精度验证结果Tab.4 Average precision for different improved models 单位:%

以YOLOv4+算法70.99%的mAP50为对比基准,含有四尺度预测特征结构的YOLOv4-4的mAP50为72.81%,提升约1.8%;含有四SPP模块结构的YOLOv4-SPP3算法mAP50为72.46%,提升约1.5%;同时含有四尺度预测特征结构和四SPP模块结构的YOLOv4-4-SPP4算法mAP50为73.74%,提升约2.8%。另一方面,在所有目标类别中,2种改进策略提升最为明显的是小型车辆、泳池和飞机这几类在图像中尺寸偏小的目标,尤其是对于小型车辆目标平均检测精度提升约6%,而对于常规尺寸目标的提升幅度较小。

实验结果验证了2种网络结构改进策略的有效性,增加预测特征尺度及在网络颈部增加SPP模块数量都能够提高遥感图像目标的检测精度,对于小目标检测精度的提升更加明显。

4.3 改进检测模型与现有检测模型性能对比

本文所提出的YOLOv4-4-SPP4与上述算法在DOTA数据集上的表现对比如表 5所示。本文算法在飞机上的实际检测效果如图 4所示。

表5 不同算法在DOTA数据集上的平均精度结果Tab.5 Average precision on DOTA dataset for different algorithms 单位:%

图4 本文算法对于小尺度目标检测效果Fig.4 Small target detection results using the proposed algorithm

本文所提出的YOLOv4-4-SPP4算法得益于基准算法YOLOv4的先进性以及针对小目标检测改进策略的有效性,无论是总检测精度还是15个目标类别检测精度,在5类算法中均为最高。

在各类遥感场景中,本文算法漏检率最高的是密集停靠的船舶与密集停靠的车辆场景,主要是由于本文算法为水平框检测算法,而使用水平框对朝向任意、密集排布的目标进行预测时,框与框之间的重叠程度高,引入过多与目标无关的背景信息从而导致误检率提升。

5 结束语

针对目标尺度变化大、小目标众多的检测难点,本文提出了一种基于锚点框改进与多尺度特征融合的光学遥感图像检测方发。通过对3组实验结果数据的定量分析,还有对实验检测效果图的定性分析,证明了上述改进策略的有效性,也验证了本文算法能够在一定程度上解决光学遥感图像由于目标尺度变化范围大、小目标众多所导致的检测精度低的问题。本文算法对于密集停靠的船舶与密集停靠的车辆场景还存在漏检率高的缺点,在未来的工作中将进一步改进。

猜你喜欢

锚点尺度聚类
基于NR覆盖的NSA锚点优选策略研究
5G手机无法在室分NSA站点驻留案例分析
5G NSA锚点的选择策略
财产的五大尺度和五重应对
5G NSA组网下锚点站的选择策略优化
基于K-means聚类的车-地无线通信场强研究
基于高斯混合聚类的阵列干涉SAR三维成像
宇宙的尺度
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法