基于优化Mask-RCNN算法的遥感飞机目标检测

2024-03-01葛海婷杨铁梅

太原科技大学学报 2024年1期

葛海婷,杨铁梅

(太原科技大学电子信息工程学院,太原 030024)

遥感是一种远距离的探测技术,近年来卫星技术也愈发成熟,获得的观测数据也因遥感技术的成熟呈指数性增长,图像质量也在不断提升,高质量以及大规模的遥感数据正越来越多地进入人们的视野,并在多方面都发挥着越来越重要的作用,这使得人们对遥感图像处理技术的研究也愈发迫切。而在整个的遥感影像检测体系之中,飞机影像的检测一直是重要的研究目标[1]。

在过去,计算机的性能有限,传统的方法是采用手工设计精巧的特征以及分类器的方法进行数据训练、测试。比如圆周频率滤波法、边缘提取法、稀疏表示法等,但是这类传统的算法检测依靠人工设计的特征,过程复杂,耗费时间长,且检测结果精度不高,算法的抗干扰能力差,且一般适用于背景简单,有明显特征的图像,不适用于遥感影像的目标检测。

2014年,Girshick 等[2]提出R-CNN 算法,将卷积神经网络的概念引入到目标检测领域。而深度学习源于神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构,主要是通过堆叠的深层的网络结构,借助同类数据进行训练,使得整个网络获得对图像内容进行理解、判断和预测的功能,具备较强的学习能力,能够自动的准确高效的提取目标检测物的特征。基于深度学习的检测方法一般分为两种:一种是基于候选区域的方法,代表性的检测方法有Fast-RCNN[3]、Faster-RCNN[4]、Mask-RCNN[5],这类方法的运算量偏大,耗时长,但检测精度好;另—种是基于回归思想的方法,代表性的检测方法有YOLO[6]系列、SSD[7]等,这类检测方法的实时性会更好[8]。

在遥感图像目标检测中,由于高空拍摄,成像时覆盖范围广,导致的图像背景复杂,检测目标分布密集、尺寸小;同时,成像时容易受到光照、天气等因素的影响,使得图像质量较差,增大目标检测的难度。将现有的深度学习检测算法应用于遥感检测领域中时,可以完成大部分遥感图像的检测任务,但是在背景复杂、目标尺度小时,其检测精度仍然不高。因此,这就需要研究更加高效精准的检测方法。

针对目前的遥感图像检测算法在目标密集排列、背景复杂以及成像质量较差的图像上精度较低等问题,本文选用基于候选区域的目标检测方法,在Mask-RCNN网络的基础上进行改进。网络在ResNet特征提取的网络上添加多通道组卷积以及注意力机制,提高网络的检测精度,尤其针对背景复杂和小目标的检测;并在区域推荐网络中优化NMS非极大值抑制网络,提高物体目标的定位精度,从而提高遥感影像中飞机的检测精度。使其在对于目标图像的检测中,算法的精度以及处理速度均有一定程度的提升。同时也可以将本文算法拓展到其他检测领域,使其更具实用性。

1 Mask-RCNN的网络模型介绍

1.1 FPN特征提取网络

特征提取是目标检测中的基础,能否有效的提取到图片中的关键信息,直接影响到后续的检测结果。FPN特征提取网络使用ResNet深度残差网络进行,通过添加“shortcut”的连接方式解决梯度消失,并简化学习目标和难度。并在其中使用特征金字塔结构保留不同阶段生成的feature maps.

FPN特征提取网络实现了更好的feature maps融合。低层特征的feature maps分辨率高,包含更多的位置信息,细节信息,但由于卷积层数过低,语义信息差;高层特征的feature maps语义强,但是位置和分辨率都比较低,对细节的感知能力较差,容易检测不到比较小的物体。FPN网络将ResNet网络提取到的特征作为输入,结合特征金字塔网络,通过上采样方法将特征尺寸转换成对应大小,并通过自下而上、横向连接以及自上而下的连接方式在保留小目标的情况下,融合不同尺寸的特征,从而充分利用提取到的各个阶段的特征。

结构示意如图2所示:

图2 FPN特征提取网络

1.2 候选框筛选机制

RPN网络引入anchor的概念,依靠一个在共享特征图上滑动的窗口把feature map每个点映射回原图的感受野的中心点当成一个基准点,然后围绕这个基准点选取k个带有目标分类置信度的不同的尺寸和比例的锚框,之后网络使用NMS非极大值抑制算法依据目标的分类置信度以及瞄准框与真实目标的交并比(IOU)对锚框进行筛选,得出当前分类置信度最高的候选框。最后对筛选出的候选框使用softmax实现图像前景与背景的分类,以及对候选框进行边界框回归,修正anchor得到物体在图像中的位置。

1.3 评价指标

为了评价算法的检测性能,本文选择准确率(Precision)、召回率(Recall)以及平均精度(Average Precision,AP)对算法的性能进行分析。各指标计算公式如下:

(1)

(2)

(3)

上式中的各个字母的含义如表1所示:

表1 公式中的字母含义

2 目标检测网络模型的改进

文章针对遥感图像的特点以及自制数据集的需求对网络模型进行优化,使得改进后的算法对于遥感影像的检测具有较高的精度。其主要包括了两方面的改进:一是ResNet特征提取网络的改进;二是候选框的筛选机制NMS非极大值抑制网络的改进。

2.1 ResNet网络模型的改进

本文的检测目标为遥感飞机图像,需要识别的类别数较少,对网络层数的要求没有很高,对于网络的精度要求会更高一些。Resnest,即分割-注意力网络,在Resnet网络的基础上引入Split-Attention模块,用于替换ResNet中四个stage的conv,它保留了整体的 ResNet 结构,可直接用于下游任务,但没有增加额外的计算量。

入选标准：①2015年4月至2017年1月于北京同仁医院验光中心验配角膜塑形镜的近视青少年；②定期复查且随访时间超过6个月；③每个复查时间点均具有完整的数据资料。排除标准：①复查时间短于6个月；②随访资料数据不完整。

ResneSt网络的块结构主要在网络上做基于组卷积和通道注意力机制的改进,具体模型结构如图3所示。从图中可以看到,首先输入的特征图为h×w×c,第一步对输入进行分组,共分为k组,每组再进一步分割,分为r片。组内分割的特征图通道数为c/k/r,做1×1小卷积通道数不变,再做3×3卷积通道数变为c/k,将其得到r个特征图小组作为输入给分割注意力机制进行操作。

图3 ResneSt block结构图

分割注意力机制具体的结构如图4所示,首先将图3得到的r个特征图相加融合,而后对得到的特征图小组进行Global pooling操作,再经过归一化、激活以及后续的softmax操作,就可以得到修正后的channel权重向量,接下来的步骤与原算法类似,即将这一系列的操作输出与原始的特征小组相乘后对应元素相加便可得到此基数组的输出,最后将所有基数组连接起来得到操作输出,通过与shortcut配合就可以得到总的输出[10]。

图4 一个基数组内的Split-Attention

2.2 NMS的改进

NMS非极大值抑制,通过IOU的分数剔除重叠建议框,最终保留一个得分最高的建议框。但是大多数情况下很多分类标签置信度高的框的位置都不是很准,容易导致漏检、误检等情况。

文章在NMS算法的基础上引入了KL Loss,即采用softer-NMS[11]基于定位置信度并利用相邻的边界框来获得更好的定位效果。算法框架如图5所示,在原来的基础上添加了Box std分支,用于预测每个坐标的标准差,表征定位置信度。

图5 Softer-NMS框架

为了在定位坐标的同时可以输出定位置信度,使用高斯函数对预测框建模;由于GT框的位置是确定的,文章使用delta分布(标准方差趋近于为0的高斯分布极限)对GT框建模。具体如公式(4)、(5)所示:

(4)

PD(x)=δ(x-xg)

(5)

式(4)中x表示偏移前的预测框,xe表示偏移后的预测框,σ表示候选框位置的标准差,衡量了候选框位置的不确定性;式(5)中xg表示GT框。

引入KL loss用来衡量预测框与GT框的概率分布的接近程度,其值越小,接近程度越高。单个样本的损失函数如公式(6)所示:

(6)

由上述内容可知,当xe预测不准确时,网络希望σ2尽可能大,用以减小Lreg,相应的预测框与GT框的接近程度越差。通过删除式中不含σ2的项可以得到式(7).

(7)

(8)

经过网络的训练,输出部分会在原先的分类置信度、预测框的坐标基础上,得到预测框的四个坐标分别对应的标准差(定位置信度)。

网络针对重叠的检测框,根据分类置信度和位置置信度进行投票,重叠程度高且位置分布方差小的检测框权重大,重叠程度低抑或位置分布方差大的候选框权重小,从而获得更精确的检测框。

3 模型试验结果与分析

为了验证算法的改进部分在遥感影像飞机图像检测中的有效性,本文在自制的数据集上进行实验测试,并与原算法进行比较,根据得到的评价指标准确率、召回率以及评价指标来进行评判,具体如表2所示:

表2 自制数据集上的性能对比

从表2中可以看出,原算法在加上改进的特征提取网络后,准确率增加了2.3%,召回率增加了1.5%,平均精度增加了1.7%;继而增加NMS网络的改进后,较原算法而言,准确率增加3.6%,召回率增加3.9%,平均精度较原算法高4.2%,这表明了网络优化部分对于整体性能的提升是有效的。

同时,本文在自制的数据集上进行测试实验时,得到了mask算法和改进特征提取网络算法以及本文算法的Loss值曲线,从图6中可以看出,在经过多次迭代之后,损失变化趋于平缓,且误差方面较原算法均有了较好的提升。

图6 Loss值的对比图

为更直观的观察到检测结果,抽取自制数据集中的有代表性的部分测试结果如图7所示。第一行图像为测试集图像,中间行图像为原算法在自制数据集的检测结果,第三行图像为改进后的算法在相同数据集下的检测结果。其中图(a)为小目标图像密集排列,图(b)是由于光线太强造成图像曝光,图(c)是背景复杂,干扰信息较多,这三类情况均为遥感图像目标检测的重难点。对比这三组图像的检测结果,可以明显看到在原始的Mask算法下,三组图像均存在漏检,误检等现象,而在改进后的算法下,漏检、误检等现象有了明显的改善,检测精度更高,并且有良好的抗干扰能力,这表明了说明改进后的算法更有利于遥感飞机影像的检测。

图7 检测对比图

4 结束语

本文为提高检测精度,基于Mask-RCNN算法提出了改进的特征提取算法,在ResNet的基础上,结合多通道组卷积以及注意力机制进行改进,在区域推荐网络中基于NMS非极大值抑制,添加定位置信度优化ROI.根据实验结果可知,改进后的模型在检测精度、损失等方面均优于原算法,具有较强的抗干扰能力以及鲁棒性,更适用于遥感领域的目标检测。