APP下载

双向特征融合与特征选择的遥感影像目标检测

2022-04-18肖进胜张舒豪陈云华王元方杨力衡

电子学报 2022年2期
关键词:特征选择预测特征

肖进胜,张舒豪,陈云华,王元方,杨力衡

(1. 武汉大学电子信息学院,湖北武汉 430072;2. 广东工业大学计算机学院,广东广州 510006)

1 引言

卫星遥感影像目标检测在环境管理、区域规划等领域有着广泛的应用[1]. 光学卫星遥感影像目标检测,其特点是目标具有多尺度性、方向任意性,并且复杂的背景占据整幅图的较大区域[2],因此具有很大的挑战性. 作为深度学习代表算法之一的卷积神经网络在目标检测、图像转换[3,4]等领域上都取得了好的效果. 因为遥感影像目标的方向任意性与文本检测具有很大的相似性,许多遥感影像目标检测算法借鉴了RRPN[5]等文本检测算法的思想.

特征金字塔[6]被广泛应用到各种遥感影像检测算法中. 常规的特征金字塔中浅层特征传递到顶层需要经过多层的传递,信息丢失比较严重. 为了检测任意方向的目标,常规的思路是增加回归参数以预测角度[7,8],但是这种方法具有严重的边界问题. 文献[9]将IoU 常数因子添加到smooth L1loss 中用来解决旋转边界框的边界问题. 针对遥感影像目标检测面临的挑战,本文提出了一种新的遥感影像目标检测算法. 针对目标多尺度的特性,设计了双向多尺度特征融合网络,保留常规特征金字塔自上而下路径的同时,增加一条自下而上的路径,减少浅层特征传递到顶层过程中的信息损失. 针对遥感图像背景复杂的特点,设计了基于注意力机制的多特征选择模块,分别选择适合不同任务的特征. 针对遥感影像目标具有任意方向的特点,基于分类的思想对目标的角度进行预测. 当前开源遥感影像数据集中的图像主要来源于Google Earth,只有少量数据来源于国产数据,我们收集部分GF-2 和GF-6 影像自制了DOTA-GF数据集. 在DOTA[10]和DOTA-GF数据集上进行实验,与主流遥感影像目标检测算法进行对比,实验结果表明本文设计的算法具有一定的优势.

2 复杂背景遥感影像目标检测算法

本文提出算法的网络结构如图1所示,它包含四个部分:Backbone、双向多尺度特征融合网络、基于注意力机制的多特征选择模块和检测模块. 其中,A代表每个特征点上锚框的数量,W和H代表特征图的宽和高,C代表目标类别数量,K代表角度类别数量. 以ResNet50[11]作为网络的Backbone. 双向多尺度特征融合网络负责融合Backbone 输出的多尺度特征图,其具体细节如图2 所示. 融合后的特征图中含有复杂的背景信息,基于注意力机制的多特征选择模块可以选择适用于不同任务的特征. 最后将经过特征选择的多尺度特征图分别输入到目标类别预测子网络和边界框预测子网络中.

图1 本文算法网络结构

2.1 双向多尺度特征融合网络

在早期的目标检测算法,如Faster R-CNN[12]等,通常都是在Backbone 的最后一层的特征图来进行后续的分类和回归. 这种方式计算量较小,但是对于多尺度目标检测来说,仅仅使用单层特征图的信息无法进行有效的特征表达.2017 年何凯明等人提出了FPN[6],将高层特征和低层特征融合起来,利用多尺度融合特征图进行后续的检测.RetinaNet[13]也采用FPN 这种思想建立了特征金字塔,如图2 中虚线框所示. 因为要走自底向上的过程,浅层的特征传递到顶层需要经过多层网络,信息丢失比较严重.PANet[14]在FPN 中引入自下而上的增强结构充分利用网络浅层特征. 参考PANet 的思想,在保留原本自上而下的路径的同时,增加了一条自下而上的路径,缩小浅层特征传递到顶层时经历的网络层数,从而减少浅层特征损失,具体细节如图2 所示. 为了更好的检测遥感影像中的大尺寸目标,我们还引入了P6层和P7层.

图2中,1×1Conv代表利用1×1的卷积核进行卷积操作,用于改变特征图的通道数目.2×UpSample 代表利用双线性插值对特征图进行二倍上采样. 3×3/2Conv 代表利用3×3 卷积核,进行步长为2 的卷积操作,将特征图的尺寸缩小为原来的1/2. 3×3Conv 代表利用3×3的卷积核进行步长为1的卷积操作. 为了方便描述,用i和j表示特征图的层数,其中i={3,4,5},j={3,4,5,6,7}. Backbone 的输出为Ci,自顶向下特征融合后的特征图为Pj. 其中C5经过1×1 的卷积进行得到P5,C5经过二倍下采样得到P6,P6经过二倍下采样得到P7,C4与P5二倍上采样的结果融合得到P4,C3与P4二倍上采样的结果融合得到P3.Pj虽然同时融合了C3、C4、C5的信息,但是浅层特征传递到高层路径过长,特征损失严重. 因此,我们增加了一条自下而上的路径,如图2 黄色虚线.P3经过3×3 卷积操作得到P3'.P4经过3×3 卷积的结果与P3'二倍下采样的结果相加得到P4',然后以相同方式分别得到P5'、P6'和P7'.

图2 双向多尺度特征融合网络

以ResNet50为Backbone、RetinaNet 为基线网络,比较特征融合网络(FPN)和改进的特征融合网络(Improved-FPN)在DOTA[10]数据集上的实验结果,主要考虑飞机(PL)、船只(SH)、桥梁(BR)、小型汽车(SV)、大型汽车(LV)、存储罐(ST)这六种典型目标的AP(Average Precision)和mAP(mean Average Precision),实验结果如表1所示.

从表1可以看出,改进的特征融合网络可以显著的提升遥感影像典型目标的检测准确率. 其中船只的AP提升的最高为2.4%,那是因为数据集中的船只目标较小,浅层特征对检测结果影响较大,双向多尺度特征融合网络可以充分利用浅层特征. 存储罐的AP提升的最少为0.6%,6类目标的mAP提升了1.4%. 实验结果证明了改进的特征融合网络的有效性.

表1 特征融合网络改进的实验结果对比

2.2 基于注意力机制的多特征选择模块

卫星遥感影像中复杂的背景占据整幅图的较大区域,有时还会有云雾的干扰. 直接将融合不同尺度的特征图输入到后续检测网络中往往不能得到理想的结果. 我们设计了基于注意力的多特征选择模块(Multiple Feature Selection Module,MFSM),MFSM采用注意力机制,能对特征图中的特征进行选择,分别选择适用于目标类别预测和边界框预测的特征信息,降低特征图中无用信息对检测结果的影响.

在目标检测中,分类任务主要负责对目标类别进行预测,回归任务主要负责回归边界框的具体位置. 两个任务关注的区域有所不同,分类分数高的边界框可能在回归上不够准确,两个任务共用同一组特征图不能达到理想的结果. 我们设计MFSM 会生成两组特征图,一组用于目标类别预测,一组用于边界框预测.MFSM 采用注意力机制,分别选择适合于目标类别预测和边界框预测的特征对其进行增强,同时减弱无用背景信息. 用于目标类别预测和边界框预测的特征选择模块网络细节相同,如图3所示.

图3 多特征选择模块网络结构

网络输入是多尺度特征图Pj',输出是与输入维度相同的一系列特征图Dj. 对于输入的每一个Pj'的处理过程如式(1)、式(2)所示:

其中,Pj'通过四层3×3 的卷积得到φj(Pj').σ表示通过Sigmoid函数,将φj(Pj')中的值转化为0~1得到Aj. 最后将Pj'和Aj对应元素相乘,然后再与Pj'相加. 相乘操作可以使得有用信息区域中的值相对更大,无用信息的值相对更小. 相加操作则参考了残差网络[11]的思想.

如图4 所示是一有云雾干扰的遥感影像及其特征图可视化结果. 从上到下依次是多尺度特征图Pj',经过特征选择用于目标类别预测任务的特征图CL Sj,用于边界框预测任务的特征图RE Gj. 对于图4 中船只目标,其分辨率约为50×160,其映射到P5',P6'和P7'后,尺寸几乎减小为0,因此浅层特征对检测结果的影响更大. 图4 中的船只在P3'和P4'层的响应更大,与分析一致. 对比P3'P4'、CL S3CL S4、RE G3RE G4可以发现,经过特征选择后,特征图在有目标的区域具有更强的响应. 这证明了MFSM的有效性.

图4 带云雾影像特征图可视化结果

在RetinaNet 上加入多特征选择模块在DOTA 数据集[10]上进行实验,对比实验结果如表2 所示,与RetinaNet 相比,添加MFSM 模块后,6 类典型目标的检测精度都有明显的提升,提升幅度为1.2%~1.6%,mAP 提升了1.3%. 其中小型汽车的检测精度提升的最高,AP 提升了1.6%. 这说明本文设计的MFSM 能对特征图中的特征进行选择,分别选择适用于分类和回归的特征信息,降低特征图中无用信息对检测结果的影响.

表2 RetinaNet加多特征选择模块前后的实验结果对比

2.3 基于角度分类的目标方向准确获取

五参数法定义边界框存在严重的边界问题[9]. 本文将角度预测当作分类问题[15],将角度分为180 类别,并采用了圆形平滑标签(Circular Smooth Label,CSL)[15]对标签分布向量进行平滑处理.CSL如式(3)表示:

式(3)中r是窗半径,θ是当前Ground Truth的角度,每个Ground Truth 的圆形平滑标签是不同的.g(x)是窗函数,使用的是二维高斯函数,如式(4):

式(4)中a,b,c为常数,且a>0. 在本文实验中,a=1、均值b=0、标准差为窗函数半径c=6.

将RetinaNet 中的角度预测当作180 个类别的分类问题处理,并利用CSL 进行平滑,在DOTA 数据集上进行实验. 与RetinaNet 的对比实验结果如表3 所示. 从表3中可以看出,利用分类的方式处理角度预测可以明显提高检测效果,mAP 提高了2%.6 类典型目标中,船只、桥梁、小型汽车、大型汽车的AP 提高较多,分别为2.7%、2.2%、1.9%、3.2%. 那是因为这4类目标的长宽比较大,利用回归的方式进行角度预测存在更严重的边界问题. 对于飞机和存储罐这种长宽比接近1 的目标,其AP 也有一定的提升,AP 提升分别为0.8%和0.9%.实验结果证明了在RetinaNet中将角度预测当作分类问题处理,并利用CSL 进行平滑可以有效提升典型目标的检测效果.

表3 RetinaNet以分类和回归的方式预测角度的实验结果

2.4 损失函数

总的损失函数如下所示:

式(5)中,N代表网络产生的anchor box 的数量,t'n有两个取值,分别为0和1,当t'n等于0时代表背景,当t'n等于1 时,代表前景.v'nj代表预测的偏移向量.vnj代表真实的偏移向量.tn代表目标的标签.pn是该目标属于不同类别的概率.θ'n和θn分别代表预测的和真实的旋转框角度.λ1和λ2是权重因子,控制不同损失函数的权重,默认值都为1.Lreg代表Smooth L1Loss[12],Lcls代表的目标类别分类损失函数,Lclsθ代表角度预测使用的损失函数,使用的都是Focal Loss[13].

3 实验结果和讨论

实验用的显卡为GTX1660Ti,6 GB 显存,深度学习框架为Tensorflow,ResNet50 作为网络的Backbone. 分别在DOTA 和自制数据集DOTA-GF 上进行实验. 部分可视化实验结果如图5所示.

图5 一些典型目标的可视化检测结果

3.1 DOTA数据集

本文主要分析DOTA 数据集[10]中船只、飞机、桥梁、小型汽车、大型汽车、存储罐六类典型目标. 选择了CSL[15]、RRPN[5]、RetinaNet[14]、Xiao[7]主流算法进行对比,不同算法对比结果如表4所示.

表4 不同算法在DOTA数据集上的对比结果

表4 表明,本文方法的mAP 优于主流目标检测算法. 特别是飞机、船只、小型汽车、存储罐这四类目标,本文提出的算法获得了最高的AP. 另外大型汽车和桥梁的AP 仅次于最高.DOTA 数据集中的大型汽车放置的往往很紧密,相邻目标会有遮挡问题,这也是未来我们要研究的问题.

3.2 DOTA-GF数据集

目前公共遥感数据集如DOTA[10]中的遥感影像主要来源于Google Earth,只有少量数据来源于国产卫星数据. 因此我们收集了188 张高分二号(GF-2)和高分六号(GF-6)影像. 在DOTA中的训练集中加入138张国产高分影像作为DOTA-GF 的训练集,在DOTA 中的验证集中加入剩余50 张国产影像作为DOTA-GF 的测试集. 选择CSL[15]、RRPN[5]、RetinaNet[13]、R3Det[8]四种代表性目标检测算法进行对比实验,不同算法的检测结果如表5所示.

表5 不同算法在DOTA-GF数据集上的对比结果

从表5 中可以看出本文提出的算法在船只、桥梁、小型汽车、存储罐四类目标都获得了最高AP. 飞机和大型汽车的AP也接近四类算法的最高值. 其中飞机的特征明显、尺寸较大、检测起来比较容易,本文算法和R3Det 算法结果接近. 因为数据集中的大型汽车排列比较密集,相邻目标间存在严重的干扰,R3Det 在网络中增加了FRM(Feature Refinement Module)来实现特征对齐. 该模块在一定程度上缓解了相邻目标干扰的问题,但是增加了网络复杂度. 所以R3Det 检测大型汽车效果更好. 表6为R3Det和本文算法的耗时和模型大小对比,R3Det 的模型大小是本文算法的1.37 倍,推理速度也明显慢于本文算法. 实验结果表明,在自制数据集DOTA-GF上,本文提出的算法仍然有一定优势.

表6 R3Det和本文算法模型的耗时和模型大小对比

4 结论

遥感影像含有大量典型目标信息,高精度遥感影像目标检测算法应用广泛. 为此,本文设计了一种新的遥感影像目标检测算法,首先设计了双向多尺度特征融合网络,以解决多尺度目标检测问题. 针对遥感影像背景复杂,得到的特征图上含有许多干扰信息的问题,设计了基于注意力机制的多特征选择模块,利用注意力机制的思想,使得网络更加专注于特征图中的有用信息. 为了避免边界不连续问题造成的物体角度预测不准确的问题,我们利用分类思想处理角度预测问题.在DOTA 数据集和自制数据集DOTA-GF 上进行实验,对比实验结果验证了本文方法的有效性.

致谢本论文的数值计算得到了武汉大学超级计算中心的计算支持和帮助.

猜你喜欢

特征选择预测特征
根据方程特征选解法
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
离散型随机变量的分布列与数字特征
正交基低冗余无监督特征选择法
网络入侵检测场景下的特征选择方法对比研究
不忠诚的四个特征
基于特征聚类集成技术的在线特征选择