APP下载

融合上下文信息和注意力的遥感小目标检测

2024-02-20周华平

关键词:特征提取注意力卷积

周华平,张 杰

(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)

0 引言

伴随着深度学习的快速发展,小目标检测技术得到了高度认可,在军事、遥感、城市建设等领域发挥出巨大作用[1].小目标由于可辨识度较低,在图像中占比较少,导致特征信息不能充分利用,容易受背景影响等因素,相对于常规大中目标检测任务来说,现有的模型对小目标的检测精度一直不够高.因此如何对小目标进行有效的检测和识别,成为计算机视觉领域一个重难点.

在深度学习领域,目标检测任务算法主要分为两类:一种是以SSD[2]和YOLO[3]系列为代表的单阶段检测算法,这类算法有着速度的优势,但牺牲了精度;另一种是以Faster-RCNN[4]和Mask-RCNN[5]等RCNN系列为代表的双阶段检测算法,检测精度得到了较大提升,但网络参数比较大,导致检测速度劣于单阶段算法的检测速度.

在当前的目标检测任务中,由于小目标携带信息较少,容易受背景干扰等原因,导致现有的主流模型对于小目标的检测精度一直不高,由此一些学者开始关注于小目标检测任务,并作出了些许改进.跨层注意力网络(CA-Net)[6]改进了一种注意力网络,添加到模型里面,利用目标的上下文信息来辅助辨识小目标;Zhu等[7]使用大分辨率进行输入来获取更多有效信息,从而提升对小目标的检测效果;李文涛等[8]提出一种改进后的通道注意力融合机制,通过对不同通道小目标权重分配来增强小目标跟通道信息之间的联系,从而提高对小目标物体的检测结果;张寅等[9]对底层特征图当中的感受野进行融合,生成一种新的注意力,从而增加了对遥感小目标信息特征的获取.

受上述方法的启发,基于Faster-RCNN算法、ResNet50作为特征提取网络,引入特征金字塔,提出了一种融合上下文信息和注意力的遥感小目标算法,通过添加多尺度扩张卷积模块来增强模型的上下文特征,扩充遥感小目标信息,加入通道注意力机制来解决特征融合时带来的信息混淆问题,从而提升整个模型对遥感小目标的检测效果.

1 相关技术

1.1 Faster-RCNN算法

Faster-RCNN是一种基于候选区域的端到端的双阶段目标检测算法,建立在Fast-RCNN的基础上,加入新的区域建议网络(RPN),使用滑动窗口的方法,将各个特征区域生成相对应宽高比的锚框,然后就是对锚框进行输出类别分别和预测边界框,最后使用非极大抑制算法对预测的结果进行选择,得到所需要的候选区域.Faster-RCNN算法作为双阶段算法的典型代表,相比较于单阶段网络,检测效果更加精准,在小物体目标的检测上有明显优势,同时Faster-RCNN算法有更广阔的优化空间,其总体框架如图1所示.

图1 Faster-RCNN总体框架

Faster-RCNN网络模型是由特征提取模块、区域提议网络、感兴趣区域池(ROI Pooling)层和分类回归层四部分组成,其算法的主要流程是先输入待检测的图片,获得所需要的特征图,然后将特征图再送到区域建议网络生成预选框,将得到的预选框和特征图都传到ROI Pooling层,再从预选框中挑选出最符合特征图的候选框,最后将候选框送入分类回归层得到输出类别和回归参数.这就是整个算法的检测流程.

Faster-RCNN训练时的损失函数为

Faster-RCNN的损失函数由回归损失和分类损失两个函数构成,回归损失可表达为

分类损失表达为

1.2 特征金字塔

特征金字塔(feature pyramid network,FPN)在当前主流框架中使用较多,图2包括自上而下、自下而上和横向连接操作.自下而上是信息的正向传导过程,而自上而下过程是对更形象,包含更多语义信息的高层特征图进行上采样操作,然后将其与左侧的特征图进行水平连接,从而增强更多的特征信息.由于每一层预测的特征图包含不同的分辨率大小和多种特征强度的语义信息,于是可以在不大幅度增加检测时间的同时提高小目标的检测精度.

图2 特征金字塔结构

改进后模型的主干网络使用ResNet50,如图2左侧所示,通过卷积得到每个层的特征图,记作C2—C5,自顶向下的意思是采用上采样的方法将高层特征图所拥有的特征图扩大到与下一层相同大小的特征图,这样就可以将低层特征图的信息和高层特征图的信息相结合在一起,更加有效地使用特征信息;而横向连接的可以直接将下采样后的P5和C4进行相加,最后通过3×3卷积消除上采样过程带来的信息混淆的影响,从而得到最后的特征图.

2 改进后的网络模型

特征金字塔将高层特征图所包含的语义信息和低层特征图所携带的位置信息相结合,其目的仍然是为了提高对小目标信息的检测效果,但P5仅通过C5得到,而高层特征金字塔主要负责处理大中型目标,这会让小目标信息容易被忽略,从而导致对小目标的检测效果不佳;为更好地解决上面所提出的问题,本文提出了一种新的网络模型,该模型结构如图3所示.多尺度扩张卷积模块(Multi-scale Dilation Convolution Module,MDCM)融合多条感受野特征信息,从而获得丰富的上下文特征,以便扩充更多的遥感小目标信息,通道注意力(Channel Attention Guided,CAG)[10]可以有效地减少特征融合过程中带来的信息混淆等影响,防止遥感小目标信息被信息混淆以及冲突淹没.

图3 改进后模型的总体网络结构

2.1 多尺度扩张卷积模块

针对特征金字塔的浅层特征图含有较少的语义信息以及融合过程中部分信息损失等问题,由于小目标有着携带信息较少,容易被忽略等特征,因此对于小目标检测需要丰富的上下文信息,提出了一种多尺度扩张卷积模块MDCM,如图4所示.此模块一共有5个分支,其中4条分别是由扩张率大小为1、3、5、1的扩张卷积构成,其作用是通过扩大感受野从而捕获更多遥感小目标的语义信息,最后一条是为了与输入特征图相融合,保留最初的细节信息,最后通过特征融合将含有不同感受野的上下文信息注入特征金字塔当中,让特征信息得到更加充分的利用.

图4 多尺度扩张卷积模块结构

多尺度扩张卷积模块的公式为

Y=Add(X,Y′).

其中:Y表示最后输出的特征图;X表示输入的特征图;Y′表示经过扩张卷积处理过后的特征图;Add表示按位相加;Y′=Conv[Concat(x1,x2,x3,x4)],其中:x1、x2、x3、x4分别表示经过扩张率为1、3、5、1的扩张卷积后生成的特征图,Concat是将前面经过扩张卷积后生成的特征图进行连接.

2.2 通道注意力模块

不同尺度的特征图之间有着信息差异,直接对它们进行融合操作或许会造成语义混淆等问题,为了减轻特征融合过程带来的信息混淆问题,一个最直观的方法是在特征金字塔当中添加注意力机制,即加入新的注意力机制CAG,如图5所示.通道注意力机制CAG有两个分支,第一条对输入的特征图形采取最大池化方式处理,另外一条则采取平均池化方式,各自对特征信息进行处理分析,之后继续转入到全连接层,最后经过逐元素求和跟Sigmoid激活函数获得所需要的注意力权重.CAG对最后输出的特征图操作处理,这样做便于处理特征金字塔特征融合过程中带来的信息混淆,容易导致错检、漏检,减少复杂背景以及冲突对检测的影响,从而使模型更加关注我们所需要的部分,这对于遥感小目标的检测能力提升是非常有帮助的.CAG注意力机制的公式可表示为

图5 CAG注意力模块结构

CAG(X)=σ(fc1(Avgpool(x))+fc2(Maxpool(x)),

Ri=CAG(I)⊙Pi.

其中:CAG( )代表通道注意力函数;σ表示为Sigmoid函数;fc指的是全连接操作;i表示特征金字塔得到层数;Pi代表特征金字塔的输出结果;Ri表示经过注意力机制后最终的输出结果.

3 实验结果与分析

3.1 实验平台与数据集

该算法模型采用的是基于深度学习框架,初始学习率是0.01,batch_size选定是8,其他参数信息如表1所示.

表1 实验配置

实验选用中国科学院发布的高分辨率遥感公开数据集HRRSD[11],总共有21 761张图片,13个种类,依次是飞机、棒球场、篮球场、桥梁、十字路口、田径场、港口、停车场、船、存储罐、丁字路口、网球场、汽车,其中大部分类别在图像中以排列密集的小目标分布,非常适用于验证改进后的算法对小目标检测结果的评估;对于数据集划分,选择25%的图像进行训练,25%的图像进行训练期间评估,另外50%用于测试.

3.2 评价指标

改进后算法模型的评价指标是目标检测领域常用的平均精度均值(Mean Average Precision,MAP),代表所有类别检测结果(Average Precision,AP)的平均大小;(Frames Per Second,FPS)表示每秒钟可以检测多少张图片.对于AP的定义通常为

3.3 数据增强处理

数据增强技术一直广泛应用于各种目标检测模型当中,其目的是扩充数据集,增加训练的样本,以此来提高模型的泛化能力和鲁棒性.针对遥感数据集当中物体大小、方向多有不同的原因,对数据集进行简单的水平翻转、垂直翻转操作.为了验证数据增强对实验结果的影响,在相同条件下,对垂直翻转、水平翻转两种方法进行了对比,实验结果如表2所示.

表2 数据增强对比结果

从表2结果发现,水平翻转和垂直翻转这两种方法都能一定程度上提高模型的检测性能,而两种数据增强方法共同使用让模型的检测效果达到最佳,验证了数据增强的有效性.

3.4 实验结果分析

3.4.1 特征提取网络和FPN对比

特征提取网络的优越性对于模型检测性能的好坏和分类结果有着直接的影响,为了证明改进后模型对于遥感小目标的检测效果,在参数相同的情况下做了多组对比实验,首先验证了ResNet50特征提取网络与传统VGG16,其次验证了加入FPN之后的变化,实验结果如表3所示.

表3 特征提取网络对比和FPN引入结果

从表3可以看出,两种特征提取网络中,ResNet50表现出来的性能优于VGG16,达到82.7%,比VGG16高出1.2%,其中各种类别的检测精度也有不同大小的提升,表明在Faster-RCNN模型中,ResNet50特征提取网络对遥感小目标的检测效果优于VGG16;在引入FPN之后,算法模型的检测精度值比之前提高了3%,比只更换ResNet50网络提高了1.8%,大部分小目标类别的检测结果较好,验证了更换特征提取网络和引入FPN的有效性.

3.4.2 注意力机制对比

引入注意力机制的作用是更好地减少特征融合过程当中带来的信息混淆等影响,减少复杂背景以及冲突对小目标的影响,增强模型对小目标的检测能力.本实验一个选取三种注意力机制,分别为CAG、ECA-Net[12]、SENet[13],在实验环境相同的条件下,探讨不同注意力机制对模型检测结果的影响.实验结果如表4所示.

表4 不同注意力机制对比结果

从表4可以看出,三种注意力机制最后的结果CAG取得最高的精度,其FPS也达到了19.5,高于另外两种,源于CAG注意力机制优化各层最后的输出特征,在少量计算负担的条件下减轻混淆影响.综合考虑,选用CAG机制来处理特征融合过程中的信息混淆等影响.

3.4.3 不同模型检测结果对比

为了验证改进后的算法模型对遥感小目标的检测效果,选用Faster-RCNN、RetinaNet[14]、CenterNet[15]、YOLOv5[16]和MSHEMN[17]算法进行对比,数据集选用HRRSD,最终结果如表5所示.

表5 不同模型检测结果对比

表6 消融实验结果

从表5可以看出,改进后的算法与传统的Faster-RCNN算法相比,MAP较改进之前提升了5.4%,其中例如汽车、存储罐、飞机、网球场等等遥感小目标的检测结果都有不错的提高;跟RetinaNet、CenterNet、YOLOv5和MSHEMN算法相比,MAP分别提升了3.5%、1.6%、2.9%、0.8%,其中如飞机、棒球场、港口和车辆等目标种类的检测效果较好,进一步验证了改进后算法的优越性.

图6展示了Faster-RCNN算法模型在改进前和改进后对于同一背景下小目标物体的检测效果,改进前的算法模型存在的漏检情况比较严重,改进后的算法模型对于漏检情况得到了较大提升,再次证明了改进后算法模型的优越性.

图6 检测效果对比

3.4.4 消融实验

为了证明添加的多尺度扩张卷积模块和通道注意力机制对遥感小目标的检测效果,在HRRSD数据集上完成了消融实验.选用特征提取网络为ResNet50加FPN的Faster-RCNN算法,作为基线网络,检测精度值为84.5%;当加入多尺度扩张卷积模块后,模型可以检测到更多的遥感小目标信息,从而检测精度值提高了1.2%,但相应处理图片速度的FPS从21.9降到20.8;而加入通道注意力机制CAG后,原有的特征融合过程带来的信息混淆得到了缓解,避免了更多的遥感小目标信息在信息混淆以及冲突中被淹没,最终检测结果提升了1.3%,FPS相应降低1.4;当两个模块同时加入时,模型的检测效果较好,为86.7%,较基线模型提升了2.2%,FPS为19.5,基本可以满足实时检测对速度的要求.

4 结论

针对Faster-RCNN算法对遥感图像中小目标检测存在漏检、检测精度不高等问题,提出一种融合上下文信息和注意力的遥感小目标检测算法.用ResNet50作为特征提取网络替换VGG16,来加强模型对小目标信息的提取;引入FPN,添加多尺度扩张卷积模块来增强对遥感小目标信息的扩充,使用通道注意力机制来减少信息混淆的影响,以防止遥感小目标淹没在混淆信息中.结果表明,改进后的模型对遥感小目标漏检有较好改善,检测精度也有明显的提升.在未来的工作中,将继续深入对特征网络和FPN的研究,从而提高现有的算法模型对遥感小目标的检测效果.

猜你喜欢

特征提取注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
Bagging RCSP脑电特征提取算法
A Beautiful Way Of Looking At Things
基于MED和循环域解调的多故障特征提取
一种基于卷积神经网络的性别识别方法