基于视觉注意和语义信息特征融合的遥感图像目标检测方法
2024-06-07邹华宇王剑刁悦钦山子岐史小兵
邹华宇 王剑 刁悦钦 山子岐 史小兵
基金项目:国家级创新项目(批准号:KKPT202103005)资助的课题。
作者简介:邹华宇(1993-),高级工程师,从事深度学习、计算机视觉目标检测的研究。
通讯作者:王剑(1976-),副教授,从事图像处理、自然语言处理方向的研究,1528906057@qq.com。
引用本文:邹华宇,王剑,刁悦钦,等.基于视觉注意和语义信息特征融合的遥感图像目标检测方法[J].化工自动化及仪表,2024,51(3):379-387;395.
DOI:10.20030/j.cnki.1000?3932.202403002
摘 要 针对遥感图像目标检测方法中存在的特征提取不充分、语义信息表达能力弱、小目标检测准确率低和定位不准确的问题,提出了一種基于YOLOv5和Swin Transformer的改进策略。实验结果表明,与传统方法以及其他改进策略方法相比,文中的方法在公共数据集DOTA和自建数据集SkyView上均表现出更高的检测准确率,性能优势显著。
关键词 遥感图像目标检测 多尺度特征融合 坐标注意力机制 Swin Transformer
中图分类号 TP393.08 文献标志码 A 文章编号 1000?3932(2024)03?0379?10
目标检测问题作为计算机视觉工程的基础,是计算机视觉领域的核心任务之一,其在工业领域中具有巨大的实用价值,例如遥感影像分析、医疗健康检查等[1]。
遥感图像目标检测是指在遥感图像中自动识别和定位目标物体的过程,其应用范围广泛,涉及城市规划、农业、军事及国防安全等诸多领域。然而,遥感图像目标检测在实际应用过程中存在一些弊端:首先,遥感图像的目标物体往往比较小,且目标与背景之间的差异较小,增加了目标检测的难度;其次,遥感图像中存在大量的干扰因素,如云层、阴影及反射等,这些因素都会影响目标检测的准确性和效率;最后,在实际应用中还需要考虑到算法的实时性、鲁棒性等问题。因此,遥感图像的目标检测仍然是一项具有挑战性的任务。
在深度学习领域,卷积神经网络(Convolutional Neural Network,CNN)、Transformer等模型被广泛应用于遥感图像目标检测中。其中,基于CNN的网络在抽取底层特征方面(如针对小目标检测的RetinaNet[2]、针对旋转目标的检测[3]等)具有显著优势。与CNN相比,基于Transformer的检测技术能够实现更好的视觉建模,因为它无需像CNN一样手动设计卷积核大小、步长等超参数,通过自注意力机制[4]即可实现全局信息的交互和建模,能够更好地捕捉遥感图像中目标之间的关联性和上下文信息,从而提高目标检测的准确率[5,6]。
在此,笔者提出一种适用于遥感图像中小目标检测的网络模型,该模型基于Swin Transformer[7]和YOLOv5[8]网络的组合,通过引入坐标注意力机制(Coordinate Attention,CA)[9]和卷积块注意模块(Convolutional Block Attention Module,CBAM)[10],在减少网络计算开销的同时关注更大的区域。同时,通过改进K?means聚类算法,使其生成更适合遥感图像的锚框,从而提高检测结果的召回率并加快模型的收敛速度。
1 模型基础
1.1 YOLOv5
目前,主流的目标检测算法主要分为单阶段和两阶段两种策略。其中,基于候选框的两阶段方法例如R?CNN[11]、Faster RCNN[12]及Cascade
RCNN[13]等,其实现过程为:首先,对感兴趣的区域进行候选框获取,然后利用CNN网络生成对应的特征图,对候选框进行分类识别和边框回归从而完成目标检测。这类方法检测精度较高,但计算量较大,不适合实时应用。基于回归的单阶段方法如SSD[14]、YOLO系列等,此类方法将整个检测过程简化为一个回归问题,直接预测每个网格或锚点框内是否存在目标及其位置信息,这类算法通常收敛速度较快、计算复杂度较低、检测实时性较强。尤其是YOLOv5,其在计算速度和精度方面都具有显著优势。
1.2 Swin Transformer
自注意力机制通过对输入序列中不同位置的元素之间的关系进行建模,从而实现对全局信息的建模和提取。2017年,Google研究团队基于自注意力机制提出了Transformer[15]架构,随即在自然语言处理(Natural Language Processing,NLP)领域的序列建模、机器翻译等任务上显示出了巨大优势。随后,研究学者通过将CNN中成功的先验知识引入Transformer中,实现了局部性、层次化、多尺度、残差连接及归纳偏置等设计。2018年,文献[16]首次将Transformer应用于计算机视觉领
域。2021年,目标检测模型DETR和图像分类模
型[17]的提出成为了Transformer高速发展的开端,其中Swin Transformer是将Transformer引入目标检测领域的一次成功尝试。以上算法可通过直接比较所有位置或时间的特征来建立全局信息模型,在图像分类、目标检测、分割等任务中取得了良好的效果,为计算机视觉领域的各种问题提供了一种新的解决方案。
尽管Transformer模型在处理全局信息方面表现出色,但是它们可能会忽略一部分局部信息,对遥感目标不敏感,导致对小物体目标的检测效果不佳。为了获得更好的性能表现,笔者联合使用CNN和Transformer,并集成了Swin Transformer和YOLOv5网络,以提高模型的检测精度和鲁棒性。
2 网络模型的建立
2.1 网络整体架构
遥感图像目标检测方法结构框架如图1所示。其中,输入部分用于对图像进行预处理,以增强网络的鲁棒性、提高检测精度。在骨干网络部分,通过CBS、C3和SPPF(空间金字塔池化模
块)[18]3种结构从预处理的输入图像中提取丰富的特征信息。其中,CBS负责对输入特征进行卷积、归一化和激活操作;C3结构作为一个简化的瓶颈CSP,包含3个CBS层和多个瓶颈模块,有助于进一步提取特征;SPPF用于实现局部特征和全局特征的融合,提升特征表达能力。在骨干网络末尾,添加基于Swin Transformer的改进CSPDarknet53[19]网络,通过引入自注意力机制提高特征提取能力。颈部部分采用路径聚合网络(Path Aggregation Network,PANet)[20]結构进行特征融合,用于聚合骨干部分不同检测层的参数,实现自上而下的路径传递语义特征,自下而上的路径传递定位特征。此外,使用双向特征金字塔网络(Bi?directional Feature Pyramid Network,BiFPN)[21]将特征融合层扩展到4个尺度的检测分支结构,从而提高检测性能。在检测部分,使用CIoU[22]作为损失函数。与传统的IoU损失函数相比,CIoU损失函数同时考虑了边界框的重叠程度、中心点偏移和长宽比例差异,因此能够提高预测边界框回归的速度和精度。
网络整体架构是由多个模块组成的深度神经网络,用于识别图像中的物体并为它们提供分类标签(Class)和边界框(Bbox),并利用上采样(Upsample)和拼接(Concat)操作结合不同层次的特征,以提高模型预测精度。
2.2 K?means聚类算法的改进
锚框是一种常用的目标检测方法,用于在输入图像中生成一组候选区域。为了在具体的数据集上更好地匹配目标特征,需要考虑该数据集所有锚框的尺度分布情况,从而选取合适的锚框,以便稳定模型训练并加快收敛速度。YOLOv5使用K?means聚类算法来生成锚框。该算法的思想是将所有训练集的边界框分成若干簇,根据各簇的中心点生成锚框。然而,传统的K?means聚类算法存在一些缺点,例如需要手动确定K值即簇的数量,需要使用欧氏距离来度量边界框之间的相似性,这在长宽比不同的边界框中可能无法体现出它们之间的相似性。为此,笔者提出采用Elbow Method和Silhouette Method自动确定最佳K值,这将有助于选取更适合的锚框数量,从而提高模型性能;使用CIoU指数代替欧氏距离作为相似性指标,它综合了边界框的重叠程度、长宽比和中心点距离。CIoU损失L的计算式如下:
L=1-IoU++αv(1)
α=(2)
v=arctan
-arctan
(3)
其中,IoU代表交并比;ρ代表两个中心点之间的欧氏距离;b和b分别代表预测框和真实框的中心点坐标;c代表对角线长度;α代表长宽比失衡的惩罚项;v代表长宽比失衡程度;αv是一个常数,用于对误差进行惩罚;w、h与w、h分别代表预测框与真实框的宽度、高度。
使用CIoU指数作为相似性指标,可以更准确地度量边界框之间的相似性,从而在K?means聚类过程中得到更准确的锚框,这将有助于提高YOLOv5在目标检测任务中的性能。
2.3 引入注意力机制的特征加强网络
2.3.1 注意力机制
在目标检测任务中,模型需要对不同目标物体的特征进行不同的关注。如果模型对所有特征图的关注程度相同,则会影响模型的收敛速度。因此,如何快速且有效地提取重要特征对于模型至关重要。
CBAM(图2)是一种用于深度卷积神经网络的轻量级注意力模块,作为特征增强网络的输入,主要负责连接主干特征提取网络和特征增强网络,从而提高模型性能。CBAM主要包含两部分:通道注意力模块(Channel Attention Module,CAM)和空间注意力模块(Spatial Attention Module,SAM)。其中,γ、λ、ω是多层感知器中的权重参数,代表不同层的学习参数。通过这种注意力机制,网络能够更加专注于图像的关键区域,从而在图像分类、目标检测等任务中取得更好的结果。
在遥感图像中,小物体占用的像素较少,容易受到复杂场景的影响。因此,在CBAM的基础上增加一个CA模块(图3),用于增强对位置信息的关注度,这样能够以较小的计算代价在更充分的信息基础上学习表示,从而提高模型性能。
r——衰减率,用于减少参数; C——通道数;
H——特征图的高度; W——特征图的宽度
通过CA模块的加权相乘操作,神经网络可以更加有效地学习输入数据的关键特征,并提高模型在任务上的性能。具体实现步骤如下:
a. 将输入特征图分别送入两个分支,生成通道向量和位置向量;
b. 将位置向量和通道向量相互作用,生成一个加权的注意力矩阵;
c. 使用注意力矩阵对输入的特征进行加权,以生成最终的特征表示,并将其传递给后续的网络层进行分类或其他任务。
在此过程中,CA自适应学习不同坐标位置的相关性,从而增强特征表示能力。
2.3.2 双向加权特征融合
YOLOv5目标检测模型的Neck组件采用PANet结构以实现多尺度特征融合。然而,PANet结构在特征图融合方面使用相对简单的张量拼接方法,并未考虑不同尺度特征图对网络检测效果的影响。为了解决这些问题并提高特征融合的质量与效率,针对原特征金字塔网络的局限性,引入双向加权特征金字塔网络BiFPN(图4)。相较于PANet结构,BiFPN通过双向特征传递和特征加权机制可以实现高效的多尺度特征融合,并且可以在不损失检测精度的情况下大幅减少模型的参数量和计算量。
P~P——不同层级主干网络中不同分辨率的输出
首先,BiFPN删除了只有单个输入的节点,减少了一些冗余计算,从而提高网络的计算效率。其次,BiFPN在同一尺寸的特征图上增加了跳跃连接,使得特征融合时能够获得更多的特征;在特征融合方面,BiFPN选择引用权重对特征进行加权融合,从而提高了特征融合的质量、准确性和效率。最后,在权值归一化方面,BiFPN采用一种精度与softmax相近但速度比其快30%的归一化方法,进一步提高网络的收敛速度和计算效率。模型输出特征O的计算式为:
O=·I(4)
其中,I表示输入特征;ε是一个极小的值,为避免归一化计算中数值不稳定,ε通常设置为0.000 1;ω表示学习到的权重值,并用激活函数ReLU确保ω≥0。
改进的网络采用跨尺度连接和加权特征融合,将从主干网络提取的3种尺度不同的特征P、P、P作为输入。以P层为例,改进的特征融合计算过程如下:
P=Conv
(5)
P=Conv
(6)
其中,P表示“自顶而下”的中间特征;P表示“自底向上”的输出特征;Conv(·)表示卷积操作;Resize(·)表示对特征层尺度进行修改,即上采样或下采样;ω′、ω′、ω′表示不同输入特征层的权重,这些权重用于加权融合不同分辨率的特征层,在双向特征金字塔网络(BiFPN)中进行特征整合。
2.4 Swin Transformer模型
在计算机视觉领域,Transformer通过注意力机制捕获全局信息并建立目标的远距离依赖,从而提取更强有力的特征。然而,Transformer在实际使用过程中面临两大挑战:物体尺度变化大,图像像素点众多。在目标检测和语义分割等任务中,物体的大小可能在5%~95%甚至更大的范围内变化,在这种情况下,多尺度分层特征图是至关重要的。此外,对于像素点多的密集预测任务,若把像素点作为token,序列长度将变得极大,同时由于计算成本与图像大小的平方成正比,导致Transformer难以处理高分辨率图像。
为了解决上述问题,在连续的两个Swin Transformer Block(图5)中采用不同的MSA模块,其主要由归一化层(Layer Normalization,LN)、多
头自注意力模块(Multi?head Self?Attention,
MSA)、残差连接和多层感知机(Multi?Layer Perceptron,MLP)组成。其中,z表示输入或输出特征表示的序列,例如z表示第l-1层的输出特征(或第l层的输入特征),[z][^]表示第l层之后的特征表示。
首先,采用基于窗口的多头自注意力(Window?based Multi?head Self?Attention,W?MSA)模塊将输入图像分割为不重叠的窗口,每个窗口内的像素点或图像块(例如分割后的小尺寸图像块)将被视为独立的输入序列。然后,在这些窗口中进行局部自注意力计算,使模型具有线性的计算复杂度。该处理方式不仅降低了计算复杂度,而且引入了局部性先验,有助于处理物体尺度变化的问题。尽管W?MSA降低了自注意力计算的复杂度,但由于窗口间缺乏信息交互,难以提取图像的高层语义信息。为此,引入基于移动窗口的多头自注意力(Shifted Window?based Multi?head Self?Attention,SW?MSA)模块。SW?MSA通过连接上一层相邻但不重叠的窗口从而扩大感受野,捕获图像的高层语义信息。同时,在模型中连续使用两个或其倍数的Swin Transformer Block,以便交替使用W?MSA模块和SW?MSA模块,从而保证不重叠的窗口间可以实现信息交换,相邻窗口间能够进行信息传递,增强模型建模效果,解决全局特征缺失的问题。
针对大规模复杂场景的遥感影像YOLOv5特征提取过程中细节信息丢失的问题(例如LN层会破坏在CNN中使用时学到的样本特征),提出一种集成了CSPDarknet53和Swin Transformer的改进结构C3 SW?T。C3 SW?T可以扩展网络的感受野,提供更高的效率,更好地捕获全局信息,丰富上下文信息,可以更好地识别遥感目标。
3 实验结果与分析
3.1 数据集
采用DOTA数据集[23]和课题组自建数据集
SkyView来验证笔者所提模型的有效性。
DOTA数据集是用于遥感图像中目标检测的图像数据集,用于发现和评估航拍图像中的物体。DOTA数据集含有15类总计2 806幅航拍图,每张图像的像素尺寸范围在(800×800)~(4000×4000),涵盖不同尺度、方向和形状的物体。所有的训练和验证图像都被分割成640×640像素的块,并重叠150像素。
SkyView数据集有1 825张无人机航拍图像,涵盖了多种自然和人工环境,包括城市(图6a)、乡村(图6b)、森林、道路、建筑及农田等。图像采集自不同的飞行高度、航拍视角、城市、光照条件,单张图像中往往包含多种目标信息,其检测目标较小且易被遮挡。SkyView数据集使用Labelimg软件进行标注,每张图像配有一个对应的JSON文件,包含图像的基本信息、目标物体及场景描述。按照7∶3的比例随机划分训练集和验证集。
3.2 实验环境及参数设置
实验在Ubuntu系统下的深度学习框架PyTorch中进行,详细实验环境配置列于表1。
网络训练阶段使用SGD算法来优化损失函数,此外还采取了优化策略,例如预热训练、余弦退火、梯度累积和指数移动平均,具体设置见表2。
3.3 评价标准
模型训练完成后,使用训练好的权重对模型进行测试,从多个方面对模型进行评价。笔者选取以下指标评估模型的性能。
精确率P代表模型预测正类的准确性,表示被分类器判断为正例的样本中,实际为正例的比例;召回率R是正确检测到的对象数与所有标记对象数的比值,两者的计算式如下:
P=×100%(7)
R=×100%(8)
其中,TP为真阳性,表示被正确预测为正样本的数量;FP为假阳性,表示被错误预测为正样本的数量;FN为假阴性,表示被错误预测为负样本的数量。
平均精度均值mAP是综合考虑了不同类别目标的检测精度得分,是衡量目标检测算法性能的重要指标之一,它由精确率和召回率计算得到:
mAP=AP(9)
AP=P(R)dR (10)
其中,APi为类别序号取i时对应的精度值;n为类别数。
每秒帧数(Frames per Second,FPS)表示在推理过程中能够处理的图像帧数。
3.4 实验及结果分析
3.4.1 不同改进策略的性能对比
为了更全面地评估改进后YOLOv5的检测性能,笔者进行多组对比实验,比较不同改进策略(K?means聚类算法改进、加入坐标注意力CA模块、采用BiFPN架构、引入Swin Transformer模型)的效果,结果见表3。从表3可以看出,采用不同的改进策略后,YOLOv5的性能有了不同程度的提升。融合所有改进策略后,即本文方法使得YOLOv5的性能达到了最佳,mAP最高,达到了78.5%,相较于未做任何改进的原始YOLOv5s提高了5.2%,精确率P和召回率R分别增加了6.1%和11.0%,FPS也提升了10帧,可见改进策略在提高检测精度的同时还保持了较高的处理速度。
3.4.2 不同比例模型的效果对比
YOLOv5提供了4个不同比例的模型,分别为YOLOv5s(small,小型)、YOLOv5m(medium,中型)、YOLOv5l(large,大型)和YOLOv5x[24](extra large,超大型)。每个检测器会对模型的深度和宽度乘以不同的系数,以保持整体的结构稳定性,同时实现不同的比例和复杂度。然而,网络模型越复杂,并不代表检测准确性越好,反而可能会导致推理时间的增加。
为了验证笔者所提方法的优势,对不同比例的模型方法进行性能比较(表4)。由表4可以看出,笔者所提方法能够获得更高的精确率、召回率和mAP,同时保持较快的推理速度,这主要得益于Swin Transformer的计算效率优势。
3.5 消融实验
消融实验通过减少或增加模型中的某些模块进行算法性能检测,以评估各模块对算法性能的贡献和影响[25]。将改进的各模块进行组合,分别加入原始算法YOLOv5中,其中改進K?means聚类算法记为K,加入坐标注意力模块记为CA,采用双向加权特征金字塔网络架构记为BiFPN,引入Swin Transformer模型记为SW?T。
消融实验结果列于表5,可以看出,不同策略改进后的方法,其4项性能指标均高于原始YOLOv5s算法,验证了改进策略的有效性。
4 结束语
笔者提出了一种针对遥感图像目标检测的改进方法,结合了YOLOv5和Swin Transformer,有效提高了遥感小目标检测的性能。实验结果表明,笔者所提方法在DOTA和SkyView数据集上取得了显著的性能提升。尽管本研究取得了一定的成果,但仍存在进一步优化的空间。未来研究可以继续探索新的注意力机制、特征融合方法和网络结构,以进一步提高遥感图像目标检测的准确性和效率,探索Swin Transformer在其他领域的改进和应用。
参 考 文 献
[1] 杨锋,丁之桐,邢蒙蒙,等.深度学习的目标检测算法改进综述[J].计算机工程与应用,2023,59(11):1-15.
[2] XU Z, SU J, HUANG K.A?RetinaNet:A novel Retina Net with an asymmetric attention fusion mechanism for dim and small drone detection in infrared images[J].Mathematical Biosciences and Engineering,2023,
20(4):6630-6651.
[3] ZHU K, ZHANG X, CHEN G, et al. Multi?Oriented Rotation?Equivariant Network for Object Detection on Remote Sensing Images[J].IEEE Geoscience and Remote Sensing Letters,2022,19:1-5.
[4] YANG C L,WANG Y L,ZHANG J M,et al.Lite vision transformer with enhanced self?attention[C]//Proceedi?
ngs of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New Orleans,LA,USA,2021:11998-12008.DOI:10.48550/arXiv.2112.
10809.
[5] GAO P,ZHENG M H,WANG X G,et al.Fast convergence of DETR with spatially modulated Co?attention[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV).Montreal,QC,Canada,2021:3621-3630.
[6] DAI L H,LIU H,TANG H,et al.AO2?DETR:Arbitrary?oriented object detection transformer[J].IEEE Transactions on Circuits and Systems for Video Technology,2023,33(5):2342-2356.
[7] LIU Z,LIN Y T,CAO Y,et al.Swin transformer:Hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).IEEE,2021:10012-10022.
[8] 陈旭,彭冬亮,谷雨.基于改进YOLOv5s的无人机图像实时目标检测[J].光电工程,2022,49(3):210372?1-210372?13.
[9] HOU Q B,ZHOU D Q,FENG J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2021:13713-13722.
[10] LI H Y, RAZI A. MEDA:Multi?output Encoder?Decoder for Spatial Attention in Convolutional Neural Networks[C]//2019 53rd Asilomar Conference on Signals, Systems, and Computers. IEEE, 2019:2087-2091.
[11] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014:580-587.
[12] REN S Q, HE K M, GIRSHICK R, et al.Faster R?CNN:Towards real?time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[13] CAI Z W,VASCONCELOS N.Cascade R?CNN:Delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:6154-6162.
[14] WANG L, SHOULIN Y, ALYAMI H, et al.A novel deep learning?based single shot multibox detector model for object detection in optical remote sensing images[J].Geoscience Data Journal,2022:1-15.
[15] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems.Long Beach,CA,USA,2017:5998-6008.
[16] PARMAR N, VASWANI A, USZKOREIT J,et al.Image Transformer[C]//International Conference on Machine Learning.PMLR,2018:4055-4064.
[17] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16×16 words:Transformers for image recognition at scale[C]//International Conference on Learning Representations.ICLR,2021:1-21.
[18] HE K M,ZHANG X Y,REN S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[19] WANG C Y, LIAO H Y, WU Y H, et al.CSPNet:A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).IEEE,2020:390-391.
[20] LIU S,QI L,QIN H F,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:8759-8768.
[21] TAN M X, PANG R M, LE Q V.EfficientDet:Scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2020:10781-10790.
[22] ZHENG Z H, WANG P, LIU W, et al. Distance?IoU loss:Faster and better learning for bounding box regression[C]//AAAI Conference on Artificial Intelligence.Palo Alto,California,USA:AAAI Press,2020:12993-13000.
[23] XIA G S,BAI X,DING J,et al.DOTA:A large?scale dataset for object detection in aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:3974-3983.
[24] GE Z, LIU S T, WANG F,et al. YOLOX:Exceeding YOLO Series in 2021[J].2021.DOI:10.48550/arXiv.2107.08430.
(收稿日期:2023-04-28,修回日期:2024-03-25)
The Remote Sensing Object Detection Based on Visual
Attention and Semantic Information Feature Fusion
ZOU Hua?yua, WANG Jiana,b, DIAO Yue?qina, SHAN Zi?qia, SHI Xiao?binga
(a. Faculty of Information Engineering and Automation; b. Key Laboratory of Artificial Intelligence of
Yunnan Province, Kunming University of Science and Technology)
Abstract Considering insufficient feature extraction, weak semantic information representation, low detection accuracy for small targets and inaccurate localization in remote sensing object detection methods, an improved strategy based on YOLOv5 and Swin Transformer was proposed. Experimental results show that, compared with the traditional method and other improved strategy methods, the proposed method shows higher detection accuracy rating on the public data set DOTA and the self?built data set SkyView, and the performance advantage is significant.
Key words remote sensing object detection, multi?scale feature fusion, coordinate attention mechanism, Swin Transformer