APP下载

复杂场景下基于改进YOLO算法的遥感图像目标检测

2022-08-28卜荟力

现代信息科技 2022年10期
关键词:尺度注意力预测

卜荟力

(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)

0 引 言

目标检测是计算机视觉领域最重要和最具有挑战性的分支之一,其作为场景理解的重要组成部分,已经被广泛地应用于人们的日常生活当中,如安全监控、自动驾驶等。而遥感图像检测作为目标检测的一个前沿和热点,它在资源勘探、自然灾害评估、军事目标检测和识别等领域具有重要的意义。近年来,随着空间遥感技术的飞速发展,高分辨率、大尺度遥感影像数据的不断丰富。获取遥感图像不再像以前一样困难。遥感目标检测是在遥感图像中找到感兴趣目标的具体位置并识别其类别,然而,由于遥感影像背景非常复杂,并且大多数遥感目标都是密集小目标,因此传统的基于机器学习的遥感检测方法的结果往往不能令人满意。自2012年Krizhcvsky 等人提出AlexNe这种深度卷积神经网络(DCNN)模型以来,深度学习在计算机视觉领域掀起了一股热潮。目前广泛使用的基于卷积神经网络的目标检测方法主要分为两类:第一类是“两阶段”法,将目标检测分为检测和识别两个阶段,首先通过算法在图像中找到感兴趣的区域,然后识别区域目标,如RCNN、Fast R-CNN、Faster R-CNN、Mask R-CNN等。第二类是“一阶段”法,利用回归思想同时完成检测和识别,实现端到端的检测和识别,如YOLOv3、SSD等。

针对目前遥感图像检测中存在的难点,很多学者做了大量的研究工作,在检测方法和特征提取网络结构上均有不同程度的改进。李婕等人提出结合平行层特征共享结构和注意力机制的遥感飞机目标自动检测模型AFF-CenterNet,有效提高了算法的特征提取能力。周雪柯等人在Faster-RCNN 模型中引入注意力机制,使用SE 模块校准特征通道权重,使用较低的计算成本获得了显著的性能提升。YE 等人提出ASFF(Adaptively Spatial Feature Fusion)特征融合模块对信息流进行筛选,以获得对检测有用的信息。

本文选择在YOLOv3 的基础上进行改进,其核心思想在于端到端完成整个物体检测的过程,其在YOLOv1 和YOLOv2 的基础上做了大量改进,使得检测精度和速度都有了显著提升。经实验对比证明,改进后算法与原YOLOv3算法相比检测效果明显得以提升。

1 YOLOv3 目标检测算法

YOLO 的全称是You Only Look Once,是Redmon 在2016年提出的一种目标检测算法。不同于R-CNN 将检测过程分为物体分类和定位两部分,YOLO 算法的本质是将目标检测问题处理成回归问题,用单个卷积神经网络结构预测边界框和类别概率,比其他算法速度更快。它可以从图像中检测物体的类别信息和位置信息,检测速度达到45FPS。但一开始的YOLO 算法定位误差严重,检测精度不高。后续的YOLOv2 算法采用一系列方法优化YOLO 网络模型结构,进一步提高了检测速度,也有更高的准确率。2018年,Redmon 等提出了YOLOv3 算法,在端到端思想的基础上增加了预测锚框机制,采用多尺度融合预测方法进步增强了对目标检测的精度。

YOLOv3 的网络结构主要由特征提取网络和预测层组成,如图1所示。其在YOLOv2 结构的基础上去掉了所有最大池化层,增加了更多的卷积层加深网络,并引入了残差模块,共包括23 个残差块。经过5 次下采样后,输出大小为网络输入大小的1/32。改进后的主干网络被命名为Darknet-53,YOLOv3 采用多尺度分类的思想,将预测层分为3 个尺度。对于640×640 的输入图像,可以获得三个尺度的特征图。FPN 的思想对这三个尺度的特征图采用自下而上的上采样将小特征图与大特征图融合,输出三个预测特征。在相同尺度的预测层中,使用券积操作完成特征图与局部特征的交互。YOLOv3 输出的三个特征图尺度大小分别为20×20、40×40、80×80,每个单元使用3 个锚框来预测3个边界框。

图1 YOLOv3 网络结构

2 改进的YOLOv3 目标检测算法

2.1 Mosaic 数据增强

数据增强是一种数据扩充技术,指的是利用有限的数据创造尽可能多的利用价值。因为虽然现在各种任务的公开数据集有很多,但是其实数据量也远远不够,而公司或者学术界去采集、制作这些数据的成本很高,尤其像人工标注数据的任务量非常大,因此,只能通过一些方法去更好地利用现有的成本。传统数据增强方式有随机翻转、旋转、裁剪、变形缩放、添加噪声、颜色扰动等等。而本文选择一种新的数据增强方式Mosaic 数据增强,通过随机裁剪、随机缩放和随机排布将四张图片拼接,丰富了检测数据集,尤其增加了小目标,提高了网络的鲁棒性,因此本文选择其对训练数据进行增强。

2.2 ECA 注意力机制

注意力机制来源于人类的视觉机制,能够使网络专注于有效信息,过滤无用信息,从而提高信息的利用率。现有研究表明,将注意力模块添加到现有卷积神经网络中可以带来显著的性能提升。然而,大多数现有方法致力于开发更复杂的注意模块以实现更好的性能,这不可避免地会增加模型的复杂性。而ECA-Net 中的注意力模块EfficientChannel Attention(ECA)是主要针对SE-Attention 改进的,SEAttention 使用两个全连接层实现通道注意力,而ECA 指出使用两个全连接层会引入大量参数和计算量,同时计算两两通道间的注意力是非必要的,因此在不降维的全局通道平均池化后仅仅采用了一个感受也为的一维卷积来计算相邻个通道间的注意力。在只增加了非常少的参数情况下却能获得明显的性能提升,如图2所示,其中设置=3,表示相乘操作,⊕表示相加操作。

图2 ECA 注意力

2.3 CIOU 损失函数

YOLOv3 中的原始定位损失函数为IOU 损失,相比传统的L2 损失,使用IOU 损失函数能更好地反应两个框的重合程度。但是其仍然存在很多缺陷,比如说当交并比值相同时,重合方式不一定相同,无法挑选出真正的最优预测框,因此本文选择CIOU损失作为YOLOv3 的定位损失函数,它考虑了重叠面积、中心点距离以及长宽比信息,解决了IOU 损失函数的不足。CIoU 具体公式如式(1)~(3)所示:

其中代表预测框中心坐标的参数,就是两个中心点距离的平方,和为长宽比,代表两个矩形的最小外接矩形对角线长度

2.4 ECA-YOLOv3 主干网络

本文将改进后的YOLOv3 算法命名为ECA-YOLOv3,结合前几节的介绍,最终得到ECA-YOLOv3 主干网络的结构,如表1所示。

表1 ECA-YOLOv3 主干网络结构

3 实验结果与分析

3.1 实验环境

本文实验训练及测试的计算机硬件配置如下:CPU 为Intel(R)Core(TM)i5-11400@2.60GHz,GPU 为NVIDIA GeForce RTX 3060,采用Ubuntu20.04 操作系统和Pytorch1.8深度学习框架作为实验的运行环境。

3.2 数据集

RSOD 数据集由武汉大学发布,是用于遥感图像中物体检测的数据集,本文选择其作为数据集进行训练和测试。其一共包含飞机、操场、立交桥和油桶四类目标,数量分别为:446 张图(4 993 架飞机),189 张图(191 个操场),176张图(180 座立交桥),165 张图(1 586 个油桶)。

3.3 评价指标

本实验采用召回率、精确率和平均精度均值(Mean Average Precision,mAP)通常用于评估目标检测算法的性能,具体公式如式(4)~(7)所示。

其中TP 为算法预测正确的正样本个数,FN 为算法预测错误且判断为负样本的个数,FP 为算法预测错误但是判断为正样本的个数,AP 值为PR 曲线所围成的面积

3.4 实验结果及分析

3.4.1 实验参数设置

输入图片大小设置为640×640,使用随机梯度下降法(stochastic gradient descent, SGD)作为优化器优化网络,动量设为0.937,权重衰减系数设为0.000 5。初始学习率设置为0.01,在训练过程中使用余弦退火算法来对学习率进行更新,Batch Size 设置为4,epoch 数设置为240 轮。

3.4.2 对比实验

在相同数据集上对YOLOv3 和ECA-YOLOv3 进行对比实验,使用mAP 作为模型检测指标,最终实验结果如表2所示。从表中可以看出,本文提出的算法行之有效,其检测精度比传统的YOLOv3 网络提高了2.6 个百分点。

表2 模型性能对比表

3.4.3 实验效果图

使用ECA-YOLOv3 对测试集进行测试,部分图片检测效果如图3所示,可以看出,改进后的网络在针对一些困难样本,如密集小目标、目标被遮挡、相似度差异较大等图像上均有较好的识别效果。

图3 检测效果图

4 结 论

为解决遥感图像中因目标尺度变化较大,背景复杂导致的检测困难问题,本文在YOLOv3 的基础上,以DarkNet53为主干网络,引入轻量级的ECA 注意力模块,并通过替换CIOU 边界框损失函数,对数据进行Mosaic 增强等方式对原始算法进行一些类改进。实验结果表明基于改进后的YOLOv3 遥感图像检测方法取得了不错的检测效果,模型鲁棒性得以提高,且检测精度保持在了较高水准,具有一定的实用价值。下一步将考虑优化网络结构,在不降低检测精度的同时进一步压缩模型,提高其检测速度。

猜你喜欢

尺度注意力预测
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
让注意力“飞”回来
尺度
A Beautiful Way Of Looking At Things
以长时间尺度看世界
9
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!
阅读理解两则
预测高考