APP下载

基于改进YOLOv5的机场目标检测方法

2023-06-09耿文博

现代计算机 2023年6期
关键词:梯度卷积分类

董 兵,耿文博,杨 轲,吴 悦

(中国民用航空飞行学院空中交通管理学院,广汉 618300)

0 引言

图像目标的视觉识别与精确定位是目前计算机视觉领域的研究重点之一。并且随着卫星遥感技术的提高和空天技术的民用化发展,使用遥感图像进行信息提取与利用成为可能。2012 年,卷积 神 经网络Alexnet[1]在ImageNet 分类竞赛中夺魁,推动了深度神经网络的发展,VGG[2]、NIN[3]等基于机器视觉的检测技术正式进入了深度学习阶段,深度学习采用具有非线性信息处理单元的多层建模进行特征提取。作为一种黑盒分层的端到端属性的系统,将图像检测中的特征提取和分类两个基本要素,整合到了一个自适应学习框架中。目前,主流的目标检测算法有以YOLO[4⁃6]系列为代表的一阶段法和RCNN 系列的两阶段法。本文主要研究机场区域遥感图像中的航空器的目标检测与定位,并最终实现全天候复杂场景下的场面监视。此研究可以显著提升机场监视水平和智能程度,减少所需的大量人力物力,对智慧民航中提出的建设智慧机场、发展智慧监视等目标有较大的实际意义。

随着模型复杂度的增加,对数据集的体量和要求也进一步提高。传统数据集标注需要花费大量人力和时间,对于大型模型的训练和后续研究是极为不利的。 为解决上述问题,GAN[7](generative adversarial network)对 抗 式 生成网络被提出,该方法通过一对生成器和鉴别器学习样本的分布,其设计初衷就是为了高效率、低成本地生成带标注的训练数据集,这个过程是在不断优化、改进中自动完成的,最重要的是该算法生成的数据是全新的,因此,当数据量不足时,可以采用对抗式生成网络进行扩充。

当前,在CV(computer vision)计算机视觉领域以CNN(convolutional neural networks)进行特征提取成为主流,随着卷积神经网络层数的加深和模型复杂度的提高,各类目标检测算法的检测精度和速度都有提高,但是网络在特征提取过程中存在的底层信息丢失、特征间关联弱化的情况也愈发严重。近年,transformer[8]一经问世,不仅推动NLP 自然语言处理领域的发展,也影响了计算机视觉领域的发展,VIT[9]的提出,改变了在图像处理中唯CNN 的局面,同时也打通了CV 与NLP 两大界的壁垒,该模型通过将图像打散成一块块补丁的形式直接送入trans⁃former网络,将传统像素点式的图像处理问题转换成了文字处理问题,在降低任务复杂度的同时显著增强先后特征之间的联系,而这是卷积神经网络难以实现的。

1 YOLOv5算法简介

YOLOv5 目标检测算法,较YOLOv4 算法的改进主要体现在加入了Focus 结构、SilU 激活函数和采用跨特征的CSPDarknet 网络。其中Focus网络结构就是将高宽信息整合到了通道信息,使得输入通道数放大了四倍,堆叠后的RGB 图像变成了十二个通道。类似于步长为2的二维卷积层,Focus 在像素级别以1 为间隔提取像素,并将获得的独立特征层进行堆叠。同时,这种将高宽平面的信息集合到通道维度的方式可以有效缓解采样带来的特征丢失。以原始输入图像640 × 640 × 3为例,Fucus结构会先采用切片得到320 × 320 × 12的特征层,再经过卷积核拼接后得到320 × 320 × 64的有效特征层。

SiLU 可以视作在Sigmoid 和ReLU 激活函数的基础上添加了下界、平滑、非单调的特性。在深层深度神经网络的训练上采用SilU 作为激活函数的效果好于采用ReLU。 YOLOv5 采用CSPDarknet 作为主干特征提取网络,可以从输入图像中抽取丰富特征的同时,也能有效缓解深度神经网络中常出现的梯度重复计算的问题,大幅减少了模型参数量,有利于模型的端到端部署,YOLOv5网络架构如图1所示。

图1 YOLOv5网络架构

2 模型改进

2.1 Focal Loss

目标检测本质上是一个密集采样的过程,将标注的真实框与生成的大量预测框进行匹配,样本配对成功的为正,反之为负。显然,这个过程中的正负样本存在比例失衡,同时也存在匹配难易程度上的不平衡。机场区域的飞机目标在遥感图像中的占比面积小,即所述的正负样本类别不平衡的问题。因此,提出采用一种Focal Loss 改善以上状况,即控制正负样本权重和难易样本权重,并将置信度损失的量级增大到与回归损失和分类损失相同的级别。Focal Loss 是一种有两个方面的特点损失函数计算策略。分别是如何分配正负样本的权重以及把握难易分类样本的权重。正负样本的定义如下:目标检测任务本质上就是密集采样,以单张图像为例,将真实锚框与预先生成的大量先验锚框进行配对,符合筛选门槛标准的先验框就是正类样本,反之为负类样本。难易分类样本的概念为:假设存在一个二分类问题的网络预测结果,预测比较准确的是易分类的样本,预测程度不够好的是难分类样本。二分类交叉熵与多分类交叉熵是有区别的,通常在做二分类工作时以Sigmoid 函数作为激活函数,若输出结果为正类的概率为p,则样本为负类的概率为1 -p,二分类任务交叉熵损失公式为

对于多分类任务,softmax 函数通常被作为激活函数,多个输出结果都有对应的概率值且总和为1,其交叉熵损失函数公式为:

Pt用以表达样本分类的难易程度,通常该值大于0.5 为易分类,反之为难分类,且值越大表示预测越准确,在模型训练时,难分类样本通常受到更多关注,因此选择在损失函数中提升难分类样本的权值比重,公式如下所示:

具有低Pt值的难分类样本,将造成(1 -Pt)值的增大,同理,易分类样本的(1 -Pt)值会减小,即较初始CE Loss,Focal Loss都产生了不同趋势的衰减,但衰减程度的多少取决于样本分类的难易程度,同时衰减的程度由超参数γ决定,γ值越大则损失下降的程度越明显。

2.2 ECA注意力机制模块

在SE 通道注意力机制施加的过程中,总是会学习所有通道数之间的联系,导致模型运算量的增加,这也是性能和复杂性之间的矛盾。针对上述情况,提出ECA 注意力机制,采用适当的跨通道交互可以在显著降低模型复杂度的同时保持性能。其架构如图2所示。ECA注意力机制通过将全连接层转变为一维卷积的形式有效减少了参数计算量,使得模型可以按输入通道数进行卷积核大小的自适应计算,从而实现对SE注意力机制的改进。

图2 ECA注意力机制

3 CycleGAN数据集改进

近三年,GAN对抗式生成网络的提出极大推动了计算机视觉领域的发展,尤其在图像修复、风格迁移等领域得到了广泛应用。GAN 由一组配对的生成器和判别器构成,两个模型通过对抗的方式学习样本的底层分布,并不断提高各自的性能,进而生成新的、从未出现过的标注数据。公式(4)反映了生成器G和判别器D通过不断的交互迭代进行优化,并最终达到纳什均衡的过程。

其中:Z是随机噪音,Pz(z) 指随机噪声Z服从的概率分布,G(Z;θj) 生成器,x~Pdata是真实数据服从的概率分布,D(X;θd)判别器。

如图3所示的CycleGAN 是在GAN 的基础上提出的,不同于pix2pix 所提的成对数据风格迁移, CycleGAN 的优势在于无需在场景图像集与指定场景影像集间建立一一对应的映射关系。损失函数包括公式(6)所示的GAN的损失和循环一致性损失。

图3 CycleGAN示意图

LossGAN 的作用在于使得网络学习到目标背景的风格,LossCycle 的目的就是保证在生成过程中主体内容的不变性。

4 训练改进

4.1 优化器改进

随机梯度下降作为神经网络一种高效的梯度更新优化器,可以按照较快速度更新模型中的参数,为应对多样化数据集、提高模型鲁棒性,通常使用更小规模的批量随机梯度下降,这会导致梯度下降过慢、延长模型收敛时间、容易陷入局部最优且无法逃脱的问题。动量优化器是一种学习惯性(动量)的梯度更新优化器,与累积梯度方向一致时加速模型收敛,反之减弱模型震荡影响。Adam 正是在随机梯度下降的基础上,融合了动量累计梯度思想的一种有效的梯度更新优化器,有着计算高效、占用内存少、收敛快速的优点。

4.2 mosaic数据增强

近些年深度学习网络不断纵深发展的同时,也推动了计算机视觉领域进步,针对图像的目标检测、语义分割、人体姿态估计等复杂项目都有不同程度的进展,伴随深度神经网络层数的加深,模型的参数量也达到了千万级甚至更高的水准,而这更容易导致过拟合的发生,因此需要相应地改进数据增强和正则化技术以提升卷积神 经 网 络 的 鲁 棒 性 与 性 能 表 现, Cutout[10]、Mixup[11]等方法应运而生,并且它们仅作用在数据集上且不改变网络内部结构。Dropout 通过随机删除指定图像特征来添加网络噪音,Cutout的初衷是为了解决物体遮挡的问题,利用全零的矩形遮挡仿真生成新的虚拟图像。Mixup是一种多图的数据增强方式,在单个图像区域上将两张图片及其标签按线性插值的比例进行融合。Cutmix 方法结合了Cutout 和Mixup 各自特点,对单张图片部分区域遮挡并以其他图像进行填充。Mosaic 数据增强将Cutmix 拓展为四个填充融合区域,极大改善了模型的鲁棒性和整体表现。

Mosaic 数据增强是YOLOv4提出的一种可以显著提高训练效率的手段,其步骤如下:首先读取图片及其标签并创建一张背景,按比例将四张图片依次放在底图四个角的位置并调整先验框到相应位置;然后将四张图片合并为一张图片;最后删除不合理位置的先验框:例如部分超出边界的先验框以及调整后不在其原先图像中的检验框。Mosaic 数据增强通过依次随机放缩、随机拼接的方式增加了许多小尺度目标,极大丰富了数据集,进而提高了模型的鲁棒性和泛化能力,同时检测四张图片的策略也减少了对minibatch 的需求,使得在单GPU 条件下也可以获得良好的训练效果,为后续搭建端到端便携目标检测平台奠定了基础。

4.3 标签平滑

神经网络的梯度反向传播机制会迫使预测结果不断趋于先验结果,例如二分类问题会不断逼近0 和1 两个极端,这将使得模型对数据及其标签过于自信和陷入过拟合情况的出现,同时对于数据集中的错误标签有较大波动和损失。提出采用一种为抵抗网络模型极端趋势的、且能够同时解决过拟合和过度自信两方面问题的正则化技术,即标签平滑[12]。被视为正则化技术的原因在于标签平滑可以削弱softmax 输入值的极端化。

出发点是默认数据集中存在比例为e的错误标签,使模型对真实的错误标签有更好的适应力。同样以二分类为例,交叉熵损失函数公式如下:

将上式加权平均并取yi =1- yi以简化,最终可以得到与原交叉熵函数相同形式的表达式:

我们把上面两个式子按概率加权平均,就可以得到:

为了简化上面的式子, 我们令yi'=ε(1 -yi)+( 1 -ε)yi',可以得到:

标签平滑前后的概率p分布如下:

其中:ε为超参数,通常取0.05等,通过上述概率分布的变化可见,标签平滑的核心在于以一个大于零的较小数ε和小于但接近1 的1-ε替换掉直接取0 和1 的趋势,对于多类别如k个分类问题则以ε/k- 1代替0。

4.4 余弦退火

通常模型进行梯度下降的最后阶段往往需要更小的学习率完成收敛,余弦退火学习率的下降体现了余弦函数半周期先缓陡再缓的特点,原理类似于带重启的随机梯度下降,按周期规律模仿SGD 的热重新启动,重启的目的是避免传统随机梯度下降可能陷入的局部最优,关键之处在于余弦退火学习率的重启并非从零开始,而是以很大的学习率模拟,且使用先前通过梯度下降计算损失函数得到的值作为初始值,公式如下所示。

ηmax、ηmin分别代表学习率上下限,规定了学习率的范围。Tcur表示已运行的epoch 数,Ti代表训练模型的epoch数。

如图4 代表了当设置ηmax=0.1,ηmin=0.0001且令每10轮epoch调整一次的共计50个epoch学习率余弦退火示意,简言之,余弦退火通过大于传统的学习率下降,到达局部最优记录后重启,再按余弦周期性变化以得到多于常规随机梯度下降的局部最优解,也获得更优的全局结果。

图4 余弦退火示意图

5 实例验证

5.1 数据集与评价指标

数据集来源于武汉大学RSOD[13⁃14]航空遥感数据集和手工标注数据集,共有12134个飞机目标在内的1526 张航空遥感图像。针对复杂环境的目标检测能力下降问题,本文通过采用所提SR-CycleGAN 依次进行风格迁移和超分辨率的方式进行数据集增广,样例如图5所示。

图5 数据集样例

评价指标是指在目标检测任务中反馈识别结果好坏的指标,主要包括精确率(precision)、查全率(recall)、F1 值、平均精度(average preci⁃sion,AP)和显示检测速度的FPS值组成,其中,F1 值是衡量算法的有效性的重要指标,通过计算精确率和查全率的调和平均数获得;由精确率和查全率组成的曲线被称为PR 曲线,AP 值是PR 曲线围成的面积,用以反映检测模型对某一类的识别效果。FPS 表示每秒检测图像的帧数,当检测的FPS值大于25时被视作实时检测。

其中:TP、FP、FN依次为选中正类、选中负类和未选正类。FN表示正类未被选,所提PR曲线由p(r) 表示,MAP是多类别的平均AP值,P与R分别表示精确率与查全率。

5.2 算法对比

为验证所提改进策略的有效性,设计了如表1 所示的算法对比,按行依次为Faster⁃RCNN、SSD、YOLOv4、YOLOv5s、YOLOv5sf 和本文算法。其中,Faster⁃RCNN 目标检测算法是经典的两阶段算法,由于需要先提取候选区域后分类识别,检测效果优于SSD 算法,但FPS仅有14.17,无法满足实时检测的需求。SSD目标检测算法的检测速度很好,但缺乏特征融合的架构设计,导致算法检测精度不足。YOLOv4目标检测算法由于SPP池化层和PAnet加强特征提取网络的结构,具有良好的检测效果。YOLOv5s 是轻量级YO⁃LOv5 网络,得益于Focus 结构等多种策略,其检测能力优于YOLOv4 算法。YOLOv5sf 是本文在原YOLOv5s 网络基础上添加Focal loss 机制后的模型。由于该方法缓解了正负样本不平衡的状况,使得较原模型的检测精度提高了0.77%。最后,所提算法是指在YOLOv5sf 模型的基础上继续添加ECA 注意力机制,本文算法较原YOLOv5s 目标检测算法的MAP 值提高了2.79%,其中精确率提高了2.55%, 召回率提高了0.49%,检测速度和模型参数量基本不变。各算法的PR 曲线图和实际检测效果图如图6、图7所示。

表1 对比实验结果

图6 PR曲线图

图7 实际效果对比图

6 结语

为提升机场场面监视能力、提高复杂环境检测能力,基于YOLOv5s 目标检测算法提出了改进:第一,提出采用CSP-Darknet53作为主干特征提取网络,并以深度可分离卷积替代普通卷积,大幅减少模型参数量。第二,为改善复杂环境检测能力,采用CycleGAN 仿真夜间场景。第三,融合transformer模块,增强模型在深层训练中对语义的关注。最后,以ROSD航空遥感数据集为例,证实了所提算法的有效性。下一步将对雾霾场景及遮挡等问题进行研究,为复杂场景下的机场监视问题提供更优的解决思路。

猜你喜欢

梯度卷积分类
一个改进的WYL型三项共轭梯度法
基于3D-Winograd的快速卷积算法设计及FPGA实现
分类算一算
一种自适应Dai-Liao共轭梯度法
从滤波器理解卷积
分类讨论求坐标
一类扭积形式的梯度近Ricci孤立子
数据分析中的分类讨论
基于傅里叶域卷积表示的目标跟踪算法
教你一招:数的分类