APP下载

基于深度特征提取的无人机检测算法

2021-11-22健,孙

计算机技术与发展 2021年11期
关键词:金字塔像素模块

杨 健,孙 涵

(南京航空航天大学 计算机科学与技术学院,江苏 南京 211106)

0 引 言

当前,国内的无人机领域正在蓬勃发展,随着无人机在日常生产生活领域中(如农药喷洒、航拍勘测等)的大量使用,随之产生的无人机监督和管理问题也变得日益严峻[1-2]。基于深度学习的方法不断在目标检测领域展现优异性能,因此当前主流的通用目标检测算法都是基于深度神经网络(如VGG[3]、ResNet[4]等)提取目标特征再做检测,它们大多能在PASCAL VOC[5]和MSCOCO[6]等数据集的大中型目标检测任务上取得不俗的效果。然而,在真实场景的无人机检测任务中,这些方法仍有诸多局限。

一方面,以往常见的目标检测任务中,通常包含的检测目标为中、大尺度目标,它们的外观和结构相对清晰完整,随着网络加深,网络能够逐步学习到目标从局部到整体的特征信息。然而对于小目标检测而言,由于目标的尺度小、信息少,若使用通用的目标检测网络模型,容易在网络不断加深的过程中损失大量有效的信息,导致最终检测性能不佳。如果只是简单地使用加大输入图像分辨率的手段,容易产生高额的计算开销,大幅增加训练和推理时间。因此小目标检测相较于常规尺度目标检测,达到最佳的检测性能难度更大。而且由于无人机目标的特殊性,它极易被反光、云层遮掩等背景噪声淹没,对检测造成不利影响。

另一方面,虽然目前深度学习目标检测算法在目标检测任务上取得了巨大的成功,但是这一系列方法仍极度依赖高性能计算机。但无人机检测任务中,应用程序的部署环境通常是在户外边缘设备,因此该任务对目标检测算法的综合性能提出了更高的要求,要求其能够在嵌入式设备上运行。现有的小目标检测模型通常在检测精度和模型大小上很难做好权衡,不利于部署到室外边缘检测设备。

因此,文中提出一种结合像素洗牌和层间特征融合结构的轻量级无人机检测方法,并将其引入到轻量级无人机检测网络TIB-Net,旨在确保模型轻量的前提下,大幅提升层间特征图质量。

1 相关工作

当前,基于候选区域的目标检测算法主要以R-CNN方法[7]为代表,它先找到目标可能出现的候选区域,然后对该区域进行分类,当应用到小目标检测任务时可以采取如调整锚框等针对性优化方法。如果应用场景较为复杂,该方法存在易漏检目标的问题。基于回归的目标检测算法主要以YOLO方法[8]和SSD方法[9]为代表,它们直接在输入图像的多个位置上回归出目标边界框以及类别。它们的优点是检测速度快,但在小目标检测上也同样存在易漏检目标的问题。同时由于深度学习算法生成的网络模型,主要通过精心设计的复杂网络结构增强模型的特征表示能力,因此其内部包含庞大的参数量和多级的非线性映射通常生成较大的权重文件,导致其不易在低内存容量的边缘设备部署。另外,通用的目标检测方法往往在大中型目标上表现不俗,但是对于无人机等小目标的检测效果却不理想[10-12]。

针对无人机检测任务,文献[13]提出改进的YOLOv3算法,通过增加参考角点参与损失函数的计算,获得更优的定位选择,提升无人机检测精度,并且对样本的增广、参数优化等方面进行研究,验证了改进算法的有效性。文献[14]同样是在YOLOv3模型的基础上改进,它将多尺度的特征图进行融合,提升模型对不同尺度目标的检测性能。在实际情况中,大部分是边缘设备部署场景,导致用于计算和存储的硬件资源都与实验室设备存在着巨大性能差距,因此文献[15]提出轻量级无人机检测模型TIB-Net,通过循环迭代的网络结构部分缓解了由于目标尺寸过小引起的形状、纹理等特征缺失等问题。但是,由于网络部分结构仍然采用简单的先下采样再双线性上采样的处理模式,因此会产生不必要的信息损失。综上,这些方法在无人机检测方面仍可改进。

2 模型和方法

2.1 网络整体框架

TIB-Net[15]的算法模型是基于SSD以及FPN基本架构的anchor-based目标检测算法,该算法采用循环迭代的形式构成特征提取主干网络,不仅检测性能优异,而且大幅降低了模型参数量。该网络通过循环支路结构引入更加丰富的细节信息,同时采用空间注意力模块,大大降低了特征图传递过程中的信息冗余。因此,文中将在TIB-Net的基础上进一步优化,构建出性能更佳的无人机检测网络。

无人机检测模型的主干网络包含六个基本组件块,其中前两个基本组件块的作用是初步提取输入图像的基本抽象特征,后续四个基本组件块参与构成网络模型的循环迭代架构。在网络迭代过程中,每轮循环结束时输出的特征图会以特征金字塔的方式进行融合,然后送入后续检测器。网络整体处理流程如图1所示。

图1 网络整体框架

2.2 特征融合模块

不同于原始TIB-Net采用基于经典的特征金字塔的信息融合处理方法,文中在特征融合过程中引入层内金字塔结构,以增强网络对于多尺度信息的处理性能。同时,受到超分辨率任务中像素洗牌操作的启发,文中使用改进的上采样模块替代了双线性插值上采样的方式,实现特征金字塔中不同层级上不同分辨率特征图的融合。最终,改进的特征融合模块如图2所示。

图2 特征融合模块结构

(1)层间金字塔结构。

层间金字塔(即Elastic结构)[16]最早应用于图像分类任务,主要目的是使得网络中每一层都能够综合考量特征图中多个尺度的信息,从数据中学习高效的动态尺度调整策略。如图3所示,在ResNeXt50原始网络中,网络自下而上分别针对性地识别由大至小的目标,即浅层负责识别较小的目标,深层负责识别较大的目标。但是这种策略在示例中除公鸡外其他类别目标的识别任务中,并不能取得最优结果。然而,在主干网络集成层间金字塔结构后,网络不同层在遇到不同类别的输入图像时,会动态调整各层网络的目标识别尺度,最终获得更好的实验结果。因此,受到该结构的启发,文中在特征金字塔结构中引入动态尺度调整策略。

图3 层间金字塔结构原理

从图2中可以看出,输入特征图在通过特征融合模块时会经过三个不同的特征提取分支,待各分支处理完成后再进行特征融合,随后传递到上采样模块。为了进一步使模型学习到不同分辨率下的特征表示,需要在一个并行分支的两端添加下采样和上采样处理。在训练过程中,深度网络能够通过层间金字塔自主学习网络层的分辨率选择,根据输入图片自适应地调整到对应的尺度处理策略。

从整体上看,特征图在特征金字塔结构的逐层传递融合过程中能够保持高分辨率水平,而在细节上,内嵌的层间金字塔结构使得特征图在特征融合模块每个分支上调整到不同的分辨率,使得特征金字塔在每层内部具有不同的感受野。通过这种处理方式,不仅保持了网络主体部分维持高分辨率的特征图信息,而且使得特征融合模块内部能够动态调整到相应分辨率,使模型能够在模块内部的不同分支上处理不同尺度的信息,增强了模型应对不同尺度目标检测任务的能力。针对小目标检测任务来说,模型在金字塔结构融合各层特征信息前,能够将特征图调整到合适的分辨率再做处理,提升网络性能。

(2)超分辨率上采样模块。

除了集成层间金字塔结构,文中也改进了原始的双线性插值上采样策略,提出改进的上采样模块,如图4所示。

图4 改进的上采样模块

传统的双线性插值上采样方法是根据离待插值最近的2×2个已知值来计算待插值,每个已知值的权重由距待插值的距离决定,距离越近权重越大。但是这种人为规定权重的方式仍然会存在画面模糊的问题。除此之外,反卷积也是目前常用的上采样手段,它利用模型学习能力获得上采样策略,使网络自主向低分辨率图片中填充细节部分,它无需预先规定如何插值,因为该结构在模型训练过程中是可学习的。反卷积并非卷积运算的逆操作,本质上只能还原图像的尺寸,不能还原其对应像素值,上采样后补充的像素值是通过网络训练过程中反向传播来学习获得的。它在实际应用过程中,可能会出现棋盘效应、伪影等病态重建问题(见图5),而且该操作引入了巨额计算开销,不宜用于边缘设备部署。

通过进一步研究发现,超分辨率任务中常用的像素重组操作也可实现上采样,并且它是一种高效、快速、无参的像素重排列的上采样方式,不仅取得了良好的上采样效果,而且在工程应用中容易实现。因此,文中改进了超分辨率任务中常采用的像素洗牌方法,用于上采样过程。假设输入特征图为x∈Rw×h×c,输出特征图为y∈R(2×w)×(2×h)×c,卷积核大小为1×1×(c×22),激活函数选用PReLU,采用批正则化处理策略,同时像素洗牌的尺度参数为2。则上采样模块的处理过程可表示为:

y=PReLU(BatchNorm(PixelSHuffle(Conv(x))))

(1)

图5 病态重建样例

该模块首先将图像的通道数拓展到原先的4倍,然后使用像素洗牌运算将像素重排,使得特征图分辨率提升的同时,通道数还原到初值。

最终,深度网络结构通过提出的特征融合模块实现特征金字塔的旁路连接,进一步增强了网络的特征提取能力。

2.3 训练过程

在实验过程中的迭代总次数设置为300 K,选择随机梯度下降作为优化策略,同时初始的学习率设置为10-3。同时,随着训练次数的增加,学习率在第120轮迭代和第240轮迭代时分别衰减到10-4和10-5。

在训练过程中,模型的损失函数采用多任务损失。文中采用与TIB-Net相同的设置,分类任务的损失函数选用交叉熵函数,如公式(2)所示。

(2)

同时,回归任务的损失函数选用平滑L1损失函数,如公式(3)所示。

(3)

所以,最终的损失函数由分类损失和回归损失加权求和得到,如公式(4)所示。

(4)

3 实验结构与分析

3.1 数据集描述

由于缺乏公共的无人机基准数据集评估,文中选用TIB-Net中提供的无人机数据集,其中采集并标注了共2 750张VOC格式的数据样本,部分样本图片如图6所示,可以看出数据集中包含多种场景的小目标无人机。

图6 数据集中多场景无人机样本展示

3.2 结果对比

文中采用mAP指标以及生成权重模型大小来评估模型性能的优劣,其中mAP的计算公式如公式(5)和公式(6)所示:

(5)

(6)

其中,p和r分别表示精度和召回率,N表示类别数,由于文中只涉及无人机检测单类任务,因此N设置为1。

实验结果如表1所示,可以看出改进后的模型相较于原始的TIB-Net,在模型参数仅有少量增加的前提下,将mAP值提高到90%以上,提升了检测模型的性能。

表1 不同模型的性能参数对比

为了进一步分析实验结果,图7将部分检测结果可视化。可以看出,集成特征融合模块之后,网络不仅能够检测出尺度极小的不同类型无人机,而且对复杂环境下的无人机检测表现较为鲁棒且更加精准。通过分析,特征融合模块能够使特征图中全局信息和局部信息更高效地融合,因此网络模型可以根据无人机周边环境(如天空、树木)权衡并调整检测结果的置信度,并最终规避了部分不合理的误检情况,与之对应,一些漏检的目标就能够被响应并检测出来。另一方面,超分辨率上采样模块缓解了传统上采样方式的信息丢失,避免了在这过程中的像素偏移,因此模型预测出的检测框也就更加精准。

图7 模型检测结果

4 结束语

文中基于TIB-Net主干网络提出了基于深度特征提取的无人机检测算法,通过集成层内金字塔结构和改进的上采样模块,提升了模型的检测性能。该算法具有较高的检测精度以及较小的模型参数量,不仅能够检测出空中小尺寸无人机,同时对于复杂环境仍能保持性能稳定。因此该算法可以部署在硬件性能较弱的边缘设备上,以解决真实场景中户外无人机检测任务。另一方面,该算法在推理速度上仍有较大提升空间,尽管循环迭代的架构可以减少模型尺寸,但模型深度仍然较大,耗费了部分检测时间。因此,未来将会继续对该算法做针对性的改进,在保证模型检测精度的同时,减少模型的推理检测时间。

猜你喜欢

金字塔像素模块
“金字塔”
28通道收发处理模块设计
“选修3—3”模块的复习备考
像素前线之“幻影”2000
Great Vacation Places
“像素”仙人掌
金字塔是用金子造的吗
必修模块相关知识过关训练
高像素不是全部
您的像素,饱和吗?[上]