基于轻型卷积神经网络的无人机多目标检测系统研究

2023-01-03翟宏亮

地理空间信息 2022年12期

翟宏亮

（1. 中煤科工集团南京设计研究院有限公司，江苏南京 211800）

无人机作为现代测绘的重要技术手段，相较遥感卫星影像和传统航空摄影测量等方式具有采集频率高，单次采集成本较低等独特优势。在城市规划、线路检查以及应急测绘等多种应用场景中，利用无人机遥感技术对区域内目标进行实时自动化检测是代替传统人工筛选的高效解决方案[1]。截至目前，大部分目标检测模型有着深层次的结构与复杂的连接通道，在实际检测过程中会产生大量的参数和冗余计算，故而对硬件的算力和内存需求较高，这就限制了模型的应用场景[2-5]。本文则以能流畅运行在内存和算力有限的无人机设备上为目标，构建了轻量化无人机遥感影像多目标检测系统。

1 轻量级检测系统

本文提出的轻量级无人机遥感影像多目标检测系统，主要由图像预处理模块和目标实时检测模型组成。其中目标实时检测模型采用端到端的目标检测架构，主要包括轻量级特征提取骨干网络和多尺度特征金字塔两部分，完整的系统流程如图1所示。

图1 轻量化检测系统结构图

1.1 图像预处理模块

图像预处理系统主要针对实时采集的图像进行图像滤波去噪，颜色校正以及尺寸归一化处理；轻量级特征提取骨干网络利用叠加的特征提取层和尺寸下采样层提取来实现对不同尺度目标的特征提取处理。多尺度特征金字塔主要负责将不同尺度的特征图进行上采样以及张量拼接，通过混合特征来增强不同尺度特征图中的信息复杂度，然后通过末端的检测输出来实现对目标检测结果位置及类别信息的输出。

训练数据集中图像的质量对于模型的检测性能有着直接的影响[6]。因此，使用图像预处理模块对原始影像进行增强来获取颜色信息更丰富，噪点更少，背景更多样化的图像参与训练，以提高训练后模型的检测精度以及在多种场景下的泛化能力。

对于输入的三通道图像，首先进行尺寸归一化便于后续的图像处理和训练，然后利用直方图均衡化算法分别对每个颜色通道进行处理，以获取颜色均衡的图像，然后通过高斯滤波器来实现对图像的降噪，处理结果如图2所示。

图2 图像预处理结果

1.2 多目标实时检测模型

1.2.1 轻量级特征提取骨干网络

端到端的目标检测模型分为特征提取模块和特征强化金字塔模块两个部分[7]。常规目标模型中特征提取模型是由不同采样步长的小型卷积核以及激活函数等叠加组成的大型深层次网络结构，这类结构在实际的检测过程中会产生海量的计算参数，因此需要较大内存的计算设备来保证其运行[8]。因此，保证系统在特征提取过程中保持较好性能同时，不会出现较多参数，本文采用深度可分离卷积核[9]来进行特征提取，然后采用1×1 的常规卷积核对图像进行2 倍下采样。深度可分离卷积和常规卷积核的计算量对比公式如式（1）所示。

式中，C`和C分别为深度可分离卷积和常规卷积核一次计算所产生的计算量；Fin为输入特征图的尺寸；M为输入特征图的通道数；Fps为卷积核的平面尺寸；N为输出特征图的通道数。除了卷积操作以外，本文还采用分组卷积[10]来进一步降低特征提取计算过程中的计算量。但分组卷积的所有特征提取步骤都在组内完成的，这就导致不同分组间的特征被隔离开，降低了拼接后特征图的泛化能力。为了恢复不同卷积通道间的信息交流，在通道拼接后连接通道混排对分组后的获得的特征图进行重组，来提高特征图的泛化性。本文所使用的损失函数由类别损失Lclass、置信度损失Lcconf、边界框损失Lbound三部分，具体如公式（2）、（4）所示。

式中，α和γ分别为缓解正负样本不平衡与难易样本不平衡问题的超参数，经过多次调参选取α=5 ，γ=2；Ŷybc为中心区域图，Yybc为预测的中心区域图。N为中心区域正样本总个数，用于规范化分类损失。

式中，j为正样本点索引；Ox͂j y͂j和Bx͂j y͂j分别为偏移量回归与边界框回归在中心区域点(x͂j,y͂j)处的预测值。

1.2.2 多尺度特征金字塔

为获取到信息更为丰富的特征图，在特征提取骨干网络的末端连接多尺度特征金字塔[10]。根据目标在无人机影像中的大小特点以及实际运行过程中的内存消耗，本文提出采用连续的自下而上的特征图金字塔结构，每层的操作均为步长为2 的上采样层。对于不同尺度大小的检测图像，输入到不同层的金字塔末端进行检测，在获得多个近似结果后，采用非极大值抑制（NMS）算法获取唯一的最佳检测框。

2 实验与结果分析

2.1 模型训练

以开源数据集VisDrone2019-DET 为基础对多目标检测模型进行训练和测试。该数据集发布于2019年，是“Vision Meets Drone：A Challenge”挑战赛使用的比赛数据集，由天津大学机器学习与数据挖掘实验室的AISKYEYE 团队收集并发布。本文采用图像扭曲、翻转和目标扩增3 种手段来获取样本容量更大、目标属性更丰富的数据集。为了更高效地对模型进行训练拟合，首先在大型计算设备上完成对模型的训练，然后将模型部署在低功耗的轻量设备上实现模型的实际测试，具体训练和测试配置如表1 和表2 所示。对模型迭代5 000次后，完成训练。

表1 训练环境配置表

表2 测试环境配置表

2.2 测试结果分析

在测试集上的部分检测结果如图3 所示。为测试模型的性能，在相同的运算环境下使用训练数据集分别对本文构建模型，对Tiny-YOLOv3，Mobile-SSD 模型进行训练。采用每一类目标的AP、所有类别目标的MAP、FPS以及训练后权重文件的内存大小对模型进行综合评价，最终的评价结果如表3所示。

表3 检测精度及评价表

图3 检测结果示意图

从图3 中可以看出，本文所提出方法对于影像中不同分布位置，不同类别以及不同大小的目标均有比较好的检测效果。

根据表3 的中评价结果可以看出，本文所提出模型在精度均值方面最高可以达到82.5/%，对于在遥感影像中个较小的非机动车目标也能够达到76.4/%的检测精度，平均精度均值可以达到79.45/%，相比Ti⁃ny-YOLOv3 和Mobile-SSD 在综合检测精度方面分别提高了21.2%和15.4%。在检测速度方面，本文所提出模型在测试环境下可以达到37 FPS/m.s-1的检测速度，说明本文所构建的检测系统可以在低配置的硬件环境上达到实时检测的效果。同时本文所提出模型再训练后的权重文件大小仅有38.7 MB，非常适合于部署在轻量级的设备上。

3 结论与展望

针对一般的无人机低空遥感实时性强、机载设备计算能力有限等问题，提出能流畅运行在低算力计算设备上的轻量卷积神经网络，使用增强后的开源无人机遥感影像数据集VisDrone2019-DET 在大型计算设备上对模型进行训练，然后在小内存低算力的硬件设备上对模型进行了性能测试，使用检测精度，运行速度及训练后模型权重文件大小等指标对模型进行综合评价，得出以下结论：

1）本文构建的检测系统对所有类别目标的综合检测精度能达到79.45/%，在同环境下相较Tiny-YOLOv3和MobileNet-SSD分别提高21.2%和15.9%，同时在多种场景泛化性能良好。

2）测试环境下的检测速度可达37 FPS/m.s-1，训练后权重文件大小仅有38.7 MB。

综上所述，该系统可在低算力无人机机载硬件上对多尺度，多类别目标进行实时高精度检测，意味着其能够在智能交通管理，自然灾害预警，以及军事侦察等领域发挥广泛作用。然而受限于数据集样本有限，本次研究尚未针对夜晚等更多场景进行训练和测试，未来将进一步研究通过数据采集以及生成对抗网络组合的方法来获取更多场景下的目标，以提高模型的泛化能力。