基于改进YOLOv7和DeepSort的“低慢小”无人机目标检测跟踪算法

2025-02-09简钰洪杨辉跃王星罡容易圣朱禹坤

指挥控制与仿真 2025年1期

摘要：为提高“低慢小”无人机目标检测跟踪精度，提出一种基于YOLOv7和DeepSort框架的改进型无人机检测算法，在YOLOv7算法骨干网络引入了CBAM注意力机制提高特征提取能力，使用BiFPN加权特征金字塔替换PANet提高不同尺度特征融合能力，增加小目标检测层改善无人机检测精度。构建了天空、树林、建筑和阴暗条件4类背景的“低慢小”人机数据集，并进行测试实验。结果表明，改进型算法的检测部分mAP@0.5提升了8.6%，特别是对小尺寸、弱特征的目标检测精度提高了约21%；最终跟踪结果MOTA指标提高24%，正确输出的目标框占真实目标框的比例约70%。

关键词：反无人机；机器视觉；目标检测；目标跟踪

中图分类号：TP391.41；V279 文献标志码：A DOI：

10.3969/j.issn.1673-3819.2025.01.003

The \"Low Slow and Small\" UAV target detection and tracking algorithm

based on improved YOLOv7 and DeepSort

JIAN Yuhong， YANG Huiyue， WANG Xinggang， RONG Yisheng， ZHU Yukun

（Army Logistics Academy of PLA， Chongqing 401311， China）

Abstract：To improve the accuracy of Low altitude unmanned aerial vehicle（UAV） target detection and tracking， an improved UAV detection algorithm based on YOLOv7 and DeepSort framework is proposed. The CBAM attention mechanism is introduced into the backbone network of YOLOv7 algorithm to improve feature extraction ability. To improve feature fusion ability at different scales， BiFPN weighted feature pyramid is used to replace PANet， and a small target detection layer is added to improve the detection accuracy of small target UAVs. A \"low slow small\" human-machine data set is constructed with four types of backgrounds： sky， trees， buildings， and dark conditions. The experimental test is carried out. The results show that the detection part mAP@0.5 of the improved algorithm is improved by 8.6%， and the detection accuracy of small-size and weak-feature targets is improved by about 21%. In the final tracking result， the MOTA index was increased by 24%， and the correct output target box accounted for about 70% of the true target box.

Key words：anti-drone; machine vision; target detection; target tracking

近年来，无人机在航拍、植保、救援、物流、军事等领域得到广泛应用，同时，出现大量“低慢小”无人机“黑飞”“滥飞”情况，对国防和社会安全构成了巨大隐患。

“低慢小”无人机指在低空域（高度1 000 m以下）活动，飞行速度慢，尺寸小的无人机。低空域慢速飞行，其多普勒特征弱，雷达探测难，且城市低空域电磁环境复杂，无线电探测难；小目标无人机飞行声音小，音频探测难。机器视觉作为无人机目标检测跟踪的重要方式，使用摄像机捕获监控区域视频，利用图像特征对无人机进行检测跟踪，系统成本低，探测速度快，精度高，监控区域大，适用场景广，尤其对易于拍摄的低空域目标检测跟踪效果好。

机器视觉的目标检测方法可以分为传统方法和深度学习方法。传统方法通过人工设计，提取图像中特定类型特征，定位关键区域，使用分类算法检测关键区域目标类别。由于无人机的颜色、纹理特征不明显，而角点、边缘特征较为明显，常用的人工设计特征有方向梯度直方图特征[1]、尺度不变特征变换[2-3]等，分类算法主要为支持向量机。

深度学习方法通过卷积神经网络学习，能够更好地提取图像深层次特征，可分为两类：一类通过候选区域生成、目标分类及边界框调整两步完成，为二阶算法；另一类将整个图像均视为候选区域，用回归的方式直接得到目标的类别与边界框信息，为一阶算法。Faster RCNN（region convolutional neural networks，RCNN）是经典的二阶算法，在无人机检测的应用中，可用双线性差值和多尺度特征融合的方法提高小目标无人机检测能力[4]，可用图像超分辨率预处理得到更多语义信息[5]。一阶算法速度较二阶算法更快，从YOLO（you only look once）算法开始得到了大量研究，在保持检测速度的同时，也具备较高的精度。应用YOLO算法检测无人机目标检测，可用加权双向特征金字塔BiFPN网络替换Neck部分，增强不同尺寸目标特征融合效果[6]，可改进损失函数增强训练效果[7-8]。YOLO系列算法逐渐成为无人机检测应用的主流算法。

为记录无人机飞行轨迹和身份信息，传感器需要在检测的基础上进行跟踪。无人机目标跟踪应用较广泛的有卡尔曼滤波、STC（spatio-temporal context）、KCF（kernelized correlation filters）及SiamFC算法。卡尔曼滤波算法还可以与其他算法相结合，即假设目标运动过程属于线性系统，对跟踪过程中的目标状态信息进行预测和修正，能够优化复杂环境下无人机快速移动、目标被遮挡情况下的跟踪性能[9-10]。上述算法为单目标跟踪算法，当应对多个无人机目标场景时，需要对每个目标都进行一次跟踪，随着跟踪目标数量增加，准确率和实时性有所降低。DeepSort是基于检测器的多目标跟踪算法，能够利用深度学习算法检测器的优秀性能，且通过卡尔曼滤波、行人重识别ReID、级联匹配等方法能够较好应对目标快速运动、障碍物遮挡等情况，能够较好地应用于多无人机目标跟踪任务中。

“低慢小”无人机的飞行空域背景环境主要包括天空（云层）、树木、建筑、阴暗条件四类，对目标检测具有较强的干扰性，加之摄像机捕获的小型无人机像素信息较少，图像特征较弱，容易出现漏检和误检问题。针对该问题，以改进YOLOv7算法作为DeepSort检测器，提出复杂环境下无人机目标检测跟踪算法，以自建数据集训练验证。

1 算法设计

1．1 算法基本框架

算法整体流程分为检测和跟踪。

（1）目标检测算法。框架采用的YOLOv7-tiny-SiLu模型大小仅6．2 M，在V100显卡上使用MS COCO（microsoft common objects in context）数据集测试（输入网络像素为640*640），FPS（frames per second）为286，AP（Average Precision）值38．7%，与YOLOv5-N相比，速度快80%，精度高38%。在YOLOv7-tiny-SiLu算法基础上，改进的目标检测算法如图1所示。

其中，注意力机制CBAM模块（cost benefit analysis method）是增加的注意力机制、Bcat是用BiFPN拼接替换原有的拼接操作，在算法基础上还增加了160尺寸特征张量的小目标检测层。特征提取ELAN模块（effective long-range aggregation network）是一种高效的网络结构，通过控制最短和最长的梯度路径，使网络能够学习到更多的特征，并且具有更强的鲁棒性。下采样MP模块通过最大池化和步长2的卷积操作进行下采样，能够得到更加丰富的特征。跨阶段特征金字塔池化SPPCSP模块（spatial pyramid pooling， cross stage partial）能够增大感受野，适应不同分辨率图片，同时相比简单的SPP（spatial pyramid pooling）减少了一半计算量，精度反而有所提升。

（2）目标跟踪算法。Sort算法核心是卡尔曼滤波和匈牙利匹配。卡尔曼滤波用于轨迹的更新和预测，匈牙利算法用于目标和轨迹的匹配。由于外观和轨迹一帧不匹配即删除机制和交并比IOU（intersection over union， IoU）成本矩阵问题，Sort算法ID切换较频繁。为此，在DeepSort中引入ReID领域模型来提取外观信息，以减少ID切换次数；加入级联匹配机制保留近期丢失目标轨迹，并赋予优先级，提高复杂环境遮挡下跟踪的鲁棒性。流程如图2所示。

1．2 算法改进模块

2 数据集构建

数据集的质量直接影响算法在实际无人机识别中的准确性。当前网络公开的无人机数据集有Det-Fly[13]、MIDGARD[14]、Anti-UAV[15]等，数量巨大、内容丰富。本文针对低慢小无人机目标检测跟踪的具体应用场景，考虑无人机外观多样，不同运动状态导致的姿态、大小不一，摄像机拍摄角度不同，复杂环境影响等因素，构建了“低慢小”无人机数据集（low and slow UAV dataset， LSUD）。

2．1 数据收集扩增

LSUD数据集以Det-Fly、MIDGARD、Anti-UAV数据集中特征相差明显、具有代表性的图片为主体，通过网络搜索、自主拍摄丰富和补缺，共收集图片801张，包含了不同外表形态、尺寸大小、拍摄角度、周边环境的无人机，同时加入了黑影、鸟类2种常见干扰物体。表1给出了 LSUD数据集收集情况，图6为数据集示例。其中，大目标为无人机像素占图片像素千分级以上的情况，反之为小目标，每种环境中仰拍、平拍、俯拍视角的图片比例约为6∶1∶3，干扰物与无人机在数据集图片中有共存现象。

采取图像旋转方式对基础数据进行扩充，以获得更多无人机运动姿态特征。由于无人机飞行过程中倾斜角度相差超过90°的情况较少，将所有图片分别顺时针和逆时针旋转45°、90°，再人工删除其中不符合无人机现实飞行情况的图片，得到完整的数据集，共包含图片3 977张，如图7所示。

2．2 数据集标注划分

使用labelimg软件进行图片标注，完成标注后，按照9∶1的比例将数据集随机划分为训练集与验证集，即训练集3 579张，验证集398张。标注时区分不同形态的无人机，按照无人机图像特征，在标注中进一步划分为UAV、UAV_L、UAV_M、UAV_S、UAV_D五类标签，划分依据如表2所示，部分数据图片标注情况如图8所示。

3 实验结果及分析

实验软件为PyCharm2020、Pytorch1．7、Python3．8。算法训练平台条件：操作系统Linux ubuntu，处理器Intel（R） Xeon（R） Platinum 8358P，内存80 G，显卡A40，显存48 G。算法验证平台条件：操作系统Windows10，处理器Intel（R） Core（TM） i5-8400，内存8 G，显卡NVDIA GeForce RTX2070，显存8 G。非极大值抑制参数设置：类别置信度阈值为0．2，IoU阈值为0．4。

3．1 算法检测性能验证

使用训练集在没有预训练权重的基础上，分别对原始YOLOv7算法和改进算法训练400轮，而后使用验证集进行验证。

3．1．1 评价指标

3．1．2 消融实验及结果

消融实验中，各类无人机AP0．5指标及见表3和图9。训练过程如图10所示。与YOLOv7算法相比，改进的算法的mAP@0．5提高了8．6%，尤其是无人机特征较弱的UAV_S、UAV_M两种类型目标检测性能提升最大，AP0．5分别提升了21%和22%。可见通过改进，算法的性能得到了较高提升，更能够适应复杂环境下不同形态的无人机目标检测。图11是用验证集验证时，算法输出的部分图片示例。

3．2 算法跟踪性能验证

使用数据集训练改进的YOLOv7+DeepSort整体算法，而后利用两段视频test01．mp4、test02．mp4进行跟踪性能检验。其中，test01．mp4共4 080帧，目标为UAV_S小型无人机；test02．mp4共5 333帧，包含了小型无人机目标及树木遮挡的复杂场景。使用DarkLabel软件对视频进行标注。测试视频标注情况如图12所示。

3．2．1 评价指标

3．2．2 实验结果

YOLOv7+DeepSort算法在两个测试视频中的MOTA指标平均值为48．8%，改进后为60．6%，性能提升了24%。具体结果见表4。

准确性方面，算法在小目标跟踪上MOTA指标提升了112%，正确输出的目标框数量增加了1 207个，同时，算法在应对小目标和严重遮挡条件下正确输出的目标框占真实目标框的比例均为70%左右，能够实现无人机目标飞行轨迹记录，且性能更加稳定。

实时性方面，输入图片按比例将最长边缩放为640像素，处理速度为26帧/s，实际应用中，将捕获视频每两帧处理一次，能够实现无人机的实时检测跟踪。

4 结束语

本文将YOLOv7算法引入CBAM注意力模块、BiFPN加权特征金字塔网络以及小目标检测层，并将改进的YOLOv7与DeepSort相结合。在自建数据集上测试，提出算法具备更好的检测跟踪性能，能够实现复杂环境下无人机目标的准确实时跟踪，具体体现在：

（1）在YOLOv7主干网络引入CBAM注意力机制，增强网络特征提取能力。

（2）将YOLOv7Neck部分的PANet用加权特征金字塔BiFPN替换，提高网络特征融合能力，提高不同尺寸无人机目标检测精度。

（3）新增一个小目标检测层，提高复杂环境下的小尺寸弱特征无人机目标检测精度。

（4）通过网络搜索和自主拍摄构建了云层、建筑、树木、阴暗等不同复杂背景复杂环境下的多姿态无人机数据集。训练和测试结果表明，改进算法的检测性能指标AP_0．5=0．785，提升了8．6%，尤其复杂环境下小尺寸、弱特征的目标检测精度提高了约21%，跟踪性能指标MOTA=0．488，提升了24%，正确输出的目标框占真实目标框的比例约70%，能够实现复杂环境下无人机目标的及时预警和轨迹记录。

参考文献：

[1] 樊宽刚，雷爽，别同. 智能化无人机入侵检测与跟踪拦截系统设计与实现[J]. 红外与激光工程， 2022， 51（8）： 351-360.FAN K G， LEI S， BIE T. Design and implementation of intelligent UAV intrusion detection， tracking and interception system[J]. Infrared and Laser Engineering， 2022， 51（8）： 351-360.

[2］薛珊，张振，吕琼莹，等. 基于卷积神经网络的反无人机系统图像识别方法[J]. 红外与激光工程， 2020， 49（7）： 250-257.XUE S， ZHANG Z， LYU Q Y， et al. Image recognition method of anti UAV system based on convolutional neural network[J]. Infrared and Laser Engineering， 2020， 49（7）： 250-257.

[3］张振. 反无人机系统图像智能识别关键技术研究[D]. 长春：长春理工大学， 2021.ZHANG Z. Research on key technologies of intelligent image recognition for anti-UAV system[D].Changchun： Changchun University of Science and Technology， 2021.

[4］王君，张德育，康鑫英. 改进Faster-RCNN的低空小型无人机检测方法[J]. 沈阳理工大学学报， 2021， 40（4）： 23-28.WANG J， ZHANG D Y， KANG X Y. Improved detection method of low altitude small UAV by faster-RCNN[J]. Journal of Shenyang Ligong University， 2021， 40（4）： 23-28.

[5] MAGOULIANITIS V， ATALOGLOU D， ZARPALAS D， et al. Does deep super-resolution enhance UAV detection？[C]//2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance （AVSS）. IEEE， 2019.

[6] LIU R， XIAO Y， LI Z， et al. Research on the anti-UAV distributed system for airports： YOLOv5-based auto-targeting device[C]//2022 3rd International Conference on Computer Vision， Image and Deep Learning and International Conference on Computer Engineering and Applications. IEEE， 2022.

[7］李斌，张彩霞，杨阳，等. 复杂场景下深度表示的无人机目标检测算法[J]. 计算机工程与应用， 2020， 56（15）： 118-123.LI B， ZHANG C X， YANG Y， et al. Drone target detection algorithm for depth representation in complex scene[J]. Computer Engineering and Applications， 2020， 56（15）： 118-123.

[8] LIU B， LUO H. An improved Yolov5 for multi-rotor UAV detection[J]. Electronics， 2022， 11（5）： 2 330.

[9] 任永平.反无人机系统中目标探测跟踪技术研究[D].西安：西安工业大学，2019.REN Y P. Research on target detection and tracking technology for anti-UAV system[D]. Xian： Xian technological University， 2020.

[10]王元皓. 基于深度学习的动态小目标检测追踪技术研究及系统实现[D]. 西安：西安电子科技大学， 2020.WANG Y H. Research and system implementation of dynamic small target detection and tracking technology based on deep learning[D].Xian： Xidian University， 2020.

[11]WOO S， PARK J， LEE J Y. CBAM： Convolutional block attention module[J]. Lecture Notes in Computer Science， 2018， 11211：3-19.

[12]Tan M， Pang R， Le Q V . Efficient Det： scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）， 2020.

[13]ZHENG Y， CHEN Z， LYU D L， et al. Air-to-Air visual detection of micro-UAVs： an experimental evaluation of deep learning[J]. IEEE Robotics and Automation Letters， 2021， 6（2）： 1 020-1 027.

[14]WALTER V， VRBA M， SASKA M. On training datasets for machine learning-based visual relative localization of micro-scale UAVs[C]// 2020 IEEE International Conference on Robotics and Automation （ICRA）， Paris， IEEE， 2020.

[15]JIANG Nan， WANG Kuiran， PENG Xiaoke， et al. Anti-UAV： a large-scale benchmark for vision-based UAV tracking[J]. IEEE Transactions on Multimedia， 2021， 35（1）： 486-500.

（责任编辑：李楠）