基于融合数据关联的无人机多目标跟踪算法∗

2022-03-14周嘉麒王指辉廖万斌

舰船电子工程 2022年2期

周嘉麒王指辉廖万斌

（南京航空航天大学南京 211106）

1 引言

随着无人机在军用及民用领域的广泛应用，以无人机为平台的图像获取和处理技术在军事、交通、物流和摄影等诸多领域得到快速发展。基于无人机视觉的多目标跟踪技术已成为一项重要的研究课题。而无人机采集的视频中往往存在目标被遮挡而发生身份跳变的问题，因此研究一种高效、鲁棒的无人机多目标跟踪算法对无人机的应用具有十分重要的意义。

在已提出的多目标跟踪（Multiple Object Track⁃ing，MOT）算法中，有一些是全局优化的视频批处理算法，它们的跟踪框架大多基于最小成本流法和概率图模型［1～3］。然而，批处理方法不能达到实时检测和跟踪的目的。因此，另一部分基于在线处理的跟踪算法更具实用性，满足当前任务的要求。例如，多假设跟踪算法（Multiple Hypothesis Tracking，MHT）［4～5］和联合概率数据关联过滤器（Joint Proba⁃bilistic Data Association，JPDA）［6～7］的在线算法在逐帧的基础上执行数据关联，其精度也排在MOT基准的前列。然而，包括上述两种方法在内的许多在线跟踪器对遮挡问题执行复杂处理，无疑增加了计算复杂性。

SORT（Simple Online and Real-time Tracking，SORT）［8～10］是一个在实际应用中使用较为广泛的一个算法，它使用经典有效的方法，即卡尔曼滤波器［11］和匈牙利算法［12］，来处理跟踪问题中的运动预测和数据关联。将前一帧和当前帧发送给跟踪器进行处理，最简单的跟踪方法虽然能提高在线跟踪的效率和可靠性，但难以解决长期遮挡和目标识别问题，随后，Wojke［13］等提出基于表观特征的深度关联度量的在线实时跟踪方法，即基于TBD策略的DeepSORT算法，解决了目标的重新识别问题。卷积神经网络（Convolutional Neural Networks，CNN）［14］用于大规模行人识别数据集，借助ReID（Re-identification，ReID）领域模型加入了外观信息，深度神经网络对特征的强大表达用于建立跟踪问题中的明显特征，并将数据关联转化为运动信息与表观特征相结合的度量，解决了跟踪过程中遮挡造成ID Switch的缺陷。尽管新的度量在一定程度上减少了遮挡的干扰，但这个问题仍然无法消除。使用基于检测的跟踪方法必须将准确的检测结果输入跟踪器，以便在线实时跟踪。然而，传统的目标检测算法精度差，无法给出准确的检测结果，使得后续跟踪难以达到更高的精度，甚至造成更多的失配。因此，本文将基于深度神经网络的YOLOv4-ti⁃ny［15］目标检测算法集成到DeepSORT跟踪算法框架中。利用YOLOv4检测到的目标作为后续跟踪的基础，完成无人机多目标跟踪的实现与优化。

由于无人机视频是以帧格式呈现的，如果目标检测器能够准确地识别每帧中的多个目标，那么在线多目标跟踪问题可以简化为数据关联，为了提高在线多目标跟踪的性能，提出了一种融合型数据关联框架，该框架结合了局部数据关联和全局数据关联的优点。根据实验结果和数据集的性能指标，与基准的YOLOv4-DeepSORT算法对比，提升了跟踪准确度，且降低了身份跳变次数。

2 算法概述

基于目标检测的多目标跟踪策略，也称为TBD（Tracking By Detection）策略，是当前MOT算法研究的热点。本文采用的TBD策略为先用YOLOv4-ti⁃ny检测进行目标检测，再用DeepSORT进行多目标跟踪。具体实现步骤：首先使用YOLOv4-tiny目标检测算法对当前无人机视频中的行人及车辆进行检测，得到其位置坐标、分类及可信度；其次使用卡尔曼滤波算法预测下一帧的目标框状态，对预测结果和测量结果进行更新；紧接着使用匈牙利算法将当前检测到的目标与上一帧检测到的目标进行级联匹配，得到关联的目标框；最后根据匹配结果将关联的目标框作为观测值更新状态，得到当前帧的更新结果。具体的算法流程图如图1所示。

图1 基于TBD策略的算法流程图

3 基于YOLOv4-tiny的无人机目标检测

基于TBD的MOT系统中，检测器对跟踪效果的鲁棒性和速度有很大的影响，且随着目标数量的增加，运行速度显著变慢。因此，综合考虑跟踪性能和速度，本文采用高效的YOLOv4-tiny来实现检测精度和速度之间的平衡。区别于YOLOv4［16～17］的深层复杂网络结构，YOLOv4-tiny是一种轻量级卷积神经网络，其网络结构如图2所示。

图2 YOLOv4-tiny网络结构

YOLOv4-tiny采用CSPDarknet53-tiny网络作为骨干网络，应用CBLblock和CSPBlock进行特征提取。其中，CBLblock包含卷积运算（Convolution⁃al）、批量标准化（BN）和激活函数。为了减少计算量，激活函数采用LeakyRelu函数，其定义如下：

其中ai是大于1的常量。CSPBlock采用跨阶段部分连接结构，将输入特征映射分为两部分，并在跨阶段残差中将这两部分连接起来。CSPBlock在保证网络检测精度的同时，可以显著降低10%～20%的计算复杂度。在多特征阶段，YOLOv4-tiny构建特征金字塔网络来提取特征，通过特征金字塔网络，可以得到两个不同大小的有效特征图。为了评估检测率，YOLOv4-tiny根据目标的分类和定位采用特征映射。

预测过程中，YOLOv4-tiny将输入图像划分为大小为S×S的网格，CSPDarknet53-tiny将13×13的特征层与26×26的特征层进行，最后会分别生成通道数为na×(nc+5)的两个输出通道，na代表锚框数量，nc为类别数。26×26的通道预测小目标，13×13的通道预测大目标。随后，为了减少冗余的边界框，我们可以计算每个检测框的置信度得分。置信度分数低于预设阈值的检测将被删除。每次检测的置信度得分Conf定义为

其中P(object)表示检测框包含对象的可能性，若网格中含有目标则P(object)=1，反之P(object)=0。表示真实值边框与预测值边框的交并比，可表示为

为计算预测框和真实框之间的类别误差。采用分类损失函数为

其中，i,j表示第i个网格的第j个边界框，若包含对象，反之，不包含对象表示边界框包含目标真实值的可能性，pi(c)表示边界框包含目标预测值的可能性。YOLOv4-tiny采用预测框更加符合真实框的CIoU损失函数［18］进行边界框回归。CIoU损失函数定义如式（5）所示：

其中，ρ2表示欧氏距离，bpred,btruth分别表示area(pred)，area(truth）的中心点，c为真实框和预测框的最小包围框的对角线长度，wtruth、htruth表示真实框的宽度和高度，wpred、hpred表示预测框的宽度和高度。随后得到其位置坐标、分类及置信度，将每个视频帧的检测结果发送到数据关联模型，以接收目标的关联结果。

4 基于DeepSORT的无人机多目标跟踪

DeepSORT算法在SORT算法的基础上增加了级联匹配和新轨迹的确认，以检测结果的边界框和置信度为输入，经过卡尔曼滤波器预测轨迹，将预测得到的新轨迹通过匈牙利算法和无人机视频的当前帧进行级联匹配和IoU匹配，最后进行卡尔曼滤波更新。本文主要针对DeepSORT算法中的级联匹配的数据关联方法进行优化，在原有基础上减少了ID Switch的次数，有效降低了遮挡的干扰。

在MOT研究领域，数据关联属于个体检测技术的子领域。DeepSORT算法通过数据关联的间接方法，将复杂的多目标跟踪问题分解为几个简单的子问题，在无约束环境下表现出良好的跟踪性能。数据关联的标准方法是逐帧递归，以匹配现有轨迹和更新后的检测结果。局部关联匹配方法具有较高的计算效率，由于时间是局部的，因此局部数据关联适用于在线跟踪。但局部数据关联仅针对单帧检测匹配对象，当存在运动突变、对象检测错误或匹配错误等因素时，可能会导致严重的不可修复错误，这一弱点直接影响在线多目标跟踪的性能。为了克服局部数据关联方法的不足，对整个视频帧进行全局数据关联来推断多目标跟踪的最优轨迹。全局数据关联方法考虑了多帧之间更多的关联假设，能够有效地减少频繁遮挡或运动突变引起的跟踪误差。然而，全局数据关联是在获取整个视频帧的前提下进行的，对于复杂场景和长视频来说效率很低，因此难以应用于无人机在线视频的实时跟踪。

为了提高在线多目标跟踪的性能，本文提出了一种融合型数据关联框架，该框架结合了局部数据关联和全局数据关联的优点。

4.1 融合型数据关联框架

融合型数据关联方法的核心思想是在时间窗内找出现有轨迹与连续视频帧检测之间的相关性。与最小费用网络流模型类似，融合型数据关联框架将每个现有轨迹识别为特定对象。所有对象和关联可能性组成一个网络，其中对象由网络的节点表示，关联可能性由边缘表示，边缘代价用来衡量关联的可能性。然后，该方法的实现转化为通过指定对象流的最小代价来寻找最佳关联。为了实现该方法，引入一个虚拟对象来识别新的对象，该对象被认为是轨迹的原点。根据不同的现有轨迹，建立一个特定的模型，将特定对象与其他对象和背景区分开来，用于计算网络各方的成本。

4.2 边缘代价函数

本文使用边缘代价函数度量关联的可能性，并评估特定对象流的最小代价以找到最佳关联。假设现有轨迹集为，其中Hj是第j条轨迹，K是轨迹总数。该检测集合表示为，其中xi是第i次检测的检测结果，N是检测的总次数。同时引入了一个有向网络W（X），它具有多个起点STJ和终点ENJ，其中j∊{1,2,3…，K}，第j条轨道的起点和终点表示为 (STJ,ENJ）。

当YOLOv4-tiny检测到新的目标时，引入虚拟对象的起点和终点表示为(ST0,EN0），轨迹的起始边缘代价和结束边缘代价表示为（ST，UI）和（vi，EN)。定义起始边缘的成本和流量为权重CSTi和权重CENi，结束边缘的成本和流量为权重FSTi和权重FENi，由起点STJ,发送的流量由终点ENJ接收。在检测的集合中存在∀xi∊X，与其对应的一对节点(ui,vi)由观测边缘连接，权重为Ci和Fi；其检查点(xi,xj)由带有权重Cij和Fij的移动边缘表示，其中Cij是成本，Fij是流量。

使用该网络，将多目标跟踪问题转化为在多组起始点和结束点之间寻找最佳对象流，以最小化总成本，如式（6）所示：

将式（6）应用于现有轨迹集的所有轨迹，并添加每条轨迹的起始成本、结束成本、观测成本和迁移成本。多目标跟踪的最小化总成本的公式可以表示为式（7）：

其中η是衰减系数，并且O表示两个边界框之间的重叠比率。

其中函数ϕ用于评估轨迹Hh和对应对象的相似度。mh表示跟踪轨迹Hh的外观特征，mi表示检测结果xi经过卷积神经网络提取的外观特征，然后对轨迹的外观特征进行分析，最后以10帧的平均外观特征输出。当两个特征属于同一个对象时，函数ϕ给出高相似度分数，当两个特征不匹配时，给出低相似度分数。在相似度函数前增加一个负号，构成观测成本，当相似性得分为正时，观察成本为负，对于虚拟对象，设置负相似性分数。

其中mj表示检测结果xj经过卷积神经网络提取的外观特征。

5 实验结果

为了验证本算法在无人机多目标跟踪任务上的有效性，选用 Visdrone2019-MOT［19］多目标跟踪数据集作为数据集进行仿真测试，Vis⁃drone2019-MOT包含63段完整标注的无人机多目标跟踪视频，主要目标为行人及车辆，该数据集与本次实验背景有较高的契合度。实验平台采用In⁃tel i5-9400F处理器，Nvidia GTX 1660 Ti显卡，内存为16G、Windows 10操作系统。

本实验使用CLEAR-MOT［20］定义的多项指标来评估本算法模型的跟踪轨迹结果，如多目标跟踪准确度 MOTA（Multiple Object Tracking Accuracy，MOTA）、多目标跟踪精度MOTP（Multiple Object Tracking Precision，MOTP）、命中的轨迹假设占ground truth总轨迹的比例（MT）、丢失的目标轨迹占ground truth总轨迹的比例（ML）、误检总数（FP）和漏检总数（FN）作为评判标准以及表示目标丢失次数的身份跳变次数（ID-S）。

通过对测试集Visdrone2019-MOT中无人机视频的目标进行跟踪来验证对本算法对于无人机多目标跟踪的优化，并将测试序列的多目标跟踪结果进行可视化，其结果如图3～图5所示。实验结果列于表1。

图3 车辆跟踪结果图

图4 行人跟踪结果图

图5 行人、车辆跟踪结果图

图3为视频序列uav0000268_05773_v对车辆的跟踪效果；图4为视频序列uav0000084_00000_v对行人的跟踪实验效果；图5为视频序列uav0000315_00000_v对行人和车辆的跟踪效果，不同颜色的矩形框代表跟踪框，左上角标注了目标类别和ID序号。

由表1可知，本文算法在视频序列uav0000268_05773_v上效果最佳，在视频序列uav0000084_00000_v上效果最差，这是因为序列uav0000084_00000_v中行人目标过小，基数庞大且分布集中，易发生遮挡而造成误检和漏检现象，导致误差较大，跟踪效果差。在视频序列uav0000315_00000_v相对背景比较鲜明，车辆目标大小适宜，跟踪效果良好，但又部分行人目标较小，导致行人跟踪效果一般。

表1 本文算法在测试集Visdrone2019-MOT不同序列上的量化跟踪结果

为验证基于融合数据关联算法能有效降低身份跳变次数，选用多个交通目标在遮挡条件下的场景，与基准YOLOv4-tiny DeepSORT算法进行了对比，遮挡效果截图如图6、图7所示。实验结果列于表2。

图6 基准YOLOv4-tiny DeepSORT算法跟踪结果图

图7 基于融合数据关联的YOLOv4-tiny DeepSORT算法跟踪结果图

表2 本文算法与基准算法跟踪结果对比

由表2所示，本文算法的跟踪准确度为62.5%，比基准算法跟踪准确度提升1%，身份跳变次数减少4%，从而证明了本文算法有良好的跟踪准确度且可有效解决目标被遮挡问题而造成ID Switch的问题。

图6为基准YOLOv4-tiny DeepSORT算法跟踪结果图，第一张图片为第185帧目标被遮挡发生前，人行道上白车前的行人ID序号为75；第二张图片第209帧目标被遮挡，此时发生身份跳变，行人ID序号跳变为59；第三张图片为第223帧目标遮挡过程已结束，行人ID序号依然为59，说明基准YO⁃LOv4-tiny DeepSORT不能完全改善因遮挡造成ID Switch的缺陷。图7为基于融合数据关联的YO⁃LOv4-tiny DeepSORT算法跟踪结果图，第一张图片为第185帧目标被遮挡发生前，人行道上白车前的行人ID序号为5；第二张图片第209帧目标被遮挡，因发生遮挡造成目标丢失；第三张图片为第223帧找回丢失目标，行人ID序号依然为5，由此可见，基于融合数据关联的YOLOv4-tiny DeepSORT算法比基准YOLOv4-tiny DeepSORT算法对遮挡的处理要好，有效地降低被遮挡然后再出现的目标发生的身份跳变次数，提高了无人机的跟踪性能。

6 结语

本文提出了一种融合型数据关联框架，基于YOLOv4-tiny目标检测算法和DeepSORT目标跟踪算法可实现无人机视频中多目标的实时检测与跟踪，仿真结果表明，与基准算法相比跟踪准确度提升1%，身份跳变次数减少4%，能够有效改善目前无人机多目标跟踪任务中由于遮挡而发生身份跳变的问题。融合型数据关联框架也会有不足之处，比如在跟踪视频时会导致在时间帧(a+1)处发生延迟，即便如此，也可以在要求时间内完成有效的在线多目标跟踪问题，后续可作进一步研究。