融合运动信息与表观信息的多目标跟踪算法

2020-08-30戴仁月姜晓燕

电子科技 2020年9期

黎阳，沈烨，刘敏，戴仁月，姜晓燕

(上海工程技术大学电子电气工程学院，上海 201620)

近年来，随着深度卷积神经网络的快速发展，目标检测领域取得了较大的进展。经典的目标检测算法有Region Convolutional Neural Network(R-CNN)、You Only Look Once(YOLO)、Single Shot Detector(SSD)等。此类算法具有较好的实时性与迁移性，因此基于检测的跟踪方法(Tracking-by-Detection)已逐渐成为多目标跟踪算法研究的主导方向。在跟踪面临的挑战中，确认目标轨迹通常是一个求解全局优化的问题。例如流动网络构想[1-2]和概率图形模型[3-6]已成为这种求解方法的经典框架。但是，由于离线训练模型，这些方法不适用于在每帧都必须有目标存在的在线场景。传统的方法有联合概率数据关联滤波器(Joint Probabilistic Data Association Filter，JPDAF)和多假设跟踪(Multiple Hypothesis Tracking,MHT)。这些方法在逐帧处理的基础上进行数据关联。在JPDAF中，通过关联目标的可能性对各个测量进行加权来生成单个状态假设。在MHT中，跟踪所有可能的假设，但是必须应用分配方案来处理。最近，这两种方法都在检测的情景[7-8]中进行了再次测试，并显示出了较好的结果。然而，这些方法的性能却增加了计算和实现的复杂性。简单的在线和实时跟踪(Simple Online and Real-time Tracking，SORT)[9]是一个更轻量级的框架，其使用匈牙利算法和计算边界框重叠(Intersection Over Union,IOU)的关联度量，在图像空间中运用Kalman滤波器和逐帧数据关联。这种简单方法在高帧的速率下具有较高的性能。在MOT挑战数据集中，SORT基于检测器[10]在跟踪上的性能高于基于标准检测的MHT。虽然SORT在跟踪精度和准确性方面实现了良好的性能，但其同样存在身份交换(ID Switch)的问题。这是因为所采用的关联度量仅在状态估计不确定性低时才准确。本文通过将关联度量替换为结合运动和外观信息的度量来解决此问题。通过整合整个网络，提高了模型的鲁棒性，并使系统更易于实施，可高效适用于实时在线场景。

1 算法框架

整体的算法框架包括视频采集、目标检测、目标状态估计、级联匹配和目标轨迹更新5个部分，如图1所示。首先，利用网络摄像头进行实时拍摄，通过获取的视频观察当前的目标运动状况。同时对每帧图片进行检测[11]，获取所有目标的位置信息。然后，使用卡尔曼滤波器对每个目标的运动轨迹进行状态估计，获取每个目标初始的轨迹。随着视频多帧的输入，采用级联匹配，这里形成跟踪位置和当前新的检测之间的关联分配问题。最后，依据分配结果得到相关信息，进行轨迹更新，达到实时的多目标跟踪。

1.1 目标检测

YOLO是由Redmon等[12]提出的一个端到端的网络结构，将目标检测看作回归问题，将图片划分为网格，在每个网格上通过候选框预测，输出每个候选框预测的类别概率和坐标位置。同时通过阈值筛除概率低的候选框，然后通过非极大值抑制去除冗余的候选框，最终输出结果。

随后,Redmon等[13]提出了YOLO的改进算法。该算法基于Darknet-19网络结构，包含19个卷积层、6个池化层和一个Softmax层(用于分类结果输出)。网络中大量使用3×3卷积核以提取图像中更多空间信息，并且利用池化操作压缩特征同时提升网络维度。在卷积层之后采用批量规一化进行特征分布的调整，保证训练期间数据分布不发生过大的变化。由于YOLO 算法准确率高同时检测速度快，因此适用于实时检测系统。整体网络结构如表1所示。

表1 Darknet-19网络结构Table 1. Darknet-19 network structure

1.2 状态估计

1.3 级联匹配

建立一个可利用匈牙利算法求解的分配问题，是求解预测卡尔曼状态与新到达测量值之间关系的常规方法。在这个问题中，采用级联匹配思想，通过结合两个适当的度量标准来整合运动和外观信息，最后对两个信息加权分配。

为了合并运动信息，使用预测卡尔曼状态和新到达的测量值之间的马氏距离(Mahalanobis)

(1)

其中，用(yi,Si)表示第i条轨道分布到测量空间的投影;λ表示第j条边界框的检测。马哈拉诺比斯距离通过测量检测远离平均轨迹位置的标准偏差的多少来考虑状态估计不确定性。

(2)

结合起来，两个指标通过提供指派问题的不同方面相互补充。一方面，马哈拉诺比斯距离提供关于基于运动的可能对象位置的信息，这对于短期预测较为有效；另一方面，余弦距离考虑外观信息，这些外观信息对于在长期遮挡后恢复身份也较为有效，此时运动不那么具有辨别力。为了构建关联问题，最后使用加权和来组合两个度量

ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)

(3)

超参数Lk=100可以控制每个度量对组合关联成本的影响。

1.4 轨迹更新

本文引入了一个解决一系列子问题的级联，而不是求解全局赋值问题中测量到的轨迹关联。为了采用这种方法，需要考虑一些特殊情况，例如当一个物体被遮挡更长的一段时间时，随后的卡尔曼滤波器预测会增加与物体位置相关的不确定性。这种方式可能导致轨迹碎片增加和轨迹不稳定。因此，本文引入了一个匹配的分类，如图2所示。

在最终匹配阶段，在原始SORT算法中提出的关于联合的联合过程，在未经确认和未匹配的轨迹上进一步处理。这有助于解决突然的外观变化，例如由于静态几何场景的部分遮挡，以及增加对错误初始化的鲁棒性。

2 实验评估

实验在MOT15[15]和MOT16[16]基准测试数据集中评估了跟踪器的性能。该基准测试评估具有挑战性的测试序列的跟踪性能，包括带有移动摄像头的正面视图场景下的监控设置。为了公平比较，测试在相同的检测器下进行。使用λ=0和Amax=30帧进行测试序列的评估，评估的指标如表2所示(表中lower表示越低越好，higher表示越高越好)。

表2 多目标跟踪的评估指标Table 2. Evaluation indicators for multi-target tracking

最终的评估结果显示在表3中。由表格可知，跟踪器性能显著提升成功地减少了ID Sw.的数量。通过实验分析可知，大多数跟踪对象的数量显着增加，而大多数丢失的对象减少。总的来说，表观信息的整合成功提升了模型的性能。本文的方法返回较少数量的ID Sw.，同时保持竞争性的MOTA score、track Fragmentations和False Negatives。报告的跟踪准确性主要受到大量False Negatives的影响。鉴于它们对MOTA得分的总体影响，在检测中应用更大的置信度阈值可能会增加所述算法的大幅度余量。然而，对跟踪输出的视觉检查表明这些False Negatives主要是由静态场景的目标检测器[18]响应产生的。相对较大的最大允许轨迹存在的帧数来说，这些更常见地与物体轨迹相关联。同时，实验中没有观察到经常在False Negatives之间变化的轨迹。相反，跟踪器通常在报告的对象位置处生成相对稳定的静止轨迹。本文实验大约在20 Hz，约有一半的时间消耗在了特征生成上。在现代GPU的情况下，系统可保持计算效率和实时运行状态。

表3 在数据集MOT15和MOT16进行评估的实验结果Table 3. Experimental results of evaluations in data sets MOT15 and MOT16

3 结束语

本文基于一个简单的在线跟踪框架，向其融入了目标的表观特征，使其侧重于帧与帧之间的预测和关联。实验评估结果表明,跟踪质量高度依赖于检测性能，只需加入有效的检测方法就可以实现更好的跟踪效果。文中所提出的框架在速度和准确性方面实现了较好的性能。实验突出了目标关联融合多类信息的重要性，由于加入了这种扩展，跟踪器可以通过更长时间的遮挡，所提出算法也更易于实现并可保持实时运行。