基于改进的Transformer加Anchor-free网络的多目标跟踪算法

2022-03-25张文利辛宜桃陈开臻赵庭松

测控技术 2022年2期

张文利，辛宜桃，杨堃，陈开臻，赵庭松

(北京工业大学信息学部，北京 100124)

近年来，基于深度学习的计算机视觉应用快速发展，多目标跟踪领域作为重要的研究方向之一，其在视频监控、智能安防、智慧建筑等领域[1-3]有非常广泛的应用。多目标跟踪主要是对场景中各个目标进行定位，随后基于时序上下文信息实现目标之间的关联匹配，形成各个目标的跟踪轨迹。虽然近年来多目标跟踪领域取得了很大成果，但是实际场景中目标之间的遮挡、背景杂乱问题使得该领域仍然面临挑战。

目前有许多研究人员对多目标跟踪算法进行研究，部分研究人员[4-5]采用锚框的方式定位目标，即从预先设置的多个锚框筛选出置信度最大的锚框，然后回归定位场景中的各个目标，因此将此类算法统称为Anchor-based多目标跟踪算法。

但是，Anchor-based多目标跟踪算法存在未解决的问题，当场景中目标聚集时，由于设置了多个锚框，导致一个锚框对应多个目标或多个锚框对应一个目标，从而产生错误的目标位置，降低了多目标跟踪算法的准确性。因此，有研究人员[6-7]提出采用Anchor-free多目标跟踪算法跟踪场景中的各个目标，即抛弃复杂的锚框设置，通过特征图直接区分目标和背景，并回归边界框以获取目标的位置。

尽管Anchor-free多目标跟踪算法降低了目标定位和特征表示的歧义性，可以比较准确地区分密集场景下的各个目标，但实际场景中目标间的相互遮挡仍是多目标跟踪算法面临的重大挑战。目前，有研究人员提出一些改进的多目标跟踪算法以提高算法在遮挡情况下的准确性。左国才等[8]通过引入注意力加权机制，设计了基于VGG16网络抗遮挡的多目标跟踪模型，使模型更加关注对运动目标有用的正样本信息，解决了多目标跟踪过程中目标相互遮挡而导致的跟踪漂移问题；刘金文等[9]通过检测器对场景中的目标进行定位，并使用CNN(Convolutional Neural Network,卷积神经网络)估计场景的人群密度图，用于修正检测器的定位结果，从而解决遮挡情况下多目标跟踪算法定位精度差的问题；周志海等[10]采用了区域质量的评估网络技术，再联合多帧的检测结果，用加权的形式恢复被遮挡部分，提高跟踪结果的准确率。上述算法虽然有效提高了遮挡情况下目标的定位精度，但没有判断目标间的遮挡情况与保存被遮挡目标的身份信息，这使得遮挡消失后重新出现的目标的身份信息发生错误切换，降低了多目标跟踪算法的准确性。

目前，有许多研究人员提出了遮挡判断方法来确定目标的遮挡状态。依据遮挡判断方法使用的输入图像，可将遮挡判断方法分为基于RGB图像的遮挡判断方法和基于RGB-D图像的遮挡判断方法。

① 基于RGB图像的遮挡判断方法。An等[11]利用CNN分别提取检测目标特征与模板目标特征，根据检测目标与模板目标之间的IoU(Intersection-Over-Union)和检测目标特征与模板目标特征的相似度得分判断目标的遮挡状态。但是基于CNN的方法对于图像的有效感受野小于理论感受野[12]，仅利用了输入图像的局部空间特征做遮挡判断，导致密集场景下遮挡判断任务的精度较差。就遮挡判断任务而言，可以依据场景中目标之间的空间位置关系将目标之间的状态分类为遮挡状态与未遮挡状态，Transformer模型作为自然语言处理领域的主流模型，最近有研究人员[13]将其迁移至图像分类领域并取得了良好效果。Transformer模型通过空间等分将输入序列切分为多个尺寸相同的子区域，充分利用了输入图像的全局空间位置关系，有利于判断目标之间的遮挡状态。

② 基于RGB-D图像的遮挡判断方法。深度图像可以较好地反映目标的深度距离信息和边缘轮廓信息，可以辅助RGB图像更好地完成遮挡判断任务。Luiten等[14]通过分割网络得到目标区域的分割掩码，并利用分割掩码内各点的深度值确定掩码区域的有效性，随后将掩码区域映射到三维世界坐标，通过判断掩码的三维点和预估的三维边界框的位置关系判断目标的遮挡状态，但是该方法需要三维场景重构，导致网络结构复杂且需要大量的计算资源。

因此提出了一种基于改进的Transformer加Anchor-free网络的多目标跟踪算法TransAnfMOT(Transformer-Anchor-free-MOT)，该算法可以有效解决目标遮挡引起的身份信息切换问题，提升多目标跟踪算法的稳定性和准确性。所提的算法具有以下创新点：

① 针对输入信息无法被有效利用从而导致遮挡判断方法精度低的问题，提出RGB-D特征融合方法提高Transformer模型判断遮挡情况的精度。通过跨层特征融合(Cross-Layer Feature Fusion)方法和注意力机制(Convolutional Block Attention Module，CBAM)对RGB图像和Depth图像进行特征融合以获取高质量的RGB-D特征，之后通过Transformer分类模型判断目标的遮挡状态，提高遮挡判断任务的精度。

② 针对密集场景下目标遮挡导致身份信息变化的问题，设计了基于搜索区域和外观特征的身份信息恢复策略对遮挡消失后重新出现的目标继续跟踪，减少被遮挡目标的轨迹断连次数，从而提升目标跟踪轨迹质量。

1 总体框架

在前期研究中，为了解决目标轨迹偏移和中断问题，提出了AD-SiamMOT-RGB-D[15]多目标跟踪算法，该算法首先将输入序列切分为多个视频子序列，对每个子序列进行轨迹生成和轨迹分析。其中在轨迹生成模块中，使用YOLOv3目标检测器对视频子序列的第1帧中的目标进行定位，之后用非对称Siamese网络跟踪器对视频序列的剩余帧中的各个目标进行跟踪，最后在轨迹分析模块中使用匈牙利匹配算法连接各个视频子序列的目标轨迹，以此生成多条目标跟踪轨迹。该算法在特定的时间内使用单目标跟踪辅助多目标跟踪，同时通过判断目标轨迹质量确定目标的跟踪轨迹，在一定程度上缓解了遮挡情况引起的目标身份信息丢失问题，而单目标跟踪算法的引入使多目标跟踪的速度受到影响。笔者以CenterTrack算法[6]为基础模型，提出了一种基于改进的Transformer加Anchor-free网络的多目标跟踪算法TransAnfMOT。

1.1 算法整体结构

所提算法TransAnfMOT的整体结构如图1所示。整个算法以RGB图像和Depth图像作为输入，首先将RGB图像输入至目标检测模块，获取当前帧中各个目标的位置信息；其次关联匹配模块通过贪婪匹配对当前帧各个目标的检测结果以及上一帧图像中各个目标的跟踪结果进行关联，获得关联成功的结果和关联失败的结果，其中关联失败的结果包括未匹配的检测结果和未匹配的跟踪结果；之后遮挡恢复模块对关联匹配结果分别进行处理，得到当前帧各个目标的跟踪结果，获取多条目标跟踪轨迹。然后利用当前帧各个目标的跟踪结果筛选出可能发生遮挡情况的相邻目标，通过RGB-D相邻目标裁剪模块裁剪相邻目标对应的RGB图像和Depth图像，并将裁剪后的RGB图像和Depth图像输入至遮挡判断模块，判断目标之间的遮挡状态，若目标之间处于遮挡状态，则保存被遮挡目标的跟踪信息。

图1 基于改进的Transformer加Anchor-free网络的多目标跟踪算法整体结构

1.2 遮挡判断模块

由于目标之间的遮挡经常导致被遮挡目标的身份信息频繁切换，因此需要准确地判断目标的遮挡状态并设置良好的恢复策略。根据目标之间的空间位置关系，可以将目标之间的状态划分为遮挡状态与未遮挡状态，因此对目标之间空间关系的充分利用至关重要。而Transformer模型通过对输入数据进行空间等分操作，充分发挥了输入数据中全局空间关系的作用，有利于完成遮挡判断的分类任务。现有的Transformer模型利用RGB图像作为输入数据，虽然可以有效区分外观特征明显不同的目标之间的遮挡状态，但是难以应对场景中目标外观特征相似、位置距离相近的情况。

为解决上述问题，设计了一种基于跨层融合和注意力机制的遮挡判断模块。该模块通过CFF模块和CBAM模块实现RGB图像特征和Depth图像特征的有效融合，获取高质量的RGB-D图像特征，之后通过Transformer模型判断目标之间的遮挡状态。在获取到当前帧的各个目标跟踪结果后，通过各个目标位置之间的欧式距离以及IoU筛选出可能发生遮挡情况的相邻目标，将保留下来的相邻目标对应的RGB图像和Depth图像进行裁剪，作为遮挡判断模块的输入。遮挡判断模块的流程如图2所示，具体步骤如下。

图2 基于跨层融合和注意力机制的遮挡判断

(1)以RGB图像和Depth图像作为输入，对二者进行通道合并操作。

(2)设计CFF模块得到融合后的RGB-D图像特征。首先通过两层卷积网络Conv1、Conv2增强RGB图像和Depth图像之间的输入信息相关，然后对卷积网络Conv1和Conv2输出的特征进行通道合并操作，获取更加丰富的特征表达，其中卷积网络Conv1、Conv2均由卷积核为7*7、填充为3的卷积层和ReLU激活层组成。

(3)利用CBAM模块提取RGB-D图像特征中的目标语义信息和目标空间位置信息，获取高质量的RGB-D特征。通道注意力和空间注意力的计算公式为

(1)

(2)

(4)将融合后的RGB-D特征进行空间等分操作，充分利用输入RGB-D特征的全局信息，随后通过Transformer遮挡判断模块对目标之间的遮挡状态进行判断，若目标之间发生遮挡，则将深度距离大的目标记为被遮挡目标，并保存其跟踪信息(包括被遮挡目标位置信息、被遮挡目标外观特征信息、被遮挡目标身份信息)，随后将跟踪信息输出至遮挡恢复模块；若目标之间未发生遮挡，则不进行任何操作，直接进入遮挡恢复模块。其中，Transformer遮挡判断模块主要包括以下部分。

① 图像特征预处理。首先通过空间等分操作得到多个大小相同的RGB-D图像特征块，之后对每个图像特征进行线性变换，以降低图像特征维度。随后，使用一维的Position Embedding对图像特征块的位置信息进行编码，同时，通过Class Token的处理，可以从Transformer编码器的输出获取图像特征，进而实现对图像的分类。其中，Position Embedding的设置与图像特征块的数量和维度有关。

② Transformer编码器处理。Transformer编码器包括12层编码块，每一层编码块主要包括多头自注意力(Multi-Head Attention，MHA)模块和多层感知器(Multi-Layer Perceptron Neuralnetworks，MHP)模块。输入特征在MHA模块和MHP模块的计算过程分别为

(3)

(4)

式中：LN代表卷积层归一化处理。

Transformer编码器的结构如图3所示。

图3 Transformer编码器的结构

③ 目标类别判断。该模型根据Transformer编码器输出的特征，输入至分类器中判断目标间的遮挡状态。在实际场景中，可以根据目标之间的位置距离关系，将目标间的遮挡状态分为两种：目标遮挡状态、目标未遮挡状态。

为了直观展示Transformer的功能与效果，对多头注意力进行了可视化，可视化结果如图4所示。

图4 Transformer多头注意力可视化结果

由图4可以看到，Transformer模型对输入图像的不同区域分配了不同权重的注意力，红色黄色区域代表Transformer模型分配的注意力权重较大，蓝色紫色区域代表Transformer模型分配的注意力权重较小。其中，与遮挡分类任务相关的目标区域获得了较大权重的注意力，与遮挡分类任务无关的背景区域获得了更小权重的注意力，这表明Transformer模型的多头注意力有效提取了对遮挡分类任务最有帮助的目标区域的特征，进而准确完成目标遮挡状态的分类任务。

1.3 遮挡恢复模块

在目标人员运动过程中，经常发生目标间的相互遮挡情况，导致被遮挡目标短暂消失在视野中，其身份信息会被多目标跟踪算法消除，当消失的目标重新出现后，会被赋予新的身份信息，从而造成目标轨迹断连。笔者提出基于搜索区域和外观特征距离的遮挡恢复模块，对遮挡消失后重新出现的目标继续跟踪，提升目标跟踪轨迹的稳定性和准确性。

遮挡恢复模块流程如图5所示，其具体步骤如下。

图5 基于搜索区域和外观特征距离的遮挡恢复

① 获取关联匹配模块的结果(包括匹配成功的目标、未匹配的跟踪目标、未匹配的检测目标)和遮挡判断模块的结果(包括被遮挡目标位置信息、被遮挡目标外观特征信息、被遮挡目标身份信息)。

② 对于匹配成功的目标，将互相匹配的跟踪目标的身份信息设置为检测目标的身份信息，之后将包含身份信息的检测目标添加至跟踪结果中。

③ 对于未匹配的跟踪目标，通过比较未匹配的跟踪目标身份信息与被遮挡目标的身份信息，若二者身份信息相同，则表明未匹配的跟踪目标中存在被遮挡的目标，因此设置被遮挡目标标志，包含被遮挡目标搜索区域、被遮挡目标外观特征信息、被遮挡目标身份信息。将目标消失之前的跟踪位置作为搜索区域以捕获重新出现的目标。

④ 对于未匹配的检测目标，若被遮挡目标标志存在，则计算检测目标的边界框的中心点，若被遮挡目标搜索区域内包含检测目标的中心点，则计算被遮挡目标的外观特征与未匹配的检测目标的外观特征之间的余弦距离，计算公式为

dis=cos(Freid1,Freid2)

(5)

式中：dis为两个目标的外观特征Freid1、Freid2间的距离；Freid1为目标1的外观特征；Freid2为目标2的外观特征。目标之间外观特征的余弦距离越大，代表两个目标是同一目标的可能性越大。若目标的外观特征之间的余弦距离大于预先设定的阈值，则将被遮挡目标的身份信息赋给未匹配的检测目标身份信息，保证二者的身份信息相同，恢复对同一目标的持续跟踪。

2 实验分析

2.1 实验细节

2.1.1 硬件设备

提出的改进的多目标跟踪算法TransAnfMOT是基于PyTorch框架完成的，所用的计算机环境配有GeForce GTX 3090型号GPU、Intel i7 8th型号CPU。

2.1.2 数据集

在3个公共数据集(MICC数据集[16]、EPFL数据集[17]、UM数据集[18])进行实验，这些数据集包括了不同程度的人员密集、人员遮挡情况，具有较大的挑战性。

MICC数据集包括Flow、Groups和Queue序列，这些序列均由固定拍摄角度的RGB-D相机拍摄，分别模拟了实验室场景中人员双向流动、人员聚集、人员顺序排队的运动情况。

EPFL数据集包括EPFL-LAB序列和EPFL-CORRIDOR(EPFL)序列。其中，EPFL-LAB序列由架设在实验室场景下的RGB-D相机拍摄；EPFL序列由架设在室内走廊场景下的RGB-D相机拍摄，这些序列包括人员交替前进的运动情况，并且场景中人员数量较多，人员遮挡情况严重，具有很大的挑战性。

UM数据集包括4条视频序列，它们由架设在实验室场景下的RGB-D相机拍摄，包括了不同程度的人员遮挡情况。

从MICC数据集选取了3363对RGB-D图像、从EPFL数据集选取了4190对RGB-D图像以及从UM数据集选取了2662对RGB-D图像用于实验。根据7∶3的比例对10215对RGB-D图像进行划分，7148对图像用于算法训练，3067对图像用于算法测试。其中，训练数据集包括Flow序列、EPFL2-EPFL5序列和UM_Scene1、UM_Scene2序列，测试数据集包括Groups序列、Queue序列、EPFL1序列。在训练基于CFF和CBAM的遮挡判断模块时，将距离较远的目标设置为未遮挡状态，将距离较近且目标之间有重叠的目标设置为遮挡状态。

2.1.3 评价指标

① 为验证所提遮挡判断模块的有效性，使用分类精度(Accuracy)评估模块的性能。该指标是指正确预测的目标数目与真实目标数目之间的比值，其数值越大，代表遮挡判断模块的判断精度越高，计算公式为

(6)

式中：TP为正确预测的正例；TN为正确预测的负例；FP为错误预测的正例；FN为错误预测的负例。

② 为验证所提遮挡恢复模块和所提算法TransAnfMOT的有效性，使用了MOT[19]挑战赛提出的评价指标作为评估标准。在多目标跟踪算法的评估标准中，主要关注的是MOTA指标和MOTP指标。其中，MOTA指标主要关注跟踪器的出错次数，跟踪器发生错误的次数越少，MOTA指标越高，代表跟踪器性能越好。其计算公式为

(7)

式中：FN为跟踪器未检测到目标的次数；FP为跟踪器错误预测目标的次数；IDS为目标身份信息切换的次数；GT为真实目标的数量。

MOTP指标主要关注目标位置边界框与真值边界框之间的距离，该距离越小，MOTP指标越高，代表跟踪器定位越准确。其计算公式为

(8)

式中：dt,i为目标的预测框和真值框之间的平均度量距离(这里指IoU距离)；ct为当前帧匹配成功的数目。

另外，评估标准中所用的FM指标代表跟踪过程中一条目标轨迹断连的次数，该指标越低，代表目标跟踪轨迹越稳定。

2.2 实验结果与讨论

2.2.1 消融实验

(1)遮挡判断模块有效性。

进行了消融实验，以验证所提遮挡判断模块中各个组件(包括RGB图像、Depth图像、CFF和CBAM)对遮挡判断精度的影响。使用Transformer模型作为基础的遮挡判断模型，通过采取不同的组件对输入图像进行处理以提升遮挡判断模块的精度。在Groups序列、Queue序列、EPFL1序列上进行测试，并将3个序列的遮挡判断精度均值作为最终评价指标,不同组件下遮挡判断模块的精度如表1所示。

表1 不同组件下的遮挡判断精度

如表1所示，通过引入Depth图像，遮挡判断模块的精度提升了8.20%，表明RGB图像和Depth图像可以实现多模态信息互补；通过引入CFF，遮挡判断模块的精度提升了8.25%，表明CFF通过融合不同卷积层的特征，获取了丰富的特征信息；最后，通过引入CBAM，遮挡判断模块的精度提升了1.73%，表明CBAM关注对遮挡判断任务最有帮助的特征，获得了更具判别力的特征表达。

综上所述，所提遮挡判断模块中各个组件(包括Depth图像、CFF和CBAM)均有利于提升输入信息的质量，进而提高了遮挡判断模块判断目标之间遮挡状态的精度。

(2)遮挡恢复模块有效性。

为验证提出的遮挡恢复模块有效性，采用CenterTrack多目标跟踪算法和所提出的TransAnfMOT多目标跟踪算法分别在Groups序列、Queue序列、EPFL1序列上进行测试，测试结果如表2所示。

由表2可以看出，所提出的TransAnfMOT的MOTA指标在Groups序列、Queue序列、EPFL1序列上均优于原始CenterTrack算法。在遮挡情况较多的Groups序列、Queue序列上，与原始CenterTrack算法相比，所提出的TransAnfMOT算法的MOTA指标分别提升了11.47%、4.86%，需要注意的是，在人员数量较多的EPFL1序列上，MOTA指标从75.4提升至96.5，获得了27.98%的MOTA指标增长。其中在Groups序列、Queue序列和EPFL1序列上，FN指标均有不同程度下降，FP指标除在Groups序列有一定程度上升以外，在其他两个序列都呈下降趋势；同时在3个序列上，衡量目标身份信息变化次数的IDS指标、目标跟踪轨迹的断连次数的FM指标也实现了不同程度的下降。上述结果表明所提出的遮挡恢复模块可以减少目标身份信息切换次数，有效解决了目标轨迹断连错误，提升了多目标跟踪算法的稳定性和准确性。

表2 不同数据集下添加遮挡恢复模块前后的多目标跟踪结果

2.2.2 对比实验

为证明所提多目标跟踪算法TransAnfMOT的有效性，选择了Anchor-based的经典多目标跟踪算法Sort[4]、Deepsort[5]，Anchor-free的经典多目标跟踪算法FairMOT[7]、基准算法CenterTrack[6]以及近年来解决遮挡跟踪效果较好的多目标跟踪算法AD-SiamMOT-RGB[15]、

采用AD-SiamMOT-RGB-D[15]、SST[20]、KV-IOU[21]。分别在Groups序列、Queue 序列和EPFL1序列上进行测试，测试结果如表3所示。

表3 不同测试数据集下各个多目标跟踪算法的跟踪结果

如表3所示，提出的算法TransAnfMOT在Groups、Queue、EPFL1这3个序列上的MOTA指标分别达到了55.4、86.3和96.5，均取得了比较有竞争力的结果。针对MOT挑战赛中主要关注的MOTA指标，对各个算法从高到低排序，各个算法的排序结果由表3中的Rank指标展示。

具体地，在Groups序列上，与MOTA指标排名第二的FairMOT相比，所提算法TransAnfMOT的MOTA指标提升了7.78%，其中FN指标和FM指标的下降说明TransAnfMOT可以有效减少漏检次数和轨迹断连次数，有利于提高目标跟踪轨迹的稳定性；在Queue序列上，与MOTA指标排名第二的FairMOT相比，所提算法TransAnfMOT的MOTA指标获得了3.11%的增长，同时FN指标和FM指标都有所下降，这证明了TransAnfMOT对于提高目标跟踪轨迹质量的有效性。需要注意的是，在人员数目较多的EPFL1序列上，与MOTA指标排名第二的FairMOT算法相比，所提算法TransAnfMOT的MOTA指标大幅提升，从77.9提升至96.5，实现了23.88%的指标增长。其中衡量跟踪器未检测到目标次数的FN指标和衡量跟踪器错误预测目标次数的FP指标均明显下降。

上述结果表明，所提的算法TransAnfMOT在3个数据集上均取得了比较有竞争力的结果，可以有效减少目标漏检和目标轨迹断连的次数，有利于提升多目标跟踪算法的跟踪精度和稳定性。

为了直观地展示所提TransAnfMOT的跟踪效果，图6分别展示了TransAnfMOT在Groups、Queue、EPFL1这3个序列下的可视化跟踪结果。

图6 不同序列下的可视化跟踪结果

另外，就多目标跟踪算法的跟踪速度而言，所提算法的跟踪速度有所下降。未来的改进方向是对Transformer模型进行轻量化操作，通过删减网络结构中冗余的模块，均衡Transformer模型的精度和速度。对于外观特征距离恢复模块，将设计精简有效的外观特征提取网络，保证外观特征质量的同时降低外观特征维度以提升外观特征恢复模块的速度。通过上述操作将进一步提高多目标跟踪算法的速度，以均衡多目标跟踪算法的精度和速度。

3 结束语

提出了一种基于改进的Transformer加Anchor-free网络的多目标跟踪算法TransAnfMOT。该算法有2个主要的特点：首先通过CFF和CBAM融合RGB图像和Depth图像，可以提升融合的RGB-D图像特征的质量，从而提高Transformer模型判断目标间遮挡状态的精度；另外，通过分析目标的运动情况，设置了被遮挡目标的搜索区域，并通过外观特征距离方法对遮挡消失后重新出现的目标继续跟踪，减少了被遮挡目标身份信息切换的次数。实验结果表明，所提算法在Groups序列、Queue序列、EPFL1序列上均取得了比较有竞争力的结果，这说明该算法可以解决目标身份信息切换的问题并提高目标跟踪轨迹的稳定性和准确性。未来，将设计轻量化的Transformer模型结构和精简有效的外观特征提取网络以均衡所提多目标跟踪算法的精度和速度。