基于改进CenterTrack 的多目标跟踪算法

2023-05-10高文印单铭琦

沈阳理工大学学报 2023年3期

高文印，文峰，单铭琦

(沈阳理工大学信息科学与工程学院，沈阳 110159)

多目标跟踪技术广泛应用于计算机视觉领域中的智能视频监控、自动驾驶和人机交互中[1－2]。目前多目标跟踪算法主要分为二阶段跟踪算法和一阶段跟踪算法，其中二阶段多目标跟踪算法先通过检测器对视频帧进行处理，再对检测结果使用跟踪器处理，得到跟踪结果。 Yu 等[3]提出了一种二阶段算法，先使用Faster R-CNN[4－5]实现目标检测，再使用匈牙利算法对GoogleNet[6]提取到的特征关联完成跟踪。葛雯等[7]使用基于YOLO[8]的检测算法检测到目标，再通过滤波算法Deepsort[9]进行轨迹匹配，具有较高的跟踪精确度，但多目标跟踪算法的计算量较大，导致跟踪效率较低。一阶段多目标跟踪算法是在同一网络下同时完成检测与跟踪，例如，JDE 算法[10－11]在输出检测结果的同时可输出对应的嵌入向量，并且可以自动加权计算各项损失值；FairMOT[12]通过一个统一的网络同时完成目标检测与身份重识别两项任务；RetinaTrack 使用RetinaNet 检测器网络作为骨干网络[13]，在一个模型框架下实现多目标跟踪，具有较快的推理速度。

本文在行人密集的场景下选择使用一阶段多目标跟踪算法完成行人目标跟踪。一阶段多目标跟踪算法尽管跟踪效率得到了保证，但是跟踪精确度却不太理想。在视频中的行人堆叠遮挡的情况下，现有算法无法提取到完整的行人特征信息，导致跟踪精确度下降。本文为保证速度的同时提高跟踪精确度，在一阶段多目标跟踪算法的基础上进行改进。

郑婷婷等[14]指出，基于检测框的检测方法与跟踪任务并不契合。在跟踪任务中，使用检测框将目标检测任务转化为匹配任务，确实提高了目标检测的推理速度，但多个检测框负责估计同一个目标会产生网络歧义。基于锚点[15]的Center-Track 算法[16－17]利用目标的中心点实现目标检测，并通过中心点的偏移完成跟踪任务，可解决上述问题。因此，本文采用CenterTrack 算法作为基础模型。

在人员密集的情况下，由于大量的遮挡，CenterTrack 算法依旧无法较好提取到有用的行人特征信息，导致跟踪效果变差；跟踪部分严重依赖检测部分的检测效果，但是两部分并没有关联性，检测部分没有较好利用正确的跟踪数据。针对上述问题，本文提出改进CenterTrack 的行人多目标跟踪算法，在CenterTrack 的基础上完成三点改进。

1)设计多特征融合网络(SDLA)，增强对行人目标特征提取的能力。

2)对预测头部进行改进，加强检测与跟踪之间的关联性，通过对跟踪结果的处理增强检测精度，从而提高跟踪的精确度。

3)对数据集进行数据增强，提高算法的泛化能力。

1 CenterTrack 算法

CenterTrack 算法是将 CenterNet 模型[18]应用到跟踪领域的多目标跟踪算法，其结构如图1所示。

图1 CenterTrack 多目标跟踪模型

由图1 可见，CenterTrack 算法首先将当前帧的图片It、前一帧的图片It－1和前一帧的热力图HeatMapt－1通过简单的卷积层、归一化层和激活函数处理，再按位相加，生成一张特征图；然后通过深度特征融合网络(DLA)处理，并行生成包含四种信息的预测头部，分别是 HeatMap、OffSet、Box Size 和 Displacement Prediction。其中 Heat-Map 输出行人目标中心点的位置，该头部会将热力图上每一个点与邻近的点进行比较，使用值最大的点作为目标的中心点。 OffSet 头部负责在HeatMap 上更加精准地定位目标位置，特征融合网络在对图片做下采样的过程中会使中心点发生偏移，通过该头部进行校正；Box Size 头部负责估计目标检测框的高度与宽度；Displacement Prediction 头部输出检测框中心点前后两帧的偏移，用于完成前后两帧目标关联的任务。

2 改进CenterTrack 算法

2.1 改进CenterTrack 算法的网络结构

针对行人密集的场景，本文在CenterTrack 模型上进行改进，改进后的网络结构如图2 所示。

图2 改进的CeneterTrack 多目标跟踪算法

本文将通道注意力机制 SeNet 模型[19]与DLA 结合，设计了 SDLA 模型；对 Displacement Prediction 分支进行改进，提取行人重识别(Person Re-identification，Re-id)特征；处理后的 Re-id 特征用于增强检测部分，进一步提高跟踪精确度。

2.2 SDLA 多特征融合网络

在CenterTrack 行人多目标跟踪算法中，骨干网络对特征图进行下采样时，会造成部分特征信息的丢失，为降低信息丢失对特征提取的影响，本文设计SDLA 多特征融合网络，其结构如图3 所示。图中CONV 表示卷积操作，数字代表下采样倍率，树状结构表示树状连接，加和表示加和操作，avgpooling 表示全局平均池化，FC 表示全连接。

图3 SDLA 多特征融合网络

为满足检测与跟踪对特征提取的不同需求，选择DLA34[20]作为基础网络，该网络跳跃式连接低维特征与高维特征，融合不同层次的特征提取目标信息，再通过添加注意力机制SeNet 提高目标行人的权重，同时降低周围环境权重，从而使算法更加关注行人特征信息，降低周围次要因素的影响。

SDLA 多特征融合网络提取特征的工作过程表述如下。

1)视频帧通过卷积运算初步提取特征后，获取到特征图f0，然后开始下采样，得到与最终特征图相同大小的特征图f1，表示为

式中:Hf代表图像特征图高度；Wf代表特征图宽度；S表示下采样倍率，默认为4。

2)三次下采样，交错连接每一个树与节点模块，互相连接形成的结构可以提高网络在不同层次之间交互行人特征的能力，每次下采样的特征图fi表示为

3)将所有特征图信息融合到起始层的特征图中，输出与特征图f1相同大小的特征图f，大小为×C，其中C表示特征图的通道数。

4)对特征图f在维度上做全局平均池化，得到1 ×1 ×C的特征图，再经过两个全连接层和一个Sigmoid 运算，得到每个通道数上的权重，将特征图f与这个权重相乘得到最终的特征图f′。

2.3 改进的Displacement Prediction 分支

尽管CenterTrack 行人多目标跟踪算法在同一网络下完成了检测与跟踪，但检测与跟踪是相互独立的，没有关联性。本文通过对Displacement Prediction 分支进行改进，在完成数据关联的同时，将跟踪信息作为一个有用的样本以增强算法的检测效果，如图4 所示。

图4 改进的Displacement Prediction 分支

改进的Displacement Prediction 分支对提取到的特征图处理流程如下。

1)前后两帧图片经过骨干网络以及注意力机制处理后，得到特征图f′(t)和f′(t－1)被送入到一个三层卷积构成的模块中提取Re-id 特征et。

2)为降低计算量，对Re-id 特征et进行下采样，得到

4)对相似度矩阵C分别做两次最大池化操作，第一次为水平方向，第二次为竖直方向，再通过Softmax 函数得到两个向量，这两个向量分别表示目标的中心点在上一帧中的水平和垂直位置的可能性。随后在水平和垂直方向分别定义两个偏移量模板，记为Mi，j和Vi，j，计算公式为

式中:WC和HC分别表示矩阵C在水平和垂直方向的大小。点(i，j)的偏移量Oi，j计算公式为

本文通过运动信息矩阵OC表示Oi，j的集合。

5)使用3 ×3 卷积对运动信息矩阵OC进行上采样，得到一个新的运动信息矩阵O′C。

6)为使运动信息可以更好地增强检测特征图，本文引入可变形卷积网络[21]。对运动矩阵进行处理，得到当前帧的预测结果，记作，用于增强下一帧的检测效果。

7)本文考虑到当前帧的目标存在被遮挡的可能性，将之前帧的预测结果融入到当前帧的特征。假如当前帧的特征为ft，之前第k帧的预测结果为，通过公式(5)计算融合后的特征

式中:wt为当前帧的自适应权重，＝ 1；K表示用于聚合ft之前所有帧的数目； ◦表示Hadamard 积。

8)对于一个检测目标，首先进行第一轮的数据关联，主要是进行短时间内的目标匹配。以检测目标为中心，检测框的长宽平均值作为半径，计算出一个目标可能达到的运动最大值的范围，检测目标将在这个范围内与前一帧未匹配上的检测框进行轨迹关联。如果检测目标在第一轮没能匹配上任何目标，将会进行第二轮的匹配，第二轮匹配适用于长期关联，该轮匹配主要是将检测目标的Re-id 特征与未匹配的或者历史轨迹的Re-id特征计算余弦相似度，将达到某个阈值并且相似度最高的轨迹进行关联。如果两轮都没能匹配上，则将其视为新轨迹的产生。

2.4 数据增强

在训练集较小的条件下容易导致训练过拟合，影响算法的跟踪效果。神经网络在加深的同时，需要学习的参数也在增多，更容易产生过拟合的情况，并且在数据集较小时，过多的参数会拟合数据集所有的特点，而非数据之间的共性。针对该问题，本文采用了数据增强的方法。图像在数据增强的过程中，图像的实质、分类并不会发生改变，同时增加特征数据的多向性，有效提高检测器的泛化能力，使得数据增强后的行人特征取值发生一定的改变，以产生有价值的新训练样本。

本文采用的数据增强方法有调整饱和度、随机旋转、改变曝光度、提高亮度和色调均衡化等。图5 为两组数据增强效果对比图，其中左侧为处理前的原图，右侧为数据增强后的效果。

图5 部分数据增强效果

3 数据集与评估指标

本文采用的数据集为MOT17[22]，该数据集以行人为研究目标，由不同的室内和室外公共场所场景下拍摄的图像构成。 MOT17 数据集包含多种真实场景，其标注数据总共超过18 万物体，标注数据总共为11.2 万个，在被测试的视频中，待检测目标为18.8 万个。为验证改进后的跟踪算法在检测精度上的有效性，在PC 机上对模型进行测试。实验环境为:操作系统采用 Ubuntu 18.04、计算机的 CPU 是 Inter(R)Core(TM)i7-8750H 八核、显卡(GPU)采用 NVIDIA GeForce RTX2080、内存 16 GB、采用 python3.7 进行代码的编写、深度学习框架采用pytorch1.2。每轮的训练过程中，初始学习率为 1.25 ×10－14、批处理大小设置为2、训练30 轮。使用训练完成后的模型进行测试集的检测，计算检测精度。

本文主要采用跟踪精准度MOTA 值和正确检测比IDF1 值评价模型的跟踪效果。其中MOTA 值衡量跟踪器检测物体和保持轨迹的性能。MOTA 与IDF1 两个指标的值越高，说明模型跟踪效果越好。

4 实验结果与分析

4.1 消融实验

以CenterTrack 作为基础网络，进行消融实验，验证本文算法不同的改进点在行人密集场景下对跟踪效果的影响，实验结果如表1 所示。首先，本文对CenterTrack 进行测试，得到基础网络的实验结果；然后，在基础网络CenterTrack 中加入SDLA 网络和改进的Displacement Prediction 分支，得到第二组实验结果；最后，使用数据增强过的数据集进行训练并测试，得到第三组实验结果。骨干网络的改进加强了算法对图片特征提取的能力，对Displacement Prediction 分支的改进，使检测部分在计算时可以使用更多有效信息，由实验结果可知，后者的改进使MOTA 值和IDF1 值分别提升了1.6%和4.5%，证明了SDLA 网络和改进的Displacement Prediction 分支的有效性；通过对数据集进行数据增强可提高算法的的泛化能力，由实验结果可知，MOTA 值和IDF1 值分别进一步提升了2.6%和4.5%，验证了数据增强的有效性。由上述实验结果，相较 CenterTrack 算法，本文改进算法将MOTA 与IDF1 两项指标分别提升了4. 2% 和8. 8%，验证了本文改进算法的有效性。

表1 在MOT17 数据集中不同模块对跟踪效果的影响

4.2 对比实验

在保证实验环境以及学习率等参数不发生变化的情况下，通过对比实验进一步验证改进模型的有效性。对比实验结果如表2 所示。其中，带∗的模型为二阶段多目标跟踪算法，其余为一阶段多目标跟踪算法。

表2 不同网络模型的多目标跟踪结果比较

SST 是一种深度亲和网络，其对随机两帧上的对象外观及其相关性关系共同建模。 Tractorv2是基于检测框和检测器回归的方式进行下一帧的跟踪预测的模型。

由表2 可以看出，一阶段多目标跟踪算法在MOTA 和IDF1 两项指标上均高于二阶段多目标跟踪算法；改进前 CenterTrack 算法的 MOTA 和IDF1 两项指标分别为61.5%和59.6%；本文改进算法提高了行人目标特征提取的能力，同时加强了检测与跟踪之间的关联性，将MOTA 值和IDF1值分别提升到65.7%和68.4%。对比实验的结果表明了改进CenterTrack 的多目标跟踪算法的有效性。

5 结论

提出了一种基于改进CenterTrack 的多目标跟踪算法。首先，对特征提取网络添加注意力机制，使网络能够更加关注目标；其次，使用改进的Displacement Prediction 分支加强检测与跟踪之间的关系，提高了该算法的精确度；最后，通过数据增强对数据集进行处理，提高算法的泛化能力。相较于CenterTrack 多目标跟踪算法，在MOT17数据集上的实验结果表明，本文改进算法将MOTA 与IDF1 两项指标分别提升了4.2%和8.8%，多目标跟踪效果更好。