基于深度学习和特征信息关联的多行人目标跟踪算法

2022-05-10潘继财

电子设计工程 2022年9期

潘继财

（中国科学技术信息研究所，北京 100038）

多行人目标跟踪是智能安防监控系统的关键技术之一，该技术包括行人检测和行人跟踪两个部分，其跟踪准确度的高低直接关系到监控系统的效果[1]。而行人目标跟踪准确度又会受到障碍物遮挡、场景复杂性以及行人姿态变化的影响。因此，文中对多行人目标跟踪方法进行研究，以提高检测准确度，具有十分重要的现实意义。

文中提出了一种目标检测卷积神经网络与运动预测相结合的多行人目标跟踪算法。首先，采用改进的YOLO v3 网络模型进行行人类别目标检测。再借助卡尔曼滤波器(Kalman Filter)和匈牙利指派算法对检测结果进行运动预测。针对跟踪过程中由于长时间遮挡等原因而出现的目标跟踪丢失问题，设计了行人重识别网络(Re-ID)来提取行人目标表征特征，并分别以目标预测和检测位置信息之间的马氏距离和余弦距离来进行行人目标的运动信息和外观信息关联。MOT16 数据集上的实验结果表明了文中提出的行人目标跟踪方法的有效性和优越性。

1 YOLO v3行人目标检测

行人检测是行人跟踪研究的基础。目前，应用比较广泛的传统行人目标检测方法主要是通过采用边缘特征等静态图像特征来进行行人目标检测，传统行人目标检测方法时间复杂度较高，且对目标变化多样性的鲁棒性较差。随着人工智能时代的到来，深度学习算法在行人目标检测任务中的应用取得了突破性的进展。基于深度学习算法的行人目标检测方法主要分为two-stage 和one-stage 方法，twostage 法是将目标检测分为建议框生成和框内目标检测两个部分来进行，代表性的算法主要有R-CNN[2]、Fast R-CNN[3]和Faster R-CNN[4]等，而one-stage 方法是将建议框生成和框内目标检测统一起来，端到端直接输出目标检测结果，主要有SSD(Single Shot multibox Detector)[5]和YOLO 系列算法[6]等。

YOLO v3[7]是在YOLO v1[8]和YOLO v2[9]基础上提出的一种端到端的快速目标检测算法，该算法权衡了检测精度和速度，可以在保证目标检测速度的同时也可以兼顾精度，算法结构如图1 所示。

图1 YOLO v3结构

YOLO v3 模型采用Darknet-53 作为基础网络来提取图像特征，引入残差网络(Residual Blocks)的思想避免梯度爆炸，从而加强网络学习能力。针对小目标采用了多尺度策略，在3 个不同尺度的特征映射(Feature Map)中进行目标检测，通过下采样得到13×13×255的Feature Map，利用张量拼接(Concat)方法分别得到26×26×255和52×52×255两个Feature Maps。

YOLO v3模型引入了Anchor机制，采用K-means方法聚类得到9 个不同尺寸的先验框：(10,13)、(16,30)、(33,23)、(30,61)、(62,45)、(59,119)、(116,90)、(156,198)、(373,326)。将这些先验框按尺寸大小分别分配给3 个尺寸：13×13×255、26×26×255 和52×52×255 的Feature map，故Feature map 中的每个Cell可以对3 个先验框进行多标签分类预测和边界框(Bounding Box)位置回归预测。

原YOLO v3 模型可以对80 类目标进行检测，因为文中算法的检测对象是行人，故为了简化网络输出，进一步提高模型效率，针对行人检测数据集对YOLO v3 模型进行重新训练。

2 DeepTrack行人跟踪算法

2.1 SORT行人目标跟踪算法

文献[10]提出了一种卡尔曼滤波器和匈牙利指派算法相结合的SORT(Simple Online and Realtime Tracking)多行人目标跟踪算法，在无遮挡物的情况下，SORT 算法的跟踪准确度与其他先进在线跟踪算法相当，更新速度更快，但是在有遮挡物的情况下，SORT 算法的跟踪准确度会降低。

SORT 多目标跟踪方法相比于其他先进跟踪器，跟踪速度提升了约20 倍，该算法的核心是采用卡尔曼滤波器[11]对当前帧的行人目标位置进行预测，然后利用匈牙利指派算法[12]对预测的目标位置信息和下一帧检测出的目标位置信息进行匹配，SORT 算法流程如图2 所示。

图2 SORT算法流程

行人目标跟踪是基于行人目标检测的结果进行的，采用YOLO v3 对行人目标进行检测，提取出行人目标的边界框信息，如式（1）所示:

其中，x,y为行人目标边界框的中心坐标，s为边界框面积，r为边界框的长宽比。

接收到第一帧图像时，对检测到的行人目标初始化并标注ID，采用Kalman 滤波器对当前帧的目标边界框信息x、y、s进行预测，如式（2）所示：

其中，x(k+1)为预测目标的下一帧边界框信息，x(k)为目标当前帧边界框信息，Φ为状态转移矩阵。根据当前帧的误差协方差得到下一帧的误差协方差，如式（3）所示：

其中，p(k)为当前帧的误差协方差，p(k+1)为下一帧的误差协方差，Q为系统噪声。

使用匈牙利指派算法进行数据关联，匈牙利算法是一种寻找二分图最大匹配的算法，在多行人目标跟踪问题中主要用来寻找前后两帧的若干目标的匹配最优解。以下一帧中的预测边界框和检测边界框的交并比(Intersection Over Union,IOU)为损失函数。IOU 表示的是下一帧预测边界框和检测边界框交集和并集的比值，当匹配的IOU 值小于设定的IOU 阈值时，匹配失败。

当匹配成功时，将检测到的行人目标边界框给Kalman 滤波器进行预测校正。根据式（3）得出的下一帧的误差协方差和观测误差求出Kalman 增益，如式（4）所示：

其中，p(k+1)为下一帧的误差协方差，H为状态转移矩阵，R为观测误差。根据求出的Kalman 增益K进行预测校正，从而得到最终的行人目标检测框信息，如式（5）所示：

其中，z(k+1)为下一帧检测的目标边界框信息。

最后，再对误差协方差进行更新，如式（6）所示：

当预测的目标边界框无法匹配现有的检测框时，说明该物体已经离开当前画面，而当现有的检测框无法匹配预测的目标边界框时，则表示检测出新的行人目标，需要标注新ID。

SORT 跟踪器没有考虑到行人目标被遮挡的情况，故目标ID 切换的次数很高，跟踪准确度很低。因此，文中在SORT 行人目标跟踪算法的基础上，引入了目标的运动信息和外观信息，以解决目标因长时间被遮挡而跟踪失败的问题。

2.2 DeepTrack目标跟踪

针对行人目标因受障碍物长时间遮挡而产生的跟踪失败问题，利用预测的目标边界框位置和检测的目标边界框位置之间的马氏距离来关联两者的运动信息，如式（7）所示：

其中，dj表示第j个检测框的位置，yi表示第i个预测目标位置，Si表示检测框位置与Kalman 预测的平均轨道位置之间的协方差矩阵。

若关联的马氏距离小于设定阈值，则设置运动状态的关联成功，如式（8）所示：

其中，t(1)为设定的阈值。

仅采用马氏距离进行关联只适用于行人目标运动不确定性较低的情况，而基于Kalman 的运动状态估计只是进行粗略的预测，且在相机运动状态下，基于马氏距离的关联方法会失效，从而会出现目标ID switch。因此，引入描述外观信息的余弦距离来进一步关联预测目标和检测目标，文中采用的是基于卷积神经网络(Convolutional Neural Network,CNN)的行人重识别(Re-ID)方法，网络提取出第i个跟踪器近100 帧成功关联的单位范数特征向量集以及当前帧第j个检测结果的特征向量，并计算它们之间最小余弦距离进行关联，如式（9）所示：

其中，ri满足‖ri‖=1，若最小余弦距离小于设定阈值，则关联成功。

采用马氏距离和最小余弦距离的线性加权作为最终的关联度量，如式（10）所示：

其中，λ是权重，在相机运动状态下可以设为0。当ci,j处在两种关联度量阈值的交集中时，则认为目标关联成功。马氏距离主要应用于短期预测，而最小余弦距离适用于目标受长时间遮挡的情况，DeepTrack 的多行人目标跟踪流程如图3 所示。

图3 DeepTrack算法流程

3 实验结果与分析

实验的硬件环境为Intel Xeon W-2123 处理器、Quadro P4000 显卡。

3.1 行人检测部分实验

文中提出的多行人目标跟踪算法分为行人检测和跟踪两部分，文献[10]采用Faster R-CNN 作为行人目标检测器，将跟踪效果提升了18.9%，可见高效且有针对性的行人检测器对整个跟踪算法至关重要。

文中DeepTrack 算法中的检测器是在已有的YOLO v3 模型上进行改进的，具体改进如下:

1）原始YOLO v3 模型设置的先验框(Anchor Box)长宽比为1∶1、1∶2、2∶1，而通过对实际视频监控中行人目标进行聚类分析，得到行人目标长宽比约为5∶2，于是对YOLO v3 的先验框大小进行重新设计。

2）主干网络仍然采用YOLO v3 中的DarkNet 结构不变，修改3 个不同尺寸特征图上的输出网络层。原YOLO v3 检测类别一共有80 类，则输出层的通道(Channel)数为3×80×(1+1+4)=1 440，因文中算法只需要检测行人类目标，故检测类别为1，将输出层的通道数改为3×1×(1+1+4)=18。

将改进的行人目标检测模型在PascalVOCVOC 2007、PascalVOCVOC2012 和COCO 数据集上进行训练，尤其是注重对PascalVOC 中小目标行人数据的训练，最后在Caltech 行人数据集[13]上进行测试，为了评估文中改进的行人检测器的效果，与其他主流的目标检测算法(HOG+SVM、Faster R-CNN、原YOLO v3)进行对比，评价行人检测器的指标有:

1）丢失率(Miss Rate，MR):未被识别的行人目标数目比例。

2）误报率(False Positive，FP):将非行人目标错误识别为行人目标占总识别数的比例。

所有检测器的MR-FP 曲线如图4 所示。

图4 检测器的MR-FP曲线

曲线位置越低表示该检测模型的效果越好，从图4 可以看出改进的YOLO v3 模型效果最好。同时，对平均丢失率取对数(Log-average Miss Rate)作为所有检测模型的综合性能评价，比较对不同尺寸的行人目标检测效果，得到的曲线如图5 所示。

从图5可以看出，随着待检测行人尺寸的增大，所有检测算法的丢失率都有下降。文中对原YOLO v3模型进行了改进，并在行人标注训练集上再进行训练，使其专注于行人特性目标的检测，同时由于网络是在3 个不同尺寸大小的特征图上输出检测结果，使得对于不同尺寸大小的行人目标检测效果最好，因此改进的YOLO v3 检测器行人检测率明显的提高。

图5 平均丢失率取对数曲线

3.2 遮挡跟踪实验

在实际监控视频中，不可避免地会出现遮挡区域，当目标长时间处于遮挡状态时，Kalman 滤波跟踪预测的结果会产生较大的不确定性，为了解决因为遮挡造成的匹配问题，加入了Re-ID 网络对行人目标外观表征特征进行提取，这样除了对运动信息进行匹配之外，也会将外观表征信息关联度较高的结果进行匹配。

文中所提DeepTrack 算法，采用级联跟踪匹配算法来关联运动信息和表征信息，即每个跟踪结果与检测结果的匹配是由不同优先级的一系列关联过程组成的。加入信息级联匹配的跟踪和仅使用Kalman滤波跟踪的结果如图6(a)和6(b)所示。

图6 不同算法跟踪结果

从图6（b）可以看出，当目标出现遮挡时，仅使用Kalman 滤波器无法对目标进行有效跟踪，因为当遮挡结束时出现了跟踪目标丢失，造成该行人目标的重注册(ID-Switch)，同一行人目标ID 从59 变为66。从图6（a）可以看出，结合了Kalman 运动信息和外观表征信息的级联匹配仍能保持有效跟踪，当遮挡结束时目标重新出现，虽然此时运动预测信息失效，但通过计算ReID 网络提取的表征信息以及比较余弦距离仍能将重新出现的目标与遮挡前目标进行关联，从而避免了对同一目标的重注册。

3.3 多目标跟踪

以MOT16 数据集[14]为基准来综合评价跟踪算法的性能，该数据集是评估在线实时跟踪效果的数据集。MOT16 数据集是监控摄像头自上而下拍摄的正面视图场景，分为11 段训练序列和7 段测试序列。同时，MOT16 还提供了标准的检测结果，可以用来单独评价跟踪部分的算法效果。

跟踪效果的评价指标如下:

1）多目标跟踪准确率(Multiple Object Tracking Accuracy，MOTA)为：

其中，FN（False Negative）是行人目标漏检数，IDsw是发生重注册的次数，GT 为实际每帧中的行人数，求和范围是对视频的全部帧。MOTA 在不考虑目标位置估计精度的情况下，直观给出了跟踪算法对目标检测和跟踪保持的性能。

2）多目标跟踪精准率(Multiple Object Tracking Precision，MOTP)为：

MOTP 作为MOTA 的补充，用来量化检测跟踪的定位精度，IOU 表示检测结果与实际结果的重叠率，c是每帧成功匹配的数目。

与其他跟踪算法的结果对比如表1 所示，作为对比的算法结果均来自MOT16 challenge 比赛公布的数据[15]，其中箭头向上表示该指标越高算法效果越好，箭头向下则反之。

表1 不同跟踪算法效果对比

可以看出文中所提方法有效减少了重注册次数，相比于原有MOTA、MOTP 最高的SORT 算法，同一目标的重注册数从1 426 次减少到了512 次。这是因为当遮挡结束时，采用结合运动信息和表征信息的级联匹配可以立刻对目标进行有效关联。此外，采用改进后的YOLO v3网络作为行人检测器，提升了对行人的检测效果，继而使得成功跟踪的目标数目显著增加，跟踪丢失数目有效减少。文中算法相比于SORT算法，MOTA 和MOTP得分分别提高了15.72%、3.14%，且在现有的硬件条件下，能达到34 帧∕s 的处理速度，基本能满足实时性的要求。

4 结束语

多行人目标跟踪技术是智能安防监控系统的关键技术。文中提出了一种YOLO v3网络模型与SORT跟踪算法相结合的鲁棒跟踪方法，采用YOLO v3 模型和SORT 算法分别进行行人目标检测和跟踪。为了解决跟踪过程中由于长时间被遮挡等原因出现的跟踪丢失问题,设计了行人重识别网络(Re-ID)来提取行人表征特征，并根据特征向量计算余弦距离来判别帧间行人目标的关联程度。文中提出的多行人目标跟踪方法有效提高了跟踪效果，相比于SORT 算法，在MOT16 数据集上的多目标跟踪准确率和多目标跟踪精准率分别提高了15.72%和3.14%。