融合时空特征的隧道场景跨相机车辆实时跟踪方法

2023-12-27苟铃滔宋焕生张朝阳刘莅辰孙士杰

计算机工程与应用 2023年24期

苟铃滔，宋焕生，张朝阳，文雅，刘莅辰，孙士杰

长安大学信息工程学院，西安 710064

目前，交通视频监控系统相机已对高速公路实现了全覆盖。高速公路隧道作为高速公路中的特殊路段，视频相机布设相较于高速公路一般路段而言更加密集。使用跨相机多目标跟踪技术对隧道交通场景中的车辆目标进行实时的跟踪，可以有效监测大范围内多车辆的运动轨迹，并监测隧道内车辆目标的运行状态，对保障隧道交通运行安全和提升管理效率具有重要的意义。同时，相应的技术方案可以应用于行人追踪[1]、智慧交通[2]等相关领域。

跨相机跟踪旨在通过建立多个相机间的目标关联模型，获取每个目标在多相机下的完整轨迹，其通常由两个子任务组成：第一是单相机跟踪，旨在同时定位并跟踪多个感兴趣目标；第二是跨相机关联，旨在关联多个相机下的目标，对多个相机下的同一目标赋予相同ID。

单相机下目标跟踪算法[3]通常可分为基于相关滤波[4-6]的跟踪方法和基于深度学习的跟踪方法。相关滤波的主要思想是通过滤波模板与输入帧做相关运算，最大输出响应的位置即为目标位置，核相关滤波算法[6]使用傅里叶变换快速计算大量样本响应值，其速度较快但是精度较低。基于深度学习目标跟踪算法大多遵循检测跟踪范式，通过对目标检测[7-8]结果进行关联来跟踪目标。许多跟踪方法采用卷积神经网络提取的Re-ID 特征进行目标关联[9-11]，DeepSORT[12]算法在SORT[13]算法基础上使用卷积神经网络提取目标特征，并使用卡尔曼滤波器预测目标的运动状态，结合运动特征与外观特征进行目标级联匹配。StrongSORT[14]、FairMOT[15]算法在DeepSORT 的基础上对目标检测、重识别方法进行升级。这些方法能在单相机下取得较好的跟踪效果，但是速度较慢，难以满足实时性要求。ByteTrack[16]算法中提出了一种减少ID 切换的数据关联组件，其保留低分检测框用于二次匹配，减少了跟踪目标ID切换，取得了先进的性能表现，并且该方法可作为通用组件扩展到其他跟踪器上。

跨相机关联的核心在于提取有效的特征对不同相机下的同一目标关联，现有关联方法大多基于目标重识别，文献[17]提出通过轨迹到目标分配方法解决跨相机轨迹匹配问题，并使用受限非负矩阵分解算法来计算满足一组约束的最优分配解决方案。文献[18]提出通过目标检测和特征匹配生成单个相机下轨迹，然后通过多相机重新识别模块匹配生成的轨迹。文献[19]根据隧道的特点设计了一种基于车道的时间掩码算法对轨迹匹配域进行约束，该方法基于隧道车辆不变道的假设，但是真实隧道场景中车辆会变道超车，导致此方法效果不佳。文献[20]将聚类损失和轨迹一致性损失被引入到车辆重新识别训练框架中，以训练更适合聚类任务的轨迹特征。文献[21]开发了一种时空注意力机制来产生强大的轨迹表征，然后通过交通拓扑推理修剪错误匹配候选者。上述方法都使用了车辆重识别，尽管提取特征的方法各有不同，但是这都在一定程度上增大了计算开销，难以满足实时跟踪的要求，并且其仅应用于光照较好的白昼场景，在隧道场景下，相机视野区域通常没有重叠，且隧道环境照度较低，同时车辆尺度变化、同型车辆特征相似较高等客观因素的影响，导致隧道交通场景下的车辆目标重识别关联精度较差，难以满足实际应用需求。

针对上述隧道场景下跨相机车辆跟踪存在的问题，本文以隧道场景视频为数据，通过相机标定[22]建立多相机下的统一时空坐标系，在YOLOv7[23]目标检测算法的每个ELAN模块中加入归一化注意力机制[24]，更加关注感兴趣区域，同时抑制不显著特征的权重，实现高精度的车辆目标检测，其次，在卡尔曼滤波的基础上结合车辆速度进行目标位置预测，并结合二次关联策略[16]与间隔帧方法实现单相机下车辆目标跟踪，减少了目标ID切换，降低遮挡与低照度对车辆跟踪的影响。通过分析车辆车型特征与时空特征，构建以车辆时空相似性矩阵和车型相似性矩阵为基础的跨相机轨迹匹配代价矩阵，采用匈牙利算法完成车辆目标匹配，从而实现跨相机车辆目标跟踪。

1 所提算法

本文提出的跨相机车辆跟踪算法框架如图1 所示。输入为多个连续相机拍摄的视频，检测模块获取车辆目标检测框，跟踪模块获得单个相机下车辆轨迹，相似性模块计算相邻相机下轨迹的车型相似性和时空相似性代价，匹配模块对车辆目标进行匹配关联，最后输出多相机下完整的车辆轨迹。

图1 跨相机车辆跟踪框架Fig.1 Cross-camera vehicle tracking framework

1.1 车辆目标检测

目标跟踪的前置任务是目标检测，本文使用YOLOv7[23]模型检测车辆，并且在网络的每个ELAN模块后面引入轻量级的高效归一化注意力模块[24]（normalization-based attention module，NAM），其在CBAM[25]的基础上重新设计了通道注意力模块和空间注意力模块，使用批标准化（batch normalization，BN）的比例因子表示权重的重要性，能够降低不显著特征的权重，使其在保持相似性能的同时更具有计算效率。比例因子计算如式（1）所示，比例因子衡量通道的方差并表明它们的重要性。

其中，μb、δb分别是每个批次数据b的均值和标准差，均值即对每个通道的像素值取平均值，标准差是分别计算各个通道像素值的标准差，然后取各通道标准差的平均值作为整个图像批次数据的标准差，γ和β是可训练的仿射变换参数，使用均值为0、标准差为0.01高斯噪声初始化。通道注意力子模块结构如图2所示。

图2 通道注意力机制Fig.2 Channel attention module

通道注意力模块计算如式（2）所示：

其中，输入特征为F1，输出Mc，权重

空间注意力机制子模块如图3所示，将比例因子应用于空间维度来衡量像素的重要性。

图3 空间注意力机制Fig.3 Spatial attention module

空间注意力计算如式（3）所示：

其中，输入特征为F2，输出为Ms,α为缩放因子，权重

网络输入的图片尺寸为640×640，输出每个目标的分类、边界框和置信度。将车辆分为汽车、卡车、公共汽车共三个类别，输入p个连续相机的视频集合V,V={Vi,i∈(1,2,…,p)},V的目标检测结果集合为D。将置信度大于0.5 的检测框定义为高分检测框，置信度小于0.5大于0.1的检测框定义为低分检测框，丢弃置信度低于0.1的检测框，并且过滤距离图像边缘小于10个像素的检测框，因为此类检测框为车辆目标初始进入摄像机视野时产生，检测框中车辆不完整，影响检测跟踪精度。

1.2 单相机车辆目标跟踪

1.2.1 多相机世界坐标系

为了实现跨相机车辆跟踪，本文构建了统一的多相机世界坐标系，如图4 所示，以隧道入口处第一个相机在路面的投影作为原点，x轴垂直于车辆行进方向，y轴沿车辆行进方向，z轴垂直于路面。结合相机标定和目标检测结果可以得到车辆在世界坐标系中的实时位置。

图4 多相机世界坐标系Fig.4 Multi-camera world coordinate system

1.2.2 单相机车辆跟踪

跟踪器输入为检测结果集合D,每条轨迹由轨迹点集合N构成，N={Nk,k∈(1,2,…,q)},每个轨迹节点Nk由目标检测结果、速度向量和节点在世界坐标系中位置组成。跟踪算法示意图如图5所示。

图5 单相机跟踪算法示意图Fig.5 Schematic diagram of single camera tracking algorithm

轨迹状态分为未确认态、确认态、丢失态和完成态。轨迹状态转移流程如图6 所示，轨迹状态转换规则如下：初始时为高分检测框目标创建轨迹，其为未确认态轨迹，连续跟踪tcon次转为确认态轨迹，否则丢弃此未确认态轨迹，确认态轨迹未匹配上检测框时转为丢失态，丢失态轨迹连续丢失超过tlose次转为完成态，丢失态轨迹匹配成功转为确认态。

图6 轨迹状态转移流程图Fig.6 Flow chart of trajectory state transfer process

单相机跟踪在SORT算法基础上引入BYTE关联策略，现有的大多数的关联方法只使用检测置信度高于某一阈值的检测框关联，丢弃低置信度检测框，而低分检测框通常是由于遮挡产生，BYTE关联策略考虑低分检测框，能降低漏检、减少轨迹ID切换，其具体步骤如下：

（1）初始时为每个高分检测框目标创建新轨迹，并使用卡尔曼滤波算法对目标运动位置进行预测。只用高分框节点新建轨迹，减少了因遮挡产生的ID切换，从而保证了更高的跟踪准确率。

（2）第一次关联使用高分检测框与所有轨迹进行匈牙利匹配，若匹配成功，则将高分检测框对应的检测节点加入轨迹，并根据状态转换规则进行轨迹状态更新；使用未匹配的高分框新建一条轨迹。

（3）第二关联使用低分框与未匹配的轨迹进行匈牙利匹配。若匹配成功，则将低分框对应的节点加入轨迹，并根据状态转换规则进行轨迹状态更新；丢弃未匹配到轨迹的低分框目标。

为了提高跟踪算法实时性，采取间隔帧法检测跟踪，经过实验分析，间隔1 帧时实时性较高且对跟踪精度影响较小，即每隔1帧进行一次检测跟踪。在轨迹为未确认态时使用卡尔曼滤波预测轨迹节点，并计算车辆目标在世界坐标系中运动的平均速度，在轨迹转为确认态之后，利用车辆目标速度预测轨迹节点在下一次检测帧中出现的位置。实验结果表明，本文设计的跟踪算法精度较高，能满足实际使用需求。

1.2.3 车辆时空图

时空图展示了一段时间内路面车辆目标在时间和空间上的关系，是反映车辆实时位置的重要方式。时空图的x轴垂直于车道方向，y轴沿车道方向，t轴为时间。单相机下车辆时空图如图7所示，图7（a）为原始时空图，图7（b）为经过滤波之后的时空图，图中一条曲线代表一条轨迹。

图7 车辆轨迹时空图Fig.7 Vehicle trajectory spatiotemporal map

隧道相机安装间距通常在150 m左右，使用单相机跟踪算法跟踪车辆目标，轨迹长度约为80 m，由于隧道场景存在照度较低、车辆遮挡等问题，会产生多余的小轨迹，此类轨迹影响对隧道车辆运行状态的感知，过滤此类轨迹能提高匹配精度，因此过滤掉轨迹长度小于20 m 的轨迹。为减小标定带来的误差，对轨迹节点x坐标进行均值滤波，对节点y、t坐标进行线性回归处理，轨迹滤波缩小待关联轨迹集合，利于车辆目标关联。

1.3 多相机车辆目标关联

本文设计的多相机关联算法如下，设两个相机为C1、C2，建立两个待匹配轨迹队列T1、T2，将相机C1的完成态轨迹放入T1，相机C2 的确认态轨迹放入T2,T1={T1i,i∈(1,2,…,m)},T2={T2j,j∈(1,2,…,n)},T1、T2中待匹配目标个数分别为m、n，利用两个队列中的轨迹构建车辆时空相似性矩阵和车型相似性矩阵，融合两个矩阵构成跨相机轨迹匹配代价矩阵，采用匈牙利算法完成不同相机下的车辆目标匹配，实现跨相机车辆目标跟踪，获取多相机下的车辆全局轨迹，并生成隧道交通场景的车辆目标全局时空图。

1.3.1 车型相似性

车辆车型属性分别为汽车、卡车、公共汽车，车型相似性代价函数如式（4）所示：

在目标检测精度较高的情况下，同型车辆匹配代价较小，本文取为0，不同车型车辆匹配代价较大，本文取为100。增大不同类型车辆之间的匹配代价能增加匹配正确率，使用目标检测判断车型有一定误差，因此没有简单的将不同车型匹配代价置为无穷大。基于车型相似性代价，构建车型相似性代价矩阵，如式（5）所示：

1.3.2 车辆时空特征相似性

对于T1 中的一条轨迹T1i,T2 中的一条轨迹T2j，通过轨迹T1i节点平均速度与时间间隔预测车辆目标出现在下一个相机中的节点位置，并计算预测节点与T2j第一个轨迹节点之间的时空距离。时空距离示意图如图8中fst(T1i,T2j)所示。

图8 轨迹时空距离示意图Fig.8 Schematic diagram of trajectory spatialtemporal distance

图8 中d1代表轨迹T1i所构成的向量，d2表示轨迹T1i第一个轨迹节点与T2j第一个轨迹节点形成的向量，d3表示T1i最后一个轨迹节点与T2j第一个轨迹节点形成的向量。轨迹时空代价fst(T1i,T2j)计算如式（6）所示：

通过轨迹时空距离构建时空相似性矩阵，如式（7）所示：

1.3.3 车辆目标关联

引入权重λ融合相邻相机之间车辆车型相似性代价矩阵和时空相似性代价矩阵构成匹配代价矩阵Cm×n，表示两个相机之间m条完成态轨迹和n条确认态轨迹之间的匹配代价，如式（8）所示：

λ表示车型相似性代价矩阵和时空相似性代价矩阵的权重，当两个相机相距较近时，时空相似性准确率较高，当两个相机相距较远时，时空相似性准确率下降，因此需要根据具体的场景设置参数λ。求解匹配结果时可以将此问题转化为带权二分图的最优匹配问题，使用匈牙利算法进行求解，将代价矩阵Cm×n输入匈牙利算法进行轨迹匹配，矩阵中元素值越小，代表两条轨迹之间匹配概率越大，匹配结果中选择元素值最小的优先匹配，匹配成功的T2j轨迹ID置为与其匹配的轨迹T1i的ID，当元素值大于设定阈值时，轨迹匹配失败，如果轨迹T1i未匹配成功，则表示该车辆目标还未到达下一个相机，后续匹配再进行处理，如果轨迹T2j未匹配成功，则认为该轨迹为视频开始时第一次出现，赋予一个新的轨迹ID。将完成匹配的轨迹从待匹配队列T2 中删除，再读取下一帧图像跟踪结果中确认态轨迹加入待匹配队列进行匹配，在相邻相机下进行轨迹匹配，最终形成大范围实时车辆轨迹图，实现多相机实时跟踪。

2 实验与分析

2.1 实验数据集

本文建立的目标检测数据集采用多个高速公路隧道相机所拍摄的图片，相机拍摄高度5～8 m，图片尺寸为1 920×1 080，共28 685 张图片，其中训练集23 382 张图片，验证集2 500张图片，测试集2 803张图片，将车辆标注为Car、Truck、Bus 三类，数据涵盖各种常见隧道场景，包括高、低拍摄角度，高、低光照条件，样本数量分布如表1所示。

表1 目标检测数据集车辆数量Table 1 Number of vehicles in target detection dataset

Car类别标注框41 483个，Truck类别标注框23 549个，Bus类别标注框2 855个。目标检测数据集部分图片如图9所示。

图9 目标检测数据集示意图Fig.9 Schematic diagram of object detection dataset

跨相机车辆跟踪大多使用AI City 挑战赛[26]数据集，此数据集为白昼郊区道路场景，为了测试隧道场景跨相机车辆跟踪算法效果，本文构建了跨相机跟踪数据集（cross-camera tracking dataset，CCTD），数据集共8段连续相机视频，视频帧率25 FPS，大小为1 920×1 080。拍摄视频的相机间隔均为150 m，隧道长度1 200 m，每段视频录制起始时间相同，每段时长10 min，使用UltimateLabeling 工具对视频逐帧进行标注，并对每个相机进行参数标定。跨相机车辆数量及标注框数量如表2所示。

表2 跨相机车辆数量分布表Table 2 Cross-camera vehicle number distribution table

每段视频中包含车辆数量超过70 辆，车辆跟踪数据集部分图片如图10 所示，展示了多个车辆在不同相机中出现的位置。

图10 车辆跟踪数据集图片Fig.10 Pictures of vehicle tracking dataset

2.2 评价指标

目标检测实验采用准确率（precision，P）、召回率（recall，R）、多个类别平均精度（mean average precision，mAP），每秒检测帧数（frames per second，FPS）几项性能指标评判算法的性能。

多目标跟踪常用的评价指标为多目标跟踪准确度（multi-object tracking accuracy，MOTA）和多目标跟踪精确度（multi-object tracking precision，MOTP），计算如式（9）、（10）所示：

其中，mt、fpt、et表示检测器在视频第t帧时漏检、误检和错误匹配的目标数，gt表示第t帧真实的目标数量。表示第t帧中目标与第i个检测框之间距离，ct表示第t帧匹配成功目标个数。

对于跨相机跟踪，ID相关的指标是最重要的，IDTP是真正ID 数量，IDFP是假正ID 数量，IDFN是假负ID 数量，识别精确度IDP是指每个车辆ID 识别精确度，识别召回率IDR指车辆ID识别的召回率，IDF1 是每个框中车辆ID识别的F值，其计算如式（11）所示：

轨迹匹配正确率（trajectory match accuracy，TMA）表示不同相机下车辆目标车辆匹配正确程度，其计算如式（12）所示：

其中，N为匹配正确车辆数量，S为全部车辆数量。

2.3 实验环境及训练策略

实验所用处理器为Intel Core i9-10900K，RAM 为32 GB，GPU为NVIDIA GeForce RTX 3090，显存24 GB，系统为Ubuntu18.04，软件环境CUDA v11.2、OpenCV 4.5.0。

训练迭代300 个epoch，batch_size 设为8，初始学习率1E-3，动量因子0.93，权重衰减系数0.000 5，训练损失如图11所示。

图11 训练损失曲线图Fig.11 Training loss curve

2.4 单相机车辆检测跟踪

2.4.1 车辆目标检测实验

车辆目标检测消融实验如表3所示，数据集采用本文所提出的隧道车辆目标检测数据集。

表3 车辆检测算法消融实验Table 3 Vehicle detection algorithm ablation experiment

实验结果表明，本文在引入NAM模块之后，YOLOv7检测器精度提升了1.05个百分点，并且对检测速度影响较小，证明了该模块的有效性。

2.4.2 单相机车辆跟踪实验

经过实验比较，本文将单相机车辆跟踪实验将连续跟踪次数tcon转为确认态参数设置为3，丢失tlose次转为完成态参数设置为5。为了评估本文单相机跟踪算法的有效性，在CCTD 上对比了现有效果较优的SORT[13]、DeepSORT[12]、ByteTrack[16]、StrongSORT[14]、Fairmot[15]、BoT-SORT[27]车辆跟踪算法，实验结果如表4所示。此处的FPS为单位时间内检测与跟踪整体处理帧数。

表4 单相机车辆跟踪算法对比Table 4 Comparison of single camera vehicle tracking algorithms

本文所提的单相机跟踪算法MOTA 达到82.1%，MOTP 达到79.6%，速度达到了115 FPS，与ByteTrack相比，MOTA 提升了2.5 个百分点，主要是由于检测算法的先进性。与基于重识别的Fairmot、StrongSORT 算法相比，MOTA 分别提升7.6与6.7个百分点，主要是因为BYTE关联策略能够减少目标ID切换，提升跟踪准确度。与基于ByteTrack 改进的BoT-SORT 相比，MOTA提升了1.3 个百分点，主要是因为所用速度预测方法能更加精确的预测目标位置。与SORT、DeepSORT 算法相比，性能也有大幅提升。

本文方法可以同时对多段视频进行车辆目标实时检测跟踪，整体性能较优，证明了本文所提算法的优越性与可行性。在多个隧道中跟踪结果可视化如图12所示，图中曲线为车辆目标轨迹，可以看出本文所提出的单相机跟踪算法在照度较低和隧道口光照突变的条件下仍能较好地跟踪车辆。

图12 车辆跟踪结果图Fig.12 Vehicle tracking diagram

为评估本文单相机跟踪所用跟踪方法各个模块的有效性，在CCTD上所做消融实验如表5所示。

表5 跟踪算法消融实验Table 5 Tracking algorithm ablation experiment

相较于原始算法，加入速度预测模块，MOTA 和MOTP 分别提升了3.9和2.4个百分点，加入BYTE关联策略，MOTA 和MOTP 分别提升了7.1 和8.6 个百分点，加入间隔帧方法MOTA 和MOTP 有所下降，但是速度提升较大，达到121 FPS，在不影响实际跟踪效果的情况下，降低部分精度换取实时性的提升，三个模块同时加入，跟踪速度达到115 FPS，MOTA 达到82.1%，在速度和精度之间取得较好平衡。

2.4.3 跨相机车辆轨迹匹配实验

当确认态轨迹队列T2 大小为3 时计算代价矩阵，进行一次匈牙利匹配，将匹配完成的轨迹ID更新，并将匹配完成的轨迹移出队列并设置为匹配态，最终形成全局轨迹。本文跨相机目标匹配方法在CCTD 上8 段视频中测试结果如表6所示。

表6 多相机目标匹配结果Table 6 Multi-camera target matching results 单位：%

实验结果表明，跨相机跟踪IDF1 达到80.2%，平均匹配正确率达到94.9%，证明了本文所提出的轨迹拼接方法的有效性，该方法能够满足隧道场景多相机车辆目标实时跟踪，为隧道交通实时运行状态监测提供保障。在CCTD上经过实验对比，不同车型车辆λ取不同值时的车辆匹配正确率如表7 所示，λ取0.7 时车辆轨迹匹配关联效果最佳。

表7 λ 灵敏度实验Table 7 λ sensitivity experiments

不同场景车辆密度不同，选取车流量不同的三条隧道场景进行测试，隧道1为低车流量场景，隧道2为中等车流量场景，隧道3为高车流量场景，场景图如图13所示。

图13 不同车流量隧道场景图Fig.13 Scenarios of tunnels with different traffic flow

在不同的场景下车辆目标匹配结果对比如表8 所示，车流量较小时车辆匹配正确率较高，车流密度增大时，车辆之间互相遮挡，会造成车辆匹配正确率下降。

表8 不同车辆密度场景车辆匹配结果Table 8 Vehicle detection algorithm ablation experiment 单位：%

为了验证本文方法的先进性，与其他基于重识别的匹配方法在CCTD上对比结果如表9所示。

表9 跨相机跟踪方法对比Table 9 Comparison of cross-camera tracking methods 单位：%

TRACTA[17]、LACE[18]、LBTM[19]、VFST[20]方法均基于重识别技术，与这些方法相比，本文方法的各项指标较优，主要是由于本文方法检测跟踪精度较高，能够产生有效的车辆轨迹，隧道场景照度较低，使用重识别模型难以区分同类型车辆目标，而本文方法利用时空特征能够克服此影响。

相邻相机轨迹关联结果如图14所示。相机C1、C2中a、b两条轨迹为同一车辆，在时空图上进行轨迹关联。在所有相邻相机之间进行轨迹关联，最终形成全隧道车辆轨迹时空图，实现隧道场景跨相机车辆实时跟踪。

3 结论

本文针对隧道环境照度低、现有跟踪方法精度与实时性较差的问题，提出了一种基于YOLOv7与卡尔曼滤波算法的跟踪器，首先在YOLOv7中加入归一化注意力模块，提高目标检测精度，然后在卡尔曼滤波算法基础上利用车辆速度进行位置预测，并且引入BYTE关联策略增加召回率，提高跟踪精度，使用间隔帧法提高跟踪精度，最后利用车型相似性和车辆时空位置关系进行相邻相机轨迹拼接，实现实时大范围隧道跨相机车辆目标跟踪，本文所提方法在实际隧道场景进行测试精度较高，能有效反映隧道车辆实时运行状态，具有一定的实用价值。

需要指出的是，本文方法在车辆较多或者发生拥堵时表现不佳，有待进一步提高，同时需要考虑如何将算法应用到更加复杂的高速路场景。