轨迹聚类的车辆再识别方法

2022-03-18雒江涛许国良

重庆邮电大学学报(自然科学版) 2022年1期

刘锐，雒江涛，文韬，许国良

(1.重庆邮电大学通信与信息工程学院，重庆 400065；2.重庆邮电大学电子信息与网络工程研究院，重庆 400065)

0 引言

车辆再识别(vehicle re-identification)旨在从大型图像数据集中检索一组与查询图像身份一致的车辆图像。它广泛应用于智能交通系统和智慧城市建设，也一直是计算机视觉领域极具挑战的研究热点。

车牌本来是车辆最直接的身份标识符，但在应用时存在诸多限制。首先，在真实场景中由于车流移动导致的遮挡，以及车牌本身的污损甚至变造等具体情况，使得完全依赖车牌识别来辨别车辆身份稳定性不足；其次，在公开数据集中，车牌受隐私保护的考虑往往需要遮罩而不可用。因此，车辆再识别任务实际上主要采用2类方法：①基于视觉特征的方法；②附加信息提升的方法。基于视觉特征的方法使用车辆图像来学习外观特征，而附加信息提升的方法在视觉特征的基础上辅以车辆本身的语义信息以及车辆在监控网络中的上下文信息，提升性能表现。

从车辆外观来看，相同车型和年款的不同车辆，以及相同车辆在不同摄像头场景中的差别，使得车辆再识别需要面临复杂的类间相似性和类内差异性的双重挑战。文献[1]对近期基于视觉特征的再识别方法进行了总结，将外观特征方法分为手工特征提取和深度学习特征提取两大类，并在VeRi和VehicleID数据集上进行了分析对比。

车辆语义信息包括车辆车型、颜色、品牌等车辆属性。文献[2]对车辆细粒度分类问题进行了系统梳理，并针对不同网络架构在Stanford Cars数据集上的性能进行了分析对比。文献[3]提出了目前标注信息最丰富的CompCars数据集，一方面将网络爬取的数据和监控场景数据进行了细致的标注，提升了车辆语义信息的提取能力；另一方面，车辆在监控网络中的上下文信息主要指行驶过程中由拍摄摄像头决定的摄像头ID和拍摄时间，分别从时间和空间上对车辆移动进行了约束，文献[4-5]使用时空关系约束从优化排序结果角度对时空关系进行了探索。

从前文分析可以看出，车辆再识别若仅依赖外观特征或仅依赖车牌识别结果往往性能不佳，需要研究综合车辆外观特征和附加信息的再识别方法。目前也有研究者在此方向上做出了较好成果。在文献[6]中，提出了一个双流模型来建模行人再识别领域中的外观信息和时空约束。该问题主要是对行人进行时空关系建模，而车辆本身的移动特性与行人不同，需要针对性进行车辆时空关系建模。因此，本文在其基础上改进了车辆在监控网络中的时空关系建模方法。总的来看，本方法具有以下2个特点：①将车辆再识别问题建模为查询图像在大型图像候选集中相似轨迹的搜索问题；②设计一个融合视觉特征和时空约束的统一框架，在联合度量模块的优化下超过了现有最优模型。

1 车辆再识别任务概述

作为视频智能处理系统的2个关键任务，行人再识别和车辆再识别分别对行人和车辆这两类感兴趣目标(object of interest)在大规模数据集中的检索问题进行了深入研究[7]。文献[8]指出，行人再识别需要分辨由当前摄像头中观测到的行人是否出现在另一摄像头或另一时间点中。而车辆再识别同样要找出在视域不重叠的监控摄像头中出现的同一车辆。两者都需要对检测物体进行身份一致性判断，具体处理流程见图1。

图1 再识别任务处理示意图Fig.1 Diagram of re-identification task

从图1可以看出，再识别任务可以作为单摄像头目标检测和目标追踪的后续任务，其输入是由目标检测算法从视频帧或图像中检测出来的紧密裁切的感兴趣物体图像区域；输出则是根据物体外观特征和其他附加信息得到的候选集排序列表，相似度高的物体排序在前，反之靠后。

文献[9]指出行人再识别正从封闭场景向开放场景发展，挑战也更大。而目前车辆再识别任务仍基于图像数据集如VeRi，VehicleID，PKU-VD等进行，而随着摄像头数量的增加，车辆再识别任务的难度也随之增加。因此，文献[10]在原有数据集VehicleID基础上，进一步扩大了监控网络的覆盖范围和数据采集的环境条件，包括174个摄像头，覆盖了超过200平方公里的城市场景。另外，从物体追踪的角度而言，车辆再识别任务与车辆跨摄像头追踪任务紧密相关，文献[11]提出了一个城市级别的交通摄像头数据集，包括原始视频数据以及标注后的再识别图像数据，并在此数据集的基础上展开智慧城市挑战赛，推动交通监控视频智能分析的研究。

车辆再识别任务相较于行人再识别任务在图像上具有更大的类内差异性和更小的类间相似性。基于视觉的方法中，文献[12]提出了一个双路模型，将全局外观特征和局部关键点特征通过注意力机制融合到一起。文献[13]在特征嵌入空间中，通过对抗学习生成难以分辨的负样本，通过训练提升模型判别能力。在类内差异性上，文献[14]通过视角依赖矩阵的关联与变换来增强特征在跨视角情况下的泛化能力。

从信息的维度看，附加信息与图像信息不同。附加信息主要以文本的形态表示车辆在监控网络结点中的语义信息。文献[4]通过渐进式的过滤，将不相似的车辆通过外观对比进行了排除，之后再使用车牌对比来精确地匹配身份，并通过时空关系约束检索范围；文献[15]对车身局部特征进行了全面的标注和检测，在此基础上提出了基于感兴趣区域的再识别模型；针对车辆在网络中的上下文信息，文献[5]提出的视觉-时间-空间的路径建议方法通过时空关系和视觉特征的耦合，有效地规范了再识别排序列表；文献[16]指出车辆轨迹数据可以通过聚类分析方法挖掘出车辆行驶的潜在规律；文献[17]指出再识别结果能够通过与多目标跨摄像头追踪任务的关联得到优化。附加信息和视觉特征的混合模型能够充分利用不同模态的数据，提升再识别精度。

2 基于轨迹聚类的车辆再识别

本文受文献[6]思路的启发，在行人再识别方案的基础上改进了车辆时空关系的建模方式，通过联合度量模块的优化提升视觉特征的判别能力。本文方法提出的基于轨迹聚类的再识别方法(track clustering aided vehicle re-identification, tcReID)将视觉特征和车辆轨迹所代表的时空约束融入一个统一框架中，具体包括1个视觉分支，1个轨迹分支以及1个联合度量模块。具体结构见图2。

2.1 视觉分支

车辆视觉特征提取已经在很多文献中得到了深入研究。本文的重点并不在如何提取判别能力强的外观特征，而是使用目前效果最好的视觉提取基准方法来提取外观特征。视觉提取模型以ResNet50模型为基础，增加了一个批归一化(batch normalization bottleneck，BNNeck)层，并在多种损失函数的监督下进行外观特征学习。BNNeck层在最后一层卷积层和全连接层之间增加了批归一化(batch normalization, BN)操作。

视觉分支分为训练和推理2个阶段。在训练阶段，ResNet50模型通过ImageNet预训练模型进行初始化，并使用文献[18]中提出的Batch Hard采样策略进行三元组(triplet)采样。三元组中具体包括了1个锚点图像(anchor)，1个正样本图像(positive)以及1个负样本图像(negative)，表示为

ltri(a,p,n)=[Dap-Dan+α]+

(1)

(1)式中：Dap表示锚点图像与正样本图像两者特征向量间的欧式距离；Dan表示锚点图像与负样本图像两者特征向量间的欧氏距离；α为距离超参数；[·]+表示max(·,0)。

具体看，三元组损失使得在特征空间中，锚点图像与正样本之间的距离比与负样本之间的距离至少大过一个边界值α。

除此之外，带标签平滑(label smoothing)操作的交叉熵损失函数同样也应用于车辆ID预测的监督。其中，基本的交叉熵损失定义为

(2)

由于将每一个ID的车辆作为一个类别，简单的交叉熵函数在分类任务时容易导致过拟合，为克服这一缺点，引入了标签平滑技巧，将交叉熵损失中的标志函数qi改进为

(3)

(3)式中，ε为一个常数，使得模型在训练集上不过分拟合。在数据量适中的情况下，标签平滑技巧能够显著提高分类性能。

总的训练误差函数为三元组损失ltri和ID损失lID之和，表示为

l=ltri+lID

(4)

BNNeck层的引入使得2个损失函数优化目标达成一致，在训练过程中同时达到收敛。

在推理阶段，对于给定查询图像Qi，以及候选图像集中的任意图片Gj，使用BNNeck中的BN层的输出作为最终的特征嵌入向量xi和xj。欧式距离作为两者的距离度量方式，表示为

Sv=‖xi-xj‖2

(5)

图2 基于轨迹聚类的车辆再识别方法Fig.2 Diagram of proposed tcReID model

2.2 轨迹分支

车辆在监控网络的连续行驶，使得单个车辆图像可以通过时间先后顺序聚类为一条行驶轨迹。这样的行驶轨迹可以由单个摄像头内时间紧密关联的轨迹片段关联整合成为跨摄像头的完整轨迹。从另一个角度来看，车辆在监控网络中的完整行驶轨迹是多目标多摄像头追踪系统的主要目标。因此，基于图像数据集的车辆再识别任务可转化为根据查询图像及其摄像头上下文信息，在车辆轨迹数据中检索时间可行的行驶轨迹，并结合视觉信息得到最终判断。

车辆再识别由此可分解为2个步骤：①将候选图像聚类为跨摄像头的车辆行驶轨迹；②在给定查询图像拍摄时间的情况下，通过相对时间窗寻找到同时满足时间可行且视觉相似的车辆轨迹。

2.2.1 车辆轨迹聚类

车辆轨迹聚类将分散的图像数据，根据其跨摄像头的转移关系，按照时间先后顺序将图像数据预处理为车辆轨迹数据G{vi,ci,ti}→G′{trj,vi,ci,ti}，其中，{vi,ci,ti}表示车辆ID、摄像头ID以及拍摄帧数(在时钟同步的监控网络中，等同于拍摄时间)组成的元组；而trj则表示第j条聚类后的轨迹。算法伪代码见算法1。

算法1 车辆轨迹聚类算法伪代码

Input：G{vi,ci,ti}。

Output：G′{trj,vi,ci,ti}。

1.forvido

2.forcido

3.cpj=AVG(t)

4.end for

5.SORTED(cpj,ci)

6.K=MOST_COMMON(ci)

7.KMEANS(nb=K).fit(cpj,ti)

8.end for

在算法1中，为降低计算复杂度，将每个车辆在单个摄像头视域内被多次拍摄到的时间序列标记为其在当前摄像头内所有拍摄时间的中心点，以此来表示车辆在此摄像头中出现的时间标识cpj。在此基础上，可以将某个车辆经过不同摄像头中心参考点按照时间先后顺序关联起来，得到车辆在摄像头网络拓扑中的完整轨迹。因此，在训练数据集中遍历整个车辆完整轨迹子集可以获得车辆在不同摄像头之间的转移顺序，由此可以得出摄像头之间的关联关系。通过统计车辆在相邻摄像头之间的转移关系，可以得出不同摄像头的邻接矩阵，这个邻接矩阵表示了摄像头网络之间的转移概率。

若将此邻接矩阵进行可视化，可以绘制网络拓扑见图3。黑色实线表示2个摄像头之间存在较高的转移频率，而紫色虚线则表示2个摄像头之间的转移频率较低。换言之，可以根据摄像头网络的邻接矩阵得出某个摄像头结点转移频率最高的前后2个相邻摄像头结点。图3中的摄像头转移矩阵，也充分反映了右侧实际路网地图指出的主干道和其他道路之间的相互连接特征。因此，摄像头网络拓扑推理能够降低后续车辆检索的搜索空间。而通过轨迹聚类，车辆再识别问题则可进一步转化为轨迹搜索问题。

图3 监控网络拓扑推理Fig.3 Surveillance camera topology inference

2.2.2 轨迹搜索

在给定检索图像上下文信息的情况下，车辆轨迹可以通过时间窗来进一步约束。对于任意检索(ci,ti)，通过摄像头网络拓扑可以推知与ci紧密相连的前后2个摄像头结点ci-1和ci+1。与检索图像所匹配的真实轨迹必然满足一个相对的时间窗大小，表示为

(6)

(6)式中：Γ表示一个相对时间窗阈值；cpj表示任意候选轨迹中第j个摄像头所拍摄到的中心时间点。wij可以称为查询图像与第j个候选轨迹之间的相对时间窗(relative time window, RTW)。

与视觉分支类似，轨迹分支的分数通过候选轨迹中摄像头转移指示函数Tij以及wij来决定，具体定义为

(7)

当摄像头i和j之间存在转移连接时，Tij取值为1；反之，则取值为0。时间差计算则将相对时间窗通过Sigmoid函数，将具体时间值映射到(0,0.5)的开区间，以确保轨迹分支得分较视觉分支不会过大。

2.3 联合度量

联合度量将视觉分支和轨迹分支结合起来，其中视觉分支衡量了任意查询图像与候选集中图像两两之间的距离，轨迹分支将候选集图像从单个图像聚类成为车辆轨迹子集，并在车辆轨迹子集的基础上将时空约束增加到视觉分支所得到的距离上。

根据轨迹搜索的结果，将时间可行的轨迹子集中图像与查询图像之间的距离减去时空关系所得到的分数，表示为

S=Sv-λ·St

(8)

(8)式中，λ表示平衡视觉分支与轨迹分支的权重参数。

3 实验验证

将本文提出的方法在VeRi数据集上进行实验验证，参看代码(1)https://github.com/jiangtaoluo/tcRe-Id/。VeRi数据集是车辆再识别领域的一个主要数据集，其主要包含了监控摄像头网络中分布在不同位置的20个摄像头的数据，并对776个身份的车辆采集了超过40 000张图片。

评价指标遵循再识别任务的标准评价指标：平均精度均值(mean-average-precision, mAP)和排序精度(rank-k accuracy)。首先在给定查询q情况下，平均精度AP的定义为

(9)

(9)式中：P(k)表示排序前k个位置的精度；Ngt(q)表示在车辆候选数据集中与查询图像q身份相同的车辆图像数量。根据候选图像与查询图像两者之间的特征距离，可以对候选图像集进行降序排列，若前k个位置中存在与查询图像q身份相同的车辆图像，则δk为1，反之为0。在AP计算的基础上，mAP可以通过对所有查询图像的平均精度求均值来表示

(10)

(10)式中，Nq表示查询图像的数量。

3.1 实验结果

本方法与目前基于视觉的车辆再识别方法和附加信息提升的再识别方法进行了对比，具体结果见表1。其中，类别1表示基于视觉的再识别方法，类别2表示附加信息提升的再识别方法。表1中的STR表示文献[4]中提到的时空关系重排序，ReRank指文献[19]提出的k-互惠重排序技巧。

从表1可以看出，tcReID在mAP和Rank-k精度上均有较大提升。本方法在未使用ReRank的基础上在mAP上实现了90.90%的精度，超过了目前最优的PRN网络模型经k-互惠重排序提升的实验结果。此外，PRN网络中对特征图的多个维度进行了多次拆分和融合操作，比本方法中ResNet50基础网络增加BNNeck层更加复杂。在使用k-互惠重排序技巧后，本方法将mAP指标进一步提升到了92.82%，达到了目前的最佳结果。

此外还可以看出，随着网络模型和训练技巧的逐渐丰富，在图像数据集上性能指标日趋饱和，而更大规模的数据集以及视频数据集上的车辆再识别问题仍有较大空间。

表1 tcReID与其他SOTA方法的对比Tab.1 Performance comparison with other SOTA methods

除了性能指标对比外，图4展示了tcReID模型的检索结果可视化效果。图4中共展示了2列共10个查询样本及其对应的前5张预测匹配结果，其中，绿色边框表示身份匹配正确，而红色边框表示匹配错误。从可视化结果看，tcReID模型在摄像头视角变化较大时，效果仍有提升空间。

3.2 参数优化

本方法中，共有Γ和λ这2个参数需要额外调整。理论上，更大的Γ能将更多的候选轨迹纳入轨迹检索的计算，但最终反而使mAP和Rank-k指标有所降低，这主要是因为更多的候选轨迹扩大了轨迹匹配的搜索空间，使得最终匹配结果精度稍有下降。时间窗阈值Γ对再识别性能的影响见表2，由表2可知，当Γ取0.04时，对再识别任务的性能表现最优。

固定轨迹分支的Γ，再对λ进行实验。轨迹分支的λ对再识别性能的影响见表3，当λ取值为7，此时性能达到最佳，这表明由轨迹聚类确定的候选轨迹在时间相似性上经过7倍左右的放缩，增强了视觉分支的再识别身份判断效果。此外，尤其需要注意的是，当λ为0时，轨迹聚类结果不纳入联合度量的计算，tcReID模型回退为基于视觉信息的再识别模型，此时mAP指标为80.24，仍高于除Partition方法之外的视觉特征方法，证明了视觉分支的有效性。

图4 tcReID再识别方法检索结果可视化Fig.4 Visualization of proposed tcReID model results

表2 时间窗阈值Γ对再识别性能的影响Tab.2 Performance impact of relative time window threshold Γ

表3 轨迹分支的λ对再识别性能的影响Tab.3 Performance impact of track stream weight λ

4 总结

本文提出了一个新的车辆再识别方法(tcReID)，将车辆视觉信息与时空关系约束融合到一个端到端的网络中。视觉分支在网络结构上使用目前效果较好的ResNet50骨干网络与BNNeck层的组合，损失函数则基于三元组损失函数和带标签平滑的交叉熵损失函数，并在其他训练技巧的辅助下得到了判别能力较强的嵌入特征。轨迹分支从轨迹聚类入手，将车辆图片转化为车辆轨迹，并在相对时间窗的约束下进行车辆轨迹搜索；然后，在联合度量模块的优化下，将视觉分支距离和轨迹分支分数结合到一起。在VeRi数据集上，tcReID模型实现了92.82%的mAP和99.05%的Rank-1精度，超过了目前的最优方法。

此后，针对tcReID模型中的车辆轨迹聚类算法，从单摄像头追踪和跨摄像头关联2个角度可以再进行拓展。此外，本文提出的相对时间窗设计还能够进一步优化，以实现自适应的时间可行性判断。