融合全局与空间多尺度上下文信息的车辆重识别

2023-02-21王振学许喆铭雪洋洋郎丛妍李尊魏莉莉

中国图象图形学报 2023年2期

王振学，许喆铭，雪洋洋，郎丛妍，李尊，魏莉莉

北京交通大学计算机与信息技术学院，北京 100044

0 引言

车辆重识别是智能交通系统的一部分。其从查询集中任选一幅车辆图像作为查询对象，旨在从图库集中检索出由不同角度摄像机拍摄的与查询对象相同的车辆图像。该任务应用于车辆检索(Liu等，2020)、交通流分析(Jiang等，2018)和车辆跟踪(Xu等，2020)等智能交通系统研究领域中，已成为当前计算机视觉和多媒体分析领域的热门研究课题之一。

早期的车辆重识别方法(Liu等，2016b；Jeng和Chu，2013)主要关注于手工设计的底层特征，诸如颜色和纹理等，并设计一定的计算规则进行车辆重识别任务的研究。此类方法侧重于对车辆图像某方面特征的抽取，对特定任务表现出不错的识别性能。然而这些底层特征容易受到外界环境的干扰，例如光照、遮挡和视角变化等，使这类算法的识别精度受限。随后，一些算法(Liu等,2016c；Liu等，2018a)根据车牌是车辆身份唯一标识这一特性，通过检测图像中车牌的位置，将车牌字符从整幅图像中分割出来，并进一步根据车牌号进行车辆重识别。此类方法在一定程度上缓解了早期方法对手工设计底层特征的依赖。然而，由于车牌像素模糊以及车牌被伪造、遮挡和涉及隐私安全等诸多方面因素，给搜索目标车辆带来极大挑战。

受益于神经网络强大的自主学习能力及对区分力特征的表征能力，深度卷积神经网络(Wang等，2017；Zhou和Shao，2018)在车辆重识别任务上得到了广泛运用，推动了车辆重识别技术的进一步发展。其中，一些算法考虑从车辆的局部位置中提取关键信息。He等人(2019a)利用局部正则化方法，选择性地关注更有区分力的关键区域，例如年检标志粘贴的位置、车内的挂饰等，忽略其他不相关的信息。Liu等人(2018a)将整个图像水平分割成3个部分，并从3个重叠的局部区域中提取相应的区域特征。Chen等人(2020)提出一个专注于不同部位的注意力网络，通过预测不同视角下对象车辆的掩膜，提取对应部分的判别特征。潘海鹏等人(2021)提出一种基于注意力与多尺度融合学习的车辆重识别方法，在多尺度下提取并融合浅层细节信息和深层语义信息。相比于早期对车辆重识别算法的研究，上述方法大幅提升了研究领域的整体识别性能，但在车辆重识别任务中会遇到类内差异性、类间相似性、分辨率低和遮挡等多项挑战，如图1所示，即相机拍摄角度的不同会导致同一辆车在不同视角下形成自身差别，不同车辆在相同视角下因外观相同产生类间相似，或视角被物体遮挡使得拍摄的图像不完整等，这使得现有方法未能充分对多尺度上下文信息进行有效地抽取，不能充分表征与运用丰富的细粒度特征，使这些挑战影响了最终车辆重识别的精度。

图1 车辆重识别任务中的挑战

为了缓解上述问题，本文提出一种融合全局与空间多尺度上下文信息的车辆重识别方法(global and spatial multi-scale contexts fusion for vehicle re-identification，GSMC)，利用全局与多尺度空间上下文信息，对判别特征进行有效的选择优化。GSMC包含全局上下文特征选择和多尺度空间上下文特征选择两个模块。前者首先对车辆判别特征进行划分，然后根据每个部分对最终识别任务不同的贡献程度，动态地学习其对应的权重度量因子，并以此优化车辆判别特征。而后者从多尺度思想出发，对得到的判别特征通过下采样的方式获得多尺度特征，然后选择性地集成来自多级特征的空间上下文信息，提升模型对于车辆空间位置特征的感知能力。通过两个模块的相互协作，使GSMC能够分别从全局与空间局部方面获得强判别力的上下文信息。本文主要贡献如下：1)提出一种融合全局与空间多尺度上下文信息的车辆重识别方法，同时优化全局与空间局部上下文信息，获得更加鲁棒的特征表示。2)设计全局上下文特征选择及多尺度空间上下文特征选择两个模块。同时考虑图像的全局及多尺度空间上下文信息，学习车辆图像的前景特征响应图，以生成强判别力的车辆识别特征。3)在公开数据集VehicleID及VeRi-776(vehicle re-idendification-776)上进行实验，验证了提出的GSMC在车辆重识别问题上的性能优于主流算法的性能。

1 相关工作

随着深度学习技术在各领域的应用与发展，基于深度学习的车辆重识别方法备受关注。按照学习方法的不同，车辆重识别方法分为基于表征学习的方法和基于度量学习的方法。

基于表征学习的方法在训练网络时未考虑图像间的相似度，将车辆重识别任务看做分类问题。例如，Shen等人(2017)将车辆图像和其时空信息构造为一个状态，利用链式马尔可夫模型，生成多条候选的视觉—空间—时间路径，之后使用孪生卷积神经网络计算候选路径中近邻图像之间的相似程度，最后使用长短期记忆网络，以该条候选路径作为先验知识，判断该查询对是否具有相同的ID(identity)，有效规范车辆重识别的结果。Khorramshahi等人(2019)为了解决车辆视角变化带来的影响，对车辆的关键部位定义并将关键点分为4组，使用注意力机制提取车辆具有辨别力的局部特征。Wang等人(2017)提出一个包含方向不变特征嵌入和时空正则化两个模块的方法，首先选取车身上具有辨识性的20个候选区域，得到车辆关键点对应的映射图，再基于车辆的4个面，将这些关键点聚合成4个候选区域掩码，利用原始的输入图像和生成的候选区域掩码，可以获得一个全局特征和4个局部特征。最后，这些特征通过特征聚合模块进行融合，输出一个方向不变特征向量。在时空正则化模块中，利用时空信息对检索结果进一步优化。

基于度量学习的方法旨在通过网络模型学习出图像间的相似度。例如，Liu等人(2016a)设计了一个双分支的混合差分网络，将输入的车辆图像映射到具有可区分性的特征空间，同时考虑到传统三元组损失的不足，提出了成对簇损失函数，缩小正样本对之间的距离并增大负样本对之间的距离。构建了一个真实监控场景下高质量的车辆重识别数据集VeRi-776，并使用车辆的外观特征和额外的时空信息作为输入，送入有两个网络输入的孪生网络，度量输入图像之间的相似性。Chu等人(2019)将车辆重识别分为相似视角和不同视角，通过执行空间内约束与跨空间约束，可以在相似视角图像干扰下检索不同视角的图像。

为了学习到更有区分性的特征映射空间，许多工作联合这两种学习方法一起优化网络，用于获得更具判别力的特征作为最终的特征表示，从而进一步提高算法性能。Zhou和Shao(2017)设计了一个XVGAN(cross-view generative adversarial network)，采用对抗学习方案从单幅图像生成多个视角下的车辆图像或特征，可以在一定程度上解决视角变化的挑战，但是可能很难区分外观非常相似的不同车辆。Zhou和Shao(2018)使用视图感知注意力模型获取车辆在多个视角下的局部特征，再利用对抗训练方法，设计了一个多视角生成网络，可以从输入图像的单角度特征推断生成一个包含多角度信息的车辆特征，以实现全方位的外观特征对比。

一些研究重点关注车辆的关键区域，从车辆局部区域获得更具区分性的特征。Chen等人(2019)设计了一种先分割后聚合的PRN(partition and reunion network)，将特征图分别在空间和通道维度上进行了4等分割，并将最后的全连接层输出的子特征向量进行拼接，作为交叉熵损失函数的输入，通过这种先分割再聚合的训练策略，该模型不使用额外的标注信息就可以捕捉到丰富的车辆局部特征，但是缺少对不同尺度大小关键区域的选择。Qian等人(2019)用水平划分的方式获得局部特征，可以有效抵消水平视角变化引起的不利影响，同时，在车辆属性标签的监督下从特征图中提取全局特征，帮助训练网络。邱铭凯和李熙莹(2021)提出一个基于细节感知的判别特征学习模型，设计了一个指导式的车辆局部特征提取流程，将局部特征与骨干网络提取的全局特征联合作为车辆特征。Liu等人(2018a)使用划分的方式进行分块，从一系列局部区域中提取特征，同时学习全局外观和局部区域的特征，但未考虑不同部分对最终的重识别结果的重要程度不同。

不同于上述研究，本文方法不仅为提取的特征动态地分配权重度量因子，而且考虑对多尺度特征融合，更好地实现前景目标与背景的分离，以提升模型性能。

2 GSMC模型

2.1 模型的整体结构

图2展示了GSMC的整体网络结构，包含全局上下文特征选择和多尺度空间上下文特征选择两个模块。此外，引入基于规则划分模块以获得局部特征(图2右上角)。给定一幅车辆图像，GSMC首先采用预训练好的基础网络提取其初始化的车辆特征。类似于主流算法(Chen等，2020；Khorramshahi等，2019)，GSMC利用ResNet-50-ibn-a(Pan等，2018)作为特征提取的基础网络。不同于原始ResNet-50-ibn-a，GSMC去除了基础网络的全连接层及最后一个池化层。对于ResNet-50-ibn-a最后一个卷积层输出的特征，其编码了丰富的高层语义信息，能够较好地捕捉到车辆的全局与局部信息，因此，在此判别力特征之上，GSMC首先设计一个全局上下文特征选择模块，对判别特征进行规则划分，从整体上学习每个部分的重要性分数，以此增强特征响应大的关键区域，提取具有判别力的细节特征。针对优化后的全局特征，受多尺度思想的启发，GSMC进一步设计一个多尺度空间上下文特征选择模块，对优化后的特征采用多尺度划分，选择性地集成来自多级特征的空间上下文信息，获得可以区分前景与背景的特征响应图，去除噪声以及冗余信息的影响。通过两个模块的相互协作，使GSMC能够分别从全局与空间局部方面获得强判别力的上下文信息，不仅可以挖掘车辆不同部位的细粒度判别信息，也可以从多尺度的空间特征中学习到前景特征，获得更加鲁棒的特征表示。

图2 融合全局与多尺度空间上下文信息的车辆重识别模型的整体框架结构示意图

2.2 全局上下文特征选择模块

ci=P(Conv1×1(xi))

(1)

式中，P表示全局平均池化(global average pooling) 操作，Conv1×1(·)代表1×1的卷积函数。此外，为了度量每个部分特征的重要度，本模块连结N个部分学习到的特征权重因子，并采用全局归一化操作，通过各部分权重值之间的相互交流，更新对应部分生成的权重值。该更新过程可表示为

(2)

(3)

式中，=表示拼接函数，⊕表示残差机制中的对应元素相加操作。

2.3 多尺度空间上下文特征选择模块

(4)

(5)

式中，⊙表示数乘操作。该模块利用多尺度特征之间的信息交互，能够自适应地为车辆分配较大的权重来增强前景的效果，为背景赋予较小的权重来减弱噪声等信息的干扰，以选择更加鲁棒的空间上下文信息。

2.4 模型训练

为了获得细粒度特征空间，得到更有区分力的特征表示，最终特征F可以表示为

(6)

(7)

(8)

考虑到交叉熵损失函数虽然可以减小类间差异，但不擅长于使同一类的特征变得更加紧凑，不足以有效地学习鲁棒的特征表示。因此，利用三元组损失函数(Hermans等，2017)Lt在特征空间拉近正样本对的类内距离，增大负样本对的类间距离，进一步提高车辆重识别性能。最终的损失函数可以表示为

L=Ls+L′s+Lt

(9)

通过多个损失函数的联合优化，可以增强模型的学习能力，引导网络学习更好的特征嵌入空间，在训练阶段生成车辆更具判别力的特征表示。

3 实验

3.1 实验设置

实验采用在ImageNet数据集(Deng等，2009)上预训练的ResNet-50(Pan等，2018)作为基础网络。在模型训练过程中，为了使模型具有较快的收敛速度，在前5个epoch内使用预热学习策略保持模型的稳定。训练参数设置如下：epoch为50，学习率为0.000 1，且在第15个和第40个epoch时衰减，优化器为Adam，动量为0.9，批处理大小为64，车辆图像尺寸为256 × 256像素。对于每个批处理，训练样本来自16辆不同ID(类别)的车辆，每个ID包括4幅随机选择的图像。

3.2 数据集及评价指标

为了验证提出模型的有效性，在主流的公开数据集VehicleID(similar vehicles)(Liu等，2016a)和VeRi-776(Liu等，2016；Liu等，2018a)上进行实验，采用rank-1，rank-5和mAP(mean average precision)评价指标评测模型的性能。rank-1和rank-5分别表示结果列表中排名前1和前5个结果的检索准确率，mAP表示平均准确率。

VehicleID数据集由多个视角互不重叠的监控摄像头在白天拍摄的车辆图像组成，每辆车的拍摄视角只有前视和后视，共221 763幅26 267辆车的图像，平均每辆车8.44幅图像，其中10 319辆车的90 196幅图像标注了车型等信息。数据集中的车辆共7种颜色，250种型号。数据集分为训练集与测试集。训练集包含13 134辆车的110 178幅车辆图像。测试集根据车辆图像的数目又分为小规模、中等规模和大规模测试子集，候选集由每个ID的1幅车辆图像组成，剩余的图像构成查询集，每个子集包含的车辆ID数分别为800、1 600和2 400个。由于候选集中只包含每个ID的1幅车辆图像，因此只使用rank-1与rank-5作为该数据集的性能评价指标。

VeRi-776数据集是在VeRi(Liu等，2016c)数据集上扩充标注后得到的，数据集中的车辆图像由218个不同位置的摄像头在不同环境中拍摄，图像具有不同的视角、遮挡和光照等。数据集包括776辆车的近50 000幅图像，其中，576辆车的37 778幅图像作为训练集，200辆车的11 579幅图像作为测试集。数据集中所有图像都标注了车辆ID、车型以及车辆颜色，共9种车型，10种颜色。此外，标注了所有车辆的轨迹、时空关系和各相机之间距离。选择rank-1、rank-5和mAP作为该数据集的性能评价指标。

3.3 与主流算法的性能比较

为验证本文算法的性能，在两个公共车辆重识别数据集上与VAMI(viewpoint-aware attentive multi-view inference)(Zhou和Shao，2018)、AAVER(adaptive attention model for vehicle re-identification)(Khorramshahi等，2019)、PNVR(part-regularized near-duplicate vehicle re-identification)(He等，2019a)、RAM(region-aware deep model)(Liu等，2018a)和SPAN + CPDM(semantics-guided part attention network + co-occurrence part-attentive distance metric)(Chen等，2020)等主流算法进行比较。

3.3.1 VehicleID数据集实验结果

在VehicleID数据集上，选择大规模测试子集进行实验，因为其含有更多难以区分的车辆图像，在该测试集上的准确度能更加充分地反映网络模型的鲁棒性和泛化能力。实验时，Baseline模型同时使用标签平滑的交叉熵损失函数和三元组函数，以ResNet-50-ibn-a为基础网络。表1为本文模型与主流车辆重识别方法在3个测试子集上的对比结果。相比于主流方法和Baseline，本文模型在大规模测试子集上取得了最优的结果， rank-1和rank-5指标分别为75.0%和90.9%。与使用了多视角学习方法的VAMI相比，本文方法在大规模测试子集上的评测结果rank-1和rank-5分别提高了27.7%和20.7%。AAVER方法可以将全局特征与通过使用自适应关键点和方向的注意力机制获得的细节特征进行融合，但是忽略了不同尺度下的细节信息，致使学习到的局部特征较少。与AAVER方法相比，本文提出的融合全局与空间多尺度上下文信息的车辆重识别方法可以得到更多的细粒度判别特征，rank-1和rank-5指标分别提高了11.5%和5.3%。与沿空间维度、通道维度划分的PRN相比，本文方法不仅可以得到每个部分的重要程度，还可以避免背景对全局特征造成的影响，在VehicleID大规模测试子集上的rank-1与rank-5分别提高了3.5%和2.5%。SAN通过水平划分的方式提取全局上下文信息，以学习有效的特征嵌入，但是忽略了不同部分的重要程度。与SAN相比，本文方法在大规模测试子集上的rank-1与rank-5分别提升了0.6%和2.3%。通过实验分析可知，本文模型在不需要额外标注信息的条件下，利用全局上下文特征选择模块和多尺度空间上下文特征选择模块可以明显提升车辆重识别的效果，不仅能获取车辆不同部位的重要度，而且可以区分前景目标与背景，增强特征的鲁棒性。值得注意的是，对于VehicleID数据集，候选集中每个ID只有1幅车辆图像，因此，重排序是不适用的。

表1 VehicleID 数据集上与主流方法性能对比

3.3.2 VeRi-776数据集实验结果

表2为本文GSMC模型与主流算法在VeRi-776数据集上的性能比较结果。可以看出，提出模型的性能优于使用额外非视觉特征的方法FACT + SNN + STR(fusion of attributes and color features+ siamese neural network+spatio-temporal relations)(Liu等，2016c)、OIFE+ST(orientation invariant feature embedding+spatial temporal regularization)(Wang等，2017)、RAM(Liu等，2018a)和解决跨视角偏差的方法VAMI(Zhou和Shao，2018)、PNVR(He等，2019a)和AAVER(Khorramshahi等，2019)。与同样使用全局上下文信息的RAM(Liu等，2018a)相比，本文方法在没有引入车辆额外信息的条件下，mAP、rank-1和rank-5指标分别提升了2.3%、3.0%和1.0%。与结合了全局特征和全局上下文特征等的SAN相比，本文方法通过提出的多尺度空间上下文特征选择模块，mAP、rank-1和rank-5指标分别提升了16.1%、7.7%和4.1%。与性能第2的PNVR相比，提出的模型的mAP和rank-1指标分别实现了 + 3.1%和 + 2.0%的明显增益。特别地，当使用Re-ranking(Zhong等，2017)作为VeRi-776数据集的后处理步骤时，在k-互反编码(Zhong等，2017)重排序算法处理之后，mAP从77.6%增加到80.8%，模型的整体识别性能明显提升。实验结果表明，提出的模型不仅可以对每个局部特征进行学习，得到每个局部区域的重要性分数，而且可以整合不同尺度的特征，对特征进行选择，避免背景或遮挡对全局特征造成影响，可以有效抵消水平视角变化带来的不利影响。通过实验性能的对比，证明了本文模型的有效性。

表2 不同方法在VeRi-776 数据集上的性能对比

3.4 消融实验

为了证明提出模型的各子模块的有效性，在基于交叉熵损失和三元组损失联合优化的Baseline网络的基础上，通过逐步添加全局上下文特征选择模块和多尺度空间上下文特征选择模块，在VeRi-776数据集上构建消融实验，得到各模块对算法的提升效果。此外，为了进一步证明这两个模块的有效性，增加了使用通道维和空间维注意力机制的消融实验。实验结果表明，得益于所提模块能够更有效地选择车辆关键特征，本文方法的mAP、rank-1和rank-5指标分别提升了5.6%、2.1%和0.6%。不同模块组合得到的实验结果如表3所示。其中，第1行是本文的Baseline网络框架，GCS(global contextual selection module)表示全局上下文特征选择模块，MSCS(multi-scale spatial contextual selection module)表示多尺度空间上下文特征选择模块，PART(part based partition module)表示基于规则划分模块、Attention表示基于通道维和空间维的注意力机制。

表3 不同模块组合得到的实验结果

3.4.1 全局上下文特征选择模块

将加入全局上下文特征选择模块的模型与Baseline相比，由表3第3行与第1行可得，mAP、rank-1和rank-5指标分别提高了0.9%、1.8%和0.8%。从表3第4行与第5行可以看出，基于多尺度空间上下文特征选择模块引入全局上下文特征选择模块后，mAP、rank-1和rank-5指标又分别提高了2.0%、0.7%和0.2%。这些结果都证明了全局上下文选择模块的有效性，可以学习到细粒度的判别信息。

图3是4组加入全局上下文特征选择模块前后的特征注意力热图。每组左列是原始车辆图像，中间列是加入该模块前的注意力热图，右列是经过该模块后输出的注意力热图，颜色越深代表权重越大，对识别车辆身份越重要。通过该模块使网络可以自动关注重要的区域，提高车辆重识别的性能。在不使用额外标注信息的情况下，该模块能够有效捕捉丰富的局部特征，对全局特征进行细节上的补充。

图3 进入全局上下文特征选择模块前后的特征注意力热图

3.4.2 多尺度空间上下文特征选择模块

在实验的训练阶段，使用带有ID注释的车辆图像进行训练，通过损失函数进行监督，获取能够区分前景与背景的分类器。特征响应值越接近1，表示前景特征的概率越大；越接近0，表示背景的概率越大。在测试阶段，多尺度空间上下文特征选择模块可直接预测输入车辆图像的前景特征响应图，而无需通过人工标注。通过比较表3第4行与Baseline的实验结果，使用了多尺度空间上下文特征选择模块的网络在mAP、rank-1和rank-5上分别提高了1.0%、1.2%和0.6%。将表3第5行与第3行的结果对比，可以看出，该模块在mAP指标上增加了2.1%。这些都表明该模块对特征进行了过滤选择，为车辆特征分配了较大的权重来增强前景的效果，为背景赋予较小的权重来减小背景的影响，获得车辆更加鲁棒的全局特征描述。图4显示了4组使用多尺度空间上下文特征选择模块生成车辆图像的前景特征响应图。可以看到，使用该模块可以准确地检测到车的部分。

图4 由多尺度空间上下文特征选择模块得到的车辆前景特征响应图

除了比较不同模块对车辆重识别实验结果的影响外，使用规则划分的方法验证实验效果，该方法可以对每一个局部特征而不是利用整幅图像的全局特征进行分类学习。比较表3第6行与第5行的实验结果，该方法的mAP、rank-1和rank-5指标又分别提高了3.1%、1.1%和0.2%，相比较于Baseline，在各评价指标上有了很大的性能提升。

4 结论

本文探讨了车辆识别任务面临的挑战，提出了一个新颖有效的车辆重识别网络。全局上下文特征选择模块动态地学习不同部分对应的权重度量因子，有效选择对车辆识别贡献大的关键区域，对判别特征进行优化。多尺度空间上下文特征选择模块自适应地为车辆分配较大的权值来增强前景对重识别准确率的影响，为背景赋予较小的权重去除冗余信息，旨在将前景目标与背景进行分离，选择出车辆特征，提升模型对于车辆空间位置特征的感知能力，获得车辆更加鲁棒的全局特征描述。在两个公开数据集上与主流车辆重识别算法相比，通过消融实验和对比实验，本文方法可以明显提升实验效果，证明了本文方法的有效性。

本文算法利用车辆的视觉信息提取车辆的细粒度特征，未来希望进一步将局部区域之间的空间几何结构关系、车辆的属性信息(如颜色、车型等)融合到模型中，进一步提升算法各方面的性能。