跨模态行人重识别研究综述

2021-11-22刘天瑜刘正熙

现代计算机 2021年7期

刘天瑜，刘正熙

（四川大学计算机学院，成都610065）

0 引言

近年来，随着智能监控领域的不断发展，单纯凭借传统的人力已经很难在对复杂的监控场景做出完善详尽的处理。作为一项在大型非重叠视角多摄像机网络获取到的海量视频画面序列里找到目标行人的任务，行人重识别（Person Re-Identification）可以被看作是多摄像头的行人检索问题。它建立在行人检测的基础之上，捕捉获取同一目标个体在不同非重叠摄像头中分布位置信息，推动了智能安保、智能视频监控、智能检索等领域的发展。

目前的大部分工作集中于可见光摄像头下的行人重识别问题。然而在实际应用场景下，摄像头应保证全天候的运作。由于可见光摄像头对夜间的监控安防工作作用有限，随着科技的进步发展，能够切换红外模式的摄像头正被广泛应用于智能监控系统。在可见光模式和红外模式下，分别采集到的是RGB 图像和红外图像，这是属于两种不同模态的数据，因此跨模态行人重识别问题被提出，随之引起了广泛的关注。有效解决跨模态行人重识别问题，对公共安全、预防犯罪和刑侦追查等方面有着重大的意义。

1 介绍

1.1 行人重识别

行人重识别作为计算机视觉领域的研究方向之一，近年来获得了一定关注。它被认为是一个利用计算机视觉技术对给定图像进行非重叠摄像头检索，从而识别出属于同一个行人图像的问题。行人重识别任务的起源最早可以追溯到1997 年的多摄像头追踪问题，2014 年，将深度学习中的孪生网络（Siamese Network）引入了行人重识别任务，从此开始将深度学习应用于行人重识别，形成了端对端的行人重识别系统。相较于之前大多基于手工设计的行人重识别系统，有了实质性的进展[1-2]。

基于深度学习的行人重识别可主要分为封闭世界方法（Closed-World Person Re-Identification）和开放世界方法（Open-World Person Re-Identification）两大类[3]。过去的行人重识别研究主要集中在基于封闭世界的设定上，用于训练和测试的数据为单一模态下已生成检测边界框的图像，且经过人工筛选处理和准确标注，能够保证同一个体在训练集和测试集中都有分布。相对的，开放世界方法更接近实际场景应用，其用于训练和测试的数据往往跨越单一模态，跨模态行人重识别问题属于其中的一种，它主要研究RGB 图像和红外图像之间属于同一行人个体之间的匹配检索问题。

1.2 跨模态行人重识别

在以往对行人重识别的研究中，用于训练和测试的数据集往往都是单模态的RGB 图像，然而在现实场景应用中，红外模式摄像头、深度摄像头，以及目击者陈述所捕捉描述的行人图像都是十分常见的。跨越可见光和红外两种模态下捕捉的行人重识别问题是其中亟待解决的一种。跨模态行人重识别，主要研究在给定一个特定个体的可见光图像或者红外图像，尝试在两种模态下的图像库中检索匹配属于同一个体图像的问题。该问题于2017 年在行人重识别领域首次被Wu等人[4]提出定义。他们提出了一个跨模态行人重识别框架，并提供了一个公开的大规模RGB-红外多模态行人数据库，名称为SYSU Multiple Modality Re-ID（SYSU-MM01）。之后开始有大量相关工作涌现，然而距离跨模态行人重识别能够投入实际场景中应用依旧存在许多问题。

目前，跨模态行人重识别问题面临的困难与挑战主要在于：

（1）两种模态下捕捉的图像存在较大差异。RGB图像拥有三个通道，包含了红绿蓝的可见光颜色信息，而红外图像只有一个通道，包含了近红外光的强度信息，而且从成像原理的角度出发，二者的波长范围也有所区别。不同的清晰度和光照条件在两类图像上所能产生效果可能会大相径庭。

（2）数据集较为单一且规模较小。虽然现在已经有许多工作致力于扩充行人重识别数据集，然而数据集中的图像大多来源于相似型号以及角度的机位，和实际中多样化的场景差距较大。

（3）传统行人重识别中存在的模态内差异，例如低分辨率、遮挡、视角变化等问题在跨模态行人重识别中也依旧存在。

2 跨模态行人重识别方法

跨模态行人重识别面临的主要难题在于跨模态问题中。针对模态的建模如何较好地减少两种模态图像间的差异，学习两种模态间共享的鲁棒性特征，是目前研究的关键。早期的研究主要集中于基于表征的学习以及基于度量的学习这两种方法，之后又出了基于模态互转的学习方法，实现RGB 图像和红外图像之间的模态风格转换，从而将跨模态行人重识别问题转换为单一模态下的行人重识别问题。目前跨模态行人重识别的研究可大致分为以下三类。

2.1 基于表征学习的方法

基于表征学习的方法主要研究如何设计建模合理的网络架构，能够提取两种模态图像共享的具有鲁棒性和鉴别性的特征，尽量缩小模态间存在的差异性，输入到共享参数的网络，从而比较二者的相似性。

2017 年，Wu 等人[4]首次在行人重识别领域提出定义了跨模态行人重识别问题，分析了三种网络架构，并提出了一种深度补零的数据预处理方法，比较评估了这四种网络的性能。其中，三种网络架构分别为单流网络、双流网络以及非对称全连接层结构。经过研究发现，这三种网络在特殊情况下都可以使用单流网络来表示。通过将不同模态的数据通道置于不同的对应通道，而将属于其他模态的置零，从而提出深度补零的单流网络。网络中不同的节点对应不同的模态数据会选择性“失活”，同时也存在始终激活的节点，针对不同模态数据的输入，可以进行不同的特征提取操作。

2018 年，Ye 等人[5]提出了一种分层的跨模态匹配模型，该模型通过联合优化模态特异性和模态共享矩阵来实现，其框架分为表征学习和度量学习两个部分，前者通过构造一个双流网络对分属两个模态的图像输入进行特征学习，再结合特征损失和对比损失进行相似度的学习。Dai 等人[6]为解决识别信息不足的问题，利用了GAN 生成器和判别器对抗训练的思想，提出了一个交叉模式生成对抗网络，该网络分为生成器和判别器两个部分。生成器使用三元组损失和身份损失进行训练，从而使得同一身份下不同模态行人之间的相似性增加，而不同身份且不同模态的行人之间的相似性会减小；判别器则使用RGB 图像和红外图像的二分类损失进行训练，从而和生成器展开对抗，减少二者特征的相似性。之后，为了解决模式间和模式内的差异这两个问题，Liu 等人[7]提出了一种增强鉴别学习的方法（Enhancing the Discriminative Feature Learning，EDFL），通过采用跳跃连接从而融合中间层特征，增强了特征的鲁棒性。Zhang 等人[8]提出了一种双路径交叉模态特征学习框架，主要由双路空间结构保持公共空间网络（DSCSN）和对比相关网络两部分组成。前者利用部分共享结构，学习跨模态结构共同空间特征，将交叉模态图像嵌入到一个三维张量空间从而保留空间结构；后者是通过关注两个相似对象的差异来模拟学习机制。Xiang 等人[9]利用RGB 图像和红外图像之间的内在联系，提出了一个端到端的双路多分支交叉模态网络，通过结合图像的全局以及局部信息来提取鲁棒性特征。针对由于集中学习跨模态图像共同特征而丢失大量特异信息的情况，Lu 等人[10]一种新的跨模态共享特征转移算法（cross-modality Shared-Specific Feature Transfer，cm-SSFT），在表示相似性的跨模态近邻吸引力模型的基础上引入模态特征，有效地利用了每个样本的共享信息和特定信息。Ye 等人[11]提出了两个注意力模块机制去提高模型的识别能力和鲁棒性。模态内加权部分聚合模块（Intra-modality Weighted-Part Aggregation，IWPA），将同一模态内的局部特征的权重聚合在一起；跨模态图结构化全局特征学习注意力模块（Cross-modality Graph Structured Attention for global feature learning，CGSA）利用跨模态的邻近结构关系去学习两个模态的全局特征。

2.2 基于度量学习的方法

基于度量学习的方法旨在通过网络学习出两张图片的相似度，关键在于设计合理的度量方法或者损失函数，从而使得在模态一致的情况下，属于同一个体的样本图像距离尽可能小，不属于同一个体的样本图像距离尽可能大；而不属于同一模态也不属于同一个体的样本图像距离尽可能大。

Ye 等人[12]提出了一种双向排序损失，将不同模态下属于同一个体的样本图像距离拉近，同时融合传统的交叉熵损失，从而达到不同模态特征进行融合的目的。Lin 等人[13]提出了一种新的特征学习框架。在该框架中，对现有的单模态行人重识别模型进行了修正以适应跨模态场景，并设计了一种难五联损失函数，它由难全局三元组损失和难跨模态三元组函数组成，从而有效处理跨模态变化和内模态变化，再结合身份损失以提高修正后的跨模态重识别模型的准确性。Hao等人[14]提出了一种具有分类和识别约束的端到端双流超球面流形嵌入网络（Hyper-Sphere Manifold Embedding network，HSMEnet），与传统映射到欧氏空间不同，该网络设计了Sphere Softmax 函数将样本的深度特征映射到超球上，使模型能够学习该超球的判别表示，在这个超球面上，两个样本图像之间的距离可以通过它们的特征向量的角度来确定，结合身份损失和排序损失进行训练，再通过KL 散度衡量两个领域的相似性。最后，通过单矢量分解方法对Sphere Softmax 最大值权矩阵进行了修正，从而由高相关状态转换为低相关状态。Ye 等人[15]提出了一种基于双流网络的模态意识协同学习方法（Modality-Aware Collaborative，MAC），提出了基线分类器、模态特异分类器和模态分类器，进行多分类器的协同学习。Zhu 等人[16]提出一个简单且高性能的网络架构来学习跨模态人再辨识的局部特征表示。由于直接约束模态分布之间的距离比较困难且代价高昂，所以使用两个模态分布之间的中心距离来代替两个模态分布之间的距离，从而缩小每个类中两个模态特征分布之间的距离。针对忽略了一致模态下样本相似性，Jia 等人[17]提出了一种新颖的相似性推断度量（Similarity Inference Metric，SIM），该度量方法利用一致模态内样本图像相似性来规避针对跨模态图像匹配的跨模态差异，通过连续相似图推理和相互最近邻推理进行训练，从两个不同的角度利用一致模态内样本图像相似性来挖掘跨模态样本相似性，缩小了模态间差异。

2.3 基于模态互转的方法

相对于基于表征的学习以及基于度量的学习，随着近年来GAN 的快速发展，实现模态的相互转换，将跨模态行人重识别问题转化为单模态的行人重识别问题，这在很大程度上减少了模态间的差异这一难点。为了实现两者的相互转换，Wang 等人[18]提出了一种双层差异减少方法（Dual-level Discrepancy Reduction Learning，D2RL），分为两个部分，先使用变分自编码器消除模态之间的差异，再使用传统的行人重识别方法约束外表特征差异。Wang 等人[19]一种用于跨模态行人重识别任务的端到端对齐生成对抗网络。像素对齐模块将RGB 图像转化为红外图像；特征对齐模块把真实的红外图像和合成的红外图像映射到同一个特征空间，并使用基于身份标签的分类和三元组损失来监督特征；联合判别模块负责判别真假红外图像，通过身份一致性特性使得前两者互相学习从而得到鲁棒性特征。

Zhang 等人[20]提出了一种基于不同域的师生模型（TS-GAN），使用了两个模态的图像相互生成作为指导，但仅使用了RGB 图像生成IR 图像作为教师-学生模型的输入，分为用于RGB 图像生成IR 图像的GAN、提取特征的主干网络和预训练教师模型这三个模块，这三个模块互相指导，从而提升了GAN 生成图像效果。为解决不同摄像机带来的交叉光谱问题，Fan 等人[21]提出了跨光谱双子空间配对模型（Cross-spectrum Dualsubspace Pairing，CDP）模型来生成多种光谱的图像，利用生成的样本帮助网络找到鉴别信息，从而实现对同一个人的跨模态重新识别

3 数据集及评价标准

为了评估跨模态行人重识别方法的性能，现有两个同时包含RGB 图像和红外图像的公开基准数据集供研究实验，通过相同指标对不同方法进行比较。

3.1 数据集

SYSU-MM01 数据集[4]是2017 年为研究跨模态行人重识别问题而提出的公开数据集，它包含了在白天的4 个用于捕捉RGB 图像的摄像视域以及在黑暗环境中用于捕捉红外图像的摄像视域，共有491 个不同身份行人的287628 张RGB 图像和15792 张红外图像。

RegDB 数据集[22]共有412 个不同身份的行人，分为254 个女性和158 个男性，每个人分别对应10 张RGB 图像和10 张红外图像，其中拍摄到156 个行人的正面，256 个行人的背面。该数据集总共有4120 张RGB 图像和4120 张的红外图像。

3.2 评价标准

（1）CMC 曲线

CMC（Cumulative Match Characteristic，CMC）曲线，即累积匹配曲线，它反映了分类器性能，一般使用Rank-k 表示，表示按照某种相似度匹配规则匹配后，第n 次能判断出正确的行人标签的测试数目与总的测试样本数目之比。例如Rank-1 识别率就是表示第一次匹配检索后就能返回正确匹配的概率。

（2）mAP 均值平准精度

mAP（mean Average Precision）根据准确率-召回率曲线计算得到反应召回率。具体操作是分别求出每个类别的平均准确值后再次取平均值。平均准确值是求准确率-召回率曲线下的面积，综合考虑了准确率和召回率，是衡量一个模型好坏的标准。

4 结语

本文对跨模态行人重识别问题进行了研究，将现阶段的跨模态行人重识别方法分为基于表征学习的方法、基于度量学习的方法和基于模态互转的方法，并对这些方法进行了介绍。跨模态行人重识别作为当前行人重识别的一个分支方向，随着摄像监控系统的发展完善，在公共安全、预防犯罪和刑侦追查等领域有着重要意义，但目前的研究距离实际落地应用还有很长一段距离，可以预见到未来会持续涌现大量相关工作。