基于深度学习的行人重识别综述
2022-05-15杨永胜邓淼磊张德贤
杨永胜,邓淼磊,李 磊,张德贤
1.河南工业大学 信息科学与工程学院,郑州450001
2.河南省粮食信息处理国际联合实验室,郑州450001
行人重识别(person re-identification,Re-ID)也称为行人再识别,是一个典型的图像检索问题,在给定的跨设备收集的行人图像库中检索目标行人图像,即利用计算机视觉、模式识别和机器学习等多项技术判断图像或视频中目标行人是否存在。近年来,已受到工业界和学术界的广泛研究[1-2]。行人重识别技术可以在智能安防、视频监控等领域弥补人脸识别技术和固定摄像头视觉局限性;并可与行人检测[3]、行人跟踪技术[4]组合为行人重识别系统,如图1所示。
图1 行人重识别系统Fig.1 System of Re-ID
由于摄像机参数和拍摄环境不同拍摄的行人图像在背景、光照、分辨率、视角和姿势等方面都存在较大差异。如何提取具有判别性的特征和设计特征匹配度量算法,是解决该问题的关键。一般而言,行人重识别任务包括特征提取和特征匹配两个方面。2016年以前,特征提取主要是提取判别力的低级视觉特征,包括形状特征(HOG特征)[5]、颜色直方图(RGB、HSV)[6-7]、关键点(SIFT)[8]、纹理特征(Gabor)[9]等。特征度量学习指在特征空间中计算特征之间的距离或相似性,使同类对象更加紧凑,不同类之间更加分离。度量学习方法常用的有马氏距离[6]、显加权度量学习[7]、局部自适应决策函数[10]等。上述低级视觉特征提取算法在面对风格多样的图像样本(光线、背景等)时,较难提取具有判别力的特征。
自2016年开始,随着深度学习研究的快速进展,研究者们开始关注基于深度学习的行人重识别方法,与传统方法不同,基于深度学习的行人重识别方法集成了特征提取与度量学习两个模块[11],即图像特征的提取和特征向量的相似度比较在一个模型中完成。根据识别方式的不同,可以将基于深度学习的行人重识别模型分为表征模型[12]和匹配模型[13],其中表征模型将行人重识别任务当作分类问题,表征模型的损失函数有分类损失[14]和验证损失[12]等。匹配模型将行人重识别任务当作图像相似度比较问题,大部分使用类似Siamese 网络[15]的端到端模型,其损失函数有对比损失[16]、三元组损失[13]等。最近,有研究者将两种模型集成起来,如Zheng 等人[12]将表征模型和匹配模型结合起来提高模型特征表示,从而缩小类内距离和增大类间距离。
传统方法基于低级视觉特征提取图像信息具有较多局限性,面对复杂多变场景的行人图像不能提取到具有判别力的特征。主要原因有:手工特征具有很大的主观因素,不能较好地获得图像有效信息,进而影响到重识别的推理阶段;背景噪声对传统方法的影响较大,无法判断图像的显著性区域;传统的距离度量方法不具有普适性,难以对多个样本批次度量。近年来,随着深度学习的发展,行人重识别研究获得飞速发展,其识别精度有了很大提高,具体的表现在两个方面:在特征提取方面,利用深度学习方法的卷积神经网络(convolutional neural network,CNN)可以提取到图像中显著性区域,从而解决了传统方法主观性的问题;在模型方面,基于深度学习训练的模型能够挖掘群体样本间的关联性,因此数据量爆炸的信息时代提供的海量样本对模型训练有着巨大的推动作用。
基于上述现状,本文重点分析近几年深度学习在行人重识别任务上的研究进展,整理归纳了该领域的一些优秀算法,并讨论了未来的研究方向。本文主要结构如下:(1)依据特征提取方式的不同将行人重识别模型分为监督学习、弱监督学习两大类;(2)依据研究热点,研究分析了跨模态行人重识别和端到端行人重识别。
1 基于深度学习的行人重识别方法
基于深度学习的行人重识别模型研究,大部分采用有监督的方式,即训练数据需要人工耗时耗力的标注信息,为了增加模型的可扩展性和更贴近实际生活中应用,近年来,越来越多的学者开始关注无监督和半监督学习在行人重识别问题上的研究,并逐渐取得了实验结果接近甚至超过有监督学习方法。面对复杂多变的实际场景,有研究开始关注数据跨模态问题和端到端行人重识别。
1.1 有监督学习
一直以来广泛应用的有监督学习充分利用有标注信息的数据,提取具有较强判别力的特征,依据特征相似度判断是否属于同一个行人。根据模型设计方法不同,将其分为特征学习、度量学习、排序优化三个方面介绍有监督学习。
1.1.1 特征学习
全局特征学习为每个行人图像提取全局特征向量,如图2(a)所示。由于深度神经网络最早应用于图像分类[17],在早期将先进的深度学习技术集成到行人重识别领域时,全局特征学习是主要选择。全局特征学习比较简单,将一幅图像直接输入到卷积神经网络来提取特征[18],但不能关注到行人图像中相对有判别力的区域;之后,有学者将注意力机制和全局特征学习联合设计,以增强表征学习[19]。一般图像直接输入到卷积提取的都是全局特征,因此模型比较简单不做过多赘述。
图2 四种不同的特征学习方式Fig.2 Four different feature learning strategies
局部特征学习利用局部图像区域学习聚合特征,使其对行人局部不对齐场景预测更具鲁棒性,如图2(b)所示。身体部位通过姿势估计自动生成,或者大致水平分割。采用均匀分割的方法得到水平条纹部分,灵活性较高,但对严重遮挡和大背景杂波比较敏感。用姿态估计模型来估计出人体关键点,然后用局部特征匹配能较好地解决姿态不对齐问题[20]。然而,需要额外的姿态估计模型,并且容易出现噪声姿态检测。Sun 等人[21]无需额外的姿态估计等辅助方法,提出PCB方法将行人特征图均等水平分为6块,对每块使用卷积代替全连接提取特征,然后将每块进行全连接再接分类器;提出RPP 方法即自适应的根据每块的内容相似性划分边缘,但忽略了相邻局部块之间的关联性,从而丢失判别性的信息。一般局部特征学习只关注单个行人图像局部内关系,而忽略了多张图像局部间的关系,陈璠等人[22]设计的多层级重叠条纹特征融合算法,利用多分辨率网络提取低层全局特征和高层语义信息,对网络输出特征图水平分割,然后提取重叠条纹特征来补充丢失的有用信息,减少图像中无关背景噪声,关注分割块间关系,增强行人局部对齐性能。Zhang等人[23]设计了异构局部图注意力网络(HLGAT),建模完成局部图中的局部内关系和局部间关系,并且不同行人图像中各部分之间的局部关系,更进一步挖掘了行人信息。
辅助特征学习使用部分辅助信息来加强特征学习的效果,如语义信息、视角信息、域信息、GAN生成的信息、数据增强等,如图2(c)所示。结合语义属性和注意力机制以改进局部特征学习[24]。Zhu等人[25]在视角感知特征学习中加入了角度正则化,将行人视角投影到统一的特征子空间中,有效地拟合视角聚类标签分配的模糊性。行人重识别会受到因不同摄像机引起的图像样式变化的影响,文献[26]在模型中融入相机特定信息,如相机视角信息或检测到的相机位置,以改进模型的特征表示能力。Zheng 等人[27]第一次尝试将GAN 技术应用到行人重识别,它使用生成的行人图像改进监督特征表示学习,然而生成图像质量低,对ReID模型性能提高有限。
视频特征学习提取视频时序信息并且融合多帧图像特征来构建行人特征,如图2(d)所示。由于视频序列有着丰富的人体姿势和时序信息,给视频特征学习带来了额外的挑战,主要的挑战是准确地捕获时序信息,为此,McLaughlin等人[28]基于视频的行人重识别设计了循环神经网络(RNN),充分利用了视频的时序信息,但对视频的所有帧进行了同等处理,而无法学习到最具有判别力的特征,且RNN 对长视频序列训练较复杂且耗时长。联合空间和时间注意力网络(ASTPN)[29]在视频中选择具有判别力的信息帧,考虑视频序列之间的相互依赖性,虽然注意力的引入可以很好筛除视频中冗余和背景噪声信息,但网络结构复杂,训练需要占用较多显存。Chen等人[30]将长视频序列分成多个短视频片段,并聚合排名最高的片段相似性,以进行序列相似性估计。该策略可以最小化每个样本的视觉差异以进行相似性估计,同时保留不同的外观和时间信息,但此方法无法自适应地划分语义连贯的短视频。现有的方法往往集中在最显著的图像区域,容易因为图像序列中人物的不同而遗漏细粒度的线索,Liu 等人[31]提出一个基于视频的全局引导的交互学习框架(GRL),捕获图像序列中的细粒度线索,但是对图像全局特征提取,而无法获得长时间序列的特征。
主干网络设计更加适应于Re-ID 特定场景的网络架构,早期,研究者试图修改图像分类场景中常用的ReNet50主干结构,近年来,有研究者设计了多尺度、细粒度等的网络结构更加适用于Re-ID 场景。Wang 等人[32]提出了一个带有专门设计的WConv 层和Channel Scaling层网络架构。WConv层提取两幅图像的差异信息以增强局部不对齐图像的鲁棒性,Channel Scaling层缓解反向传播过程中梯度消失问题。但该方法无法同时学习全局和局部尺度特性。近年来,有学者丢弃以往基于卷积神经网络的框架,He等人[33]首次提出基于视觉Transformer(ViT)的行人重识别框架,能简单自然地将相机和视点等非可视化信息编码为矢量嵌入到训练过程,并在多个数据集上表现出优秀性能,显示此框架具有很大的开发潜能。最近,Jia等人[34]提出DRL-Net方法利用改进的Transformer 框架处理有遮挡的行人图像,无需人物图像严格的身体部位对齐。研究证明[35]基于ViT 的框架比基于CNN 的框架更依赖大量训练数据集才能最大限度体现此网络的优越性,但行人重识别数据集较小,因此该模型结构还有待提高。
1.1.2 度量学习
早年的度量学习(metric learning)重点是构造不同类型的距离或相似度度量矩阵。深度学习时代,主要是设计不同类型的损失函数[36]。四种被广泛研究的损失函数及其变体,包括分类损失、验证损失、对比损失和三元组损失,如图3所示。
图3 四种损失函数Fig.3 Four kinds of loss functions
分类损失又称ID 损失(identification loss)[14](图3(a)),只有ID损失的网络称为ID Embedding网络(IDE网络),训练集中行人的ID 数为网络的类别数,特征层后接一个分类全连接层,经过Softmax 激活函数计算交叉熵损失。测试阶段使用倒数第二层的特征向量进行检索,分类全连接层丢弃。每批中的训练样本数为n,给定一个标签为yi的输入图像xi,通过交叉熵计算ID损失。
验证损失(verification loss)[12]又称为二分类损失(图3(b)),输入两幅图像判别是正样本对或负样本对。使用高维的特征向量做相似度计算fij=(fi-fj)2,其中fi和fj是两个样本xi和xj的特征向量。使用p(δij|fij)来表示输入对(xi和xj)被识别为δij(0 或1)的概率。具有交叉熵的验证损失为:
通常,验证损失与ID损失相结合以提高性能[37]。
对比损失(contrastive loss)[38](图3(c))改进了行人图像特征向量相对距离比较,公式为:
其中,dij表示两个输入样本xi和xj的嵌入特征之间的欧几里德距离。δij是一个二元标签指示符(当xi和xj属于同一身份时,δij=1,否则δij=0),ρ是训练阈值参数。
三元组损失(triplet loss)[13]基本思想是正样本对之间的距离应该比负样本对之间的距离小于预定义的余量(图3(d))。通常,一个三元组包含一个固定样本xi、一个相同身份的正样本xj和一个不同身份的负样本xk。带有阈值参数的三元组损失表示为:
近年来,相继有学者提出等距度量学习(equid-MLAPG)[39],改进三元组损失(improved triplet loss)、四元组损失(quadruplet loss)、难样本采样(hard sample mining)的方法[40]。
1.1.3 排序优化
排序优化(ranking optimization)的基本思想是利用gallery-to-gallery的相似度挖掘[41-42]或者人工交互[43]来优化初始排序列表,对于提高预测阶段的检索性能起着至关重要的作用,如图4所示。
图4 重排序Fig.4 Illustration of re-ranking
Luo 等人[41]推导出了一种名为local blurring reranking 的轻量级重排序方法,采用聚类结构来改进邻域相似性度量。考虑到query 的差异,一些方法设计了query 自适应检索策略来代替统一搜索引擎以提高性能[42]。Zhou 等人[42]提出了一种有效的在线本地度量自适应方法,该方法通过为每个probe 挖掘负样本来学习严格的本地度量。Wang等人[43]提出了一种混合的人机增量学习模型,该模型从人的反馈中积累学习,提高实时的行人重识别排名性能。排序融合[44]是另一种流行的方法,利用通过不同方法获得的多个排序列表来提高检索性能。最近,研究者为排序融合设计了unified ensemble diffusion(UED)[44]。UED 保留了现有朴素融合,张量积融合,正则化集成扩散三种融合算法的优点,并通过新的目标函数和推导公式进行了优化。
1.2 弱监督学习
尽管有监督场景中的行人重识别问题有了突破性的研究,但是需要大量有标注的数据进行训练,因此不能够在其他场景中泛化。工业界和学术界越来越关注弱监督场景(weakly supervised learning)下少量标注数据的学习,这对于行人重识别系统相关的应用落地方面具有重要的价值和意义。本文基于行人重识别问题,将弱监督学习分为半监督学习(semi-supervised learning,SSL)和无监督学习(unsupervised learning)。
1.2.1 半监督学习
近年来,部分研究者们开始关注如何利用少量有标注的数据训练一个较优的模型。在基于半监督学习的行人重识别任务中,目前面临的挑战是,如何利用少量有标签数据提取具有判别性的特征,并为大量无标签数据准确高效地打上伪标签以进一步优化模型。由于标注数据有限,文献[45]中提出了一种一次性度量学习方法,该方法结合了深度纹理表示和颜色度量,实现了与有监督方法相比具有竞争力的性能。为了在单样本学习中更好地利用未标注数据,文献[46]提出了基于视频的步进学习方法(EUG),对未标记数据生成伪标签,根据预测的可信度选择伪标签数据训练,使用扩充数据集对模型更新。文献[47]提出多实例注意力学习框架,使用视频级标签进行表示学习,减轻对大量标注数据的依赖。
1.2.2 无监督学习
无监督学习不需要有标注的数据,因此更具有适应性和鲁棒性。早期的无监督Re-ID主要学习不变成分,即字典学习[48]、度量学习[49]或显著性分析[50],这导致可辨别性或可扩展性有限。
Ye等人[51]提出无监督跨相机标签估计方法,为每个相机建立样本图,迭代更新标签估计和样本图,用动态图匹配(DGM)方法实现跨相机标签关联,解决了关联过程中交叉视图产生的特征表示质量不佳和噪声问题。为了进一步提高性能,Wang 等人[52]提出一个一致的交叉视角匹配(CCM)框架,利用全局摄像机网络约束来保证匹配对的一致性,利用全局摄像机网络约束的跨视角匹配策略,以探索整个摄像机网络的匹配关系,解决了相机内和相机间样本匹配相关性时,忽略整个相机网络的高阶关系,从而导致不同相机对的匹配结果不准确的问题。
对于端到端的无监督行人重识别,Fan 等人[53]首次在跨域数据集中为目标域打伪标签,提出了迭代聚类的行人重识别模型,先在源域上训练一个卷积网络,再到目标域图像特征提取,由KMeans聚类为设定的族数,用聚类好的结果再微调模型,如此反复迭代。类似地,Zeng等人[54]提出的分层聚类与hard-batch triplet loss相结合的伪标签聚类算法,通过层次聚类,充分利用目标数据集中样本间的相似性,通过hard-batch triplet loss来降低难样本的影响,产生高质量的伪标签和提高模型性能。通过聚类算法为行人分配为标签,但不能关注到潜在的鉴别性信息。Li等人[55]提出的(TAUDL)方法,通过利用无监督的单摄像头轨迹信息,训练端到端的神经网络,然后用这个图像模型对跨摄像头的图像进行自动标注和学习。类似地,一种无监督的相机感知相似性一致性挖掘方法[56],解决摄像头内部匹配和交叉摄像机匹配的一致性相似性分布问题。大多数无监督学习不考虑摄像机之间的分布差异,Xuan等人[57]通过生成摄像机内和摄像机间的伪标签,迭代优化摄像机间的相似性,该方法聚类阶段主要关注摄像机因素的影响,而忽略了提取行人图像局部细粒度有判别性的信息。
此外,一些研究尝试了图像局部特征学习,基于此的研究发现挖掘图像局部标签信息比挖掘整个图像标签信息更容易,Yang 等人[58]提出的PatchNet 从patch 而不是整幅图像中学习可判别特征,即利用patch 之间的相似性学习有判别力的模型;设计基于patch 的判别特征学习丢失方法,指导PatchNet 学习无标注数据集;设计图像级的特征损失函数,利用所有patch 特征指导PatchNet 图像级学习。无监督自相似性分组(SSG)方法[59]主要思想是两个数据库的图像风格差异很大,将图像分割为局部小块即全身、上半身和下半身,差异将会减小,能够学到更具有鲁棒性的特征,挖掘整体到局部的潜在相似性,然而该算法没有从根本上解决域间差异问题,如不同摄像机参数和视角等因素的影响。
1.2.3 无监督域自适应学习
无监督域自适应(unsupervised domain adaptation,UDA)将有标记的源域的判别性信息迁移到目标域[60],由于源域数据集的强大的监督学习,它是另一种流行的没有目标数据集标签的无监督行人重识别方法。
使用生成对抗网络(GAN)将源域图像转换为目标域样式是UDA行人重识别的一种流行方法。使用生成的图像,可以在未标记的目标域中实现有监督的行人重识别模型学习。Wei等人[61]采用了一种人员迁移生成对抗网络(FD-GAN),实现从源域到目标域数据集行人图像迁移,大幅缩小域间差距。保留自相似性和域差异性[38]使用保留自相似性的生成对抗网络(SPGAN)进行训练,将源域图像风格迁移到目标域图像风格,保持ID不变性,无监督Re-ID任务转换为有监督Re-ID任务,但是SPGAN 算法的特征信息传输较慢,且生成器的特征转换尺度单一,因此风格迁移效果不好。异构同质学习(HHL)方法[62]同时考虑了具有同构学习的相机不变性和具有异构学习的域连通性,在一定程度上建立了源域与目标域特征空间的联系,但没能真正解决域间较大差别的问题。自适应传输网络[63]将适应过程分解为某些成像因素,包括光照、分辨率、相机视图等。该策略提高了跨数据集的性能。Chen 等人[64]设计了一种对偶条件图像生成器以生成行人的不同风格图像,该方法能将一张图片迁移到多个风格,此外,还添加了Li等人提出的(PDA-Net)方法[65]以改进图像生成。然而,在实际复杂多变的环境中,图像生成的可扩展性和稳定性仍然具有挑战性。Chen等人[66]将GAN和对比学习联合到一个学习框架,GAN为对比性学习提供数据增强,对比性学习为GAN 学习了视图不变性,该方法对目标域数据利用对比学习和GAN 技术进行了数据增强,但源域数据的判别性信息挖掘不充分。
有些方法直接利用源域数据集中训练良好的模型对未标记的目标域数据集进行监督挖掘。传统方法主要减小源域和目标域的特征分布差异,而忽略了目标域中类内的不变属性,Zhong 等人[67]提出记忆模块将三个不变性属性,即个体不变性,相机风格不变性和邻居不变性强制执行到系统中,实验证明,这三大属性对风格迁移能力提升必不可少。域不变映射网络(DIMN)[68]为域迁移任务制定了元学习,并在每个训练集采样源域子集以更新存储库,增强可扩展性和可判别性。在文献[69]中,摄像机视图信息也作为监督信号来减小跨域差异,将每个相机设置成单独的子域,并且关注了相机拍摄连续时间的图像的内联性,建立有鉴别性的信息。最近,Ge等人[70]开发了一种混合存储的自定进度对比学习框架,充分利用目标域训练时,一般被忽略的有真实准确标签的源域数据和在训练早期丢弃聚类离群值的目标域中的无标签数据,编码源域和目标域可利用的有用信息进行特征学习。Zheng等人[71]设计了一种组感知标签转移(GLT)算法,首次将聚类和特征学习集成到一个框架下,使伪标签预测和特征学习可以在线交互和相互促进,并且利用标签精炼算法和组感知特征学习策略结合,在线纠正带有噪声的伪标签,减小目标身份搜索空间,对生成的伪标签进行优化,提高特征学习的质量。
除此之外,无监督的时空模型TFusion[72]使用贝叶斯融合模型将源域中学习到的时空模式转移到目标域。Liao 等人[73]采用一种新的卷积方式QAConv,直接在特征图上进行局部特征匹配而不需要提取特征向量,提高了迁移学习模型的泛化能力和跨域数据集的准确性。
1.3 跨模态行人重识别
跨模态行人重识别任务是指不同类型行人数据相互匹配的问题。在实际生活除了一般行人RGB图像还有许多其他模态的图像,如红外图像,深度图像,文本信息和跨分辨率图像等,如图5 所示。因此,跨模态行人重识别比一般行人重识别相比更具有挑战性和实用性。
图5 跨模态行人重识别Fig.5 Illustration of re-ID using multi-modality and low-resolution person data
1.3.1 可见光-红外行人重识别
可见光到热红外行人重识别(图5(a))任务主要是处理RGB 图像和热红外图像匹配问题,在黑夜和光照条件不充足的场景只能由红外摄像机拍摄。Wu等人[74]首次尝试解决这个问题,提出了像素级对齐和联合判别策略,以自适应地学习模态共享特性。文献[75]中引入了一个双流卷积神经网络来学习多模态可共享特征表示,同时处理模态内和模态间的变化,此方法关注了模态间的共享特征,而未关注模态内的特异特征。为了充分利用特征嵌入子空间和分类子空间的相关性,Hao等人[76]设计了一种具有识别约束和分类的端到端双流超球面流行嵌入网络(HSMEnet),将人脸识别领域中sphere softmax loss 迁移到行人重识别领域,即将二维坐标系转换为球面坐标系,行人图像的特征表示映射到超球体上,然后做分类任务。分类结果取决于特征向量和权重向量的角度。文献[77]首次采用GAN 技术生成跨模态人体图像,以减少图像和特征层面的跨模态差异,然而使用GAN技术生成的图像质量不高,含有噪声干扰,导致重识别性能欠佳。大部分方法只关注如何减少模态间的差异,而缺少对模态内差异的关注,Choi 等人[78]提出一种层次模态分解(Hi-CMD)方法,排除光照、姿态冗余特征对跨模态行人识别的影响,提取出具有判别力的衣着、体态等有用信息,不同于其他方法采用特征嵌入网络,此方法关注图像级方式,并且使用图像生成技术,减少模态间的差异。Ye等人[79]提出了一种新的动态双注意聚合(DDAG)学习方法,捕获多级关系,挖掘模态内实例级和跨模态图级别的信息,提高特征表示学习,设计的实例级注意力模块自适应地分配身体不同部位的权重,模型中的图结构注意力能挖掘跨模态行人图像关系。Chen等人[80]提出一种新的通用范式,基于自动机器学习数据驱动的神经特征搜索方法(NFS),实现特征选择过程的自动化,减少人为干预,结合了双层特征搜索空间和可微搜索策略,在粗粒度通道和细粒度空间像素中联合选择与身份相关的线索。这种组合使NFS能够自适应地过滤背景噪声,并以数据驱动的方式将注意力集中在人体的信息部分。此外,跨模态对比优化方案进一步引导NFS搜索,最小化模态差异同时最大化类间距离的特征。
1.3.2 深度图像行人重识别
深度图像捕捉行人体型和骨骼信息(图5(b)),这为低光照和换衣场景下行人重识别提供了可能性,对个性化的人机交互应用也很重要。Haque等人[81]主要从行人独特的体态轮廓和运动特征研究,提出了一种基于循环注意力的模型来学习行人时空特征。在强化学习框架中,结合了卷积神经网络和循环神经网络来识别人体有判别力的较小的局部区域,模型对视角、光照和姿势变化具有较强的鲁棒性。设计Glimpse 层将输入视频降维,降低噪声并保留时空细节,结合注意力自动选择了信息量大的视频帧,但是忽略了其他视频帧中的有用信息。一些方法[82-83]还研究了RGB 图像和深度图像信息的组合,以提高行人重识别性能,解决行人换衣服的挑战。Wu 等人[82]研究发现深度信息不可用时从RGB 图像隐式估计特征深度。将估计的深度特征与基于RGB的外观特征相结合,有助于更好地减少由照明和类似衣服引起的外观特征的视觉模糊性。Karianakis等人[84]研究发现在RGB数据集上训练的浅层网络模型同样适用于深度行人图像数据集,实现两种模态ReID 模型浅层参数共享,解决了深度行人重识别数据集少训练模型不佳的问题,模型进一步融合了时间注意力,为每一帧打上注意力权重,但运用RGB 数据预训练增加了模型训练的复杂性。
1.3.3 文本-图像行人重识别
文本到图像的行人重识别(图5(c))解决了文本描述和RGB图像之间的匹配问题。当无法获得查询人的可视图像时,必须提供自然语言文本描述。使用循环神经网络的门控神经注意力模型(GNA-RNN)[85]学习文本描述和人物图像之间的共享特征,根据词汇与图像的相关度反馈不一样的权值,由相似度检索目标,使得文本到图像行人检索的端到端训练成为可能,且实验结果表明,文本名词提供的信息最多,形容词次之,动词提供的信息最少。该方法只关注全局图像特征与文本间的联系,缺少局部细粒度特征与词汇精细化的内联性。Chen等人[86]提出了一种全局判别图像-语言关联学习方法,在全局描述的监督下学习全局视觉特征,而且通过建立全局和局部图像语言关联,来增强语言特征和局部视觉特征两者的语义相关性。基于身份标注建立全局图像语言关联和基于图像块与文本信息之间的对应关系建立局部图像语言关联,证明了这两种关联方案将语言作为训练监督的可行性。Zhang 等人[87]提出两种损失函数,即跨模态投影匹配损失(CMPM)和跨模态投影分类损失(CMPC),CMPM最小化两个模态特征投影分布的KL 散度,CMPC 将一种模态投影到另一种模态的特征进行分类,加强模态间的紧凑性。Liu 等人[88]设计了一种基于图关系挖掘的深度对抗性图注意力卷积网络(A-GANet)。利用模态鉴别器和特征变换器开发了一个对抗式学习模块,用于学习匹配跨模态的联合文本-视觉特征空间,图形注意力卷积层有效地利用了图形结构来学习视觉和文本具有判别性的特征。
1.3.4 跨分辨率行人重识别
跨分辨率(cross-resolution)行人重识别(图5(d))将低分辨率和高分辨率图像进行匹配,解决了较大的行人图像分辨率变化难匹配的问题。针对行人低分辨率图像Wang等人[89]提出CSR-GAN方法以级联方式,将低分辨率图像上采样生成高分辨率人物图像,提高尺度自适应能力,设计了common-human 损失,使得生成的行人图像更加真实,设计了unique-human 损失,使得行人图像特征更具有判别力,为了增强具有判别力的行人特征提取能力,加入行人重识别网络,捕获行人外观信息,不足之处需要预先定义图像对之间的尺度比例,然后设置不同的匹配放大因子。Li 等人[90]采用对抗式学习技术获得分辨率不变的图像表示,同时能够恢复低分辨率图像中丢失的细节。虽然提高了跨分辨率ReID 性能,但是与ReID 的集成兼容性不够。文献[91]提出了基于注意力机制的局部超分辨率联合身份学习网络,利用注意力辅助网络查询不同分辨率行人图像相同区域的显著性信息,利用任意上采样因子重建任意低分辨率的图像,而该方法重建图像和重识别过程中,而忽略了原始低分辨率图像中的有用信息。Zhang等人[92]研究发现超分辨率技术可能为低分辨率图像补充了不真实的外观细节,因此从这些图像中提取的特征没有足够的判别力;尽管低分辨率图像在细节上有所丢失但可以提供全局信息。因此提出了一种多分辨率表征联合学习(MRJL)方法,充分利用了高分辨率中的细节信息和低分辨率中的全局信息。
1.4 端到端行人重识别
端到端行人重识别的任务是将图像或视频作为输入,集成行人检测、跟踪和重识别技术为一体。与传统行人重识别对比如图6 所示。由于模型在单个框架中联合执行行人检测和重识别,因此可以减少对生成边界框等额外步骤的依赖性,又由于两个子任务的侧重点不同,因此更具有挑战性。
图6 端到端和传统Re-ID对比Fig.6 Comparison of end-to-end and traditional Re-ID
Zheng等人[14]提出了一个端到端行人检测和行人识别的联合框架,并系统地评估了行人重识别系统中多种行人检测方法的优势和局限性。相较于现阶段大部分研究都是行人检测和行人重识别组合的方法,Liu 等人[93]采用NPSM框架来模拟人的视觉搜索机制,递归地不断缩小待查询图像中目标行人区域。类似地,Yan等人[94]提出的图学习框架,利用图像中上下文信息进一步挖掘人物之间的关系,核心思想是拓展实例特征的表达能力,不再局限于只利用目标行人的特征,也将图像中周围行人作为特征学习的一部分,以改进端到端的人物搜索。Han等人[95]提出了一个基于行人重识别的定位修正框架,它能够微调行人检测框,使其更加有利于重识别任务。Lan等人[96]提出一种行人身份判别注意力强化学习(IDEAL)方法,可以在自动检测的边界框内进行注意力选择,从而优化行人重识别的准确性。
端到端的行人重识别也与多人多摄像头跟踪密切相关。针对多人跟踪,Tang等人[97]提出一种基于图的公式来连接人的假设,开发了行人重识别深度学习架构,它结合了人体整体特征和身体姿势布局。Ristani 等人[98]通过一种难样本挖掘技术和自适应权重的三元组损失,来学习多目标多摄像机跟踪和行人重识别之间的关系。最近,Hou等人[99]提出了一套可学的关注局部邻域内目标外观的度量(LAAM)和局域感知的外观度量(LAAM),即用于相机内和相机间的度量,并证明了局部学习的度量可成功应用于学习全局的ReID的特征。
不同于从视频序列中搜索示例图像中的端到端行人重识别,Yamaguchi等人[100]研究了一个更具挑战性的问题,即从带有文本描述的视频中搜索行人,提出了一种多阶段的时空行人检测和多模态检索方法,训练得到的模型具有鲁棒性,能够应用于视频剪辑检索和时空动作检测任务,但在这一方向上还有待进一步的探索。
2 不同类型行人重识别方法比较分析
全局特征方法将一幅图像输入到卷积网络直接特征提取,方法简单高效,但极易受背景噪声影响,目前几乎不再单独使用;局部特征的方法能够有效提取图像细粒度信息,但忽略了全局语义信息,目前流行的方法是将图像水平切块,然后使行人局部对齐,并结合全局特征,注意力模块等方法,极大地提高行人重识别性能;辅助特征方法利用GAN 技术数据增强,提高了模型的泛化能力,但增加了额外噪声且模型复杂,训练难度大,利用行人外观属性的描述提高模型性能,但需要额外的数据标注;主干网络的设计能较好地符合行人重识别特定场景的应用,近年来,基于ViT的行人重识别方法,彰显了巨大的发展潜能,但主干网络设计需要丰富的经验,复杂的调试,开发难度较大;视频特征的方法能够提取视频序列中丰富的行人时序和空间信息,但训练需占用较多的硬件资源;有监督行人重识别方法性能已接近饱和,近年来,越来越多的研究者关注弱监督的行人重识别方法,尤其是基于无监督行人重识别方法,减少了对标注数据的依赖,更具实际应用价值,但一般由于背景噪声影响和聚类算法性能低导致模型性能欠佳;近年来,关于红外图像的行人重识别研究,在CVPR等顶级学术交流会议上论文较多,是目前研究的一个热点,主要解决红外图像和RGB 图像交叉模态行人特征匹配的问题,由于模态间难以提取具有判别力的共享特征等多种不明因素影响,模型性能有待较大提高;深度图像特征学习利用3D 点云等技术捕捉行人特征,能很好地解决在行人换衣和光照不好情景下行人重识别的难题,但模型复杂,训练难度较大;文本描述行人重识别方法挖掘文本描述和行人图像之间的特征关系,当缺少目标人物图像时的另一可行方案,但目前识别率较低;跨分辨率行人重识别方法一般将低分辨图像通过超分辨或对抗学习技术转化为高分辨率图像,虽然丰富了图像外观信息,但却引入了额外噪声;端到端行人重识别将行人检测和重识别技术集成在一个框架里,更能接近实际应用,但模型设计复杂,训练难度较大。以上几种行人重识别方法各自都有机制、优势、局限性和适用范围,具体如表1所示。
表1 不同类型行人重识别方法对比分析Table 1 Comparison and analysis of different types of person re-identification methods
3 数据集及实验比较
总结了常用的单模态(表2)和跨模态行人重识别数据集。表2给出了常用的单模态11个数据集,包括7个图像数据集(VIPeR[101]、iLIDS[102]、PRID2011[103]、CUHK03[104]、Market-1501[105]、DukeMTMC-ReID[27]和MSMT17[61])和4个视频数据集(PRID-2011[103]、iLIDS-VID[106]、MARS[107]和DukeMTMC-VideoReID[46]);并列举了跨模态行人重识别数据集如红外行人数据集、深度图像数据集、文本数据集和跨分辨率数据集。
(1)红外行人数据集:2017 年发布的SYSU-MM01数据集[74],2 个红外摄像机采集和4 个可见光摄像机的两种图像,采集环境包括室外和室内两种情况包括来自6 个摄像头的491 个身份的IR 和RGB 图像,总共提供15 792 张IR 图像和287 628 个RGB 图像。2017 年3 月份RegDB数据集[108]使用红外和可见光双摄像机同时拍摄了412人。每人10幅可见光图像和相应的10幅红外图像。其中女性254 人,男性158 人。156 人从正面拍摄,另外256人从背面拍摄。由于图像是在人移动时拍摄的,因此每人的10幅图像在光照条件、拍摄距离和姿势上有所不同。但是,同一个人的10张图像之间的相机的视角、天气状况和捕获的视图(前/后视图)是相同的。
(2)深度图像数据集:PAVIS数据集[83]由4组不同的数据组成。第1个“协作”组记录79人缓慢行走、正面视图、伸展手臂和避免遮挡。第2 组(“行走1”)和第3 组(“行走2”)数据由同样79 人在进入工作室时正常行走的正面视图组成。第4 组(“后视”)是人们离开工作室的后视记录。因为拍摄地点和时间不同,所以无法保证服装或配饰等视觉方面保持不变。BIWI RGBD-ID 数据集[109]收集50个不同的行人在不同的时间和地点的运动视频序列,其中包括RGB图像(1 280像素×960像素)、行人分割图、深度图像、骨骼数据和地平面坐标。另外,还收集了187 728 个人静止和行走的序列图作为测试集,以大约8~10 帧/s 速度拍摄视频,每人的拍摄时间约为1 min,每人正对摄像机走两次,对角走两次,因为拍摄地点和时间不同,所以同一人的服装也不同。
(3)文本数据集:CUHK-PEDES 数据集[85]包含13 003 个身份的40 206 幅行人图像。每个行人图像由两个不同的文本描述。总共收集了80 412 个句子。包含关于人的外表、动作、姿势和交互的丰富细节。句子描述一般较长(平均>23个词),词汇量丰富,重复信息少。数据集中共有1 893 118 个单词和9 408 个唯一单词。最长的句子有96个词,平均词长为23.5。Flickr30k[110]是最大的跨模态检索数据集之一。它包含从Flickr网站收集的31 783张图片,其中每张图片有5句文本描述。
(4)跨分辨率数据集:MLR-VIPeR 是从VIPeR[101]数据集构建的。VIPeR包含由两个摄像头捕获的632个人像对。每张图像都是高分辨率的128×48像素。为了使该数据集适用于LR人员重新识别评估,按照从{1/2,1/3,1/4}随机选取采样率对来自一个摄像机视图的所有图像进行下采样,而另一个视图的其余图像相同。
为能直观对比,本文根据模型算法和数据集提取方式不同分别介绍基于深度学习的行人重识别模型性能对比,包括监督学习在图像数据集下的表现(表3)、监督学习在视频数据集中的表现(表4)、无监督学习在常用数据集的表现(表5)和跨模态行人重识别方法在常用的行人数据集上的表现(表6)。
表3 有监督学习在图像数据集下的表现Table 3 Performance of supervised learning under image datasets %
表4 有监督学习在视频数据集中的表现Table 4 Performance of supervised learning under video datasets %
表5 无监督学习下的表现Table 5 Performance of unsupervised learning %
表6 跨模态行人重识别算法性能比较Table 6 Performance comparison of cross-modality Re-ID %
从表3可以看出,有监督学习行人重识别模型在图像数据集上取得了很大进步,在Market-1501数据集上,Rank1 准确率从2018 年的83.7%上升至98.0%提升了14.3个百分点;在DukeMTMC-ReID数据集上,Rank1准确率从2018 年的76.44%上升至94.7%提升了18.26 个百分点。比较得出,局部特征模型在数据集上性能表现较优。不同模型在不同数据集上的取得效果也不一致,研究人员仍需进一步关注模型的性能。
从表4 中看出,随着深度学习技术的发展,监督学习行人重识别模型在视频数据集上的性能在不断提高。具体来说,在PRID-2011数据集上,Rank1准确率从2016年的70%提高到2021年的96.2%;在iLIDS-VID数据集上,Rank1准确率从58%提高到90.4%;在MARS数据集上,准确率从2017年的44%提高到91.0%。
从表5可看出,无监督行人重识别得到了越来越多的关注,这可以从顶级出版物数量的增加中得到证明。无监督行人重识别模型性能近年来显著增加。在Market-1501数据集上,Rank1准确率在四年内从62.2%提高到92.2%;DukeMTMC-ReID 数据集性能从46.9%提高到82.0%。监督学习的上界与无监督学习的差距显著缩小,这证明了无监督行人重识别的成功。
从表6可以看出,近年来跨模态行人重识别模型大部分是基于度量学习方法和基于特定的特征模型,基于跨分辨率行人重识别主要应用统一模态的方法,基于文本的行人重识别任务较难实现统一模态方法,而统一模态方法还未深入研究和应用。
4 未来研究方向
大多数现有的行人重识别工作在数据集标注完善的场景下评估他们的方法。然而,真实复杂环境中的数据采集是不可控的。数据可能来自不可预测的模态、模态组合,甚至是衣服更换。因此,在行人重识别领域还有许多需要研究的方向。
(1)半监督、无监督模型研究。目前行人重识别数据集样本量与百万级的人脸数据集相比相差甚远,且人工标注成本高,因此半监督和无监督学习虽然在性能上与监督学习有一定差距,但能减少对数据集标注的依赖,有利于扩充数据集。将来半监督学习应该致力于如何利用较少标注数据集和较多的未标注数据集来提取有判别力的行人特征。面对未标注的数据,无监督模型应探索有效的特征映射空间。无监督中迁移学习能够解决目标域不同场景变换问题,克服场景变换是领域自适应的重要研究方向。
(2)跨模态行人重识别模型。在实际应用中,数据可能是从多个模态中收集的,即人物图像的分辨率变化很大,查询集和图库集可能包含不同的模态(RGB 图像,红外图像,深度图像或配有文字说明的图像),这对于行人重识别任务具有重大挑战。具有实际应用价值的行人重识别系统要能够自动处理不断变化的分辨率、不同模态、各种环境和多个域的图像。因此,如何综合多种跨域场景,设计一种更具适应性和鲁棒性的模型具有重要的理论意义和实用价值。
(3)换衣行人重识别方法研究。在实际的监控系统中,很可能包含大量换衣服的目标人员。目前研究方法较少,部分研究人员通过提取面部、身体上下文信息和空间极坐标变换来解决这个问题,然而,他们仍然严重依赖面部和身体外观,这可能是在真实场景中是不稳定的。研究者可进一步探索其他具有辨别性的线索(例如步态、姿势,3D模型)来解决换衣问题。
(4)端到端模型。在单个框架中同时涉及行人检测和重新识别的端到端模型研究较少。由于大多数数据集是在受控环境下收集的,人员检测通常是先验条件,因此模型具有较高性能,但实际场景复杂多变,将行人检测和重识别相结合的端到端的模型更加符合实际需要和应用价值。
5 结束语
行人重识别是计算机视觉领域的一个热门话题,几年越来越多的学者关注这一领域,而深度学习极大地促进了该领域的发展。本文首先围绕特征提取方式不同介绍了监督学习行人重识别中特征学习、度量学习和排序优化三个方面;同时着重介绍了未来具有重大研究潜力的半监督学习,无监督学习,跨模态数据和端到端的行人重识别;之后,并介绍了不同模型算法常用的数据集和多种算法比较分析;最后展望未来值得研究的问题和方向。