结合时空距离的多网络互学习行人重识别

2023-05-20李宽龚勋樊剑锋

中国图象图形学报 2023年5期

李宽，龚勋，2，3，4*，樊剑锋

1.西南交通大学唐山研究生院，唐山 063000；2.西南交通大学计算机与人工智能学院，成都 611756；3.可持续城市交通智能化教育部工程研究中心，成都 611756；4.四川省制造业产业链协同与信息化支撑技术重点实验室，成都 610031

0 引言

行人重识别是指在不同监控摄像头下找到同一行人。随着人们对安全需求的增加，大量摄像头安装在各种监控场景中，如学校、机场、商城和医院等。而人工搜寻效率低，结果不可靠，行人重识别能实时检测匹配行人，适应了大数据下对行人监测的需求，逐渐成为学术热点问题。

由于行人数据标记需要的巨大工作量，实际应用存在较多困难。跨域重识别能利用有标注的源域数据信息辅助训练无标注的目标域数据，具有应用潜力。但由于跨域带来的背景、光照以及摄像头角度等差异，识别准确率往往也会急剧下降。

目前主流的无监督行人重识别主要由生成伪标签阶段和利用伪标签优化模型两个阶段组成，其中伪标签生成的可靠性是影响模型最终效果的主要因素。Zeng 等人（2020）利用PK Sample（pharmacokinetic sample）的方法进行层次聚类，以提高聚类的精度。Zheng 等人（2021）提出了一种基于标签迁移的群感知特征学习策略，通过在线精炼伪标签，以改进多组伪标签优化。但这些方法没有考虑不同摄像头的影响可能导致不同摄像头下的类内距离大于相同摄像头下的类间距离，因此，即使是离聚类中心较近的数据，它的伪标签结果也并不可靠，这样便不可避免地使网络向着错误方向进行训练。因此，本文增加了一个分摄像头的维度，保证了生成标签的可靠性。此外，由于单骨干网络提取特征的单一性，在千变万化的实际场景中，以上方法并不能保证较好地泛化能力。Zhang 等人（2018）提出了多网络互学习，且用平均学生模型的方法防止多网络导致的误差放大。本文在该方法的基础上，提出了分摄像头多网络互学习行人重识别框架。

在重识别的匹配排序阶段，目前有很多排序优化的算法。Zhong 等人（2017）提出的互邻匹配 Re-Ranking 方法利用待搜寻行人图像和搜寻到的前几幅图像的邻域图像是否互相包含来判断结果的准确性。Sarfraz 等人（2018）将一幅图像与另一幅图像的相邻图像距离累加来当做新距离，它不需要对每个图像对都计算一次排名，减少了计算量。但将这些算法应用于真实场景仍对机器性能提出了巨大的挑战。上面的一些方法对排序的优化都基于已得到的图像间的距离，但数据中还包含了时间戳信息，这类信息没有得到有效利用。为此，本文利用数据集中的时间信息，并增加了时空这两个维度，在时间消耗接近原始排序的前提下提升了行人搜索性能。

本文的贡献主要有以下方面：1）对数据集中每个单独的摄像头下图像进行聚类生成伪标签，以此作为优化标准之一，提升伪标签质量；2）利用教师学生网络互学习的方法学习更多特征，不仅接受来自自身标签的监督，还利用协同网络的学习经验来进一步提升泛化能力；3）利用数据的时间戳信息和摄像头信息，在时空维度上优化行人搜索匹配，降低了时间消耗。同时，该方法在传统的有监督重识别场景中也能提高搜索性能。

1 相关方法

1.1 无监督跨域行人重识别

由于手动标注数据的高成本，目前无监督跨域行人重识别受到广泛关注。相关探索主要分为3 个方面，即优化特征分布、生成对抗网络和自监督学习。

1）优化特征分布。该方法思想为减小源域和目标域特征分布的差距，从而减少跨域带来的模型性能损失。Mekhazni等人（2020）提出一种基于最大均值差异（maximum mean discrepancy，MMD）的减小源域与目标域特征分布差距的方法，Jin 等人（2020）方法的思想是分离正样本对和负样本对距离的概率分布。但这类方法存在局限性，并不能保证源域、目标域的特征差距小于期望值，在跨域场景下，存在较大的性能下降。

2）生成对抗网络（generative adversarial network，GAN）。该方法使用GAN 将源域图像转换到目标域。Deng 等人（2018）在cycleGAN 的基础上进行改进，新增了两个约束条件，一个是生成的目标域风格图像应该与其相应的源域图像相似，这是为了能利用源域图像的ID（identity document）信息；另一个是使生成的目标域风格图像与原有目标域中图像都不同，因为源域与目标域行人ID 没有重叠。但基于GAN 的方法对GAN 生成图像的质量要求较高，GAN训练慢，生成的目标域风格图像与真实数据集的相似度不可保证，实验结果与其他方法相比有一定差距。

3）自监督学习。自监督学习通常采用自监督和生成伪标签的方法，利用伪标签来不断微调模型，这是目前主流的研究方向。Fan 等人（2018）提出一种利用聚类来生成伪标签的重识别方法。对于生成的伪标签，它将距离聚类中心最近的数据伪标签看做可靠伪标签，并利用这些标签来进行训练。Ge 等人（2020）在判断可信伪标签的基础上做了改进，添加了一个记忆模块来存储源域和目标域的聚类中心，用以保留全局训练的特征，防止模型过度偏向错误方向。耿伟峰等人（2023）使用图神经网络融合了样本特征与类别表示等多层次信息，增强了自监督信息的可靠性。

本文以自监督学习为基础，并针对以上方法没有考虑的在跨域问题中起主要影响的背景、视角变化等因素，添加了摄像头维度，约束了跨摄像头带来的伪标签预测错误影响。同时利用互学习来挖掘更多特征，使模型在各种场景都能保持良好性能。

1.2 重识别排序优化算法

在行人重识别场景中，最常见的排序优化算法为Re-Ranking。该算法基于如下假设：对于某幅待搜索的行人图像，在搜索集中，假如某图像的邻近图像包含了待搜索图像，则该图像为正确匹配的可能性更大。

Jegou 等人（2010）引入了上下文相异度度量，利用相邻向量的相似度更新图像间距离，Bai 等人（2009）利用流形距离在查询和被查询对象中找到最短路径，利用最短路径上的图像计算新的度量距离，Zhong 等人（2017）利用k-reciprocal 编码对图像进行重排序。但以上研究都有一个共同的问题，即额外的计算量需要花费大量的内存空间和时间成本。为此，Zhang 等人（2020）利用GPU（graphics processing unit）并行计算的方法加快了重排序。但该方法额外的内存消耗仍然存在，而且没有从根本上降低算法复杂度。

与上述研究不同，本文从算法角度提出了一个适配于重识别的重排序算法，大幅减少了时间和空间代价。

2 算法描述

2.1 总体框架

如图1 所示，本文算法框架主要由伪标签生成模块、多网络互学习模块和排序优化模块组成。

图1 本文算法框架模块图Fig.1 Framework of our method （（a）pseudo label generation module；（b）mutual learning module；（c）spatio-temporal distance retrieval module）

伪标签生成模块根据全局和摄像头分别生成伪标签yt和，并在分摄像头阶段添加了时空信息；特征互学习模块利用教师学生网络的互学习训练出更具有泛化性的模型；时空距离排序模块利用时空距离对最终结果进行行人检索优化。

每次迭代开始之前，图像先通过伪标签生成模块进行全局伪标签yt和摄像头伪标签的生成，然后在特征互学习模块中利用生成的伪标签yt和进行特征学习，最后利用时空距离排序模块进行行人检索。

2.2 伪标签生成模块

在无监督领域自适应训练的每个迭代中，伪标签yt和的生成如图2所示。

图2 伪标签生成模块Fig.2 Pseudo label generation module

伪标签生成包括3个步骤，具体如下：

1）对于目标域的样本图像，每个网络模型提取卷积特征，并将多个网络模型提取的特征进行平均以确定集成特征。具体为

式中，xt，i为输入图像，K为模型数量，γk为第k个模型的参数，f(xt，i) 为第i幅图像平均后向量。

2）对f(xt)进行K-Means 聚类，将所有目标域样本划分为Ut个不同的类，生成作为训练样本Xt的伪标签Yt。

2.3 多网络互学习模块

2.3.1 总体流程

本模块采用了两阶段的训练方案，包括在源域的有监督预训练学习和目标域的无监督自适应学习。在初始阶段，在源域数据集上以有监督的方式对具有不同网络架构的多个模型进行预训练。然后利用未标记的目标域样本进行多个网络模型的深度互学习无监督训练，使模型适应目标域。在目标域数据集中，利用伪标签生成模块的伪标签yt和，通过优化分类损失与三元组损失对各个网络模型进行微调。此外，将各个网络模型的时间平均模型的输出视为软伪标签作为优化基准，从而减少伪标签噪音的影响。本文采用3 个骨干网络模型，两两之间互学习，以使网络模型优化。

2.3.2 源域有监督损失

对于每一个网络模型而言，首先以有监督的方式预训练一个深度神经网络模型Mk，该模型由预训练网络模型γk参数化，与行人重识别任务常用的损失函数一致，本文使用标签平滑的交叉熵损失函数与三元组损失函数进行源域预训练。

Mk将每个样本图像xi转换为特征，γk表示网络模型的参数，f(xi|γk)表示将样本图像xi输入到网络模型参数设置为γk的网络模型中提取得到的特征，图像xi属于标签j的预测概率，表示为pj(xi|γk)。标签平滑的交叉熵损失定义为

式中，xi+表示xi的正样本，xi-表示负样本。‖ ·‖表示L2范式。三元组损失定义为

最后的总损失计算为

式中，k代表第k个网络模型。

2.3.3 目标域互学习损失

互学习模块如图3 所示。在每次迭代中，首先将目标域中的同一批图像输入到所有由{γk}参数化的{Mk}网络模型中，以预测分类置信度{pj(xt，i|γk)}特征表示{f(xt，i|γk)}。为了将知识从一个网络模型转移到另一个网络模型，每个网络模型的类预测可以作为训练其他网络模型的软标签。为防止误差放大，本文添加了时间平均模型，网络模型Mk的时间平均模型在当前迭代T时的参数记为，其更新式为

图3 互学习模块Fig.3 Ensemble learning module

式中，α∈[0，1]为尺度因子，这里设置为0.999，初始时间平均参数为=γk。使用网络模型Mk的时间平均模型预测每个身份j的概率为pj(xt，i|)，计算特征表示为f(Xt，i|)。

通过整合原始网络模型M与时间平均模型Γ，本文提出了互损失函数。将两个网络模型Mk和Mm的身份损失定义为Mk的类预测和Mm的时间平均模型类预测之间的交叉熵，以及各摄像头内标签预测与另一模型Mm的时间平均模型各摄像头内标签预测之间的交叉熵之和，前者称为互分类损失，后者称为摄像头内互分类损失。

互分类损失的函数计算式为

式中，Nt为图像总数，Ut为聚类类别数。

摄像头内互分类损失的函数计算式为

式中，L为目标域训练集摄像头数目，为某摄像头下图像总数，为该摄像头下聚类类别数。

设网络模型Mk的互分类损失为所有其他网络模型所学习的上述损失的平均值，则

与互分类损失函数类似，对于每个网络模型Mk，定义其他网络模型的时间平均模型Mm学习的互三元组损失为两个相似的二元交叉熵，全局互三元组损失为

式中，soft(·)为样本对之间特征距离的softmax变换。

单个摄像头内互三元组损失为

网络模型Mk的互三元组损失计算为所有其他网络模型的上述互三元组损失的平均值，即

互三元组损失函数所起到的作用与互分类损失函数类似，都是为了使不同网络模型间进行相互学习，互三元组损失函数减少了网络模型间三元组损失的差异，从而使网络模型训练得到的特征分布能够同时被多个网络模型约束，以增强模型的鲁棒性。

如图4 所示，互学习损失函数充分利用了网络模型的输出进行互相约束。

图4 互学习损失Fig.4 Mutual learning loss

2.3.4 目标域自身损失

为了从伪标签yt与摄像头内标签中学习稳定和有区别的知识，本文引入了各个网络模型自身的投票损失，包括投票分类损失和投票三元组损失。

在每个网络模型Mk上，对于整体伪标签yt，定义投票分类损失为带有标签平滑的交叉熵，具体为

式中，如果j=yt，i，那么qj= 1 -ε+ε/Ut，否则qj=ε/Ut，ε是一个小常数，设为0.1，Nt为图像个数，Ut为聚类类别数。同样，对于摄像头内伪标签，定义单个摄像头下的投票分类损失为

所有摄像头的投票分类损失L为

为了更好地学习到稳定的知识，令

定义投票三元组损失为

同样，为了模型能学习到单个摄像头下更为鲁棒的信息，令

定义单个摄像头内部的投票三元组损失为

所有摄像头内部的投票三元组损失L为

总体的投票分类损失L定义为

投票损失定义为分类损失和三元组损失的总和，具体为

上述投票损失使用聚类生成得到的伪标签优化交叉熵损失与三元组损失，增强各个网络模型自身的特征表示能力，从而在互学习过程中能够使用更具备辨别能力的有效知识进行互相的学习。

2.3.5 总体损失

最终的总体损失定义为每个网络模型互相学习所造成的损失之和。即

式中，Lall表示所有网络模型的损失函数之和，K表示所训练骨干网络模型的个数。

2.4 时空距离检索模块

就行人重识别任务而言，常见的公开数据集与真实场景下摄像头间的时空信息（如拍摄图像时的时间戳与摄像头编号）往往可以很容易获取。因此本文设计了一种通过时间戳与摄像头编号信息进行排序优化的方法，以提升最终推理的性能。

本文算法对排序优化的流程如图5 所示，具体步骤如下：

图5 时空距离检索流程图Fig.5 Spatio-temporal distance retrieva map

1）时间戳与摄像头信息获取。在经常用于行人重识别任务的Market1501 与DukeMTMC-ReID（Duke multi-tracking multi-camera re-identification）数据集上，可以通过文件名获取到当前图像的具体时间戳与摄像头编号信息。而在真实场景下，时间戳与摄像头编号信息的获取也不需要大量的计算成本。

2）目标域训练集特征聚类生成伪标签。对于本文的无监督领域自适应行人重识别而言，关注的是目标域测试集的推理结果，而源域的时间戳与摄像头信息并不适用于目标域，所以排序优化所需要关注的仅是目标域的信息，但是目标域训练集并没有标签，因此需要对目标域训练集特征进行聚类生成伪标签，本文采用DBSCAN（density-based spatial clustering of applications with noise）算法进行聚类。

3）摄像头时间评分。根据相同伪标签的摄像头编号与时间戳的分布，统计生成不同摄像头间的时间差分布Tij，记摄像头i与摄像头j之间时间差的分布在第k次更新后为T kij，其中k∈[0，N]，N为目标训练集图像个数，它统计了i和j摄像头下在第k次更新后相同时间差的行人个数。对每个伪标签进行统计，当其同时存在于摄像头i与摄像头j上时，计算其平均帧的时间差t，并对Tij进行更新，具体为

式中，Tij(t)初始为0。

定义Num(xi，xj)为同时位于图像xi与图像xj所处的摄像头上，且处于同一时间差区间内的伪标签个数，定义Sum(camxi，camxj)为在图像xi所处摄像头与图像xj所处摄像头同时存在的伪标签的个数。摄像头时间评分为

4）联合距离推理。将摄像头时间评分与余弦距离进行结合，虽然摄像头时间评分Dst(xi，xj)在统计时是一个处于(0，1)的概率，与余弦距离所处区间( -1，1) 的差异较小，但两者在推理过程中权重应该有所不同，令

最终的联合距离为

式中，cos(xi，xj)表示图像xi与图像xj特征间的余弦距离，ω为可进行人为调整的超参数。

3 实验及分析

3.1 实验数据集与评估指标

由于现有的公开数据集中，对时间戳标注并没有给予足够的关注，仅有Zheng 等人（2015）提出的Market-1501 和 Ristani 等人（2016）提出的DukeMTMC-ReID 数据集上有着明确的时间戳标注，因此为了验证根据时间戳与摄像头信息排序优化的有效性，本文在目标域设定为Market-1501，源域设定为DukeMTMC-ReID，以及目标域设定为DukeMTMC-ReID，源域设定为Market-1501 两种情况下对所提出的方法进行评估。

Market-1501 数据集是于2015 年夏季在清华大学校园拍摄采集的，包含6个不同摄像头的32 668幅图像，1 501 个行人身份。DukeMTMC-ReID 数据集是DukeMTMC 的子集，是从美国杜克大学2014 年校园监控录像中采集的，包含8 个不同摄像头的36 411幅图像，1 812个行人身份。

在评估中，采用累计匹配特征曲线（cumulative match characteristic，CMC）和平均精度均值（mean average precision，mAP）作为评估指标。

3.2 实验设置

本文中模型的训练分为两个阶段：源域的预训练和目标域的无监督自适应。

在源域的预训练阶段，首先在源数据集上使用3 个网络模型进行有监督的预训练。本文采用DenseNet-121（densely connected convolutional network-121）、ResNet-50 （residual network-50）和inception-v3（inception network-v3）这3种架构作为骨干网络，并使用在ImageNet 上预先训练的参数对其进行初始化。

批量大小设为64，用16 个随机选择的标签和4 个随机抽样的图像对64 幅图像进行采样，以计算三元组损失。本文使用Adam 优化参数，并设置weight decay为0.000 5。初始学习率设置为0.000 35，在总共80个epoch中，在第40和第70个epoch时，初始学习率降低到之前值的1/10。

3.3 实验参数分析

本文的超参数包括K-Means 聚类簇个数、DBSCAN 的搜索半径，以及摄像头时间距离计算公式使用的ω。为了确定本文一系列超参数的选取对网络模型性能的影响，进行了详尽的参数分析实验。

在无监督领域自适应阶段进行聚类过程中，本文对聚类方法以及其中参数进行选取。本文分别使用了K-Means 聚类方法与DBSCAN 聚类方法，并对其中参数进行调整以进行实验。首先是K-Means 聚类中类别数超参数的确定，基于Market-1501 与DukeMTMC-ReID 数据集其测试集原本类别量，设置K-Means 聚类类别数分别为500，700，900。其次是DBSCAN 聚类方法中参数的确定，本文对目标域训练集输入源域预训练网络模型提取出的特征进行了k距离kt的计算，kt计算结果如图6所示。可以看出，预训练网络模型所提取的目标域训练集特征其k 距离范围取值在0.3～1.0 之间。因此将DBSCAN 聚类的扫描半径eps 设置在0.4～1.0 间滑动选取，间隔为0.2。

图6 无监督领域自适应聚类的k距离曲线Fig.6 Curve of k-distance of unsupervised neighborhood adaptive clustering

推理结果如表1 所示。可以发现，在使用DBSCAN 聚类方法并将扫描半径设置为0.8 时，进行无监督领域自适应学习的聚类阶段产生的推理结果最好。但是其他聚类生成伪标签方法使用的是K-Means 聚类方法，且聚类数量设置为500，为了与其他方法进行公平对比，因此后续实验使用KMeans（500）聚类生成伪标签训练得到的模型作为对比实验使用的模型。

表1 无监督领域自适应学习聚类过程中不同聚类方法及参数下的实验结果Table 1 Experimental results under different clustering methods and parameters in unsupervised domain adaptive learning clustering process/%

同时，为了验证在摄像头时间距离构建中聚类方法对模型推理结果的影响，同样对聚类方法的参数进行了分析。K-Means 聚类参数与前文一致，设置为500，700，900。DBSCAN 聚类方法的扫描半径参数eps 选取方式亦与前文一致，本文对目标域训练集输入网络模型提取出的特征进行了kt的计算，结果如图7所示。

图7 摄像头时间距离构建聚类的k距离曲线Fig.7 Curve of k-distance of the camera time distance clustering

由图7 可以得知，扫描半径eps的合理取值范围大致在0.3～1.1 之间。将扫描半径eps 取值范围设置为［0.3，1.1］，间隔为0.2，整体实验结果如表2所示。不难发现，DBSCAN 聚类方法在摄像头时间距离构造过程中进行聚类效果更为优秀。

表2 摄像头时间距离构建过程中不同聚类方法及参数下的实验结果Table 2 Experimental results under different clustering methods and parameters in camera time distance construction process/%

最后，为了验证ω取值对网络模型的影响，设置ω的取值范围为［3，7］，间隔为1。结果如表3 所示，可以发现，当ω设置为5 时，摄像头时间距离与余弦距离进行共同推理的效果最好。这个取值可以在特征间余弦距离不失真的基础上有效使用摄像头时间距离。

表3 摄像头时间距离构建过程中不同聚类方法及参数下的实验结果Table 3 Experimental results under different clustering methods and parameters in camera time distance construction process/%

为验证互学习中网络个数的影响，分别对单网络（即不采用互学习）、双网络、三网络进行对比实验，实验结果分别如表4 和表5 所示。由表4 和表5可以看到，互学习能有效结合多网络的特征提取能力，提升模型性能，而本文采用的三网络性能也高于双网络。综合考虑计算资源耗费与模型性能提升，本文采用三网络模型。

表4 源域为DukeMTMC-ReID目标域为Market-1501设置下的不同网络个数实验结果表Table 4 Experimental results of different number of networks with DukemtMC-ReID as the source domain and Market-1501 as the target domain/%

表5 源域为Market-1501目标域为DukeMTMC-ReID设置下的不同网络个数实验结果Table 5 Table of experimental results of different number of networks with Market-1501 as the source domain and DukemtMC-ReID as the target domain/%

3.4 实验结果分析

为了评估所提方法的有效性，设计对比实验，将本文方法与当前的一些具有代表性的方法进行比较，包括手工特征方法（unsupervised cross-dataset transfer learning，UMDL）（Peng 等，2016）、基于特征对齐的方法（unsupervised camera-aware domain adaptation framework，UCDA-CCE）（Qi 等，2019）、基于生成对抗网络的方法（similarity preserving generative adversarial network，SPGAN）（Deng 等，2018）、Cam-Style（camera style generative adversarial network）（Zhong 等，2018b）、HHL（hetero-homogeneous learning）（Zhong 等，2018a）和ECN（exemplar camera neighborhood）（Zhong 等，2019）、基于聚类进行伪标签预测的方法PTG（person transfer gan）（Wei等，2018）、UDAP（unsupervised domain adaptive re-identification）（Song 等，2020）、MEB-Net（multiple expert brainstorming network）（Zhai 等，2020）、GLT（group-aware label transfer）（Zheng 等，2021a）、HCD（hierarchical cluster dynamics）（Zheng 等，2021b）和SAT（selfadaptative techniques）（Bertocco 等，2021），对比结果如表6 和表7 所示，其中，所有对比方法均采用公开发表的结果。

从表6 可以看出，在源域为DukeMTMC-ReID、目标域为Market-1501数据集的实验中，本文方法的mAP 和Rank1 准确率分别为82.5%和95.3%，较对比方法中指标最高的方法HCD 分别高出2.5%和3.4%。从表7可以看出，在源域为Market1501、目标域为DukeMTMC-ReID数据集的实验中，本文方法的mAP 和Rank1 准确率分别为75.3%和90.2%，较对比方法中指标最高的方法SAT 分别高出2.7%和4.8%。这些数据说明了本文使用的摄像头内伪标签构造与深度互学习框架能使网络从图像中提取出更多有用的信息。

表6 源域为DukeMTMC-ReID目标域为Market-1501设置下本文方法与其他方法的对比结果Table 6 Comparison results between the proposed method and other methods under the setting of source domain DukemtMC-ReID and target domain Market-1501/%

表7 源域为Market-1501目标域为DukeMTMC-ReID设置下本文方法与其他方法的对比结果Table 7 Comparison results between the proposed method and other methods under the setting of source domain Market-1501 and target domain DukemtMC-ReID/%

同时，为了验证本文各模块的效果，分别在4 种不同设置下进行消融实验，主要检测了摄像头内伪标签构造及基于时间戳和摄像头排序优化的作用，实验结果如图8—图11所示。其中，-表示去除该模块，＋表示添加该模块。可以看出，摄像头时空距离的引入不仅使无监督领域自适应设置下的行人重识别任务最终推理的性能大幅提升，并且适用于传统的闭集设置下的行人重识别任务。而真实场景下摄像头标签与时间标签并不是难以获取的信息，因此本文方法可以广泛应用于大量场景。

图8 DukeMTMC-ReID到Market-1501消融实验结果Fig.8 Ablation results of DukeMTMC-ReID to Market-1501

图9 Market-1501到DukeMTMC-ReID消融实验结果Fig.9 Ablation results of Market-1501 to DukeMTMC-ReID

图10 Market-1501数据集消融实验结果Fig.10 Market-1501 ablation experiment results

图11 DukeMTMC-ReID数据集消融实验结果Fig.11 DukeMTMC-ReID ablation experiment results

4 结论

本文针对无监督领域自适应行人重识别任务，提出了一种结合时空距离的分摄像头互学习方法。其中，摄像头内伪标签的构造利用了数据的时间信息，这比直接使用特征聚类生成的数据集整体伪标签更为可靠，减少了模型对夹杂噪音的整体伪标签的依赖。同时，深度互学习的框架使模型的鲁棒性得到了提升。在此基础上，引入了数据集中摄像头信息及时间戳信息进行排序优化，相比于现有的排序优化算法大幅降低了内存和时间消耗，且进一步提高了行人重识别模型的准确度。

本文方法有效解决了无监督领域自适应问题中伪标签噪音的影响，拓展了数据集的使用方法，提出了一种新的排序搜索算法。但是，本文只用了互学习过程中的一个模型，没有充分利用多网络的丰富信息。未来的工作可从如何整合多网络提取一个聚合特征入手，提升最终特征抽取器的泛化性。