基于注意力机制学习域内变化的跨域行人重识别方法

2022-06-21陈代丽许国良

计算机应用 2022年5期

关键词：源域全局行人

陈代丽，许国良*

（1.重庆邮电大学通信与信息工程学院，重庆 400065；2.重庆邮电大学电子信息与网络工程研究院，重庆 400065）（∗通信作者电子邮箱xugl@cqupt.edu.cn）

基于注意力机制学习域内变化的跨域行人重识别方法

陈代丽1，2，许国良1，2*

（1.重庆邮电大学通信与信息工程学院，重庆 400065；2.重庆邮电大学电子信息与网络工程研究院，重庆 400065）（∗通信作者电子邮箱xugl@cqupt.edu.cn）

针对行人重识别任务跨域迁移时性能严重衰退的问题，提出了一种基于注意力机制学习域内变化的跨域行人重识别方法。首先，以ResNet50为基础架构并对其进行调整使其适合行人重识别任务，并引入实例-批归一化网络（IBN-Net）以提高模型的泛化能力，同时增加区域注意力分支以提取更具鉴别性的行人特征。对于源域的训练，将其作为分类任务，使用交叉熵损失进行源域的有监督学习，同时引入三元组损失来挖掘源域样本的细节，从而提高源域的分类性能。对于目标域的训练，通过学习域内变化来适应源域和目标域间的数据分布差异。在测试阶段，以ResNet50 pool-5层的输出作为图像特征，并计算查询图像与候选图像间的欧氏距离来度量两者的相似度。在两个大规模公共数据集Market-1501和DukeMTMC-reID上进行实验，所提方法的Rank-1准确率分别达到80.1%和67.7%，平均精度均值（mAP）分别为49.5%和44.2%。实验结果表明，所提方法在提高模型泛化能力方面性能较优。

无监督域适应；域内变化；行人重识别；注意力机制；鉴别特征

0 引言

作为智能安防领域的一个基本任务，行人重识别（Person re-identification）［1］得到了学术界和工业界的长期关注。它旨在给定查询图像的前提下，检索出不同时间、不同地点包含该行人的图像。早期行人重识别主要集中于手工设计结构特征或者距离度量学习，随着深度学习技术广泛应用于目标检测、目标追踪等领域，深度学习也逐渐应用于重识别任务。在拥有良好的、足够的训练数据的情况下，深度学习依靠强大的学习能力在大部分任务中可获得较好的性能，包括行人重识别任务。然而，由于数据分布的较大偏差，在源域训练的模型直接部署于目标域时将产生严重的性能衰退［2］。此外，有监督学习需要大量有标签信息的训练数据，这在实际场景中难以获得。这些问题限制了有监督重识别模型的应用，因此研究者们提出了无监督域适应行人重识别方法以提高模型的泛化能力。

最近无监督域适应行人重识别方法的重要思路之一是为缺少标签信息的目标域样本分配伪标签，使无监督学习等同于有监督学习，比如：文献［3］中对样本特征相似度进行聚类，并根据聚类结果为其分配伪标签；文献［4］中通过比较未标记的行人图像与辅助域的参考行人图像，为每个未标记的行人学习标签似然向量，实现不同摄像机视域内的行人重识别。也有方法主要关注如何缩小域差，例如文献［5-7］中将来自源域的图像翻译到目标域，形成具有目标域图像风格的中间数据集并保留源域固有身份，使模型在中间数据集进行预训练时就学习了目标域图像风格，从而缓解目标域与源域数据风格差异对模型性能的影响。除此之外，有研究通过考虑目标域域内变化，提升重识别模型的泛化能力，比如：文献［8］中研究了三种不变性即样本不变性、相机不变性及邻居不变性；文献［9］中挖掘目标数据集存在的一致性约束，增强全局线索和局部线索的协调性，并鼓励给定实例与其正样本有相似的特征，从而适应域内变化。

总体来看，无监督域适应行人重识别研究基于解决思路和关注点不同，采用的方法也存在差异。从整体考虑，获取更具鉴别性的行人特征是关注的基本问题；就考虑目标域域内变化的方法而言，不同样本间的差异及不同摄像机所拍图像风格差异（摄像机编号分别为C1、C3、C6）如图1所示，是影响模型跨域重识别性能的关键。

图1 域内行人图像变化Fig.1 Person image changes in domain

针对上述问题，本文的主要工作如下：1）为提取更具鉴别性的行人特征，同时考虑样本层级特征及区域注意力特征；2）引入实例-批归一化网络（Instance-Batch Normalization Network， IBN-Net），通过学习目标域域内变化，增强模型的泛化性。在两个公开数据集Market-1501和DukeMTMC-reID上进行了实验，结果表明本文所提方法的综合性能较优。

1 前期工作

就跨域行人重识别任务而言，一般有两个数据域：一是有标签信息的源域，它有位行人共张图像，每个样本对应的身份标签为；二是没有标签信息的目标域，共有张图像。除这些信息外，本文还需要目标域摄像头编号。基于以上信息，本文的目的是通过提取更具鉴别性的行人信息来学习目标域的域内变化，从而提升模型从源域迁移到目标域的重识别性能。

为估计目标域样本的相似性，本文首先构建了一个样本特征存储库，每一个位置存储目标域样本的特征。在训练过程中，样本特征存储库根据式（1）以迭代方式进行更新：

2 本文方法

2.1 IBN-Net

域间风格差异是影响跨域行人重识别性能衰退的重要因素，与生成中间风格图像的方法［6，10］不同，本文直接提取风格不变特征缓解域间风格差异的影响。由于批归一化（Batch Normalization， BN）［11］可以保存与内容相关的信息，实例归一化（Instance Normalization， IN）［12］对目标的外观变化具有鲁棒性，因此用IN来处理与风格相关的浅层特征，用BN来处理与高层特征相关的深度特征。在浅层网络中加入IN时，同时加入BN层以保证与内容相关的信息能顺利通过深度网络。IBN-Net结构［13］如图2所示。

图2 IBN-Net结构Fig. 2 Structure of IBN-Net

2.2 基于注意力机制的风格不变网络

本文所提方法的总体结构如图3所示。该模型以ResNet50为基础架构，其中ResNet50的残差块增加了IBN-Net，同时在ImageNet数据集上进行了预训练。为进行后续的重识别任务，本文移除ResNet50-IBN用于分类的全连接层，并增加用于学习样本特征的全局分支和用于学习区域注意力特征的区域注意力分支。

对于全局特征分支，本文将ResNet50-IBN的pool-5层输出通过全局平均池化（Global Average Pooling， GAP）处理后，经过包含卷积、BN层及整流线性单元（Rectified Linear Unit， ReLU）激活的降维操作，得到一个256维的全局特征。

图3 所提方法的总体结构Fig. 3 Overall structure of proposed method

在提取区域注意力特征时，采用直接水平划分特征图的方式，将特征映射图分为上下两部分水平区域，再以注意力模块CBAM（Convolutional Block Attention Module）［14］学习区域中重要特征并抑制其他无关特征，实现鉴别特征提取。CBAM依次使用通道和空间注意力模块，以便每个分支可分别在通道和空间轴中学习要注意什么和注意哪里。将经过切分后所得的上下部分区域特征图、作为输入，CBAM依次推断1维通道注意映射图、和2维空间注意映射图、，如图4所示。

图4 CBAM 结构Fig. 4 Structure of CBAM

当得到区域注意力特征图后，对每个特征图使用全局最大池化（Global Max Pooling， GMP）和GAP的组合。与全局分支仅使用GAP不同，对区域注意力特征图使用组合池化更有利于挖掘丰富的特征，之后再通过类似全局分支的降维操作获得两个256维的注意力特征。最后，将样本特征与区域注意力特征沿通道维度连接，然后通过一个2 048维的全连接层，之后是BN层、ReLU层、Dropout层，最终得到行人鉴别特征。结合全局信息和区域注意信息可以弥补全局特征分支难以使用局部区域的语义信息［15］。利用主要特征并关注其中的关键特征，使得本文方法能识别相似度较高的难负样本。

2.3 源域的有监督学习

源域数据拥有身份信息，对该域数据的训练属于有监督范式。因此，本文使用交叉熵损失（Cross-entropy loss）和三元组损失（Triplet loss）的组合来进行源域的有监督学习。源域的交叉熵损失为：

一般来说，训练数据中存在正样本和负样本，最小化正样本间的距离和最大化负样本间的距离有助于优化行人的嵌入特征。故本文使用Hermans等［16］提出的三元组损失来挖掘训练图像中的样本细节，源域的三元组损失为：

通过联合交叉熵损失和三元组损失得到源域有监督损失为：

在有标签信息的源域训练的重识别模型在具有相同数据分布的测试集上有相似的分类准确率。事实上，不同数据集间的数据分布存在较大差异，直接将训练好的模型迁移到未知数据集上，模型性能可能发生严重衰减。为缓解该问题，本文进一步学习目标域的域内变化，以提高模型的泛化能力。

2.4 目标域域内变化学习

在真实场景下，背景、姿态、照明、视角、相机等条件变化很大［17］，采集的行人图像在外观上具有差异，甚至是拥有相同身份的行人样本也不尽相同，即一张图像只和自身有最高的相似度，故本文将每张图像看作单独的一类。对于目标图像，首先计算与存储在样本特征库中的特征间的相似性，然后使用softmax函数预测样本属于类的概率：

根据式（6），训练样本被迫远离其他行人图像，而同一身份的图像特征应该具有极高的相似性，强迫相同身份的行人具有明显不同的表征将对模型产生消极影响［18］。为找到相同身份的行人，本文首先计算样本与样本特征库中特征间的余弦相似性，并根据相似性，找到与最接近的个样本作为它的最近邻居集，并把对应索引作为它的近邻标签。不难想象，与样本最相似的图像是其本身，类别为。受ECN（Exemplar-invariance，Camera-invariance，Neighborhood-invariance）［8］的启发，目标图像应和它对应的最近邻居共享相同身份，因此属于邻居标签的概率权重为：

通过最小化相似图像间的距离，充分利用了正样本，提高了模型面对目标域域内变化的鲁棒性。该目标函数是一个软标签损失，为：

根据式（6）、（8），样本间的损失为：

在行人重识别任务中，行人可能在不同时间出现在不同摄像机视域内。由于环境以及相机参数的影响，不同摄像机所摄图像具有较大的风格差异，如图1（b）所示，这种差异可能会影响模型的重识别性能。为此，本文将每个摄像机视为不同的子域，用循环生成对抗网络（Cycle-consistent Generative Adversarial Network， CycleGAN）［19］为目标域训练相机风格（Camera Style， CamStyle）［20］模型。根据CamStyle模型，来自摄像机的图像将生成张其他摄像机风格的图像，同时保留原图像的身份，是目标域相机数量。训练时，从目标域中选择128张行人图像作为模型输入，其中部分图像被随机替换为对应的风格迁移图像共同参与模型优化。

目标域训练将样本间的变化和摄像机风格差异同时考虑在内，故总的目标域优化函数为：

3 实验与结果分析

3.1 数据集和评估

本文在常用的两个大规模行人重识别数据集Martket-1501［21］和DukeMTMC-reID［22-23］上进行验证。

Martket-1501包括由5个高清摄像头和1个低清摄像头共1 501位行人32 668幅行人图像，其中用于训练的图像有12 936张，分别来自于751位身份不同的行人，用于测试的数据来自750位行人共19 732张图像数据。

DukeMTMC-reID数据集是DukeMTMC数据集［23］的一个子集。它由随机从视频中每120帧采样而得的702个身份共16 522张训练样本、702个身份2 228张查询图像以及17 661张候选图像组成，其中1 404人出现在大于两个摄像头下，有408人仅出现在一个摄像头下。

在训练过程中，以其中一个数据集作为源域，另一个数据集作为目标域。在测试时，提取融合样本特征和区域注意力特征的行人信息，计算查询图像与候选图像间的欧氏距离作为它们的相似性，然后根据相似性计算累积匹配特征（Cumulated Matching Characteristics， CMC）曲线和平均精度均值（mean Average Precision， mAP）。

3.2 实验细节

本文使用在ImageNet数据集上预训练的ResNet50-IBN作为主要框架，输出层维度设置为批量输入大小，移除最后的池化层和全连接层，得到特征映射图后通过一个全局特征分支和一个区域注意力分支，并分别通过降维操作得到256维的特征图，按照通道方向级联。在训练时，固定ResNet50-IBN的layer1、layer2和layer3层的参数，网络输出层参数则以正态分布初始化，并采用随机梯度下降法（Stochastic Gradient Descent， SGD）来优化模型。超参数的设置基本参照文献［8］中，训练数据被重置为的大小，并经过随机翻转、随即裁剪及随机擦除等常用数据增强操作，前40次迭代时，ResNet50-IBN的基础层学习率设为0.01，其他新增网络层学习率设为0.1，在后续的20次迭代中，学习率分别缩小为原来的1/10，Dropout概率设为0.3。目标域最近邻居数量，样本特征存储库的特征更新率随迭代次数的增加而增加，即。本文设置特征分布平衡因子，源域与目标域损失比例。

本文方法的构建是基于Pytorch1.1.0的深度学习框架，所有实验均在GPU型号为Tesla K40m的Linux服务器上进行训练和测试。

3.3 参数分析

本文方法的各项参数可能对最终的行人重识别结果产生一定影响，如特征更新动量、特征分布、源域与目标域损失权重以及邻居范围，其中参数是学习目标域域内变化的关键因素，故下面主要分析邻居范围对模型性能的影响。

3.4 消融实验

表1给出了本文方法主要部分对模型性能的影响。与直接将ResNet50-IBN网络（Baseline）在目标域进行测试相比，仅考虑全局特征分支（Global Feature Branch， GFB）学习目标域域内变化时，在Market-1501上Rank-1准确率提高了33个百分点，结果表明模型对样本变化和图像风格差异具有一定的鲁棒性。若仅引入区域注意力分支（Region Attention Branch， RAB），特征映射图被划分为上下两部分，CBAM注意力模块提取重要特征，在学习域内变化后，模型性能比仅考虑全局特征分支时略有提升，且相较于直接使用Baseline，性能提升更为显著。同时考虑全局特征分支和区域注意力分支，以DukeMTMC-reID为源域，Market-1501为目标域，模型的Rank-1准确率达到80.1%，表明本文方法能有效提高跨域重识别性能。

图5 不同邻居数在Rank-1准确率上的评估Fig. 5 Evaluation of Rank-1 accuracy with different neighbor number

3.5 性能对比

将基于注意力机制学习域内变化的行人重识别方法在两个基准数据集上的结果与其他无监督域适应方法进行对比，包括：1）基于手工特征的表征模型LOMO（LOcal Maximal Occurrence）［24］和BoW（Bag-of-Words）［21］；基于伪标签生成的方法SSG（Self-Similarity Grouping）［3］和MAR（MultilAbel Reference learning）［4］；2）基于风格迁移的方法SPGAN（Similarity Preserving Generative Adversarial Network）［5］、PTGAN（Person Transfer Generative Adversarial Network）［6］、CamStyle［20］及CSGAN（Cross-domain Similarity Generative Adversarial Network）［7］；3）关注域内变化的方法ECN［8］、D-MMD（Dissimilarity-based Maximum Mean Discrepancy）［25］和ICE（Intra-domain Consistency Enhancement）［9］。分别以Market-1501和DukeMTMC-reID为源域，DukeMTMC-reID和Market-1501为目标域，将本文方法与对比方法的性能进行比较，结果如表2所示。

图6 不同邻居数在mAP上的评估Fig. 6 Evaluation of mAP with different neighbor number

表1 不同分支性能对比单位： %Tab. 1 Performance comparison of different branches unit： %

表2 不同方法在Market-1501和DukeMTMC-reID上的性能比较单位： %Tab. 2 Performance comparison of different methods on Market-1501 and DukeMTMC-reID unit： %

由表2可知，本文方法在DukeMTMC-reID迁移到Market-1501和Market-1501迁移到DukeMTMC-reID上分别获得了80.1%和67.7%的Rank-1准确率，49.5%及44.2%的mAP。与ECN相比，对于DukeMTMC-reID迁移到Market-1501，本文方法的Rank-1和mAP分别提高了5个百分点和6.5个百分点；对于Market-1501迁移到DukeMTMC-reID，本文方法的Rank-1和mAP分别提高了4.4个百分点及3.8个百分点。虽然某些方法的性能优于本文方法，比如模型ICE从DukeMTMC-reID迁移到Market-1501时，Rank-1达到了90.8%，mAP达到了73.8%，但是该方法使用教师学生模型缓解噪声标签的影响，相较于本文所提方法更为复杂，故本文方法的综合性能更优。

3.6 特征可视化

为分析本文方法的有效性，本文使用Grad-CAM （Gradient-weighted Class Activation Mapping）［26］对模型的全局特征和区域注意力特征进行可视化分析，可视化结果如图7所示，依次是原始查询图、全局特征映射图、区域注意力特征映射图和总体特征映射图，图中颜色越深表示权重越大。全局特征分支从样本层级关注行人鉴别信息，区域注意力分支从部分层级学习关键特征并抑制其他干扰信息，联合两个分支有助于模型提取更具鉴别力的特征。本文从样本层级和部分层级出发，通过学习行人鉴别信息及目标域域内变化，使模型的泛化能力有所提升，如图7中的总体特征映射图显然比全局特征和注意力特征映射图含有更多的信息。

图7 特征可视化结果Fig. 7 Feature visualization results

4 结语

本文提出了基于注意力机制学习域内变化的跨域行人重识别方法，不仅在ResNet50的残差块中引入IBN-Net缓解跨域适应问题，还引入CBAM注意力机制学习行人鉴别特征，同时通过学习目标域域内变化适应不同数据集的数据分布差异，并在两个行人重识别数据集上进行验证，验证了本文方法的有效性，在数据集Market-1501和DukeMTMC-reID上的Rank-1准确率分别达到了80.1%和67.7%，mAP分别达到了49.5%和44.2%。接下来将进一步研究如何有效缓解不同数据集图像间的风格差异，进一步提升重识别模型的易泛化性。

[1] LI Y， WU Z Y， KARANAM S， et al. Real-world re-identification in an airport camera network ［C］// Proceedings of the 2014 International Conference on Distributed Smart Cameras. New York： ACM，2014： 1-6.

[2] LUO C C， SONG C F， ZHANG Z X. Generalizing person re-identification by camera-aware invariance learning and cross-domain mixup ［C］// Proceedings of the 2020 16th European Conference on Computer Vision， LNCS 12360. Cham：Springer， 2020： 224-241.

[3] FU Y， WEI Y C， WANG G S， et al. Self-similarity grouping： a simple unsupervised cross domain adaptation approach for person re-identification ［C］// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2019： 6111-6120.

[4] YU H X， ZHENG W S， WU A， et al. Unsupervised person re-identification by soft multi-label learning ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 2148-2157.

[5] DENG W J， ZHENG L， YE Q X， et al. Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification ［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2018： 994-1003.

[6] WEI L H， ZHANG S L， GAO W， et al. Person transfer GAN to bridge domain gap for person re-identification ［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018： 79-88.

[7] ZHANG W Y， ZHU L， LU L. Improving the style adaptation for unsupervised cross-domain person re-identification ［C］// Proceedings of the 2020 International Joint Conference on Neural Networks. Piscataway： IEEE. 2020： 1-8.

[8] ZHONG Z， ZHENG L， LUO Z M， et al. Invariance matters： exemplar memory for domain adaptive person re-identification ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019：598-607.

[9] LI Y Y， YAO H T， XU C S. Intra-domain Consistency Enhancement for Unsupervised Person Re-identification ［J］. IEEE Transactions on Multimedia， 2021， 24： 415-425.

[10] WANG J Y， ZHU X T， GONG S G， et al. Transferable joint attribute-identity deep learning for unsupervised person re-identification ［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018：2275-2284.

[11] IOFFE S， SZEGEDY C. Batch normalization： accelerating deep network training by reducing internal covariate shift ［C］// Proceedings of the 2015 32nd International Conference on Machine Learning. New York： ACM， 2015： 448-456.

[12] HUANG X， BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization ［C］// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017：1510-1519.

[13] PAN X G， LUO P， SHI J P， et al. Two at once： enhancing learning and generalization capacities via IBN-Net ［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11208. Cham： Springer， 2018：484-500.

[14] WOO S Y， PARK J C， LEE J-Y， et al. CBAM： convolutional block attention module ［C］// Proceedings of the 2018 European Conference on Computer Vision， LNCS 11211. Cham： Springer， 2018： 3-19.

[15] 李佳宾，李学伟，刘宏哲，等.基于局部特征关联与全局注意力机制的行人重识别［J］.计算机工程，2022，48（1）：245-252.（LI J B， LI X W， LIU H Z， et al. Person recognition based on local features relation and global attention mechanism ［J］. Computer Engineering， 2022， 48（1）： 245-252.）

[16] HERMANS A， BEYER L， LEIBE B. In defense of the triplet loss for person re-identification ［EB/OL］. ［2020-12-13］. https：//arxiv.org/pdf/1703.07737.pdf.

[17] 廖华年，徐新.基于注意力机制的跨分辨率行人重识别［J］.北京航空航天大学学报，2021，47（3）：605-612.（LIAO H N， XU X Cross-resolution person re-identification based on attention mechanism ［J］. Journal of Beijing University of Aeronautics and Astronautics， 2021， 47（3）： 605-612.）

[18] LIN Y T， XIE L X， WU Y， et al. Unsupervised person re-identification via softened similarity learning ［C］// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020： 3387-3396.

[19] ZHU J Y， PARK T， ISOLA P， et al. Unpaired image to-image translation using cycle-consistent adversarial networks ［C］// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017：2242-2251.

[20] ZHONG Z， ZHENG L， ZHENG Z D， et al. Camera style adaptation for person reidentification ［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2018： 5157-5166.

[21] ZHENG L， SHEN L Y， TIAN L， et al. Scalable person re-identification： a benchmark ［C］// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2015：1116-1124.

[22] ZHENG Z D， ZHENG L， YANG Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro ［C］// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017： 3774-3782.

[23] RISTANI E， SOLERA F， ZOU R S， et al. Performance measures and a data set for multi-target， multi-camera tracking ［C］// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9914. Cham： Springer， 2016：17-35.

[24] LIAO S C， HU Y， ZHU X Y， et al. Person re-identification by local maximal occurrence representation and metric learning ［C］// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE， 2015： 2197-2206.

[25] MEKHAZNI D， BHUIYAN A， ESKANDER G， et al. Unsupervised domain adaptation in the dissimilarity space for person re-identification ［C］// Proceedings of the 2020 European Conference on Computer Vision， LNCS 12372. Cham： Springer， 2020：159-174.

[26] SELVARAJU R R， COGSWELL M， DAS A， et al. Grad-CAM： visual explanations from deep networks via gradient-based localization ［J］. International Journal of Computer Vision， 2020， 128（2）： 336-359.

Cross-domain person re-identification method based on attention mechanism with learning intra-domain variance

CHEN Daili1，2， XU Guoliang1，2*

（1.School of Communication and Information Engineering，Chongqing University of Posts and Telecommunications，Chongqing400065，China；2.Electronic Information and Networking Research Institute，Chongqing University of Posts and Telecommunications，Chongqing400065，China）

To solve severe performance degradation problem of person re-identification task during cross-domain migration， a new cross-domain person re-identification method based on attention mechanism with learning intra-domain variance was proposed. Firstly， ResNet50 was used as the backbone network and some modifications were made to it， so that it was more suitable for person re-identification task. And Instance-Batch Normalization Network （IBN-Net） was introduced to improve the generalization ability of model. At the same time， for the purpose of learning more discriminative features， a region attention branch was added to the backbone network. For the training of source domain， it was treated as a classification task. Cross-entropy loss was utilized for supervised learning of source domain， and triplet loss was introduced to mine the details of source domain samples and improve the classification performance of source domain. For the training of target domain， intra-domain variance was considered to adapt the difference in data distribution between the source domain and the target domain. In the test phase， the output of ResNet50 pool-5 layer was used as image features， and Euclidean distance between query image and candidate image was calculated to measure the similarity of them. In the experiments on two large-scale public datasets of Market-1501 and DukeMTMC-reID， the Rank-1 accuracy of the proposed method is 80.1% and 67.7% respectively， and its mean Average Precision （mAP） is 49.5% and 44.2% respectively. Experimental results show that， the proposed method has better performance in improving generalization ability of model.

unsupervised domain adaptation; intra-domain variance; person re-identification; attention mechanism; discriminative feature

TP391.41

1001-9081（2022）05-1391-07

10.11772/j.issn.1001-9081.2021030459

2021⁃03⁃26；

2021⁃06⁃22；

2021⁃06⁃23。

陈代丽（1996—），女，四川宜宾人，硕士研究生，主要研究方向：计算机视觉；许国良（1973—），男，浙江金华人，教授，博士，主要研究方向：计算机视觉、大数据分析与挖掘。

CHEN Daili， born in 1996，M. S. candidate. Her research interests include computer vision.

XU Guoliang， born in 1973，Ph. D.， professor. His research interests include computer vision， big data analysis and mining.