基于跨纬度交互注意力机制的行人重识别方法

2022-05-06杨世欣胡晓光杜卓群周峻林谢佳彧

智能计算机与应用 2022年3期

杨世欣，胡晓光，杜卓群，周峻林，谢佳彧

（1 中国人民公安大学信息与网络安全学院，北京 100038； 2 中国人民公安大学侦查学院，北京 100038）

0 引言

行人重识别（Person Re-identification，ReID）是用计算机视觉技术对多个非重叠摄像机下的不同行人进行检索判断，从而对固定行人进行跟踪的一种有效方法，是计算机视觉领域近年来的研究热点之一，在“平安城市”、“智慧城市”等重大项目建设中扮演着十分重要的角色，具有广泛的应用前景。然而摄像机捕获的行人信息受到视角、光照、分辨率、环境等各种复杂因素的影响，使得大量研究工作都是在寻找鲁棒性更强的行人特征。

随着深度学习在计算机视觉领域的兴起，基于深度学习的方法将特征提取和距离度量紧密结合在一起进行行人重识别，极大推动了行人重识别的发展。依据特征表示方式分为了全局特征和局部特征。全局特征表示方式是对行人图像的整体信息进行特征提取。 Wu 等人采用小尺寸卷积滤波器来捕捉行人图像全局特征中的细粒度信息，提出了“PersonNet”的网络结构；Zheng 等人提出一种结合分类损失（identification loss）和验证损失（verification loss）的融合模型，来增强行人图像特征的表达。局部特征表示学习是手动或自动地让网络去提取图像的局部特征，最终的特征由多个局部特征融合而成。常用实现方式有图像水平切片、姿态点估计、骨架关键点定位和人体图像分割等。但是通常不会单独使用局部特征，将互补的全局特征与局部特征融合是目前提高网络性能的一个重要分支；Su 等人提出一种结合全局和局部特征的解决姿态变化问题的 PDC （ Pose - Driven - Deep Convolutional）模型，利用身体区域线索来学习高效的特征表示以及自适应相似度量；Zhao 等人提出的新型卷积神经网络SpindleNet，未进行行人对齐，但利用14 个人体关键姿态点得到具有语义信息的区域，最终将不同尺度的局部特征与全局特征相融合，该模型是基于人体区域引导多阶段特征分解和树结构竞争特征融合的新构想；Zhang 等人提出的另一种融合方法AlignedReID，先分别计算两幅行人图像的全局特征距离和局部特征距离，再加权求和作为最终结果，亮点在于提出基于局部区域之间联系的动态匹配最小路径算法，用最短路径距离来进行低成本的对齐；在此基础上，Luo 等人提出AlignedReID + +，采用动态匹配局部信息（DMLI）的方法，不引入额外监督即可自动对齐切片，解决行人不对齐问题。

本文在AlignedReID + +基础上，对特征提取模块进行改进。以Resnet50 为基础，通过引入跨维交互注意力Triplet Attention 来捕捉空间维度和通道维度之间的交互作用；引入一个基于空间特性的视觉激活函数Funnel ReLU，解决激活函数的空间不敏感问题。

1 AlignedReID + +算法

AlignedReID + +算法主要由特征提取和相似度度量两部分组成。在提取特征阶段，把原始大小为256×128 的行人图像通过ResNet50 网络进行特征提取，将提取到的特征分别输送给全局分支和局部分支；在相似度度量阶段，分别计算提取的全局特征和局部特征之间的距离。全局距离即全局分支提取到的全局特征的2 距离，式（1）：

其中：d为图像中第个垂直部分和图像中第个垂直部分之间的距离，为距离矩阵。

两幅图像间的局部距离则定义为矩阵中最短路径从（1，1）到（，）的总距离。可以通过动态规划计算，式（3）：

其中：S是距离矩阵从（1，1）到（，）的最短路径的总距离，S代表两幅图像之间最终最短路径的总距离，即局部距离，式（4）：

可将两幅图像间总距离表示为局部距离与全局距离之和，式（5）：

其中：（，）为局部距离，为平衡全局距离与局部距离的权重系数，此处取值为1。

训练过程中选用TriHard 损失作为度量学习的损失，同时全局分支中使用Softmax 损失来进行多分类，则AlignedReID + +的总体损失函数，式（6）：

2 改进的方法

本文对AlignedReID + + 模型框架进行改进，如图1 所示。

（1）将跨维交互注意力（Triplet Attention，TA）模块引入到特征提取网络ResNet50 中，使模型更加关注行人图像中的关键区域，抑制无关特征。

（2）引入基于空间特性的视觉激活函数Funnel ReLU，通过增加一个空间条件，缓解激活函数的空间不敏感问题。

2.1 Triplet Attention

注意力机制（Attention Mechanism）的目标是从大量的信息中筛选出对当前任务更有效的细节信息。本文通过引入 Triplet Attention 模块对AlignedReID + +中的特征提取网络ResNet50 进行改进，使模型更加关注行人图像中的关键区域。Triplet Attention 是一个几乎无参数、且不涉及任何降维的廉价且有效的注意力机制。其原理是一种基于三分支结构的跨维度交互（cross dimension interaction）计算注意力权重的新方法，即通过3 个分支分别捕获输入张量的（，）、（，）和（，）之间的依赖关系。网络结构如图2 所示。

图1 基于AlignedReID + +改进的行人重识别框架图Fig. 1 Improved person re-identification framework based on AlignedReID + +

图2 Triplet Attention 网络结构图Fig. 2 Network structure diagram of Triplet Attention

给定一个输入张量∈ℝ，首先，把输入传递给3 个分支：

最终对3 个分支的所有输出特征进行汇总求平均值。

将跨维度交互的Triplet Attention 模块引入到特征提取网络ResNet50 中，使其提取到的行人特征更具有代表性和泛化性。

2.2 Funnel 激活函数

激活函数可通过加入非线性因素来解决线性模型表达能力不足的问题。广泛使用的ReLU、PReLU、Leaky ReLU 等激活函数在语义分割中表现出了对空间信息的不敏感，不能很好的捕捉图片中的空间信息。针对这个问题，本文引入了一种新的基于空间特性的视觉激活函数Funnel ReLU（FReLU），通过简单的增加一个空间条件，将ReLU函数扩展为2D 激活函数，解决了激活函数的空间不敏感问题，且增加的计算开销不大，如图3 所示。

图3 激活函数示意图Fig. 3 Schematic diagrams of activation function

FReLU 采用与ReLU 函数相同的max（·），即使用max（·）来获得和条件之间的最大值，并通过添加一个视觉漏斗条（）将其扩展到2D。

FReLU 的表达式（7）～（8）：

FReLU 函数拥有像素级的空间布局能力，通过在激活函数中使用空间条件，将原始ReLU 更新为一个具有了自适应获取图像局部上下文能力且形式又简单的激活函数，可以轻易的提取图像的空间结构，更加提升了激活函数在行人重识别任务中的精度和鲁棒性。

3 实验结果与分析

3.1 数据集

为了评估本文所提出的方法，选取行人重识别研究中3 个主流数据集：Market1501、DukeMTMCreID、CUHK03。 CUHK03 数据集使用5 对摄像头进行采集，包括1 467 个不同的行人和13 164 张图片；Market1501 数据集包括由6 个摄像头拍摄到的1 501个行人、32 668 个检测到的行人矩形框。其中训练集有751 个行人、12 936 张图像，测试集有750个行人、19 732 张图像；DukeMTMC-reID 数据集包括1 404 个行人、36 411 张图像，其中训练集有702个行人、16 522 张图像，测试集有702 个行人、17 661张图像。

3.2 实验设置

本实验在GeForce RTX2080Ti GPU 服务器上搭建了基于PyTorch 的深度学习框架，选择ResNet50作为Backbone。先将图片分辨率统一为256×128，然后进行随机擦除等方法及归一化处理，最后将处理过的特征输入到网络中；训练共进行300 轮，batchsize 设置为32，初始学习率设置为0.000 2，并且学习率在第150 个epoch 时进行衰减，衰减系数为0.1。 Triplet hard loss 中margin 设置为0.3。

3.3 仿真实验与结果分析

为了验证引入的TA 模块和FReLU 激活函数的有效性，将改进后的模型在CUHK03、Market1501 和DukeMTMC-reID 3 数据集上进行训练和测试，并遵循通用的评价标准，利用累计匹配特性（Cumulative Match Characteristic Curve，CMC）曲线中的首位命中率1 和平均精度均值（mean Average Precision）两个最常用的性能评价指标对网络性能进行评测。全部实验均采用单帧查询模式，采用全局距离加局部距离的结果（Global + DMLI），以及再排序（Re-ranking，RK）后的结果。

将TA 注意力模块加入到Baseline 网络中，实验结果见表1。由表1 可以看出，模型在3 个数据集上性能均有所提升。在Market1501 数据集上1 达到了91.9%，达到了79.8%，分别提升了0.9%和2.2%。在DukeMTMC-ReID 数据集上性能相差不多，但1 也是达到了81.2%，提升了0.5%。在CUHK03 数据集上1 达到了62.9%，达到了60.1%，分别提升了2.0%和0.4%。经过RK 后，效果尤其明显。在Market1501 数据集上1 和分别提升了1.3%和1.9%。在DukeMTMC-ReID 数据集上1 和分别提升了0.9%和1.6%。在CUHK03 数据集上1和分别提升了2.7%和2.9%。实验证明嵌入TA注意力模块可以显著提升模型的效能。

将FReLU 模块加入到Baseline 网络中，实验结果见表2，可以看出对激活函数进行改进之后，模型在3 个数据集上性能同样得到了显著的提升。在Market1501 数据集上1 达到了91.5%，达到了79.6%，分别提升了0.5%和2.0%。在DukeMTMC-ReID 数据集上1 达到了82.0%，达到了69.1%，分别提升了1.3%和1.1%。在CUHK03 数据集上性能相差不大，但1 也达到了61.1%，提升了0.2%。经过RK 后，提升效果更为明显。在Market1501 数据集上1 和分别提升了1.0%和1.4%。在DukeMTMC-ReID 数据集上1 和分别提升了1.4%和2.1%。在CUHK03 数据集上1 和分别提升了2.2%和1.9%。实验证明采用视觉激活函数可以显著提升模型的效能。

表1 基于TA 模块改进的实验结果Tab. 1 Improved experimental results based on TA module %

表2 基于FReLU 模块改进的实验结果Tab. 2 Improved experimental results based on FReLU module %

将改进后的模型与现有模型进行比较，见表3。改进后的模型在Market1501、DukeMTMC-ReID、CUHK03 数据集上的性能均有显著的提升。综上，本文提出的改进方法在行人重识别问题中效果显著。

表3 实验结果对比Tab. 3 Comparison of experimental results %

4 结束语

本文通过改进AlignedReID + +网络模型，提出了一种基于跨纬度交互注意力机制的行人重识别方法。在AlignedReID + +基础上，向特征提取部分嵌入跨纬度交互注意力机制TA 模块，使网络模型更关注于图像关键特征信息，得到更具鲁棒性的行人特征；同时采用基于空间特性的视觉激活函数FReLU，通过增添一个空间条件，解决激活函数空间的不敏感问题；最后，与行人重识别最新方法对比，通过在Market1501、DukeMTMC-ReID、CUHK03 数据集上进行效能评估实验，可以看到改进后的模型鲁棒性更强、精确性更高。