基于注意力机制的行人重识别特征提取方法

2020-06-06刘紫燕万培佩

计算机应用 2020年3期

刘紫燕，万培佩

（贵州大学大数据与信息工程学院，贵阳550025）

（*通信作者电子邮箱Leizy@sina.com）

0 引言

在计算机视觉领域，行人重识别通常被视为图像检索问题，即从不同的相机中匹配行人，从非重叠摄像机视角下的行人图像库中找到与该行人是同一个行人的图像。由于不同摄像机场景、视角、光照等因素的影响，会导致行人姿态多样，行人图像分辨率不高以及行人遮挡等问题，给行人重识别研究带来非常大挑战。早期的行人重识别研究主要集中于如何手工设计更好的视觉特征和如何学习更好的相似度度量。近几年随着深度学习的发展，深度学习技术在行人重识别上得到了广泛的应用。和传统方法不同，深度学习方法可以自动提取行人图像特征，因此如何提取行人的显著性特征成为行人重识别精度提高的关键。

行人重识别方法主要分为:基于特征表示的方法和基于度量学习的方法［1-2］。基于特征表示方法主要是学习一个具有鲁棒性的深度网络提取特征［3］；基于度量学习的方法主要通过将行人图像映射到另一个空间，使同一个行人的距离小于不同行人距离［4］，能够达到重识别的效果。

近几年，随着深度学习的发展，基于深度学习的行人重识别提取的特征比手工提取的特征具有更高的辨识能力。文献［5］中提出了一个新颖网络模型，比较两幅图像经过卷积后提取到的特征区域的相似特征，并对图像中的相似区域的差异进行特征学习和相似性度量，提升特征的鉴别能力。文献［6］中提出用卷积神经网络进行图像空域重建，得到与输入图像尺寸一致的空域特征图，不需要特征对齐过程，算法借鉴字典学习中重建误差来计算不同的空域特征图的相似度。文献［7］中提出了一个PCB（Part-based Convolutional Baseline）分块模型，使用RPP（Refined Part Pooling）网络使每个相似的块对齐。因为RPP网络属于后续处理操作，所以该网络模型不能使用端到端的方式进行训练。除此之外单一固定的局部尺寸划分也并不能充分地提取出有效的局部信息。文献［8］中用一种互补的注意力机制用于学习一组融合特征——全局和局部特征，用于最大化它们的互补优势并且能够兼具好的分辨性以及结构简便的特点。以上这些方法仅利用行人的全局特征和部分局部特征，当检测目标存在关键部分信息缺失的情况时，这些特征并不能提供良好的辨别能力。而本文所述的注意力机制网络可以在行人某些关键信息缺失情况下，通过增强图像空间像素特征的权重，提取行人显著特征，提高行人重识别的精度。

本文提出一种基于注意力机制的行人重识别网络，该网络以ResNet50 网络为基础，融合注意力机制，构建行人重识别网络模型。通过ResNet50 网络提取行人特征，再结合注意力机制来增强图像空间像素特征，然后融合这两种特征从而得到行人的显著属性特征，进一步提升行人重识别的识别精度。此外本文还将随机擦除应用到行人图像预处理中，通过图像随机擦除方法来添加图像噪声，使网络的鲁棒性得到提高；在实际环境中，通过随机擦除能够生成不同样式的图片，可以弥补行人图像数据欠缺，缓解网络过拟合问题。

1 行人重识别网络模型

如图1 所示，本文的网络模型是由骨干网络、注意力网络和全连接层构建的整个行人重识别网络架构。骨干网络采用ResNet50 网络作为基础网络，通过ResNet50 网络前两层layer1 层和layer2 层提取行人浅层特征；注意力机制网络分为主干分支和旁干分支，将骨干网络提取的行人浅层特征输入到注意力网络两分支中，融合两部分特征，得到行人特征，通过结合两阶段注意力机制网络提取的特征，融合得到行人显著特征，将提取的特征通过全连接层进行分类识别。

图1 行人重识别网络模型Fig. 1 Pedestrian re-identification network model

2 基于注意力机制的行人特征提取

2.1 基于随机擦除的图像预处理

在深度学习中，为了避免网络出现过拟合问题，提高网络的泛化能力，需要充足的训练样本。而在现实环境中，由于各种原因导致数据量欠缺，因此需要进行数据增强操作，以增加数据集。传统的数据增强方式有裁剪，翻转以及添加噪声等方式，这些方式能够增加训练集来提高网络的泛化能力。随着深度学习中网络深度不断加深，传统的数据增强方式无法满足各类场景需求，而在行人重识别的应用场景中，由于摄像机场景、角度以及光照等因素给行人重识别带来影响，学习的深度网络不能很好地识别行人图像。本文采用随机擦除法对数据进行预处理，增加数据集的数量来更好地训练网络，提高网络泛化能力，有利于深度网络提取更为显著的特征。该算法过程如下:

1）设置随机擦除概率。假设图片随机擦除的概率为P，则图片不擦除概率1-P。随机选择图像中的矩形区域Ie，并将矩形区域赋值随机像素点。

图像区域的面积:

其中:W为图像的宽，H为图像的高。

2）设置随机擦除矩形区域的参数。擦除矩形的面积Se=rand(sl，sh)×S，其中sl、sh是人工设置的最小值和最大值，通过随机擦除矩形的高和宽:

其中re为擦除矩形的高宽比，通过随机产生。初始化得到Se。

3）在图像中随机产生一个点Q(xe，ye)，满足下列条件:

其中:xe为Q的横坐标，ye为Q的纵坐标，W为图像的宽，（xe，ye，xe+We，ye+He）是选定的随机擦除区域。

4）给擦除区域赋值随机［0，255］像素，并输出预处理图像。

2.2 基于注意力机制的行人特征提取

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。当前一些研究也将注意力机制应用于行人重识别中，大多数方法结合局部特征信息和全局信息融合的注意力机制。文献［8］提出了一种多任务学习模型共同学习硬区域级和空间特征级注意力产生更多有辨别力的特征表示来提高识别精度；文献［9］提出使用行人姿势信息来学习注意力掩模件作为行人局部特征信息，然后结合全局和局部特征融合得到最终行人特征。本文所述注意力机制方法与当前所作的注意力机制有所不同，当前更多的注意力机制提取某个局部特征并结合全局特征来提高行人重识别精度，而本文所述方法主要通过增强图像全局空间像素特征信息，提高行人重识别精度，同时能够抑制无用的特征信息，增强网络鲁棒性。图2为注意力机制的网络框架。该网络由主干分支和旁干分支两部分组成，用来提取深度特征。首先通过预训练网络ResNet50的前两层网络提取行人浅层属性信息，对其进行最大池化操作，增强图像的感受野，有助于为后面注意力网络的特征提取。图片的特征信息通过主干分支一系列的卷积操作，提取行人特征，而旁干分支通过一系列的下采样操作，逐渐提取高层特征并增大模型的感受野，再通过相同数量的上采样操作将特征的尺寸放大到原来输入特征的尺寸，得到分支行人特征。最后将两部分特征进行融合得到:

其中:M（x）是注意力机制网络旁干分支特征，F(x)是主干分支特征，H(x)融合得到的行人显著特征。M(x)的最后输出激活函数是Sigmoid函数，输出范围为（0，1），使用该函数目的为了前后两层的提取的特征带来太大的差异和扰动，同时能够进一步地抑制不重要的信息。当M(x)为零时，只有F(x)行人特征提取，这样不会导致整个网络的特征属性提取造成较大损失，还能优化整个网络，提取显著特征，从而最后融合得到最终行人特征。

对两部分特征融合的过程中，旁干分支特征相当于对主干分支特征中每个像素加权，能够增强主干特征的显著性，抑制无意义的特征从而得到行人显著特征。

2.3 损失函数

本次实验使用损失函数是交叉熵损失函数［10］，能够学习到更具判别力的特征。

交叉熵损失通过行人重识别网络最后分类softmax函数输出预测行人类别概率与标签目标概率进行损失评估，公式如下:

其中:k∈{1，2，…，K}表示行人重识别网络输出行人类别，K为训练集行人类别数量，通过行人重识别网络输出p(k)代表输入图像属于k类的预测概率，q(k)代表真实概率。

通过最小化总训练目标L1来训练整个基于注意力机制的行人重识别网络，通过欧氏距离来计算查询图与图片库图像的相似性，并以概率从大到小的方式进行排序，最后得到重识别的精度。

3 实验与分析

本文使用的实验平台在Ubuntu16.04 系统、Intel I5 处理器、16 GB 内存以及GeForce GTX 1070 显卡的硬件环境下，使用微调的预训练ResNet50 网络分别在两大行人重识别数据集Market1501［11］和DukeMTMC-reID［12］上进行实验。

3.1 数据集和评价标准

Market1501 数据集是大学校园内收集的大规模行人重识别数据集，它包括19 732 个行人图像，3 368 个查询图像和12 936 个从6 个不同摄像机收集的训练图像。训练集有751 个身份，测试集有750 个身份不重叠。本研究使用全部12 936个检测到的图像来训练网络。

DukeMTMC-reID 数据集包含由8 个高分辨率相机拍摄的1 812个身份共计36 411个图像。该数据集由702个身份共有16 522 个图像组成训练集，其他702 个身份的2 228 个查询图像和17 661个行人图像库图像组成测试集。

本文使用两个评价标准来评价所有数据集上的行人重识别方法性能。

第一个评价标准是累积匹配特征（Cumulative Matching Characteristic，CMC）曲线［10］，它表示了在前k个匹配结果中找到正确的匹配项的概率值。如果Rank-k的识别率为P，它表示正确的目标对象在排名结果的前k名的概率是P。通常，在评价算法的行人识别率时，考虑Rank1 到Rank20。假设给定一个含有M个行人样本的查询集Q和N个行人的图像库O，特征向量分别为Q=[X1，X2，…，XM]和O=[Y1，Y2，…，YN]，将两部分特征进行余弦相似性比较，得到前n个候选集余弦距离最小的排名列表，通过排名列表映射到图像库得到行人ID序号T=(t1，t2，…，tn)，则CMC曲线可以根据下列公式得出:

第二个评价标准是平均精度均值（mean Average Precision，mAP），它是平均精度（Average Precision，AP）的均值，可以把行人重识别看作一个目标检索问题，使用mAP 来度量。AP和mAP公式如下:

其中:r表示检索图像的序号；p(r)表示第r序号图像的比例；a（r）当r与待识别图像匹配时为1，否则为0；m表示与待识别图像匹配图像的个数。

其中Q表示待识别图像的个数。

3.2 参数分析

首先将数据集进行随机擦除处理，实验中将擦除的概率设置为不同值，同时将图片的尺寸转换为224 像素×224 像素大小，训练时设置图片的bachsize 是32，epoch 为60。实验中通过设定不同的随机擦除概率来检验行人重识别的精度。图3（a）为在Market1501 和DukeMTMC-reID 数据集上不同随机擦除的概率对Rank1的影响，可以看出当随机擦除概率为0.5时，Rank1 达到最优值。图3（b）为在Market1501 和DukeMTMC-reID 数据集上不同随机擦除的概率对mAP 的影响，可以看出当随机擦除概率为0.5时，mAP达到最优值。

图3 随机擦除概率对Rank1和mAP的影响Fig. 3 Effect of random erasure probability on Rank1 and mAP

3.3 实验结果及分析

本文将使用平均精度均值（mAP）和累积匹配特征两个指标来衡量实验得到模型的性能，Rank-k和mAP 值越大，说明重识别的准确度越高。

从表1 中看出将随机擦出数据增强和注意力机制网络应用到基础的ResNet50 深度网络中，精度提高较为明显。其中L1 表示随机擦除数据增强，L2 表示注意力机制。对于Market1501，通过基础网络ResNet50 添加随机擦除数据增强的行人重识别方式精度有一定的提升，而基础网络ResNet50添加注意力机制网络的实验结果也有较大提升，其中Rank1提升4 个百分点，mAP 提升3 个百分点。通过对基础网络ResNet50网络将随机擦除和注意力机制网络同时结合效果提升更为明显，其中Rank1 相较基础网络提升6 个百分点，mAP提升5个百分点左右。

对于DuKeMTMC-reID，将基础网络ResNet50 网络结合随机擦除和注意力机制可以得出Rank1 提升了12 个百分点左右，mAP提升了11个百分点左右。

通过对比实验可以得出随机擦除和注意力机制网络对行人重识别精度都有提升作用。

表1 Market1501和DukeMTMC-reID数据集下不同网络分支的实验结果单位：%Tab. 1 Experimental results of different network branches on Market1501 and DukeMTMC-reID datasets unit:%

表2、3 显示了本文的方法（Ours）与非深度学习行人重识别方法［11，13］和其他深度学习网络方法［14-17］在两个数据集上的结果进行比较，可得本研究采用的方法可以获得较好的效果。

在Market1501 数据集上，比TriNet［16］网络的深度学习方法Rank1高5个百分点左右；基于注意力机制的网络中AACN网络［9］比本研究的注意力机制网络在Rank1 低3 个百分点左右，在mAP 精度比本研究低4 个百分点左右；而在HAC 注意力机制精度比本研究在Rank1和mAP 略高1个百分点左右。

在DukeMTMC-reID 数据集上，在Rank1 上比传统的行人重识别方法LOMO+XQDA［13］和Bow+kissme［11］高40 个百分点左右，比生成对抗网络（Generative Adversarial Network，GAN）［17］高10 个百分点左右，比SVDnet［15］网络略高出1 个百分点左右；而Rank1 和mAP 相对于基础网络ResNet50 有很大的提升，特别是mAP有11%左右的提升，通过重新排序Re-Rank［18］方法有更大程度提升。基于注意力机制的网络中AACN 网络［9］比本研究的注意力机制网络在Rank1低1个百分点左右，在mAP 精度比本研究低1 个百分点左右；而在HAC 注意力机制精度比本研究在Rank1和mAP 略高1个百分点左右。

综上所述，随机擦除的方式进行数据增强和注意力机制网络结合的深度学习网络能够提取行人的显著特征，提高行人重识别的精度。

如图4，第一列为待识别的行人，右侧由左至右为相似度分数最高的10幅图片，即Rank-10，该识别结果中只有第一行的图像中排序第10位行人类别识别错误。

表2 Market1501数据集不同方法实验结果比较单位：%Tab. 2 Comparison of experimental results of different methods on dataset Market1501 unit:%

图4 Market501和DukeMTMC-reID两大数据集上重识别的Rank10结果示例Fig. 4 Rank10 re-identification result examples on datasets Market501 and DukeMTMC-reID

表3 DukeMTMC-reID数据集不同方法实验结果比较单位：%Tab. 3 Comparison of experimental results of different methods on dataset DukeMTMC-reID unit:%

4 结语

针对现实环境下行人重识别场景多变、光照、摄像机角度不同等问题，导致行人数据量不足，图片像素模糊，使得行人重识别精度不高，本文采用一种数据增强的方法，将行人图片以一定的概率进行擦除，从而生成同一个行人的不同图片，提高网络的鲁棒性；然后设计了一种注意力机制网络，将预训练的深度网络和注意力网络结合，提取更加显著的特征，因此能够提高行人重识别的精度。在两个大型的行人重识别数据集Market1501 和DukeMTMC-reID 上实验结果表明，行人重识别性能都有明显提升，超过很多方法。如何找到更好的方法提取更加显著特征以及在更多的数据集上进一步提升行人重识别的精度将是下一步工作。