基于数据增强和多层反向传播网络的行人重识别研究
2021-02-19罗锋
摘 要:行人重识别在模式识别中占据很大的比重,这项技术的目的是识别出不同摄像机在不同时间且处于不同环境下的行人是否为相同身份。为了更好地表达行人特征,提出了一种数据增强和多层反向传播网络的方法(DAML)。文章认为样本图像类型的稀少和深度网络传播过程中数据丢失是导致识别率低的重要因素。我们希望增加图像样本数量,让深度网络中的每一层都進行回传,以提高识别率。在Market-1501、CUHK03和DukeMTMC-reID等主流数据集上,我们的方法取得了较好的效果。
关键词:行人重识别;数据增强;多层反向传播;特征
中图分类号:TP391.4 文献标识码:A文章编号:2096-4706(2021)13-0170-03
Pedestrian Re-Identification Research Based On Data Enhancement and Multiple Layer Back Propagation Network
LUO Feng
(Aviation Maintenance Sergeant School, PLA Air Force Engineering University, Xinyang 464000, China)
Abstract: Pedestrian re-identification occupies a large proportion in pattern recognition. The purpose of this technology is to identify whether pedestrians under different cameras at different times and in different environments have the same identity. In order to express the characteristics of pedestrians better, a data augmentation and multiple layer back propagation network method (DAML) is proposed. It is considered that the scarcity of sample image types and data loss in the process of deep network propagation are important factors leading to low recognition rate. We hope to increase the number of image samples and let each layer in the deep network pass back to improve the recognition rate. Our method has achieved good effects on mainstream data sets such as Market-1501, CUHK03 and DukeMTMC-reID.
Keywords: pedestrian re-identification; data enhancement; multiple layer back propagation; feature
0 引 言
行人重识别是一种使用计算机视觉技术来评估特定行人是否出现在图像或视频序列中的技术,被广泛认为是图像检索的子问题。具体来说,提供一个查询人物图像,然后我们希望匹配在人物图像候选集中相同的人物图像。然而,只要使用检测器,误差是不可避免的。常见的影响因素有视角、遮挡物、照明条件以及人物姿势的变化,它们使行人重识别问题成为一个非常具有挑战性的课题。因此,我们提出:(1)一种在不改变标签数量的情况下进行数据增强的方法,并将其应用于人的重新识别,以获得鲁棒性更强的特征,从而提高识别率。(2)一种多层反向传播网络的方法来连接深度模型各层的特征,该方法关注不同层之间的特征信息,以提高精度。
1 相关方法
数据扩充和特征表示是行人重识别技术的两个重要组成部分。由于视角、光照、遮挡和姿势的变化,行人特征很容易模糊,数据增强是提高识别率的首选方法。
在实践中[1],介绍了各种常用的数据增强方法,包括传统的旋转、翻转、缩放、平移、对比度、噪声以及Gan数据生成等方法。作者提出了这种方法,并取得了一定的成效。Zhun Zhong等人在文献[2]中提出了一种在图像中随机一个区域用噪声对其进行遮挡的方法,该遮挡物可以是黑色块、灰色块或随机噪声等。在文献[3]中,作者设计了一种名为CamStyle的方法来消除相机风格的差异。使用CycleGAN可以将标记的训练图像样式化到每个摄影机,并与原始训练样本组合,使得训练集完成增强。除了数据扩充外,加强网络模型也是一种改善特征表示的方法。例如,MGN[4]是一个多分支深度网络,通过将图像分割成多个条带,得到多粒度局部特征表示[5]。提出了一种名为SPReID的方法,通过预先训练好的行人语义分析网络模型获取人物图像的每个语义部分,提取每个部分的局部特征进行比对。
2 设计方法
在本节中,我们将详细介绍所提出的方法。我们将在第一小节中描述图片的数据增强。在第二小节中,我们将描述多层反向传播网络的体系结构。
2.1 数据增强
在深度学习中,我们使用数据集微调深度网络模型时,经常会遇到一些因为数据严重不足导致结果不理想的情况,原因是数据样本较小时,很容易导致过度拟合。此外,在收集数据时同样也存在一定的挑战。例如:(1)我们收集的数据只是真实时空分布的一部分,与ImageNet[6]拥有125万张图像相比,行人重识别数据集就显得极为稀少了。(2)大部分行人重识别数据集都是在校园内采集的,由于涉及个人隐私和肖像权,我们很难在不同的时间和环境收集更多的人物图像。
因此,我们建议在不改变标签数量的情况下增加数据,并将其应用于行人重识别中。我们所提数据增强的流程图如图1所示。我们可以看到,输入图像是随机选择的,按照一定的概率选择原始图像或者转换成另一种类型的图像。其中,原始图像保证了数据的真实性,翻转图像增加了视角变化中的样本,高斯噪声增加了样本的多样性,颜色抖动增加了不同光照变化中的样本,随机擦除增加了遮挡对象中的样本。图中p代表选取不同样本的概率,p1+p2+p3+p4+p5=1.0,我们通过大量的对比实验,证明概率按照p1=0.4、p2=0.1、p3=0.1、p4=0.1、p5=0.3这样分配时效果最好。
2.2 多层反向传播网络
2.2.1 网络体系结构
众所周知,几乎所有深度神经网络从上一层传播到下一层的过程中,由于图像特征尺寸的减小,一些细节特征不可避免地会丢失。因此,我们提出了多层反向传播网络,它力求通过中间节点的反向传播,充分利用网络传输过程中丢失的特征信息。我们的多层反向传播网络是在原始DenseNet121[7]网络基础上实现的。
多层反向传播网络的结构图如图2所示。首先,我们保持原始DenseNet121网络模型的前四层不变,因为DenseNet121网络模型中前几层的卷积核相对较小,全局图像特征很少出现在网络模型的前几层内。随后我们将Denseblock块和transition层视为一个整体,并将其定义为Dense-conv层。我们从Dense-conv2层开始连接MaxPooling,然后将特征向量划分为两个子流。其中一个子流连接全连接层后用于计算Softmax损失,另一个子流先用Conv层进行处理,减小特征向量尺寸后用于计算Tripletloss损失,我们将这一套设计看成一个整体并将其定义为layer1。随后,我们在Dense-conv2层的末尾添加Dense-conv3层,然后重复前面的操作并将其定义为layer2。按照此设计一直到第4层。最后,我们将所有降维处理后的特征向量连接起来作为最终的特征表示。
2.2.2 损失函数
为了提高多层反向传播网络学习特征的能力,我们参考文献[4]使用Softmax损失和Tripletloss损失作为训练阶段的损失函数。这两个损失函数被广泛用于解决各种分类问题。
在网络中,我们在每个layer层的第一次分流MaxPooling之后直接使用Softmax损失进行人员分类,定义为:
其中Wk表示k类的权重向量,我们用N代表mini-batch,C是用來表示训练集中的类数。而在每个layer层的第二次分流中,我们用一个卷积减少特征向量的尺寸后使用Tripletloss损失来提高排序性能:
其中fα(i)、fp(i)、fn(i)分别对应的是锚特征、正样本以及负样本的特征。此外,p代表行人身份的种类,K代表在mini-batch中每个身份用有图片的数量,我们设定p=1,…,K;n=1,…,K;j=1,…,P,同时满足j≠i,α表示最小间隔,它的作用是用来控制内部之间的差异,[*]+是ReLU的激活函数。
我们这样设置不仅考虑了大粒度的特征向量也考虑了小粒度的特征向量,从粗到细,两者相辅相成,因此这种组合设置具有很强的收敛性。
3 实验
我们在三大主流行人重识别数据集上进行了实验,包括Market-1501[8]、CUHK03[9]和DukeMTMC-reID[10]。
我们首先使用所提出DAML方法在Market-1501数据集上进行实验。实验结果如表1前两列所示,我们可以看到我们的方法DAML取得了良好的结果,Rank-1=93.8%,mAP=91.1%。与排名第二的方法相比,我们的方法分别在Rank-1和mAP上高出1.1%和8.6%。由此说明所提出的DAML方法可以在Market-1501数据集上提高行人重识别的性能。
接着,在具有挑战性的DukeMTMC-reID数据集上,我们将DAML方法与几种最先进的方法进行了比较。实验结果在表1三、四列展示,我们的方法DAML达到了Rank-1=89.3%,mAP=85.6%,与其他方法相比我们的方法有小幅度的提升,实验证明DAML的方法在DukeMTMC-reID数据集上是真实可行的。最后,我们使用DAML方法对新训练/测试协议下的CUHK03数据集进行了实验。实验结果在表1的后四列所示,我们可以看到,我们的方法DAML在Labeled中达到了Rank-1=82.3%、mAP=81.2%。此外,我们在Detected中达到了Rank-1=76.4%和mAP=75.6%。与其他方法相比,我们的DAML方法取得了极佳的效果。
4 结 论
深度学习是行人重识别的主流研究方向。本文正是针对这一研究方向,创新了两种真实可行的研究方法。第一种是利用数据增强技术增加训练样本的多样性,第二种是在原有DenseNet121的基础上引入多层反向传播网络,增加人物特征的鲁棒性,进一步提高了实验精度。我们在三个大型数据集上取得了良好的结果,并且实验表明我们的DAML方法是真实有效的。
参考文献:
[1] PEREZ L,WANG J. The Effectiveness of Data Augmentation in Image Classification using DeepLearning [J/OL].arXiv:1712.04621 [cs.CV].(2017-12-13).https://arxiv.org/abs/1712.04621.
[2] ZHONG Z,ZHENG L,KANG G L,et al. Random Erasing Data Augmentation [J/OL].arXiv:1708.04896 [cs.CV].(2017-11-16).https://arxiv.org/abs/1708.04896v2.
[3] ZHONG Z,ZHENG L,ZENG Z D,et al. Camera Style Adaptation for Person Re-identification [J/OL].arXiv:1711.10295 [cs.CV].(2017-11-28).https://arxiv.org/abs/1711.10295v2.
[4] WANG G S,YUAN Y F,CHEN X,et al.Learning Discriminative Features with Multiple Granularities for Person Re-Identification [J/OL].arXiv:1804.01438 [cs.CV].(2018-04-04).https://arxiv.org/abs/1804.01438
[5] KALAYEH M M,Basaran E,Muhittin G,et al. GokmenHuman Semantic Parsing for Person Re-identification [J/OL].arXiv:1804.00216 [cs.CV].(2018-05-31).https://arxiv.org/abs/1804.00216.
[6] JIA D,DONG W,SOCHER R,et al.ImageNet:A large-scale hierarchical image database [C]//2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami:IEEE,2009:248-255.
[7] HUANG G,LIU Z,MAATEN L V D,et al.Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE,2017:2261-2269.
[8] LI W,ZHAO R,XIAO T,et al. DeepReID:Deep Filter Pairing Neural Network for Person Re-identification [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:152-159.
[9] ZHENG L,SHEN L Y,TIAN L,et al. Scalable Person Re-identification:A Benchmark [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:1116-1124.
[10] ZHENG Z D,ZHENG L,YANG Y. Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in Vitro [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:2017,3774-3782.
作者簡介:罗锋(1993—),男,汉族,河南光山人,助教,硕士,研究方向:人工智能、模式识别。