APP下载

多属性融合网络的行人重识别方法

2020-03-19徐思敏胡士强

计算机工程与应用 2020年6期
关键词:识别率行人标签

徐思敏,胡士强

上海交通大学 航空航天学院,上海200240

1 引言

行人重识别是指给定行人的图像或一段视频序列,在另一个无重叠区域且视角不同的摄像机拍摄的行人数据库中识别出目标行人[1]。由于不同摄像头下同一行人的图像受到背景变化、光照变化、姿态变化以及遮挡等问题带来的影响,目前行人重识别的识别率还难以达到实际应用的效果。

目前行人重识别的研究主要围绕两个方面展开:(1)特征提取[2-6]:基于行人外观,寻找一个不受到光照和视角变化等影响的鲁棒可靠的特征来描述不同的行人;(2)度量学习[7-11]:获得一个新的度量空间来计算行人之间的相似度,从而区分出不同行人。在特征提取方面,根据不同的提取方法可以将其分成人工设计特征与深度网络提取特征两个阶段。随着大规模数据集的不断增加,基于卷积神经网络模型自动学习的深度特征在行人重识别上取得了良好的性能,大量的研究工作开始致力于设计一个有效的网络结构来提高行人重识别的准确率[12]。

现有的研究在基于单帧图像的行人重识别方面已经有了巨大的突破,而在基于视频方面,由于大规模视频数据集的缺乏,仍然面临许多挑战。目前基于视频的行人重识别方法主要采取最大/平均池化层来将图像序列整合成一个全局特征向量[13-14],也有不少研究者受到行为识别领域的启发,尝试采用时空特征来进行重识别[15]。尽管行人视频序列中可利用的信息更多,同时产生干扰的冗余信息也会随之增加。在为行人构建特征表达模型时,如何整合多帧图像从中提取出关键部分是这类问题中的难点。Karanam 等[16]直接对单一行人的每张图像提取特征后,对所有图像特征进行平均池化,但该方法易受到遮挡等问题的干扰,获得的行人特征中包含较多的噪声。为了解决部分帧图像中存在的遮挡,Liu 等[17]提出了一种质量评估网络,它根据每张图像的质量为其分配权重,从而整合出行人的最终特征表达。通过网络的学习与评估过程可以判断出图像中是否存在遮挡,但忽略了其中的遮挡是由哪一部分造成的。因此Song 等[18]在该网络的基础上进行了改进,将行人图像分成上、中、下三个部分,并分别将每部分输入到网络中进行评估和权重分配。通过突出行人每张图像中未被遮挡部分的重要性,削弱遮挡部分的信息,获得的行人特征表达在数据集上取得了显著的结果。由于在处理图像的过程中对其进行了分段处理,所以此方法对于数据集中每个行人在边界框中位置的对齐程度有一定的要求。在实际应用中,拍摄到的行人图像角度参差不齐,当不同行人的相同身体部位位于整张图像中的不同位置时,上述方法的性能将大大下降。本文在数据集中选取了一小部分行人,将他们的图像裁去底部(28 个像素)后再重新调整为原大小(128×64)。实验表明文献[18]中的方法在数据集iLIDS-VID 和PRID 2011 上的rank1的重识别率分别下降了22.4%和6.2%。

由此,现有的针对行人视频序列的处理方法仍旧存在待改进之处。一方面,根据行人身份标签训练深度神经网络提取的特征主要反映的是行人的整体外貌,在解决行人的相似细节特征和视角变化带来的干扰上,存在一定的局限性。另一方面,尽管现有的方法能在一定程度上解决图像部分遮挡的问题,但是当行人图像之间对齐程度较低时,便无法准确地检测出遮挡部位。

针对上述问题,本文提出了一种结合行人属性标签的方法,作为深度全局特征的补充信息来提高重识别的准确率。由于卷积神经网络中包含多个卷积层,每进行一次卷积操作都能学习到图像的某一局部特征。随着层数的增加,通过逐层传递整合学习到的特征表达能力也得到增强,因此具有较好的光照不变性与旋转不变性。本文中采用改进后的GoogleNet 网络,通过增加网络的宽度提取到更具有鲁棒性的特征,同时引入批量规范化层(batch normalization)在网络隐藏层中对每一块输入数据进行归一化处理,从而提升了网络的训练速度。近年来,属性识别(如年龄、性别等)在视频监控中的应用逐渐广泛起来。由神经网络训练得到的深度特征主要表征的是行人的整体特征,易忽略不同行人之间的相似细节。当两个行人的外在特征十分相近时,仅仅采用深度特征进行相似度比对无法有效的区分不同行人。而属性特征却能通过局部特征,如是否佩戴眼镜或书包等语义信息,作为整体信息的补充特征。即使当图像部分被遮挡,或底部存在缺失而导致的图像不对齐问题出现时,由于行人的显著属性不会受到影响,依旧能得到鲁棒可靠的特征。因此本文设计了一个多任务同时识别的网络,在原有的分段质量评估神经网络的基础上加入属性识别模块,有效结合了深度特征和属性特征。

为了验证本文所提方法的有效性,首先在视频数据集iLIDS-VID、PRID 2011 和MARS 上进行了人工属性标签的制作,实验结果表明本文所提方法在处理过后不对齐的数据集上取得更好的结果。

2 结合属性识别的网络模型

2.1 数据集的预处理

在实际应用中,大型公共场所安装的监控视频系统捕捉的行人画面因为视角不同而存在不同行人的身体部位不对齐的情况,如有的图像中未能拍摄到行人的腿部等。而现有研究通常直接采用标准数据集来验证方法的有效性,因此在对图像进行分割处理时直接按照身体比例来对整张图片进行分割就能达到较好的效果。考虑到当两个行人的相同身体部位在画面框中的位置存在差异时,采用统一分割标准则可能降低重识别的准确率,现有方法将无法较好地应用到实际中。因此本文尝试通过预处理的方法在标准数据集的基础上构建一个更贴合实际的数据集,对数据集中的部分行人图像进行裁剪,以增加样本之间的差异性和行人重识别的难度。

如图1 所示,第一行是裁剪之前标准数据集中的行人图像,第二行是经过与处理之后的行人图像。处理前图像大小为128×64 像素,在实验前首先随机挑选数据集中1/3 的行人,裁去选中行人所有图像的底部28 个像素,裁剪后的图像大小为100×64。由于在对图像通过卷积神经网络提取特征时需要保持所有图像大小一致,因此将裁减后的图像再次缩放为原大小。

经过该预处理步骤所得到的数据集更好地模拟了实际的监控视频中存在的不对齐问题,实验表明,文献[18]中所提的分段式局部质量评估方法在以数据集iLIDS-VID 和PRID 2011 为基础构建的新数据集上的rank1的重识别率分别下降了22.4%和6.2%。

为了提高在这个挑战性更强的数据集上的重识别效果,本文提出将属性特征融合到网络中来。尽管通过预处理后行人画面中存在部分身体部位的缺失,但行人的关键属性特征依旧存在。

2.2 网络结构

本文采用的网络的结构如图2 所示,该网络包含分段特征提取和身份属性预测两个部分。在训练的过程中,采用三元组损失来约束相同行人与不同行人之间的距离,使得相同行人之间的距离小于不同行人。首先将目标行人在不同摄像机下的图像序列及另一行人在任一摄像机下的图像序列输入到网络中,这三组图像将被分别输入到两个不同的完整卷积神经网络中进行训练。其中采用改进后的GoogleNet网络来对所有图像提取特征,采用另一个简单的两层卷积加两层池化的神经网络来训练,由全连接层输出得到图像的质量得分。通过计算每个行人所有图像特征向量与质量分数的加权总和,可以得到该行人的特征表示。接着网络将利用M+1个全连接层来同时预测该行人的身份标签和属性标签,其中M 是标注的属性种类数量。在测试阶段,采用pool5层提取的特征进行相似度比对。

该网络的总损失包括行人身份标签预测的损失、属性预测损失及三元组损失三个部分。将整个网络的输入定义为一个三元组,其中表示给定行人(anchor)在某一摄像机下的一组图像;表示该行人在另一摄像机下的一组图像,即正样本(positive);表示另一个行人在其中一个摄像机下的一组图像,即负样本(negative)。三元组损失可由下式计算得到:

假设数据集中包含K 个行人,每个行人含有n张图像,采用M 个属性对其进行描述。令xi表示行人的第i张图像的特征向量,di和分别表示该行人的身份标签和第j种属性的标签[19]。

图1 预处理前后图像对比

图2 网络结构图

当给定目标行人x 时,y 为目标行人的真实身份标签,k 为网络预测的身份标签,p(k)为该行人预测出属于标签k 的概率,其中k ∈1,2,…,K,则行人的身份标签分类损失可由下式计算:

其中,当k ≠y时,q(y)=1且q(k)=0。

本文所提方法在网络中引入M 个全连接层来预测属性标签,并采用与身份预测相似的方法计算softmax损失。令ym表示行人的真实属性标签,j表示网络预测的属性标签,p(j)为该行人预测出属于标签j的概率,则行人的属性标签分类损失可表示为:

其中m 表示为某一特定属性的类别数目,当j ≠ym时,q(ym)=1且q(j)=0。

因此整个网络的总损失可以计算如下[18]:

其中Lt表示三元组损失,LID和Latt分别表示身份标签和属性标签分类损失。λ是用于平衡身份标签损失与属性标签损失所占权重的参数,该参数的确定将在第3 章进行讨论。

2.3 质量评估模块

本文采用和文献[18]中相同的方法来评估行人每帧图像的质量。根据行人身体的关键部位,将每个行人图像按高度比例3∶2∶2 进行分割,如图3 所示。所有的图像输入到两个不同的模块中,其中一个模块是用来输出图像特征表示向量的完整的神经网络,另一个模块则用来为分割后图像的每一部分进行质量评估。输入的图像经过这两个模块后,得到的特征向量和评估后的分数均按照图像分割时的比例分成上、中、下三个部分。令S={I1,I2,…,In}表示给定行人的所有图像序列,fu(Ii)、fm(Ii)、fl(Ii)则分别表示该行人第i帧图像上、中、下三个部分的特征表示向量,μu(Ii),μm(Ii),μl(Ii)表示每个部分相应的质量评估分数,该分数按比例缩放至范围0到1之间。由此可以得到目标行人的最终特征表示如下[18]:

图3 行人图像按高度比3∶2∶2分割示意图

2.4 属性标注

本文引入属性标签来进一步约束行人间的距离,从而增强整个网络的灵活性。属性预测在人脸识别领域的应用相对来说较为广泛,因此近年来研究者们也开始将这一思路运用到行人重识别上来。Layne 等[20]采用SVM 训练出属性检测器来预测行人的15 种属性,如头发颜色、背包类型等。Li等[21]提出了一种深度学习框架可以同时识别多种行人属性。本文的主要思想受到文献[19]中网络结构的启发,采用CNN模型来同时学习行人的身份分类损失和属性分类损失。

为了使实验结果与文献[18]中的结果进行对比,本文采用数据集iLIDS-VID 和PRID 2011 进行测试,并为其进行属性标注。在属性标注的工作中均采用能够代表行人身份的长时间特征,而非仅在短时间内出现的特征(如打电话等)。在一定程度上,如果两张图像中包含同一行人,他们的属性特征应该是相互匹配的。

对于数据集iLIDS-VID,本文为其标注了26 种属性:性别(男/女)、年龄(儿童/青少年/成年/老年)、头发长度(长/短)、袖子长度(长/短)、下身衣服长度(长/短)、下身衣服类型(裤子/裙子)、是否佩戴帽子、是否拎包、是否携带书包、8 种上身衣服颜色(黑/白/红/黄/灰/蓝/绿/棕),以及9 种下身衣服颜色(黑/白/紫/黄/灰/蓝/绿/棕/红)。图4 为数据集iLIDS-VID 中一个行人的部分属性标签示例。

图4 数据集iLIDS-VID上的属性标签示例

对于数据集PRID 2011,本文为其标注了32 种属性:除了同数据集iLIDS-VID相同的前9种属性外,还增加了以下属性:是否携带手提包、是否携带衣物、是否佩戴墨镜、头发颜色深浅、11 种上身衣服颜色(白/黑/蓝/棕/绿/红/灰/粉/绿/橙/紫),以及8 种下身衣服颜色(黑/蓝/棕/灰/白/红/黄/橙)。

对于数据集MARS,本文为其标注了27 种属性:除了同数据集iLIDS-VID 相同的前9 种属性外,还增加了以下属性:是否携带手提包、8 种上身衣服颜色(黑/白/红/紫/黄/灰/蓝/绿)、9 种下身衣服颜色(黑/白/红/紫/黄/灰/蓝/绿/棕)。

3 实验结果

3.1 数据集与评估标准

PRID 2011[22]数据集中包含200 个行人,每个行人在不同的两个摄像机下各包含一段视频序列,其中每段视频的长度范围为5至675帧。本文实验中仅采用帧数大于27 的视频序列。由于该数据集在较为空旷的室外区域拍摄,画面背景干净,存在的遮挡情况相对较少。

iLIDS-VID[23]数据集中包含300 个行人的600 段视频序列,每段视频的长度范围为23至192帧。该数据集拍摄于机场航站楼的两个视角不同的摄像机,背景杂乱,存在较为严重的遮挡。

MARS 数据集[13]是基于图像的数据集Market-1501的扩展数据集,其中包括1 261个行人,每个行人分别被大学校园内的6 个无重叠视域的摄像头拍摄到。在采用该数据集进行实验室,采用文献[13]中相同的处理方法随机挑选其中两个摄像头下的视频序列,选择其中一个摄像头作为参考集,另一个作为测试集。

评估标准:本文采取和文献[18]中相同的设置从而便于结果的比较。在数据集的分配上,选取一半的行人图像用来进行网络的训练,另一半行人用于结果的测试。考虑到两个数据集的规模相对较小,实验将重复进行10 次并取其平均结果。在行人重识别的任务中,采用CMC曲线来表示重识别的准确率。

3.2 参数与属性分析

参数确定:第2 章中提到λ是用于平衡身份分类损失和属性分类损失的参数,λ的值越小,代表整个网络的训练过程中行人的身份分类损失占的比例越小。实验过程中,随机选取10 次实验中的一次进行验证,令λ的值从3 取到15 来比较不同的λ下重识别的准确率大小。实验结果表明当λ=10时,准确率最高。图5 中展示了不同λ取值下的结果。

图5 不同λ值下行人重识别rank1的识别率

属性分析:网络训练开始前,首先要验证选取的属性特征是否具有代表性,能够有效区分出不同行人。假设每个行人的属性均能完全预测正确,并且仅依靠属性来进行重识别的情况下(即λ=0),得到的CMC 曲线如图6 所示。另外,实验中还测试了随机选取10 个或20个属性时的重识别率。图中结果表明:(1)进行重识别时利用的属性种类越多,得到的准确率越高;(2)当标注的所有属性均用于重识别时,在两个数据集上能够分别取得65.33%和81%的识别率,证实了标注的属性的可靠性。

图6 属性预测准确时的结果

3.3 相关方法比较

本文所提方法旨在经过处理后的数据集上提升行人重识别的准确率。为了验证网络的有效性,所得实验结果将与两种基本网络下的训练结果进行对比。网络1(Baseline 1,B1)在训练好的GoogLeNet[24]上进行微调,将最后一层全连接层的神经元个数设定为被用于训练的行人数。测试过程中为参考集和测试集中每张图片提取由pool5层得到的1 024维的特征向量,再计算向量间的欧式距离。网络2(Baseline 2,B2)则直接采用文献[18]中仅对图片进行分段质量评估的方法。

表1 和表2 为在数据集iLIDS-VID 和PRID 2011 上的实验评估的结果。数据集中的部分图像经过底部裁剪处理后增加了行人重识别的难度,因此三种方法相比直接在标准数据集上应用的结果都有所下降。但是本文所提方法受到的影响较小,比另外两种方法的准确率高。在数据集iLIDS-VID 上,B1 在rank1 上的准确率为50.7%,B2 由于增加了质量评估模块,比B1 的结果增高了4%。文中所提方法结合了属性局部特征,在rank1上的准确率能够达到63.3%,比B1 和B2 的结果分别增加了12.6%和8.6%。另外,在数据集PRID 2011 上,对比实验结果表明本文所提方法比B1 和B2 的准确率分别增加了10.0%和4.4%。

表1 数据集iLIDS-VID上相关方法的识别率%

表2 数据集PRID 2011上相关方法的识别率%

由于文献[18]中未采用数据集MARS 进行实验,因此本文仅对所提方法在该数据集上得到的结果与现有其他方法所得结果进行了对比。由表中行人重识别的准确率可以看出,尽管本文对数据集进行了预处理工作,裁剪掉了部分行人的底部,增大了行人重识别的难度,本文所提方法依旧比其他方法的识别率高。表3 表明,在数据集MARS上,本文所提方法在rank1的准确率上比现有方法提高了4.8%。表4 和表5 表明,在数据集iLIDS-VID 上rank 1的准确率提高了5.3%,而在数据集PRID2011上准确率提高了9.6%。该结果表明了加入属性特征可以有效提高行人重识别的效果。

4 结束语

本文提出了一种将基于图像的局部区域质量评估和属性识别相结合的网络结构,能够同时学习图像的全局特征和局部特征。该方法在部分数据集图像由于缺失而造成的不对齐问题上依旧具有可靠性,可以解决仅利用分段评估网络进行行人重识别时的局限性。为了证实本文所提方法的有效性,分别对三个视频数据集中的行人进行标注。实验结果表明,引入属性特征后的网络能够提升行人重识别的准确率。在利用属性特征进行重识别的方法中,仍然存在许多可继续改进的地方,如选择更具有代表性的属性,在网络训练时为其分配较大的权重等,对此将后续再展开研究。

表4 数据集iLIDS-VID上现有方法的识别率%

表5 数据集PRID2011上现有方法的识别率 %

猜你喜欢

识别率行人标签
毒舌出没,行人避让
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
路不为寻找者而设
无惧标签 Alfa Romeo Giulia 200HP
提升高速公路MTC二次抓拍车牌识别率方案研究
不害怕撕掉标签的人,都活出了真正的漂亮
我是行人
曝光闯红灯行人值得借鉴
高速公路机电日常维护中车牌识别率分析系统的应用