基于支持样本间接式的行人再识别
2017-12-16黄启恒
孙 锐 方 蔚 黄启恒 高 隽
基于支持样本间接式的行人再识别
孙 锐①②方 蔚*①②黄启恒①②高 隽①
①(合肥工业大学计算机与信息学院 合肥 230009)②(工业安全与应急技术安徽省重点实验室 合肥 230009)
行人再识别就是在无重叠视域多摄像机监控系统中,识别出相同的行人。针对来自于不同摄像头行人图片存在着视角、光照和尺度变化的问题。该文提出了基于支持样本间接式匹配的行人再识别方法。该算法首先通过聚类的方法分别提取不同摄像头下的支持样本,当要对来自不同摄像头的行人进行匹配时,在距离测度的基础上利用支持样本分别判别出其所在摄像头下的行人类别,通过类别的对比判断是否为同一行人。该方法避免了不同摄像头下行人图片直接匹配,有效解决不同摄像头带来的视角、光照和尺度问题。实验结果表明该文的算法相比一些经典算法识别率有一定的提高,并且在数据集VIPeR, CAVIAR4ReID和CUHK01上,Rank1分别达到了43.60%, 41.36%, 43.82%。
行人再识别;支持样本;间接匹配
1 引言
特征表示法是提取出图片中目标特征,通过该特征可以有效地区分不同的行人。特征主要集中颜色、纹理、形状等方面,一般将提取的若干特征进行串联,得到更具鲁棒性的特征。文献[11]提出了局部特征融合的方法来表示目标,代替了传统的手工设计特征的方法,首先定义一个特征空间,然后通过机器学习的方法学习到一个有效的特征。文献[12]利用颜色特征,通过获得颜色空间的统计特征来进行行人再识别。文献[13]提出了基于外观的行人再识别方法,提取的特征主要包括整体的颜色信息,稳定区域的颜色分布以及重复度高的结构区域特征,所有的这些特征都提取身体的不同部位,利用对称性和非对称性的原则方法进行加权。文献[14]是在Fisher Vector基础上做出了改进,首先将图片的局部特征转变成Fisher Vector的形式,再将所有的局部特征合并成全局特征。文献[15]提出一种局部最大特征(LOcal Maximal Occurrence, LOMO),通过对图片中水平方向局部特征的分析,最大化后的特征有效解决视角变化问题。
距离测度学习的方式在行人再识别中有着广泛的应用。行人再识别是一个很复杂的问题,数据集规模非常大时,仅仅依靠特征很难识别出查询的目标。此时需要结合距离测度学习的方法来进行行人目标的判别。文献[16]指出传统的方法当遇到大规模的数据集时会出现会花费大量的时间做无意义的工作,如对所有的数据进行标记往往是不切实际的,该文在统计推断的基础上,通过等价约束学习得到一个简单并有效的距离度量矩阵。文献[17]将行人再识别看做一个排序问题,并且学习得到一个子空间,在该子空间进行排序所得正确匹配率比直接距离度量要高的多。文献[18]在KISSME测度学习的基础上做了改进,提出了RS-KISS算法,针对过小的训练集KISSME表现的不稳定性,通过平滑和正则化相结合的方法,计算出更有效的协方差矩阵。
深度学习近些年在计算机视觉方面取得很大的突破,因此不少学者对深度学习在行人再识别中的应用进行了研究。文献[19]提出了6层的FPNN神经网络,有效地解决了光照、姿态变化以及遮挡等问题。文献[20]提出深层的卷积结构,能够自动学习行人目标的特征以及相匹配的相似性测度函数。但深度学习需要非常大的训练数据,训练时间长,导致了实时性比较差,对特定的问题需要搭建相应的模型,参数的调优有较大的主观性。
为了能够很好地解决光照,视角的问题,同时又避免大量样本的训练时间。基于支持样本的间接匹配行人再识别方法,可以很好地解决这些问题。本文的算法首先通过聚类的方法分别提取不同摄像头下的支持样本,原始的数据集中正样本很少,各个行人图片之间的冗余度也比较高,支持样本的提取可以有效地解决这些问题。当对来自两个不同摄像头下的行人进行匹配时,我们在支持样本的基础上利用距离度量的方法分别计算出两个行人的类别,通过类别的对比判断是否为同一个行人。在行人匹配的过程当中,不同摄像头下的行人图片并没有直接进行匹配,从而有效避免不同摄像头下光照变化,视角变化和尺度变化所带来的问题。通过支持样本的学习,时间上有较大的提升。
2 行人再识别中的问题及其影响
2.1 行人再识别应用场景及问题
行人再识别就是对来自无重叠区域监控摄像头中的行人进行匹配,如图1所示。摄像头A和摄像头B是位于不同地点的摄像头,行人再识别就是将摄像头A中的行人与摄像头B中的行人进行匹配,匹配出同一个行人目标。由于摄像头A和摄像头B所处位置及配置的差异,造成了行人再识别过程中光照、视角和尺度变化等问题,如图2所示。这些变化的存在使得行人再识别存在很多的困难。
2.2 行人再识别问题带来的影响
当对行人进行匹配时,如图1中的箭头所示,传统行人再识别方法首先提取图片的特征,然后基于距离测度度量的基础上计算特征之间的距离,最后判别是否为同一个行人。可以发现在匹配的过程中,传统的方法是将来自不同摄像头的行人图片直接进行匹配,由于不同摄像头之间存在光照、视角和尺度变化等问题,使得提取的行人目标特征未必是有效的特征,基于距离度量的方法很难计算出正确的距离。也即是说很容易造成类间距离往往大于类内距离。
图1 行人再识别示意图
图2 不同摄像头下行人成像时的视角,光照和尺寸变化
不少学者为了解决这个问题不断改进特征的表示和距离的度量方法,然而这些工作有时未必能够到达预期的效果。通过仔细观察我们可以发现,同一个摄像头下的行人的视角,光照以及尺度都非常接近,如图1所示。我们是否能把不同摄像头下的行人再识别问题转换成在同一摄像头下相关操作和计算,无需直接匹配不同摄像头的行人,就可以达到提升行人再识别性能的目的。于是本文提出了基于支持样本间接匹配式的行人再识别方法,可以有效地避免这些问题带来的影响,实验结果表明具有很好的鲁棒性。
3 间接匹配式的行人再识别
3.1 特征提取
目标的颜色可以在行人再识别中提供有效的信息,一定程度上帮助我们快速、准确地检测出相同的行人[21]。传统的SIFT方法可以检测到图片中的兴趣点,该算法检测到的兴趣点不仅具有空间稳定性,而且有尺度不变性和旋转不变性。基于这些理论,本文利用颜色直方图和SIFT相结合的特征。
(1)密集颜色直方图: 同RGB颜色空间相比,LAB是一种不常用的颜色空间,但LAB是一种基于生理特征的颜色系统,即是用数字化的方法来描述人的视觉感应。将每一个行人图片分割成一系列的局部小块,对于每一个小块分别提取其LAB颜色通道直方图。为了能够与SIFT特征相结合,所有的直方图都要进行L2标准化。
(2)密集的SIFT特征: SIFT特征可以作为颜色直方图特征的互补特征。与颜色直方图特征相似,将行人图片分割成一系列小块,然后通过采样挑选出一部分图片小块。最后分别提取采样后的小块SIFT特征,得到的特征为128维。同样SIFT特征也要进行L2标准化。
(3)最终特征: 对于每一小块,将其颜色直方图特征和SIFT特征相级联得到最后的多维特征。本文实验当中参数的设置如下:小块的大小为10×10像素,采样的步长为4像素。L, A, B通道颜色直方图分别设置为32维。对于SIFT特征, L, A, B通道都要进行提取,最终每小块的SIFT特征大小为128×3维。最终,我们所得到的每一小块的特征大小是32×3+128×3=480。本文将最后的特征标记为dColorSIFT,如图3所示。
3.2 间接特征匹配
间接特征匹配并不表示不进行特征匹配。对于待检测的两张行人图片,不直接进行特征匹配,而是将其分别与同一摄像头下的其他行人图片进行匹配(同一摄像头下的视角,光照和尺寸比较接近),如图1所示。
图3 dColorSIFT特征提取示意图
对于每一小块在搜索域内寻找最相似的小块,利用式(5)计算相似值,作为最后小块的相似性的得分。将图片中所有小块相似性得分相加得到整张图片的相似性得分,最后利用该得分寻找到最匹配的行人图片。
由分析可知在间接匹配行人再识别方法中,对于来自两个不同摄像头行人目标在匹配过程中,没有直接对其特征进行匹配,而是利用支持样本间接式的行人目标匹配。而所有的行人再识别中存在的问题都是源自于不同摄像头之间的差异,直接式的行人目标匹配很难解决这些问题,而间接式行人目标匹配的方法有效避免了这些问题。
4 支持样本的选取
支持样本其实就是某个数据集上具有代表性的样本集合。间接式的行人再识别过程中,需要利用到支持样本,而支持样本需要用到聚类的方法从样本数据集中学习得到,在本文的实验中所有的支持样本都是在训练数据集上学习得到。
4.1 行人特征相似性度量
图4间接匹配行人再识别
4.2 支持样本的选取
5 本文算法的具体步骤
步骤1 输入摄像头A和摄像头B的行人目标数据库cam_a和cam_b,将它们都分成两部分,分别用于训练和测试。结果表示为cam_a1,cam_a2和cam_b1,cam_b2。其中cam_a1和cam_b1用于训练,cam_a2和cam_b2用于测试。
6 实验
6.1 不同公共实验集上实验对比
本文算法选择在 VIPeR数据集、CUHK01[22]数据集、CAVIAR4ReID[15]数据集上进行实验。
6.1.1 VIPeR数据集实验结果 VIPeR数据集是由873对行人组成,如图5所示。由于本文实验的特殊性,需先从VIPeR的cam_a的873张行人图片当中随机挑选436张作为训练集,同时从cam_b选出对应的436张也作为训练集,余下的437张图片作为测试集。然后在此基础上学习得到训练集的支持样本,利用学习得到的支持样本对测试集来进行匹配。
最后将本文算法在VIPeR数据库上的实验结果统计在表1中,并且比较了本文算法与经典算法LOMO+XQDA[23], kLFDA[24], MFA[24], SVMML[16], eSDC_ocsvm[25], KISSME[26], eSDC_knn[25], rPCCA[24], PCCA[27], RDC[28], FT_JSTL+DGD[26]的Rank排名对比。
通过对比,本文算法相比较以往经典算法在准确率上有着明显的提升,尤其是Rank1,相比于第2名LOMO+XQDA提高了约6.60%。Rank1对于实际的行人再识别技术有着重要的作用,有利于快速准确地调选出寻找的目标行人。
表1 VIPeR上Rank准确率对比(%)
6.1.2 CUHK01数据集实验结果 CUHK01一共包含971个行人,每个行人有4张图片,如图6所示。
由图6可以看出同一个行人的4张图片中,前两张是摄像头A拍下的图片,分别为a1和a2,后两张是摄像头B拍下的图片,分别为b1和b2,通过观察a1和a2视角和光照很相近,然而摄像头A和摄像头B之间的视角和光照差别很大。假如现在要验证a2和b2是否为同一个行人,传统的方法是直接通过匹配a2和b2的特征,由于视角和光照的差异性,很难匹配成功。基于本文的算法,为了判别a2和b2是否为同一行人,我们分别学习得到两个摄像头支持样本,利用支持样本去判别剩下的a2和b2的类别,通过类别的对比判断是否为同一行人。为了验证本文算法的有效性,我们分别与经典算法MidLevel[29], MFA, kLFDA, SVMML, PCCA,LFDA[30], KISSME进行了对比。
图5 VIPeR数据库部分行人图片对
图6 CUHK01数据库部分行人图片对
表2 CUHK01上Rank准确率对比(%)
6.1.3 CAVIAR4ReID数据集实验结果 CAVIAR 4ReID数据库是采集于商场,所有的图片来自于两个摄像头,一共有72个行人,如图7所示。对于行人尺寸上的变化是前面两个数据集没有涉及的,该数据集可以很好地验证本文算法对行人目标尺寸上的变化有着很好的鲁棒性。
我们从每一行人图片中随机挑选出分别来自不同的摄像头两张图片,图片对在尺寸上有着明显的差异。将本文算法与经典算法MFA, kLFDA, PCCA, SVMML进行比较,实验结果统计在表格3中。
表3 CAVIAR4ReID上Rank准确率对比(%)
实验结果表明本文算法的准确率有着显著的提高,不同摄像头下行人尺寸和光照的变化带来的影响,传统的算法无法有效地避免,本文算法在不同摄像头下无直接特征匹配,很好地解决了尺度变化等问题。
6.2 权值t的不同对算法性能的影响
在支持样本的选择过程当中,提到了参数权值,该参数对支持样本选择的结果有着至关重要的作用。我们对不同值进行了实验,实验结果如图8所示。
实验结果表明取在0.3~0.5之间比较合适,这样选择的支持样本最大可能涵盖该摄像头下多种行人特征,在一定程度上减少了相似性极高的行人样本对后面的误差产生错误的分类。
图7 CAVIAR4ReID数据库部分行人图片对
图8 在3个数据库上不同t的影响
7 结束语
基于支持样本间接式的行人再识别首先分别提取不同摄像头下的支持样本,然后用该支持样本分别判别同一摄像头下的行人类别,通过类别的对比判断是否为同一行人。本文实验中涉及到的3个数据集,存在着视角、光照以及尺度的变化,通过对实验结果的对比和分析,本文的算法较以往的方法有着明显的改进。
[1] ZHAO R, OUYANG W L, WANG X G,. Person Re-identification by Salience Matching[C]. IEEE International Conference on Computer Vision, Sydney, Australia, 2013: 2528-2535. doi: 10.1109/ICCV.2013.314.
[2] DORETTO G, SEBATIAN T, TU P,. Appearance- based person re-identification in camera networks: Problem overview and current approaches[J]., 2011, 2(2): 127-151. doi: 10.1007/s12652-010-0034-y.
[3] 齐美彬, 顫胜顺, 王运侠, 等. 基于多特征子空间与核学习的行人再识别[J]. 自动化学报, 2016, 42(2): 299-308. doi: 10.16383/i.aas.2016.c150344.
QI Meibin, TAN Shengshun, WANG Yunxia,. Multi- feature subspace and kernel learning for person re- identification[J]., 2016, 42(2): 299-308. doi: 10.16383/i.aas.2016.c150344.
[4] ZHAO Rui, OUYANG Wanli, and WANG Xiaogang. Person re-identification by saliency learning[J]., 2017, 39(2): 356-370. doi: 10.1109/TPAMI.2016.2544310.
[5] XIAO Tong, LI Hongsheng, OUYANG Wanli,Recurrent convolutional network for vidieo-baesd person re-identification[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, US, 2016: 1325-1334. doi: 10.1109/CVPR.2016.148.
[6] SUN Chong, WANG Dong, and LU Huchaun. Person re-identification via distance metric learning with latent variables[J].,2017, 26(1): 23-34. doi: 10.1109/TIP.2016.2619261.
[7] SATHISH P K and BALAJI S. Person re-identification using part based hybrid descriptor[C]. 2016 Second International Conference onCognitive Computing and Information Processing, Mysuru, India, 2016: 1-4. doi: 10.1109/CCIP. 2016.7802849.
[8] GAO Bin, ZENG Mingyong, and XU Shiming. Person re- identtification with discriminatively trained viewpoint invariant orthogonal dictionaries[J].2016, 52(23): 1914-1916. doi: 10.1049/el.2016.2639.
[9] ZHENG Liang, WANG Shengjin, TIAN Lu,Scalar person re-identification: A benchmark[C]. IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 1116-1124. doi: 10.1109/ICCV.2015.133.
[10] WANG Taiqing, GONG Shaogang, ZHU Xiatian,Person re-identification by discriminative selection in video ranking[J]., 2016, 38(12): 2501-2514. doi: 10.1109/ TPAMI.2016.2522418.
[11] GRAY D and TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]. European Conference on Computer Vision, Marseille France, 2008: 262-275. doi: 10.1007/978-3-540-88682-2_21.
[12] YANG Y, YANG J, YAN J,Salientcolor names for person re-identification[C]. European Conference on Computer Vision, Zurich, 2014: 536-550. doi: 10.1007/978- 3-319-10590-1_35.
[13] FARENZENA M, BAZZANI L, PERINA A,.Person re-identification by symmetry-driven accumulation of local features[C]. 2010 IEEE Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010: 2360-2367. doi: 10.1109/CVPR.2010.5539936.
[14] MA B, SU Y, and JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. European Conference on Computer Vision, Firence, Italy, 2012: 413-422. doi: 10.1007/978-3-642-33863-2_41.
[15] LIAO S C, HU Y, ZHU X Y,Person re-identification by local maximal occurrence representation and metric learning [C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 2015: 2197-2206. doi: 10.1109/CVPR.2015. 7298832.
[16] KOSTINGER M, HIRZER M, WOHLHART P,Large scale metric learning from equivalence constraints[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Rhode, Island, 2012: 2288-2295. doi: 10.1109/ CVPR.2012.6247939.
[17] PROSSER B, ZHNEG W S, GONG S,Person reidentification by support vector ranking[C]. British Machine Vision Conference, Aberystwyth, UK, 2010: 21.1-21.11. doi: 10.5244/C.24.21.
[18] TAO D, JIN L, WANG Y,. Person reidentification by regularized smoothing kiss metric learning[J]., 2013,23(10): 1675-1685. doi: 10.1109/ TCSVT.2013.225413.
[19] AHMED E, JONES M, and MARKS T K. An improved deep learning architecture for person re-identification[C]. 2015 IEEE Conference on Computer Visionand Pattern Recognition, Boston, USA, 2015: 3908-3916. doi: 10.1109/ CVPR.2015.7299016.
[20] LI W, ZHAO R, XIAO T,DeepReID: Deep filter pairing neural network for person re-identification[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 152-159. doi: 10.1109/ CVPR.2014.27.
[21] ZHENG Liang, WANG Shenjin, WANG Jingdong,Accurate image search with multi-scalar contextual evidences [J]., 2016, 120(1): 1-13. doi: 10.1007/s11263-016-0889-2.
[22] CHENG D S, CRISTANI M, STOPPA M,Custom pictorial structures for re-identification[C]. British Machine Vision Conference, Scotland, UK, 2011: 68.1-68.11. doi: 10.5244/C.25.68.
[23] LI Z, CHANG S Y, LIANG F,Learning locally adaptive decision functions for person verification[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition, Portland, USA, 2013: 3610-3617. doi: 10.1109/CVPR.2013. 463.
[24] ZHAO R, OUYANG W L, and WANG X G. Unsupervised salience learning for person re-identification[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition, Portland, USA, 2013: 3586-3593. doi: 10.1109/CVPR.2013. 460.
[25] ZHENG W S, GONG S G, and XIANG T. Person re-identification by probabilistic relative distance comparison [C]. 2011 IEEE Conference on Computer Vision and Pattern Recognition. Conneticut, USA, 2011: 649-656. doi: 10.1109/ CVPR.2011.5995598.
[26] XIAO Tong, LI Hongsheng, OUYANG wanly,.Learning deep feature representations with domain guided dropout for person re-identification[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, Nevada, USA, 2016: 1249-1258. doi: 10.1109/CVPR.2016. 140.
[27] MIGNON A and JURIE F. PCCA: A new approach for distance learning from sparse pairwise constraints[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Rhode, Island, 2012: 2666-2672. doi: 10.1109/ CVPR.2012.6247987.
[28] PEDAGADI S, ORWELL J, VELASTIN S,. Local fisher discriminant analysis for pedestrian Re-identification[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3318-3325. doi: 10.1109/ CVPR.2013.426.
[29] ZHAO R, OUYANG W L, and WANG X G. Learning mid-level filters for person re-identification[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 144-151. doi: 10.1109/CVPR.2014.26.
[30] XIONG F, GOU M R, CAMPS O,Person re-identification using kernel-based metric learning methods [C]. European Conference on Computer Vision, Zurich, Switzerland, 2014: 1-16. doi: 10.1007/978-3-319- 10584-0_1.
孙 锐: 男,1976年生,博士,教授,主要研究方向为计算机视觉与机器学习.
方 蔚: 男,1993年生,硕士生,研究方向为图像信息处理和计算机视觉.
黄启恒: 男,1994年生,硕士生,研究方向为图像信息处理和计算机视觉.
高 隽: 男,1963年生,博士,教授,博士生导师,主要研究方向为智能信息处理.
Indirect Person Re-identification Based on Support Samples
SUN Rui①②FANG Wei①②HUANG Qiheng①②GAO Jun①
①(,,230009,)②(,230009,)
Person re-identification is the identification of the same pedestrian in a multi camera surveillance without overlapping views. Aiming at the problem of the existence of visual angle, illumination and scale change in pedestrian images which from different camera. An indirect person re-identification method is proposed based on the support samples. At first, the algorithm extracts the support samples from different cameras by the clustering method. When it comes to matching pedestrians from different cameras, the support samples are used to distinguish the pedestrians categories under the camera on the basis of the distance metric, by comparing the categories to determine whether the same pedestrian. The method avoids the direct matching of pedestrian images under different cameras, which effectively solve the problem of the existence of visual angle, illumination and scale change in different camera. The experimental results show that the algorithm has a high recognition rate, and on the data set VIPeR, CAVIAR4ReID and CUHK01the, Rank1 reaches 43.60%, 41.36% and 43.82% respectively.
Person re-identification; Support samples; Indirect matching
TP391.41
2017-03-17;
2017-09-15;
2017-10-27
通信作者:方蔚 1204764020@qq.com
国家自然科学基金(61471154),安徽省科技攻关科技强警项目(170d0802181)
: The National Natural Science Foundation of China (61471154), Anhui Province Science and Technology Research (170d0802181)