行人搜索问题研究
2018-07-28周华捷程文王继学
周华捷 程文 王继学
摘要:行人搜索指从一个拍摄视域较广的摄像头下找到与待查询目标行人类别相同的行人在场景中的位置,包含了一个查找(目标检测)和匹配(行人再识别)的过程。现有的行人再识别算法需要依赖于目标检测的结果,但目标检测与行人再识别之间相互分离。行人搜索将目标检测和行人再识别融合成为一个框架,以实现当前大型智能监控系统的实时目标匹配需求。本文重点分析现有的行人搜索研究成果,重点阐述行人搜索问题中各种算法所做的不同尝试。
关键词:行人搜索;行人再识别;计算机视觉;目标检测
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)15-0189-03
Research on Person Search
ZHOU Hua-jie, CHENG Wen, WANG Ji-xue
(School of Computer and Information, Hefei University of Technology, Hefei 230009, China)
Abstract: Person Search refers to the process of finding the position of a target pedestrian which match to the query under a wide camera view, including a process of searching (Object Detection) and matching (Person Re-identification). The existing Person Re-identification algorithms need to rely on the result of the Object Detection, but the Object Detection and the Person Re-identification are separated from each other. Person search integrates Object Detection and Person Re-identification into one framework to achieve the real-time target matching requirements of current large-scale intelligent surveillance systems. This article focuses on the analysis of existing Person Search research results, and different attempts made by various algorithms in Person Search.
Key words: person search; person re-identification; computer vision; object detection
行人的查找與匹配是当前大型视频监控系统中十分重要的两项任务。即在无重叠视域下。如何从不同的摄像机拍摄的画面中搜寻与待查询行人身份相同的目标行人。应用场景通常包括超市、机场以及人员嘈杂的广场。场景中包含大量的无关行人目标。在拍摄过程中由摄像头本身的原因以及光照的影响,不同摄像头在不同时间拍摄的同一行人在外貌上相差较大。现有的方法主要是先将所有的目标行人均从摄像机画面中找出,再一一与待查询的目标行人比较相似性。这种做法需要花费大量的时间且没有针对性。因此有必要研究一种快速准确的行人搜索框架。
1 目标检测
行人搜索包括目标检测,现有的目标检测算法有DPM检测器算法[1],基于网格的快速目标检测如YOLO[2]、SSD[3]以及基于region proposal的FAST RCNN[4]家族。目标检测算法对常规的行人检测具有较好的泛化性,但在一些极端条件下的行人如目标较小,较为模糊,光照条件差、行人被遮挡等情况则会出现一定的检测误差,甚至遗漏一部分行人。行人搜索的任务旨在匹配和目标行人身份相同的行人图片,若是检测器将图中所有出现的目标均视作可能相关行人,则在行人再识别这一步上有大量的候选行人相当于增大了后续匹配任务的负担,会直接对准确率和速度造成一定的影响,因此我们需要一个专门针对目标行人的检测器以取代通用的目标检测。
2 行人再识别
行人再识别在目标检测之后将检测出的各个疑似目标行人与查询行人相匹配的过程。目前的研究较为充分,属于图像检索的一个分支。行人再识别包括用特定的特征描述子对行人图片进行描述以及利用距离度量函数判断行人特征之间的相似性。传统的行人再识别主要采用颜色特征和纹理特征作为行人的特征描述,再用特定的距离测度函数衡量特征之间的相似性。例如欧氏距离、马氏距离以及需要学习度量参数的KISSME[5]和XQDA[6]。随着深度学习的发展,行人再识别的距离度量和特征学习逐渐一体化,例如[7]中使用神经网络提取特征,再用siamese loss优化特征之间的距离,神经网络学习到的参数不仅包括用于特征提取,还包括测度学习。
3 行人搜索
现有的行人搜索算法主要有[8-13]。大型行人搜索数据集主要包括PRW和CUHK-SYSU。最早的两篇行人搜索文献主要由郑良[8]和Xiao Tong[9]完成。在文献[8]中郑良等人提出了PRW行人搜索数据集(如图1),采用RCNN目标检测框架得到相应的几个行人候选框。再利用ResNet50对候选框中的各个行人提取特征进行距离度量,其采用级联的方式训练网络,先使用在imagenet上预训练的ResNet50在PRW数据集上对各个候选框判别是行人还是背景,在此基础上再次训练以判别各个行人的类别;其最终比较了各种不同的目标检测算法,特征提取方式对最终结果的影响。
文獻[9]中Xiao Tong等人提出了CUHK-SYSU数据集,并采用了一种类似于目标检测的网络即从CNN中间层加入region proposal network再用通过对region proposal中不同大小的各个区域进行pooling。最后使用OIM(online instance match)loss进行优化。
由图2中可知,蓝色框表示有标签的行人,橘色框表示没有标签(仅在数据集中出现过一次)的样本。在训练集中针对一种类别的样本,其正样本较少,与之类别不同的行人,或未标记类别的行人均可作为负样本。我们希望针对单独某个行人特征的类内距离较小,类间距离较大。但在一次sgd(随机梯度下降)中没有必要对整个数据集中的所有负样本均拉开距离。因此文中采用了一种查找表的方式,在一次sgd中仅对查找表(LUT)和循环队列(CQ)中的样本进行优化,查找表中都是有类别的行人样本,循环队列中主要是在数据集的制作过程的部分在整个数据集中仅出现一次的行人,无法对其类别进行标定,合适做负样本。通过在线优化和对查找表和循环队列的不断更新,网络学习到如何针对待查询行人,找到目标行人并提取具有区分性的特征。文献[10]中刘皓等人提出了一种树型注意机制如图3,首先利用目标检测方法检测出行人的大致区域,通过将检测到的boundingbox组合得到一个人群的大致位置作为树根。人的注意力通常是先注意到整张图片中包含人群的一大部分,然后通过将目标行人和周围人群比较逐渐缩小注意范围。文献中采用带记忆的convLSTM根据对待查询行人外观的记忆选择每一次关注的区域,将行人搜索转化为从树根选择一条到其子树的分叉路径,逐渐缩小最终找到目标行人。这种方法能抓住行人图片中的一些边缘线索。在对一张图的查找过程中有针对性的产生目标行人的位置,有效地提高行人搜索的准确性。
文献[11]使用了一种基于相关性的滤波器(Correlation Based Identity Filter )将行人搜索任务转化为判断场景中一个区域包含目标行人的可能性的回归问题(如图4)。训练阶段通过围绕训练集中的ground truth不断环形采样同时采用回归任务优化提高滤波器的准确性。相关滤波的学习可以通过Block-Circulant Decomposition (BCD) 和离散傅立叶变换加速。在测试阶段将滤波通过将原图像转化为不同尺度的图像以搜索在原图像中不同大小的行人。快速地完成对目标行人的查找。
文献[12]在文献[9]的基础上提出了center loss即针对某类行人的在各个摄像机下拍摄的不同图片在特征空间上应有一个聚类中心,通过优化各个图片特征到聚类中心的距离提高针对行人所提取特征的区分性。文献[13]在深度特征的基础上还加入了传统的颜色特征与纹理特征作为特征提取的一部分。
4 结束语
行人搜索是行人检索的未来,本文介绍了现有的几种行人搜索算法,并对行人搜索的发展方向进行了分析。首先是将目标检测与行人再识别分开优化的框架初步将两种任务结合,在此基础上产生了端到端的行人搜索框架,通过选择特定的行人去查找而不是盲目的查找所有的行人使行人搜索在速度与准确率上均有所提升。接着我们介绍了当前行人搜索算法的一些拓展,包括树形搜索,特征融合,优化类内距离等等。最后对未来的行人搜索方向进行了阐述。
参考文献:
[1] Felzenszwalb P F, Girshick R B, Mcallester D, et al. Object detection with discriminatively trained part-based models.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 32(9):1627-1645.
[2] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
[3] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
[4] Girshick R. Fast R-CNN[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015:1440-1448.
[5] Hirzer M. Large scale metric learning from equivalence constraints[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2288-2295.
[6] Liao S, Hu Y, Zhu X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 2197-2206.
[7] Li W, Zhao R, Xiao T, et al. DeepReID: Deep Filter Pairing Neural Network for Person Re-identification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014:152-159.
[8] Zheng L, Zhang H, Sun S, et al. Person re-identification in the wild[J]. arXiv preprint, 2017.
[9] Xiao T, Li S, Wang B, et al. Joint detection and identification feature learning for person search[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 3376-3385.
[10] Liu H, Feng J, Jie Z, et al. Neural person search machines[C]//The IEEE International Conference on Computer Vision (ICCV). 2017.
[11] Li W H, Mao Y, Wu A, et al. Correlation Based Identity Filter: An Efficient Framework for Person Search[C]//International Conference on Image and Graphics. Springer, Cham, 2017: 250-261.
[12] Xiao J, Xie Y, Tillo T, et al. IAN: The Individual Aggregation Network for Person Search[J]. arXiv preprint arXiv:1705.05552, 2017.
[13] Yang J, Wang M, Li M, et al. Enhanced Deep Feature Representation for Person Search[C]//CCF Chinese Conference on Computer Vision. Springer, Singapore, 2017: 315-327.