跨摄像机行人再识别研究综述

2018-10-25谭飞刚廖全蜜李健艺

深圳信息职业技术学院学报 2018年5期

谭飞刚，廖全蜜，李健艺

（深圳信息职业技术学院交通与环境学院，广东深圳，518172）

引言

在全球反恐的大背景下，大规模的摄像机被安装在公共场所（如机场、火车站、学校和办公楼等）形成一个监控网络。通常在这种大范围的摄像机监控网络中各个摄像机视野之间不存在重叠区域。这种大规模摄像机网络每天都会产生海量的视频数据供执法人员用于目标监视或取证。如果采用人工监控的方式进行处理不仅需要耗费大量的人力物力和财力，而且还容易因人为主观因素的影响降低监控的有效性。智能视频监控不仅可以对监控数据进行快速有效的处理，而且还能对监控区域完成长时间、大范围的监控任务（如可疑活动检测、行人检索和异常事件预测等）[1]。因此，智能视频监控已经成为计算机视觉、安全监控等领域的研究热点[2]。

跨摄像机目标跟踪是智能视频监控系统中目标行为分析的基础，而跨摄像机目标再识别是跨摄像机目标跟踪过程中非常重要的步骤之一[3]。跨摄像机目标再识别被定义为不同摄像机拍摄目标图像间建立对应关系的过程，换句话说，一个目标出现在不同摄像机视野里，智能视频监控系统需要将它们识别为同一个目标并为它们分配同一个身份标识符。如图1所示，目标P1从摄像机B走出经过盲区再进入摄像机A视野后，智能监控系统能识别出该目标并给其分配P1标识符。智能视频监控可以广泛应用于公共安全监控、交通状态监控、居民小区安全监控等场景中实现异常行为检测与安全预警等功能，具有广泛的应用前景。

图1 行人跨摄像机再识别示意图Fig.1 The schematic diagram of cross-camera person reidentification

跨摄像机行人再识别算法主要包含行人检测、特征提取、度量匹配三个关键步骤，其基本流程如图2所示。直接对摄像机视野或离线视频序列进行行人检测获得行人的位置并提取行人样本图像，然后提取相关特征描述因子，最后与图库中其他行人样本图像在特征空间里进行度量匹配并输出匹配结果，从而得到查询行人样本在其他摄像机中的图像样本。

图2 跨摄像机行人再识别算法流程图Fig.2 Flow chart of cross-camera person recognition algorithm

经过近些年的发展，虽然相继有研究者对智能视频监控技术的各个方面进行了总结[2-4]，但是这些综述文献大都针对智能视频监控技术中某一类算法或某一个方面进行介绍。如目标检测算法综述[5]，目标跟踪算法综述[6]等。然而近些年发展的跨摄像机行人再识别技术方面综述相对较少，并且随着科学技术的飞速发展，近些年各类优异的算法层出不穷，需要进行较好的梳理与总结。本文主要从跨摄像机行人再识别面临的挑战、当前研究现状、常用的实验数据集和未来的研究趋势进行探讨和归纳总结。

1 面临的挑战

光照变化、复杂的背景环境、遮挡等影响因素都是目前机器视觉领域面临的挑战[7,8]。但是由于行人具有非刚性特征，因此跨摄像机行人再识别还存在以下挑战。

（1）复杂多变的姿体运动

人体四肢通过关节的活动可以产生各种各样的动作和形状，这些形状严重影响了对人体轮廓特征的提取。此外，其它的一些附着物也容易引起行人的轮廓变化，例如行人拖行李箱、打雨伞、提手提包等。同时，这些物体也容易使行人间发生遮挡。

（2）丰富多彩的衣着外表装饰

由于跨摄像机行人再识别针对的是大范围长时间内的行人跟踪，因此行人在此过程中存在衣着变换、装饰变换等动作。而这些动作则直接影响到系统对行人特征的提取与识别分析。例如行人从室内走到室外后戴上墨镜、打开太阳伞或者戴上太阳帽或者穿上防晒衣等，这将直接影响到行人的外貌特征提取。

（3）摄像机间属性差异

跨摄像机行人再识别涉及到行人在多个摄像机间的识别与匹配，然而各个摄像机在安装过程中受地形等环境因素的影响使得其拍摄角度、拍摄高度、拍摄环境和分辨率等可能存在非常大的差异，从而导致行人在不同摄像机间外观差异巨大，甚至会出现同一个行人在不同摄像机间外观差异大于不同行人在同一摄像机内的外观差异。例如有些摄像机拍摄行人正面，有些摄像机拍摄行人侧面，有些摄像机拍摄行人背面，有些摄像机拍摄高度低导致行人图像高大而有些摄像机拍摄高度高导致拍摄行人图像比较矮小。

（4）摄像机间时空信息缺失

由于大范围视频监控网络中大部分摄像机视野间存在盲区，那么行人从一个摄像机视野离开后需要经过一段盲区，然后再进入另一个摄像机视野。在盲区的这段时间里，该行人将消失在所有的摄像机视野里，从而导致摄像机在整个监控网络中时空信息的丢失，系统无法预知行人何时出现在何地。

总的来说，跨摄像机行人再识别相比于单个摄像机行人识别和重叠视域的行人识别面临更多更大的挑战。也正因为这些挑战不断激励着科研人员不断探索新的可行的解决方案来解决问题。因此，本文接下来对当前跨摄像机行人再识别技术的研究现状进行阐述与总结。

2 研究进展

随着监控范围的不断扩大，摄像机间不重叠区域越来越多，再加上智能视频监控技术的不断发展以及行人再识别在众多领域的潜在应用价值，推动着跨摄像机行人再识别技术不断向前发展[9]。该技术自2003年开始被提出并在最近几年里受到了研究者们广泛关注并成为机器视觉、机器学习和智能视频监控等领域的研究热点。近些年国际上每年都有大量公开发表的相关论文，但这些文献依据不同分类标准可划分为不同类别。例如依据主动性可划分为主动学习型和被动学习型，依据样本图像数可划分为单幅图像和多幅图像，依据研究过程可划分为特征设计和度量学习等。目前基本上以研究过程进行分类为主，因此本文接下来从特征设计和度量学习两个方面对跨摄像机行人再识别的研究现状进行梳理与总结。

2.1 特征设计

特征设计就是设计出一种对光照变化、运动形变、部分遮挡和分辨率差异等影响因素具有较好鲁棒性的特征描述子，并且能够实现行人间具有良好的区分性[10]。基于特征设计的方法又可细分为底层特征和基于学习的特征。

（1）底层特征

底层特征指颜色、梯度、纹理和边缘等基本的图像特征。单种特征较难描述出行人的各种显著性特点，因此，许多研究者通常融合几种特征来增强它们的描述和区分能力。Lian等[11]为了描述无视野重叠区域间空间结构信息，提出了一种基于距离的局部二值模式描述子，同时结合颜色信息来实现跨摄像机行人再识别并取得了较好的效果。Lin等[12]利用混合高斯模型来搭建颜色特征和纹理特征两棵二叉树，并以此来获得鲁棒的行人外观模型。Liu等[13]针对在特征融合或结合过程中均匀分配权重而无法得到融合特征最佳效果的缺陷，提出了一种重要性挖掘的特征选择算法来提升融合特征中重要特征的权重。这样在特征提取过程中可以根据样本显著性特点自动对显著性特征增加权重从而提升识别效果。谭飞刚等[14]将图库中行人样本图像进行特征提取并进行聚类得到各特征原型，然后通过与特征原型进行相似度计算得到原型相似度特征来减少光照等因素的影响。受分层协方差描述子在图像分类算法中应用的启发，Matsukawa等[15]提出分层高斯描述子应用于跨摄像机行人再识别。Ukita等[16]在底层特征的基础上提出了一种基于群组特征的跨摄像机行人再识别。该群组特征包含了行人间相对距离、相对速度差等方面内容弥补了摄像机间一些时空信息。Wen等[17]利用感知哈希算法对底层特征进行二值化映射并结合几个特征通道来完成特征编码，最终计算出鲁棒性好的分层特征描述子。Ibn等[18]通过融合外观特征和运动特征来完成跨摄像机行人再识别，其中采用SURF和Cuboid特征描述外观，而利用稀疏来表示运动过程中的运动关键点。

总之，底层特征是特征设计的基础，随着研究的不断深入，计算机处理能力的不断增强，研究者不断对底层特征进行组合、加工形成更加抽象、更加鲁棒的特征。

（2）基于学习的特征

基于学习的特征指通过机器学习的方法，从大量样本图像中学习出更加抽象、语义信息更加丰富的行人特征描述[19]。Zhao等[20]结合相邻块约束匹配和K-means算法自动提取出样本显著性特征而无需人工参与。An等[21]利用正则典型相关分析算法训练出一个映射矩阵并将提取的底层特征通过该矩阵映射到一个低维的共同子空间里，从而便于寻找出目标间最大相关性。Guo等[22]针对摄像机间时空信息的丢失和图像对间视觉模糊等问题提出了一种基于深度学习的深度相似性特征学习算法，以此从图像对中提取出更加有效的深度特征。Lin等[23]在基于特征表达和图像匹配自动学习的深度学习框架下提取感知约束信息来实现整个摄像机网络间行人再识别。Li等[24]通过每一层叠加多个尺度的卷积神经网络来提取行人全身和身体各部件的有用特征，并且通过设计空间变换网络来学习和定位可变性部分。

2.2 度量学习

度量学习的方法就是学习一种特征转换或距离度量机制使得同一行人在不同摄像机间具有最小距离而不同行人在相同摄像机里具有最大距离[25]。Zheng等[26]将行人再确认问题转换为距离度量学习问题，提出了相关距离比较概率模型，该方法通过优化距离学习度量机制使得最大化匹配精度并忽略外观特征的选择。Martin等[27]针对度量学习存在优化计算模式复杂的缺陷提出了宽松的逐对度量学习的方法。该方法对马氏距离进行改进，将矩阵的操作转换为迹的操作，从而减少计算复杂度，进而提升算法的效率。Li等[28]针对目前行人再识别算法中特征维度远高于训练样本数而影响算法准确度的问题，提出了基于度量学习的可区分性的零度空间。Zhao等[29]通过相异矩阵实现双通道条形结构特征对相似度测量。Slawomir等[30]使用单个颜色检测器图像对学习得到颜色距离度量来减少不同摄像机间颜色差异。

3 常用数据集

数据集为跨摄像机行人再识别算法提供了数据验证的基础。良好的数据集不仅需要对行人数据进行标注，而且应尽可能多的包含一些干扰因素（如光照变化、拍摄视角差异、部分遮挡和运动形变等）来模拟真实的监控环境并验证算法的鲁棒性。公开的数据集不仅可以为其他研究者提供测试数据，而且还能为不同算法提供性能比较。经过多年的发展，国际上公开了一些跨摄像机再识别的行人数据集供大家测试自己的再识别模型。ViPER、i-LIDS、ETHZ、CUHK、MCT、CAVIAR4REID和GRID等是目前最为常用的跨摄像机行人再识别数据集，各数据集概要信息总结如表1所示。

表1 公开的行人再识别数据集总结Tab.1 Summary of the open person recognition dataset

（1）ViPER数据集（下载地址：http：//vision.soe.uesc.edu/?q=node/178）中所有行人样本图像均从两个无视野重叠的摄像机中采集得到。ViPER数据集总共包含632对行人1264幅尺寸为128×48图像（每个人每个摄像机一幅图像）。所有图像包含了28对不同的拍摄视角。因此，此数据集是目前常用并最具挑战的数据集之一。

（2）ETHZ数据集（下载地址：http：//www.vision.ee.ethz.ch/～aess/iccv2007/）中所有行人样本图像均从一个移动摄像机采集得到，每个行人样本包含4至28幅图像。该数据总共包含3个序列共28个行人8335幅图像。该数据集主要考虑的是光照变化、尺度变化和遮挡等因素的影响。

（3）i-LIDS数据集（下载地址：http：//scienceandresearch.homeoffice.gov.uk/hosdb/cctvimageing-technology/i-lids/dataset-applications.html）中所有行人样本图像均从某机场大厅内两个不同摄像机采集得到。该数据集包含119对行人476幅尺寸为128×64的图像（每个人每个摄像机两幅图像）。该数据集主要考虑光照变化和遮挡等因素的影响。

（4）CUHK数据集（下载地址：http：//www.ee.cuhk.edu.hk/～xgwang/CUHK_identification.html）中所有行人样本图像均采集于校园里两个不重叠的摄像机。该数据集包含CUHK01、CUHK02和CUHK03三个子集。CUHK01包含971对行人3884幅图像。CUHK02则是CUHK01的扩展，其图像来自5个不同摄像机。CUHK03数据集则包含1360个行人13164幅图像。整个数据集的图像分辨率较高，主要包含光照变化、视角变化和遮挡等影响因素。

（5）MCT数据集（下载地址：http：//mct.idealtest.org/Datasets.html）包含01、02和03三个子集。01和02两个子集由路边两个不重叠摄像机拍摄视频得到，03子集则是对01和02子集的扩展，由3个不同视角摄像机捕获视频组成，其中包含了室内场景。该数据集主要包含低分辨率、光照变化、运动形变等影响因素。

（6）C A V I A R 4 R E I D数据集（下载地址：http：//groups.inf. ed.ac.uk/vison/CAVIAR/CAVIARDATA1/）由安装在某购物中心走廊上不同角度摄像机拍摄视频得到。该数据集主要包含部分遮挡、光照变化和阴影等干扰因素。

（7）GRID数据集（下载地址：http：//www.eecs.qmul.ac.uk/～ccloy/downloads_qmul_underground_reid.html）中样本图像由8个安装在地铁站附近摄像机捕获得到，总共包含250对行人，但是每个行人样本图像分辨率较低。该数据集主要包含运动形变、色彩变化、光照变化等干扰因素。

4 研究趋势

当前的无视野重叠跨摄像机行人再识别算法主要关注于短时间内和较封闭区域内的再识别，然而，广阔的监控区域是一个开放的场所，如何在大范围内进行长时间、稳定的跨摄像机行人再识别将是今后的研究趋势。

4.1 长时间再识别

国际上公开的跨摄像机行人再识别数据集中的样本数据基本上都是在时间差距较小的两个摄像机间采集得到，也就是说两个摄像机间采集的样本图像不存在衣服着装、头饰或其他附带物的明显差异。因此，当前算法大都基于外观特征设计或者距离度量来完成跨摄像机行人再识别。然而，现实的长时间监控中会存在行人更换衣服、变换装饰品等现象。那么，如何应对这些挑战来实现长时间跨摄像机再识别将是未来的一个研究趋势。

4.2 稳定性

现实生活中长时间大范围内视频监控将会产生海量视频数据，从而使得行人样本图库容量不断扩大。在此条件下，行人再识别系统需要从以下两个方面来保障系统的稳定性。一方面如何利用新技术来自动标注行人、筛选行人样本和更新行人样本图库。另一方面，如何设计新的排序规则、度量学习模型等来实现海量数据下快速的行人再识别。

5 结束语

在世界反恐大背景下，大量的摄像机安装在城市的各个角落形成了一个庞大的视频监控网络。如何利用计算机技术实现整个监控网络中行人长时间、大范围的跟踪已成为当前智能视频监控的热点。近些年，ICCV、ECCV、CVPR等国际顶级会议每年都会发表许多相关论文。本文主要是对近些年发表的论文从研究进展、面临的困难和研究趋势做了简单梳理。目前的算法大都基于公开数据集进行研究，其图库样本数量有限，通过引入深度学习和大数据处理等技术提高再识别的鲁棒性和准确性，为现实中大范围、长时间跨摄像机行人再识别提供了一种新的思路。