行人再识别技术及其应用
2018-01-08罗鸿斌
罗鸿斌
摘要:行人再识别技术随着视频监控技术的发展和视频侦查的需求既有实际的应用价值,也有理论研究意义。该文对行人在识别技术的问题范畴进行了界定,对目前行人再识别的三种主要方法基于生物特征、特征表示、度量学习分别进行论述,最后对行人再识别技术的应用场景进行了分析。
关键词:行人再识别;量学习
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)36-0168-02
随着人们对社会公共安全的需求以及视频采集、存储技术的发展,我国大部分公共安场所都安装了大量监控摄像头,这些监控系统一方面对犯罪分子进行威慑,一方面让公安机关通过终端可以进行现场监控,并为预防和侦破相关案件提供线索。但随着海量增长的监控视频,人工进行监控和排查已经变得几乎不可能。尤其是需要追查一些大案要案的通缉犯及暴力恐怖分子时,需要耗费大量的人力和时间,而且还容易疏漏,因此利用一定技术手段对监控视频中的目标尤其是行人识别认定的需求就应运而生。
1 行人再识别问题及其难点
行人再识别也称行人重识别,简单地说,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛意义上,可以认为是一个图像检索的子问题, 即给定一个监控摄像头拍摄的行人图像,检索该行人图像是否在其他摄像头拍摄的行人图像中出现,给定行人图像的摄像头与检索图像的摄像头没有视域的重合,这样导致它主要面临的挑战,如图1所示。一是同一个人在不同摄像头下的人像再识别时,因在不同摄像头拍摄的视角、远近、光照、人的姿态都发生了变化,导致同一个人在不同摄像头下拍摄的人像相似度很低,因此提取一个不变的特征就变得很困难。二是不同的行人有可能所穿的衣服颜色相同,身形很相似,很容易被识别为同一个人。行人再识别本质上来说是基于人的外观形体的一个相似性比较,人的外观形体既具有刚性的特性,也具有柔性的特性,很容易所穿的衣服、视角、尺度等的影响,所以行人再识别是一个极具挑战性的课题。
2 行人再识别的主要技术
行人再识别任务其实应该包括两个流程(如图2)所示,第一就是从图像或视频中检测出行人,第二,提取行人特征,做相似性度量。第一个问题即行人检测,已经独立作为一个课题进行了深入的研究,一般在做行人再识别时是直接采用行人剪裁好的人像图片进行比对,有利于集中讨论特征提取和相似性度量。
目前行人再识别问题的研究主要集中在这三个方面:基于生物特征识别方法、基于特征的描述方法,和基于距离度量学习的方法。
2.1 生物特征识别
生物特征识别是指利用人体固有的生理特征或行为特征来进行个人身份鉴别认证的技术。常用的生物特征识别技术所用的生物特征有基于生理特征的如人脸、声纹、指纹、视网膜,也有基于后天形成的行为特征如签名、笔迹、步态。在视频监控中常用的就是人脸和步态识别。在有效可控的环境下,人脸识别技术已经成为一项相对可靠的技术,广泛应用在多个生活场景中,如支付宝,安防门禁等。步态识别也开始在小范围内进行运行测试。人脸识别和步态识别这两种方法都要求摄像机具有较高的分辨率,需要清晰的人脸图像或完整的步态周期,认证的约束条件比较严格,在真实的视频监控场景中很难满足,因此,目前关于行人再识别的研究主要是针对后两种方法。
2.2 特征表示方法
特征表示的方法关键在于设计或选择一个鲁棒的行人外观特征的表示,这些特征不但要能够很好地区分不同行人,而且要能够使相同行人在不同摄像机间人像不受光照和视角变化的影响。这种方法中常用的行人特征主要有二类。
一是基于颜色、纹理、形状的低层次特征。最常用且有效的特征是颜色直方图特征,如RGB、HSV等;更普遍的方法是把人体划分成多个区域,在不同的区域上提取将颜色特征、纹理特征Haar、形状特征HOG、局部特征(局部不变特征SIFT、SURF),将这些特征组合起来表示行人。在计算这些特征表示向量相似性时,常常采用欧氏距离、余弦距离等经典的距离函数。基于特征表示的行人再识别方法好多学者提出了很好的解决方法。文献[1]提出了一种按照人体结构将人体划分为不同区域的特征表示方法。通过在垂直和水平两个方向上划分,将人体分成头部、左部躯干、右部躯干、左下肢、右下肢五个部分。因头部区域通常在视频中较为模糊而忽略,在其他四个部分提取颜色直方图以及纹理特征。分别对不同的特征采用不同的距离函数计算距离,最终距离按照不同的权重将不同特征的距离加权求和得到一个总的表示。
二是基于中高层的语义属性。通过提取两张图片的语义信息来判断图片中的人像是否是同一个人,常用的有颜色、行人所穿的衣服、是否携带物品等信息。如行人是否戴帽子、戴眼镜、背包基于语义属性的优点是相同的行人在不同的摄像头下拍摄的人像,语义信息很少变化。R. Layne[2]采用15种语义来描述行人,采用SVM分类器提取每幅人像上的语义属性,根据语义属性的重要行行加权并融合底层特征来表示行人图像。SHI采用最近分割算法,对图像进行超像素划分,在划分的图像块上定义多种特征属性,颜色、位置、 SIFT 特征,识别效果明显提高。
2013年,我国学者赵瑞[1]等人提出基于块集合表示的行人重识别方法。其将行人图像划分成重叠的小块,对于每一个小块,其提取颜色直方图特征和局部不变特征。在匹配小块时,其不是与对应位置的小块计算距离,而是在一定的空间约束的条件下,寻找最相似的小块作为匹配到的小块。并累计所有小块与匹配到的小块的距离表示两张图像之间的距离。在累计所有小块距离时,作者通过小块的特征计算该小块是否显著,然后给予显著的小块更高的累计权重。相比条带划分的方法,该方法在解决视角变化带来行人图像特征的差异时,使用了更为精细的粒度,因而能够取得更好的性能。
总体来说,基于低层次特征表示的方法主要是通過提取颜色特征(颜色空间、颜色直方图、加权颜色直方图)和纹理、局部特征及这些特征的组合来表示行人,一定程度上解决不同监控视频下行人图像外貌特征差异的问题。基于中高层次特征表示的方法主要是提取行人图像的语义属性来表示行人,其判别性和识别率有所提高,但难点是图像语义属性的检测本身就比较困难。
2.3 度量学习的方法
上述基于特征的描述法都是使用传统的距离度量方法来进行相似性度量的,主要方法有曼哈顿距离、欧氏距离和巴氏距离等。行人匹配通常依据行人图像的特征描述之间的相似性,而对相似性程度的度量则需要设计相似度函数或距离度量函数对两个特征向量进行计算。
同一个行人在经过不同的摄像头时,他的外观特征受光照、视角、姿态、遮挡等的影响,用标准的距离度量方法来度量他的相似性时,不能取得很好的再识别效果。因此,好多研究者提出通过度量学习的方法,获得一个新的距离度量空间,使得同一个行人在不同摄像头下的图像距离小于不同的行人间的距离。距离度量学习方法通常是在马氏距离的基础上进行的。其实质是通过对标识样本的训练学习一个投影矩阵,使得在投影空间中同类样本之间的距离较小,而不同类样本之间的距离较大。这些方法包括学习一个马氏形式的距离函数式:
公式中,M是一个半正定矩阵,即通过样本学习得到参数。
在常见的类别数据(x,y)基础上,根据样本标签是否相同,将类标签表示的数据转换成成对的相似样本对和不相似样本对,基于两种样本对,学习到一个最优矩阵M,使得相似样本对的距离最小,同时不相似样本对的距离最大。即使得同一个人在不同摄像机下的人像距离最小,而不是同一个人的人像之间的距离最大。很多学者提出了各类马氏距离度量的估计方法,在很大程度上提高了行人的匹配的效果。
随着深度学习在计算机视觉中的广泛应用,利用卷积神经网络端到端的提取图像特征,同时进行匹配的方法也得到了大量的研究。
2014年DongYi [4]等人构建了端对端的卷积神经网络,在一个网络中同时学习特征表达及度量函数这两者。采用的网络架构如下图所示。每个子分支内部,输入图片分成三个有重叠的子图快,每个图块分别进行卷积,之后通过全连接层整合到一起。连接函数用于评估两个样本之间的匹配度,目标函数用于将匹配度转换为目标标签。这样做的好处是,把特征提取和选择交给了神经网络,让自动提取和学习度量相似性的函数,从而实现输入、输出端对端的检测和匹配。这种方法也就是基于深度卷积神经学习的方法。
3 应用领域
目前,行人再识别技术至少可以用于两个方面。一是公安视频侦查发现、追踪可疑人员或犯罪分子;二是寻找走丢的老人和孩子。
视频监控系统已在车站、超市、地铁、银行以及人流量大密集的多种公共场合得到广泛应用。这些监控摄像头可以全天候的监视人们在公共场所的行为和记录他们的轨迹,但要实现全方位查找检索可疑人员、车辆目标和线索,还必须依靠大量的工作人员回放相关视频录像,这显然需要耗费大量人力,而且难免也会因为疲劳和疏忽,而错漏掉重要信息。 通过行人再识别技术,提取可疑的人、车、物等目标信息的特征表示或生成结构化的语义描述,可以高效的快速定位、查找和检索特定目标,有效提高了公安系统侦破疑难案件及缉拿有关犯罪分子的效率,节约人力物力。。
我们经常会看到寻人启事,寻找走失迷路的老人和走散的小孩的情形,在人员流动很快的城市中,通过人寻找走失的老人、分散的小孩就如果大海捞针,而我们借助于大量的监控摄像头和行人再识别技术可以在一定范围内相对准确的追踪走失的人员,甚至实时的发现和定位它当前的位置。
行人再识别技术是综合运用计算机视觉,机器学习以及模式识别技术的一种新技术,它已成为智能视频监控中的一个热门研究方向,但对要真正的落地应用,仍然面臨着一系列的挑战,需要进一步深入研究。
参考文献:
[1] 王亦民.面向监控视频的行人重识别技术研究[D].武汉大学,2014.
[2] R.Layne,T.M.Hospedales,S.Gong,etal.Person Re-identification by Attributes in BMVC,2012,2(3):8.
[3] Zhao R,Ouyang W,Wang X.Unsupervised salience learning for person re-identification[J].2013,9(4):3586-3593.
[4] Dong Yi,ZhenLei,Sheng Cai Liao and Stan Z.Li.Deep Metric Learning for Person Re-IdentificationICPR,2014.