APP下载

深度哈希算法行人再识别技术研究

2017-07-05章东平尹奕博

中国计量大学学报 2017年2期
关键词:哈希识别率行人

章东平,尹奕博

(中国计量大学 信息工程学院, 浙江 杭州 310018)

深度哈希算法行人再识别技术研究

章东平,尹奕博

(中国计量大学 信息工程学院, 浙江 杭州 310018)

行人再识别是视频监控领域的关键问题之一,难点在于不同摄像机中同一行人的图像差异较大.基于行人图像的标识可由图像中的语义属性组合间接表示的假设,现提出使用一种基于深度哈希函数的行人再识别算法.通过卷积神经网络学习得到哈希函数,结合多目标损失函数保证分类的准确和哈希编码的有效,使得相似的图像能够获得相似的哈希编码,最后比较哈希特征间的汉明距离进行再识别.实验结果表明,深度哈希特征能够有效地进行行人再识别,提高了算法的执行效率.

哈希算法; 深度学习;汉明距离

作为视频内容分析和多媒体检索等应用中的一项关键技术,行人再识别的目标是指定一张行人图像,在已有的其他非重叠摄像机视角下的行人图像库中,识别出与此人相同的图像[1].然而,行人再识别问题是一个很有挑战性的问题,因为不同摄像头下的行人姿态、视角、光照、遮挡以及背景变化等,会导致同一行人在不同场景中的外观表观变化较大.由于行人再识别问题重要的现实意义和面临的挑战,近年来吸引了大批学者进行研究,目前行人再识别的算法大致分为两个方面,即基于特征描述的方法[2-4]和基于距离度量学习的方法[5-6].前者主要是设计出具有区分性的鲁棒的特征描述子,后者是通过机器学习找到合适的相似度度量函数,使得同一行人图像对的相似度尽可能高,不同行人图像对的相似度尽可能的低.

深度学习自2012年被Hinton的研究小组[7]采用并以巨大的优势赢得了ImageNet图像分类比赛的冠军后,这种端到端的直接从原始数据中进行特征学习的的方法在计算机视觉领域被广泛采用,并取得了一系列的成绩[7,9,17].深度网络模型具有强大的学习能力和高效的特征表达能力,从像素级原始数据到抽象的语义概念逐层提取信息,这使得它在提取图像的全局特征和上下文信息方面具有突出的优势.

早期由于缺乏大规模的标准数据集,主要使用基于经验人工设计的特征算法[2]进行再识别.近年来出现了一些大规模的加标注的行人数据集[5],为使用深度学习[7]进行行人再识别[4-5]提供了基础.通过观察现有数据发现,不同场景下的行人图像属性不同.如图1,iLIDS数据集是来自机场大厅,行人大多携带行李箱;PRID数据集来自街道,行人大多行走在斑马线上;CUHK03数据集拍摄于大学校园,行人大多背着书包.于是,本文假设不同数据集中的行人图像,含有不同的语义属性,相似的行人图像会产生相似的语义属性特征.本文采用卷积神经网络来学习一个哈希函数,按照分类的思想进行二值语义特征的学习.此外,为使学习到的二值哈希特征简洁有效,本文在分类目标损失函数的基础上增加了约束条件,使得学习到的特征更有区分性.最后,通过将学习的二值语义特征求汉明距离,可获得一对图像的相似度得分,进行排序后可获得行人再识别结果.

图1 不同的行人再识别数据集样例Figure 1 Examples of multiple pedestrian re-identification datasets

1 深度哈希算法

当图像In属于行人m时记yn=m.本文的目标是学习一个映射函数F(In)={0,1}K×N将图像In映射到k位的二值哈希编码特征向量C={hn}∈{0,1}K×N,同时保留行人图像间的语义相似度,即同一个人的不同图像得到的哈希编码也基本相同.可以认为不同的0和1组合代表图像具有不同的语义属性,比如图像中含有书包这个属性时则该特征属性记为1,否则为0.

1.1 深度哈希函数

本文在最近深度学习进展的基础上利用卷积神经网络去构建哈希函数,直接从图像像素进行端到端的学习得到图像高层语义的特征表达.论文AlexNet[7]已经表明在计算机视觉领域如图像分类、目标检测、语义分割和图像检索等领域,通过端到端学习得到的深度特征比传统人工设计特征能够获取更丰富更有效的图像表达.

图2 系统网络结构图Figure 2 Structure of the system

本文的工作是基于AlexNet网络模型进行进一步的扩展,AlexNet网络包括5个卷积层Conv1-5,池化层采用最大池化,后接两个全连接层Fc6-7和一个分类输出层Fc8,隐藏层使用的激活函数是ReLUs,因为它比其他的非线性操作如tanh、sigmoid等更简单并且可以加快训练速度,输出单元使用softmax函数进行多分类任务,其中卷积层用Conv表示,全连接层用Fc表示,下标数字表示该层在整个网络中的位置.为了保证哈希函数利用深度特征学习得到,本文在特征层后面添加了一层哈希层H,包含K个神经元,整体网络结构如图2.哈希层中的激活函数采用sigmoid函数,将特征值限制在0到1之间,然后通过设置阈值将特征向量转化为{0,1}的组合,本实验取阈值0.5.

(1)

式(1)中T(z)为阶跃函数,当z>0时,T(z)=1,否则为0.

1.2 目标损失函数

图像标签不仅用于图像分类,也可用于监督哈希函数的学习.本文为图像标签和二值编码之间的关系建立一个模型,使得到的二值编码保留语义特征.本文假设语义标签可由K个属性的有无来决定.当一副图像具有一组二值向量特征{0,1}K的时候,分类结果会依赖于这些属性特征.这意味着本文可以优化一个分类损失函数,从而保证相似的图像可映射得到相似的哈希二值编码.

(2)

为了保证学习到的二值哈希语义特征具有区分性,本文为分类损失函数添加约束项,使得哈希层每个神经元输出的特征值更具区分性,避免特征值在阈值0.5附近,完整的目标损失函数如下:

(3)

式(3)中,α和β分别表示分类损失函数和哈希约束项的权值,LH为哈希约束项:

(4)

本文的工作基于开源框架CAFFE[8],并且前面的网络初始权值使用AlexNet在ImageNet上训练好的1 000类分类任务模型的权值进行初始化,哈希层H使用随机初始化权值,并调大该层的学习率,在AlexNet模型上进行精调,使其更加适用于行人再识别任务.网络训练采用批量随机梯度下降反向传播算法,需要说明的是本文除了新加入哈希层H和给分类目标损失函数加入约束项外,还去除了LRN层,研究[9]表明LRN层并没提高识别率但会增加训练时长,并采用dropout策略防止过拟合.

2 实验结果与分析

经过最近几年的研究,行人再识别领域产生了一些标准数据集[5,10]供学者进行验证比较,这些数据集各自有不同的特点.本文在两个常用的行人再识别标准数据集上进行试验.本小节首先简单介绍各个数据集的特点和采用的测试准则,然后将实验结果跟其他方法进行比较,并分析实验结果.

2.1 数据集和评价准则

CUHK03数据集[13]是一个大学校园场景的数据集,包含1 360个行人,13 164张图,其中不仅包括人工标记的准确的行人图像,而且包括行人检测器[11]自动检测得到的行人图像,因而增加了难度,更具实用性.

iLIDS数据集[10]是由多个摄像头在忙时拍摄的机场大厅场景的数据集,包含119个行人,479张图像,每张图像的像素值统一为128×64,并伴随着巨大的光照变化和遮挡问题.本文按照文献[12]中的方法划分数据集,进行试验.

行人再识别领域通常采用 CMC(cumulative matching characteristic)曲线作为衡量检索结果好坏的准则.CMC 曲线的横坐标是排名分数(Rank score),纵坐标为识别率(Recognition percentage),曲线中的每个点都对应了一个排名分数和识别率,如 Rank R 的识别率为P,表示在前R个检索结果中正确识别的概率P.所以CMC曲线位置越高,再识别结果越好.

通常评估再识别算法的主要关注点在于CMC曲线的第一个点的识别率(rank-1).因此本文关注的是排名分数为1的识别率,即第一个检索结果的正确率,

2.2 实验结果与分析

在标准数据集上的行人再识别实验效果如图3.

图3 行人再识别结果 其中第一列为查询集,其余为候选集Figure 3 Result of pedestrian re-identification. The images in the first column are the probe images and the rest are the gallery images.

表1为不同算法在CUHK03上再识别率的对比.实验表明本文算法识别准确率高于其他算法,这是由于本文使用深度哈希特征作为行人图像的表达,试验中仅使用汉明距离进行相似度排序,相对于KISSME度量学习的方法更简单且有效.此外在数据集CUHK03的实验中,H层使用的不同的特征维度的实验结果,如图4,实验表明随着特征维度的增加,再识别率会逐渐增加,但当特征维度超过512维后,再识别率下降,这是由于过多的特征维度会引入大量的背景噪声而影响再识别精度,本实验最终选取512维特征,作为行人图像的表征特征.

表1 CUHK03 数据集上CMC rank-1对比

在数据集iLIDS上不同算法的对比试验,如图5和表2.实验结果表明使用深度哈希特征比其他方法的效果好.需要说明的是由于iLIDS数据集较小,训练的时候使用CUHK03训练好的模型参数来初始化CNN网络的权值.

图4 CUHK03数据集上的对比实验Figure 4 Comparative experiment on CUHK03 dataset

表2 iLIDS 数据集上不同算法的CMC rank-1识别率比较

图5 iLIDS数据集上的对比试验Figure 5 Comparative experiment on iLIDS dataset

由以上实验结果表明,本文提出的算法能够有效进行行人再识别,深度哈希特征相对于传统人工设计特征[2]效果要好,而且采用汉明距离进行相似度度量,简单且有效.

3 结 语

本文基于行人再识别这一基本问题,提出使用深度哈希函数进行再识别的算法:首先通过改进的AlexNet网络结构进行模型的训练,使用ImageNet数据集上预训练模型权值作为初始值;然后使用训练好的模型对输入行人图像提取H层的512维的深度特征并与设置的阈值比较,得到相应的哈希特征向量;最后计算每对图像的哈希特征向量间的汉明距离并进行排序,得到再识别结果即图像搜索库中与输入行人图像最相似的行人图像集的排序.本文算法简单有效且在两个标准数据集上的实验结果均优于其他算法.

[1] 杜宇宁,艾海舟.基于统计推断的行人再识别算法[J].电子与信息学报,2014,36(7):1612-1618. DU Y, AI H Z. Pedestrian re-identification algorithm based on statistical inference[J]. Journal of Electronics & Information Technology,2014,36 (7):1612-1618.

[2] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features[C]//Computer Vision and Pattern Recognition. San Francisco: IEEE CVPR,2010:2360-2367.

[3] FAN C X, ZHU H, LIN G F, et al. Person re-identification based on multi-features[J]. Journal of Image and Graphics,2013,18(6):711-717.

[4] 张华.基于空间颜色特征的行人再识别方法[J].华中科技大学学报(自然科学版),2013,41(2):2098-2104. ZHANG H. Person re-identification method based on spatial color feature[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition),2013,41 (2):2098-2104.

[5] MA L, YANG X, TAO D. Person re-identification over camera networks using multi-task distance metric learning[J]. IEEE Transactions on Image Processing,2014,23(8):3656-3670.

[6] XIONG F, GOU M, CAMPS O, et al. Person re-identification using kernel-based metric learning methods[C]//European conference on computer vision. Zurich: ECCV,2014:1-16.

[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems,2012,25(2):1097-1105.

[8] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia. Florida: ACM,2014:675-678.

[9] SIMONYAN K, ZISSERMAN. A very deep convolutional networks for large-scale image recognition[J]. Computer Science,2014,14(9):1556-1563.

[10] ZHENG W S, GONG S, XIANG T. Associating groups of people.[J]. Active Range Imaging Dataset for Indoor Surveillance,2009,1(2):6-7.

[11] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence,2010,32(9):1627-1645.

[12] XIAO T, LI H, OUYANG W, et al. Learning deep feature representations with domain guided dropout for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE CVPR,2016:1249-1258.

[13] LI W, ZHAO R, XIAO T, et al. Deepreid: Deep filter pairing neural network for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE CVPR,2014:152-159.

[14] AHMED E, JONES M, MARKS T K. An improved deep learning architecture for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE CVPR,2015:3908-3916.

[15] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features[C]//Computer Vision and Pattern Recognition (CVPR). San Francisco: IEEE CVPR,2010:2360-2367.

[16] XIONG F, GOU M, CAMPS O, et al. Person re-identification using kernel-based metric learning methods[C]//European Conference on Computer Vision. Springer International Publishing. Columbus: IEEE CVPR,2014:1-16.

[17] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE CVPR,2016:770-778.

[18] PAISITKRIANGKRAI S, SHEN C, VAN DEN HENGEL A. Learning to rank in person re-identification with metric ensembles[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE CVPR,2015:1846-1855.

Pedestrian re-identification on deep hash algorithm

ZHANG Dongping, YIN Yibo

(College of Information Engineering, China Jiliang University, Hangzhou 310018, China)

As one of the key tasks of intelligent video surveillance, pedestrian re-identification is very challenging due to large variation in visual appearance across different camera views. Assuming that a person’s ID could be indirectly represented by a combination of semantic attributes in the image, a deep hash pedestrian re-identification algorithm was introduced. The hash function was obtained by CNN and the muti-objective loss function ensured the validity of the classification and the efficiency of the hash codes, which could help obtain similar pedestrian images corresponding to similar hash codes. In the end, the hamming distance between hash features was compared with the re-identification. The experimental results show that the deep hash feature can improve the efficiency of pedestrian re-identification.

hash algorithm; deep learning; hamming distance

2096-2835(2017)02-0208-06

10.3969/j.issn.2096-2835.2017.02.012

2017-01-03 《中国计量大学学报》网址:zgjl.cbpt.cnki.net

浙江省自然科学基金资助项目(No.LY15F020021),浙江省公益性项目(No.2016C31079).

章东平(1970-),男,江西省鄱阳人,教授,主要研究方向为图像处理机器学习. E-mail:silenttree_zju@cjlu.edu.cn

TP391

A

猜你喜欢

哈希识别率行人
基于特征选择的局部敏感哈希位选择算法
哈希值处理 功能全面更易用
毒舌出没,行人避让
文件哈希值处理一条龙
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
路不为寻找者而设
提升高速公路MTC二次抓拍车牌识别率方案研究
我是行人
档案数字化过程中OCR技术的应用分析