APP下载

基于局部行颜色自相似性特征的行人检测方法

2015-08-07翟芬蔡烜李一蒙冯瑞

微型电脑应用 2015年4期
关键词:相似性直方图行人

翟芬,蔡烜,李一蒙,冯瑞

基于局部行颜色自相似性特征的行人检测方法

翟芬,蔡烜,李一蒙,冯瑞

针对计算机视觉领域的行人检测问题,提出一种基于局部行颜色自相似性特征,该特征可表征为在HSV空间,图像水平方向非重叠对称块颜色直方图的距离信息,结合多层次导向边缘能量特征形成图像的融合特征,利用交叉核支持向量机进行分类。与主流用于行人检测的HOG+SVM方法相比,其特征维数低,在保证检测精度的同时,大幅提高了算法效率。实验结果验证了该算法的有效性。

行人检测;局部行颜色自相似性;多层次导向边缘能量特征;交叉核支持向量机

0 引言

行人检测可定义为:判断输入图片(或视频帧)是否包含行人,如果包含,给出行人位置信息[1]。它在视频监控、智能交通、机器人导航、智能车辆辅助驾驶和人机交互等领域有着重要的应用[2,3]。然而行人因光照的明暗、离摄像机镜头远近、姿态的变化会导致采集的图像视频千差万别,行人检测仍然是计算机视觉领域中一个极具挑战性的研究课题。

文献[1]将行人检测方法归纳成3种:DPM[4]及其变种、深度网络(JointDeep[5],ConvNet[6])以及(Boosted)决策森林。这3种方法都能达到很好的效果(在Caltech-USA 上37% 的漏检率)。特征作为描述行人的载体,手工设计的底层特征和深度学习模型自动学习的特征应用最为普遍。深度网络学习的特征虽然在检测的精度会优于传统的手工设计特征,然而它训练过程慢,参数多,计算速度慢于手工设计的特征。

Papageorgiou和Poggio[7]把Haar小波特征引入到行人检测并由此提出了最早的滑动窗口检测子。Viola和Jones[8]引入了积分图像,加快了特征计算的速度,同时他们还将级联结构用在检测中,使用Adaboost自动选择特征。Dalal和Triggs[9]提出了方向梯度直方图特征(histogram of Oriented Gradient,简称HOG),它描述了图像局部梯度幅值和方向,把图像分成若干块,允许块之间相互重叠,统计块中梯度方向和幅值并归一化处理形成直方图。该特征结合SVM分类器,在行人检测中获得了极大的成功,是目标检测方面使用最广泛的一种特征[10,11]。但该特征具有维度高,计算慢,遮挡处理能力差的缺点。Wu和Nevatia[12]利用短直线和弧线来刻画行人的局部轮廓特征,称为“edgelet”特征,使用Boosting来学习行人头部、躯干、腿和整个人。另一个形状特征“shapelets”[13]通过局部区域块的梯度学习而得。颜色纹理信息也广泛用于行人检测算法中,Mu等人[14]利用广泛应用在人脸识别中的局部二值模式(Local Binary Pattern,简称LBP),提出两种LBP描述子变体:Semantie-LBP和Fourier LBP。

行人衣着的多变性从一定程度上加大了行人检测的难度,但行人却有着局部对称的自相似性。行人检测领域中一般将直立的行人分为3个部分:头部、躯干、下肢。每个区域有着对称的自相似性,如头部,躯干的左臂右臂,下肢的腿部,这种对称性只在水平方向存在,竖直方向不存在。Walk等[15]基于颜色自相似性提出了刻画了全局的自相似性特征,文献[20]也提出了一种改进的颜色自相似性特征,两者维度都很高,计算成本大。本文充分利用行人水平方向的颜色对称自相似性,将全局的颜色自相似性特征进行局部化,以行来提取颜色自相似性特征(Local Row Color Self-similarity, 简称LRCSS特征),特征维度只有64维,大大降低了特征的维数。同时,本文采用多层次导向边缘能量特征(简称Multi-level HOG)与LRCSS特征融合形成1360+64维的新特征,并且使用直方图交叉核支持向量机HIKSVM[2]进行分类,该分类器能比一般的SVM速度快2000倍,并且节省200倍的空间。

1 局部行颜色自相似性特征

直立的行人由于穿五颜六色的衣服,加大了描述行人特征的难度,但行人身体结构和衣着具有局部对称的自相似性,如脸部的肤色,两只手臂,左右肩膀以及两条裤腿的颜色都是左右对称。行人的这种颜色自相似性,将原始1228×64的图片转化成灰度图,再将灰度图分为8*8的小块,总共有16×8个block,每个小块无重叠,小块的像素值用灰度平均值来表示如图1所示:

图11 行人的局部对称相似性

从图1中可以看出每一行的行人区域block具有相似性和对称性。

Walkk等人利用行人对称特性,提出了颜色自相似特征(Color SSelf-similarity简称CSS),将128×64的图片分成8×8的小块,统计其HHSV直方图信息,总共有166×8=128个block,然后将第1个block与其后127个block分别求直方图相交的距离,第2个block与其后126个blocck分别比较,以此类推,最后形成N×(N-1) //2= 8128维度的特征。基于上面对行人结构的分析,该特征行人区域与背景区域的比较没有物理意义,具有很多的冗余信息。

本文提出的局部行颜色自相似性特征充分利用了行对称的特点,最终形成的颜色特征只有64维。特征计算过程如图2,具体计算步骤如下:

(1)将输入的彩色图像转换到HHSV空间中:实验表明[13],使用HSV空间的图像相比RGBB,LUV等其他空间的效果好。

(2)计算每个bloock的颜色直方图:将输入的128×64的图像切分为8×8的bblock,block之间无重叠,总共有16 ×8=128个;分别计算H、S、V3个通道的直方图,设定每个通道包含3个bins。为减少区域混叠效应,使用三线插值来计算直方图,文献[8]在计算HOG特征时,使用了三线插值,本文直方图按公式(1)计算。

其中(x1,y1)为bloock中心坐标,((x,y)为统计的坐标点,C1,C2为是坐标点(x,yy)的通道颜色值所相邻的两个颜色区间,dx,dy分别为bloock的宽和高,dc是直方图统计区间间隔。

(3)计算行对称bblock颜色直方图的相似度:在H、S、 V三个颜色通道中,分别计算每一行的第1个block和第8个block,第22个block和第7个block,第3个block和第6个block,第44、5个block直方图的距离,将三通道计算所得到的距离值相加。最后得到的特征维数是4×16=644维。

度量直方图相似度通常使用L1-normm、L2-norm、χ2距离和直方图相交。本文通过实验发现,采用直方图相交效果最佳。M,N为两个block的直方图,i为直方图bins,这里i=1,2,3,直方图相交如公式(2)所示:

(4)特征归一化:这里采用L2-normm对上一步计算的直方图距离进行归一化如公式(3)所示:

2 多层次导向边缘能量特征

多层次导向边缘能量特征(Multi-Leevel Oriented EEdge Energy Featurres, 简称Multii-level HOG),该特征是一种多层级(multi-level)的HOGG描述子,没有重叠的细胞单元,特征的维度也降低了,相比HOG特征的33780维,只有1360维。特征计算步骤如下:

(1)将输入图像与Gaabor(σ=1)滤波器卷积,获得8个方向的能量响应。

(2)基于上述8个方向的能量响应,分别以16×116的非重叠块进行L1-norm正规化,得到正规化的能量响应如图2所示:

图2 LRCSS特征提取过程

(3)在每个层级l∈((1,2,3,4),图像分别被划分成非重叠的64×64,332×32,16×166,8×8的区域,计算每个区域的能量响应和,构建直方图特征。

(4)对层级为l的直方图赋一个权重因子CC1,C1=1/4(L-l)。其中L=4,l∈(1,2,3,44)。

3 分类器HHIKSVM

由于完备的理论、良好扩展性和性能,目前行人检测中常用的分类器是SVM、Booosted决策树。SVM目的是寻找最优分类面,可分为线性核和非线性核SSVM,其中线性核的SVM训练和分类速度快,运行时复杂度低,常用于实时应用中,非线性核的SVMM分类效果更好,但比较耗时。Boosted决策树有着更快的分类速度,但训练很慢,并且随着分类类别数的增加,训练的复杂度呈指数级增长。

本文使用一种非线性核SVM分类器—直方图交叉核SVM(Histoggram Intersectioon Kernel SVMM, 简称HIKSVVM)[2]。该分类器通过改写交叉核,既加快计算速度又节省大量的空间。设其中yi∈{-1,1},为训练标签,x∈Rn是样本,定义核函数k(x,z)=Φ(x)·Φ(z),iRn×Rn→R ,对于在特征空间不能找到最优分类面的特征x,核函数将特征映射到高维空间来求解分类面。在线性SVM分类器中,通过最小化公式找到最优的分类面如公式(4):

这里C〉0为惩罚参数,最小化目标函数(4)包含两层含义:使尽量小,即间隔尽量大,同时使误分类点的个数尽量小,C是调和二者的系数。

上述的公式(4)转化为对偶公式如公式(5):

分类决策函数为sigh(h(x)),如公式(6):

其中xl:l∈{1,2,…,m}为支持向量,一般核SVM分类需要m次的核运算,分类复杂度为O(mn),并且m个支持向量需要存储下来。而对于线性SVM,核函数k(x,z)=〈x,z 〉,h( x)=〈w,x〉+b ,所以对于线性SVM,分类复杂度仅为O(n)。

直方图交叉核SVM可以通过特殊的核来加速分类过程,交叉核函数为k(x,z)如公式(7):

决策函数如公式(8)、(9):

对于交叉核,我们可以交换(9)中的求和符号Σ,从而(9)可以写成如公式(10)、(11):

在这里,分类的复杂度仍然是O(mn),对于公式(11),我们首先对xl(i)进行排序,排序之后为l(i) ,然后与s进行比较,如果xl(i) 〉s, 则hi(s)= 0,当xl(i) ≤s时 ,则有公式(12):

hi(s)是分段线性且连续,因为公式(13):

先计算hi(xr),然后使用二值搜索以及在hi(xr)和hi(xr+1)中使用线性插值,找出s在xl(i) 中的位置r,最后可以求得hi(s)。此算法的时间复杂度为O(nlogm)。

4 实验结果与讨论

4.1 数据集介绍

行人检测里常用的数据集有INRIA,ETH,TUD-Brussels,Daimler(Daimler stereo),Caltech-USA等。INRIA 数据集是目前使用最多的静态行人检测数据集,包含了各种光照和场景(城市、沙滩、山),常常被用作训练数据。ETH和TUD-Brussels是尺寸适中的视频数据。Daimler数据集为灰度图像,缺少颜色通道。Caltech数据集是目前最大最具挑战的数据集。

INRIA数据集提供原始图像及相应的标注文件,并且包含的场景广泛,本文使用它训练模型和测试。INRIA数据集有正样本614 张(包含2416个行人),负样本1218 张;测试集有正样本 288 张(包含1126个行人0,负样本 453张。图像中人体大部分为站立姿势且高度大于 100个像素。实验中训练集正样本为2416张行人图像,负样本从1218张负样本图像中每张随机截取4张图像,组成4872张负样本训练集。测试集正样本为1126张行人图像,负样本从453张负样本图像中每张随机截取5张图像,组成2265张负样本测试集。

4.2 实验结果及分析

在INRIA行人数据库上,本文方法与HOG+SVM进行比较。本文算法流程图如图3所示:

图3 本文方法流程图

实验环境为Intel(R)Core(TM)CPUi7,3.4GHz,内存8G,64位Ubuntu13.10。实验采用特征提取时间、召回率(公式14)、检测率(公式15)与虚警概率(公式16)组成的ROC曲线等参数来评价性能如公式(14)、(15):

HOG特征有3780维,一张128×64的图片需要0.028s,本文提出的特征有1424维,特征提取只需要0.019s,特征提取时间快了47.4%如表2所示:

表2 特征比较

两种方法的准确率、召回率以及图像检测时间如表3所示:

表3 HOG+SVM方法与本文方法性能比较

从表3中可以看出,本文方法准确率和召回率都比HOG+SVM方法高出2.5%。对于一张640×480的图像,使用训练的模型,加上多尺度空间滑动窗口处理及非极大值抑制(NMS),本文方法比HOG+SVM快了50倍。

两种方法在INRIA数据集上的ROC曲线如图4所示:

图4 HOG+SVM方法与本文方法ROC曲线

从图4中可看出,本文的算法比传统的HOG+SVM有了较大地提升。本文提出的特征不仅描述了图像局部梯度的信息,还包含行人颜色自相似性信息,该特征信息量更全,因而性能更好。

5 总结

本文提出了一种基于局部行颜色自相似性的特征(Local Row Color Self-similarity,简称LRCSS),该特征具有更小的维度,并将其与Multi-level HOG特征融合,得到1380+64维的特征,使用直方图交叉核支持向量机(HIKSVM)进行分类,分类准确率高且速度快。LRCSS特征是局部对称特征,后续可以在解决行人遮挡问题上进行探索和优化。

图5 部分实验结果

[1]苏松志.行人检测技术综述[J].电子学报, 2012, 40 (4):814-820.

[2]Dollar, Piotr, et al. Pedestrian detection: An evaluation of the state of the art. Pattern Analysis and Machine Intelligence [J].IEEE Transactions on 2012.34(4): 743-761.

[3]Wang, Qingyuan, et al. Justifying the importance of color cues in object detection: a case study on pedestrian. The Era of Interactive Media[J].Springer New York, 2013: 387-397.

[4]Felzenszwalb, Pedro, David McAllester, and Deva Ramanan. A discriminatively trained, multiscale, deformable part model. Computer Vision and Pattern Recognition, 2008. CVPR 2008 [M]. IEEE Conference on. IEEE, 2008.

[5]Ouyang, Wanli, and Xiaogang Wang.Joint deep learning for pedestrian detection [M].Computer Vision (ICCV), 2013 IEEE International Conference on.IEEE, 2013.

[6]Sermanet, Pierre, et al. Pedestrian detection with unsupervised multi-stage feature learning [M].Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013.

[7]Papageorgiou, Constantine, and Tomaso Poggio. A trainable system for object detection [J].International Journal of Computer Vision 38.1 (2000): 15-33.

[8]Viola, Paul, and Michael J. Jones. Robust real-time face detection [J].International journal of computer vision 57. 2 (2004): 137-154.

[9]Dalal, Navneet, and Bill Triggs. Histograms of oriented gradients for human detection. Computer Vision and Pattern Recognition, 2005. CVPR 2005 [M]. IEEE Computer Society Conference on. Vol. 1. IEEE, 2005.

[10]Pang Y, Yuan Y. Efficient HOG human detection[J]. Signal Processing, 2010, 91:773-781.

[11]陈锐.基于稳定区域梯度方向直方图的行人检测方法. [J].计算机辅助设计与图形学学报,2012,3(24):372 -377.

[12]Wu, Bo, and Ramakant Nevatia. Detection of multiple, partially occluded humans in a single image by bayesian combination of edgelet part detectors [M].Computer Vision,2005. ICCV 2005. Tenth IEEE International Conference on. IEEE, 2005(1).

[13]Sabzmeydani, Payam, and Greg Mori. Detecting pedestrians by learning shapelet features [M].Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007.

[14]Mu, Yadong, et al. Discriminative local binary patterns for human detection in personal album [M].Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008.

[15]Walk, Stefan, et al. New features and insights for pedestrian detection [M].Computer vision and pattern recognition (CVPR), 2010 IEEE conference on. IEEE, 2010.

A Method of Pedestrian Detection Based on the Local Row Color Self-similarity

Zhai Fen1, Cai Xuan1,2, Yimeng Li2, Feng Rui1
(1.Video Technology and Systems Engineering Research Center of Shanghai, School of Computer Science, Fudan University, Shanghai 201203, China; 2.The third Institute of Ministry of public security, Shanghai 201204, China)

For pedestrian detection problems in computer vision, this paper proposes a feature based on the local row color self-similarity. In HSV space, this feature represents the color histogram distance of the symmetric non-overlapping blocks in the horizontal direction. It combined Multi-Level Oriented Edge Energy Features with this feature to obtain fusional features, and used Histogram Intersection Kernel Support Vector Machine to classify. Compared to the method of mainstream HOG+SVM, the dimension of this feature is lower. While guaranteeing the detection accuracy, the efficiency of this method is improved mostly. Experiment results validate the effectiveness of the proposed approach.

Pedestrian Detection; Local Row Color Self-similarity; Multi-level Oriented Edge Energy Features; HIKSVM

TP391

A

2015.01.26)

1007-757X(2015)04-0004-04

国家科技支撑计划(2013BAH09F01);上海市科委科技创新行动计划(14511106900)

翟 芬(1989-),女,复旦大学计算机科学技术学院,上海视频技术与系统工程研究中心,硕士研究生,研究方向:视频图像处理和计算机视觉,上海,201203

蔡 烜(1980-),男,公安部第三研究所,助理研究员,博士,研究方向:机器学习,上海,201204

李一蒙(1992-),男,公安部第三研究所,学士,研究方向:计算机视觉和机器学习,上海,201204

冯 瑞(1971-),男,复旦大学,副教授,博士,研究方向:视频图像处理和计算机视觉,上海,201203

猜你喜欢

相似性直方图行人
一类上三角算子矩阵的相似性与酉相似性
符合差分隐私的流数据统计直方图发布
毒舌出没,行人避让
浅析当代中西方绘画的相似性
路不为寻找者而设
用直方图控制画面影调
我是行人
中考频数分布直方图题型展示
曝光闯红灯行人值得借鉴
低渗透黏土中氯离子弥散作用离心模拟相似性