APP下载

基于多特征和多核学习的行人检测方法的研究

2014-03-17侯能干陈效华

图学学报 2014年6期
关键词:直方图行人系数

孙 锐, 侯能干, 陈效华

(1. 合肥工业大学计算机与信息学院,安徽 合肥 230009;2. 奇瑞汽车股份有限公司前瞻技术科学院,安徽 芜湖 241009)

基于多特征和多核学习的行人检测方法的研究

孙 锐1,2, 侯能干1, 陈效华2

(1. 合肥工业大学计算机与信息学院,安徽 合肥 230009;2. 奇瑞汽车股份有限公司前瞻技术科学院,安徽 芜湖 241009)

行人检测系统涉及交通安全问题,需要很高的鲁棒性,基于单特征结合单核支持向量机的方法效果有限,为解决这一问题,提出采用多特征和多核学习的方法来提升系统的鲁棒性,通过将积分信道特征、多层次导向边缘能量特征和CENTRIST特征分别与直方图交叉核、高斯核和多项式核进行线性组合,采用简单多核学习(Simple MKL)来分别计算核函数的权重系数,将多核学习方法与经典的梯度直方图特征/支持向量机、多尺度梯度直方图特征/直方图交叉核支持向量机和特征融合/直方图交叉核支持向量机的行人检测方法进行比较,实验表明所提出的行人检测算法的鲁棒性有明显提升。

简单多核学习;直方图交叉核支持向量机;CENTRIST特征;积分通道特征;多层次导向边缘能量特征

行人检测就是要把视频或者图像中出现的行人从背景中分割出来并精确定位,它在视频监控、智能驾驶等领域有着广泛的应用前景。但由于行人目标无论是在身材、衣着、姿势,还是在视角、光照方面都有着较大的变化,加之复杂的背景场景以及摄像头自身的移动和晃动,同时行人检测要求很高的精度和实时性,使得行人检测成为机器视觉领域中最困难的课题之一。

目前,行人检测方法主要分为特征提取和机器学习两部分。2005年,Dalal和Triggs[1]提出了梯度方向直方图(histograms of oriented gradient, HOG)特征加线性支持向量机(support vector machine, SVM)分类器的行人检测方法在实验中取得了很好的表现,但对遮挡和复杂背景下的行人检测效果差,所以一些对遮挡处理和在复杂的背景下新的行人检测方法的文章相继发表[2-3]。Walk等[4]提出颜色自相似特征(self-similarity on color channels, CSS),通过人体部位间的颜色相似性来描述人体,且结合HOG特征使用,大大提升了行人检测效果。目前用于行人检测的分类器有主要SVM和AdaBoost两类。Maji等[5]采用一种新的核SVM——直方图交叉核SVM(histogram intersection kernel support vector machine, HIKSVM)来检测行人,该算法能快速检测到行人,且检测精度有所提升。朱文佳和戚飞虎[6]提出了一种Gentle Adaboost的分类策略并成功地应用于行人检测。而种衍文等[7]提出采用多特征结合Adaboost和SVM的两级行人检测算法,取得了很好的效果。AdaBoost分类器分类速度快,但训练时间长,训练复杂度随支持向量的数量增加呈现指数型增长。

现阶段行人检测技术正趋于向大规模化、检测精度和速度趋于实用化的方向发展,基于单特征的单核 SVM 方法的行人检测算法已经很难满足需求,不同核函数的特性不同,同一个数据集和相同的特征,如果采用的核函数不同,得出的结果却大不相同。随着大数据的时代到来,数据样本规模大,样本特征含有异构信息,多维数据的特征空间分布不平坦,采用单核对这些样本进行处理时发现效果并不是太好,采用单核简单的映射方法已经不能满足需要,这使得人们把目光转向了多核学习(multi-kernel learning, MKL)方法。MKL的目的是在训练SVM时优化权值系数,获得更好的分类能力。MKL是当前核机器学习领域的一个新的研究课题,并且提供了来自多个数据源的学习框架。研究表明使用多个内核可以提高决策函数的性能和适应性。本文采用行人检测常用的3种特征,基于简单多核学习方法提出了一种鲁棒的行人检测方法,对比单核分类方法检测精度有了明显提升。

1 特征提取

1.1 积分通道特征

积分通道特征都是一些相对简单的特征[8],这些特征利用积分图技术,使得计算简单且快速。通过实验可知,融合形成的新特征性能远高于其他特征包括HOG特征,它有以下优点:①不同的信息源(颜色,梯度等);②参数少且对参数不敏感;③在检测时能准确地定位空间。

底层特征有很多类型,都是基于对输入图像进行线性或者非线性的变换而产生。主要有:灰度(Gray)和彩色(RGB、HSV、LUV);线性滤波(Gabor滤波器,高斯滤波器);非线性变换(梯度,Canny边缘);梯度直方图等。底层特征都只能从某一方面表示图像的属性。实验表明[8],梯度直方图(Hist),梯度(Grad),彩色通道(LUV)这3个通道相结合时效果最好,计算简单、快速并且识别率最高。如图1(LUV+Grad+Hist)所示,计算过程如下:

(1) 通过线性或非线性变换产生10个通道。

(2) 在给定通道对多个矩形框(矩形框的大小为30×30)加总求和得到一组值。

(3) 对每个通道随机取200个矩形框,从而形成了一个2000维的特征。

当矩形框数量取得较大时,系统的检测率会比较高,但相应的特征维数也较高,系统运行时间则大大增加。实验表明,当矩形框数量分别为200个和250个的时候检测性能基本相同,对于320×240大小的输入图像,得到的特征维数分别为 2000(Hist:1200维;Grad:200维;LUV:600维)和2500(Hist:1500维;Grad:250维;LUV:750维),消耗的时间分别为0.025 s和0.0034 s。所以折中考虑算法选取200个矩形框。

图1 示例图像

1.2 多层次导向边缘能量特征

本文采用的另一特征是多层次导向边缘能量特征(multi-level oriented edge energy features)[9]。此特征是基于HOG的多尺度版本(multi-level HOG)。该特征先前用于人脸识别,取得了很好的效果,相比HOG特征而言,此特征更加简单且没有重叠的cell,特征维数也较低。如果输入图像是 64×128,HOG特征维数是3780维,而此特征维数为 1360维。降低了近3倍,但该特征的分类准确率却没有降低。图2描述计算特征图像(64×128)的过程,计算步骤如下:

(1) 通过与Gabor方向滤波器卷积计算图像在8个方向上的边缘能量响应。

(2) 然后对这8个方向的能量响应在一个固定大小(16×16)非重叠的cell进行L1正规化。

1.3 CENTRIST特征

图2 多层次导向边缘能量特征生成过程

CENTRIST(census transform histogram)是一种非参数描述图像局部变化的方法,反映的是局部区域的灰度变化,并不是灰度值本身[10]。CENTRIST是针对场景分类提出的一种新型描述子,能很好地描述物体的轮廓,并成功地应用于行人检测中的计算过程[11]。

CENTRIST是比较 8个邻域内像素灰度值大小,如果中心点像素灰度值大于或者等于邻域的灰度值,则当期邻域点被置于布尔值 1,否则,则被置于为0,然后把8个邻域内的二进制按照一定的顺序(本文采用从左至右,从上到下的顺序)得到一个二进制流,然后将二进制位流转换为十进制值[0,255],这个值记为CT值,正如图3所示,中心点“64”处的二进制位流为“11010110”,转换十进制CT值为214,这个CT值代替中心点“64”。对图像的所有像素取完CT值后,对整个图像做直方图统计,统计每个值出现的次数,所取的特征的维数是256维,由于计算一个像素的CT值是8次比较操作和8次对置位“0”或“1”的加法操作,CENTRIST的计算时间复杂度很低,如果用特殊的硬件(FPGA)进行操作,可能会进一步加快计算。CNETRIST计算简单快速且对光照变化等不敏感。这也是它被用于行人检测的重要原因之一。

图3 Census变换过程示意图

2 基于简单多核学习的分类优化

图4 多核函数线性组合合成示意图

目前,多核学习中常用多个核函数进行线性组合,虽然线性组合可能会导致信息的丢失,但是对多个核函数进行非线性的组合时就会有很高的空间复杂度和时间复杂度,根本不能达到时间应用,所以当下大部分多核学习采用的是多核线性的组合,且相比开发新的核函数代价要小很多。图4是多个核函数进行线性组合的流程示意图。多核线性组合合成方法:直接求和核,加权求和核,加权多项式扩展核。同一核函数结合不同的特征表现出来的性能也大不一样,核函数的选择取决于对数据处理的要求,不同的特征结合不同的核函数效果差异很大,即核函数选取的问题,这个问题也是多核学习的关键之一。目前多核学习多采用加权求和核,如式(1)所示:其中,G是最终得到的核函数,是不同核函数对应的核函数,而 M是参与组合的核函数个数,dm是各个核矩阵对应的权重系数,又称核组合系数。由于基本核矩阵都是由一些常用的核函数生成的,那么多核学习就转化为求解权重系数的问题了。通过式(1)可知,线性组合是一个凸组合,凸组合优化可以明显的简化多核学习问题。由于对多个核函数进行优良的凸线性组合,所以多核学习多采用这种方式进行处理。候选的核矩阵一般是常用核函数映射后得来的,由于开发新的核函数代价较大,对一些常用的核函数究竟该选取哪些核函数进行组合才会取得很好的效果,致此核函数选取问题和怎样去优化核组合的权值系数 dm就成为多核学习中最为关键的问题之一。

近些年很多学者针对优化核组合系数这一问题进行了很多不同的尝试,Lanckriet等在文献[12]中通过半定规划(semi definite programming, SDP)技术解决多核学习问题,SDP是一种凸优化的方法,且有很强的泛化能力。用它可求解多个核矩阵的线性组合系数。Bach等[13]又提出了采用“序列最小优化”(sequential minimal optimization, SMO)的算法,使得 MKL可用于处理中等规模问题。Sören等[14]提出半无限线性规划(semi infinite liner programming, SILP),该算法利用SVM中成熟的线性规划方法进行求解,能解决更多的复杂类型的问题,进一步提高了计算效率,适宜解决大规模MKL问题。Rakotomamonjy等[15]提出了采用“梯度下降”解决MKL问题,又称单多核学习(Simple MKL),实验证明该算法收敛速度更快且效率高。所以本文采取该算法来计算权重系数,具体的算法流程如下,根据SVM的理论,Simple MKL的原始优化问题变化如下:

采用Lagrangian法求解上述优化问题,则得:

其中,αi和 βi是受约束的拉格朗日乘子,λ和ηm是权重系数 dm的约束子。分别对求偏导,令其导数为零。由于持续约束这种双重问题难以优化,这种约束可能被移动到目标函数,然后,后者变成不可微的,引起了新的求解困难。而 Simple MKL采用梯度下降法解决这个优化的难题。通过考虑下面的约束优化问题:

将其转化为对偶问题:

其中,α*是式(6)最大化时的值。因此,Simple MKL的整体复杂性绑在一个单核SVM算法上。 J (d)的下降梯度表示为 ▽redJ ,且有下式:

μ是矢量d的最大组成部分的指数,在下降方向考虑了这种积极性约束。因为最小化 J(d),-▽redJ是其下降方向。

通过不断更新d直到满足停止准则,例如Armijo规则,以保证全局收敛性,该算法被终止,并可求得权重系数 dm,得到最终分类器:

3 实验结果与分析

为验证多核学习算法的有效性,可在 TUD数据集进行一系列的实验,从算法的实时性和鲁邦性两方面与经典的 HOG/SVM[1]算法和 Multi-scale HOG/HIKSVM[5]的行人检测方法进行比较,同时还特征融合/HIKSVM[16]的行人检测方法比较。为方便比较。由于核函数是决定多核学习效果的主要因素,本文选用行人检测中常用的几个核函数,如表1所示。

算法的程序在Visual C++和Matlab2010b下联合开发,性能测试实验在 CPU3.10 GHz, 64位Windows 7系统,4 G内存的计算机上运行,Simple MKL算法采用 SHOGUN Machine Learning Toolbox。不同的特征对应不同的核函数会产生效果,为了寻找最优的结果,把以上的3个特征分别在这3种核函数下进行实验对比。

从图5中可以看出,多层次导向边缘能量特征和 HIKSVM 效果最好,而积分通道特征和CENTRIST特征分别对应高斯核和多项式核函数时效果较为理想,且再次证实了 HIKSVM对直方图类的特征的分类的效果较好。

为验证本文的多核学习模型的权重系数有效性,通过随机取 10组权重系数数据与本文的权重系数进行对比,结果如表2所示。通过表2可知,本文所采用的权重系数值比随机抽取的 10组权重系数值的鲁棒性都较高。可见一种好的确定权重系数方法对算法的性能有很大的影响,这也是后期工作的关键点之一。

表1 常用的核函数

图5 3种特征在不同核函数上的ROC曲线对比

表2 权重系数对比实验

图6为本算法在TUD数据集上的实验结果,该算法的检测精度有了大幅提高。在虚警率为1×10-4时,同HOG/SVM方法相比,检测高出9%;与特征融合/HIKSVM相比高出2%;与Multi-scale HOG/HIKSVM方法相比高出4%。从实验的结果来看,多核学习是分类器的融合,相比特征融合而言,在鲁棒性上有所提升,由于多核学习的复杂度较高,检测一幅720× 576的图片时间要10 s左右,实时性较差。后续将进一步研究如何提升系统鲁棒性的同时加强算法的实时性。最终行人检测结果部分示例的图像如图7所示,实验证明了检测识别率有一定提高。

图6 本文方法与其他方法ROC曲线对比

图7 本文方法在TUD检测结果

4 总 结

本文提出一种多特征和多核学习方法运用到行人检测来提高算法的鲁棒性,详细给出了 3种积分通道特征、多层次导向边缘能量特征、CENTRIST特征的生成方法,针对不同的特征选择不同的核函数,采用Simple MKL方法解决了分类器参数优化问题,实验表明多层次导向边缘能量特征结合 HIKSVM 时的效果要好于其他核函数,同理,积分通道特征和CENTRIST特征分别对应高斯核和多项式核函数时效果较为理想。实验证明,所提方法分别与经典 HOG/SVM方法、Multi-scale HOG/HIKSVM、多特征融合的方法对比,在行人检测鲁棒性上有明显提高,后期的工作重点将进一步研究快速参数优化方法增强算法实时性能。

[1] Dalal N, Triggs B. Histograms of oriented gradients for human detection [C]//2005 IEEE Conference on Computer Vision and Pattern Recognition, San Diego, USA, 2005: 886-893.

[2] Ouyang Wanli, Wang Xiaogang. A discriminative deep model for pedestrian detection with occlusion handling [C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition, Rhode Island, USA, 2012: 3258-3265.

[3] Yan Junjie, Zhen Lei, Dong Yi, Li Z S. Multi-pedestrian detection in crowded scenes: a global view [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition, Rhode Island, USA, 2012: 3124-3129.

[4] Walk S, Majer N, Schindler K, Schiele B. New features and insights for pedestrian detection [C]//2010 IEEE Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010: 1030-1037.

[5] Maji S, Berg A C, Malik J. Efficient classification for additive kernel SVMs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 66-77.

[6] 朱文佳, 戚飞虎. 基于Gentle Adaboost的行人检测[J].中国图象图形学报, 2007, 12(10): 1905-1908.

[7] 种衍文, 匡湖林, 李清泉. 一种基于多特征和机器学习的分级行人检测方法[J]. 自动化学报, 2012, 38(3): 375-381.

[8] Dollár P, Tu Zhouwen, Perona P, Belongie S. Integral channel features [C]//2009 British Machine Vision Conference, London, UK, 2009: 1-11.

[9] Lazebnik S, Schmid C, Ponce J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]//2006 IEEE Conference on Computer Vision and Pattern Recognition, 2006: 2169-2178.

[10] Wu Jianxin, Rehg J M. CENTRIST: a visual descriptor for scene categorization [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1489-1501.

[11] Wu Jianxin, Geyer C, Rehg J M. Real-time human detection using contour cues [C]//2011 IEEE International Conference on Robotics and Automation (ICRA), 2011: 860-867.

[12] Lanckriet G, Cristianini N, Bartlett P, Ghaoui L EI, Jordan M I. Learning the kernel matrix with semi-definite programming [J]. The Journal of Machine Learning Research, 2004, (5): 27-72.

[13] Bach F R, Lanckriet G R G, Jordan M I. Multiple kernel learning, conic duality, and the SMO algorithm [C]// ACM Proceedings of the Twenty-first International Conference on Machine Learning, Banff, Canada, 2004: 6.

[14] Sören S, Rätsch G, Schäfer C, Schölkopf B. Large scale multiple kernel learning [J]. The Journal of Machine Learning Research, 2006, (7): 1531-1565.

[15] Rakotomamonjy A, Bach F, Canu S, Grandvalet Y. Simple MKL [J]. Journal of Machine Learning Research, 2008, 9(11): 2491-2521.

[16] 孙 锐, 侯能干, 陈 军. 基于特征融合和交叉核SVM的快速行人检测方法[J]. 光电工程, 2014, 41(2): 53-60.

Pedestrian Detection Based on Multi Feature and Multi Kernel Learning

Sun Rui1,2, Hou Nenggan1, Chen Xiaohua2
(1. School of Computer and Information, Hefei University of Technology, Hefei Anhui 230009, China; 2. Academy of Science and Advanced Technology, Chery Automobile Co., Wuhu Anhui 241009, China)

Pedestrian detection system is involved in the traffic safety problem, and it requires very high robustness. The effect of the method based on single feature combined with single kernel support vector machine is limited. To solve this problem, this paper uses multi feature and multi kernel learning method to improve the robustness of the system. Integral channel features, multi-level oriented edge energy feature and CENTRIST features are respectively combined with histogram intersection kernel, gauss kernel and polynomial kernel. Simple multi-kernel learning (Simple MKL) is adopted to calculate the weight coefficients of kernel function. Multi-kernel learning pedestrian detection method is compared with histograms of oriented gradient feature/support vector machine, Multi-scale histograms of oriented gradient feature/histogram intersection kernel support vector machine and feature fusion/histogram intersection kernel support vector machine pedestrian detection methods. The experiments show that the robustness of pedestrian detection algorithm has obvious improvement.

simple multi-kernel learning; histogram intersection kernel support vector machine;CENTRIST feature; integral channel features; multi-level oriented edge energy feature

TP 391

A

2095-302X(2014)06-0869-07

2014-04-02;定稿日期:2014-07-16

国家自然科学基金面上资助项目(61471154);中国博士后基金资助项目(2013M531504);教育部留学回国人员启动基金资助项目

孙 锐(1976-),男,安徽蚌埠人,副教授,博士。主要研究方向为图像信息处理、多媒体安全、计算机视觉与模式识别。E-mail:sunrui@hfut.edu.cn

猜你喜欢

直方图行人系数
符合差分隐私的流数据统计直方图发布
毒舌出没,行人避让
基于FPGA的直方图均衡图像增强算法设计及实现
路不为寻找者而设
这些待定系数你能确定吗?
用直方图控制画面影调
打雪仗
过年啦
我是行人
中考频数分布直方图题型展示