基于快速HIKSVM的行人检测算法研究
2018-11-26王俊文刘力李林
王俊文 刘力 李林
摘要:行人检测是目标检测中重要研究课题之一,已经在智能监控、智能汽车控制、智能搜索、智能机器人等领域得到广泛应用。该文从人体的结构、运动、外表等独特姿态特征研究角度出发,通过分析HOG、HOF、CSS等特征提取算法,与快速HIKSVM分类算法相结合,设计多特征融合分类器,研究人体的结构信息、运动信息、外表信息等对行人检测算法的影响及其互补关系。实验表明三种信息特征具有较好的互补作用,在0.1FPPI评估条件下漏检率为43.75%。
关键词:行人检测;特征提取;分类;SVM
中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2018)22-0166-03
行人检测是目标检测中重要研究课题之一,已经在智能监控、智能汽车控制、智能搜索、智能机器人等领域得到广泛应用,具有重要的研究意义和社会意义。行人与其他目标不同,是非刚体,行人服饰、姿态多样化导致类内差异很大;其次,行人生活的环境的天气好坏,光照强弱,异物遮挡,人与人之间的遮挡等均影响着行人检测系统的最终检测效果。为了克服这些影响因素,本文采用多特征融合的方法进行特征提取和基于快速的直方图交互核函数(HIK)的SVM进行分类,研究实验多特征对行人检测算法的相互影响。
1 人体特征提取算法
特征提取是贯穿整个行人检测研究过程。从样本特征集提取,到利用特征集分类训练,最终到检测识别。它是行人检测算法性能的重要影响因素。
为了选择鲁棒性强、显著区别于其他种类目标的人体特征,我们根据行人检测的进展情况,选择梯度方向直方图HOG、光流HOF、颜色自相似性CSS三个特征,作为本文的研究对象。
1.1 HOG特征提取算法
HOG(梯度方向直方图)是行人检测最典型的算法之一,提出之后一度成为行人检测研究的基础。HOG最初是由Dalal & Triggs et al[4]提出的,作者利用局部区域梯度信息的分布,表示局部区域内目标的梯度结构和边缘,进而表征出目标的外部形状。将一幅图像窗口划分成有规则的Cell(细胞),根据Cell中每个像素的梯度方向,对每一个Cell构造含有若干个bin(直方图组数)的梯度方向直方图,其中每个bin中的梯度幅值之和为该bin的响应值。所有Cell的直方图得到的响应值串联结合在一起形成了HOG描述子。为了克服光照和阴影等的影响,将若干个Cell组合成一个block,并且block之间互有重叠,对block内的数据进行归一化。
1.2 HOF特征提取算法
Dalal et al[6]为了用静态的外观捕获大量可利用的边界周围信息,基于流的描述符应该更多地集中在捕获内部或相对运动的补充信息。流之间的不同可以通过成对的相邻区域的之间的差异来计算。这个差异信息与HOG不同,不一定是相邻的点和基于方向的流差矢量的角度投票,也不一定是空间导数位移方向,而是用更大尺度的空间差异取代简单的对x,y方向求导,还有可能是不同的几个方向。本文采取的编码表是IMHd2,是由Stefan Walk et al[5]提出的。IMHd2码表含义是:表示行人在图像中位置的变化,分别是水平方向、竖直方向、主对角线方向和副对角线方向等四个运动方向,例如一个2x2Cells的块Block,该块有4个直方图,每个直方图存放每个方向下的对应两个Cell的差异。Dalal称这种类型的编码表为积分运动直方图IMH(Internal Motion Histograms)。把这种类型的编码表所产生的特征描述子叫作HOF(Histograms of Flow)。
1.3 CSS特征提取算法
CSS,全稱是color-self similarity,被称为局部颜色自相似性特征,是由Stefan Walk et al[5]提出的。行人的外形除了梯度边缘信息和运动信息外还有自身的颜色信息。人体大概可以分为头部,左、右上肢,上身,左、右下肢等六个区域,这六个区域内部局部相似度大。为了减少检测偏差,我们利用鲁棒性强局部颜色直方图,以64x128图像为例,无重叠的将检测窗口分为D=8x16=128个8x8大小的块block,用三线性插值求得128个局部颜色直方图。本文实验在HSV颜色空间中,每个块得到3x3x3的直方图,两个块的直方图的相似性即形成一个特征。我们将第1个块与其后127个块分别求相似性,第2个块与其后126个块同样的分别求相似性,以此类推,产生D(D-1)/2 = 8128维特征。
2 快速HIKSVM分类算法
在最新的分类器算法评估中,性能最好的SVM核函数构成的分类器是线性(Linear)和直方图交互(Histogram Intersection Kernel, HIK)的SVM[7]。
线性核函数的SVM在行人检测中最为普遍,因为它不但有比较好的分类性能,而且训练和分类速度都很快,基本上能够满足实时应用的条件。一般地,若用SVM训练得到m个支持向量,支持向量的维数为n维。则目标判别的时间复杂度为O(n)。
非线性核函数的SVM通常在分类性能上效果会更好,但是诸如径向基和多项式核函数在一个样本进行分类时,随着支持向量数目的增加需求的时间会线性增加,并且在实际应用中,特别是有大量分类样本时会异常耗时。然而,在非线性核函数中,HIK函数分类的时间随支持向量数目增加成对数增加,不会成线性增加趋势。如果对支持向量数据进行预处理,则分类的时间复杂度会变小,只是对内存空间要求高。下面我们通过推导验证HIK核函数的这一特点。
3 实验分析
3.1 关于快速HIKSVM分类器的性能分析
从表1可以看出快速HIKSVM的检测速率与线性SVM相比仍然有较大差距,但与普通HIKSVM相比耗时缩减了几百倍。从表2中看出,同样的测试集,正确检测人数(TP)增加了30个,查全率从75.3%提高到80.7%。换一个比较维度,如图1所示,在0.1FPPI情况下,漏检率减少了5.42%,快速HIKSVM分类性能更为突出。因此在检测速率折衷前提下,HIKSVM查全率更高。
3.2 基于快速HIKSVM的多特征分类分析
本文对HOG、HOGF(HOG+HOF)、HOGS(HOG+CSS)、HOGFS(HOG+HOF+CSS)四种多特征融合训练的分类器的性能进行分析,分别对INRIA集的实况评估图片进行测试,从表3简单得出:HOGFS准确检测到的人数多,误检少,漏检少,正是满足一个鲁棒的分类器所具备的属性。但是这是粗略的分析,分类器性能好坏需要用FPPI评估方法对四种实验结果进行具体的评估。
评测结果按照FPPI- miss rate曲线图(如图2)和分类器漏检率相互比较的柱状图(如图3)来分析:
(1)HOGF分类器比特征单一的HOG分类器性能有了很大的提高,在0.02FPPI情况下,提高了大约10%;平均漏检率减少了3.35%。表明,运动信息对行人检测性能有极大促进作用,可以很好地对表面特征形成互补。
(2)同样,HOGS分类器的平均漏检率也减少了4.03%,比HOGF性能还要好,说明颜色自相似性对梯度信息更能起到互补作用。
(3)既然HOGF和HOGS分类器都有不错的检测性能,我们对二者性能也做了比较,当0.02 (4)最后我们把HOG、HOF和CSS三种特征结合在一起,显示HOG-HOF-CSS(以下简称HOGFS)的性能比HOGF和HOGS都要好,平均漏检率分别减少了2.05%和1.37%。当0.02 4 结论 结果表明运动信息特征HOF和颜色自相似性特征CSS能与梯度信息HOG形成互补,最好的结果是在0.1FPPI情况下漏检率为43.75%。相比单一的HOG分类器,性能提高了5.4%。说明基于HIKSVM的多特征融合的方法能够提升行人检测的准确率。 参考文献: [1] 姜夕凯, 苏松志, 李绍滋,等. 基于单张静态图像的人体行为识别方法综述[J]. 漳州师范学院学报:自然科学版, 2011, 24(4): 23-26. [2] 陆军, 李凤玲, 姜迈. 摄像机运动下的动态目标检测与跟踪[J]. 哈尔滨工程大学学报, 2008, 29(8): 831-835. [3] Hu T, Zheng M, Li J, et al. Scene-adaptive moving detection with machine learning based on clustering[C]. IEEE 14th International Conference on High Performance Computing and Communication & IEEE 9th International Conference on Embedded Software and Systems (HPCC-ICESS), 2012: 1782-1787. [4] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2005: 886-893. [5] Walk S, Majer N, Schindler K, et al. New features and insights for pedestrian detection[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010: 1030-1037. [6] Dalal N, Triggs B, Schmid C. Human detection using oriented histograms of flow and appearance[M]. Computer Vision – ECCV 2006. Springer Berlin Heidelberg, 2006: 428-441. [7] Maji S, Berg A C, Malik J. Classification using intersection kernel support vector machines is efficient[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2008: 1-8. 【通聯编辑:代影】