离散小波变换Haar-LL的行人检测研究

1 概述

当前行人检测技术越来越受到重视,行人检测对于交通部门提高驾驶安全性、保障行人生命安全具有非常重要的作用;此外,行人检测技术对于研究智能监控系统以及某些智能终端也有非常积极的作用。行人检测技术已经成为智能辅助驾驶系统、人体行为分析以及智能监控系统领域的研究方向。近年来也应用在航拍图像、受害者营救等新兴领域里。行人检测技术可以大致看成如下过程:判断输入图片(或者视频帧)是否包含行人,若包含行人,则给出其位置信息,并且进行精确定位。

行人检测一般分为基于运动的方法和基于形状的方法。基于运动的方法[1]通过分析行人的步态周期性来识别行人,其对颜色、光照等影响比较小,但是只能用于识别运动行人,且容易受运动目标干扰;基于形状的方法有基于模板匹配的方法、基于统计分类的方法等,目前用的比较广泛的是基于统计分类的方法。其主要通过分类器对行人进行识别,但是需要大量的训练数据来提高其鲁棒性。

近些年,研究人员提出了一系列行人检测方法,包括基于梯度方向的直方图(Histogram of Oriented Gradient,HOG)检测子[2-3]、PHOG检测子[4,5]、多特征融合的行人检测方法[6]、基于部件的检测方法[7]等。以上方法是针对静态图片的检测方法,采用多尺度窗口扫描方案[8],在一定程度上取得了不错的效果,但其检测准确率、检测效率以及实时性方面仍然有待提高。因此,行人检测问题仍然是机器视觉领域的一个研究难点和热点。

文献[9-10]提出了局部二值模式(Local Binary Pattern,LBP)描述子用来刻画图像的纹理信息。该特征具有计算速度快的优点,但是LBP算子在图像比较模糊或者光照变化强烈等成像条件较差时,不能有效地刻画出图像的纹理特征。

文献[11]提出一种类似LBP的局部梯度模式(Local Gradient Pattern,LGP)特征用来刻画行人,该特征在某些情况下相比LBP特征表现更好,然而某些情况下其表现仍不如LBP特征。

近年来,很多人将小波变换[12-13]应用于信号分析、图像处理、计算机分类与识别等众多领域。本文对图像进行二维离散Haar小波变换,对提取出的细节信息分别进行LBP与LGP特征提取,并将2种特征结合到一起,形成一种新的特征,进行行人检测。

2 相关工作

2.1 二维离散小波变换

图像可以看作是一个二维矩阵,每次小波变换之后,图像矩阵便分解为4个大小为原尺寸1/4的子块频带区域,如图1所示,分别包含了相应频带的小波系数,相当于在水平和竖直方向上进行的隔点采样。

图1 二维离散小波变换

原始图像经过二维离散小波变换后,可以得到4个原图像尺寸1/4的子图像,分别是低频部分分解系数(LL)、水平方向分解系数(LH)、垂直方向分解系数(HL)和对角线方向分解系数(HH)。如图2所示,左边图像为原始图像,右边图像为经过二维离散Haar小波变换后的4幅子图像。从图2中可以看出,经过分解后的子图都是原图像的1/4大小,并且原图像的大部分信息被低频部分(LL)很好地保留,而其他3幅子图像仅保留着一些高频轮廓信息。

图2 二维离散Haar小波分解示例

2.2 LBP算子

LBP特征首先是求取图像中各个像素点与其相邻的像素点在灰度上的二值关系;接着对二值关系按照二进制加权规则形成局部二值模式;最后对该区域采用直方图序列作为图像二值模式。最基本的LBP方法定义为对于任意3×3的窗口,可以得到g0,g1,g2,g3,g4,g5,g6,g7,gc9个像素点的灰度值。以该窗口中心点的灰度值(gc)为阈值,对窗口内的像素作二值化处理,则其纹理T的分布可定义为:

接着根据像素在图中排序的不同位置按照式(2)进行加权求和,结果便是该窗口的LBP值。

具体如图3所示。中间像素点灰度值为60,其余各点灰度值分别为70,20,20,120,120,20,20,50。LBP模式=10011000,LBP=128×1+64×0+32× 0+16×1+8×1+4×0+2×0+1×0=152。

图3 LBP原理示意图

2.3 LGP算子

局部梯度模式(LGP)描述子是应用在计算机视觉领域,用于目标检测的特征描述子。LGP方法一般定义为在任意的3×3的窗口可以得到9个像素点的灰度值。外围8个点g0,g1,g2,g3,g4,g5,g6,g7分别与中间点(gc)作差后的值的绝对值h0,h1,h2,h3,h4,h5,h6,h7与这个8个点的平均值hc(即阈值)进行比较,若大于阈值则记为1,小于则记为0,然后对8个值进行二进制编码,可以表示为如下公式:

其中,i=0,1,2,3,4,5,6,7。

然后根据每个值的不同位置进行加权求和:

具体如图4所示。中间像素点灰度值为60,其余各点灰度值分别为70,20,20,120,120,20,20,50,则hc=37.5。于是LGP模式=01111110,LGP= 128×0+64×1+32×1+16×1+8×1+4×1+2× 1+1×0=126。

图4 LGP原理示意图

对一幅128×64的图,每一个点的LGP或者LBP值都是一个0～255之间的数,将得到128×64的表,若将这些值全部作为特征势必会造成数据量很大,采用LBP特征的方式对整个图像求直方图,将维度降为256维。

2.4 LGP与LBP的比较

2.4.1 LGP相比LBP的优点

如图5所示,当前景和背景的灰度值一起变化时,LBP与LGP计算的二进制编码值都相同,可见2种描述方式的结果是一样的。

图5 LBP与LGP表示方法对比1

当前景和背景局部变化时,LGP是不变的,而 LBP是变化的。如图6所示,当前景不变,背景灰度值变小时采用LBP描述的相同轮廓下的二进制编码值不同,而采用LGP描述方式描述的相同轮廓的二进制编码值仍然相同。

图6 LBP与LGP表示方法对比2

如图7所示,当背景不变,前景灰度值变大时,采用LBP描述的相同轮廓下的二进制编码值不同,而采用LGP描述的相同轮廓下的二进制编码值仍然相同。

图7 LBP与LGP表示方法对比3

这是由LBP与LGP各自的阈值取值不同所决定的。LBP的阈值就是该点的灰度值,那么周围像素点的灰度值变化很有可能引起最后得到的编码发生改变,而LGP采用的是周围像素灰度值与中间值差的绝对值作为阈值,当周围像素点灰度值发生变化的同时,阈值也随之改变,故而得到编码值与变化前是相同的。由此可见,LGP比LBP描述的鲁棒性好。

2.4.2 LGP相比LBP的缺点

然而当中间像素点值是四周像素点灰度值的中间值时,其LBP二进制编码值与9个像素点灰度值都相同描述的LBP二进制编码值完全不同,而采用LGP方式则是一样的,如图8所示。

图8 LBP与LGP表示方法对比4

3 多特征融合

为了充分发挥2种特征提取方式(LGP,LBP)的长处,本文通过有效融合的方法来实现。本文提出了一种基于Haar小波变换的LGP-LBP特征融合方法(Haar-LL方法)。该方法首先对图像进行二维离散Haar小波变换,对得到的LL部分提取LBP特征,对得到的其他3个部分分别提取LGP特征,实验证明将提取的3个部分高频轮廓信息的LGP特征进行并拼接再与LBP特征串接后效果最佳。这样可以利用小波变换对图像进行降维,从而达到减少提取特征时间的目的,同时也一定程度上弥补了LBP对光照和以及噪声图像鲁棒性差的缺点。

4 基于特征融合的行人检测

SVM[14]是一种基于分类边界的方法,在将低维空间中的曲线或者曲面映射到高维空间中的直线或平面时,其计算量大为减少。在将低维空间映射到高维空间的同时,也计算了2个数据在高维空间的内积,使计算量回归到低维空间计算的量级。分类器性能的好坏在很大程度上取决于核函数的类型、惩罚系数C以及核函数参数。常用的核函数是多项式核函数、径向基核函数以及Sigmoid核函数。不同的核函数对SVM在分类效果和时间上都有很大的影响。本文通过多次实验发现使用线性核函数分类效果最佳。本文按照图9所示的处理框架进行行人检测试验。

图9 行人检测框架

5 实验比较及结果分析

本文设计了5个实验进行性能测试对比。用于实验的样本采用INRIA行人数据库。INRIA是法国国家信息与自动化研究所的简称,其重点研究领域为计算机科学、控制理论及应用数学。INRIA数据集中只有直立行人,且每个行人的高度超过100像素。本实验中,训练正样本2 416幅行人图像,负样本2 500幅非行人图像。测试正样本1 126幅图像,负样本1 059幅图像;分类器采用的是SVM,因为SVM在解决小样本、非线性数据问题中具有许多特有的优势。INRIA Person行人检测样本库中的部分训练正样本如图10所示。

图10 INRIA检测样本库中的部分训练正样本

5.1 不同方法的检测效果分析

为了验证本文方法的优越性,本文设计4组实验,分别与HOG,PHOG,LBP,LGP等方法进行对比。

从图11可以看出,对于单幅样本(128×64)而言,本文方法与LBP方法、LGP方法大致相当,消耗时间略高于LBP方法,但是相比HOG与PHOG有很大优势,且5.23 ms的检测效率对于实际应用来说能够接受。仅牺牲一小部分检测效率来换取检测性能的提升是值得的。

图11 不同特征提取单幅样本时间

从图12可以看出,对于相同训练样本及测试样本,在同样的环境下,本文方法与LBP方法性能大致相当,本文方法高于LBP方法及LGP方法约1个百分比、高于HOG方法与PHOG方法约2个百分比。由于本文方法是在LBP方法基础上进行融合,因此该方法保留了原LBP方法的优点,同时又对LBP方法的不足之处进行了改善,故性能比LBP方法好。

图12 不同特征检测准确率

衡量一个方法的优劣一般采用 TP(True Positive)、FP(False Positive)、TN(True Negative)、FN(False Negative)作为衡量标准。TP表示行人检测为行人,FP表示非行人检测为行人,TN表示非行人检测为非行人,FN则表示行人检测为非行人。而本文关心的是行人的检测效率,故采用TP和FN即可,TP越大或者FN越小,说明方法的误检率和漏检率越低,其方法的性能就越好。

从图13可以看出,对于相同训练样本及测试样本,在同样的环境下本文方法的TP为1 074(正样本数为1 126),与LGP,LBP等方法相差不大,但是远大于HOG,PHOG方法。

图13 不同特征检测的TP值

FN同样是衡量一个方法优劣性的重要指标,本文对4种方法进行同环境对比后的结果如图14所示。从图14可知,本文方法的FN为52,比其他方法都要低。

图14 不同特征检测的FN值

5.2 鲁棒性对比

为了验证本文方法与当前主流方法的鲁棒性对比,本文设计了如下实验。

本实验选取1 000幅样本(500正样本+500负样本),分别加入0.05,0.04,0.03,0.02,0.01这5种不同参数的高斯噪声,然后分别用LBP方法与本文方法进行对比,如图15所示。从实验结果来看,无论噪声情况怎样,本文方法效果都略好于LBP方法,比同等情况下其他方法效果好很多。

本文实验同样采用1 000幅样本(500正样本+ 500负样本),分别对其进行光照减弱及增强实验,分别将灰度值-100,-80,-60,-40,-20,+20, +40,+60,+80,+100,得到10组样本,采用LBP, HOG,PHOG,LGP以及本文方法进行检测,如图16所示。从图中可以看出本文方法及LBP,LGP等基于纹理的方法对于光照鲁棒性效果不如基于梯度的HOG,PHOG等方法。相比同样基于纹理的方法,本文方法在光照增强的部分和LGP,LBP等方法性能基本一致,但是对于光照减弱部分效果明显比LBP, LGP等方法好。

图15 不同特征的噪声鲁棒性对比

图16 不同特征的光照鲁棒性对比

5.3 本文方法的实验效果图

基于上述较高识别率的情况下,在 Detect Human行人样本测试库里进行了大图片中行人检测实验。其部分效果如图17所示。

图17 Detect Human行人样本测试效果图

6 结束语

本文对LBP方法以及另一种类似LBP方法的LGP方法的优劣进行比较,发现其各自的优缺点,提出结合小波特征的方法对其进行融合,在SVM线性分类器下得到比较好的分类效果,从与当前主流方法进行对比可以看出,本文方法在光照鲁棒性以及噪声鲁棒性方面都能取得比较好的效果。但是由于行人的衣着、姿态、拍摄角度等因素的影响,对于行人检测的性能还有待进一步提高。

[1] 苏松志,李绍滋,陈淑媛,等.行人检测技术综述[J].电子学报,2012,40(4):814-820.

[2] Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C]//Proc.of International Conference on Computer Vision&Pattern Recognition. Montbonnot,France:[s.n.],2005:886-893.

[3] 叶林,陈岳林,林景亮.基于HOG的行人快速检测[J].计算机工程,2010,36(11):206-210.

[4] Bosch A,Zisserman A,Munoz X.Representing Shape with a Spatial Pyramid Kernel[C]//Proc.of the 6th ACM International Conference on Image and Video Retrieval.New York,USA:[s.n.],2007:401-408.

[5] 袁杰,魏宝刚,王李冬.一种综合PHOG形状和小波金字塔能量分布特征的图像检索方法[J].电子学报, 2011,39(9):2114-2119.

[6] Dollár P,Belongie S,Perona P.The Fastest Pedestrian Detector in the West[C]//Proc.of the British Machine Vision Conference.[S.l.]:BMVA Press,2010:1-11.

[7] Gan Guolong,Cheng Jian.Pedestrian Detection Based on HOG-LBP Feature[C]//Proc.of 7th International Conference on Computational Intelligence and Security. [S.l.]:IEEE Press,2011:1184-1187.

[8] Dollar P,Babenko B,BelongieS,etal.Multiple Component Learning for Object Detection[C]//Proc.of the 10th European Conference on Computer Vision. [S.l.]:IEEE Press,2008:21l-224.

[9] Ojala T,Pietikinen M,Harwood D.A Comparative Study of Texture Measures with Classification Based on Feature Distribution[J].Pattern Recognition,1996,29(1):51-59.

[10] Zhao Guoying,Ahonen T.Rotation-invariant Image and Video Description with Local Binary Pattern Features [J].IEEE Transactions on Image Processing,2012,21 (4):1465-1477.

[11] Jun Bongjin,Choi I,Kim D.Local Transform Features and Hybridization forAccurate Face and Human Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(6):1423-1436.

[12] Zhang Xinyang,Zhang Renjin.The Technology Research in Decomposition and Reconstruction of Image Based on Two-dimensional Wavelet Transform[C]//Proc.of the 9th International Conference on Fuzzy Systems and Knowledge Discovery.[S.l.]:IEEE Press,2012:1998-2000.

[13] Kulkarni J S.Wavelet Transform Applications[C]//Proc. ofthe 3rd InternationalConference on Electronics Computer Technology.[S.l.]:IEEE Press,2011:11-17.

[14] Lin Kengpei,Chen M S.On the Design and Analysis of thePrivacy-preserving SVM Classifier[J].IEEE Transactions on Knowledge and Data Engineering,2011, 23(11):1704-1717.

编辑顾逸斐

Research on Pedestrian Detection of Discrete Wavelet Transform Haar-LL

SHAO Feng-xian,LI Feng,ZHOU Shu-ren
(School of Computer&Communication Engineering,Changsha University of Science&Technology,Changsha 410004,China)

This paper presents a two-dimensional discrete wavelet transform Haar Local Binary Pattern(LBP)with Local Gradient Pattern(LGP)feature fusion method Haar-LL.The image of the two-dimensional discrete wavelet transform Haar,to thereby obtains four different frequency sub-images,and extracts the low frequency part of the LBP feature,three high-frequency sub-images of the LGP feature extraction,and takes the three characteristics of LGP parallel fusion and LBP features for serial fusion.Under the Matlab environment using Support Vector Machine(SVM)on the INRIA data set for five experimental groups INRIA dataset experiments carried out on five groups,respectively,with Histograms of Oriented Gradients(HOG),Pyramid of Histograms of Orientation Gradients(PHOG),LBP,LGP detection rate,detection time,light and noise robustness contrast.Comprehensive various experimental data show that the robustness of illumination and noise is better.

two-dimensional discrete wavelet transform;pedestrian detection;Local Binary Pattern(LBP)feature;

1000-3428(2014)09-0204-06

TP391

10.3969/j.issn.1000-3428.2014.09.041

湖南省自然科学基金资助项目(12JJ6057);湖南省教育厅科研基金资助项目(13B132);长沙市科技计划基金资助项目(K1203015-11)。

邵逢仙(1989-),男,硕士研究生,主研方向:模式识别,图像处理;李峰,教授、博士;周书仁,博士。

2013-09-29

2013-11-06E-mail:sfx9000@163.com

Local Gradient Pattern(LGP)feature;feature fusion;Support Vector Machine(SVM)