基于改进DPM模型的行人检测方法研究
2018-07-05张亚须云利军
张亚须 ,龙 晖,云利军,3*
(1.云南师范大学信息学院,昆明 650500;2.云南省委办公厅信息技术中心,昆明 650021;3.云南省光电信息技术重点实验室,昆明 650500)
在行人检测中,由于行人的胖瘦、高矮不一,服饰颜色、样式不一,拍摄角度不同,又有背景以及光照等影响,这些都增加了行人检测的难度。行人检测过程分为两个步骤,外观特征提取以及分类学习。其中,外观特征主要有梯度方向直方图(HOG)特征〔1〕,轮廓特征,局部特征sift、surf等,局部二值特征(LBP)等;分类学习主要使用AdaBoost分类器、支持向量机(SVM)分类器〔2〕,以及它们的各种变形组合。自从HOG特征应用于外观特征提取以来,很多基于HOG特征的行人检测算法被提出。例如:文献〔3〕用SVM对提取的HOG特征分类训练,利用训练得到的分类器对行人检测,HOG特征基于梯度方向信息并且块与块之间重叠50%,因此能减弱光照变化和小量偏移的影响,有效地刻画行人的外观特征。文献〔4〕结合图像文理特征和梯度方向直方图特征来描述行人外观,兼顾了行人形状和文理特征。文献〔5〕为了提高提取HOG特征的速度,引进积分图方法,节省了特征提取的时间;文献〔6〕通过主成分分析(PCA)方法对HOG特征降维,提高了待分类窗口的检测速度。文献〔7〕通过非负矩阵分解法对提取的HOG特征进行分解降维,提高了行人检测速度。文献〔8〕提出的基于可变形部件的检测方法,对复杂环境中多样变化的行人进行检测,得到较高的识别率,但检测速度慢。文献〔9-12〕基于可变形部件方法进行改进,虽然提高了检测速度,但是降低了识别率。
针对上述方法存在的问题,本文提出一种基于改进可变形部件(DPM)模型的行人检测算法,通过改进HOG特征方向离散区间数量、归一化特征降维方法,减少行人特征的维数,在检测时使用Cascade方法代替传统的动态规划进行行人检测,提高行人检测的速度。
1 本文算法
DPM模型是基于模板方法改进的模型,其思路是将行人分成多个部件模块,对行人以及各个部件模块训练分类得到部件模型,同时记录部件模型的空间结构关系。该方法在很好地描述行人外观的同时描述了各部件的空间关系。DPM方法使用图像HOG特征训练分类器模型,在训练过程中,首先根据SVM训练行人模型,再根据行人模型将行人各模块的位置与模块类别视为隐含变量,通过Latent SVM训练得到各个模块模型。检测时使用模型计算行人和各个模块的得分,行人和各个模块总得分如果大于阈值则判定其为行人。
1.1 HOG特征提取
1.1.1 图像方向特征 文献〔1〕提出HOG特征描述子,它通过计算和统计图像局部区域的梯度方向直方图得到图像特征,在图像处理、检测中得到广泛应用。
1)计算每个像素水平方向和垂直方向上的梯度值,最终得到该点的梯度值与幅度值;一般利用模版[- 1,0,1]和[- 1,0,1]T对图像进行卷积运算,分别计算出图像在水平和垂直方向的梯度分量。
分别表示图像像素点(x,y)处的水平梯度、垂直梯度以及像素点。像素点(x,y)处的梯度幅值计算如下:
梯度方向计算如下:
如果输入的是彩色图像,分别计算图像3个通道中像素的梯度方向α(x,y),以及梯度幅值G(x,y);则(x,y)处像素点的梯度值就是梯度幅值最大值对应通道的梯度方向。
2)将每个cell单元中像素梯度方向根据公式(4)、公式(5)分别离散到2p、p个值上,B1是把梯度方向划分到[0,2π]上,得到对比度比较敏感的HOG特征;B2是把梯度方向划分到[0,π] ,因为α(x,y)和α(x,y)+π在同一个bin区间,得到了对比度不敏感的HOG特征。
1.1.2 HOG特征归一化处理 归一化能够降低光照对局部特征的影响,使HOG特征具有更好的鲁棒性。如果直接对每一点进行归一化,计算量大。把梯度特征分成小单元cell,每张图片的大小为W×H,cell大小为k×k,则图像特征映射到W/k×H/k个cell单元中。每个cell的特征直方图记为C(i,j)。
求归一化因子,如图1,与A相邻的cell单元分为4组;即A与对角的B、C、D、E构成4组,然后求归一化因子。计算公式如下:
其中,根据对C(i,j)归一化,计算公式如下:
为了防止向量中有些值过大,对向量进行切断,使向量中的值不大于λ。则cell特征归一化后得到特征H如下:
本文选择p=9,k=8。因为每个cell对周围4个cell有影响,若根据公式(5)计算,每个cell的HOG特征为36维;若根据公式(4)计算,每个cell的HOG特征为72维。原始的DPM方法把公式(4)和(5)结合起来,归一化得到108维特征,本文根据公式(5),把cell单元的梯度方向划分到9个区间内,归一化后得到36维特征。
1.2 特征解析降维 研究发现,主成分分析得到主要成分,它们对特征的贡献大,对特征区分能力较强,原始DPM中用主成分分析对HOG特征降维,特征缩减到32维。文献〔13〕中提出解析降维的方法,本文根据公式(8)把cell单元的特征归一化得到36维,图1给出降维流程,36维向量按照矩阵排列,然后各行各列相加得到13维特征;简单加法代替乘法,计算速度快。
图1 解析降维流程
1.3 图像特征金字塔 在图像分析处理时,是把图像信息转变成矩阵,根据矩阵中的数值来了解分析图像;不能预先得知图片中行人的尺度,而且不同图像中行人大小不同,即使同一张图像中的行人因与摄像头距离不同显示的大小也不同。为了检测图像中不同大小的行人,DPM采用图像特征金字塔,使检测模型可以对不同分辨率下的图像进行检测。
特征金字塔是通过有限的尺度来映射构成,首先对图像进行平滑和下采样构成图像金字塔,然后提取每一层的特征构成特征图,所有特征图构成图像特征金字塔。特征金字塔从下到上分辨率逐渐降低,一般为30~60层。
1.4 DPM模型结构 行人不是一个固定的物体,随着人的行为表观、姿势等不断发生改变,这些改变影响检测的准确性;DPM把行人分为多个部件,如头、肩、腿等多个部件模块。分别训练行人根模型、各个模块模型和模块变形花费模型。根模型用来捕获行人边界这些粗糙信息,是在行人整体尺度上进行检测,模块模型可以捕获各个部件的细节信息,在行人部件的尺度上进行检测。一般提取模块特征图层的分辨率是行人图层分辨率的两倍,图2是根据文献〔8〕把行人分为8个模块进行训练得到的可视化模型。可以看出,部件模型比根模型清晰,变形花费模型是部件模块相对行人位置发生变形时的消耗代价。
图2 可视化模型
1.5 训练模型参数 模型初始化和训练如下。
Latent SVM是基于线性SVM的改变,SVM的表达式为f(x)=ω·x,以0作为分类点。现有如下分类器:
β为分类器参数,x为样本向量,ϕ(x,z)是样本的描述,z为隐变量,Z(x)是样本x对应隐变量z的取值空间。使用训练样本对应正负样本标号,∈{-1,+1}训练得到最优参数β。
1.6 行人检测 行人检测是整个算法中关键的一步,因为DPM行人检测方法在检测时需要对行人、部件模块在图像金字塔上进行检测,采集到大量的窗口;传统的动态规划法检测速度慢,本文采用Cascade方法代替传统的动态规划方法进行行人检测。Cascade方法是指使用一系列弱分类器快速筛选出少数可能含行人的样本,达到快速检测的目的。基于滑动窗口的方法,从图像金字塔中采集到大量样本,使用简单分类器进行分类,一般把简单分类器的阈值设置得比较宽松,使它不会漏检行人。只有前一级分类器分类为行人,才能进入下一级分类器进行分类。在级联分类器中,分类器的应用是从简单分类器到复杂分类器,这样既提高检测速度,又保证检测准确率。
每一个模型也是一个滤波器,使用模型滤波器对目标区域进行滤波处理,根据得分进行分类。在本文中,把训练好的根模型、部件模型作为弱分类器。首先对模型滤波器进行排序,作为弱分类进行逐级检测,每一级的分类器都有相应个数的模型构成,下一级包含上一级分类器中的模型。每一级中计算模型滤波器累计得分,并与阈值比较排除假设。
如图3,首先将根模型作为第一级弱分类器对金字塔图层中的行人窗口假设进行分类筛选,筛选通过的行人假设进行第二级分类筛选。在第二级筛选时,增加一个模块模型,对通过筛选的行人窗口假设的二倍分辨率图层中对应的模块进行分类,把模块得分与上一级得分累加与阈值比较,筛选通过则进入下一级,继续增加模块模型。就这样经过第N+1级分类仍判断为真者,就是真正的行人窗口。虽然每增加一级分类器模型就增加一个,但分类时每一级只使用了此级新增加的模型进行计算,因为前几级已经分别使用增加的模块模型滤波器对对应的模块进行了滤波计算。因此,Cascade方法能提高检测速度。
图3 Cascade分类器流程
1.7 非极大值抑制 在行人检测时,由于真实的行人附近区域也能得到较大的得分,被判定为行人,就出现了一个行人被多次检测到;这时需要对检测窗口进行处理,首先根据行人框得分进行从高到低排序,按照排序优先选择靠前的行人框,剩余部分与已经选择的行人框进行比较,当重复部分大于50%时则丢弃。本文使用非极大值抑制法进行行人框的筛选,如图3,图4(a)中原始行人框大量重叠;图4(b)是非极大值抑制后得到的检测效果图。
图4 原始检测结果与非极大值抑制处理结果比较
2 仿真实验与结果分析
INRIA是法国国家信息与自动化研究所收集整理的行人数据库,该数据库包括各种场景、光照、行人姿势图片,原始图片分为训练样本和测试样本两种类型,其中训练样本含行人样本614张、负样本1 220张,测试样本中含行人图片288张、负样本453张。
(1)训练样本选择:正样本图片是根据标注信息从614张含行人的正样本图片中截取,负样本从负样本原图中随机截取。
(2)测试样本选择:本人收集300张含1 480个行人的图片,并标注图片中的行人信息。
为了测试本文方法的性能,实验选用经典方法HOG+SVM以及原始DPM方法作为对比试验。具体仿真结果见图5。
图5 实验结果对比图
表1给出3种方法的测试结果,其中检测时间为利用相应方法针对一幅640×480像素的图片进行行人检测时长。通过检测结果对比分析可知,本文方法与HOG+SVM方法比较,识别率得到明显的提高;与原始DPM方法比较,在不降低检测正确率的同时,提高了检测速度。
表1 综合性能比较
综上,本文通过对DPM模型进行改进,将图像单元梯度方向离散到9个区间,使用计算简单的解析降维法对归一化的特征进行降维,采用Cascade方法代替传统的动态规划法对行人进行检测,在不降低检测正确率的同时,一定程度上提高了检测速度。
〔1〕DALAL N,TRIGGS B.Histograms of oriented gradients for human detection〔C〕∕∕IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2005,1(12):886-893.
〔2〕VAPNIK V.The Nature of Statistical Learning Theory〔M〕.Berlin:Springer-Verlag,1999:137-212.
〔3〕ZHOU Z,XU L.Pedestrian detection based on HOG and weak-lable structural SVM〔J〕.Journal of Computational Information Systems,2014,10(1):367-374.
〔4〕WANG X,HAN T X,YAN S.An HOG-LBP human detectorwith partial occlusion handling〔C〕∕∕IEEE International Conference on Computer Vision.2010,30(2):32-39.
〔5〕黄茜,顾杰峰,杨文亮.基于梯度向量直方图的行人检测〔J〕.科学技术与工程,2009,9(13):3646-3651.
〔6〕汪成亮,周佳,黄晟.基于高斯混合模型与PCA-HOG的快速运动人体检测〔J〕.计算机应用研究,2012,29(6):2156-2160.
〔7〕孙锐,陈军,高隽.基于显著性检测与HOG-NMF特征的快速行人检测方法〔J〕.电子与信息学报,2013,35(8):1921-1926.
〔8〕FELZENSZWALB P,MCALLESTER D,RAMANAN D.A Discriminatively Trained,Multiscale,Deformable Part Model〔J〕.International Journal of Computer Vision,2008,9(1):56-63.
〔9〕曾接贤,程潇.结合单双行人DPM模型的交通场景行人检测〔J〕.电子学报,2016,44(11):2668-2675.
〔10〕熊聪,王文武.基于DPM模型的行人检测技术的研究〔J〕.电子设计工程,2014,22(23):172-174.
〔11〕甘鹏坤,陶凌,龙伟.基于可变形部件模型及稀疏特征的行人检测〔J〕.深圳大学学报(理工版),2015,32(6):563-570.
〔12〕高华,邬春学,鲁俊.基于动态加权可变形部件模型的行人检测〔J〕.电子科技,2016,29(9):1-3.
〔13〕GIRSHICK R B.From rigid templates to grammars Object detection with structured models〔D〕.Chicago :The Uni⁃versity of Chicago,2012.