APP下载

基于快速边缘检测和Real Adaboost的行人检测*

2018-04-09于凤芹

传感器与微系统 2018年4期
关键词:像素点轮廓行人

黄 鹏, 于凤芹, 陈 莹

(江南大学 物联网工程学院,江苏 无锡 214122)

0 引 言

行人检测是计算机视觉中极具挑战性的课题,被广泛应用于视频监控、机器人辅助驾驶和智能摄像机。行人兼具刚性和柔性物体的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测成为计算机视觉的研究难点与热点[1]。

获取人体描述特征之前需要建立人体模型,轮廓信息的提取至关重要。典型的行人检测方法提取梯度方向直方图(histogram of oriented gradients,HOG)[2,3]特征,能有效刻画人体边缘特征,但维度高、计算慢;Dollár P等人[4]提出了积分通道特征(integral channel features,ICF),从不同角度对行人进行描述,大幅提升了检测精度,但特征维数大,检测速度慢;Dollár P等人[5]提出了聚合通道特征(aggregate channel features,ACF)算法,计算块中像素和作为特征向量,具有较快的检测速度,但对行人外观轮廓描述不稳定导致检测率下降;Zhang S S等人[6]对ACF算法进行了改进,使用滤波器组来突出行人轮廓信息,在遮挡情况下仍然有较好的检测精度,但计算量较大;Hwang S等人[7]在ACF算法中增加了红外图像通道,增强在夜间环境下的检测率,但应用成本较高;Sermanet P等人[8]提出了使用卷积神经网络(convolutional neural network,CNN)学习多个层级的特征来检测行人;Lim J等人[9]提出了使用无监督的学习方法来获取能够准确捕捉行人轮廓的中层特征;Lim J等人[10]利用快速边缘检测[11]提取边缘信息获取可能存在的目标区域,提出了通用目标检测EdgeBox算法,检测区域与实际目标重合50 %的情况下,取得了96 %的检测率。

本文针对ACF算法中行人外观轮廓不稳定导致检测率下降的问题,提出了基于快速边缘检测和Real Adaboost的行人检测。在ACF算法的基础上,引入了EdgeBox算法中边缘检测获取目标轮廓信息的思想,利用快速边缘检测得到图像的轮廓通道,替代梯度幅值通道,获取较稳定的行人轮廓信息;对新组成的10个图像通道进行4×4的求和降采样得到特征向量,送入分类性能较强的Real Adaboost分类器进行分类。

1 基本原理

1.1 快速边缘检测原理

Dollár P等人[11]提出了一种结构化的快速边缘检测算法,并在此基础上提出了EdgeBox算法[10],利用边缘信息能够快速定位目标的预选区域。本文采用的快速边缘检测算法提取图像块内的特征,训练结构化的随机森林对每个像素点进行分类,从而确定该像素点是否为边缘,最终得到图像的边缘图。

图像块特征使用类似积分通道特征[4]的图像通道,从32×32的图像块中学习16×16大小的分割掩码,首先提取图像块中的K个图像通道信息,则该图像块的特征向量为x∈R32×32×K,其中K为通道个数,图像块特征包含逐个像素特征x(i,j,k)(i,j,k为像素)和每对像素之间的差异性特征x(i1,j1,k)-x(i2,j2,k)。图像通道使用3个LUV图像通道和原尺度和1/2尺度下的梯度幅值通道,另外将2个梯度幅值分别量化为4个方向的梯度幅值,组成8个量化方向的梯度幅值通道,共组成13个图像通道。然后对图像通道进行尺度为2的降采样,则32×32的图像块的特征维数为3 328维,同时为了比较每对像素点之间的差异性,将每个图像通道降采样到5像素×5像素大小,再对这25个像素点逐对计算差异值,各通道特征维数增加300维,因此,32×32大小图像块共有7 228维特征向量。

随机森林通过将多个去相关的决策树的预测结果相融合能够取得具有较高鲁棒性的结果。然而直接对多个分割掩码y∈Y进行融合非常困难,对多个边缘地图y′∈Y′求均值能够得到较为柔和的边缘响应。利用决策树能够在其叶子结点储存任意信息的特性,除了学习得到的分割掩码y,还将存储相应的边缘地图y′。通过求均值即可对多个决策树的预测结果进行融合。

1.2 图像轮廓通道

ACF算法中采用计算梯度幅值的方式获取行人轮廓信息,一幅灰度图像中,像素点(x,y)的梯度幅值为

G(x,y)=

(1)

式中H(x,y)为像素点(x,y)的像素值。在图像中许多像素点的幅值比较大,如行人的服装中存在斑点状的色块,因此,仅仅通过计算一个像素点的梯度幅值,并不能准确界定该点是否为边缘点,即通过计算梯度幅值的边缘较宽,对行人的轮廓描述比较模糊,对行人检测的精度有所影响。

本文使用结构化的快速边缘检测得到行人检测图的二值化的边缘图像,640像素×480像素大小的图像边缘图像计算速度平均仅需0.2 s。检测图像得到二值化的边缘图像后,采用边缘图像代替ACF算法中的梯度幅值通道作为新的轮廓通道,因此,新的图像通道包含轮廓通道、6个量化方向的梯度幅值以及LUV颜色通道。

1.3 Real Adaboost分类器

本文采用Real Adaboost分类器进行训练分类,最终的强分类器由4次迭代产生4 096个弱分类器构成。

首先将训练数据集划分为n个不相交的子空间,再随机选取训练样本中不相交的子集Sj,对每个弱分类器ht计算pr+,pr-,pw+,pw-,分别表示正样本分类正确概率,正样本分类错误概率,负样本分类错误概率,负样本分类正确概率。计算G(j)的值

(2)

(3)

式中ε为一个很小的正常量,用于平滑输出。当前弱分类器的输出gt的计算公式

(4)

(5)

2 仿真实验与结果分析

实验分别在INRIA和Caltech行人数据库上进行。INRIA包含2 416个行人训练样本和288张含有行人的测试图片。Caltech数据库是目前规模较大的行人数据库,由车载摄像机拍摄城市道路所得,约10 h左右,视频分辨率为640×480,标注了约250 000帧,350 000个矩形框,2 300个行人,另外对矩形框之间对应关系及遮挡情况进行了标注,是公认规模较大,挑战性较大的数据库。实验所用软件环境为MATLAB R2012a,系统环境为Windows7,内存为8 GB。

为了验证分类器的分类性能,首先在Caltech数据库上使用ACF算法分别比较Adaboost与本文训练的Real Adaboost分类器的分类结果。采用查准率—查全率(precision-recall,PR)曲线对比两者分类性能,PR曲线如图1所示,可以看出:本文Real Adaboost分类器较原ACF算法中的Adaboost分类器分类性能更好,具有效提高检测率。

图1 PR曲线对比

图2分别给出本文算法与ACF算法在INRIA和Caltech数据库上的部分检测效果对比,从图2(a)可以看出:本文算法与ACF算法相比,误检窗口较少,同时行人的检测框更加契合真实的行人位置,说明了轮廓信息的应用使得对行人轮廓描述更好,增加了检测框的准确性;从图2(b)可以看出:本文算法误检窗口减少,对于较小的行人也能部分检测出,但对前方车辆的车轮以及两侧位置存在部分误检,由于Caltech数据库拍摄自真实行驶路况,背景极其复杂,边缘复杂,轮廓信息具有很大局限性,对检测性能产生影响。

图2 2种算法在2个数据库部分检测效果对比

为了客观评价本文算法,将本文算法与ACF[5]算法、InformedHaar[6]方法分别在INRIA和Caltech数据库上进行精度比较,性能评价采用文献[12]提出的漏检率(miss rate)与每张图片平均误检率(false positives per image,FPPI)曲线作为评价指标,并以0.1FPPI作为参考点,若漏检率降低,则误检窗口减少,检测率提升。对比结果如图3所示。

图3 3种算法在2数据库检测精度对比

图3分别为INRIA和Caltech数据库上3种算法的比较结果,在0.1FPPI参考点,图3(a)显示,INRIA数据库上本文算法相对于原始ACF算法,漏检率降低了5.1 %,相比于InformedHaar算法,漏检率降低了2.2 %;图3(b)显示,Caltech数据库上本文算法相对于原ACF算法,漏检率降低14.8 %,相比于InformedHaar方法,漏检率降低了5.2 %,说明本文算法在2种数据库上检测率均高于上述2种方法,检测性能较好。

为了验证本文算法的时间复杂度,分别在INRIA和Caltech数据库上用同一电脑将本文方法与ACF和InformedHaar方法进行检测速度对比实验,图像大小为640×480,实验结果如表1。

表1 不同方法的检测速度比较 帧/s

表1显示,在两个数据库上,本文算法与InformedHaar算法检测速度均低于原ACF算法,InformedHaar算法在通道图上使用了额外的滤波器,提升检测率的同时增加了运算复杂度,而本文算法增加了快速边缘检测的同时采用优化的Real Adaboost分类器,弱分类器个数增加,算法复杂度提升,检测速度较ACF算法和InformedHaar算法慢,但取得了一定的精度提升。

3 结束语

本文针对ACF算法中行人外观轮廓不稳定导致检测率下降的问题,提出了基于快速边缘检测和Real Adaboost的行人检测。仿真实验表明:本文算法检测精度较原ACF算法提高,误检窗口减少。但本文算法使用边缘检测以及分类性能较强的Real Adaboost分类器,导致计算量增大,

检测速度下降,故在保证检测精度的前提下,优化算法效率,为需要进一步研究的内容。

参考文献:

[1] 苏松志,李绍滋,陈淑媛.行人检测计数综述[J].电子学报,2012(4):814-820.

[2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,San Diego,USA:IEEE Press,2005:886-893.

[3] 程广涛,陈 雪,郭照庄.基于HOG特征的行人视觉检测方法[J].传感器与微系统,2011,30(7):68-70.

[4] Dollár P,Tu Z,Perona P,et al.Integral channel features[C]∥Proceedings of British Machine Vision Conference,Washington D C,USA:IEEE Press,2009:1-11.

[5] Dollár P,Appel R,Belongie S,et al.Fast feature pyramids for object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(8):1532-1545.

[6] Zhang S S,Bauckhage C,Cremers A.Informed haar-like features improve pedestrian detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:947-954.

[7] Hwang S,Park J,Kim N,et al.Multispectral pedestrian detection:Benchmark dataset and baseline[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015:347-360.

[8] Sermanet P,Kavukcuoglu K,Chintala S,et al.Pedestrian detection with unsupervised multistage feature learning[C]∥Procee-dings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013:3626-3633.

[9] Lim J,Zitnick C,Dollár P.Sketch tokens:A learned mid-level representation for contour and object detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013:3158-3165.

[10] Zitnick C,Dollár P.Edge boxes:Locating object proposals from edges[C]∥Proceedings of the IEEE European Conference on Computer Vision(ECCV),2014:391-405.

[11] Dollár P,Zitnick C.Structured forests for fast edge detection[C]∥Proceedings of the IEEE International Conference on Computer Vision(ICCV),2013:1841-1848.

[12] Dollár P,Wojek C,Chiele S B,et al.Pedestrian detection:An evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligent,2012,34(4):743-761.

猜你喜欢

像素点轮廓行人
轮廓错觉
毒舌出没,行人避让
基于实时轮廓误差估算的数控系统轮廓控制
路不为寻找者而设
基于canvas的前端数据加密
我是行人
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割
在线学习机制下的Snake轮廓跟踪
基于Node-Cell结构的HEVC帧内编码
行人流综述