基于显著性检测的实时车载行人检测方法

2018-01-29桂志国

中北大学学报(自然科学版) 2017年6期

何栋，秦强，桂志国

(1. 山西轻工职业技术学院信息工程系，山西太原 030013；2. 西安交通大学电子与信息工程学院，陕西西安 710049； 3. 中北大学信息与通信工程学院，山西太原 030051)

为了更好地保护车辆前方的行人并降低驾驶员的操作复杂性，车辆前方的行人检测技术逐渐成为机器视觉的研究热点[1-6].

目前，比较盛行的是基于特征描述的行人检测方法，譬如梯度方向直方图(Histogram of Gradient，简称HOG)、多尺度可变形部件模型(Deformable Part Models，简称DPM)等描述算子[7-11]. 基于特征描述的行人检测方法为了提高行人检测的准确率，避免漏检，基本采用滑动检测窗进行穷尽搜索. 如果将该行人检测算法设置于车载设备中，基于穷尽搜索法需要消耗至少几百毫秒的时间，显然没有实用价值.

因此，本文结合人眼视觉的心理物理学和韦伯定律，提出了一种基于显著性检测和参数融合的LUT-HOG实时行人检测方法[13-17]. 首先,行人检测系统采用基于多局部区域的空域调频对比度的显著性检测方法，快速标注图像中的“行人”区域，来替代检测窗穷尽搜索的方法. 其次，在标注的“行人”区域，提出基于参数融合的改进型快速LUT-HOG，且使用逼近线性SVM(Support Vector Machine)计算时间的AK-SVM(Additive Kernel SVM)进行行人目标检测[18-20]. 最后，在Visual studio 2012的环境下使用C语言对行人检测算法进行准确性和检测速度地评估. 测试结果表明，在不降低准确率的前提下，该行人检测系统完全可以作为车载设备进行实时行人检测.

1 “行人”区域显著性检测

本文提出行人检测系统，采用基于多局部区域的空域调频对比度的显著性检测方法来获得图像的显著性区域，并标记为“行人”，供下一级行人检索系统进行特征提取和目标分类. 相比穷尽搜索需要花费几百毫秒的检测时间，通过基于多局部区域的空域调频的显著性检测方法，可以将图像的处理时间压缩到原先的10%～20%左右.

人眼的视觉冲击力度取决于目标与局部区域的对比度. 对比度越高，人眼对该目标的感知性越强. 这样，研究人员可利用每个像素和周围区域像素的对比度来刻画图像的显著性区域. 首先，分析采用基于空域调频对比度的显著性检测方法. 在进行显著性检测时,假设带通滤波器DoG为

G(x,y,σ1)-G(x,y,σ2).(1)

N个数字滤波器叠加表示为

G(x,y,ρnσ)-G(x,y,σ).(2)

如果ρnσ为无穷大，则利用此高斯核函数对图像进行卷积时，卷积后的像素值为所有像素点的平均值. 根据上述讨论定义图像空域调频的对比度特征，为

S(x,y)=‖f(x,y)-f1(x,y)‖,(3)

式中：f1(x,y)是经过高斯滤波以后的图像；f(x,y)为算术平均后的图像； ‖ ‖是欧式距离.

在空域调频对比度的基础上，引入基于多局部区域的显著性特征检测法. 假设x0,y0以及Area分别代表进行对比的局部区域的半径宽、长和面积，N为分割的局部区域数. 局部区域参数具体计算公式为

(5)

根据式(5)～(6)得到局部区域的特征均值，为

(7)

整理上述公式，推得基于多局部区域的空域调频的图像显著性特征Ssig，为

(8)

图 1 为分别进行显著性提取的图像. 在图 1(c)～(d) 中，显著性区域明显出现漏检. 为了解决该问题，对多局部区域的定义进行改进. 将局部区域重新定义为

s.t.Wi>64,Hi>128,(9)

式中：i={1,2,3,4}，表示第i次图像显著性检测.

局部对比区域N的选值决定了“行人”区域的标定时间和准确性. 如果N值太小，显著性区域会包含很多无效的非“行人”区域. 如果N值太大，则显著性检测的时间过长. 选取500幅INRIA 行人检测库的测试图片，手动标记“行人”区域，并统计不同N值情况下的“行人”区域数和标记时间，见表1. 从表 1 可以得知，一个像素大小为640×480的图像，当N=6时，显著性检测时间为0.012 s (12 ms)，标注的准确性为99%. 当N小于6时，准确度变低. 当N大于6时，显著性检测的时间较长，不适用于实时的行人检测系统.

图 1 原图与显著性区域对比Fig.1 Comparison between origninal figure and saliency area

N待测图片/幅行人总数/个标注行人总数/个标记率/%标记时间/s5500500490980．0106500500495990．0121050050049899．60．0351550050049899．60．0702050050049899．60．122550050049899．60．353050050049899．60．46

本行人检测系统采用显著性检测方法替代穷尽搜索方法，可以在很短的时间内将“行人”区域进行标注，供后续部分进行处理.

2 快速行人特征提取和分类

行人检测系统主要是由特征提取和分类两部分组成，因此，要提高行人检测速度，需要分别分析这两个性能.

2.1 基于参数融合的LUT-HOG特征提取算法

在行人特征提取算法中， HOG算子对于行人特征提取的准确性和鲁棒性较优，算法相对简单，但提取速度慢. 因此，本文提出一种基于参数融合的改进型梯度方向直方图，称为LUT-HOG. 按照像素在cell中所处区域的不同，将位置和方向系数进行有选择的融合，避免大量计算幅值的插值运算，提高行人特征的提取速率.

在行人特征提取开始前，确定基于参数融合的LUT-HOG的检测窗， cell和block的尺寸分别为： 128×64， 8×8. LUT-HOG的特征计算过程为：

1) 计算每一个像素点的梯度，Gx(x,y)和Gy(x,y)分别为

Gx(x,y)=H(x+1,y)-H(x-1,y),

Gy(x,y)=H(x,y+1)-H(x,y-1),(10)

式中：H(x,y)表示(x,y)点的像素值.

根据梯度值得到像素点的梯度幅值和方向，分别为

(11)

2) 将幅值按照方向和位置关系进行插值运算，得到梯度方向直方图，h(ci,αj)为

h(ci,αj)←h(ci,αj)+G(x,y)M(x,y)αf(x,y),(13)

式中：h(ci,αj)表示一个block中的第i个cell处于αj区间的HOG特征值； (x1,y1)为cell的中心位置；α1表示像素点在梯度方向距离最近bin的中心值；M(x,y)为空间位置系数；αf(x,y)为方向系数. 式(10)～(12)计算量大，消耗时间长. 为了减少进行插值的计算量，需要将M(x,y)和αf(x,y)根据图 2 的区间划分进行变形，具体步骤为：

图 2 A和B区划分Fig.2 Partitions of A and B zone

STEP1：将一个cell按照像素点位置的不同分为A区域和B区域，分别用空白方格和斜线方格表示；一个block中4个cell的A区域和B区域的关系如图 2 所示. 如果像素位于A区域，那么该区域的幅值系数不变. 如果像素位于B区域，那么该区域的幅值只对其自身所在cell的HOG特征有贡献，M(x,y)为

M(x,y)=1.(15)

STEP2：M(x,y)不同位置的各种组合离线进行有选择性的计算.

STEP3：将每一个bin区间分为8部分. 梯度方向处于bin区间的第m个1/8部分，这样梯度幅值按照方向系数的映射数值就变为原幅值的1/8倍.αf(x,y)为

(16)

式中：k=[1,2,3,…,8].

STEP4: 位置系数和方向系数根据所处区域的不同，相互融合，基于式(14)得到融合参数，即

(17)

式中：PA为A区域的融合系数；PB为B区域的融合系数，均可以通过离线计算得到.

STEP5: 整理上述公式，推得

h(ci,αj)←h(ci,αj)+G(x,y)Mα(x,y).(18)

3) 将计算得到的特征进行归一化操作.

基于参数融合的LUT-HOG计算简单，并且便于系统实现. 与传统的HOG特征提取算子相比，特征提取速度可以提高到原速度的6倍，从而使得HOG作为行人特征提取算子，不再是实时行人检测的制约因素.

2.2 AK-SVM高效行人分类

分类的效率同样决定行人检测系统的整体性能. SVM是行人检测系统中常见的分类器. 只要给出正确的特征值， SVM就可以进行有效的训练得到分类函数或模型. 根据SVM中核函数的不同，分为线性SVM和非线性SVM. 线性SVM计算简单，分类速度快，但分类准确度低；非线性SVM计算复杂，分类速度慢，但分类准确度高. 在本行人检测系统中，采用逼近线性SVM计算时间的AK-SVM作为分类算法，在不降低分类精度的前提下，仍可提高行人检测的分类速度.

3 系统设计与结果分析

本系统分别在PC机和BF-609的开发板上进行行人检测与结果分析. 在PC机上，使用C语言在Visual Studio 2012中进行算法性能评估. 将评估的算法移植到BF-609的开发板上，分析将其作为车载设备进行实时行人检测的可行性.

3.1 算法实现与实验结果分析

将显著性检测算法，行人快速特征提取算法和AK-SVM组合成行人检测系统. 根据不同的作用，行人检测系统分为显著性特征提取、目标识别以及离线训练三部分. 系统框图及检测过程如图 3 所示. 首先，将输入的图像进行显著性检测并标记为“行人”区域. 在“行人”区域， LUT-HOG提取行人特征，然后将特征基于AK-SVM进行目标分类. 最后，采用非极大值抑制对分类结果进行融合和标注，将经过标记的行人图像显示.

3.1.1 参数融合的 LUT-HOG性能评估

在进行实验前，选取INRIA的样本训练库和检测库分别作为检测系统的训练样本和测试样本. 在INRIA行人库中，整理检测库中的500幅图片(包含有832个行人)作为行人检测系统的待处理图像，并手动标记行人位置. 因为LUT-HOG是基于HOG的改进型快速行人特征提取算子，因此分别将HOG+AK-SVM和LUT-HOG+AK-SVM进行行人特征提取和识别，将识别的结果进行统计. 整理上述实验和统计结果，得到表 2.

表 2 LUT-HOG特征表

从表 2 可以看出， LUT-HOG+AK-SVM检测系统的检测准确率可以达到92.5%，略低于HOG+AK-SVM 93%的准确率，基本满足行人特征提取的准确度要求. LUT-HOG的计算量是HOG的70%～80%，故LUT-HOG可通过减少计算量来提高行人特征的提取速度.

图 3 行人检测流程图Fig.3 Block diagram of pedestrian detection

3.1.2 行人检测系统结果分析

AK-SVM是逼近线性 SVM(即Linear SVM)计算时间的非线性分类器. 为了充分分析本行人检测系统的结果，引入HOG+Linear SVM, SD(Saliency Detection)+LUT-HOG+Linear SVM这两种行人检测系统. 将这两种行人检测系统的检测结果和SD+LUT-HOG+AK-SVM的检测结果进行对比. 在对比前，同样需要选取500幅行人检测的图像(全部大小为640×480, 共包含832个行人)作为行人检测系统的检测图像，并手动标记行人位置. 将这三种行人检测系统的检测结果和时间进行统计，得到表 3.

表 3 行人检测时间

从表 3 中可以看到， SD+LUT-HOG+A K-SVM检测系统对一幅图片的检测时间最短，约为35 ms. 图 4 为SD+LUT-HOG+AK-SVM的行人检测系统对INRIA行人数据库中部分图片的检测结果. 采用漏检率和误检率来分析行人检测系统结果的准确率，并用DET曲线表示漏检率和误检率的关系. 漏检率和误检率的定义分别为

基于三种方法来分析本行人检测系统的检测准确率： HOG+Linear SVM, SD+LUT-HOG+Linear SVM以及本行人检测方法SD+LUT-HOG+AK-SVM. 当以HOG+Linear SVM进行行人检测时，图像的缩放次数为5. 从图 5 中可以看出， SD+LUT-HOG+AK-SVM检测系统性能最优，误检率和漏检率最低，为9.7%左右. HOG+Linear SVM 和SD+ LUT-HOG+Linear SVM 的检测准确率均不及SD+LUT-HOG+AK-SVM.

图 4 三种方法应用于INRIA数据库时的DET曲线Fig.4 DET curves in INRIA dataset by 3 methods

3.2 基于BF-609的行人检测系统

将经过测试的行人检测系统移植到BF-609开发板上，作为行人检测的车载设备. 为了模拟车辆前方的行人背景环境，将行车记录仪采集的行人视频信息作为检测对象. 图 5 是以BF-609开发板为核心，视频输入、输出部分为外围电路的实时车载行人检测实物图.

图 5 行人检测系统DSP平台Fig.5 Pedestrian detection system based on DSP

由于行车记录器采集的数据帧画面中， 1/6的部分是天空或者高楼的顶端部分，不存在行人，因此在系统移植的过程中，对输入视频帧首先基于摄像头参数的方法，将图像顶部的1/6截去，剩余的5/6作为有效图像检测区域.

基于BF-609的部分行人检测结果如图 6 所示，系统可以达到20 fps的检测速度. 当车行驶速度较低时，基于BF-609的行人检测系统能够作为车载设备用于实时行人检测.

图 6 DSP行人检测系统检测结果Fig.6 Result of pedestrian detection on the DSP

4 结束语

本文提出了一种基于显著性检测和参数融合的LUT-HOG实时车载行人检测方法. 首先采用基于多局部区域空域调频对比度的显著性检测方法进行“行人”区域标注；其次，在标注的“行人”区域使用基于参数融合的LUT-HOG进行快速行人特征提取；最后，为了提高系统的分类效率，采用逼近线性SVM计算时间的AK-SVM进行高效目标分类. 实验结果表明，系统能够进行实时行人检测，并且可以移植到BF-609的开发板上作为实时行人检测的车载设备. 虽然该车载系统能够进行实时性行人检测，但是算法结构仍旧复杂，需要进一步改进.

[1] Dixit R S, Gandhe S T. Pedestrian detection system for ADAS using Friendly ARM[C]∥Vinod Tawade, Conference on Energy Systems and Applications. Pimpri: Institute of Electrical and Electronics Engineers, 2016: 557-560.

[2] Benenson R, Mathias M, Timofte R, et al. Pedestrian detection at 100 frames per second[C]∥Daniel, IEEE Computer Society Conference on-2012 Computer Vision and Pattern Recognition. USA: Institute of Electrical and Electronics Engineers. 2012: 2903-2910.

[3] Enzweiler M, Gavrila D M. Monocular pedestrian detection: Survey and experiments[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009, 31(12): 2179-2195.

[4] Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: An evaluation of the state of the art[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 34(4): 743-761.

[5] Yuan Y, Lu X, Chen X. Multi-spectral pedestrian detection[J]. Signal Processing, 2015, 110:94-100.

[6] Varga D, Szirányi T. Robust real-time pedestrian detection in surveillance videos[J]. Journal of Ambient Intelligence & Humanized Computing, 2017, 8(1)： 79-85.

[7] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]∥Carlo Tomad, IEEE Computer Society Conference on-2005 Computer Vision and Pattern Recognition. CA： Institute of Electrical and Electronics Engineers, 2005： 886-893.

[8] Wang X, Han T X, Yan S. An HOG-LBP human detector with partial occlusion handling[C]∥Takashi Matsuyama,Computer Vision, 2009 IEEE 12th International Conference on. IEEE, 2009： 32-39.

[9] Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]∥Mauro Costa ,IEEE Computer Society Conference on-2012 Computer Vision and Pattern Recognition-2008 Computer Vision and Pattern Recognition. IEEE, 2008： 1-8.

[10] Ouyang W, Zeng X, Wang X. Single-Pedestrian detection aided by two-pedestrian detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9)： 1875-1889.

[11] Pribram K H. A review of theory in physiological psychology[J]. Annual review of psychology, 1960, 11(1)： 1-40.

[12] Wolfe J M, Horowitz T S. What attributes guide the deployment of visual attention and how do they do it?[J]. Nature Reviews Neuroscience, 2004, 5(6)： 495-501.

[13] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1998 (11)： 1254-1259.

[14] Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 34(11)： 2274-2282.

[15] Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]∥Patrick Flynn, IEEE Computer Society Conference on-2009 Computer vision and pattern recognition. Washington, Institute of Electrical and Electronics Engineers, 2009： 1597-1604.

[16] 钱生, 陈宗海, 林名强, 等. 基于条件随机场和图像分割的显著性检测[J]. 自动化学报, 2015, 41(4)： 711-724.

Qian Sheng, Chen Zonghai, Lin Mingqiang, et al. Saliency detection based on conditional candom field and image segmentation[J]. Acta Automatica Sinica, 2015, 41(4)： 711-724. (in Chinese)

[17] Maji S, Berg A C, Malik J. Efficient classification for additive kernel SVMs[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013, 35(1)： 66-77.

[18] Furey T S, Cristianini N, Duffy N, et al. Support vector machine classification and validation of cancer tissue samples using microarray expression data.[J]. Bioinformatics, 2000, 16(10)： 906-14.

[19] Tong S, Koller D. Support vector machine active learning with applications to text classification[J]. Journal of Machine Learning Research, 2002, 2(1)： 45-66.

[20] Donaldson I, Martin J, Bruijn B D, et al. PreBIND and Textomy-mining the biomedical literature for protein-protein interactions using a support vector machine[J]. Bmc Bioinformatics, 2003, 4(1)： 11.