基于PCA降维的多特征级联的行人检测研究
2021-04-04令晓明郭锐辛刘光廷王锐东
令晓明 ,郭锐辛 ,刘光廷 ,王锐东
(1.兰州交通大学 国家绿色镀膜技术与装备工程技术研究中心,兰州 730070;2.兰州交通大学 机电工程学院,兰州 730070;3.兰州交通大学 光电技术与智能控制教育部重点实验室,兰州 730070)
0 引言
行人检测就是指将视频帧或者待处理图像中出现的行人从背景中分割出来并给出位置信息。在行人检测中如何能够提取到更加全面的行人特征信息,一直是很多学者研究的方向。Dalal等提出的基于梯度方向直方图描述行人轮廓的方法最具有影响力,其中HOG+SVM也成为了行人检测领域内的主流方法[1],但缺点是HOG特征维高,计算量大,训练时间长。文献[2]提出利用积分图技术提高了HOG特征的计算速度,但对特征维度高的缺点仍未能解决。文献[3]提出将HOG算子和描述纹理特征的LBP特征结合起来作为一种新的算法,提高了行人检测遮挡问题的辨识能力,多特征的融合比单一特征具有更强的描述行人能力。文献[4]利用HOG-PCA算法提取视频帧中的行人特征,该方法在没有太多遮挡的视频帧中提高了检测率,降低了特征维度,提高了计算速度。
因此,针对目前复杂背景下行人检测提取特征维度高、训练时间长的问题,本文提出采用PCA降维的多特征级联的行人检测方法。多特征指提取行人的HOG特征、颜色频率特征和肤色特征,采取串联的方式将该3种特征作为行人检测的描述子,最后结合SVM分类器进行分类识别[5]。
1 算法理论及特征提取
1.1 HOG特征提取
HOG特征是一种局部区域描述符,它通过计算局部图像区域上的梯度方向直方图来构成局部目标的特征,能够很好的表征出人体轮廓信息。该特征对光照的变化和梯度特征的少量偏移不敏感。
设像素处的灰度值为I,梯度幅值为G,梯度方向为θ,则输入图像中像素点处(x,y)的梯度为:
式中,Gx(x,y)、Gy(x,y)、H(x,y)分别表示输入图像中像素点(x,y)处的水平方向梯度、垂直方向梯度和像素值。
然后计算图像中该像素点的梯度强度和方向:
1.2 HOG特征提取
本文检测窗口大小为64×128,block为16×16大小,其中每个block细分为4个4×4大小的cell,要计算每个block内的4个cell梯度方向直方图。每个block内的cell用9维的特征向量表示,一个block就为36维特征向量,最终得到105个block。这样HOG特征的特征向量为105×36=3780维。如图1所示,图(b)是提取图像(a)的HOG特征。
图1 HOG特征提取
1.3 颜色频率特征
尽管行人的衣着和形体变化较大,但是身体某些部位仍能够提取到比较有特点的颜色特征信息,比如头部、脸部、胳膊、手等部位,这些特征可以用颜色频率来表征。HOG特征是在HSV空间计算得到的,在该颜色空间中计算梯度幅值最大的每个像素点处的梯度值和方向,一些重要的颜色信息可以用每个颜色空间中被选择的次数来表示。本文统计方法为:用3维的直方图在每个block中统计H、S、V三个颜色被选择的次数,通过计算处理后得到3维的颜色向量,最后进行归一化[1]。这样图片中的每个block都可以用3维的向量来表示行人的颜色特征信息,实验证明该提取方法可以增加行人特征信息,减少block中冗余信息的干扰,有效的改善检测效果。
1.4 肤色特征
在YCrCb空间上,人脸部的肤色具有很好的聚类性,肤色信息在人脸检测和人脸定位识别领域已经得到了很好的应用[6,7]。其原理是提取的行人肤色特征值集中在CrCb空间上某一范围内,利用这个原理把它与背景颜色区分开。
本文采用了INRIA数据集上正样本中的行人照片,在CrCb空间作了肤色特征提取实验,如图2所示。该实验证明了肤色在CrCb空间有很好的聚类性。肤色在Cr空间主要聚集在RCr[110,145]范围内,在Cb空间主要聚集在RCb[130,160]内。假设颜色平面R(Cb,Cr)为一个矩形区域,那么在该区域内的点,则属于要提取的肤色信息。
图2 肤色体征提取
2 本文方法
2.1 PCA降维
HOG描述子提取的特征向量纬度较高,且存在大量的冗余信息,这些冗余信息会降低计算机的分类速度和识别精度。PCA算法降维效果明显,节省时间多。因此,本文选择PCA(主成分分析法)对HOG特征向量进行降维处理[8]。
假设对HOG进行特征矩阵提取,得到的特征矩阵为Z(x1,x2,x3,…,xi,…,xn),其中第i个HOG特征向为量xi∈Rn;m个HOG特征向量组成训练样本矩阵Z(x1,x2,x3,…,xi,…,xn),Zi∈Rm,其中每一列向量代表一个样本纬度。
本文中HOG描述子提取的特征向量为3780维,因此通过优化得到如下的目标函数:
其中,ZHOG表示提取训练正样本HOG特征向量,YPCA表示降维后的HOG-PCA特征向量。因此,最终特征向量为协方差矩阵W的前K个特征值λ1,λ2,…,λk所对应的特征向量(YPCA1,YPCA2,…,YPCAK)。
2.2 多特征级联
本文中输入的图像像素大小为64×128,分别提取行人的HOG特征、颜色频率特征和肤色特征,然后对HOG特征进行PCA降维处理,最终将该3种特征级联形成HOG-PCA+Color(文中Color指代颜色频率特征和肤色特征)特征,级联后的向量为965维度。由于文中HOG提取的行人特征维度为3780维,因此为了确定合适的维度,本文做了大量的降维试验,实验结果如图3所示。
由图3可知,当10≤K≤70时,随着维度系数的变大,分类识别率也在提高;当70 图3 HOG-PCA维度与分类识别率的关系图 本文实验软件采用MATLAB,计算机配置为:Intel(R)core i5-3470 3.2GHz和4GB内存。在INRIA数据集上进行实验,本文训练时随机选取正样本1200个,负样本1200个,样本尺寸均为64×128。 本文使用文献[9]中建议的检测错误权衡(Detection Error Tradeoff,DET)曲线作为行人检测特征提取的性能评价方法。DET曲线中X轴代表图片误检率(FPPI,false positives per image);Y轴代表漏检率(miss rate),其中miss rate=1-detection rate。 利用HOG-PCA对训练集进行特征提取,SVM对样本进行分类,当结合其他特征后,漏检率下降很明显,实验结果如图4所示。其中,Color与HOG-PCA结合后在SVM分类器上,检测性能表现最好。在X轴上10-1作为参考时,HOG-PCA-Color比单一特征HOG-PCA特征识别率提高将近23%。 图4 HOG-PCA加其他特征DET曲线对比图 为了进步一步证明本文算法的检测效果,文中采用四种目前具有代表性的行人检测方法与本文方法进行实验对比。在INRIA数据集进行试验,试验过程参考文献[3]描述,HOG-PCA-Color特征和其他特征方法试验结果如图5所示。选择FPPI轴上10-1时作为参考,本文提出的算法检测率是最好的,因为级联特征包含了更多的行人信息,检测器含有高分辨的行人特征,错误率大约为21%。Shapelet算子的描述能力不够理想,错误率约为80%,HOGLbp的特征描述能力错误率也较高,约为60%,Hiksvm和Latsvm_v2在这四种代表性的算法中有着很好的描述行人特征的能力,错误率分别约为30%和36%。同时,本文方法的检测时间比Latsvm_v2提高了13.16ms,比Shapelet提高了9.16ms。该对比实验证明本文方法在INRIA数据集上检测行人的能力相比于其他方法有着明显的优势。 图5 本文级联分类器与其他特征分类器DET曲线对比 本文针对现有的行人检测方法中HOG特征冗余量大、维度高、单特征对复杂背景的行人检测效果不理想等问题,提出采用PCA降维后级联颜色频率特征和肤色特征的模型,对传统的HOG+SVM模型进行了改进。在INRIA公开数据集上进行测试以及用本文提出的模型与主流代表算法进行了比对试验,结果表明,本文提出算法在行人检测中效果远远好于单一特征,级联后的算法模型在检测效果和响应时间上都优于目前的主流算法,具有一定的可行性和使用价值。3 实验结果分析
3.1 实验环境
3.2 实验结果及分析
4 结语