基于人体典型部位特征组合的行人检测方法*
2014-04-17葛平淑赵一兵赵宗艳
郭 烈,葛平淑,赵一兵,赵宗艳
(1.大连理工大学汽车工程学院,大连 116024;2.大连民族学院机电信息工程学院,大连 116600)
前言
为有效保护行人安全,提高汽车主动安全性能,研发行人检测系统提醒驾驶员可能与邻近的行人发生碰撞事故已成为减少道路交通中行人伤亡数量的重要手段[1]。
在行人检测过程中,需要定义一些特征来区分行人和背景,最直接的方法就是寻找图像中的行人形状特征对其进行识别,如梯度方向直方图HOG特征[2]、Edgelet特征[3]和 Shapelet特征[4]等。由于每种特征的针对性不同,因此使用单一特征的检测方法很难适应多场景下的行人检测,国内外学者提出了多种特征信息融合的方法。文献[5]中综合使用HOG和Edgelet两种局部特征,并通过SVM与Adaboost分别训练各自的分类器,对红外图像中行人获取较好的检测效果;文献[6]中提出了一种基于部位检测和子结构组合的行人检测方法,实现多姿态和部分遮挡的行人检测;文献[7]中分别在头部和四肢等重点区域计算梯度方向直方图,有效地减少了向量维数,提高了检测速度;文献[8]中将基于局部特征的Adaboost级联分类器和模板匹配相结合,实现视频监控领域的行人检测。
上述研究表明,多特征融合的方法可提高系统的检测精度,但如何针对人体和人体典型部位提取有效特征,合理设计分类器结构,充分发挥各分类器的优势仍然是一个难题[9]。如果对于某些人体部位提取的特征并不能很好地区分行人与背景,那么这些无效的特征无疑会增加算法的负担,影响实时性。为解决上述问题,提出一种基于部位特征组合的行人检测方法。该方法对不同人体典型部位采用了不同的特征,针对各个部位的特点选择最有效的特征来检测,最后再将各自的检测结果进行融合。
1 算法描述
1.1 基于HOG特征优化的腿部检测
由于行人下半身所在的区域背景通常是路面图像,而腿部占有较大面积,其轮廓边缘比较明显,在某些梯度方向和梯度强度上会出现有一定的峰值,其HOG特征与背景差别较大[10]。因此,提出针对行人腿部采用HOG特征进行检测的方法。定义腿部区域检测窗口大小为64×64像素,子窗口的宽度取为12、24、36、48、64 像素,子窗口的长宽比取为(1∶1)、(1∶2)和(2∶1),依据所设定的子窗口的宽度和长宽比便可以确定其数量和大小。通过设置多尺度的特征子窗口,能够更加充分显示腿部轮廓特征,各子窗口之间重叠的尺度为4、6、8个像素。采用Sobel算子从样本集中提取所有的HOG特征,使用积分直方图进行加速,最终从每个样本中提取了1 386个HOG特征。
经分析发现,在众多的特征中只有少部分特征对目标的分类起主导作用,其他大部分特征只含有少量的有用信息。通常这些冗余的特征不仅会增加算法的复杂性,使分类器训练和检测过程都非常耗时,而且会对最终的分类结果产生相反的作用[11]。因此,采用加权Fisher线性判别方法从中得到一部分能显著区分正负样本的HOG特征。
加权Fisher线性判别能将样本多维特征投影到一维直线上,投影方向能将各类样本很好地分开,因此该投影过程具有一定的弱分类功能,同时实现特征降维[12]。投影方向的计算式为
式中:wi为第i个样本的权重;f(xi)为第i个样本的特征为样本类内均值为样本类内加权协方差矩阵;a为最佳投影方向。
为增强弱分类器的表达能力,采用查表的Gentle Adaboost算法[13]。在 Gentle AdaBoost中,弱分类器的输出函数为
式中:Pw(y=1|x)、Pw(y=-1|x)分别表示特征值为x的样本时,其为正样本或负样本的加权概率。
为提高分类器的精度,采用基于查表型弱分类器类型。查表的方法是将整个样本集的特征值划分为对应的n个不相交的子集,对于某个特征值为x的样本,其弱分类器的输出就表示为它在所属子集中为正样本与负样本的加权概率差[14]。因此,查表型弱分类器的输出为一个表示置信度的实数值,与离散型输出相比,它包含了更多的信息并且更加适用于实际样本的分布情况。查表型弱分类器的构造过程如下。
经过加权Fisher线性判别后,HOG特征被降为1维,首先将它归一化到[0,1]区间,将该区间均匀分成n个子区间:
这样,弱分类器可以定义为
式中:W+1j和W-1j分别表示正、负样本的特征值落在区间binj内的条件概率,表示为
具体地说,令D+1j和D-1j分别表示第j个区间binj正负样本权值的总和,即
则条件概率为
定义函数为
则基于查表型Gentle AdaBoost弱分类器公式可表示为
1.2 基于模板匹配的头部检测
人体目标作为一种非刚体目标可能呈现出各种不同姿态,很难用统一的模型对其进行描述。经过分析发现,不管是行人的正面图像还是侧面图像,其肩膀以上的头部轮廓变动性最小,呈现出一定的形状,只须定义不同大小的模板,就能满足匹配的需要。另一方面,行人的头部不易被遮挡,在检测过程中很容易被检测出来,因此模板匹配的方法更适用于行人头部的检测。针对头部轮廓可以构建如图1所示的“Ω”形位图模板。对于64×128像素的行人样本,定义头部轮廓模板的大小为32×28像素。
模板匹配可以通过距离变换将待检测窗口转换为DT图像[15],其目的是将这种距离测度表示为模板变换参数的平滑函数,一是方便快速搜索,二是提高匹配精度,三是通过对模板进行简单缩放或者旋转就能实现不同尺度、不同方向的匹配。因此在模板匹配之前,首先对待匹配图像进行边缘检测,得到目标边缘的二值图像,然后对边缘图像进行距离转换得到其DT图像,匹配过程如图2所示。
将头部模板与DT图像做卷积,利用头部模板图像F中的特征点f所在的坐标相对应到DT图像中的距离值相加,再求其平均值,即Chamfer距离,其计算公式为
式中:DT(f)表示f对应于DT图像的欧几里得距离,取平均值的目的是为了对模板的大小进行归一化。
图像越相似求得的Chamfer距离就越小,因此在待匹配的图像中不包含头部的区域,其Chamfer距离通常会远大于有头部的区域,模板匹配的原则是选取Chamfer距离最小的区域作为头部最优框的大小和位置。此外,当边缘图像的Chamfer距离值为检测区域R中最小值时,须再做一次特征点数量上的判断:
式(11)可统计边缘图像的特征点数量,Threshold为特征点数判断阈值,主要目的是确保不会因为特征点数稀少而降低平均距离。同时满足上述两个条件,才认为图像匹配成功。
1.3 部位特征组合的行人检测
在现实道路场景中,分类器的性能往往会受到复杂背景边缘梯度的影响,进而造成误判使得误检率增加,降低了算法精度。多特征融合的方法由于其检测率较高、多场景适应性较好,目前应用最多。
行人检测过程中,分别对腿部和头部输出检测结果之后,只有当头部与腿部同时存在该区域中,才能认为所识别的目标是行人,这就要求对各部位都要有一个较为精确的判定。经过模板匹配后得到的是一个形似头部的区域,须对其进行确认。根据行人头部与背景的差异性特征,可将头部轮廓的形状特征转化为数值特征并与支持向量机结合,训练得到一个识别头部的分类器。另外,通过部位相关性约束限制匹配区域也可以排除一部分虚警。最后将两种特征的识别结果进行融合,正确判断出目标为行人或非行人。
通过观察,行人头部轮廓是一种描述目标全局的特征,它可以粗略感知行人是否存在,而HOG特征则偏重于对局部特征进行详细的描述。特征组合就是建立在局部特征的基础上,并且通过是否具有头部全局特征来影响局部特征的判断,可通过调整分类器的分类阈值实现。
1.3.1 部位约束
虽然模板匹配方法在一定程度上能够检测出人体的头部,但是即使满足匹配条件的区域也会因为受到复杂背景的影响而出现误判。为提高模板匹配的精度,通过人体部位之间的约束对匹配区域进行了限定。假设对于一个正确检出的行人目标区域,行人通常位于图像的正中央,而依据人体肢体的相对位置,头部不可能在下半部分或者位于图像的左、右边缘。另外,由于对行人腿部的检测在前,这也在一定程度上为后续的头部检测提供了必要的依据,除了要避免多余背景的干扰,最主要的则是符合头部在图像中的实际位置。为此,建立如图3所示的人体各部位约束区域,h、w分别为样本高度和宽度,定义头肩部位的高度为0.3h、躯干部位为0.48h、腿部为0.5h,将模板匹配范围限定在腿部检测框上方高为0.3h、宽为0.75w的矩形区域内。在限定了匹配区域后,就可以应用模板匹配方法对头部进行检测。
1.3.2 头部特征转化
经过模板匹配后,能获得一个与行人头部轮廓极为相似的区域,从而在形状上找到两者的区分。但却很难通过单一的阈值去区分行人与非行人Chamfer距离间的差异,因此,可以考虑将行人头部的这种形状特征转化为数值来描述。通过观察,有头部的区域轮廓往往类似于圆形,通过提取轮廓的类圆形特征,将形状特征转化为数值特征,进而对头部匹配的结果在数值上做出精确判断。
针对行人头部的圆形轮廓所提取的有效特征主要包括圆存在性[16]和边界矩特征[17],并可将其组合共同描述行人头部,从而将形状特征转化为数值特征。
1.3.3 特征融合
在通过上述圆形特征来判定模板匹配所产生的候选区域是否为头部之后,最理想的情况是其判定结果与腿部一致,将目标确认为行人。然而实际上会出现两个判定结果不一致的情况,因此,可以通过调整分类器的决策阈值,进而产生或宽松或严谨的分类效果来对分类结果进行融合。
图4为阈值调整示意图,当阈值取值为0时,特征点被判定为“-1”的非行人特征,在放宽阈值之后,则该特征点被判定为“+1”的行人特征,如图4(a)所示;而增加阈值后,则将特征点划分得比较严谨,行人特征视为非行人特征,如图4(b)所示。
头部检测的目的是排除腿部检测产生的虚警,因此,阈值调整策略主要以头部轮廓特征是否存在为主要依据。当头部分类器没有检测到头部时,应当采用较为严谨的阈值调整策略,提高腿部分类器的决策值,进而重新对检测出的腿部区域进行判定。但是此方法的前提是头部区域判定十分精确。由于受边缘提取算法的影响,信息的缺失也会使头部产生误判,为此需要对腿部分类器的决策值进一步分析。腿部检测器的决策值越高则其为行人的可能性越大,若腿部分类器的决策值大于所有弱分类器权值的一半,则不进行调整,直接判断腿部分类器分类正确,目标为行人。若腿部分类器的决策值介于0与所有弱分类器权值的一半时,说明腿部特征的决策值在一个模棱两可的区域内,因此就要调高分类平面。经过调整之后,再对检测出的腿部区域按照新的分类平面进行重新判断,若判断结果为假,则确定目标为非行人。若腿部判定结果仍然为真,此时则反过来对头部分类平面进行宽松的调整,重新对头部做一次判定,如果头部判定结果为真,则可以确定目标为行人。最终,仍然存在一类情况,即腿部判定结果为真而头部判定结果为假,由于特征组合是建立在局部特征存在的基础上,此时判断标准以腿部结果为主,因此,直接判定检测结果为行人。
设腿部分类器阈值调整前后的决策值分别为V1和V'1,头部分类器阈值调整前后的决策值分别为 V2和 V'2,初始的分类阈值 Threshold1=0,Threshold2=0,弱分类器的权值之和为α,根据经验确定腿部阈值调整的区间为2,头部阈值调整的区间为0.5。部位组合阈值调整的具体步骤如下。
2 试验与分析
2.1 数据集
为验证所提部位特征组合行人检测算法的有效性,在Matlab9.0环境下进行了性能对比分析,采用Intel Core(TM)2的CPU和2G内存的计算机。所使用的试验数据集共有两个。数据集1包含两个行人样本库,一是MIT行人数据库,二是课题组自行采集的样本集合,多为城市交通环境下的图像。由于MIT数据库与自行采集的数据库的行人样本比较简单,将其合并为一个,共得到2 324个行人样本,2 300个非行人样本。分别取出其中的1 500个用于训练,其余均为测试样本。数据集2由INRIA行人库组成,挑选出INRIA数据库中腿部不存在严重遮挡的行人样本,最终训练集挑选出1 970张,测试集共890张。对于所有样本,截取下半部分图像并归一化为64×64像素大小。
2.2 腿部分类器测试结果
通过对两个试验数据集进行训练和测试,评价算法的标准采用检测效果和检测时间,检测效果用ROC曲线来描述。
由于对Adaboost中的弱分类器进行了改进,一是采用加权Fisher线性判别来代替线性SVM,从而降低HOG特征维数,二是使用查表型弱分类器替代传统阈值型弱分类器。因此,在试验研究中比较了基于以下3种弱分类器训练得到的腿部分类器在使用特征的数量上和检测精度上的差别:线性SVM、加权Fisher线性判别的阈值型弱分类器和加权Fisher线性判别的查表型弱分类器。
图5比较了由两个训练集训练得到的强分类器性能,训练集1中线性SVM所使用的弱分类器达到了49个,而加权Fisher线性判别所使用的弱分类器只有15个,迭代次数大大减少。训练集2中由于循环条件的限制线性SVM检测率没有达到100%,同样加权Fisher线性判别所使用的弱分类器减少到了38个。加权Fisher线性判别不仅解决了每次迭代随机选取部分HOG特征的问题,还能提高其分类速度。从图5中还可看出,基于查表型弱分类器的收敛速度相对较快,使用较少的特征就能达到目标检测率。
图6 比较了不同类型弱分类器形成的强分类器在两个测试集上的检测性能,即ROC曲线。可以看出,使用查表型弱分类器后的Adaboost检测器的精度与阈值型弱分类器相比,精度有所提高,能更进一步优化强分类器,提升检测性能。而由于线性SVM特征数较多,故检测率比其他两种方法稍高。
表1列出了3种不同分类器在不同数据集上的时间消耗和分类性能。由表可见,加权Fisher与查表型弱分类器的分类性能分别达到了98.64%和93.32%,要优于线性SVM与加权Fisher的阈值型分类器。在时间消耗方面,与线性SVM相比,使用加权Fisher判别的两种弱分类器对数据集1的训练时间分别减少了86.37%和86.43%,验证了其在运算速度上的巨大优势。单独分析查表型弱分类器,其检测时间比简单阈值型弱分类器稍长,主要是由于查表的方法在实际应用过程中,不仅须记录查表的每个区间系数,还须记录特征的最大值和最小值。这些都会占用存储空间,并增加一些运算量。
表1 不同弱分类器时间和性能比较
2.3 部位特征组合检测试验结果
为验证部位组合检测方法的有效性,对样本集中的图像进行了处理,采用混淆矩阵来评价算法的检测结果,主要比较了本文中所提出的部位组合算法、传统 HOG算法[2]和用积分图像计算特征的HOG简化算法。在样本集的检测性能,由于采用了积分图像提取梯度方向的直方图特征,省略了复杂的三维线性插值步骤,大大缩短了特征提取的时间。图7和图8分别给出这3种不同方法在两个测试集的检测结果。
从图7看出,传统HOG算法在734个样本中有4个行人误认为非行人,检测率达到了99.4%,检测结果近乎完美;特征组合算法有24个行人误认为非行人,检测率也达到了96.7%,与传统HOG算法相比略有下降;而HOG简化算法检测率只有76.1%,可见省略三维线性插值步骤降低了算法的精度,通过对特征和分类器进行一系列改进后检测精度得到明显提高。
从图8看出,特征组合算法的检测率比HOG简化算法还低,这是因为测试集2中的行人头部所处的环境比较复杂,存在很多遮挡情况,在一定程度上影响了系统的性能。另一方面,采用特征组合算法的检测率主要取决于各部位检测率的乘积,因此会低于整体的检测率。单独分析误检率可以看到,特征组合算法比HOG简化算法要好,进一步验证了采用特征组合算法能够有效排除虚警的优越性。
图9示出特征组合算法对不同道路环境图像的检测结果。上面两张图为对INRIA数据库中图像的测试结果,下面两张图为室外拍摄的道路图像测试结果。从检测结果可以看出,特征组合算法对不同道路场景下的行人都能取得较好的检测效果,对于在单人和多人的情况同样适用。但是,试验中也发现一些问题,道路两侧的背景复杂使得算法出现误判,将道路两侧的树木误认为是行人目标,复杂背景对边缘提取算法产生影响,使行人头部定位不准确。
3 结论
针对人体的不同部位使用不同的特征进行检测,再通过一定的方法将检测结果融合,实现基于人体典型部位特征组合的行人检测。部位特征组合是建立在人体部位约束、头部确认与分类阈值调整三者结合的基础上,三者之间存在着逐级递进关系。部位约束不但减少了模板匹配的范围,提高了实时性,而且提高了匹配精度。通过头部新特征的提取将头部形状特征转化为数值特征,并结合支持向量机对头部进行最终确认,从而有效排除虚警。根据不同人体部位融合的特点,通过简单的阈值调整便可实现,降低算法的复杂性。试验表明,部位特征组合的方法能够有效地检测出现实场景中的行人,并能排除一定的虚警目标。
试验中也发现头部定位不精确和复杂背景造成的行人误识别等问题。头部识别的关键在于获取区分度较高的特征,为提高头部检测的准确率,须进一步研究更加可靠、稳定的头部目标特征。此外,还可以将级联分类机制引入到分类器中以提高系统的实时性。
[1] Zegeer CV,Bushell M.Pedestrian Crash Trends and Potential Countermeasures from Around the World[J].Accident Analysis and Prevention,2012,44(1):3 -11.
[2] Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C].IEEE Conf.on Computer Vision and Pattern Recognition,San Diego,CA,USA:IEEE,2005,1:886 -893.
[3] Wu B,Nevatia R.Detection and Tracking of Multiple,Partially Occluded Humans by Bayesian Combination of Edgelet Based Part Detectors[J].Int.Journal of Computer Vision,2007,75(2):247-266.
[4] Sabzmeydani P,Mori G.Detecting Pedestrians by Learning Shapelet Features[C].IEEE Conf.on Computer Vision and Pattern Recognition,Minneapolis,Minnesota,USA:IEEE,2007.
[5] Zhang L,Wu B,Nevatia R.Pedestrian Detection in Infrared Images Based on Local Shape Features[C].IEEE Conf.Computer Vision and Pattern Recognition,Minneapolis,Minnesota,USA:IEEE,2007.
[6] 胡斌,王生进,丁晓青.基于部位检测和子结构组合的行人检测方法[J].计算机科学,2009,36(11):242 -246.
[7] 曾春,李晓华,周激流.基于感兴趣区梯度方向直方图的行人检测[J].计算机工程,2009,35(24):182 -184.
[8] 周晨卉,王生进,丁晓青.基于局部特征级联分类器和模板匹配的行人检测[J].中国图象图形学报,2010,15(5):824 -829.
[9] Dollár P,Wojek C,Schiele B,et al.Pedestrian Detection:An E-valuation of the State of the Art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743 -761.
[10] Enzweiler M,Gavrila D M.Monocular Pedestrian Detection:Survey and Experiments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(12):2179 -2195.
[11] Paisitkriangkcrai S,Shen C H,Zhang J.Fast Pedestrian Detection Using a Cascade of Boosted Covariance Features[J].IEEE Transactions on Circuits and Systems for Video Technology,2008,18(8):1140-1151.
[12] Laptev I.Improvements of Object Detection Using Boosted Histograms[J].Journal of Image and Vision Computing,2009,27:535-544.
[13] Freund Y,Schapire E R.A Decision-Theoretic Generalization of on Line Learning and an Application to Boosting[C].Proceedings of the Second European Conference on Computational Learning Theory,Barcelona,Spain:Springer,1995:23 -37.
[14] Wu B,Ai H Z,Huang C.LUT-based Adaboost for Gender Classification[C].International Conference on Audio and Video-Based Biometric Person Authentication,Guildford,UK:Springer,2003:104 -110.
[15] Gavrila D M.A Bayesian,Exemplar-based Approach to Hierarchical Shape Matching[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(8):1408 -1421.
[16] 赵敏.单目视觉多行人目标检测与跟踪技术研究[D].重庆:重庆大学,2010.
[17] Chen C C.Improved Moment Invariant for Shape Discrimination[J].Pattern Recognition,1993,26(5):683 -686.