APP下载

结合梯度直方图贝叶斯理论视频行人检测

2018-06-19武海燕李跃新李卫平

计算机工程与设计 2018年6期
关键词:矩形框像素点行人

武海燕,李跃新,2,李卫平

(1.铁道警察学院 公安技术系,河南 郑州 450000;2.湖北大学 计算机与信息工程学院,湖北 武汉 430070;3.武汉理工大学 信息工程学院,湖北 武汉 430070)

0 引 言

行人是视频监控、智能交通等领域关注的主要对象之一,研究基于视频图像的行人检测技术对于提高视频监控等系统的智能化水平有重要促进作用,理论研究和应用价值都非常大[1]。

近些年,行人检测领域取得到许多创新的研究成果。按照特征描述子的不同,现有行人检测方法大致可以分为4类:一是基于Haar-like特征的行人检测方法,此类方法主要采用Haar-like特征以及一些融合的其它特征来描述行人与其它物体的差异,然后采用Adaboost、支持向量机(support vector machines,SVM)等分类器来检测行人目标。由于Haar-like特征在提取时可以采用积分图进行加速,因此此类方法的运算效率较高[2,3]。二是采用局部二元模式等纹理特征的行人检测方法,此类特征的优点是受光照变化的影响较小,然而此类特征对于行人这种非刚性目标的区分能力偏弱,因此采用此类特征检测行人时往往会造成较多的误检现象[4,5]。三是基于方向梯度直方图(histogram of oriented gradients,HOG)特征的行人检测方法,此类方法主要采用HOG特征来描述行人目标,采用SVM、随机森林等分类器来检测行人目标。与Haar-like特征相比,HOG特征可以更好地描述行人的结构化特征,因此采用HOG特征检测行人目标往往可以取得比Haar-like特征更好的检测效果,尤其是在假正率指标方面具有较大优势[6-8]。四是采用深度学习等方法自动提取行人目标特征和进行行人检测。此类方法在大规模数据集训练的情况下往往可以取得较好的行人分类结果,但此类方法的运算效率偏低,资源占用率也较大[9,10]。

本文主要研究面向监控视频的行人检测方法。对于视频监控系统的应用而言,为保障实时处理的需求,要求行人检测算法的运算效率要高。另外,视频监控系统中同时要监控的摄像机路数非常多,此时对行人检测算法的虚警率指标要求较高,如果行人检测算法经常引起虚警,那么视频监控系统的行人智能预警功能就难以达到降低值班人员工作量的目标。现有行人检测算法还难以满足视频监控系统的这两种应用需求,尤其是虚警率指标。

为此,本文提出一种结合贝叶斯理论的行人检测方法,设计思想是先依据运动检测方法剔除大面积背景区域,降低这些背景区域引起的虚警现象和时间耗费;然后在传统的结合HOG特征和SVM分类器的行人检测的基础上,基于贝叶斯理论估计每一个像素点属于行人目标的后验概率,滤除错误检测的行人目标区域,最终目标是降低视频监控系统的虚警率。

1 本文方法

本文面向监控视频的行人检测难题,提出一种基于贝叶斯理论的行人检测方法,实现流程如图1所示。首先,采用Vibe方法进行前景提取,初步定位可疑行人区域;然后,采用经典的结合HOG特征和SVM分类器的行人检测方法,获取行人目标矩形窗口;在此基础上,依据贝叶斯理论计算像素点属于行人目标的后验概率,得到一幅概率图像;最后采用OTSU方法对概率图像进行自适应分割,得到最终的行人检测结果,详细过程描述如下。

1.1 前景提取

图1 本文方法实现流程

在监控视频中,行人属于运动的前景目标,可以通过运动检测方法快速提取前景目标区域。

常用的运动检测方法可以分为背景差分法、帧间差分法和光流法3类。考虑到本文的目标是快速检测监控视频中的行人目标,这里采用背景差分法来提取前景区域。主要原因是光流法运算效率偏低,而帧间差分法提取的运动目标不完整且对走走停停的目标容易漏检。

背景差分法的关键是构建背景模型,常用的有混合高斯背景模型、自组织背景模型等。本文采用文献[11]所述的Vibe方法,该方法的突出特点是背景模型构建效率很高,而且可以针对单帧图像构建背景模型,不需要特定数据的训练过程。对于摄像机固定的监控视频而言,该方法在高效提取前景目标区域的前提下,还取得了非常高的召回率指标。对于本文的行人目标检测应用而言,采用该运动检测方法提取前景目标时,目标漏检现象很少,这非常有利于后续行人目标的检测。

运动检测之后可以得到一幅二值掩膜图像B,其中,前景区域的像素点赋值为1,背景区域的像素点赋值为0。

为了修复前景区域目标的不完整现象和降低噪声干扰,本文采用数学形态学的顶帽变换对二值掩膜图像B进行滤波,滤波模板尺寸设为5×5。

1.2 行人特征提取与分类

在基于图像的行人检测方法中,结合HOG特征与SVM分类器的行人检测方法相对而言兼顾了运算效率和检测效果。本文选用该方法提取行人特征并进行分类,详见文献[8]。需要说明的是,本文是针对监控视频进行行人检测的,因此可以采用前述的前景提取步骤来缩小行人检测的范围。具体到实现时,在提取HOG特征前对检测窗口所对应的二值掩膜窗口进行判断,如果对应的二值掩膜窗口中不包含前景像素点,则认为该检测窗口不包含行人目标,不需要再进行HOG特征提取和SVM分类步骤,这样不仅可以提高运算效率,而且可以降低背景区域对行人目标检测的干扰,从而降低虚警。需要指出的是,在检测窗口中提取HOG特征时针对的是窗口区域的灰度图像。

另外,文献[8]在检测行人时对图像进行多尺度的平滑窗遍历,这样每一个位置可能检测出多个行人目标窗口,文献[8]通过窗口合并和过滤来降低误检,并得到最终的行人检测结果。然而,简单的窗口合并与过滤难以有效降低行人目标的误检现象。本文的思路是充分利用视频的时间相关性,结合贝叶斯理论来对结合HOG特征与SVM分类得到的检测结果进行滤波,详细见下一节的描述。因此,这里不像文献[8]那样进行窗口的合并与过滤,而是直接保存所有检测到的行人目标矩形框集合R。

1.3 后验概率计算

经过前述的前景提取过程,得到了一个二值掩膜B;经过结合HOG特征与SVM分类的行人检测,得到了一个行人目标矩形框集合R。本文结合这两组信息,依据贝叶斯理论来计算各个像素点属于行人目标的后验概率。

给定两个随机变量Sp和Zp。其中,Sp用于指示图像中像素点p处是否真实存在行人目标。Zp用于指示图像中像素点p处是否检测到行人目标,也即采用前述的行人检测方法在像素点p处输出的行人检测结果。

采用贝叶斯理论,可以通过观测值Zp来估计Sp的概率,表示为

p(Sp|Zp)=p(Sp)p(Zp|Sp)

(1)

其中,p(Sp|Zp)也称为后验概率,p(Sp)称为先验概率,p(Zp|Sp)表示似然。

采用贝叶斯理论的目标是通过与前面的观测结果进行比较,来滤除错误检测到的虚假行人目标。

下面介绍先验概率和似然的计算方法。

(1)先验概率计算

对于每一个像素点p,本文先从目标矩形框集合R中找到包含该像素点的矩形框子集,表示为Rp。

C(Rp)=

(2)

其中

(3)

(4)

记像素点p的坐标为(xp,yp),按照距离的远近,横坐标xp相对与矩形框子集Rp的权重因子可以采用分段线性函数来表示,为

w(xp,Rp)=

(5)

类似地,纵坐标yp相对与矩形框子集Rp的权重因子可以表示为

w(yp,Rp)=

(6)

本文采用这两个权重来计算像素点p属于行人目标的概率表示为

(7)

上式所表示的意义是,像素点p所从属的目标矩形框数量越多,离这些矩形框的最小交叉矩形区域的中心越近,离这些矩形框的最大外接矩形区域的边界越远,那么该像素点属于行人目标的概率越大。其中,|R|表示该帧图像所检测的目标矩形框总数。

基于此,像素点p属于行人目标的先验概率可以表示为

(8)

这样,每一帧图像检测完之后,存储每一个像素点属于行人目标的先验概率,经过每一帧计算结果的更新,行人目标的先验概率越来越准确。

(2)似然计算

对于图像中的每一个像素点,如果该像素点属于行人目标,那么需要满足两个条件:一是该像素点是前景区域,也即在二值掩膜B中该像素点所对应的灰度值应当为1;二是该像素点应当属于目标矩形框集合R,而且该像素点所从属的目标矩形框越多,则该像素点属于行人目标的概率越大。基于这一思路,本文设计的似然计算公式为

(9)

其中,NRi表示矩形框Ri的面积,也即Ri所包含的像素点数量。B(t)表示二值掩膜B在像素点t处的取值。

得到先验概率和似然之后,依据式(1)可以计算像素点p属于行人目标的后验概率。

经过上述处理之后,每帧图像上的每一个像素点都对应了一个后验概率,取值范围为0~1。将其乘以灰度级L,这样每一帧图像就可以转换成一幅灰度级为L的概率图像,记为I。本文取L=100。

1.4 概率图像自适应分割

在前面得到的概率图像I中,像素点的值越大,说明该像素点属于行人目标的概率越大,反之越小。这样,可以通过图像分割的方法来提取行人目标像素点。

在图像分割领域,OTSU方法依据类间方差最大准则计算最优分割阈值,是公认的分割结果稳定且自适应能力强的图像分割方法。本文采用OTSU方法计算概率图像的最佳分割阈值,表示为

(10)

其中,δ(t)表示以灰度值t为分割阈值将图像分为两类时的类间方差,可以表示为

(11)

其中

(12)

(13)

(14)

(15)

这里,N表示概率图像I中的像素点总数,ni表示概率图像I中灰度值为i的像素点个数。

可见,OTSU算法是从所有灰度值中,选出一个使得分割后类间方差最大的灰度值作为最优的分割阈值。这样可以保证图像分割时错分概率最小,而且分割效果理想与稳定。

采用最优分割阈值Topt对概率图像进行分割,大于分割阈值Topt的像素点判定为行人目标像素点,赋值为1;其它像素点判定为背景像素点,赋值为0。最后对分割后的二值图像进行数学形态学的顶帽变换,此处的滤波模板尺寸设为3×3,主要用于滤除噪声。这样,即可得到属于行人目标的像素点。扫描这些像素点组成的各个连通域的外接矩形框,即为最终的行人检测结果。

2 实验与分析

为了定量评价本文方法的性能,本文在公开测试数据集上进行行人检测实验,将本文方法与文献[3,7,8]所述的行人检测方法进行性能对比,定量评价本文方法的检测性能。下面首先说明本文实验采用的行人数据集以及定量评价指标,然后给出不同方法的实验结果与性能对比分析。

2.1 实验数据集与性能评价指标

(1)实验数据集

在行人检测领域的公开测试数据集中,Caltech数据集与本文的研究对象相符,为监控视频数据集。本文选用该数据集测试本文方法的性能指标。另外,本文方法中用到SVM分类器,该分类器的训练常用INRIA数据集,如文献[8]所述。因此,本文也选用INRIA数据集进行SVM分类器的训练。下面简要介绍这两个数据集。

1)Caltech数据集

Caltech数据集收集的是在实际监控场所拍摄的街区视频,分辨率为640×480,帧率为30 fps,其中约含250 000帧图像,所有行人目标都已进行人工标注,共计2300个行人、350 000个行人窗口。

2)INRIA数据集

INRIA数据集收集的是裁剪过的行人图像和非行人图像,其中,图像总数为5264幅,行人图像3548幅,非行人图像1716幅。

在后续的性能指标测试过程中,所有行人检测方法都采用INRIA数据集进行分类器的训练,采用Caltech数据集进行行人检测测试。

(2)性能评价指标

行人检测领域常用的检测效果评价指标有两个,一是真正率(true positive,TP)指标,可以表示为

(16)

二是假正率(false positive,FP)指标,可以表示为

(17)

这里,行人窗口检测结果是否正确是由IoU指标来判断的,如文献[8]所述。IoU的定义为

(18)

另外,对于监控视频分析而言,算法的运算效率也是非常重要的性能评价指标。本文采用检测帧率(detection frame rate,DFR)来描述算法的运算效率,检测帧率是指每秒可以处理的图像数量,单位为fps。考虑到算法运行的软硬件平台性能越高,检测帧率越快。为此,本文在对比不同方法的检测帧率时,在相同软硬件平台下测试检测帧率指标,软硬件平台参数为:

操作系统:Windows 7 Service Pack 1 64 bits;

CPU:Intel(R) CoreTMi5-4570 @3.2 GHZ;

内存:DDR3 16 G;

软件平台:Microsoft Visual Studio 2012;

2.2 实验结果与性能对比分析

图2给出了不同行人检测方法的真正率和假正率指标的对比结果。表1给出了不同行人检测方法的检测帧率对比结果。

图2 不同方法的TP和FP指标对比

方法DFR/fps文献[3]方法10.1文献[7]方法21.3文献[8]方法4.9本文方法21.6

由图2可见,4种方法的真正率指标相差不大,其中本文方法与文献[8]所述方法的真正率指标相当,高于其它两种方法。这说明,4种方法在检测行人目标时漏检行人目标的次数差异不大。从假正率指标来分析,本文方法的假正率指标明显低于其它3种方法,尤其是文献[3,8]两种方法,究其原因,主要有两个方面:第一,本文方法在前景提取阶段剔除了大面积的背景区域,降低了在这些区域可能产生的误检行人窗口,这一点与文献[7]所述方法类似,因此,文献[7]的假正率指标也明显低于文献[3,8]两种方法;第二,本文方法对结合HOG特征和SVM分类器检测到的行人目标窗口进一步进行贝叶斯学习,依据视频的时间相关性来增强行人目标区域的先验概率,依据二值掩膜和行人目标窗口集来估计像素点属于行人目标的后验概率,并采用OTSU方法进行自适应的分割,可以有效剔除误检的行人目标窗口,大幅降低行人检测的假正率指标。

由表1可见,本文方法的检测帧率指标与文献[7]所述方法相当,远高于文献[3,8]所述方法。这主要是因为本文方法与文献[7]所述方法一样,先采用运动检测方法剔除了大面积的背景区域,降低了在这些区域进行行人检测引起的时间消耗,因此大幅提高了整体检测的检测帧率指标。与文献[7]所述方法相比,本文方法尽管增加了后验概率估计等步骤,但是,这些步骤的计算复杂度很低,而且本文方法在前景提取步骤的运算效率高于文献[7]所述方法,因此,最终测试结果本文方法的检测帧率指标还略高于文献[7]所述方法。

通过以上的实验分析,可见本文方法在面向监控视频的行人检测应用时其行人检测性能优于其它3种对比方法,不仅真正率和检测帧率指标高,更重要的是假正率指标远低于其它方法。这样,将本文方法应用于视频监控系统,可以有效降低行人检测的虚警率。

3 结束语

本文主要针对视频监控系统对行人检测的效率和虚警率指标的要求,提出了一种基于贝叶斯理论的监控视频行人检测方法,与传统方法相比,本文方法主要进行了两个方面的改进和创新研究:

(1)结合监控视频特性,行人属于运动的前景目标,因此本文先采用Vibe算法提取前景目标区域,缩小后续行人检测的范围,间接降低虚警和提高运算效率。

(2)在前景提取结果和结合HOG特征与SVM分类的行人检测结果的基础上,基于贝叶斯理论计算每一个像素点属于行人目标的后验概率,用于滤除前期错误检测的虚假目标,降低虚警。

通过这两个方面的改进和创新,本文方法在Caltech数据集上进行行人检测实验时,真正率和检测帧率高,且假正率非常低。因此,采用本文方法进行视频监控系统的行人检测,可以有效降低系统的虚警率,同时具有较高的运算效率。

参考文献:

[1]Benenson R,Omran M,Hosang J,et al.Ten years of pedestrian detection,what have we learned?[J].Computer Scie-nce,2014,8926(1):613-627.

[2]ZHANG Ronghui,LI Fuliang,ZHOU Xi,et al.A pedestrian detection method based on spatio temporal data fusion of laser and video[J].Transportation System Engineering and Information,2015,15(3):49-55(in Chinese).[张荣辉,李福樑,周喜,等.一种基于激光与视频信息时空数据融合的行人检测方法[J].交通运输系统工程与信息,2015,15(3):49-55.]

[3]Zhang S,Bauckhage C,Cremers A B.Informed Haar-like features improve pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:947-954.

[4]XIAO Degui,XIN Chen,ZHANG Ting,et al.Significant texture features and pedestrian detection in vehicular environment[J].Journal of Software,2014,25(3):675-689(in Chinese).[肖德贵,辛晨,张婷,等.显著性纹理结构特征及车载环境下的行人检测[J].软件学报,2014,25(3):675-689.]

[5]ZHOU Shuren,WANG Gang,XU Yuefeng.Pedestrian detection based on improved HLBP texture features[J].Computer Engineering and Science,2016,38(5):960-967(in Chinese).[周书仁,王刚,徐岳峰.改进型HLBP纹理特征的行人检测[J].计算机工程与科学,2016,38(5):960-967.]

[6]Hoang V D,Le M H,Jo K H.Hybrid cascade boosting machine using variant scale blocks based HOG features for pedestrian detection[J].Neurocomputing,2014,135(8):357-366.

[7]Zhang S,Klein D A,Bauckhage C,et al.Fast moving pedestrian detection based on motion segmentation and new motion features[J].Multimedia Tools and Applications,2016,75(11):6263-6282.

[8]Yadav R P,Kutty K,Ugale S P.Implementation of robust HOG-SVM based pedestrian classification[J].International Journal of Computer Applications,2015,114(19):10-16.

[9]Luo P,Tian Y,Wang X,et al.Switchable deep network for pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:899-906.

[10]Cai Z,Saberian M,Vasconcelos N.Learning complexity-aware cascades for deep pedestrian detection[C]//IEEE International Conference on Computer Vision.IEEE,2015:3361-3369.

[11]Barnich O,Droogenbroeck M V.ViBe:A universal background subtraction algorithm for video sequences[J].IEEE Transactions on Image Processing,2015,20(6):1709-1724.

猜你喜欢

矩形框像素点行人
毒舌出没,行人避让
基于局部相似性的特征匹配筛选算法
多模态卷积神经网络的物体抓取检测
路不为寻找者而设
一种汽车式起重机防倾翻方法的研究
基于5×5邻域像素点相关性的划痕修复算法
基于canvas的前端数据加密
共享单车有了“家”
我是行人
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割