基于快速区域定位和二重间隔分布机的行人检测
2017-09-15程凡永罗海波阮志强
程凡永,罗海波,阮志强
(闽江学院 福建省信息处理与智能控制重点实验室,福州350108)
基于快速区域定位和二重间隔分布机的行人检测
程凡永,罗海波,阮志强
(闽江学院 福建省信息处理与智能控制重点实验室,福州350108)
为实现快速和代价敏感性的行人检测,设计了基于 BING目标检测和二重间隔分布机的行人检测框架.首先利用 BING特征进行快速目标筛选,在此基础上提出了启发式的目标区域定位算法,通过目标选择和区域定位策略来获取行人所在的区域.区域定位减少了分类器的搜索空间,只需将二重间隔分布机对定位区域进行目标检测即可获得行人检测的结果,提高了行人检测的效率和速度.
快速检测; 区域定位; 行人检测
行人检测是一个具有重要实际应用价值的研究方向,行人姿态的多样性和障碍遮挡等复杂环境给这个问题带来了很大的挑战[1].HOG特征通过刻画梯度图像的分布来描述行人的姿态取得了很大的成功,成为了行人检测中最具代表性的特征表示方法[2].行人检测中最常用的分类器是SVM[3],基于HOG特征和SVM 分类器的行人检测方法取得了很好的行人检测效果.我们也采用这个方法进行了行人检测实验,实验中发现,无论是行人图像还是行人图像的HOG特征图像,它们的均值图像都能很好的描述行人的轮廓信息.基于这个显著的特点,我们将融合样本均值特征的二重间隔分布机[4]替代 SVM 应用到行人检测框架中,这样可以充分利用特征图像的统计特征来正则化分类器,增强分类器的泛化性能.
目前,很多流行的检测算法都是采用特征窗口滑动加分类器识别的方法,检测窗口要遍历整个图像,检测过程需要耗费很长的时间,这就限制了强表示能力的特征和强检测器的使用.因此在应用二重间隔分布机训练的强检测器对目标进行检测之前,一个很关键的步骤是目标区域的快速定位,快速目标区域定位减小了检测窗口的遍历区域,能够提高后续目标检测的效率和速度.常用的目标区域定位方法有:Selective Search[5]通过区域层级合并的策略来实现目标区域的筛选和定位,但由于目标区域生成数量过多且需要对图像进行分割,因此存在目标区域生成时间较长的缺点; 程明明提出的基于二进制归一化梯度特征的目标检测方法 BING Objectness[6]通过训练的目标模板和位运算卷积实现了目标的快速筛选,能获得很高的目标检测率,利用筛选出的目标可以进行目标区域的定位.
本文采用基于二进制归一化梯度特征(BING)的快速目标筛选算法来检测和估计出图像中的目标区域,之后采用二重间隔分布机在目标区域内进行行人检测来实现快速行人检测的目标.本方法在满足一定检测速度的前提下,有效地提高了模型的泛化性能,并能通过代价敏感性的方法有效地克服样本数量及代价的不平衡所导致的检测率不平衡问题.下面介绍BING快速目标检测算法的视觉机理和算法流程.
1 目标感知的视觉机理
认知心理学和神经生物学的研究揭示人类在辨识目标之前会有很强的感知目标的能力.基于对人类反应时间的观察和生物学信号传送时间的估计,人类注意力理论认为人类的视觉系统只详细地处理观察到图像的部分区域,对其他的区域几乎不作处理[7,8].这进一步揭示了,在识别目标之前,人类的视觉系统会有一个简单的目标定位的过程.程明明根据这个视觉机理的启发,提出了一个简单有效的归一化梯度特征来筛选目标.当边界封闭的目标图像被缩小到一个固定的尺寸后(例如,8× 8个像素的大小),归一化梯度(NG)具有很大相关性.BING特征就是基于这一目标视觉特征的相似性而被提出的[6].为学习到一个可以量化图像的目标得分的分类器,需要将目标图像和非目标图像缩放到8× 8的大小,之后将图像的归一化梯度拉成一个64维的向量来学习一个输出目标得分的SVM分类器.训练完分类器以后,对于未知的图像,将它缩放后的归一化梯度特征送入分类器就可以输出图像的目标得分,根据得分就可以对图像是否为目标进行判断.更进一步,程明明又提出了归一化梯度特征的二进制版本,称之为二进制归一化梯度(BING).这种二进制归一化梯度特征的一个优点是可以通过位运算实现二进制数值的卷积,能快速地计算图像窗口的目标得分,极大地提高计算速度.
2 快速检测模型
2.1 归一化梯度特征
目标一般都是直立的,并有封闭的边界和中心位置.当将包含目标的图像窗口缩小成固定大小(8× 8)的时候,图像窗口的归一化梯度特征就变成了一个很好的能区分目标的特征.归一化梯度特征能够很好地保持图像封闭的边界特征,可以用来区分目标与非目标.首先输入图像被缩放到不同的量化尺寸,并计算每个缩放图的归一化梯度特征.这些不同大小的归一化梯度特征图中,一个8× 8窗口内的数值就是对应于该窗口图像的维数为64的归一化梯度特征(NG 特征).NG 特征具有以下优点:
(1)对目标的位置、尺度、长宽比具有很好的稳定性,当目标发生移动、缩放、长宽比变化的时候,相应的NG特征变化很小.
(2)计算效率高,有应用于实时检测和大规模图像集目标检测的潜力.
图1 目标检测滤波器
NG特征具有这些优点,但同时也会带来目标识别能力的下降,不过这可以通过后续的特定目标检测器来解决.用VOC2007数据集中标定的目标图像的NG特征作为正样本,随机选择的不包含目标的图像的NG特征作为负样本,训练出的线性模型64ω∈ℝ (可视化图如图1所示)即可用来筛选目标.
为了检测出一副图像中的目标区域,我们需要按照预定义的量化窗口数(不同尺度和长宽比的窗口)对图像进行扫描.用训练得到的模型 与扫描窗口的归一化梯度特征进行内积即可求得该窗口的得分值
其中sl、gl、l、i、(x,y)分别表示得分值、NG特征、位置、尺度大小、窗口位置.
除此以外,对尺度大小为i的窗口通过一个线性模型校准便可得到最后输出值
其中vi和ti分别是尺度i的权重系数和偏置.虽然上述校准步骤速度很快,但是仅在最后对筛选目标进行重排序的时候采用了这种校准方法.
2.2 二进制归一化梯度特征
为进一步提高检测的速度,程明明通过采用数值的二值化近似,提出了一个NG特征的加速版,称为二进制归一化梯度(BING)特征,用来加速特征提取和预测的过程.通过训练数据学习到的线性模型可以被近似地表示为一系列基的线性组合
其中Nω是基向量的数量,是一个基向量,βj∈ℝ是相应的系数.进一步,每个基向量可以用二进制向量和它的补来表示:一个二进制特征b可以通过按位与和位计数来与线性模型实现内积操作,也就是获得测试目标得分的预测操作
这样,关键的问题就是有效地计算 NG 特征的二进制表示.每一个 NG特征的元素都用一个字节来存贮,可以通过这个字节的前Ng个位来近似.因此,一个64维的 NG 特征可以用Ng个BING特征来近似表示
其中BING特征依据它们在字节中的比特位的不同具有不同权重.通常情况下,要获取一个64维的BING特征需要遍历 NG特征的 64个存储位置,计算效率不高.通过总结 BING特征的特性,程明明提出了BING特征的递推算法,可以有效地计算提取BING特征矩阵.最后,一个对应于BING特征为bk,l的图像窗口的得分值可以通过
快速求得.可以发现上述目标得分值能通过按位与和位1计数器快速获得,这个操作极大地提高了检测的速度,为后续处理提供了基础.
2.3 快速检测二重间隔分布机
前面通过使用 BING特征和位操作实现了目标的快速检测,下面需要根据检测出的目标进行区域定位,通过区域定位减少后续目标识别的搜索空间,为后面使用复杂特征或者采用强分类器的检测方法奠定基础.
如图 2所示,整个检测过程包括三个部分:
(1)目标筛选.将待选图像进行BING特征提取,利用学习到的目标检测模型和位操作进行快速的目标检测和筛选,筛选出的目标如图 2中的顶部图像中的矩形框所示(最外面的矩形框除外).
图2 检测算法流程图
(2)区域定位.根据筛选到的目标的位置,设计适当的算法来定位目标区域,定位的目标区域如图 2中的顶部图像中最外面的矩形框所示,这就大大降低了搜索空间.
(3)行人目标检测.在定位区域内利用训练出的二重间隔分布机进行行人检测获得行人的尺度和位置.
其中目标筛选检测器的学习方法和检测目标的方法包含:
(1)目标筛选检测器学习.通过将 VOC2007数据集中标定的目标作为正样本,随机选择的非目标图像作为负样本,用Liblinear算法学习得到目标检测器.
(2)检测器的二进制近似.根据式(3)可以求得近似目标筛选检测器,通常设置
(3)待检图像的BING特征提取.对待检图像进行BING特征提取,通常设置
(4)目标筛选.按照式(6)计算目标的得分值,并将得分值进行降序排列,通常 BING检测出目标数量为2000左右,设置适当的阈值和规则可以减少目标数量.
完成目标的检测后,区域定位的方法通常有两种:
(1)简单的区域合并法.
依据得分值选择适当比例的筛选目标,利用长宽比进行二次筛选和融合,可以得到数量较少的筛选目标.对这些目标进行区域合并,合并策略是取所有目标的左侧和上侧坐标的最小值作为目标区域的左上坐标,右侧和下侧坐标的最大值作为目标区域的右下坐标.例如,最左上目标的坐标为右下目标的坐标为则合并区域的坐标为
(2)区域生成法.
设Rk为第k个筛选目标的位置,是每个筛选目标位置像素的函数[9]:
其中筛选目标的得分sk被归一化到区间[0,1].对所有的筛选目标,定义每个像素出现的频数为
其中K为筛选目标的数目.再对S(i,j)选取阈值 进行二值化,即
设测试图像的分辨率大小为W×H,把B(i,j)的所有行进行逐行累加,形成W维列向量U,其中第i行的累加方法为
将行累加向量U中的所有W个元素按由小到大的顺序排序,将第ρW个元素的值设为ρ0,其中,比例系数 ρ∈[0,1].并以ρ0为阈值对行累加向量U进行二值化:
比例系数 可以控制定位区域的大小,需要根据实验结果进行确定.同理,对B(i,j)逐列求和并二值化,得到H维行向量V.获得B(i,j)的行累加和列累加后,可以通过计算M=U×V来定位目标区域.
3 实验
我们首先提取VOC2007数据集的BING特征来训练目标筛选分类器,之后提取INRIA数据集的HOG特征来训练二重间隔分布机和代价敏感性二重间隔分布机用于进行行人检测.
3.1 数据集
VOC2007图像数据集一共包含9963幅图像,含有20个视觉物体类别,分别属于交通工具、家居用品、动物、人类、车辆等,它是一个富有挑战性的数据集,图像场景丰富,涵盖了室内外场景以及尺度、视角、光照、姿态等显著差异.除此以外,每幅图像中物体类别的多类性及数目的不确定性都增加了视觉物体分类的难度,从而也相应地增大了行人检测的难度.本节中,我们利用 VOC2007数据集和文[6]中的方法来训练目标筛选分类器.
图 3为目标筛选的召回率/窗口曲线图.可以发现,随着窗口数的增多,召回率升高,当窗口数增大到 100的时候,人的召回率可以达到 70%左右; 当窗口数增大到400的时候,人的召回率可以达到85%左右.实验中,我们采用了BING中默认的窗口数,把检测到的目标按照得分值降序排列后,通过选取排名靠前的若干个目标来完成目标筛选和区域定位.例如,通过选取排名第 5~20的符合行人比例的目标进行简单的区域定位的结果如图4所示.由图4可以看出,通过这样的简单区域合并,能显著地减小后续目标识别过程的搜索空间,特别是对背景简单图片的效果更为明显.
我们采用了INRIA行人数据集来训练二重间隔分布机和代价敏感性二重间隔分布机.INRIA数据集包含 2416个96× 160大小的行人图像,这些图像剪切自很多包含人类活动的照片,另外还包含原始的1218个不包含人的图像.将行人图像只保留4到67列和4到131行,剪切成64× 128大小,作为正样本图像,从 1218个不包含人的图像集中的每个图像上选取 10个64× 128大小的图像块作为负样本图像,总共有12180个负样本图像.测试图像也是取自INRIA数据集,包含1126个64× 128大小的正测试图像和 6090个64× 128大小的负测试图像.获得训练集和测试集图像以后,分别提取它们的 HOG特征作为训练样本和测试样本,用来训练和测试二重间隔分布机和代价敏感性二重间隔分布机.学习机中的参数通过五折交叉验证来确定,代价敏感参数需要根据正样本的误分类率和性能曲线确定.
图3 召回率/窗口曲线图
图4 区域定位图
图5 代价敏感曲线
3.2 代价敏感性分析
根据二重间隔分布机中均值间隔的代价敏感性[4],在对错分正样本进行再训练的过程中,如果正样本的误检率达不到预期要求,可以通过代价敏感参数进行调节.如图5所示,TrainAcc 表示在训练集上的 Acc(准确率)曲线,TestAcc 表示在测试集上的 Acc 曲线,其他的曲线标注也是类似的,TPR是行人样本的检测率,TNR是非行人样本的检测率,G-mean是 TPR和 TNR的几何平均数,横坐标是代价敏感参数,纵坐标是各个评价指标的取值.在区间[1,16](代价敏感参数的真实值为 20.3×(p-1))上,随着代价敏感参数的增大,TPR曲线呈波动上升趋势,TNR曲线呈波动缓慢下降趋势,整体的准确率变化不大.如果超出了这个区间,代价敏感参数继续增大,TNR曲线急速下降,TPR曲线缓慢上升,整体准确率将会大幅度下降.在代价敏感参数的变化过程中,三条曲线在p=16附近相交,这说明了在该点附近检测性能达到一个平衡状态,即该点为平衡点.当反复训练达不到指定的正样本检测率时,可以通过调整检测模型的代价敏感参数来提高正样本的检测率.在实验过程中,默认的检测模型采用平衡点的值作为代价敏感参数.
3.3 检测结果
通过 BING框架完成目标筛选和区域定位后,可以使用学习到的代价敏感性二重间隔分布机来进行行人检测,经过非最大值抑制后,得到最终的检测结果如图6所示.
从图 2所示的目标检测流程可以看出,在BING+DDM 的目标检测框架中,扫描的图像像素数量约为原图像像素的一半.在多尺度检测条件下,滑动窗分类器的规模和窗口的数量与图像像素呈线性关系,所以检测器检测目标的速度提高了一倍左右.考虑到目标筛选和区域定位所花费的少量时间,最终的平均识别速度约提高了 0.7倍,后续可以通过多线程以及并行计算的方法来进一步提升检测速度,满足实际应用的实时性需求.
图6 检测结果
4 总结
本文采用了BING特征和位操作实现卷积的方法来加速行人检测的过程.BING特征是梯度特征的一个二进制近似,将学习到的目标检测器也进行二进制近似,这样二进制特征与分类器的内积计算就可以通过位运算实来现,能快速地计算出一副图像中候选目标的位置及其得分值.通过对部分筛选出的目标进行区域合并,可以快速地获得行人目标的区域定位,进而减少后续行人检测的搜索空间,提高了行人检测的效率和速度.在最后的行人检测过程中,引入了二重间隔分布机来提高检测器的泛化性能,更进一步,针对行人样本的间隔分布和检测率的不平衡问题,采用了代价敏感性二重间隔分布来进一步提高检测器的平衡性和稳定性.实验结果表明,利用BING特征进行目标筛选和区域定位可以有效地提高后续二重间隔分布机的检测速度和效率,二重间隔分布机的引入也提高了检测器的泛化性能和均衡性.
[1]Dollár P,Wojek C,Schiele B,et al.Pedestrian detection: an evaluation of the state of the art.[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(4): 743~761
[2]Dalal N,Triggs B.Histograms of oriented gradients for human detection[J].Computer Vision and Pattern Recognition,2005(1): 886~893
[3]Vapnik,Vladimir N.The nature of statistical learning theory[J].IEEE Transactions on Neural Networks,1995,8(6):988~999
[4]Cheng F,Zhang J,Li Z,et al.Double distribution support vector machine[J].Pattern Recognition Letters,2017,88: 20~25
[5]Uijlings J R,Sande K E,Gevers T,et al.Selective Search for Object Recognition[J].International Journal of Computer Vision,2013,104(2):154~171
[6]Cheng M M,Zhang Z,Lin W Y,et al.BING: Binarized Normed Gradients for Objectness Estimation at 300fps[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014: 3286~3293
[7]Mangun G R.Neural mechanisms of visual selective attention[J].Psychophysiology,1995,32(1): 4
[8]Wolfe J M,Horowitz T S.What attributes guide the deployment of visual attention and how do they do it?[J].Nature Reviews Neuroscience,2004,5(6):495
[9]刘 涛,吴泽民,姜青竹,等.基于似物性的快速视觉目标识别算法[J].计算机科学,2016,43(7): 73~76
Pedestrian Detection based on Fast Region Location and Double Distribution Support Vector Machine
CHENG Fanyong,LUO Haibo,RUAN Zhiqiang
(Fujian Provincial Key Laboratory of Information Processing and Intelligent Control,Minjiang University,Fuzhou 350108,China)
In order to quickly and cost-sensitively detect pedestrian,this paper designed pedestrian detection model based on BING and Double Distribution Support Vector Machine (DDM).Based on objectiveness proposals from BING feature,heuristic region location algorithm was proposed.The region including pedestrian can be obtained by objectness select and region location algorithm.Region location effectively reduced the search space of DDM,therefore DDM only scan the location region to detect pedestrian to obtain detection result and position.Region location improves the efficiency and speed of pedestrian detection.
fast detection,region location,pedestrian detection
TP391.4 文献标识码: A 文章编号: 1672-5298(2017)02-0027-06
2017-02-10
福建省重点实验室开放课题(MJUKF201737); 闽江学院教改项目(MJW201142103,MJW201122064); 闽江学院育苗项目(YKY13007);福建省科技厅项目(2017H0029); 国家自然科学基金面上项目(61672216)
程凡永(1982- ),男,山东沂水人,博士,闽江学院讲师.主要研究方向: 图像处理与模式识别