一种基于多特征融合的俯视行人检测与跟踪方法

2018-09-04张晓李峰秦晓飞张晓初

软件导刊 2018年6期

张晓李峰秦晓飞张晓初

摘要：针对俯视的行人，提出一种基于俯视行人特征、矩形分块特征、颜色均匀特征等多特征融合的行人检测和跟踪方法。该方法主要由4个部分组成：运动检测、目标识别、目标跟踪建模、目标跟踪。系统在整张图像上用检测窗遍历扫描的方式检测是否含有人头目标，每次移动都是在原图像的一个采样，将所有候选目标都依次检测，保留目标图像；同时，对检测到的目标重新建模以便后续跟踪；最终利用MeanShift算法跟踪检测到的目标。实验表明：该算法精度高、速度快，能有效避免漏检、误检等情况，可以很好地适应复杂场景下的行人检测。

关键词：行人检测；客流计数；MeanShift算法；跟踪算法

DOI：10.11907/rjdk.172876

中图分类号：TP301

文献标识码：A 文章编号：1672-7800（2018）006-0027-05

Abstract：In this paper， a pedestrian detection and tracking method based on multi-feature fusion such as pedestrian character， rectangular block feature and color uniform feature is proposed. The method mainly includes four components： motion detection， target recognition， target tracking modeling and target tracking. The system employs the the detection window traversal scan to detect if there are head targets in the whole image and each move is a sampling of the original image of. All the candidate targets are detected in turn， and the target images are kept and remodeled for subsequent tracking； Finally， the MeanShift algorithm is used to track the detected targets. Experiments show that the algorithm is of high precision and speed and it can well adapt to the pedestrian detection in complex scenes for it can effectively avoid misdiagnosis and false detection.

Key Words：pedestrian detection； passenger flow counting； MeanShift algorithm； tracking； algorithm

0 引言

當今社会对行人检测的需求越来越多[1]，比如商场的进出口、火车站或地铁的进出口、小区的安防系统[2]。随着社会的发展，行人检测的重要性日益突出，行人检测仪器及原理也愈加丰富。人头检测可以用于行人计数[14-15]、行人检测等[16]，具有很好的应用前景，并且在工程中易于实现，只需要将摄像机安装在人流通过区域的正上方，这样拍摄到的图像几乎都会包含完整的人头。

该领域最有影响力的早期作品之一是Papageorgiou等[3]的方法，他们使用几个尺度的哈尔小波滤波器提取人物的特征。对于面部检测的问题，类似Haar特征被证明是非常有效的，但对行人外观和形状变化较大的处理能力较差。在引入SIFT描述符之后出现了重大突破。受SIFT的启发，Dalal和Triggs[5]提出了方向梯度直方图（HOG）特征。 HOG出现后，引入了HOG的几个推导。Wu等[6]与HOG和Wang等[7]将局部二值模式（LBP）与HOG结合在一起[8]。尽管看起来与HOG的所有可能功能组合已被彻底探索，但事实并非如此。如Dollar等[9]回顾了原始的HOG，并开发了积分通道特征（ICF），它是多个通道的矩形总和，如LUV颜色、灰度、梯度和方向。Benenson等[10]采用平方和代替矩形计算ICF特征，并命名为平方通道特征（SCF）。此外还引入了聚合通道特征（ACF）[11]，以多尺度加速特征计算，不再利用矩形而是使用像素查找。 Nam等引入局部去相关滤波器消除邻域中信道特征的相关性，将其命名为局部相关通道特征（LDCF），该方法提高了ACF的性能。ZLD等[12]受LDCF启发，创建了过滤通道特征（FCF）的框架，比较了几种过滤组合的性能，并打破了LDCF的记录。Park等[13]提高了ACF的性能，增加了从弱稳定序列提取的光流特征，并将其命名为SDt。

为了从视频序列中提取移动的行人区域，已经提出几种方法：帧差分法、光流法和背景减法。帧差分法不能很好地适应环境。光流法可以分析从图像序列到近似计算移动的目标字段的光流场，可以通过分割场景图像来检测对象领域。然而，流量不能在本地计算，因为在图像序列的某一点只能获得一个独立的测量值，而流速具有两个分量[12]。本文提出用一种通用的背景减法提取前景。前景图像可以从背景减去的输入图像中快速提取。背景减法的结果可以呈现目标形状、位置和大小信息。

综合以上几类方法为基础，本文提出了基于多特征融合的人头检测和跟踪算法。该算法主要包括运动检测、目标识别、目标跟踪建模、目标跟踪4个部分。通过检测窗对候选目标快速筛选，检测出目标图像，然后用MeanShift算法进行目标跟踪识别。

1 俯视行人特征分析

根据实际拍摄的图片，检测窗体大小设为 75×75，滑动检测窗，矩形框每一次移动都是在原图像的一个采样，如图1。

其中图1中的（1）、（2）、（3）、（4）、（6）、（7）、（13）、（14）、（15）为人头图像，且图（2）和图（3），图（6）和图（7）都分别为同一个人。遍历方框采用75×75，由于白色部分为1，黑色部分为0，75×75=5 625，白色部分积分值大概在1 700—3 500之间，其中1 700是直径为75的圆，5 625-75^2/4*3.14=1 700，3 500是测得的人头最小极限。图（5）、（8）、（9）、（10）、（11）、（12）均为干扰项，其中图1的（5）为一个黑色肩膀，图1的（8）、（9）、（10）为同一条裤子，图1的（11）、（12）是同一个书包。（图1的（1）、（2）、（3）来自图2（1）；图1的（5）、（6）、（7）来自图2（2）；图1的（8）、（9）、（10）来自图2（3）；图1的（14）、（15）来自图2（4）。

针对图1（1-15）进行特征分析，其中图1（3）是最理想的目标对象。二值化人头特征是把不符合条件特征的样本删去，无论是HOUGH变换圆检测、轮廓特征检测，还是矩形分块特征检测，图（3）都是最理想的样本，但实际检测中背景变换太复杂，当行人穿着为黑色衣裤，或者披长发，检测就比较困难，因此有必要分析复杂背景下人头特征。具体特征描述如下：（遍历取样取积分值为1 700-3 500）

（1）一个人头后面的背景如果不是黑色，那么取样结果任意三条边不能同时含有黑色，也就是说任意三条边的积分值不能同时不等于75，否则删除所得样本。

（2）当然对于图1（11）、（12）特征二同样有效，但图1（8）特征二并不能剔除，因此提出检测直线的方法，，图1（8）、（9）、（10）中直线形成的原因主要是，在腐蚀膨胀后，图像中一些近似直线的线条会变成纯粹的直线，而人头图像不会产生长度超过20个像素的直线。图4是图1（9）放大后的图像，可以清楚看出图中左下方有一条直线，以及中上方有一条短直线，因此建立函数detectline，检测采样样本中是否含有长度超过20像素的直线。

（3）假定一个人头图像只能位于检测窗的左下角，不能位于右上部分，即类似图1（2）、（3）的人头，这样可以剔除图1（10）、（11）的干扰。基于此，设定任意一个采样样本黑色部分如果与两条边相交，那它只能与左边和下边相交，而右边和上边设定为白色，按照这个标准能采到一个人头图像相应样本。同时也直接排除了图1（9）、（10）、（11）。

（4）头部颜色也是突出特征，但本文没有直接用黑色作为目标特征，而是通过计算矩形框内所有像素值的方差来确定。这样，也可以有效辨识那些头发染色或秃头的行人。

2 矩形分块特征

本文将矩形分块特征应用于俯视人头检测。根据其左右、上下边界特征作为判断标准，如图5为人头矩形分块。

左右边界特征：即将矩形框从左到右分成4个列，如果目标在矩形框的中间，则矩形框左侧两列矩形块之间和右侧两列矩形块之间都会存在很明显差异，如图1。检测窗从左向右第 1、2、3、4 列矩形分块的积分值分别用R（1L）、R（2L）、R（3L）、R（4L）表示；分別用F-1、F-2检测矩形框左右两边是否存在边界。

上下边界特征，同左右边界特征类似，如果被检测目标在矩形框中间，将矩形框从上到下分为4行，如果目标在中间，那么矩形框上边的两行和下边的两行之间都会存在较大差异。因此可将式（1）-（6）稍加改动，作为上下边界特征的判断准则。

矩形特征阈值的确定只需要正样本，每一种矩形特征都需要通过所有的正样本确定相应的阈值。

3 目标检测及跟踪

3.1 目标检测

此外，将前两节得到的每一个特征都设计为简单的分类器，分类器之间是级联的关系，只有满足所有特征的目标才是真正的目标。

3.2 人头目标跟踪

3.2.1 目标模型建立

3.2.2 候选模型建立

H表示核函数窗口的大小，决定权重的分布，其它参数则同目标模型。

3.2.3 相似性度量

本文采用Bhattacharyya系数作为相似函数，其定义为：

以前一帧中的目标中心位置为搜索窗口中心，逐渐寻找候选区域。若在该区域中相似函数最大，则该区域即是本帧中的目标位置。

3.2.4 MeanShift区域搜索

对式（18）进行泰勒展开，得到Bhattacharyya系数的近似表达式为：

通过候选区域中心向真实区域中心的MeanShift迭代方程完成其极大化过程：

根据2.2.1-2.2.3所建立的状态方程估算出目标存在的粗略位置，进而采用 Mean Shift 算法在该区域对目标位置搜索，减少了对整幅图像搜索带来的无效计算，提高了算法效率。

3.3 算法总体框架

系统整体架构如图6所示。系统主要包括3个模块：运动目标检测模块、人头检测模块、目标跟踪模块。

4 实验结果与分析

选取监控视频，并选取500帧图片作为测试样本，图像大小为320×240，采用64×64尺度的检验窗，依次遍历扫描，每次步长6个像素。检测效果如图7所示。

为验证本文方法有效性，利用基于多特征融合的人头检测算法，对上述500帧图片进行检测，并与传统的基于Hough变换的人头检测方法进行对比。如表1和表2所示。

由表1可知本文算法与Though变换算法相比，漏检率降低14.44%，查全率提高14.44%，查准率提高3.76%，因此本文算法更有效。由表2可得本文算法与Though变换算法相比，速度提高7.205s，实时性更好，更有利于实时监测。

5 結语

本文提出一种基于多特征融合的俯视行人检测与跟踪方法，通过检测窗对候选目标快速筛选，将不符合人头特征和非人头干扰特征的采样目标删去，最终保留目标图像，然后用MeanShift算法进行目标跟踪识别。该方法精度高、抗干扰性好，对于复杂场景中的人头图像可以有效地检测、实时处理数据，具有较强的实用性和推广性。

参考文献：

[1] 苏松志，李绍滋，陈淑媛等.行人检测技术综述[J].电子学报，2012，40（4）：814-820.

[2] NGUYEN D T， LI W Q ，OGUNBONA P O. Human detection from images and videos： a survey[J]. Pattern Recognition， 2016，51：148-175.

[3] EUM H， YOON C， LEE H， et al.Continuous human action recognition using Depth MHI-HOG and a Spotter Model[J]. Sensors， 2015（15）：5197-5227.

[4] HAN J，BHANU B. Human activity recognition in thermal infrared imagery[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops，2005：17-24.

[5] ANTONUCCI A， ROSA R D， GIUSTI A. Action recognition by imprecise Hidden Markov Models[C]. In Proceedings of the 2011 International Conference on Image Processing， Computer Vision and Pattern Recognition， 2011：474-478.

[6] Human activity video datasets. accessed on 26 January （2017）[EB/OL].https：//www.cs.utexas.edu/～chaoyeh/web_action_data/dataset_list.htmal.

[7] HARDING P R G， ELLIS T.Recognizing hand gesture using Fourier descriptors[C]. Proceedings of the IEEE International Conference on Pattern Recognition，2004：286-289.

[8] DIAZ-RODRIGUEZ N， CADAHIA O L， CUELLAR M P， et al. Handling real-world context awareness， uncertainty and vagueness in real-time human activity tracking and recognition with a fuzzy ontology-based hybrid method[J]. Sensors， 2014，14（10）：18131-18171.

[9] BATCHULUUN G， KIM Y G， KIM J H，et al. Robust behavior recognition in intelligent surveillance environments[J]. Sensors，2016（16）：1-23.

[10] Actions as space-time shapes. [EB/OL]. http：//www.wisdom.weizmann.ac.il/～vision/SpaceTimeActions.html

[11] BARUA A， MUDUNURI L S， KOSHELEVA O. Why trapezoidal and triangular membership functions work so well： towards a theoretical explanation[J].Uncertain System，2014（8）：164-168.

[12] JIANG H， DREW M S， LI Z N. Successive convex matching for action detection[C]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2006：1646-1653

[13] FATING K，GHOTKAR A. Performance analysis of chain code descriptor for hand shape classification[J]. International Journal of Computer Graphics and Animation，2014（4）：9-19.

[14] GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C].IEEE International Conference on Computer Vision and Pattern Recognition， 2014：580-587.

[15] WANG Z，CAO X B， YANG P K . Transfer learning for pedestrian detection [J]. Neurocomputing， 2013，100（1）：51-57.

[16] GERONIMO D，LOPEZ A M. Vision-based pedestrian protection systems for intelligent vehicles[M]，New York：Springer Publishing Company， 2013 .

[17] 朱梦超，潘今一 .基于 HOG-PCA 和 SVM 的人行横道信号灯识别方法[J].工业控制计算机，2015，28（4）：125-126.

[18] 牛胜石，毛晓晖，侯建华，等.基于 Adaboost 和SVM 的人头实时检测[J].微型机及应用，2010（3）：33-36.

[19] 文嘉俊，徐勇，战荫伟.基于 Ada Boost 和帧间特征的人数统计[J].中国图像图形学报，2011，16（9）：1729-1735.

[20] 张海洋，陈国龙，李现伟.基于曲率尺度空间的人头检测方法研究[J].计算机工程与应用，2012，48（14）：195-197.

[21] 郑佳，李江勇.基于背景差分和信息熵的运动目标检测算法[J].激光与红外，2014，44（5）：563-566.

[22] 陈磊，邹北骥.基于动态阈值对称差分和背景差法的运动对象检测算法[J].计算机应用研究，2008，25（2）：488-494.

[23] KRYIAK T，GORGON M. Real-time implementation of the ViBe foreground object segmentation algorithm[C]. Computer Science and Information Systems， 2013：591-596.

[24] LI Y， CHEN W， JIANG R. The integration adjacent frame difference of improved Vi Be for foreground object detection[C]. Wuhan：IEEE Conference on WiCOM， 2011：1-4.

[25] 洪虹，李文耀.基于背景重構的运动对象越界侦测方法[J].电视技术，2012，36（7）：123-126.

（责任编辑：江艳）

软件导刊

2018年6期

一种基于多特征融合的俯视行人检测与跟踪方法

杂志排行

软件导刊的其它文章