基于级联特征分类器的行人检测算法

2021-03-23李海翔唐世轩刘威龙王雨晨

实验室研究与探索 2021年2期

徐辉，李海翔，唐世轩，刘威龙，王雨晨

（1.内蒙古智能煤炭有限责任公司，内蒙古鄂尔多斯 017100；2.中国矿业大学信息与控制工程学院，江苏徐州 221116）

0 引言

行人检测是一项综合技术，涉及人工智能、模式识别和图像处理等多个领域，可应用于驾驶辅助系统、视频监控、智能交通等［1］。随着煤矿机械化、自动化程度的提高，信息化和智能化成为安全高效绿色现代化煤矿的发展方向，其中煤矿井机器人是减少煤矿井下作业人员的有效措施［2-3］。在矿井危险区域机器人的巡检中，为避免在工作面里行进中的人员与机器设备危险接近造成生产事故，基于图像的可视化行人检测成为要解决的关键问题。

由于图像和视频中的环境条件是多样的，从不同角度拍摄到的行人姿态也会发生变化，且图像或视频中的行人行为动作各异，具有多样性等特点，目前在各类应用中对行人进行检测与识别的准确性仍有一定的提升空间［4］。

行人检测算法若按照算法实现原理进行区分，大致可分为两大类：基于运动检测的行人检测算法和基于机器学习的行人检测算法［5］。其中基于机器学习的行人检测算法是目前行人检测算法的主流研究方向。2005 年，在著名的学术会议CVPR 上，Dalal 等［6］提出了基于提取图像的方向梯度直方图（Histogram of Oriented Gradients，HOG）特征，并使用支持向量机（Support Vector Machine，SVM）分类器进行分类识别的行人检测算法；之后，便有学者参考了Viola 等［7］提出的VJ（Viola-Jones，VJ）人脸检测器的设计思想，提出了将HOG 特征与自适应增强（Adaboost）分类器进行结合的行人检测算法，以提高算法运行速度；Ojala等［8］提出了局部二值模式（Local Binary Pattern，LBP）特征提取算法，并将其应用于纹理识别方向；Wang等［9］将LBP特征与HOG特征结合，并使用SVM 分类器分类，提出了HOG-LBP 行人检测算法；随着Krizhevsky等［10］将卷积神经网络应用于较大规模的图像分类问题中以来，研究者们发现基于深度学习方法所提取的特征比传统的人造特征具有层次表达能力更好且鲁棒性更佳等优势，纷纷开始从事基于深度学习的检测方法的研究。Angelova 等［11］根据Adaboost 算法中级联分类器的思想，提出了一种基于级联的卷积神经网络的行人检测算法，实现了快速排除图像中的大部分背景区域的效果；Ouyang 等［12］提出联合深度学习（Joint Deep）算法，即基于一种混合策略，将HOG特征与级联样式表（Cascading Style Sheets，CSS）特征融合并使用SVM 分类器分类来设计第一级检测器对样本预过滤，再使用卷积神经网络进行接下来的判断。

在众多行人检测算法中，HOG-LBP行人检测算法由于其在检测精度以及处理被遮挡问题等方面的优秀表现，引起了众多学者的极大关注。但是，HOG 特征对于梯度空间特性描述不佳。而LBP 特征的二值编码策略使得其对于光照和噪声的鲁棒性有待提高，并且非线性内核SVM分类器的算法复杂度较大，检测的实时性也需要改进。本文基于HOG-LBP 算法框架，并针对以上问题，提出了一种基于级联特征分类器的行人检测算法。其中，为有效表征梯度空间特征，本文算法计算了图像的方向梯度共生直方图（Cooccurrence Histograms of Oriented Gradients，CoHOG）［13］特征。同时，为了提高算法对光照和噪声的鲁棒性，计算了图像的鲁棒局部二值模式（Robust Local Binary Pattern，RLBP）［14］特征。最后基于以上特征提取方法，以此构建了一种实时性较强的将多级特征弱分类器级联的分类器，实现最终的对行人目标的分类与检测。对于检测窗口的融合，采用软性非极大值抑制（soft-Non Max Suppressed，soft-NMS）［15］算法，避免了在处理行人之间出现部分黏连或遮挡的情况时，容易将其中一个行人的检测窗口误去除的问题。

1 特征提取

1.1 RLBP特征

由于图像中光照与噪声变化，图像局部灰度差异较大，传统的LBP 特征无法反映出这一局部差异变化，此时特征的光照与噪声鲁棒性较差，对于局部细节特征描述效果一般。

Ojala［16］证明通过将LBP 特征的中心像素替换为局部量化阈值可有效解决以上问题。在特征提取中有时需要中心像素的特定信息，为在提高噪声鲁棒性和单个像素的信息之间取得平衡，定义了一个加权局部灰度（Weighted Local Gray，WLG）：

式中：g为中心像素点的灰度值；gi（i=0，1，…，8）为相邻像素点的灰度值；α为可被设置的一个参数，用于平衡特征的两种特性。

定义函数s（u），进行计算：

则RLBP可表示为：

式中：s为符号函数；u=gp-WLG 为相邻像素点的灰度值与加权局部灰度值的差；gc为中心像素点的灰度值；gp（p=0，…，P -1）为一个半径为R的圆上相邻像素点的灰度值；P为在此圆上的相邻像素的总数；gci（i=0，…，8）为gc的相邻像素点的灰度值。Bodla［15］已证明，当α=7 时，RLBP 算子不仅在复杂的光照和视点变化条件下表现更稳定，而且抗噪声的性能较好。

1.2 CoHOG特征

CoHOG特征使用成对的渐变方向作为单位，从中构建直方图，以下将此直方图称为共生矩阵。

相邻梯度方向的组合可以详细描述目标的形状，有助于提高算法的行人检测精度［17］。通过数学式形式，共生矩阵C定义在一幅尺寸大小为n×m的图像I上，可由偏移量（x′，y′）参数化为：

式中：参数（x′，y′）为一对坐标偏移量。

由于CoHOG特征是一种基于梯度的直方图特征描述子，因此它具有与HOG特征相同的抗变形和光照变化的鲁棒性。CoHOG特征具体可按以下过程进行计算：

通过式（4）计算共生矩阵，如图1 所示为本文所使用的偏移量。偏移量小于大的实线圆圈，中心的小白色圆圈为零偏移，其与其他30 个黑色圆圈为一组。因为在计算共生矩阵时，其中一半的偏移量与另一半相同，所以仅使用一半偏移量便可进行计算，即可以获得包括一个零偏移在内的31 个偏移量。共生矩阵是针对每个小区域进行计算的［13］，小矩形区域平铺为互补重叠的3 ×6 的网格区域。将图像所有共生矩阵的分量连接成一个向量，即图像的CoHOG特征向量。

图1 本文使用的共生矩阵偏移量

2 检测窗口融合算法

传统的非极大值抑制算法（Non Max Suppressed，NMS）［19］，是在当所输出的检测窗口重叠面积较大时（高于某个阈值），将置信度最高的检测窗口作为最终输出窗口，其他检测窗口则直接舍弃。这种方法虽然简单快速，但在处理行人之间出现部分黏连或遮挡的情况时，容易将其中一个行人的检测窗口误去除。

为了避免此类现象的发生，提高检测率，在进行检测窗口融合时采用soft-NMS算法。soft-NMS算法平滑处理置信度评分：

式中：M 为当前得分最高的检测窗口；Nt为重叠抑制阈值，取0.7；bi为当前比较序列的检测窗口；iou 为两个窗口的交并比。

上述函数会将高于阈值Nt的置信度评分si衰减为与M重叠窗口的线性函数的值。因此，与M相距较远的所输出的矩形检测框不会被影响，而将更大的惩罚分配给与M 相距较近的所输出的矩形检测框。当出现检测窗口重叠且惩罚函数不是连续的时，可能导致排序的矩形检测框列表突发性改变的情况。当无重叠情况发生时，连续惩罚函数应未施加惩罚，并且在高重叠处的惩罚应该很高。此外，当重叠较低时，因为M不应该影响与其重叠度非常低的检测窗口的分数，所以惩罚函数应该逐渐增加惩罚。当检测框bi与M 的重叠且交并比与1 接近时，bi应当受到显著的惩罚。综上原因，soft-NMS算法将高斯惩罚函数加入式（5）：

式中，D为级联分类器的检测率。

Soft-NMS也是一种贪婪的算法，并没有找到全局最佳的检测框重新评分。检测窗口的重新评分以贪婪的方式进行，因此不会抑制具有高局部得分的那些检测窗口。如图2 所示为传统的NMS 算法与soft-NMS算法输出检测窗口的对比图，其中图2（a）为融合前的窗口输出效果图，图2（b）为传统NMS 算法处理效果图，图2（c）为soft-NMS算法处理效果图。在融合前的效果图中，不同行人分别被若干窗口包括。为解决此问题，融合了传统NMS算法。但是在行人遮挡的情况下，算法仅选择置信度最高的检测窗口，发生了误去除现象，soft-NMS算法在传统NMS算法的基础上避免了窗口误去除的问题，提高了检测率。

图2 改进前后窗口融合效果对比

3 分类器与算法设计

基于HOG-LBP 算法框架，若直接将CoHOG 特征和RLBP特征进行串行融合，则生成的最终图像特征描述子维度过高，对于算法实时性影响较大，基于对检测速度改进的思路，本节设计一种级联的特征分类器算法实现检测。

如果仅使用单一特征对最简单的AdaBoost 弱分类器进行训练，那么可将此弱分类器称为单个特征上的弱分类器（a Weak Classifier upon a Single Feature，WCSF）［20］。通过样本集的训练可找到最佳分类阈值，该阈值取决于最小分类误差标准。参考AdaBoost 的方法，在INRIA数据库中提取RLBP特征和CoHOG特征生成两个特征集，并分别训练两个WCSF。与AdaBoost弱分类器不同，本节弱分类器的最优阈值计算不仅取决于最小分类误差准则，还取决于正样本最大检测率。对于弱分类的训练步骤［19］如下：

步骤1对于特征f，计算N个正负训练样本的特征值。

步骤2对特征值进行排序以生成特征值表。

步骤3对1≤i≤N中的元素i：计算所有正样本的权重之和T+；所有负样本的权重之和T-；计算第i个元素之前所有正样本的权重之和；计算第i个元素之前所有负样本的权重之和。

步骤4选择第i-1 个元素和第i个元素之间的值作为阈值，此时弱分类器的分类误差和正样本检测率分别为：

步骤5若通过步骤4 仅计算得一个阈值Ti满足以上条件，则Ti就是最佳阈值T；若同时计算出多个阈值满足条件，则需要使用式（8）计算出各阈值对应的值，最佳阈值为具有最大正样本检测率的阈值。

Zhang等［20］提出了两层级联分类器，具有高分类速度的简单特征分类器放在第1 层中，而具有慢速的复杂特征分类器放在第2 层中，以提高检测速度。基于此思想，在本小节中，级联顺序由特征提取的计算复杂度决定。当简单特征分类器位于复杂分类器的前面时，前一个分类器过滤掉的负前景对象将不会被后一个分类器处理。因此，作为复杂特征分类器的输入的对象的数量减少，并且计算时间也减少。RLBP 特征在计算效率上相对CoHOG 特征有着较大优势，本小节将4 级RLBP特征级联分类器串联1 级CoHOG 特征分类器作为预处理环节添加到最终的CoHOG-RLBP特征分类器之前，最后一级CoHOG-RLBP 特征分类器使用的是串联融合的CoHOG-RLBP 特征，广义上此分类器仍为WCSF，因此该弱分类器训练方法与前5 级弱分类器相同，这样就构成了一个6 级级联分类器。如图3 所示，为本文分类器设计与算法流程图。本文最终提出基于级联特征分类器的行人检测算法（以下称为级联CoHOG-RLBP算法）。

图3 基于级联特征分类器的行人检测算法

4 实验结果及分析

为对算法各改进部分的有效性进行验证，在HOG-LBP算法框架下将CoHOG特征分别和LBP特征与RLBP特征融合，使用SVM 分类器分类，构建两种对比算法：CoHOG-LBP 算法和CoHOG-RLBP 算法，选取HOG算法［5］、HOG-LBP算法［9］来作为对比算法，通过比较在INRIA 行人数据集测试集上的分类结果以及画出各算法关于INRIA 行人数据集的DET（Detection Error Tradeoff）曲线来进行对比，以论证本文所提出算法在检测性能上的优越性，同时比较各算法检测效果的优劣。

4.1 实验硬件环境与软件环境

实验所采用硬件平台为一台处理器为Intel（R）Core（TM）i7-7800X CPU @ 3.50 Hz 的台式机，显卡为双NVIDIA Corporation GP102［GeForce GTX 1080 Ti］，操作系统为Ubuntu 18.04.1 LTS。实验实现算法所用软件平台为Matlab R2016b。

4.2 算法精度对比实验

为验证本文算法的优越性，比较各算法在INRIA行人数据库上的分类准确率与召回率，得到如表1 所示的分类准确率与召回率汇总情况。由表1 可知，将CoHOG-LBP算法和CoHOG-RLBP算法与传统算法进行比较，准确率和召回率均有所提升，其中CoHOG-RLBP提升幅度较大，可知CoHOG特征和RLBP特征相较于传统的HOG 特征和LBP 特征对算法的检测精度均具有提升作用。将本文算法与CoHOG-RLBP算法进行比较，两种算法的准确率与召回率均几乎持平。综上，本文所使用的特征提取方法与传统算法相比在检测精度上具有明显优势，且本文算法所使用的级联特征分类器与传统的将特征融合与SVM分类器相结合的算法相比并不会造成检测精度下降。

表1 各算法分类准确率和召回率汇总

图4 所示为各算法的检测误差权衡（Detection Error Tradeoff，DET）曲线对比图，表示给定样本图像数目为N的样本集中（其中每张图像可能存在也可能不存在目标，且已对存在的目标进行标定），错误判定图像中的目标则计为错误正例（false positive）。横坐标是每个样本中的错误正例的次数（false positive per image，FPPI）；纵坐标为漏检率（miss rate）。行人检测算法的DET曲线越偏向坐标系的左下方就越表明算法的识别精度越好。由图4 实验结果可得到与表1 相同结论，可验证本文算法所使用的特征有效提高了检测精度，且级联特征分类器对检测精度并不会有较大影响。

图4 不同算法DET曲线对比图

图5 所示为各场景下本文算法对行人目标的检测效果图。图5（a）为噪声较多图像较模糊的场景，图5（b）为光照不均且部分区域光线较为昏暗的场景，图5（c）为背景与前景均较为复杂的场景，本文算法基本可准确检测出图中各行人目标，对光照和噪声具有较强的鲁棒性。

图5 不同场景下级联CoHOG-RLBP算法检测图

4.3 算法速度对比实验

本文使用INRIA 行人数据库的测试集的正样本集进行速度对比实验。由于测试集正样本集共288 张图片，当中图片大小不同且其中大多数像素尺寸为480 ×640 的行人图片，则选取其中211 张图像像素尺寸为480 ×640 的图片组成新的测试集，进行运行速度对比实验。实验运行行人检测算法10 次，计算这10次实验的平均每帧检测时间作为评价标准。实验结果见表2。

由表2 可知，本文算法由于在分类器设计上使用了6 级级联特征弱分类器，大幅提升了算法的检测速度，本文算法在检测实时性上具有明显优势。综合算法的检测精度性能，本文所提出的基于级联特征分类器的行人检测算法与传统算法相比性能有大幅度的提升，本文所设计的分类器不仅可以明显提升行人检测算法的检测速度，而且不会影响对算法的检测精度产生负影响。

表2 各算法平均检测时间汇总

5 结语

本文基于HOG-LBP 行人算法框架，提出了一种基于级联特征分类器的行人检测算法。本文分别提取图像的CoHOG特征与RLBP特征，同时针对检测实时性问题设计了一种包含4 级RLBP特征弱分类器、1 级CoHOG特征弱分类器及1 级CoHOG-RLBP 融合特征弱分类器在内的6 级级联特征分类器实现最终分类，并使用soft-NMS 算法进行检测窗口融合。本文算法有效提高了检测精度，对噪声和光照具有较好的鲁棒性，能够很好描述行人与背景之间的梯度空间特性，而且具有较好的检测实时性，本文算法相较传统算法具有显著的优越性。

但是本文算法所使用的CoHOG 特征维数较高，可尝试使用对其进行改进或做降维处理来进一步提升算法的检测速度。并且，相较于深度学习方法，本文算法在检测精度上仍具有改进空间。在未来研究中，可尝试使用深度学习的方法进行检测，来进一步提高检测精度。