基于匹配链的视频行人目标检测∗

2020-05-15谭龙雨刘李漫

计算机与数字工程 2020年2期

刘佳谭龙雨刘李漫

（中南民族大学生物医学工程学院武汉 430074）

1 引言

近年来，基于图像或者视频的行人检测［1］已经被广泛地应用到自动驾驶、智能监控、人体行为分析和机器人导航等领域，其应用给人们的生活和出行带来了诸多便利。目前行人检测的方法主要有：基于运动特性的方法、基于模板匹配的方法、基于统计学习的方法。相比前两种行人检测方法，基于统计学习的方法具有检测精度高、鲁棒性好的优点，是当今行人检测研究的重点和热点。

基于统计学习的方法通过离线学习获得行人检测分类器，用训练好的分类器模型对输入图像进行检测。早期基于统计学习的方法通过haar小波特征［2］或者 haar-like［3］特征对行人的外观特征进行描述，然后通过SVM或者Adaboost等机器学习方法对提取的特征进行训练，得到行人检测分类器进行行人的检测。由Dalal［4］提出的梯度直方图特征（HOG），通过提取行人的边缘梯度信息，利用梯度方向直方图对行人进行描述，然后通过SVM对特征训练，获得行人检测分类器。该方法具有较好的旋转和尺度不变性，但其检测速度慢，不适合视频环境下的实时检测。文献［5］通过结合edgelet特征、HOG特征和协方差特征，利用级联的方式对行人进行检测，有较好的效果。文献［6］在HOG特征的基础上进行了改进，提出了判别训练的多尺度可变形部分模型（DPM）。可变形部分模型提取不同层次的梯度特征，将行人模型分为两部分：一部分为根模型，采用尺度较大的梯度特征表示，一部分为部分模型，采用尺度较小的梯度特征表示。可变形部分模型取得了非常好的行人检测结果。

上述的大多数方法都是针对单幅图像进行检测的。对于视频来说，视频中的运动信息以及前后帧之间同一目标的一致性等信息都为行人检测提供了更多的线索，这些线索可以用来辅助行人检

测。本文提出了一种基于匹配链的行人协同检测方法，能够融合视频中的各种信息来辅助行人检测。该方法利用目标的一致性特征，构建视频前后帧之间的行人匹配链。通过匹配链中的所有检测结果，对当前帧检测结果进行优化，从而提高行人检测的准确度，降低误检率和漏检率。在实验部分，将8种方法与提出的行人协同检测框架相结合，并对比了每种方法在结合协同框架前后的检测效果。实验证明我们提出的行人协同检测框架能够有效地提高行人检测的准确性，减少行人检测的误检率和漏检率。对于测试的8种行人检测方法，包括 HOG［4］，LatSvm-V2［6］，Pls［7］，FPDW［8］，ChnFtrs［9］，MultiFtr［10］，MultiFtr+CSS 和 MultiFtr+Motion［11］，我们的协同框架能够有效地减少6%～13%的漏检率。

2 基于匹配链的行人检测优化

考虑一个图像序列I={Ii}，其中i=-n，…，0，1，…，n，I0表示当前帧，Ii(i=-n，…，-1)表示当前帧的前n帧，Ii(i=1，…，n)表示当前帧的后n帧。分类器模型采用滑动窗口的方式对每一帧图像中的所有候选框进行检测，分类器模型与每一个滑动窗口卷积得到一个可信度得分，得分高表示该窗口包含行人的可能性越大。分类器采用一个设定的阈值对所有的滑动窗口进行过滤，得分大于阈值的窗口被认为是最终的行人检测候选结果。为了减少分类器的漏检，本文在进行行人检测过程中，首先采用一个低于分类器设定阈值的阈值Tl来获取每一帧的检测候选结果。为了对候选检测结果的可信度进行划分，本文另外设定两个阈值Tm和Th（Tl≤Tm≤Th）用于划分结果的可信度。下文中，不同可信度的候选结果用不同的颜色标记。黑色矩形框表示检测分数大于Th的候选窗口，浅灰色矩形框表示检测分数介于Tm和Th之间的候选窗口，深灰色矩形框表示检测分数介于Tl和Tm之间的候选窗口。DPM是近几年最热门的行人检测算法，为了便于描述，这里选取DPM作为我们的基检测器。基于匹配链的行人检测及优化框架如图1所示。对DPM算法，分别选取Tl=-0.9，Tm=0.5以及Th=0.9。首先采用基本检测器通过低阈值Tl得到较多的结果。然后对当前帧图像I0中的每一个检测结果找到其在相邻帧的匹配，构建匹配链。利用匹配链对当前帧的可信度进行更新，然后再利用阈值Tm去掉可信度较低的检测，得到最终的检测结果。

定义Pi={pij|-n≤i≤n，j=1，…，mi}为第i帧图片Ii的候选行人窗口，其中mi表示图片Ii的候选行人窗口数。定义f(pij)为窗口pij的某种特征。考虑视频中连续两帧Ii和Ii+1的两个候选行人窗口piki(1≤ki≤mi)和p(i+1)ki+1(1≤ki+1≤mi+1)，将它们之间的距离定义为diki，(i+1)ki+1=||f(piki)-表示 L1 范数。越小表示越相似。只有当piki与p(i+1)ki+1之间的距离满足以下两个条件时，才认为它们是一对有效匹配

如果对所有的 i=-n，…，0，…，n-1 ，都存在，那么可以说0，…，n-1是图像序列I的一条匹配链。

为了克服遮挡和光照的变化引起外观的变化问题，本文采用稠密SIFT和颜色特征相结合的方法作为匹配方法［11］，实验证明这种方法对外观变化具有很好的鲁棒性。

图2展示了匹配链的一个例子。当我们从图像序列中找到匹配链之后，匹配链中的其他检测结果便可用来改善匹配链中当前时刻的检测结果。如图2所示，匹配链由相邻帧的最佳匹配组成。为了方便叙述，检测结果用不同的颜色来标记，不同颜色代表的含义与图1相同。从图1中可以看到，一个得分为0.3636的正确检测（右侧第三行第三列）最初由灰色矩形框标记，由于它与得分为1.2835的黑色矩形框（右侧第五行第三列）在同一匹配链中，因此它的得分被更新为0.9646；而一个得分为0.6416的错误检测（右侧第三行第五列）最初由白色矩形框标记，由于匹配链中的其它窗口的得分都较低，因此它的得分被更新为0.4125。实验结果表明，协同行人检测可以提高检测准确率。

图2 匹配链示例

3 检测得分更新机制

图1的匹配链部分展示了一些图像序列中的匹配链的例子。为了便于描述，在第2节中我们设置了三个阈值（Tl、Tm和Th），还引入了三种颜色来标记候选行人窗口。在匹配链中，被标记为蓝色的候选行人窗口可以用来加强当前候选行人窗口的检测分数，而被标记为红色的候选行人窗口则会降低当前候选行人窗口的检测分数。由于大部分行人都能被行人检测算法检测到，而且整体来说行人窗口的得分比背景窗口的得分更高。当前帧的行人得分较低时，可以通过匹配链利用邻近帧的同一行人来加强当前帧的行人得分。为了衡量匹配对之间的相似度，这里采用高斯函数（Gaussian Function）将之前的距离转化为相似度，即

其中d(x，y)是第2节中提到的L1范数，σ是高斯函数带宽，x和y表示候选行人窗口的特征。

匹配链中每个候选窗口的检测得分和同一匹配链中候选框的相似度是最终检测结果得分更新过程的关键。不失一般性，这里以连续五帧的匹配链为例来描述得分更新过程。在匹配链中，每一帧的检测结果分别用Pi-2，Pi-1，Pi，Pi+1和Pi+2来表示。假定是一对有效匹配，它们的相似度用 s(piki，p(i+1)ki+1)来表示，有 s(piki，p(i+1)ki+1)=s(p(i+1)ki+1，piki)。 {Pi-2，Pi-1}，{Pi-1，Pi} 和 {Pi+1，Pi+2}之间的相似度也可以用类似的方法表示。得分更新过程可以用以下公式表示：

其中sf是更新后的得分，α表示更新权重，这里选取 α=0.5。 N(i)={i-2，i-1，i+1，i+2}代表匹配链中的其它候选窗口。

4 实验结果

本文采用ETH数据集［13］和TUD-Brussels数据集［15］作为我们的实验数据集，这两个数据集都是从视频中提取出来的连续帧，与本文的需求十分吻合。另外，本文采用文献［14］提出的评价标准来评价本文的实验结果，该评价方法假设每个行人在每幅图片中只出现一次，这符合常识，很容易理解。

ETH数据集［13］是通过安装在机器人上的摄像机来拍摄的不同的场景，该数据集的主要挑战是行人外观的变化、光照变化、行人之间的相互遮挡和轻微的运动模糊。TUD-Brussels数据集［15］是通过安装在运动汽车上的摄像机来拍摄的，该数据集主要挑战是行人的角度的变化以及小尺度的行人。

本文将8种现有的检测算法分别与基于匹配链的行人检测优化框架相结合，实验证明该优化框架对这8种检测算法都有不错的效果。这8种检测算法分别是 HOG［4］，LatSvm-V2［6］，Pls［7］，FPDW［8］，ChnFtrs［9］，MultiFtr［10］，MultiFtr+CSS 和 MultiFtr+Mo⁃tion［11］。其中 LatSvm-V2 即为 DPM 方法。本文采用文献［14］提出的评价标准来评价我们的方法，该评价标准使用误检率-漏检率（false positive per im⁃age-miss rate）曲线来衡量检测方法的性能。

图3和图4、表1和表2展示了8种现有的检测算法与本文优化框架的评价结果对比，其中图3和表1展示了在ETH数据集［13］上的评价结果对比，图4和表2展示了在TUD-Brussels数据集［8］上的评价结果对比。带有“+Our”标记的是经过本文的优化框架优化后的结果，例如，“HOG+Our”表示经本文的优化框架优化后的HOG算法。经本文算法优化后，所测试行人检测算法在ETH数据集［13］上的平均漏检率降低了约9%，在TUD-Brussels数据集［14］上的平均漏检率降低了约4%。从对比结果中可以看出，平均漏检率在ETH数据集［13］上降低的幅度明显大于其在TUD-Brussels数据集［15］上的下降幅度，主要是因为TUD-Brussels数据集［15］中的行人分辨率较小，对于匹配链中特征的匹配提出了更高的要求。另外，不同的分类器在不同的数据集上的检测结果也存在较大的差异。总体而言，从图3和图4、表1和表2的结果对比可以看出，在所测试的8种检测算法上，经过本文中提出的框架的优化，在相同水平的误检率条件下，结合本文提出框架的行人检测算法能够有效地降低行人检测的漏检率。不失一般性，我们选取LatSvm-V2［6］作为例子，这里的LatSvm-V2即DPM算法。图5和图6分别展示了DPM算法在ETH数据集［13］和TUD-Brussels数据集［15］上的部分图像的原始检测结果和经过优化框架优化后的检测结果的对比。

表1 ETH数据集［13］上的评价结果对比

图3 ETH数据集［11］上的评价结果对比

图4 TUD-Brussels数据集［8］上的评价结果对比

图5 ETH数据集［13］上的部分结果对比图

图6 TUD-Brussels数据集［15］上的部分结果对比图

表2 TUD-Brussels数据集［15］上的评价结果对比

图5和图6中的第一行显示的是使用原始DPM对当前帧进行检测得到的检测结果，采用阈值Tm=0进行过滤，用DPM(T0)来标记；第二行显示的是使用本文的方法经过优化后的输出结果，采用阈值Tm=0进行过滤，用Ours(T0)来标记。从图中可以看出本文的优化框架可以明显地找到更多的正确检测，这证明了本文的优化框架可以减少漏检率，从而提高检测性能。

5 结语

本文提出了一种基于视频的行人检测优化框架，使用基检测器对输入图片进行行人检测，并采用一个较分类器预设阈值更低的阈值进行过滤，使得更多的正确检测进入候选行人窗口；然后对当前帧的每个候选行人窗口提取稠密SIFT和颜色特征，并计算显著性概率图，再将其与相邻帧的候选行人窗口进行匹配，计算基于显著性的匹配得分，依据有效匹配条件，得到匹配链；最后，依据匹配链更新当前帧中每个候选行人窗口的得分。对于修正后的检测结果，采用一个预设阈值进行过滤，得到最终结果并输出。实验表明，基于匹配链的行人检测优化框架可以大大提高现有的行人检测方法的检测性能，同时，该优化框架可以很容易地与其他行人检测算法相结合，具有良好的通用性。