视频监控中私自揽客违法行为检测

2019-04-01张若杨贾克斌刘鹏宇

计算机应用与软件 2019年3期

张若杨贾克斌刘鹏宇

(北京工业大学信息学部北京 100024)(先进信息网络北京实验室北京 100024) (未来网络科技高精尖创新中心北京 100024)

0 引言

近年来，随着数字视频技术的迅猛发展，道路交通管理非现场执法的应用率越来越高，不仅强化了道路交通的安全管理，还极大地缓解了执法人员不足与人情执法的问题，管理效果十分明显。可以说，加大非现场执法工作的力度已经成为了破解道路交通管理工作难题最可靠、最有效的办法之一，它在推进交通执法工作长足发展的过程中发挥着不可替代的作用。

出租车行业是交通运输行业不可或缺的一部分，特别像北京地区，由于人口众多、人流量大、公共交通分担率偏低，使得公众对于出租车需求量日益增长，这直接导致了出租车在运营过程中存在的问题日趋复杂。尤其在机场、火车站等人流量极大区域，出租车违规私揽导致挪车不及时，很容易造成拥堵、追尾甚至人员伤亡。因此对特殊区域私揽[1]行为的有效检测和识别成为亟待解决的问题之一。

综上所述，开展针对私揽行为的检测识别有极大的应用价值，能使公共区域车辆人员的安全得到进一步保障。本文以检测识别私揽行为为主要研究方向，针对人体行为识别展开深入研究，为私揽行为的检测识别提供重要依据。

目前在文献中还没有针对出租车私自揽客行为自动检测方法的报道。针对交通监控环境下背景相对静态的特点，本文研究了一种基于交通视频的私自揽客行为检测方法，主要流程如图1所示。首先进行出租车识别[2]并提取运动人体前景，判断行人是否出现在出租车区域中；然后提取有上车可能的行人的多姿态特征，将其送入SVM分类器进行训练；最后识别人体上车行为，确定监控视频中是否存在私揽行为。

图1 私揽检测算法流程图

针对静止背景下的运动目标检测一般有帧间差分法、背景差分法、光流法[3]等比较成熟的检测算法。ViBe算法[4-5]是一种新颖、快速及有效的运动目标检测算法，该算法思想简单、运算效率高，且初始化背景建模无需训练，可以快速对背景进行有效建模。但检测结果中易出现鬼影，极大地影响到后续的人体特征提取的准确性。

本文针对传统ViBe算法消除鬼影速度较慢的不足，提出了一种改进的ViBe算法，能够快速消除鬼影，并针对人体上车行为识别难度大的特点，设计了一种基于多特征融合的识别方法。最后结合目标检测与人体行为识别技术形成一套完整的私揽行为检测方法。

1 出租车识别

在交通监控视频中，场景具有一定复杂性，出租车与私家车相混合，而私揽行为指的是在道路的落客区域，出租车司机发生停车，允许乘客上车并最终驶离的行为过程。因此需要先对出租车进行识别，以区分出租车私揽违法行为和私家车正常接人行为。

本文提取出租车的Haar[6]特征，并将其送入Adaboost[7]分类器进行训练，最后检测视频中的出租车。

Haar特征指的是一种矩形特征，其值表示为黑色矩形区域的灰度值与白色矩形区域的灰度值的差，以此来生成图像特征矩阵。不同的Haar特征模型功能也不相同，常用的Haar特征模板如图2所示。

图2 常用Haar特征模板

Adaboost算法是一种改进的Boosting算法。该算法不需要弱分类器的先验知识。它的核心是为相同的训练集训练不同的弱分类器，然后将这些弱分类器合成强分类器，最后将强分类器级联成最终分类器。图3是由分类器进行级联和检测出租车的过程。

图3 出租车区域检测结果

通过在图像上使用不同大小的矩形窗口来进行多尺度扫描，并使用级联分类器来判断扫描的每个矩形窗口。如果一个矩形窗口特性通过了所有的级联分类器，表明该区域是出租车区域，并获取当前图像中车辆的位置；否则，表示该区域不是出租车区域。

本文采用训练集包含2 767张出租车区域正样本和7 219张环境负样本，正样本统一归一化为28×20大小，负样本归一化为480×360大小。同时设置每三个弱分类器构成一个强分类器，最终将训练好的Haar-Adaboost分类器用交通监控视频进行测试，实验结果如图3所示。实验结果表明，本文方法能够有效且实时检测出租车，且能够适应夜晚等较为复杂的环境。

2 出租车识别

行人是发生私揽行为时的主要目标，同时也是大量存在于交通监控视频中的运动目标。在对传统的检测算法深入研究的基础上，考虑到交通监控视频中摄像头的角度会时常发生变化，本文对初始化背景建模快的ViBe算法做出了改进，提取人体前景。

2.1 ViBe基本算法

ViBe算法是一种基于背景差分法的前景分离算法，该算法检测效果较好，可以适应背景变化较大的场景，但容易造成检测结果中出现鬼影。

ViBe算法主要包含三个步骤：背景建模、前景检测和模型更新。

在背景建模过程中，该算法采用视频第一帧来初始化背景模型，为每一个像素点创建一个样本集存储该像素点的背景模型，利用像素点极其邻居像素点的像素值随机填充样本模型，完成初始化背景建模。

在前景检测过程中，为了确定待分类像素是否属于背景点，需同该像素点的背景模型做比较，检测两者间的相似度，具体方法为：定义一个以p(x)为中心，R为半径的球体SR(p(x))，用U表示背景模型M(x)与球体SR(p(x))的交集，U表示一个相似度函数，当U大于一个给定的阈值Umin时，待分类像素p(x)与背景相似，分类为背景，其数学表达式如下：

U={SR(p(x))∩{p1,p2,…,pN}}

(1)

根据式(1)，计算p(x)与N个背景样本的欧氏距离，判断是否小于阈值R。在实际处理中，一旦找到Umin个样本匹配时，就认为该像素点为背景。

在模型更新的过程中，ViBe算法不仅考虑当前像素与其历史样本之间的关系，还考虑到当前像素与其邻居像素之间的关系，使每一个背景点有的概率更新自己的模型样本值及其邻居点的模型样本值。算法的空间更新策略保证了背景图像中空间信息的连续性，从而对相机的轻微抖动也有一定适应性。

2.2 改进ViBe算法

在原始ViBe算法前景检测过程中使用简单的欧式距离判断像素点属于前景或背景，并不能适用于所有情况，尤其对阴影的分类效果较差。因此本文使用Codebook[8-9]算法中的颜色扭曲度对前景像素点进行分析，旨在尽可能地消除阴影对真实运动目标的影响，具体过程如下：

1) 修改背景样本集中向量pi为(Ri,Gi,Bi)。

2) 读取当前帧像素点向量xt=(R,G,B)。

3) 要计算待分类像素与背景模型的相似度，比较条件为像素点的颜色扭曲度，如下所示：

(2)

式中：

(3)

4) 判断相似度是否小于给定阈值，若满足条件，则匹配次数加1。

5) 判断匹配次数是否达到Umin，达到则认为该像素点为背景。

同时，为了改善鬼影消失过慢的不足，本文借鉴Codebook算法中6元组的思想。在原方法中每个像素点只建立了背景样本集，使得在模型更新过程中所有样本在同一时刻被更新概率相同，难以快速消除鬼影。故本文在原有基础上引入背景样本点未被更新时间，作为该样本点更新概率的权值依据，具体改进方案如下：

1) 修改背景样本集中向量(Ri,Bi,Gi)为(Ri,Bi,Gi,λi)。

2) 若将该像素点分类为背景点，则计算当前时刻所有样本的被更新概率，保证未被更新时间越小的样本点被更新概率越小，计算公式如下：

(4)

3) 依照计算得到的概率更新样本背景。

4) 将最新被更新的样本点的未被更新时间置为0，其余样本点的未被更新时间加1。

下面通过一组视频图像分别按照三帧差分法、背景差分法、混合高斯法[10]、原始ViBe算法和本文的改进ViBe算法进行人物前景提取，得到前景提取结果如图4所示。

(a) 原始图像 (b) 三帧差分法

(e) ViBe方法 (f) 本文方法图4 各运动目标检测算法结果

由图4可见：本文的算法对人物前景提取的效果最佳，准确性高；三帧差分法容易造成较大空洞；背景差分法和混合高斯方法在存在静止目标突然运动时情况下效果较差；原始ViBe算法效果较好，但鬼影仍对真实目标提取有较大干扰。

其次，为了评估本文提出的ViBe算法消除鬼影的速度，分别使用混合高斯法、原始ViBe算法和本文算法对鬼影消失的帧数进行了统计，如表1所示。

表1 不同方法鬼影消失帧数

由表1可见：本文的算法消除鬼影所需要的帧数最少，速度最快；混合高斯法消除鬼影速度较慢；原始ViBe算法稍慢于本文算法。

在此基础上，结合提取到的人体前景与识别出的出租车区域，计算人体质心与出租车中心的距离，当行人处于车辆区域范围内时，则可以认为该行人与车辆有构成私揽违法行为的可能。实验发现，所检测出的人体质心存在于以出租车质心为圆心，到四角长度为半径的一侧扇形内时，检测效果较好，如图5所示。

图5 人车位置关系

3 基于多特征融合的人体姿态识别

3.1 特征提取

乘客在上车过程中会逐渐从出租车远处接近，在车门附近停顿，并伴有弯腰、拉车门、屈体等动作，与交通环境中的其他行为有明显区别。本文基于私自揽客的特点对乘客的多种特征进行提取。

运动目标的标识方法取决于运动目标的区域形状及其连通性，采用外接区域的方法能够很直观地反映出运动人体的轮廓。因此本文选取与人体拟合度更高的最小外接椭圆作为其中一个特征。

一个椭圆由其中心坐标、其方向以及其长短轴长度定义。在私揽行为发生过程中，行人会首先从远处向出租车接近，这段时间私揽行为的人体特征与人体行走基本一致。当乘客走近出租车准备上车时，会停顿并打开车门，然后弯腰上车，在弯腰上车的过程中，人体竖直距离会降低，人体最小外接椭圆的长轴会减小，这是一个明显区别于正常行走行为的特征。人体最小外接椭圆参数变化过程如图6所示。

图6 人体外接椭圆参数变化过程

人体最小外接椭圆的参数需要计算图像的矩，对于连续图像f(x,y)，矩的定义由如下：

(5)

椭圆的中心是通过计算具有零阶一阶空间矩的质心坐标得到的，其公式如下：

(6)

人体外接椭圆倾角由长轴与水平线之间的夹角确定，通过二阶中心距计算：

(7)

为了确定椭圆的长轴与短轴，需要分别计算最小和最大惯性矩Imin和Imax，它们可以通过评估协方差矩阵的特征值得到，Imin和Imax计算如下：

(8)

然后，给出最佳拟合椭圆的长轴与短轴：

(9)

根据以上人体外接椭圆的确定方法求得特征向量E=[a,b,θ]。

第二个特征表示目标运动的剧烈程度，该特征利用MHI对运动运动剧烈程度进行量化。在乘客打开车门后上车的过程中，人体会在较短的时间内有一个急速下坠的动作，这就会使得这段时间人体的运动会更加剧烈，与上车前的运动程度有明显区分。人体运动剧烈程度系数变化过程如图7所示。

图7 人体运动剧烈程度系数变化过程

表示运动剧烈程度的系数Cmotion计算公式如下：

(10)

式中:blob为前景闭包；Hτ(x,y,t)为运动历史图像。Cmotion∈[0%,100%]，Cmotion=0%表示没有运动的像素点，Cmotion=100%表示区域内所有像素点都在运动。

综合多种特征，从而得到了多特征融合的人体姿态特征向量Bi=[a,b,θ,Cmotion]。

3.2 姿态识别

由于判断行人是否发生上车行为是一个二分类问题，因此提取人体特征后，我们选择支持向量机[11]的分类器对人体行为进行建模和分类。该方法通过将数据非线性映射到高维空间做出非线性决策，使用较少样本即可以训练出效果较好的支持向量机模型。本文算法选用RBF核函数进行训练。

4 实验结果与分析

首先验证乘客上车行为与其他行为在特征上的区别。本文提取了人体上车行为以及人体行走和跑步两种交通监控视频中的常见人体行为的人体姿态特征。人体多特征如图8所示。

(a) 长轴变化

(b) 短轴变化

(d) Cmotion变化图8 不同行为特征变化

视频进行到第30帧时行人准备上出租车，构成一起私揽行为。根据不同行为的多姿态特征可以看出，乘客上车行为在人体最小外接椭圆的长轴变化与短轴变化以及Cmotion变化上都与其他两种行为有明显区分，而通过椭圆角度变化则难以有效区分。因此本文在实验过程中只对上述三种有明显区分的特征进行了训练。

实验选取实际交通监控视频进行测试。实际交通视频集包括328段视频，环境为首都机场执法大队的非现场执法环境，如图9所示。其中存在私揽违规行为的视频共有97段，测试视频时长皆为1～3 min。

图9 实际环境视频集

对所有待检测视频进行检测,检测结果标准为：属于乘客上车行为并正确检测的数目TB；属于乘客上车行为并未正确检测的数目FB；属于其他行为并没有错误报警的数目TO；属于其他行为并误报警的数目FO。则检测乘客上车行为正确率可定义为：

(11)

检测乘客上车行为的查全率定义为：

(12)

实验中分别使用本文方法、形状上下文方法[12]、原始ViBe方法以及多部位建模[13]方法对乘客上车行为进行检测。其中使用本文方法对乘客上车行为进行检测的结果如图10所示，检测到人车位置靠近时显示“low”字样，表示有发生私揽行为的可能；检测到人车位置靠近并识别出人体上车行为时显示“high”字样，表示私揽行为发生可能性极高。

图10 私揽行为检测结果

表2给出了在实际环境中不同方法对乘客上车行为进行检测的正确率和查全率。可以看出本文算法在实际视频集下的检测效果远远优于其他几种方法。但由于实际环境较为复杂，人体与车辆之间时常会发生交叉、遮挡等现象，且有其他行人与车辆出现在监控视频中，使得提取感兴趣目标受到干扰，导致本文算法仍有不少误检与漏检现象存在。

表2 不同方法下实际环境视频集检测结果

同时对算法处理时间进行了测试。表3给出了几种方法的平均每帧处理时间和一帧最长处理时间。可以看出本文算法的处理时间与使用原始ViBe的方法无明显区别，但较其他两种方法略慢，不过平均每帧处理速度依然在40 ms以内，可以达到实时检测的标准。

表3 不同方法下实际环境视频集检测结果

5 结语

本文研究的出租车识别与私揽违章行为检测方法是一种用于自动检测交通违法违章私揽行为的方法。针对原始ViBe算法易产生鬼影的缺点做出了改进，使得鬼影可以快速消失，并结合人体前景与出租车区域判断人车位置关系，初步判定私揽发生的可能性，后续提取人体上车过程中的多姿态特征，送入SVM分类器训练，识别人体行为，准确判定私揽行为。本文方法能够检测一些特定场景下如机场、火车站、公交枢纽等地私揽行为是否存在，为交通安全预警，便于执法取证。因此，本文方法在智能交通领域具有广阔的应用前景、广泛的适用性和参考价值，为城市交通规范性建设和发展提供了保证。