基于计算机视觉的交通流实时监控综述

2019-12-24陈华孙宇晨

微型电脑应用 2019年5期

陈华，孙宇晨

(中国石油大学(华东) 理学院，青岛 266580)

0 引言

计算机视觉是用计算机实现人的视觉功能，对客观世界的三维场景的感知、识别和理解，即对图像进行自动处理并报告“图像中有什么的过程”。计算机视觉在人工智能、机器学习等学科占据重要地位，为交通流实时监控做了深厚的理论铺垫。随着非结构数据的急速增加、“天网行动”的开展(基础设施的完善)、人工智能的火热，国内计算机视觉技术无疑将持续高速发展。目前，计算机视觉技术实现过程中应用传感器技术作为硬件支撑，例如：工业器件检查、智能监控系统、视频存储和检索、智能人机环境、智能家居环境、智能行为身份识别、虚拟现实技术等[1]，并且取得了可观的经济回报，且精度较传统技术提高了20-40%。由于近年来恐怖事件的增多，各国政府对于公共安全防范工作的重视程度也逐渐加强，而利用计算机视觉技术则首先被广泛的认可。计算机视觉技术可以被分为运动物体检测、运动物体跟踪、运动物体分类识别、行为分析4个部分[2]，主要解决问题的思路为检测出运动的物体并分块、利用滤波等技术预测运动物体的运动轨迹并进一步筛选、对待确定样本进行机器学习处理，将样本分类并和数据库进行对比从而找出目标对象，在此基础上对于运动目标的运动轨迹预测被认为是行为分析的基本手段，行为分析通常结合机器学习、逻辑推理、自然语言等技术出现，通过找到发生异常行为的潜在规律，从而有效地预防异常行为的发生或即时报警。在智能交通的实现上，计算机视觉已经显示出了其独特的优点，并在交通调度、无人停车场、无人驾驶、车祸报警、GPS车祸防范等方面得到了初步应用。本文将计算机视觉技术分为上文所述的4个部分进行研究，对近年来常用技术进行优缺点分析并总结，最终给出计算机视觉技术在智能交通领域的发展方向。

2 运动物体检测

目前，基于计算机视觉的运动物体检测技术多采用背景差分法、帧间差分法、光流场法、基于目标特征模型检测法。

2.1 背景差分法

背景差分法是一种对静止场景进行运动分割的通用方法，它将当前获取的图像帧与背景图像做差分运算，得到目标运动区域的灰度图，对灰度图进行阈值化提取运动区域，其性能依赖于所使用的背景建模技术。总体来说，背景差分法算法简单,在一定程度上克服了光线影响且在背景静止的情况下检测精度高。但是出于环境的多变，背景图像的实时更新较困难；与静止背景相对应的，对于运动的摄像头，背景差分法无法处理；背景差分法对于噪声的影响较敏感。

S Mitropoulos使用混合高斯模型进行物体的检测，该方法能适应变化的环境，对目标物体的轮廓进行提取并通过多级算法处理，最终通过监督学习的分类归纳树(C4.5)处理得到结果；Drayer B等提出了一种基于框架级对象检测的视频图像分割方法，该方法提取了基于时间一致的数据，有效的克服了无监督视频分割的典型问题；Zhou Z[3]等基于子空间更新的背景算法，引入学习因子并运用二维主成分分析来进行背景差分，实际结果表明该方法取得较好结果；Shakeri M[4]等将低秩和不变稀疏分解用于运动目标检测。

2.2 帧间差分法

帧间差分法是将视频流中相邻两帧或相隔几帧图像的两幅图像像素值相减，并对相减后的图像进行阈值化来提取图像中的运动区域。它具有较强的自适应能力且算法简单、不易受环境光线的影响、并且背景更新快，鲁棒性较强。但是它不能用于运动摄像头、静止的物体，不易找到合适的帧间间隔，精度稍有逊色；最大的问题在于，当运动物体表面有大面积灰度值相似情况下，做差分会出现空洞。

Sengar S S等提出了一种基于块的运动目标检测方法，该方法利用三帧差分法避免了两帧差分法的固有缺点，并具有成本低，精度较好的优点；Chung W T[5]等提出了一个两级前景传播的运动物体检测模型，该方法在第一阶段建立权重矩阵，减少背景模型变化的影响，在第二阶段运用了迭代的方法，该方法可以精确地将前景提取出来。

2.3 光流场法

光流场是用来表征图像中像素点的灰度值发生变化趋势的瞬时速度场。利用光流场法实现目标检测的基本思想是：首先计算图像中每一个像素点的运动向量，即建立整幅图像的光流场。如果场景中没有运动目标，则图像中所有像素点的运动向量应该是连续变化的；如果有运动目标，由于目标和背景之间存在相对运动，目标所在位置处的运动向量必然和邻域的运动向量不同，从而检测出目标。光流场法能够完全提取动态信息、并获得三维物体结构的丰富信息，而且可以应用于运动摄像头。但是由于算法的复杂使得其实时性较差，且抗噪能力较弱。

Min Q等提出了一种基于运动平台的立体运动融合检测方法，该方法运用三位运动模型集成的光流参数来估计物体的运动，在大量检测的结果下，证明了其有效性。

2.4 基于目标特征模型检测法

基于目标特征模型检测法是将提取出的目标特征，利用机器学习的方法判断其是否为运动物体。随着深度学习的出现，基于目标特诊模型检测法的精度大幅提高，成为近年来最盛行的方法，深度学习尤其适用于视频、图像数据，和计算机视觉匹配度高。该方法检测结果准确性高，检测过程简单、耗时少；但是目标特征提取算法复杂、计算量大，需要样本大、训练时间长，最终导致实时性较差。

Varagula J[6]等运用时滞网络模型，提取目标HOG特征，并利用IDNN识别、分类了障碍物，结果表明该方法不仅能够检测出障碍物，还可运用于行人车辆的检测，并且具有较高的准确性。

2.5 方法总结

实际选择方法首先要按照工作对于检测的要求分开。若对数据要求不高，一般选择背景差分法和帧间差分法。背景差分法最大的问题在于背景建模方法及背景更新算法的选择，帧间差分法最大的问题在于空洞现象的产生，所以常用的解决方法是将两种方法结合起来，避免短板的出现。若需要运动物体的特定属性，一般选择光流场法、基于目标特征模型检测法，光流场法最大的问题在于算法复杂，基于目标特征模型检测法最大的问题在于实时性差。但云计算的发展已可以有效提高基于目标特征模型检测法的计算速度。除此之外，运动物体检测还需要解决除噪等预处理工作，并进行图像分割。

3 运动物体跟踪

基于计算机视觉的运动物体跟踪技术可以分为二维视觉追踪、三维视觉追踪，而二维视觉追踪多在学习阶段过度使用，在实际生活中，一般只使用三维视觉追踪。三维视觉追踪原理上是二维视觉数据根据三维模型的一个投影，结果的好坏要取决于投影模型的好坏。目前，现有的目标跟踪算法主要包括：基于图像特征的跟踪、基于模板匹配的跟踪和基于运动预测的跟踪等方法。

3.1 基于图像特征的跟踪

该方法对于从跟踪目标中的静态特征(诸如颜色、几何结构、纹理等特征)进行跟踪，基本步骤是特征提取、特征匹配、目标跟踪，最后用特征描述实现更新，但是当运动目标比较多时，特征采集的难度增加，跟踪路程非常复杂。常用的目标特征分为3类：全局特征、局部特征以及上下文特征。该算法简单，并可以对多个目标进行跟踪，但是易受观测角度(遮挡)影响。

Shi J[7]等研究了间歇性观测跟踪扩展目标的问题，基于实际应用两个伯努利分布随机变量描述了位置测量和目标范围的测量的间歇现象。

3.2 基于模板匹配的跟踪

基于模板匹配的跟踪就是要提前确定目标模型，通过点线的方式构造追踪目标几何模型，分析模型的特征，并将视频中采集到的目标特征与几何模型进行匹配分析，进而将跟踪问题转化为匹配问题。目前，外观模型主要分为三类：生成模型、判别模型以及生存-判别模型。该方法不受观测角度(遮挡)的影响，但是算法复杂度较高。

核方法(kernel method)可以把数据集从低维映射到高维，使得原来线性不可分的数据集变得线性可分，Wang Y[8]等对几种著名的基于kernel的方法进行了定量的比较，结果表明基于核的在线子空间算法在实现目标跟踪的稳定性和实时处理之间取得了较好的平衡；Dey J运用遗传算法完成运动目标跟踪；Bozorgtabar B等提出一种基于稠密子图的多目标跟踪算法，该方法尤其适用于遮挡情况。

3.3 基于运动预测的跟踪

常用的基于运动预测的跟踪方法主要有卡尔曼滤波法、扩展卡尔曼滤波法、粒子滤波等。经过改良的粒子滤波算法在非线性和非高斯系统中表现出优越性以及很好的多模态处理能力，因此常被选做目标跟踪。但是，该方法的缺点很明显，首先，需要大量的样本才能完成对近似系统的后验概率密度计算，从而导致计算量大。其次，粒子滤波算法存在粒子的退化现象。

Chen S基于无人机环境(UAV)，提出了在复杂室内和室外跟踪地面目标的方法；Sun W[9]等提出了一种基于最小二乘法和智能避碰的行人跟踪模型，提高了传统的卡尔曼算法的精度。

3.4 方法总结

对于运动物体预测方法的选择，首先要考虑较常发生的问题，例如：遮挡、影子、背景干扰、重补丢失目标等。在具体问题具体处理对应情况后就可以考虑精度问题了，现有的算法大多数人都会选择基于运动预测的跟踪，这主要由于它独特的优越性以及不低的精度。

4 运动物体分类识别

视频监控系统中车辆的识别和分类起着举足轻重的作用，准确、稳健的对视频图像中的车辆进行分类识别是执行其它更高层次的视觉任务的基础。目标识别可以看做是一个标准的模式识别过程，是在目标检测、跟踪的基础上进行的，首先根据实际的需要确定好要分的类别，从检测到的目标中提取合适的特征；然后根据选取的特征运用分类器进行分类，从而得到图像中运动目标的类型和数量。目前，现有的目标分类识别算法主要包括：基于形状信息的识别、基于运动信息的识别和二者混合的识别等方法。由于近年来词袋模型以及深度学习的优越，本文主要介绍这两种方法而不对比其他方法的优缺点。

4.1 词袋模型

词袋模型从2005年开始被广泛认可，并在很多主流数据库上和历年的PASCAL VOC目标识别竞赛中都取得了较好的结果。词袋模型最初产生于自然语言处理领域，通过建模文档中单词出现的频率来对文档进行描述与表达。Csurka等人于2004年首次将词典的概念引入计算机视觉领域。由此大量的研究工作集中开始于词袋模型的研究，并逐渐形成了由特征提取、特征聚类、特征编码、特征汇集和分类器4部分组成的标准目标分类框架。词袋模型中大量的工作集中于在特征编码和特征汇集方面。

4.2 深度学习

深度学习模型不同于传统目标识别模型，其基本思想是通过有监督学习或者无监督的方式学习层次化的特征表达，来对目标进行从底层到高层的描述。深度学习中的每一个节点代表一个神经元，这种层次很好的符合了人脑的神经元处理结构，并通过引入反馈机制模拟人脑的认知过程。从2012年开始，深度学习模型取得了突破性的进展，在大规模数据库ImageNet-1000上取得了比词袋模型高出10%的分类精度，并且迅速成为研究热点，并引领了近年的研究热潮。

4.3 实际事例

Zaki M H等利用最近邻分类算法对上海双行道的机动车、非机动车进行分类，从运动物体跟踪轨迹中提取最大速度、步频、加速度参数作为分类特征，经检验，该方法的正确分类率高达93%；MVM Jayathilake等利用高斯混合模型对同质和异质交通环境视频流中的车辆进行检测和分类；Rad M S等使用深度学习模型对道路垃圾进行分类，并用其提出了道路清洁的指标；Sheikh M A A[10]等利用色彩特征和神经网络对道路标识进行检测、分类，正确分类率高达88%；García-Ordás M T等利用形状描述符和机器学习技术对铣削过程中的刀具磨损水平进行分析和分类；Valiere P[11]等提出了一种适用于严重阴影和遮挡情况的车辆分类计数方法，精度高达98%；Zhu Z[12]等利用卷积神经网络对于交通标识进行分类。

5 行为分析

根据现有文献，目前人体行为识别按照其研究对象的复杂程度可以分为四个层次：基元行为、单人行为、交互行为、群体行为。根据实际需要，可以分为行为分类和行为检测。根据识别方法，可以分为单层次识别方法、多层次识别方法。本文将按照识别方法分类进行书写。

5.1 单层次识别方法

单层次方法是一种基于序列图像的人体行为表示和识别方法，该方法将人体看成是视频中的动态目标，此时的人体目标是一个动态事件，包含时间变化，而不是一个静态物体，该方法十分适合人体姿态识别和具有时空特征的人体行为识别，此类方法常应用于简单行为识别。单层次方法又被分为时空表示法和序列表示法。

Ter-Sarkisov A[13]等利用Bootstrapping标记数据集进行奶牛跟踪和行为分析，该方法可以在混乱的背景使用，并区分出奶牛的基本行为；Yamamoto J[14]等提出基于顶视图深度相机的客户行为分析研究，精度高于89.5%；Wu Y[15]等运用迭代、回归、计算机视觉等知识进行面部特征检测和面部表情分析；Wu Y[16]等利用面部遮挡法同时进行面部标志物检测、姿势和变形估计。

5.2 多层次识别方法

多层次方法是一种先将人的行为分解成为一些子行为或原子级动作，在这些自行为的基础上构建出高层复杂行为的识别方法。多层次方法适用于交互行为、群体行为和复杂行为的识别。多层次方法又被分为基于统计的方法、基于文法的方法和基于描述的方法。

Jensen J S等提出一种基于计算机视觉的智能系统中波束形成行为的合成与分析框架；Katsageorgiou V M等运用社会交往的知识进行小鼠的无监督行为分析，并提出了mean-covariance限制玻尔兹曼机适用于抽象更高层次的行为这一结论；Kok V J等分别从物理学和生物学角度分析了计算机视觉用于群体行为分析的意义。

5.3 方法总结

在行为识别研究前期，研究对象主要是在简单场景下的单人行为，行为类别比较少，场景比较简单，研究者们提出的行为识别方法大多集中在单人简单行为的表达。在这段时间，出现了一些基于序列和基于时空体的经典行为识别算法，为后期相对复杂的行为识别打下了坚实的基础。在后期的行为识别中，研究对象相对比较复杂，除了从单人发展到多人、场景更加复杂外，数据库的规模逐步扩大，数据类型也随着计算机视觉及硬件技术的进步变得更加多样化。

国内在行为识别技术发展前期属于空白阶段，在近期逐步重视，但是多人交互行为研究仍待努力。国外的发展则更为全面，覆盖时间更长。我国现阶段行为分析方法主要发展多层次识别方法，单层次识别方法已经基本完善。

6 总结

计算机视觉是一个非常热门的研究方向，结合自然语言、云计算、机器学习等技术在实际应用中的使用更加广泛。目前，运动物体检测与识别方面已经较完善，主要研究在于复杂环境的影响、突发情况的处理以及精度提升；运动物体分类识别方面近年来基本已经被机器学习所独占，比其他方法都要突出的精确率、简单的思路、易实现的大数据平台，这些优越的条件使得运动物体分类识别领域在短期内不会有过大的改变，因此，该方面在近期研究方向应当为优化机器学习、无监督学习的研究；行为分析方面是以上3个方面的综合运用，是具有最大潜力的领域，因此，今后的发展方向为异常行为分析、多行业融合。总之，计算机视觉会得到各领域研究者们的持续关注，并在各个方面快速发展。