一种基于HOG与SVM的监控视频车辆识别方法
2013-03-11王雪锋
王雪锋,叶 飞
(1.江南大学 物联网工程学院,江苏 无锡214122;2.上海交通大学 图像通信与网络工程研究所,上海200240)
车辆检测和分类识别是计算机视觉研究的一个热点课题[1-2],它在视频检索、智能交通等领域有着重要的实用价值[3],特别是在交通领域,车辆类型的准确识别为城市复杂交通网络的管理提供了智能化的技术支持。面包车作为一种事故多发车型和犯罪分子作案的常用车型,长期以来一直受公安部门的重点关注。研究基于HOG[4-5]与SVM[6]算法对监控视频中的面包车进行自动识别与跟踪,在交通管理与公共安全领域具有巨大意义。
针对以上问题,本文研究了一种基于监控视频的面包车识别算法。该方法对监控视频中已经跟踪的车辆[7-9],通过提取车辆的方向梯度直方图(HOG)特征作为支持向量机(SVM)分类检测的输入,分类识别该车辆是否为面包车。通过对车辆大小的检测,增强了分类识别算法的准确性与鲁棒性。实验证明,该方法能准确进行面包车的分类识别,在实际的标清监控视频中,面包车的识别准确率可达到90%。
1 问题描述
1.1 HOG算法介绍
针对面包车相对于其他车辆具有显著轮廓的特点,本文使用HOG算法提取车辆的轮廓信息,如图1所示。
HOG算法能在清晰度不高的情况下较准确地对车辆的轮廓特征进行提取。因为HOG算法是在局部目标的细胞单元上提取各像素点梯度,对清晰度要求不高,降低了对监控仪器的要求,减少了成本。
针对车辆识别中普遍存在的问题,即不同光照下车辆的外观会有所不同,HOG方法是在图像的局部细胞单元上操作,它对图像几何和光学形变都能保持很好的不变性,从而增加了识别的鲁棒性。
图1 面包车与其他车型的对比
1.2 SVM分类器介绍
支持向量机(SVM)是Vapnik[10]等人于1995年首先提出的,SVM的基本原理可以概括为两点:
(1)通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,再使用线性划分进行分类,从而实现了对高维特征空间的非线性系统进行线性算法分析;
(2)它基于结构风险最小化理论之上,在特征空间中建构最优分割超平面,使得学习其得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
1.2.1 两类线性可分的情况
假设输入样本为xi(i=1,2,…,n),对应的输出为y={+1,-1},其中+1、-1为两类的标识。分类平面表示为(w·x)+b=0,其中,x为多维向量,则最优化问题可表达为:
1.2.2 两类线性不可分的情况
由于样本线性不可分,引入松弛变量,则最优化问题可表达为:
1.2.3 非线性情况
通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,设映射x=Φ(x),则高维空间中,根据Mercer理论,令k(xi·yi)=Φ(xi)·Φ(yi)为内积核函数,分类面(w·x)+b=0,满足:
2 算法的总体设计流程
在综合评估各种目标分类识别方法的准确度、复杂度及鲁棒性等方面的因素,考虑到监控视频应用环境的复杂性(室外场景,易受光照等扰动)、分类检测的实时性,采用具备光学和几何形变不变性的HOG特征为车辆识别的主特征,训练SVM分类器,实现对面包车的分类识别。图2给出了基于监控视频的面包车识别总体流程。
图2 基于监控视频的面包车识别总体流程
如图2所示,识别的流程分为3部分:首先通过搜集具备典型性的面包车和卡车、轿车等车辆,形成训练样本库;利用这个样本库,对车辆类型分类器进行离线训练,使其具备利用HOG特征进行分类识别的能力;分类器的输出为面包车和非面包车两类,针对视频中跟踪到的车辆(特定区域),提取其HOG特征,输入到训练好的SVM分类器进行分类判决,得到车辆类型。
2.1 训练样本库
在算法确定的情况下,样本库大小和典型性共同决定着SVM分类器的准确性。本文设计在构造训练样本库方面共收集了正样本负样本各500多张,为SVM分类器的准确性奠定了基础。这些样本均从实际的交通监控录像中获取,并注意选择不同视角、不同光照条件、不同尺寸的车辆作为训练样本,以保证样本的真实性和多样性,为样本库的典型性提供了保障。
2.2 提取HOG特征
将已经找好的样本进行归一化处理(样本图像的分辨率归一化为100×100像素),然后进行HOG特征的提取变换。经过HOG的提取变换,将一个100×100的图片,从10 000维降阶到900维,大大降低了计算的复杂度,提高了检测效率,为达到实时监控奠定了基础。
2.3 基于SVM构造车辆分类器
将HOG算法提取的图像特征送入SVM进行训练,得到SVM构造的车辆分类器。
构建测试平台,其可以自动将某一指定文件夹中的图片依次送入分类器进行判断,并在图片上显示判断结果,最后计算出正负样本的正确率,如图3所示。
图3 分类识别的实验输出
2.4 算法改进:车辆大小检测
2.4.1 改进目的
由于车辆种类繁多,在正负样本数超过500后,SVM的识别准确率不再随样本数而增加。如果能减少待测车辆的种类数量,必然可以使准确率得到进一步的提升。本文提出了一种基于标定车型的判断算法,即通过预先得到不同车型的车辆在同一个摄像头中各个位置下外接矩形的长宽设定阈值,将车辆分成大型车、中型车、小型车3类,当该摄像头下待测车辆经过时,根据其外接矩形的大小和阈值进行比较,判断出待测车辆的车型,若该车辆为中型车,再使用SVM分类器进一步识别,最后判断是否是面包车。经过实验,该算法在多种角度下均能有效地区分车型,大大减少了待测车辆的种类,提升了最终算法的速度和准确性。
2.4.2 具体实现
(1)将某一道路人工的分成若干块,顺序标号,如图4所示。块分得越细,对车型大小的估计越准确,下图为了方便说明只分成了14块。
图4 道路人工划分成块
(2)通过跟踪算法,将视频中不同种类车辆在不同块(步骤(1)得出)、不同行驶方向的外接矩形参数记录下来,如图5所示,经人工判断车型,将车辆分为小型车(两箱和三厢的小轿车)、中型车(SUV、面包车、商务车)、大型车(公交车、渣土车等),取外接矩形长、宽中各车型差别较大的一组数据作为该点的判断数据,阈值取两车型中边界点的中点。如果某一点两种车型判断数据有交集,即大小不容易区分,则在该点不使用该算法,如图6所示。
图5 车辆大小标定
图6为图4中第4、6、10、12区域行驶方向为75°~105°的车辆的外接矩形的长、宽比较。图6(a)为车辆外接矩形的长度的比较,可以看出:①大型车与中小型车的外接矩形长度区分度大,中小型车辆外接矩形长度区分不明显,这与大型车车身较宽,中小型车车身相近的实际情况相符;②同车型在不同位置下外接矩形长度相近,这证明了该方法进行车型的分类的可行性。图6(b)为车辆外接矩形的宽度比较,可以看出,相比于长度,在该视角下,宽度的区分效果比长度好。因此在这些区域,车辆外接矩形的宽度作为划分车型的判断依据,阈值由图6中绿线所示。
图6 车辆不同位置的长宽的比较
(3)在同一个摄像头下检测待测车辆时,首先由车辆跟踪和步骤(1)中对路面的分块得到待测车辆在图中所属的块编号、运动方向、外接矩形长宽,将待测车辆的长宽比与步骤(2)得到的阈值对比,得出该车辆的车型,如图6(b)所示,若待测车辆的外接矩型宽度在绿线内,则其判断为中型车。
2.5 改进的总体设计流程
在原HOG算法基础上,增加了对车辆大小的检测,对总体设计流程进行了新的改进,如图7所示。
图7 总体设计流程
3 实验结果
在测试样本库随机取出正负测试样本各50张,在样本库随机挑选正负样本各150、250、350、500张。分别用原HOG算法与加入车辆大小检测机制的HOG算法对样本信息进行提取,将提取的信息用SVM训练出车辆分类器,通过训练好的分类器对测试样本进行检测,对检测结果进行对比评估。
对比验证在不同大小的样本库下,加入车辆大小检测机制的HOG算法能够提高判断的准确率。实验结果如表1所示。
表1 原算法与加入车辆大小检测算法的正确率对比结果
从表1可以看出,随着样本数量的增加,两种方法的面包车识别准确率逐渐提升;同时,采用车辆大小检测后的新算法,较未采用该机制的原算法,提高了判断的正确率,达到了90%。
设计了一种基于HOG的面包车检测系统。通过HOG算法SVM分类器与车辆大小检测投票机制将车辆准确地分类为面包车和非面包车。基于实际监控视频的实验结果,该算法能够以较高的准确率实现面包车的分类识别;改进后的基于车辆大小检测的算法,具备更高的分类准确率与鲁棒性。
[1]高敬红,杨宜民.道路交通车辆检测技术及发展综述[J].公路交通技术,2012(1):116-119.
[2]BLOSSEVILLE J M.Titan:A Traffic Measurement System Using Image Proc-essing Techniques[C].IEEE the 2nd International Conference on Road Traffic Monitoring,1989:84-88.
[3]王飞,薛虎.智能交通系统产业研究综述[J].科技创新与应用,2012(28):54.
[4]DALAL N,TRIGGS B.Histograms of Oriented Gradients for Human Detection[J].IEEE Computer Vision and Pattern Recognition(CVPR),2005(1):886-893.
[5]鲁丰,刘芸,张仁辉,等.基于改进HOG特征值的车标检测与识别方法[J].光通信研究,2012,38(5):26-29.
[6]CORTES C,VAPNIK V.Support-vector networks[J].Machine Learning,1995,20(3):273-297.
[7]TAKALA V,PIETIKAINEN M.Multi-object racking using color texture and motion[C].IEEE Conference on Computer Vision and Pattern Recognition,2007(CVPR′07).2007:1-7.
[8]KUMAR P,BROOKS M J.An adaptive Bayesian technique for tracking multiple objects[J].Pattern Recognition and Machine Intelligence,2007:657-665.
[9]OSAWA T,SUDO K,ARAI H.Monocular 3D tracking of multiple interacting targets[C].19th International Conference on Pattern Recognition(ICPR′08),2008:1-4.
[10]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42.