基于分类的视频目标跟踪算法研究
2017-02-23陈金勇吴金亮
梁 硕,陈金勇,吴金亮
(中国电子科技集团公司第五十四研究所,河北 石家庄050081)
基于分类的视频目标跟踪算法研究
梁 硕,陈金勇,吴金亮
(中国电子科技集团公司第五十四研究所,河北 石家庄050081)
针对视频目标跟踪中的速度和准确度问题,介绍了视频目标跟踪的表观模型和跟踪模型,重点对当前基于分类的视频目标跟踪算法进行了研究。对4种最具有代表性的基于分类的跟踪算法,分别从光照变化、尺度变化、遮挡和复杂背景4个方面进行速度和准确度的定量实验评估,根据实验结果分析各算法的优缺点,为新算法的提出提供参考。
目标检测;分类学习;目标跟踪;评估算法
0 引言
视频目标跟踪是计算机视觉领域研究中的一个核心问题。在过去的10多年中它已经迅速成为学者们研究的热点,不断地被应用于国防军事和人民生产生活的各个领域。经过近几年的发展,越来越多的学者将机器学习的理论应用到视频目标跟踪中,提出了许多分类学习的算法,为视频目标跟踪开创了一个新的方向,取得了良好的效果。
但由于视频中噪声、光照变化、目标尺度变化、复杂背景以及遮挡等问题的存在,当前仍没有一个算法能够完全满足任何条件下鲁棒性和实时性的要求。有的算法能够进行快速的实时跟踪,可能跟踪的准确度就会很差。有的算法能够对目标进行准确跟踪,却可能需要长时间处理,无法达到实时性要求。有的算法能够有效克服光照变化的影响,却无法抵抗遮挡的问题。因此,对于当前先进跟踪算法的性能评估就成为一个十分必要的工作,分析比较各个算法的优势和劣势对下一步的研究工作有着非常重要的意义。
本文综合计算机视觉数据集,从光照变化、尺度变化、背景复杂和遮挡4个方面进行分类,每个方面选取了10个视频序列进行测试,对STRUCK[1]、TLD[2]、CT[3]和KCF[4]算法设计了统一的接口,从准确度和速度方面进行评估,并对评估结果进行分析,为算法改进研究提供参考价值。
1 相关工作
视频目标跟踪是根据目标的表观特征信息和目标运动模型,在视频序列中估计目标的位置和范围。迄今为止,基于分类的视频目标跟踪算法因其鲁棒性取得了良好的效果,许多学者都提出了相关算法。视频目标跟踪一般包含两大方面的内容:表观特征描述和跟踪算法。
视频目标具有细节丰富的表观信息,需要通过相应的目标表观特征描述方法将其中的相对稳定的统计特性或某些不变特性提取出来,以此对目标和背景进行区分。原始图像特征直接将目标区域的原始图像信息[5]或经简单处理得到的底层图像特征作为对目标的描述[6]。通常选取的特征有灰度、颜色和梯度等。该类特征提取简单、快速,但对目标特征的挖掘程度低,适应力较差。直方图特征[7],通过统计目标区域内某种特征在每个像素位置上出现的频次,并进行归一化,构成该目标区域对应特征的概率密度函数。直方图有效描述了特征的统计特性,对于非刚体形变具有较好的鲁棒性,但对于光照变化和背景杂波有一定欠缺。稀疏表示理论[8],通过超完备字典将目标映射为稀疏向量,作为表观描述特征,计算量小,但有一定的随机性,不能保证最优。
为了估计目标的位置和范围,需要选择合适的跟踪算法对目标进行跟踪。学者们提出了许多跟踪算法,文献[9-11]基于贝叶斯理论,对目标位置直接进行预测。文献[12-14]对均值漂移的方法进行了改进。文献[15-18]提出了基于分类的跟踪算法,将目标和背景都作为样本进行训练,通过分类器对目标和背景进行区分。
2 跟踪算法和数据集的选择
为了保证评估的公平性,所选的数据集带有目标的真实信息,测试的跟踪算法以及其中特定的参数都是由作者本人公开发表的。
2.1 数据集的选取
对视频目标跟踪算法的性能进行评估,首先要选取合适的数据集。计算机视觉方面有许多经典的数据集可供选择,其中都包含目标的真实包围盒信息,比如VIVID、CAVIAR等。本文根据算法评估需要,选择合适的数据集进行实验,并将数据分为以下4类:光照变化、尺度变化、遮挡和复杂背景。测试数据集如图 1所示。其中,选取各个数据集中第1帧视频作为代表,矩形框为目标,第1、2、3、4行分别为光照变化类数据集、尺度变化类数据集、遮挡类数据集、复杂背景类数据集。
图1 测试数据集
2.2 跟踪算法的选取
在基于分类的视频目标跟踪算法中,STRUCK、TLD、CT和KCF算法在速度和准确度方面分别有着独特的表现,是当前最为先进的视频目标跟踪算法的代表。STRUCK提取目标区域Haar特征,引入核函数,采用非线性的SVM分类器。TLD将整个跟踪过程分为跟踪器、学习器和检测器3个独立的部分,通过检测器和跟踪器联合输出目标,学习器对跟踪器和检测器进行监督。其中,检测器通过提取目标的梯度和LBP特征,跟踪器采用前后光流法。CT引入压缩感知技术,对多尺度的样本空间进行降维,对目标提取Haar-like特征,选用贝叶斯模型分类器。KCF对目标提取HOG特征和LAB特征,变换到傅里叶域处理,引入核函数,采用岭回归分类器对目标进行跟踪。
3 评估标准
视频目标跟踪算法必须满足鲁棒性和实时性才能保证系统的追踪性能。本文采取目标包围盒的形式来表示目标,对视频目标跟踪进行定量分析,从准确度和速度2个方面对STRUCK、CT、TLD和KCF算法进行评估。
3.1 准确度评估标准
3.2 速度评估标准
每种跟踪算法对视频的跟踪速度是一个非常重要的标准,本文以跟踪算法每秒处理帧数(FPS)为跟踪速度的评估标准。
4 评估结果及分析
光照变化测试数据集包含10组视频序列,共计10 066帧;尺度变化测试数据集包含10组视频序列,共计11 037帧;遮挡测试数据集包含10组视频序列,共计19 283帧;复杂背景测试数据集包含10组视频序列,共计17 288帧。算法运行环境为IntelCorei7-3770,CPU3.40GHz,RAM3.47GB的PC机。
4.1 实验结果
图2 实验结果
4.2 速度评估结果及分析
针对4组不同类别的数据集,本文记录了每个算法对每个数据集处理的平均速度,以此为标准绘制成折线图,结果如图3所示。
由图3可以看出,跟踪速度与数据集的类别没有太大关系,在4组类别的数据集中,CT和KCF都具有非常高的跟踪速率,平均可达100fps左右,而TLD和STRUCK跟踪速率不佳,平均只有20fps左右。CT运用了压缩感知理论,将正负样本进行尺度变换,对样本量进行扩充,然后将这个多尺度的样本空间的样本通过稀疏矩阵投影到低维空间中,降低了计算量。KCF引入循环矩阵对样本进行稠密采样,将时域的卷积运算变换到频域进行乘积运算,从而实现快速采样和快速检测,大大提高了跟踪速度。
图3 速度评估结果
4.3 准确度评估结果及分析
针对4组不同类别的数据,为了消除单个数据的偶然性,本文记录了每组数据集中的跟踪成功率,并绘制成柱状图进行表示,结果如图 4所示。
图4 准确度评估结果
由图4可以看出,在任何类别的数据集中KCF的准确度最高。在光照变化、遮挡和复杂背景数据集中,STRUCK的表现仅次于KCF,而在尺度变化中,TLD的表现较好,CT的整体表现较差。
KCF通过对目标进行HOG特征进行提取,并结合LAB特征,同时加入核函数的岭回归分类器分类性能较强,具有与SVM相当的效果,能够对目标进行有效标记,提高了算法的鲁棒性。STRUCK在跟踪过程中,采用的是比较精确的非线性SVM分类器,对准确率有了一定的提高,但并没有针对目标的尺度变化采取任何措施。TLD通过独立的检测、学习和跟踪模块,具有一定的鲁棒性,但由于其是对目标原始像素进行操作,同时采用比较脆弱的光流法跟踪算法,影响了器跟踪的精度。CT将样本空间经过稀疏矩阵变换到低维空间,具有一定的随机性,影响了器跟踪精度。
综上所述,KCF在跟踪速度和准确度方面都有着非常优异的表现。STRUCK和TLD具有一定鲁棒性,但其跟踪速度过慢。CT有着非常高的跟踪速度,但其跟踪准确度不高。分类器的选择对跟踪算法的鲁棒性有着直接关系,强分类器(KCF,STRUCK)能够有效区分背景和目标,能够提高跟踪效果。在速度方面,稀疏表示(CT)的特征描述方法能够显著提高跟踪速度,但其稳定性需要进一步探究。循环矩阵与快速傅里叶变换(KCF)是一个很好的结合方式,能够大大提高跟踪的速度。
5 结束语
本文采用试验验证的方式对基于分类的视频目标跟踪算法进行了分析研究,并针对其中4种表现最优的目标跟踪算法进行定量评估。评估结果表明,单一的图像特征无法满足所有视频的需求,采取多特征描述会增加算法的鲁棒性,改善跟踪的漂移问题。同时,基于分类视频目标跟踪中,分类器的强弱与算法的鲁棒性有着很大的关系。因此,选择合适的图像特征和分类器,能够在一定程度上提高跟踪算法的鲁棒性。
[1]HARES,SAFFARIA,TORRP.Struck:StructuredOutputTrackingwithKernels[C]∥IEEEInternationalConferenceonComputerVision,2011:263-270.
[2]KALALZ,MIKOLAJCZYKK,MATASJ.Tracking-learning-detection[J].IEEETransactiongsonPatternAnalysisAndMachineIntelligence,2012,34(7):1 409-1 422.
[3]ZHANGK,ZHANGL,YANGMH.Real-timeCompressiveTracking[C]∥EuropeanConferenceonComputerVision,2012:866-879.
[4]HENRIQUESJF,CASEIROR,MARTINSP,etal.High-SpeedTrackingwithKernelizedCorrelationFilters[J].IEEETransactiongsonPatternAnalysisandMachineIntelligence,2015,37(3):583-596.
[5]ORONS,BAR-HILLELA,LEVID,etal.LocallyOrderlessTracking[C]∥IEEEConferenceonComputerVisionandPatternRecognition,2012:1 940-1 947.
[6]KWONJ,LEEKM.TrackingbySamplingTrackers[C]∥IEEEInternationalConferenceonComputerVision,2011:1 195-1 202.
[7]GODECM,ROTHPM,BISCHOFH.Hough-basedTrackingofNon-rigidObjects[J].ComputerVisionandImageUnderstanding,2013,117(10):1 245-1 256.
[8]JIAX,LUH,YANGMH.VisualTrackingviaAdaptiveStructuralLocalSparseAppearanceModel[C]∥IEEEConferenceonComputerVisionandPatternRecognition,2012:1 822-1 829.
[9] 张洪建.基于有限集统计学的多目标跟踪算法研究[D].上海:上海交通大学,2009.
[10] 宋骊平.被动多传感器目标跟踪方法研究[D].西安:西安电子科技大学,2008.
[11] 杨柏胜.被动多传感器探测目标跟踪技术研究[D].西安:西安电子科技大学,2008.
[12] NING J,ZHANG L,ZHANG D,et al.Scale and Orientation Adaptive Mean Shift Tracking[J].IET Computer Vision,2012,6(1):52-61.
[13] BEYANC,TEMIZEL A.Adaptive Mean-shift for Automated Multi Object Tracking[J].IET Computer Vision,2012,6(1):1-12.
[14] MAZINANA H,AMIR-LATIFI A.Improvement of Mean Shift Tracking Performance Using a Convex Kernel Function and Extracting Motion Information[J].Computers & Electrical Engineering,2012,38(6):1 595-1 615.
[15] GRABNERH,GRABNER M,BISCHOF H.Real-Time Tracking via On-line Boosting[C]∥The British Machine Vision Conference,2006:47-56.
[16] ROSS D,LIM J,LIN R S,et al.Incremental Learning for Robust Visual Tracking[J].International Journal of Computer Vision,2008 77(1):125-141.
[17] BABENKO B,YANG M H,BELONGIE S.Visual Tracking with Online Multiple Instance Learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2009:983-990.
[18] MEI X ,LING H R.Visual Tracking Using L1 Minimization[C]∥IEEE International Conference on Computer Vision,2009:1 436-1 443.
[19] EVERINGHAM M,GOOL L J V,WILLIAMS C K I,et al.The Pascal Visual Object Classes VOC Challenge[J].International Journal of Computer Vision,2010,88(2):303-338.
梁 硕 男,(1991—),硕士研究生。主要研究方向:视频图像处理。
陈金勇 男,( 1970—) ,研究员,博士生导师。主要研究方向:航天地面应用、电子信息系统。
A Survey of Video Object Tracking Algorithms Based on Classification
LIANG Shuo,CHEN Jin-yong,WU Jin-liang
(The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China)
For the problem of speed and accuracy in the video object tracking,the appearance model and tracking algorithm for the video object tracking are introduced in this paper,and the video object tracking algorithm based on classification is analyzed.Quantitative experiment is carried out to evaluate the speed and accuracy of four state-of-art tracking methods based on classification from illumination variation,scale variation,occlusion and background clutters.By analyzing the advantages and disadvantages of the approaches,a reference is built for the proposal of new methods.
object detection;classification learning;object tracking;evaluation algorithm
10.3969/j.issn.1003-3106.2017.01.05
梁 硕,陈金勇,吴金亮.基于分类的视频目标跟踪算法研究[J].无线电工程,2017,47(1):19-22,66.
2016-11-14
海洋公益性科研专项基金资助项目(201505002)。
TP391.4
A
1003-3106(2017)01-0019-04