视频目标跟踪综述

2022-01-22张丰，冯平

计算机时代 2022年1期

张丰，冯平

摘要：研究近年来主流的目标跟踪算法。通过文献阅读和归纳对比，分析了使用生成式模型和判别式模型的目标跟踪算法。结果显示，对于存在复杂干扰因素的场景，采用第二类模型的目标跟踪算法的跟踪效果更好。文章为视频跟踪领域的研究者们提供了一个关于目标跟踪算法的客观分析。

关键词：目标跟踪; 深度学习; 相关滤波; 计算机视觉

中图分类号：TP399 文献标识码：A 文章编号：1006-8228（2022）01-32-04

Overview on video target tracking

Zhang Feng， Feng Ping

（Guizhou University of Finance and Economics， Guiyang， Guizhou 550025， China）

Abstract： This paper focuses on the mainstream target tracking algorithms in recent years， and analyzes the target tracking algorithms using generative and discriminative models through literature reading and inductive comparison. The results show that for the scenes with complex interference factors， the target tracking algorithms using the second kind of model have better tracking effect. This paper provides an objective analysis of target tracking algorithms for researchers in the field of video tracking.

Key words： target tracking; deep learning; correlation filtering; computer vision

0 引言

根据人们对感知觉的研究发现，人们通过视觉、听觉、味觉、嗅觉和肤觉来接受外部的刺激，其中视觉是人们获取外部刺激的最主要途径，约占80%。为了让计算机可以与人一样拥有视觉的能力，计算机视觉这一学科被提出。

视频目标跟踪是计算机视觉的一个重要研究方向，这个技术在人们日常生活中也有很多应用。例如：智能视频监控、现代化军事、基于视频的人机交互、智能交通系统、智能视觉导航、三维重建、虚拟现实、增强现实等方面[1]。目标跟踪的任务是在给定第一帧目标的位置和状态后，在后续帧中能识别，跟踪到目标的位置状态。这个任务可以分为四个步骤。①运动模型：以给定的目标框为中心在其附近生成多个候选框。②特征提取：对生成的候选框进行特征的提取和分析。③观测模型：根据提取和分析的结果选出优的候选框，这是最重要的一个步骤，也是研究者的主要研究的地方。④模型更新：由于目标是动态的，不能只以固定一帧里的目标作为参考模型，要及时地更新。

现实环境中进行跟踪任务会由于环境的改变或者目标的运动而出现难点。

⑴ 光照的变化：在进行跟踪时，现场灯光明暗的变化会使目标可提取的特征减少。

⑵ 遮挡：当目标被障碍物部分或者完全遮挡，这时候可获取的信息会变少。

⑶ 背景混雜：当目标出现在周围环境比较复杂的地方，会有许多背景因为与目标的特征相似而被误认。

⑷ 快速运动：当目标快速运动时会产生运动模糊的情况，影响特征提取。

⑸ 尺度变化：由于目标与拍摄设备的距离发生变化，因此目标在视频中大小也会发生变化，会影响目标的选定。

⑹ 姿态变化：当目标在运动过程中肢体发生变化，这会使目标的外观有比较大的改变，从而影响跟踪。

这些问题都不会单独出现，一个跟踪任务中目标可能会发生其中几种情况，因此研究一个强鲁棒性和高精确性的算法是十分重要的。

1 目标跟踪算法

随着目标跟踪技术的发展，大量的算法涌现。我们可以根据其在观察模型中采用的方法不同把这些算法分为两大类，一种是生成式模型和判别式模型。其中判别式模型里面又分为基于相关滤波的和基于深度神经网络的模型。

1.1 生成式模型

生成式模型是最早期的目标跟踪的模型，运用这个模型的算法有光流法、粒子滤波、Meanshift算法，Camshift算法等[2]，生成式模型首先会对目标进行特征提取然后根据特征来构建目标的模型，最后用该模型去与每一帧图片进行匹配，挑选与模型最相似的地方作为该帧图片中目标的位置。根据建立模型的方法可以把生成式模型分为基于核的算法，基于子空间的算法和基于稀疏表示的算法。生成式模型有一个严重的缺点就是其模型没有进行更新一直使用任务开始时构建的模型，没有考虑到任务过程中环境变化对目标状态的影响，当有的帧中目标比较清晰的时候，可以比较好的找到目标。但当目标出现被遮挡或者处于环境光线条件不好的情况下，用这个模型来追踪效果就不尽如人意了。

1.2 判别式模型

判别式模型是目前研究目标跟踪的主流模型，这个模型把目标跟踪问题转化为了一个二分类问题，通过模型把目标与背景进行分离，从而获得目标。这一种模型能很好的解决目标处于环境条件复杂的状况下的跟踪问题，而这个模型中根据使用的特征不同分为基于相关滤波和基于深度学习的两种算法。

1.2.1 基于相关滤波的跟踪算法

相关滤波本来是用于信号处理的，用来描述两个信号的相关性。文献[3]首先把这技术用于目标跟踪领域并提出了MOSSE算法，该算法首先在首帧中提取目标的单通道灰度特征用来训练滤波器，再在下一帧中提取特征并与滤波器相乘，得到最大响应点从而确定目标的位置，最后再把该帧的特征用于训练滤波器从而进行下一帧中目标的确定。后来文献[4]在MOSSE的基础上进行了改进提出了CSK算法，该算法采用循环矩阵去进行采样从而获得大量的循环样本使滤波器更好的学习而且加入核函数使得高维空间中难以计算的值可以在低维空间中进行运算加快了模型的速度。这两种算法都是采用的单通道的数据作为输入的。而文献[5]提出了KCF算法采用了多通道的HOG特征作为输入并且利用了循环矩阵在傅里叶空间可对角化的性质极大的减少运算量，这个算法与之前算法相比，准确率有了明显的提高，但是由于该算法把目标框预先设定好，当目标出现尺度变化或姿态变化时不能有效的进行跟踪。

对于尺度自适应这个问题，文献[6]提出了SAMF算法，该算法采用了尺度池的方法来应对跟踪中目标的尺度自适应问题，并且提出把HOG特征，灰度特征和CN特征三者进行了结合来代替单特征的输入。文献[7]中提出了DSST算法，该算法解决尺度自适应这问题提出采用了两个滤波器的方法，把定位任务和尺度估计任务分开，先确定目标的中心位置，再根据中心点周围的响应来确定目标的尺度，这样把任务分成两部分可以使速度加快而且也便于单用其中一个功能来与其他算法相结合。在使用滤波器的算法中，由于进行快速傅里叶变换时会导致图像信号缺失从而出现边界效应，文献[8]中的SRDCF算法采用了空间正则来解决这个问题，先获得稍大的信号，然后通过引入惩罚机制，消除距离响应中心最远的信号。

1.2.2 基于深度学习的跟踪算法

在目标跟踪的任务中，获取目标的特征是一个关键的问题，而深度学习在其他领域中已经表现出了其强大的特征提取和表达能力，因此深度学习开始被应用到了目标跟踪领域，目前比较常用的神经网络模型有AlexNet，VggNet，ResNet，YoLo，GAN。一开始研究者采取的策略是用深度特征替换之前通过滤波器得到的特征，文献[9]中提出的DeepSRDCF算法就是在相关滤波算法SRDCF的基础上使用深度特征来替代原本的手工特征。而文献[9]中提出的HCF算法采用的是KCF的框架，把其中的HOG特征替换成经过VGG网络训练完的深度特征。后来出现了深度网络与滤波相结合的方法，文献[10]中的C-COT算法先用VGG网络同时提取目标多通道的特征，并且每个通道都对应有一个滤波器，然后把经过滤波的特征图进行卷积和加权的工作，最后在采用插值的方法来获得最后的响应图，这个方法的准确率高但是由于网络太过大速度比较慢。后来文献[11]提出了ECO算法，通過降低滤波器的维度以及在不影响特征多样的情况下减少特征的数量来使模型加速。

从这些算法的实现结果来看，深度特征的运用可以使跟踪结果更准确，同时还知道了浅层的网络比较适合目标定位，而深层的网络比较适合确定目标范围。

随后的目标跟踪任务就不只是采用替换特征的方法，而是直接使用深度学习的方法，但是深度神经网络需要通过大量的数据训练才能拥有较强的特征提取能力。文献[12]提出通过线下训练与在线微调的方法来解决获取样本数据量这个问题，这是首次运用深度学习的跟踪算法，从此基于深度学习的跟踪算法也慢慢发展起来。此后文献[13]提出了一种基于分类的深度学习跟踪算法MDNet，该算法采用小型VGG网络，而且作者认为不同训练视频中目标之间有共性的特征，因此采用了多域训练的方式来进行跟踪训练，这个算法在速度与应对目标被遮挡的问题时表现不佳，因此文献[14]在MDNet的基础上加入GAN网络提出VITAL算法，通过GAN网络来生成遮挡情况下的正样本从而使分类器拥有应对目标被遮挡的问题。文献[15]提出孪生神经网络（SiamFC），该算法把跟踪看成是解决相似性问题，采用两个Alexnet网络组成双分支结构网络，其中一个分支用于提取样本图像特征，另一个分支用于提取搜索图像的特征，做相似性比较，取响应最大的地方作为目标中心。由于这个算法只能获得目标中心，不能很好地应对尺度变化问题，因此文献[15]在文献[16]的基础上加入了RPN网络，解决了这个问题。

2 常用数据集

为了使神经网络更好的进行工作，必须做的一步就是调参，而调参的过程需要有大量的数据。因此一个优秀的数据集可以使网络更好的运行，下面将介绍几个常用的数据集及其评价指标。

⑴ OTB：2013年Wu等人在CVPR上提出了OTB2013数据集，这个数据集里包含了51个视频序列，有灰度和彩色图像，都是以日常场景为背景，再把目标跟踪常见的困难呈现出来。2017年作者把OTB2013进行扩容，把视频序列增加到了100个形成OTB2017。OTB数据集的评价指标有精确图（Precision Plot）、成功率图（Succes Plot）、OPE、TRE、SRE。

⑵ VOT：VOT数据集是指每年视觉目标跟踪竞赛中举办方提供的数据集，里面通常含有60个彩色视频序列，每年都会替换部分视频。该数据集有一个特别的机制，即当程序跟丢目标的五帧后，会把程序初始化，使数据集得到充分利用。VOT数据集中的评价指标主要有Accuracy、Robustness。

⑶ Temple Color 128：TColor-128数据集是在2015年提出，全为彩色视频序列，若算法只适用于彩色可以采用该数据集，评价标准与OTB相似。

⑷ LaSOT：LaSOT数据集主要收录的是长时间的视频序列，里面含有70个类别，1400个视频序列。该数据集主要从YouTube上获取，主要是生活的场景。该数据集提供了一致的可视化边界标注，给使用者提供了便利。主要评价指标有精度、标准化精度、成功率。

⑸ UAV123：UAV123數据集是一个当一场景的数据集，全部视频序列都是由无人机拍摄的。整个数据集由123个视频序列，其视频特点为视角的变化多，背景干净。

3 展望

目前，目标跟踪中的算法有专注跟踪速度和专注于跟踪精度的，前者的准确性不高容易造成目标的丢失，后者的速度不够不能很好的用于实际的场景中，因此一个能同时把准确性和速度同时兼顾的算法是未来的一个研究方向。另外，通过浅层网络提取出来的特征在面对目标形变等问题使会影响跟踪，所以现在目标跟踪算法中运用的网络越来越深了，虽然网络的加深可以是目标的特征更加突出，但是图像的特征分辨率会变低信息就会被忽视，而且越深的网络耗时也越多，对需要实时的跟踪任务会造成困难，因此我觉得如何把深浅网络的优势结合再进行跟踪也是以后的一大发展趋势。最后，目前的算法都只是在短时间的跟踪中取得良好的成绩。但当面对长时间任务时表现不好，在长时间任务中目标会经常出现短期消失或长时间消失的情况，算法在追踪失败后难以重新识别和追踪目标，因此设计一个在长期任务中能稳定跟踪的算法也是一个研究趋势。

4 总结

目标跟踪领域的研究开始了十多年，从最早的生成式算法，到基于相关滤波的算法再到现在的基于深度学习算法，已经取得了很大的进步，在很多行业里面也有很好的应用，越来越多的人也开始重视目标跟踪的发展。本文介绍了在目标跟踪领域具有代表性的几个算法，简要的分析算法的原理和优缺点，以及对目标跟踪领域未来的发展进行了展望，目标跟踪技术仍有很大的发展空间，一个有强鲁棒性，高精确性和高速的算法仍然被人们所期待，相信在研究者共同努力下，完成这个任务的时间不会太久。

参考文献（References）：

[1] 卢湖川，李佩霞，王栋.目标跟踪算法综述[J].模式识别与人工智能，2018，31（1）：61-76

[2] 孟琭，杨旭.目标跟踪算法综述[J].自动化学报，2019，45（7）：1244-1260

[3] Bolme DS，Beveridge JR， Draper BA，et al. Visual object tracking using adaptive correlation filters[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2010：2544-2550

[4] Henriques J F， Caseiro R， Martins P， et al.： Exploiting the Circulant Structure of Tracking-by-Detection with Kernels[M].Fitzgibbon A， Lazebnik S， Perona P， Sato Y， Schmid C，editor，Computer Vision-Eccv 2012， Pt Iv，2012：702-715

[5] Henriques J F， Caseiro R， Martins P， et al. High-Speed Tracking with Kernelized Correlation Filters[J]. Ieee Transactions on Pattern Analysis and Machine Intelligence，2015，37（3）：583-596

[6] LI Y，ZHU J K.A Scale Adaptive Kernel Correlation Filter Trac-ker with Feature Integration //Proc of the European Conference on Computer Vision. Berlin，Germany： Springer，2014：254-265

[7] Danelljan M， Hager G， Khan F S， Felsberg M. Accuratescale estimation for robust visual tracking.In：Proceed-ings British Machine Vision Conference. London， England：BMVA Press，2014，65：1-11

[8] DANELLJAN M， HAGERG， KHAN F S， et al.Learning-spatially regularized correlation filters for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.2015：4310-4318

[9] DANELLJAN M，HGER G，KHAN F S，et al.Learning Spatia-lly Regularized Correlation Filters for Visual Tracking //Proc ofthe IEEE International Conference on Computer Vision.Washing-ton，USA：IEEE，2015：4310-4318

[10] DANELLJAN M， ROBINSON A， KHAN F S， et al.Beyond Co-rrelation Filters： Learning Continuous Convolution Operators forVisual Tracking //Proc of the European Conference on Computer Vision. Berlin，Germany： Springer，2016：472-488

[11] DANELLJAN M， BHAT G， KHAN F S， et al.ECO：Efficient Convolution Operators for Tracking[C/OL]. [2017-10-21].https：//arxiv.org/pdf/1611.09224pdf.

[12] Wang NY， Yeung DY. Learning a deep compact image representation for visual tracking. In： Proceedings of the 26th International Conference on Neural Information Pro-cessing Systems.Lake Tahoe， Nevada： Curran Associates Inc.，2013：809?817

[13] Nam H，Han B. Learning Multi-Domain ConvolutionalNeural Networks for Visual Tracking[J]，2015

[14] Song Y B， Ma C， Wu X H， Gong L J， Bao L C， Zuo W M，et.al. Visual tracking via adversarial learning. In： Proceedings of the 2018 IEEE Conference on Computer Vision and Pat-tern Recognition. Salt Lake City， Utah， USA：IEEE，2018：1084−1093

[15] Bertinetto L， Valmadre J， Henriques J F， et al. Fully-convolutional siamese networks for object tracking[C]. European conference on computer vision，2016：850-865

[16] Li B， Yan J， Wu W， et al. High performance visual tracking with siamese region proposal network[C].Proceedings of the IEEE Conference of Computer Vision and Pattern Recognition，2018