判别式相关滤波器的目标跟踪综述
2020-12-09王娟娟郭晓雨赵增顺
徐 宁,王娟娟,郭晓雨,赵增顺
(山东科技大学 电子信息工程学院,山东 青岛 266590)
1 引 言
目标跟踪是计算机视觉领域中一个基础性问题,在无人驾驶、人机交互、视频监控等领域具有广泛的应用.目标跟踪根据跟踪数量,分为单目标和多目标跟踪,单目标跟踪针对目标的外观与运动轨迹进行建模,实现目标位置的估计[1].在一般的跟踪任务中,给定初始目标位置,跟踪器能够在级联的视频序列中估计目标状态[2],在有限的训练样本中克服目标的旋转、遮挡、光照变化、快速运动、模糊、低分辨率等挑战[3,4],考验着跟踪器的准确性、鲁棒性、实时性.
近年来,基于判别式相关滤波器(Discriminative Correlation Filters,DCF)方法在跟踪任务中展现了卓越的性能[4-11].生成式方法通常使用参数模型来描述目标的外观模型,在候选集中选择重构误差最小的作为目标图像.判别式方法是将跟踪任务视为分类或者岭回归问题,通过估计给定输入标签的条件概率分布实现对候选目标的输出[12],判别式相关滤波器通过训练滤波器预测目标的分类分数[4],将目标从背景中辨别出.DCF类跟踪器不仅通过快速傅里叶变换(FFT)加快运算速度,还得益于特征表示、空间正则项、时间平滑项[13]、流程优化等环节的优势,在Visual Object Tracking[14-17](VOT)竞赛中获得了极大成功.在具体的跟踪任务中,跟踪器主要将跟踪任务分为位置估计与尺度估计[7,10].测试数据集[14-22]评价工具的标准化[14,22]与VOT竞赛极大地促进了跟踪领域的发展.
第2章以围绕着DCF类中的KCF算法进行横向展开;第3章介绍基于预训练模型和DCF与神经网络相结合的跟踪器;第4章总结了DCF线路演进图;第5章为部分跟踪器在OTB-100与VOT-2017/2018数据集中的结果对比;第6章为部分算法的实际应用简介;第7章为总结部分,文章编排与文献[23,24]类似.
2 DCF方法的开端
2010年,Bolme等[8]提出MOSSE,将信号的相关性用于跟踪任务.该算法通过计算灰度序列图像的最小化实际与期望的均方误差来训练滤波器,通过使用循环相关性,作者证明了仅使用FFT和点乘便能有效地计算滤波器.在MOSSE的基础上,Henriques等[9]设计了CSK提出可以用循环位移代替随机采样从而实现密集采样,利用频域平移等效的实现该理论,并推导了不同核函数的封闭解.在CSK的基础上,KCF[3]采用多通道的HOG[25]特征探究了不同核函数对跟踪的影响,对比了性能稍优的KCF(Kernelized Correlation Filter)与运行速度更快的DCF(Dual Correlation Filter).至此,基于判别式相关滤波器的基础理论工作趋于完善,后续跟踪器针对DCF的问题进行有针对性地改进,从特征降维、特征选择、通道权重、跟踪器结构设计等角度提升跟踪器性能.
2.1 DCF一般公式与算法流程
DCF模型的任务是最小化采样xk与回归目标y的均方误差,其目标函数可写为[11]:
(1)
xk∈RD,RD为输入图片集,D为M×N像素空间调整为m×n模型大小,K表示样本xk的通道数,ωk*xk为滤波器与采样的相关操作,y为期望相关响应(高斯矩阵),λ为正则参数减少模型的过拟合.目标函数通过FFT转到频域进行高效求解[3,8],DCF的变形公式可参见文献[2,5,6,11,12].模型ω的增量更新[9]为:
(2)
其中ωpre为当前模型,ωmodel为滤波器模型,α∈[0,1]为模型更新速率.基于检测跟踪框架[2,7,10,11]的DCF算法,一般主要分为位置估计与尺度估计两个模块,流程参见图1.
图1 DCF流程Fig.1 Flow chart of DCF
2.2 通道与特征表示
MOSSE与STC[26]使用了单通道的灰度特征,对于快速移动与变形等挑战易丢失,采用多通道特征的跟踪器性能更强,例如:MCCF[27]、KCF将多通道的HOG特征融入到DCF框架中,文献[28]采用的11通道的CN特征等.通道的概念主要使得高维特征数据、不同特征集成到DCF框架中.所采用的手工特征如Histogram of Oriented Gradient[25,29](HOG)、Color Names[28](CN)、SHIFT[30]、颜色特征[28,31-33]等来获取目标的形状、颜色等信息.其中HOG特征主要描述目标的形状信息[34],但对目标的快速移动与旋转不鲁棒.CN与Staple[32]主要是描述目标的颜色信息,与HOG特征具有一定的互补性,对于目标的快速运动、变形具有一定的鲁棒性[32,33].CN特征主要将RGB图像转换为11维(10维颜色特征,1维灰度特征)的颜色特征数据,Staple是对目标前景与背景进行颜色直方图统计.伴随着深度学习的发展,表现能力更强的Convolutional Neural Network(CNN)特征得到了广泛采用,采用CNN特征的跟踪器主要在第三章描述.
为加快模型的速度与效率,对特征通常采取特征降维、通道选择、特征选择与模型的稀疏更新等策略.如DSST[7]的快速版fDSST[35]通过Principal Component Analysis(PCA)将31维的HOG特征减少到17维,实现两倍于DSST的运行速度;CSRDCF[31]为实现快速运行,HOG特征仅采用18维;LADCF[12]实现了模型特征自适应的选择,获得了稀疏的模型;ECO[6]针对C-COT[5]特征冗余的问题,模型采取稀疏更新的策略.
2.3 尺度估计研究
在MOSSE、CSK与KCF中,目标的特征采集窗口为固定的尺度大小,虽然简单易实现,但是当目标外观尺度产生改变时,跟踪器在更新过程中由于样本特征采集偏差引起模型漂移,导致跟踪任务失败.由此产生了两种经典的尺度设计方案DSST[7]与SAMF[10].
DSST基于CSK,采用HOG特征将跟踪任务分为平移估计与尺度估计,尺度估计设计了33层的尺度金字塔,选择置信度最大值对应的尺度因子,平移估计与尺度估计相互独立.SAMF基于KCF采用HOG特征和CN特征,以尺度池的形式完成不同尺度图像特征的提取,选择置信度最大值为对应尺度.对比于DSST,SAMF思路将跟踪与尺度设计融为一体,减少了跟踪器结构的设计,但额外的增加尺度池特征提取的计算量.两种尺度估计方法均能够集成到其他DCF跟踪器[2,11,12,31]中.
KCF采用固定值的窗函数,sKCF[36]设计出一个自适应窗动态的调整跟踪器对目标的感受视野,实现跟踪器对目标尺度特征的正确采集.对于窗函数的感受视野也可以通过对搜索框的动态调整,实现单一核跟踪器对目标的感受[2,11,12].
DSST和SAMF思路进行尺度估计时,目标的纵横比不能随着目标的改变实现恰当的调整,只能按照初始化的纵横比进行等比例调整,DCF本身不具备尺度估计功能,但是能根据信号的相关性提供置信度和位置信息.因此,基于part-based文献[37-40]采取增设DCF数量的方式,用位置信息实现尺度的确定.文献[37]把目标图像分为5块,分别用独立的滤波器进行单独训练,最后采用贝叶斯原理完成位置确定.文献[38]采用ADMM算法对目标图像进行联立相关滤波器实现目标定位.DPT[39]采用级联层视觉模型理论[41],先由颜色信息完成粗定位,中层表示用4个DCF滤波器在拓扑图上进行动态的调整,完成最终定位.采用CNN特征的IBCCF[40]用更为直观的形式进行尺度实现.IBCCF处理过程:先通过二维中心滤波器CCF确定目标位置,然后用4个独立的一维边界滤波器BCFs完成目标边缘特征的检测,将BCFs得到的位置信息再与CCF的结果进行比较,最后确定目标位置.模型加入近正交正则化项使用ADMM方法进行求解,该方法能很好的处理纵横比变化的目标,但不能满足实时性的要求.DCCO[42]将子滤波器以线性结合的方式集成到C-COT[5]的连续域公式中,在尺度变化与旋转上较C-COT有优势.基于part-based因为增设不同位置的滤波器,可以感知边界状态的动态变化,在应对遮挡、形变等挑战存在优势,但目标边界图像动态范围大,边缘特征提取易受背景信息干扰,如何整合部分信息进行全局目标的定位存在难点.
粒子滤波器实现尺度估计.RPT[43]使用粒子滤波器完成不同位置的信息采集,每种采样单独增设KCF,根据粒子信息推断位置与尺度的改变.RCPF[44]将KCF与粒子滤波器进行结合,以状态引导的方式减少粒子采样数量,平衡速度与精确度,相比于KCF能够克服部分尺度变化与遮挡问题.采用CNN特征的MCPF[45]将粒子滤波器与多任务处理器MCF进行结合,MCF主要将多层CNN特征进行集成,粒子采样过程与RCPF类似.采样方式和粒子滤波器的数量直接对跟踪器的性能产生影响[45],但运行速度也会随之下降.
2.4 质量评价与丢失再检测
基于检测跟踪框架的跟踪器,较少对跟踪结果进行分析与利用,在KCF的检测阶段,模型漂移时,置信图上会表现出多峰现象[46],利用置信图的信息在跟踪过程中构建反馈环节优化跟踪过程成为提升跟踪器性能的一条途径.
针对置信图的评价,MOSSE提出PSR(Peak to Sidelobe Ratio)作为衡量置信图的检测依据.LMCF[46]提出APCE(Average Peak-to-Correlation Energy),通过比较置信图的APCE值的变化过程,实现目标状态的预估,模型的更新考虑置信图峰值与APCE两个标准,当目标处于遮挡与形变状态时,APCE值会下降.MLCFT[47]结合KCF将每层CNN的响应图使用KL散度(Kullback-Leibler divergence)进行了融合,作为前检测模块,应用LMCF再检测策略选择峰值靠前点级联再检测模块,模型更新系数设计成自适应.为提升多峰检测效率,两者使用二值矩阵对峰值范围进行限制来提升检测效率,但不利于位置快速运动的目标检测.CPT[48]提出了AFER(Aerage Feature Energy Ratio)用于CNN特征响应图的计算,实现自适应卷积通道的选择.SRDCFdecon[3]为减少训练模型中样本的退化,结合外观模型与样本质量,提出了针对样本的质量评价公式.UPDT[49]提出最小加权置信区间(Minimal Weighted Confidence Margin)衡量候选目标质量,用于模型的深度与浅层分数的自适应融合.
Ma等[50]提出LCT,整个跟踪器由平移模块、目标模块、尺度模块(与DSST类似)和分类器(k近邻分类器与随机蕨分类器),目标模块发挥长期记忆功能,当置信图峰值低于阈值,启动随机蕨分类器(后期版本LCT+[51]换为SVM分类器)进行再检测.对比于LCT,MUSTer[52]采用认知记忆模型(Atkinson-Shiffrin Memory Model),分为了关键点的长期记忆模块(SIFT)、短时记忆模块(DCF),当跟踪失败或者遮挡,更新短时模块.文献[53]在ECO的基础上,提出了结合全局模型与本地目标模型进行目标丢失再检测,根据置信结果用困难负例挖掘训练全局模型,目标丢失后,全局模型检索全图搜寻目标,目标模型继续保持更新.
2.5 边界效应与公式创新
标准DCF跟踪器[4,9]采用循环位移理论获得真实样本与合成样本,受边界效应影响,合成样本不能完全反应采样信息[2,54],模型容易产生过拟合.
为克服边界效应,SRDCF[2]加入空域正则化以奖惩的形式完成对边界背景区域信息的筛选,使得中心区域集中更多能量.模型求解使用Gaus-Seidel方法,但由于正则优化成本高,且权重系数不能随着目标的变化而改变,均速为6~7帧/s,达不到实时性的要求.BACF[11]基于CFLB[54],提出将整幅图像的正负样本全部用于滤波器的训练,通过二进制标记矩阵(裁剪)实现搜索框内背景信息的抑制,提取目标区域特征,实现跟踪器的密集采样过程,采用ADMM优化算法.为满足实时性的要求,仅采用HOG特征,性能上超越了部分采用CNN特征的跟踪器[71,75].其中对滤波器系数的标记策略在后续的跟踪器[31,57-60,79,81]中得到广泛采用.CACF[55]考量了全局信息,背景参考在目标四周进行选取,在滤波器的封闭解[4]中加入背景惩罚项,该框架能融入求取封闭解的跟踪器[4,10,32].CSRDCF[31]结合了SRDCF与CFLB,通过对搜索区域内的颜色分割完成前景与背景区分,将前景标记矩阵用于滤波器系数的选取,系数的选取较CFLB与BACF进行更为细致的空域限制,通道权重建立了历史模型,但由于仅采用颜色信息限制,标记矩阵的提取会受到背景和光照变化干扰.
DCF由此产生了两条主要的方向,一类是以SRDCF为基础进行空域正则化、特征降维、特征插值与置信图融合[5,6,49]的思路;另一类是采用BACF围绕目标区域标记的策略,进行空域特征限制,在模型中增添限制项[12,13,57-60].
为减少过拟合的产生,KCF公式求解中加入惩罚因子λ,在DCF公式中加入合理的限制项成为提升跟踪器性能的一条重要方向.对于以公式模型创新的跟踪器[2,12,13,57-60],由于DCF模型及其拉格朗日推导式为凸函数,Alternating Direction Method of Multipliers[56](ADMM)算法几乎成为标配.STRCF[57]在模型中加入了时间正则项来减少模型的过拟合,减少了因目标遮挡和变形而造成的跟踪失败.ASRCF[58]综合SRDCF与BACF加入了自适应空间正则项,在遮挡时模型自适应惩罚滤波器系数,尺度估计使用HOG特征,对比以往深度特征跟踪器,尺度估计上通过减少了深度特征的提取次数实现速度的提升,位置估计使用融合特征.针对BACF中背景信息造成置信图上出现的多峰现象,ARCF[59]将其视为异常事件,引入正则项比较当前置信图与前一帧置信图的欧式距离实现对异常部分的限制.BEVT[60]综合SRDCF的空域正则化和BACF的背景抑制思想,采用深度特征,模型更新根据置信图结果进行变速率更新.LADCF[12]在模型中加入时间一致性的限制,来增强跟踪器的鲁棒性,为减少模型的退化,使用Lasso回归权衡滤波器特征,用其近似解实现特征的自适应选择,用稀疏的模型实现对目标的检测,LADCF获得VOT-2018短时公开视频集的第1名.与ECO、C-COT通过空域正则化实现稀疏性不同的是,GFS-DCF[13]对空域与通道组自适应的收缩来实现稀疏性.在LADCF的基础上,GFSDCF在公式中添加空域、通道、时间正则项实现稀疏的特征选择和通道选择,通道选择主要针对深度特征通道冗余的问题,时间项提出低秩限制条件概念,并等效的参照以往时间序列滤波器系数进行实现,加入了自适应传统特征与深度特征的权重计算,实现滤波器在低维流形空间自适应的进行时间-空域-通道的学习.
2.6 其 他
RGB-D跟踪器.该类型跟踪器主要是应用于Simultaneous Localization And Mapping(SLAM)系统中,用于机器人的目标识别、定位与跟踪,得益于传感器的优势,机器人不仅能获得RGB图像,还能获得图像的深度(Depth)信息.但又受于平台的限制,需要跟踪器具备良好的实时性与较低的计算量.得益于CSRDCF的C++语言版本优异的实时性[72](VOT-2017挑战赛中,实时性标准中第一名),在SLAM中有改进版本.较CSRDCF单一颜色信息在标记矩阵的限制,CSRDCF++[61]在前景标记矩阵中,集成了先验信息、颜色信息、空域信息和深度信息,增强跟踪器的鲁棒性,优化跟踪流程实现遮挡检测与遮挡恢复.OTR[62]使用Iterative Closest Point(ICP)对目标进行3D重建,从3D到2D投影影响标记矩阵对于前景的感知.文献[63],在CSRDCF的二值掩膜矩阵上加入了对源图像的深度分割,使得空域限制更为精准.
STC[26]采用贝叶斯原理,针对目标建立时空上下文模型.RAJSSC[72]针对目标的旋转,将极坐标加入到DCF框架中.文献[65]在KCF的基础上引入了方向场策略,构建目标的运动估计信息.MKCFup[67]是MKCF[66]的升级版,该算法的主要思路是针对不同特征(HOG、CN)采取不同值的核函数,为加快运行速度,采用了fDSST的加速技术.
3 深度学习与DCF的碰撞
伴随着深度学习的发展,应用深度学习技术使得DCF的性能得到了进一步提升.在DCF框架中主要分为基于预训练模型的特征提取和神经网络与DCF相结合的两种形式.基于预训练模型进行特征提取主要以C-COT、ECO技术框架进行展开,神经网络与DCF相结合方面主要介绍Siamese类网络结构与DCF相结合的跟踪器.
3.1 特征融合/基于预训练网络特征提取
卷积神经网络在目标分类与图像识别[68-70,77]方面存在广泛应用[104],也为跟踪器的特征提取提供了更多的选择.采用预训练模型得到的深度特征较传统特征拥有更强的鲁棒性与精准度,但也面临着计算复杂的问题.全连接层具有较高的语义信息,但缺少足够的空间分辨率,卷积层较全连接层不仅能提供语义信息,还有着较强的空间分辨率[71,72].浅层CNN特征包含较高的空间分辨率,能够提供精准的位置信息.深层特征由于包括较多的语义信息而具有较强的鲁棒性,但空间分辨率较低.关于浅层特征与深层特征的性能对比可以参见DMSRDCF[74].在预训练模型的选取上,残差类网络ResNet[70]在特征表现上更优,预训练模型对跟踪器性能的影响可参见MFT[80]与UPDT[49].
HCF[75]将多层CNN特征结果以权重相加的形式融入到DCF框架中,后期版本HCF+[76]加入了尺度估计与再检测环节.DeepSRDCF[34]将CNN特征融入到SRDCF框架中,并比较了不同卷积层对跟踪器性能的影响,使用了PCA降维策略.HDT[71]将每层CNN特征结果视为弱跟踪器,通过Hedged算法将弱跟踪结果整合成强跟踪器.
针对DCF中多特征采用单一分辨率问题,C-COT[5]综合跟踪器[2,3,34],通过频域插值的形式整合卷积层特征与传统特征进行分治,实现在空域的连续性,通过融合的置信图确定目标位置,实现了对目标亚像素定位的精度.ECO[6]针对C-COT的运行速度与过拟合问题,通过卷积因式分解、样本的分组(采用高斯混合模型)与样本特征降维、模型的稀疏更新等策略,加快模型的运行速度.为进一步探究预训练网络结构特征对跟踪器精度和鲁棒性的影响,UPDT[49]利用深层与浅层特征的互补特性,区分对待,使用数据增强训练神经网络,引入鲁棒性性/精确度平衡策略和预测质量评价公式实现深层与浅层置信图的自适应融合.在VOT竞赛中,以C-COT和ECO为基线的跟踪器排名靠前[15-17],充分证明了空域正则化、特征插值与融合线路的卓越性.
为加快模型的运行速度,与特征降维[6,35]和模型稀疏更新[3,22,50]思路不同的是,CPT[48]使用经过剪枝的VGG-16[78]模型完成信息提取.为突出目标结构性信息,DRT[79]在ECO的基础上加入了目标区域内滤波器系数可靠性的概念,结合BACF的标记策略,对目标区域划分为3×3的感受单元刻画不同子区域的重要性,实现模型的可变权重更新.
C-COT采用了CNN、HOG和CN特征,特征信息存在大量的冗余,模型易过拟合.与ECO(例:将31维HOG压缩到10维,将10维CN特征压缩到3维)不同的是,CFWCR[74]仅采用CNN特征,对ECO中的每层特征标准化,调整了特征权重.MFT[80]在CFWCR的基础上增加了运动估计模块,采用自适应权重策略,实现多分辨率下的滤波器的自适应融合.为解决滤波器系数的过拟合问题,不同于ECO使用投影矩阵对模型进行压缩的策略,RPCF[81]引入深度学习中对特征图ROI(Region of Interest)样本的池化操作概念,通过对滤波器目标区域系数限制等效的在频域实现.与UPDT针对深度特征采取融合策略不同的是,LSDCF[103]先由深度特征实现目标的粗定位,再由联合特征(深度与手工特征)实现目标的精确定位,丰富了检测环节.MCCT[82]以特征池的形式将HOG、CN与CNN特征进行组合,通过对目标区域前景与背景的直方图统计完成特征的预筛选,提出稳健性评价策略实现特征组的选择和模型的自适应更新.
3.2 DCF在神经网络中的作用
伴随着MDNet[83]的成功,应用神经网络进行目标跟踪受到越来越多的关注,Siamese网络结构作为其中的代表展现了优异的性能[17,86].Siamese网络主要包括两部分,参照分支与测试分支,主干网络一般直接选取预训练神经网络模型[68-70],通过参照图像与测试图像的相似性完成跟踪任务[73].DCF在与神经网络的结合过程中,主要利用DCF的判别能力,将DCF作为部分网络结构集成到神经网络中.
在神经网络的端到端训练中,数据集对于模型的训练尤为重要.以TrackingNet[18]为例,该数据库是专门用于视频跟踪的大规模测试与训练集,在视频的数量与挑战上超越以往的OTB数据集[21,22]、VOT数据集[14-16]、TC-128[20]等,基于深度学习框架下的跟踪器[83,84]通过大规模训练均获得性能的提升.CFNet[84]基于SiamFC[87],在Siamese网络结构中,将DCF视为一层网络结构,增添到Siamese网络中进行端到端训练,通过反向传播实现DCF过程.CREST[88]将单层卷积层过程视为DCF过程(克服边界效应)进行端到端训练,通过在线反向传播实现卷积层的更新.使用残差学习[70](空域与时域)比较当前帧与初始帧获得目标的特征变化信息,通过融合的响应图估计目标位置,CREST对目标的剧烈变化具有一定的鲁棒性.
DCFNet[89]在训练过程中,将DCF系数转换成一层网络结构,进行端到端训练.跟踪时由轻量化的网络结构获得检测特征,由标准DCF框架得到分辨结果,并完成更新.SACF[90]主要包含SAM(Spatial Alignment Module)与在线学习模块(DCF).SAM基于STN(Spatial Transformer Network)网络以空间对齐的形式调整了样本的提取方式,使样本具有恰当的尺度与纵横比,跟踪部分参考了DCFNet.
CFCF[91]基于网络的损失函数提出了高效的反向传播算法,主干网络采用VOT-2015[14]和ILSVRC[92]数据集进行训练,将得到的CNN特征接入到C-COT框架中.ATOM[93]将跟踪任务分为目标估计与目标分类模块.在目标分类模块中采用DCF内容,优化了以往跟踪器[2,6,79]中共轭梯度算法的实现.针对核岭回归算法中忽略目标的空间结构信息和CNN网络难训练的问题,LSART[94]提出空间交叉相似的岭回归算法,利用局部目标块的相似权重实现模板内可靠性的度量,并等效的重构为神经网络,采用SGD进行端到端训练实现模型的更新,引入双路训练策略减少模型的过拟合.
4 脉络总结
结合VOT竞赛[14-17]及原图(1)https://github.com/foolwood/benchmark_results/tree/master,梳理了关于DCF的线路图(见图2).可以看出,以KCF为主干的DCF类跟踪器涌现了很多思路.对比于以特征插值与置信图融合为主线的跟踪器[2,5,6,49],采用ADMM算法增添限制项进行公式创新[11,12,57-59]的思路为DCF发展提供了另一条方向,但模型在求解过程中也越来越复杂.在与神经网络相结合中,由于网络能直接胜任跟踪任务[86],在与DCF相结合的内容相对有限.在ECO分支中,RPCF与DRT中采用了BACF的部分思路.
图2 DCF演进图Fig.2 Evolution chart of DCF
5 实验对比
本文的实验环境为Win10(64位),实验软件为Matlab 2017a,主机Inter(R)i5-8400(2.8GHz),16G RAM,1070TI显卡.
5.1 OTB-100数据集对比结果
OTB-100[22]数据集中涵盖了OTB-50[22]与OTB-2013[21],共100组测试序列.序列中的挑战划分为形变(DEF)、低分辨(LR)、快速移动(FM)等11种挑战,在具体的鲁棒性评价标准中分为一次通过评价(OPE)、时间鲁棒性评价(TRE)和空域鲁棒性评价(SRE),本文选择的为OPE评价标准运行的结果.精度绘画是指跟踪器序列图像的中心结果与基准数据的中心位置误差(CLE),本文中选择距离误差20像素.用曲线下面积(AUC)描述不同阈值(S)下的跟踪成功率.
(3)
rt是跟踪器结果,ra为基准标定,rt∩ra为两组数据重叠面积,rt∪ra为两组数据覆盖面积.
结果对比主要选择了图2中的部分跟踪器(见图3,共48组,部分结果源自文献[95]),并在结果中加入了IVT[96]、Struck[97]、DAT[33]、MDNet、CNN-SVM[98]与Siamese类[87-89]跟踪器进行对比.对比于最初的MOSSE、CSK与KCF,后续的DCF类跟踪器在特征选择、公式模型、样本的处理等方面不断地提升跟踪器性能,对比于生成式模型IVT,判别式模型整体较优.在尺度的处理上,DSST与SAMF均较其基线算法得到了提升,而粒子滤波器与DCF相结合的算法MCPF、RPT,由于粒子数量的增设带来巨大的计算负担,达不到实时性要求(见图5),IBCCF也由于过程的冗余带来了巨大的计算负担.因此尺度设计上DSST与SAMF两种尺度处理方式被广泛采用.以LCT、MUSTer、LMCF等为代表的跟踪器说明对跟踪流程上的优化,性能提升相对有限,但是能够对检测跟踪框架的流程进行补充,提升跟踪器性能.DAT、CN、Staple、CSRDCF等说明了颜色相关信息能与DCF良好结合,并与传统特征构成互补关系,值得一提的是MCCT,仅采用基础DCF框架,通过特征与特征、帧与帧的结果评价取得了不错的跟踪效果.SRDCF、BACF、Staple-CA(CACF框架与Staple的结合)、CSRDCF等,都在尝试进行解决边界效应,对比之下BACF所代表的处理模式更为优秀,但加入CN特征的BACF-HC版本,性能出现略微下降.SRDCF及其变种SRDCFdecon、deepSRDCF、C-COT等证明该线路的优秀.以GFSDCF、ASRCF、STRCF等为代表的模型创新思路,通过添加合理的限制项成功超越了C-COT与ECO路线,同时该类模型在求解过程中加入了短时历史帧信息的考量,当目标短时遮挡与消失,模型本身能够实现再检测.对比之下采用深度特征的跟踪器普遍超越仅采用传统特征的跟踪器.
5.2 VOT-2018数据集对比结果
图3 OTB-100数据集下跟踪器成功率图(左)与精度图(右)Fig.3 Success plot(left)and precision plot(rigtht)of trackers in data set OTB-100
VOT-2018[17]与VOT-2017[16]采用同一数据集,在短时挑战赛中包含60组序列,视频挑战分为完全遮挡、移出视野、部分遮挡、相机移动、尺度改变、纵横比变化、观测点改变和相似目标8种挑战,VOT-2018主要从平均重叠期望(Expected Average Overlap,EAO)、准确性(Accuracy)和鲁棒性(Robustness)等方面进行评估,其中鲁棒性衡量跟踪器的目标丢失次数,鲁棒性越低,证明跟踪器性能越为稳定.主要选择第3章相关跟踪器,在具体结果中仅呈现EAO、Accuracy和Robustness相关分数.
在VOT-2018竞赛短时公开数据集中EAO排名中(见图4),LADCF超越了以ECO为基础的技术路线,展现了嵌入式自适应特征选择和时间约束模型在短时跟踪的有效性.在表1中,GFSDCF的EAO为0.397,MFT的Robustness得分为0.14,SiamRPN在Accuracy得分为0.586,达到测试集中的最优值.RCO为MFT框架使用ResNet50特征提取版本.
5.3 跟踪器速度
运算速度是影响算法投入实际运行的关键,根据5.1节与5.2节实验,选取了部分跟踪器在OTB-100下的运算速度(图5).跟踪器具体运算速度与平台和测试序列等有关,以KCF算法为例,KCF在某些序列下可以达到600fps以上,本文选择了测试序列中的平均速度.对于同一种框架下采取深度特征与传统特征的速度比较,传统特征的运算速度优于深度特征,采用深度特征的跟踪器普遍达不到实时性的要求,其中ASRCF在采用深度特征提取中的跟踪器中[5,13,45,75]表现优秀,尺度估计部分为传统特征,相较于以尺度池形式[10]进行深度特征提取的方案,速度更快,说明频繁的进行深度特征提取,时间消耗大,更多速度信息参见文献[95].
图4 VOT-2018基线测试EAO排名Fig.4 EAO ranking for the VOT-2018 baseline experiment
表1 VOT-2018跟踪结果Table 1 Tracking results on VOT-2018
图5 跟踪器速度比较Fig.5 Comparison of trackers speed
6 应用场景简介
由5.3节可知,采用深度模型进行特征提取的DCF类算法普遍不满足实时性的要求,在实际应用中更多的是采用速度更快,性能略低的传统特征算法,但理论上采用深度特征的算法也可修改为仅采用传统特征,并借助加速技术进一步提升速度,或者融合其他算法提升性能.以KCF算法为例,KCF在行人目标检测与跟踪[99]、无人机目标跟踪[100]、水下目标跟踪[101]、视频监控等场景存在广泛应用,但该算法存在缺少尺度估计、特征采集单一等问题,通常与其他算法进行配合使用.由于现有的DCF类跟踪器一般从视频图像中直接完成特征的提取[4,11,12],尝试从2D空间完成3D空间的目标位置估计,较少考虑目标的空间和结构性信息[79,94],如2.6节介绍,在SLAM系统中针对CSRDCF的前景颜色标记部分存在改进方案[61,62].而性能更强的深度特征提取跟踪器,普遍停留在理论阶段.Siamese网络与DCF相结合的跟踪器,不仅要考量在线更新机制[102],还要在实际应用中考虑深度模型的泛化能力[85]和场景迁移能力,同时神经网络部分需要具体场景的数据训练.
7 总 结
伴随着深度学习的发展,以MDNet、Siamese网络[53,85,87]为代表的跟踪器对DCF发起了强大挑战,但DCF框架可以不依赖深度模型、不需要大规模的训练数据集,仍可保持着对场景目标较强的跟踪精度与鲁棒性,同时有着良好的实时性与广泛的适应性.本文以DCF的发展为主线,先以KCF跟踪器进行横向展开,再描述DCF的基本发展及两个重要方向的演进,对比于特征插值和置信图融合为主线的DCF路线,在公式中的构建与求解阶段,设置合理的约束项成为性能提升的重要发展方向.解决模型中的过拟合问题是一个恒久的问题.深度学习的发展为神经网络与DCF相结合提供了更多的可能,以VOT-2019[86]为例,图像分割模型[77]用于跟踪任务展现了巨大潜力.