学习时间变异抑制相关滤波的视频跟踪算法
2021-01-28李养晓赵建伟
李养晓,赵建伟
(中国计量大学 理学院,浙江 杭州 310018)
视频目标跟踪作为计算机视觉领域的一个重要分支,因其在无人机、智能监控、机器人视觉、虚拟现实、军事成像制导等领域的重要应用受到学者的广泛关注[1]。然而,由于在跟踪过程中常出现局部遮挡、变形、快速变化、光照剧烈变化、背景干扰和运动模糊等因素的影响,在跟踪过程中容易出现跟踪异常,导致跟踪目标丢失。因此,设计可靠、鲁棒的目标跟踪算法仍然是一个极具挑战性的问题。
近年来,基于判别相关滤波器(discriminant correlation filter,DCF)的跟踪算法因其在频域中的快速计算和优良的定位性能而获得了学者的极大关注。这类跟踪算法主要通过将待检测图像与滤波器进行卷积运算,将获得的最大响应值的位置定位为下一帧图像中的目标。不同于传统的跟踪器随机提取目标区域和背景信息作为训练样本,DCF通过循环位移操作进行密集采样,并在傅里叶频域中学习相关滤波。因此,基于DCF的跟踪器具有良好的跟踪精度和速度。本文研究DCF类框架下的目标跟踪算法。
2010年,Bolme等[2]首次将相关滤波引用到了目标跟踪领域,提出了基于误差最小平方和滤波(minimum output sum of squared error filter,MOSSE)跟踪算法,其跟踪速度达到每秒600—700帧。为了充分利用图片的特征信息并增加训练样本的数量,Henriques等人[3]提出了高速的基于核相关滤波(kernelized correlation filters,KCF)跟踪算法。该算法通过循环位移操作,实现对图片的密集采样来增加训练样本的数量,其学习滤波器的优化模型如下:
(1)
式(1)中,y表示目标响应图,X表示训练样本,h表示要学习的相关滤波。
为了消除跟踪过程中产生的边界效应,Danelljan等[4]提出了一种基于空间正则化相关滤波(spatially regularized correlation filters,SRDCF)跟踪算法。该算法在多尺度判别滤波(discriminative scale space tracker,DSST[5])跟踪算法的外观模型中,添加了空间正则项,能有效地区分目标区域和背景区域。接着,Li等[6]在SRDCF的基础上引入了时间正则项,提出了一种基于时空正则化相关滤波(spatial temporal regularized correlation filters,STRCF)跟踪算法,其学习滤波器的优化模型如下:
(2)
式(2)中,ht-1表示从第t-1帧图片中学习到的滤波器,第二项是空间正则项,第三项是时间正则项。
2019年,针对搜索区域变大而增加的背景干扰信息,Huang等[7]在外观模型中引入了变异抑制正则项,提出了基于变异抑制相关滤波(aberrance repressed correlation filters,ARCF)跟踪算法,其优化模型如下:
(3)
通过上述文献分析,ARCF跟踪算法只考虑了背景响应图的异常抑制,没有考虑前后帧滤波器的关系;而STRCF跟踪算法考虑了滤波器在空间和时间上的关系,没有考虑目标跟踪过程中出现的异常检测。因此,本文结合ARCF跟踪算法和STRCF跟踪算法的优势,在外观模型中引入时间正则项和变异抑制正则项,并运用交替方向乘子法(alternating direction method of multipliers,ADMM[9])快速迭代求解,提出了基于时间变异抑制相关滤波(temporal and aberrance repressed correlation filter,TARCF)跟踪算法。该算法通过时间正则项,建立相邻两帧滤波器之间的联系,充分捕捉前后帧滤波器的变化,有效地解决因目标遮挡、快速移动等因素引起的滤波器退化问题。同时,通过变异抑制正则项抑制背景响应图的异常信息干扰,从而避免因响应图的突然更改而导致的目标丢失问题。
1 TARCF跟踪算法
首先,在外观模型中引入时间正则项和变异抑制正则项,给出基于时间变异抑制的优化模型训练相应的相关滤波。其次,利用ADMM优化算法快速迭代求解上述模型。最后,利用插值公式更新训练样本。
1.1 外观模型
考虑到目标因为遮挡导致的跟踪精度下降,初始目标附近的循环位移导致的边界效应,以及背景信息中相似目标干扰带来的响应图的异常改变等因素,我们在BACF跟踪算法的基础上,引入时间正则项和变异抑制正则项,提出基于时间变异抑制的优化模型:
(4)
式(4)中,B∈RM×N是刻画背景感知的二进制矩阵,λi(i=1,2,3)是正则化参数,*表示空间域上的卷积运算;第三项是变异抑制正则项,抑制跟踪过程中响应图的异常改变;第四项是时间正则项,建立相邻两帧滤波器之间的联系,有效防止跟踪目标丢失的现象发生。
为了计算方便,我们将式(4)改写成如下矩阵形式:
(5)
其中,IK表示K阶单位阵,⊗表示Kronecker运算,BT表示B的转置,Mt-1=Xt-1(IK⊗BT)ht-1表示t-1帧检测得到的响应图。
1.2 模型求解
接下来,我们利用ADMM优化算法对外观模型进行求解。因为空间域上的卷积运算计算量大,所以我们将优化模型(5)通过傅里叶变换转换到频域中进行计算,其转化后的形式如下:
(6)
注意到式(6)是凸的,因此可以利用ADMM优化算法进行求解。首先我们将式(6)写成如下增广拉格朗日形式:
(7)
其次,利用ADMM优化算法最小化(7)式,得到如下迭代解:
(8)
对于式(8)中的ht子问题的优化求解,我们对右端的目标函数关于h求偏导,并令其偏导数等于零,得到下列公式解:
(9)
式(9)中,ξ和gt-1是由下列傅里叶逆变换得到的:
(10)
(11)
(12)
而每个子问题又可以由以下公式求解:
(13)
然而,上述公式中含有矩阵逆运算,直接运算计算量比较大。因此,我们利用如下Sherman-Morrison公式:
(A+uvT)-1=A-1-
A-1u(Im+vTA-1u)-1vTA-1。
(14)
进一步优化和加速计算,得到
(15)
到此,我们可以利用学习到的相关滤波ht对第t+1帧进行卷积作用,得到相应的预测响应图,再根据响应图峰值确定目标位置。
1.3 模型更新
在进行下一帧训练之前,要更新样本特征。本文用如下插值公式更新样本:
(16)
式(6)中η代表学习率参数。
2 实验分析
为了验证本文所提方法的有效性,本节将在OTB50[10],OTB100[11]和DTB70[12]数据集上进行本文方法与增量视频跟踪器(incremental visual tracker,IVT[13]),基于上下文跟踪器(context tracker,CT[14]),基于分布片段跟踪器(distribution field tracker,DFT[15]),尺度自适应多特征(scale adaptive multi-Features,SAMF[16])跟踪器,KCF[3],SRDCF[4],BACF[8],STRCF[6]和ARCF[7]等9种跟踪器的比较实验。
2.1 实验参数设置
实验中,参数λ1=0.01,λ2=0.71,λ3=0.1,学习率η=0.019 2,参数μ=1,ADMM迭代次数为5。所有实验都是在MatlabR2018b上进行,其电脑配置为Intel®Core(TM) i5-9500 CPU @3.00 GHz。
2.2 综合量化分析
表1给出了我们的方法和其它9种跟踪算法在3个数据库上的跟踪成功率和精确度的比较结果,其中根据跟踪性能的高低,将性能好的跟踪算法排在表格的右侧。
表1 本文跟踪算法与其它9个跟踪算法在3个数据库上的成功率与精确度比较
从表1可以看出,本文提出的跟踪算法在3个数据库上的跟踪性能都高于其它9种跟踪算法。特别地,它比相关的SRDCF、BACF、STRCF和ARCF跟踪算法的性能都高。这是因为本文跟踪算法的外观模型中融合了背景感知、时间正则项和响应图异常抑制正则项,融合了这些跟踪算法的优点,说明本文的跟踪算法的外观模型具有重要的设计意义。
图1展示了表1中10种跟踪算法在OTB50,OTB100和DTB70三个数据库上的成功率图和精确度图。
从图1可以看出,本文所提跟踪算法在3个数据库上都高于其它9种跟踪算法,排名第一。在OTB50数据库上,本文的成功率达到了0.668,精确度达到了0.822;在OTB100数据库上,本文的成功率达到了0.690,精确度达到了0.839;在DTB70数据库上,本文的成功率达到了0.489,精确度达到了0.655。在DTB70数据库上的跟踪性能低于OTB50和OTB100数据库上的原因是DTB70数据库的视频序列较复杂,增加了追踪的难度。
图1 10个跟踪器在3个数据库上的成功率图和精确度图Figure 1 Success rate and accuracy of 10 trackers in three datasets
2.3 属性量化分析
数据库OTB50,OTB100和DTB70中的视频序列通常包含以下11种属性:低分辨率(low resolution,LR)、平面内旋转(in-plane rotation,IPR)、平面外旋转(out-of-plane rotation,OPR)、尺度变化(scale variation,SV)、遮挡(occlusion,OCC)、变形(deformation,DEF)、背景干扰(ackground clutter,BC)、光照变化(Illumination variation,IV)、运动模糊(motion blur,MB)、快速运动(fast motion,FM)和超出视野(out of view,OV)。本小节将展示本文的跟踪算法与ARCF、STRCF和BACF跟踪算法在遮挡及快速运动和背景干扰三个属性方面的跟踪效果图的比较。
图2展示了本文所提TARCF跟踪算法与ARCF、STRCF和BACF跟踪算法在遮挡(OCC)属性方面的跟踪效果图。从图2可知,足球视频序列中出现严重的遮挡情况,目标周围有许多红色纸屑飘下来,遮挡住目标人物的脸,使得目标与背景不容易分清,如第132帧。在跟踪过程中,ARCF和STRCF跟踪算法出现了严重的漂移,见第118帧和132帧中的绿色框和蓝色框,而本文方法和BACF跟踪算法都保持了比较好的跟踪效果。飞鸟视频序列中由于目标周围出现云层遮挡和相似的飞鸟,使得目标与背景不容易分清。在跟踪过程中,只有本文所提方法一直跟踪到目标,其它三种跟踪算法都出现了不同程度的漂移现象,见第185帧。这说明本文方法具有很好的跟踪性能。
图2 本文TARCF追踪器(红色框)、ARCF追踪器(绿色框)、STRCF追踪器(蓝色框)和BACF追踪器(黑色框)在OTB50数据库中的足球序列和飞鸟序列上的跟踪比较Figure 2 Comparison of our TARCF tracker(red box)、ARCF tracker(green box)、STRCF tracker(blue box) and BACF tracker(black box) on the Soccer and Bird1 videos of OTB50 dataset
图3展示了本文所提TARCF跟踪算法与ARCF、STRCF和BACF跟踪算法在快速运动(FM)属性方面的跟踪效果图。从图3可知,MotorRolling视频序列中目标骑着摩托车,因此移动速度非常快,容易引起跟踪器跟不上动作的快速变化,从而产生漂移现象。在跟踪过程中,只有本文所提方法一直跟踪到目标,其它三种跟踪算法都出现了不同程度的漂移现象,见第36帧。BMX4视频中目标骑在自行车上,发生了快速移动。在跟踪过程中,BACF和STRCF跟踪算法出现了一定的漂移,见第64帧和90帧中的蓝色框和黑色框,而本文方法和ARCF跟踪算法仍能快速准确的捕捉目标。
图3 本文TARCF追踪器(红色框)、ARCF追踪器(绿色框)、STRCF追踪器(蓝色框)和BACF追踪器(黑色框)在OTB100数据库中的MotorRolling和BMX4上的跟踪比较Figure 3 Comparison of TARCF tracker(red box)、ARCF tracker(green box)、STRCF tracker(blue box) and BACF tracker(black box) on the MotorRolling and BMX4 videos of OTB100 dataset
图4展示了本文所提TARCF跟踪算法与ARCF、STRCF和BACF跟踪算法在背景干扰(BC)属性方面的跟踪效果图。从图4可知,Gull1视频序列中由于目标海鸥较小,受背景海洋的干扰性较大。而Hourse1视频序列中目标周围出现了许多马一起奔跑,对目标造成干扰,容易降低跟踪精度。在跟踪过程中,其它三种跟踪算法都出现了不同程度的漂移现象,只有本文所提方法的模型中拥有时间正则项和变异抑制正则项,当追踪过程中出现突然变异时,仍能正确跟踪目标。
3 结 论
针对遮挡、循环位移产生的边界效应以及相似目标干扰引起的响应图异常改变的问题,本文结合ARCF跟踪算法和STRCF跟踪算法的优势,在外观模型中引入时间正则项和变异抑制正则项,并运用交替方向乘子法快速迭代求解,提出了基于时间变异抑制相关滤波跟踪算法。该跟踪算法利用目标运动的时间连续性在外观模型中引入时间正则项约束,利用相邻两帧滤波器之间的联系,实现目标被遮挡、快速移动等情形下的跟踪效果;同时,通过在模型中引入响应图背景异常抑制正则项,有效地抑制了因背景中相似目标干扰导致的响应图的异常改变,进而提高了目标跟踪的鲁棒性。标准数据库上的实验表明,本文所提算法在遮挡、快速移动、背景干扰等检测异常情况下,对目标能够进行准确的跟踪。