APP下载

空间可靠性和相关滤波器联合学习的跟踪算法

2021-11-12马时平张立朝何林远仇祝令韩永赛

西安电子科技大学学报 2021年5期
关键词:滤波器可靠性矩阵

张 飞,马时平,张立朝,何林远,仇祝令,韩永赛

(1.空军工程大学 航空工程学院,陕西 西安 710038;2.空军工程大学 研究生院,陕西 西安 710038)

视觉跟踪的任务为在给定视频首帧中目标位置的情况下,预测后续帧中目标位置以及尺度的变化。视觉跟踪领域中,判别式相关滤波器[1-2]由于其在速度上的优势吸引了各领域(机器人、自动驾驶等)的广泛关注,得到了迅速发展。而随着跟踪算法应用场景复杂度的上升,对跟踪算法性能需求进一步提升,对相关滤波的研究带来了极大的挑战。

HENRIQUES等人[3]提出的KCF算法中,循环矩阵和快速傅里叶变换的运用使算法的实时性冲激式上升,打开了相关滤波快速发展的通道。但循环移位的假设不可避免地带来了边界效应,限制了相关滤波跟踪器的性能。为解决该问题,DANELLJAN等人[4]提出了SRDCF算法,在标准DCF中引入逆高斯形状的空间正则权重,促使滤波器的学习更加关注目标,有效缓解了边界效应。GALOOGAHIL等人[5]提出的BACF算法中,由于二值掩膜矩阵的引入,提升了真实负样本的比例,增强了对背景信息的学习,同时也有效抑制了目标框以外背景信息的干扰;但该方法仍存在以下缺陷:二值矩阵的使用暗含一种假设,即目标框内的所有位置上的信息对滤波器的学习贡献相同(如图1上方虚线框所示),缺乏对不同位置信息(空间)可靠性的描述,可能会导致背景信息主导滤波器的学习,造成滤波器性能衰退。同时,目前的大部分相关滤波算法[5-8]在跟踪过程中,均使用固定的学习率线性加权得到目标模型,不能感知目标外观的变化情况,导致了学习到的目标模型次优化,滤波器无法适应目标的变化。

为解决以上问题,笔者提出了一种空间可靠性和滤波器联合学习的相关滤波跟踪算法(Joint Spatial Reliability and Discriminative Correlation Filter learning for visual tracking,JSRDCF)。该算法将对空间可靠性的描述融入二值矩阵,使得空间可靠性和滤波器的学习统一起来,可同时对空间可靠性和判别式相关滤波器优化学习(如图1下方虚线框所示)。空间可靠性描述了不同位置信息的重要程度,增强了滤波器对于训练样本的优化利用,从而提升了滤波器鲁棒跟踪的能力。同时,为得到更优化的目标模型,基于感知哈希算法(Perceptual Hashing Algorithm,PHA)[9]改进得到一种自适应目标模型更新方式。该方法可感知目标外观的变化情况,自适应调整学习率,优化目标模型的学习。值得注意的是,该方法可融入现有大部分基于标准模型更新的相关滤波算法中。为深入评价JSRDCF的性能,在标准视觉跟踪数据集OTB2013[10]、OTB2015[11]以及无人机视频数据集UAV123[12]上进行了大量实验,验证了该算法的先进性和鲁棒性。主要贡献如下:

(1)提出了学习空间可靠性,并将空间可靠性的学习与滤波器的求解统一于目标函数中,利用交替方向法和交替方向乘子法(ADMM)[13]算法对两者优化求解;

(2)提出了一种基于感知哈希算法的自适应模型学习方法,可根据目标外观的变化情况,自适应地最优化目标模型;

(3)在数据集OTB2013、OTB2015和UAV123上对所提算法进行了全面评估,验证其有效性。

1 问题分析

1.1 基于背景感知的相关滤波跟踪算法

首先回顾基准算法(Background-Aware Correlation Filter,BACF)。优化后的滤波器w通过最小化下面的目标函数得到,

(1)

其中,xd∈N(d=1,2,…,D)表示输入图像的特征,N是特征向量化后的长度,D是通道数,B∈M×N(M<

通过扩大搜索区域和在标准DCF中引入二值矩阵B,BACF不仅有效抑制了目标框外背景区域的影响,同时得到了更多真实负样本(而不是通过正样本循环移位得到的负样本),增强了滤波器对目标与背景区域的判别能力。虽然上述方法取得了有效的性能提升,但是其存在以下缺点:如图1所述,固定取值的二值矩阵未考虑空间上的可靠性,使得目标框中所有区域对滤波器的学习贡献相同。一般情况下,目标并不是规则形状的,因此目标框中难免会有背景的引入,过多的背景学习使得滤波器的判别力下降,造成跟踪漂移甚至失败。

图1 联合学习示意图

1.2 标准的模型更新方式

大部分相关滤波算法采用标准的模型更新:

(2)

(1)对于所有视频序列使用了恒定的学习率。不同的视频序列受不同影响因素的影响,如光照变化等,对于学习率的要求是不同的。即使对于同一视频序列,学习率在不同时刻应根据目标外观的动态变化自适应更新,以达到最好的学习效果。

(2)逐帧更新模型可能导致跟踪漂移。在遮挡等样本被污染的情况下,使用被污染的样本更新会导致训练得到的跟踪器判别能力下降,从而出现模型漂移甚至跟踪失败。

(3)使用标准的模型更新策略的相关滤波器无法得到当前模型的最优解,造成训练所得滤波器判别力的次优化。

2 可靠性和滤波器联合学习算法

为上述问题,2.1节提出了一种空间可靠性和相关滤波器联合学习的跟踪方法,该算法可以同时优化滤波器和空间可靠性,2.2节提出了一种自适应的模型更新方法。

2.1 空间可靠性和相关滤波器联合学习方法

BACF中所裁剪区域的信息对滤波器的学习贡献相同,可能会造成对背景信息的过度学习。不同于上述方法,文中的方法引入了空间可靠性权重αi,i∈{1,2,…,N},表示空间不同位置信息的可靠性。故有

(3)

其中,Rd表示空间可靠性矩阵(不同通道的Rd相同),Pi∈M×N是用于裁剪空间中不同位置特征信息的二值矩阵,如图2所示(深色为1,浅色为0)。

图2 空间可靠性矩阵计算示意图

将提出的空间可靠性向量引入目标函数(1)中,得到所提出方法的目标函数。该方法可同时优化滤波器和空间可靠性。故有

(4)

其中,上标T表示转置。

这里,通过最小化目标函数交替迭代求解滤波器和空间可靠性向量α=[α1,α2,…,αN]T。式(4)是一个非凸优化的问题,但是在给定α或w的情况下,上述问题便转换成一个凸优化的问题。因此,可利用交替方向法来交替优化求解两个未知量。

2.1.1 优化w

给定空间可靠性向量α=α(j-1)(α(0)为裁剪矩阵B向量化后的值),w的求解转换为一个凸优化的求解问题,如式(4)所示。该问题可通过ADMM迭代求解。有

(5)

将上式转换至频域,得到:

(6)

为求解上式,使用增广拉格朗日法(ALM)[13]得到式(5)的ALM方程:

(7)

ADMM算法可将上述问题拆分为以下3个子问题迭代求解:

(8)

(1)求解子问题w*

(9)

(10)

(11)

(12)

(3)更新拉格朗日参数μ

参数更新设置为

μ(i+1)=min(μmax,βμ(i)) ,

(13)

其中,μmax是μ的最大值,β是尺度因子。

2.1.2 优化α

如果给定滤波器w,由于式(3)中的正则项不包含α,空间可靠性向量α可通过求解如下的目标函数得到:

(14)

上式转化后可写为

(15)

其中,(Xd)T=[x1T,x2T,…,xNT]T∈N×N,表示第d维通道样本产生的循环矩阵。

将上式展开,可得

(16)

式(16)是典型的凸二次规划问题,可以通过标准二次规划工具(Matlab工具箱)有效解决。

2.2 自适应模型更新

不同于标准的模型更新,笔者提出了一种基于感知哈希算法的自适应模型更新(Adaptive Model Update,AMU)方法。该方法可通过比较上一帧与当前帧目标区域的差异性来感知目标外观的变化情况,从而达到自适应调整学习率,改变模型更新速度的效果(如图7所示)。

图7 自适应模型学习模块在Tiger1序列上对比结果图

感知哈希算法中,图像首先会被转换成灰度图,接着利用DCT将其转换至频域。灰度图像中具有高能量密度的低频区域被保留,定义为A∈W×W。A中的每一个元素Aij(i,j∈W)与A中所有元素的平均值相比较,即可得到图像哈希矩阵H中对应的每一个元素hij(i,j∈W),

(17)

当前帧和上一帧目标的差异得分可由当前帧和上一帧目标区域图像对应的哈希矩阵Hc和Hl得到:

(18)

(19)

相比于固定学习率的更新方式,该方法可感知目标外观的变化,自适应调整跟踪过程中的学习率以得到更加优化的目标模型,从而增强滤波器判别能力。

3 实 验

使用数据集OTB2013、OTB2015以及UAV123评估所提出算法,并将结果与目前最先进的跟踪方法进行了定量和定性的对比;随后验证了所提算法各模块的有效性,同时就AMU模块进行了定性分析。

3.1 实验细节和实验设置

所有实验均在MATLAB 2019b上进行,实验平台为Intel i7-9750H CPU(2.60 GHz)和32 GB内存,操作系统为Windows 10。所提算法的参数设置如表1所示(η是初始化学习率)。其中,η和γ取值与BACF保持一致,βmin和βmax、τ1和τ2通过实验调参得到。

表1 实验参数设置表

为了不失公平性,将使用不同特征的JSRDCF,即JSRDCF_H(只使用了Hog[15]特征)和JSRDCF_HC(同时使用了Hog和CN[16]特征),在数据集OTB2013、OTB2015和UAV123上与最先进的跟踪算法进行全面评估比较。这些算法包括:(1)基于Hog特征的跟踪算法:KCF,SRDCF,BACF;(2)基于Hog和CN特征的算法:STRCF[17],ECO_HC[18],CSR-DCF[19],Staple[20];(3)基于深度网络的跟踪算法:SiamFC[21],SiamRPN[22];(4)具有旋转特性的跟踪算法:LDES[23];(5)基于检测的跟踪算法:MEEM[24]。

算法性能比较使用一次性通过评估(One Pass Evaluation,OPE)的策略,以成功率曲线下面积(Area Under Curve,AUC)和精确率(Distance Precision,DP)曲线作为评价指标。成功率定义如下:将跟踪框与标记框的交并比大于固定阈值的视频帧认为是成功的,则成功帧与视频总帧数的比值称为成功率。当阈值取值为0到1之间时,可得到一条曲线,该曲线称为成功率曲线。而精确率定义为:将跟踪结果中跟踪框的中心位置与标记框小于某一阈值的帧数与总帧数的比值称为精确率。当阈值变化时,即可得到精确率曲线(一般输出阈值为20的结果)。

3.2 定量分析

(1)OTB数据集

图3给出了文中所使用不同手工特征的JSRDCF在OTB2013和OTB2015数据集上与其他先进跟踪算法的性能比较图。无论是在AUC和DP上,JSRDCF_HC在OTB2013和OTB2015上均取得了第一名的好成绩,AUC分别得到68.1%和65.6%,DP分别得到89.3%和87.0%的分数;并且在速度上可以达到28 FPS,满足了实时性的需求。只使用Hog特征的JSRDCF_H也能在两个数据集上的AUC和DP均排名第3和第5,在OTB2013上相比于基准算法BACF分别提升了4.2%和5.9%,在OTB2015分别提升了3.6%和4.9%。以上结果的取得说明了空间可靠性与滤波器的共同优化学习提升了滤波器的判别能力,同时自适应的模型更新策略也有益于适应目标外观的变化,以学到更优的目标模型,进一步提升跟踪的准确性。

图3 所提算法在OTB2013和OTB2015上精确率和成功率曲线图

(2)UAV数据集

UAV123数据集共有123个视频序列,总帧数超过11万帧。同时,该数据集最长的视频序列达 3 085 帧,平均帧数为915帧,远超OTB数据集。相比于OTB数据集,由于无人机拍摄的缘故,跟踪目标具有像素值低、移动速度快等特点,对于跟踪算法的性能提出了更高的要求;图4为所提算法与其他算法的性能比较图。JSRDCF_HC在AUC与DP上均排名第2,JSRDCF_H在AUC与DP上分别排名第4和第5。相比于BACF,JSRDCF_H分别提升了1.6%和0.6%,JSRDCF_HC分别提升了3.3%和4.2%。结果表明所提算法在性能提升上的有效性,同时也表明了该算法具有较好的泛化性能。此外,由于该数据集视频序列大部分均在1 000帧以上,在一定程度上也能说明算法具备一定长时跟踪的能力。

图4 所提算法在UAV123上精确率和成功率曲线图

3.3 定性分析

图5给出了文中算法JSRDCF与其基准算法BACF的定性比较图。由于实际跟踪应用场景的复杂性,因此从OTB2015数据集中选取了3个不同复杂场景下的视频序列Matrix,Blurow 1和Girl 2进行分析。

从图5可以看出,Matrix视频中存在大量光照变化、背景杂波等因素的影响。随着背景杂波的影响,BACF算法开始出现跟踪漂移,最终跟踪失败。而JSRDCF由于对空间可靠性的学习,能够实现更为鲁棒的跟踪。Blurowl视频在跟踪过程中由于出现了快速运动,导致目标的模糊;如155帧,在这种前光下本文算法依然可以检测到目标。Girl 2视频中目标在91至109帧之间发生了遮挡,JSRDCF在目标被完全遮挡重新出现后,仍然跟踪到了目标,可能的原因在于自适应模型更新的作用。以上分析表明空间可靠性的学习有效提升了跟踪器鲁棒跟踪的能力,自适应模型更新提升了滤波器的学习效率。

图5 不同算法在典型视频序列跟踪结果图

3.4 消融对比

为验证文中所提出的空间可靠性学习和自适应模型更新的有效性,将使用JSRDCF_H(Baseline)在OTB2015上进行消融分析。将去掉自适应模型更新的跟踪方法用Baseline + SRL表示,将去掉空间可靠性学习的跟踪方法用Baseline + AMU表示,JSRDCF_H用Baseline + SRL+ AMU表示,实验结果如图4所示。从图中可以看出,相比于Baseline,Baseline + SRL在精确率和成功率上分别提升了2.7%和1.8%,Baseline + AMU在精确率和成功率上分别提升了0.5%和0.9%;而通过引入空间可靠性学习和自适应模型更新的JSRDCF_H最终在精确率和成功率上分别提升了3.0%和2.6%。这表明了空间可靠性学习和自适应模型更新的有效性。

3.5 自适应模型更新分析

本小节旨在通过实例说明AMU对跟踪效果提升的作用。因此,将基准算法(Baseline)与加上AMU方法的基准算法(Baseline + AMU)进行对比。如图6所示,Tiger1视频中存在大量遮挡、光照变化的场景,选取其中的典型场景进行分析:Tiger1中目标从101帧开始出现遮挡,AMU方法可以感知到目标的突变,模型停止更新;而从284帧开始,光照变化影响到了目标,AMU依然可以感受到目标的变化,学习率归零;尽管从跟踪的早期结果来看,AMU似乎未起到优化模型、提升滤波器判别能力的作用,但在第346帧,目标出现了部分遮挡(近乎完全遮挡),Baseline + AMU方法依然可以准确定位目标。这表明AMU对目标模型优化起到了很好的作用,增强了滤波器在复杂场景下的鲁棒性。但是AMU只能应对一些突变的时刻,并不能完全感知遮挡、光照变换、快速运动等干扰场景,从而停止对模型的更新。

图6 所提算法各组件在OTB2015上性能对比结果图

4 结束语

以现有算法缺乏对不同空间位置信息可靠性的学习为出发点,将对空间可靠性的学习与相关滤波器的学习统一于目标函数中,使得两个问题转换为一个统一的问题。通过使用交替方向法,达到了对空间可靠性和滤波器联合优化学习的目的,增强了滤波器对空间不同位置信息的感知力。此外,针对标准模型更新存在的问题,基于感知哈希算法,提出了一种自适应学习的模型更新方式。OTB2013、OTB2015和UAV123数据集上的结果表明了所提出的算法的先进性、鲁棒性和泛化性,同时也说明了空间可靠性学习和自适应模型更新对于滤波器鲁棒性提升的有效性。

下一步工作中,将着眼于如何使模型更新的学习率满足不同视频序列的要求。

猜你喜欢

滤波器可靠性矩阵
浅谈有源滤波器分析及仿真
基于AK-IS法的航空齿轮泵滑动轴承可靠性分析
基于多模谐振器的超宽带滤波器设计
某重卡线束磨损失效分析与可靠性提升
讨论如何提高建筑电气设计的可靠性和经济性
医疗器械可靠性研究现状与发展趋势
从滤波器理解卷积
多项式理论在矩阵求逆中的应用
矩阵
矩阵