基于在线鲁棒判别式字典学习的视觉跟踪
2018-09-17方云录
方云录
摘 要: 基于稀疏表示与字典学习的视觉跟踪较好地解决了目标遮挡和表观变化问题,但是其存在模型漂移和复杂背景下鲁棒性差的问题。针对这两个问题,本文利用L1损失函数和最小化背景样本在目标模板上的投影提出一种在线鲁棒判别式字典学习模型,并用块坐标下降设计了该模型的在线学习算法用于L1跟踪模板更新。以粒子滤波为框架,利用提出的字典学习实现了视觉跟踪方法。实验结果表明:本文跟踪方法比现有跟踪方法具有更强的鲁棒性和较高的跟踪精度。
关键词: L1跟踪; 字典学习; 模板更新; 粒子滤波
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2018)07-20-04
Abstract: Sparse representation and dictionary learning based visual tracking have well solved occlusions and appearance changes. However, they are faced with problems of model drifting and low robustness in clutter background. To deal with these two problems, an online robust discriminative dictionary learning model is proposed, and an online robust discriminative dictionary learning algorithm for template update of L1 tracker is designed via block coordinate descent. A visual tracking method is established using the proposed dictionary learning algorithm in particle filter framework. The experimental results on several challenging sequences show that the proposed method has better robustness and accuracy than those of the state-of-the-art trackers.
Key words: L1 tracking; dictionary learning; template update; particle filter
0 引言
视觉跟踪是计算机视觉领域的一个重要研究内容,其目的是利用序列图像估算目标的状态参数。视觉跟踪在视频监控和人机交互等方面具有广阔的应用前景。目前,虽然研究者已经提出一些视觉跟踪方法,但是现有跟踪方法仍然面临复杂背景、目标变化和目标遮挡等难题[1]。
2009年,Mei和Ling[2]首次提出基于稀疏表示的视觉跟踪方法,又称“L1跟踪”。L1跟踪用目标模板和小模板的组合表示候选目标,以重构误差作为观测似然跟踪目标。L1跟踪对目标遮挡具有较强的鲁棒性,但是L1跟踪对目标模板的要求较高,当模板中引入离群数据时,会导致跟踪失败。为了保证目标模板的正确性,文献[3-4]提出用小模板系数检测目标遮挡,并根据检测结果更新目标模板。文献[5]利用小模板系数重建跟踪结果,并利用增量主分量分析更新目标模板。文献[3-5]中模板更新方法的问题在于,由于小模板也能表示背景[5],這会导致遮挡检测失败或者重建图像不准确。随着对L1跟踪研究的深入,研究者逐渐认识到模板字典在视觉跟踪中的重要作用。为了提升L1跟踪对复杂背景下目标跟踪鲁棒性,文献[6]提出用多个特征视图建立目标模板字典。文献[7]提出建立多寿命模板字典跟踪目标,并将目标模板更新等价为在线字典学习问题,从而保证了对目标表观变化的适应性。文献[8]利用非负灰度字典设计目标模板,并提出在线鲁棒的非负字典学习算法用于模板更新,进一步提升了L1跟踪的性能。
综上所述,目标模板的设计与更新对L1跟踪至关重要。现有L1跟踪模板更新方法的问题在于模型漂移和复杂背景下目标跟踪的鲁棒性差两个方面。针对这两个问题,本文首先提出一种在线鲁棒判别式字典学习模型。一方面,该模型以L1范数作为目标模板的损失函数,有效抑制了模型漂移;另一方面,该模型通过最小化背景样本在目标模板上的投影,增强了目标模板的判别力,提高了复杂背景下目标跟踪的鲁棒性。其次,利用块坐标下降设计了该模型的在线学习算法。在粒子滤波框架下,利用提出的字典学习实现了目标跟踪方法。实验结果表明,本文提出的模板更新方法,用于视觉跟踪,达到了提高鲁棒性与跟踪精度的预期效果。
1 在线鲁棒判别式字典学习模型
视觉跟踪中的图像观测是时变数据,所以从字典学习的角度看,模板更新是在线的字典学习问题[7-8]。目前,一般在“损失函+正则化项”框架下对字典学习问题进行研究[9]。字典学习模型也就是如何设计损失函和正则化项。假设是正例样本,是负例样本,其中和是零均值和单位方差向量。,则本文提出的在线鲁棒判别式字典学习模型如下:
在线字典学习模型式⑴能够克服模型漂移,同时对目标样本与背景样本又具有较强的判别力。式⑴中为目标样本在模板字典D上的重建误差,又称为损失函数。字典学习中常用的损失函数有L1范数和L2范数。由于离群数据的重建误差满足拉普拉斯分布,所以与L2损失函数相比,L1损失函数具有对离群数据鲁棒的优点。因此,模型式⑴用L1范数作为损失函数能够降低遮挡信息等离群数据对目标模板的影响,从而克服模型漂移。模型式⑴不但考虑了模板字典对目标样本的重建能力,还兼顾了模板字典对背景样本的辨别能力,这通过最小化背景样本在模板字典D上的投影得到。
2 在线鲁棒判别式字典学习算法
求解式⑴的在线鲁棒判别式字典学习算法包括数据采样、编码系数求解和在线字典更新三步骤。
2.1 数据采样
根据至t时刻的跟踪结果,采样n+个图像块作为正例样本;在以t时刻跟踪结果目标中心c为圆心的环形区域内随机采样n-个图像块作为负例样本。
2.2 编码系数求解
假设t-n+时刻的目标模板字典为。采用迭代加权最小二乘法[10](Iterative Reweighted Least Squares,IRLS)求解(i=1,…,n+)。采用岭回归求解(i=1,…,n-)。
2.3 在线字典更新
在线字典更新的目标是已知编码系数和求解字典Dr。假设在t时刻进行第T次模板更新,则在线字典更新也就是求解优化问题式⑵
其中,是样本个数。由文献[10]可知,采用块坐标共轭梯度下降算法逐行求解式⑶,可得到字典Dt。
其中,δ是一个正数(本文取δ=0.0001)。由文献[10]可知,若定义Bj和Cj分别为式⑹和式⑺,则求解线性系统式⑻可以得到D(j,:)。式⑻是一个可微凸问题,其全局最优解可通过对目标函数求导使其等于零得到。
通过上述分析,可以得到求解模型式⑴的在线鲁棒判别式字典学习算法,如“算法1”所示。
3 目标跟踪
以粒子滤波为框架跟踪目标,在目标跟踪过程中利用提出的在线鲁棒判别式字典学习算法更新目标模板,如图1所示。
基于粒子滤波的跟踪方法是将目标跟踪问题转换为贝叶斯理论框架下已知目标状态的先验概率,在获得新的观测量后求解目标状态的最大后验概率的过程:
其中,为状态转移模型。本文使用仿射变换对连续两帧图像之间的目标运动建模,建立状态转移模型。对于观测似然,首先利用式⑼对候选目标进行稀疏编码,然后用式⑽求解观测似然值。
4 实验结果与分析
为了验证字典学习算法的有效性,利用Matlab R2010a实现并验证了文中提出的跟踪方法。实验中,跟踪方法的参数设置如下:采样粒子数为600,负例样本数为200,模板大小为32×32,每5帧更新一次模板,字典原子数为16,参数。实验使Faceocc1、Singer1、Car4、CarDark[12]4组序列对本方法进行了定性和定量分析,并与IVT[11]、L1APG[4]和MTT[13]4种跟踪方法进行了对比。
4.1 定性分析
图2给出了对IVT、L1APG、MTT及本文跟踪方法的定性比较。图2(a)給出对遮挡目标的跟踪结果,可以看出,本文方法结果最优。图2(b)、(c)给出了存在光照和姿态变化时的跟踪结果,可以看出,本文方法优于其他方法。图2(d)中跟踪目标的背景比较复杂,可以看出,本文方法的跟踪结果较优。
4.2 定量分析
实验采用成功率[12]指标进行定量分析,实验中重叠阈值设定为0到1。图3给出了4种跟踪方法对4组图像序列的成功率曲线。由图3可知,在成功率方面,本文方法都优于其他4种方法。
5 结论
针对现有L1跟踪的不足,本文提出一种在线鲁棒判别式字典学习模型用于L1跟踪模板更新。该模型提高了模板更新的鲁棒性和跟踪精度。以粒子滤波为框架实现了基于在线鲁棒判别式字典学习的视觉跟踪方法。采用具有挑战性的图像序列对提出的跟踪方法进行了实验验证,实验结果表明,本文的跟踪方法优于其他现有跟踪方法。
参考文献(References):
[1] 张焕龙,胡士强,杨国胜.基于外观模型学习的视频目标跟踪方法综述[J].计算机研究与发展,2015.51(1):177-190
[2] Xue Mei, Haibin Ling. Robust visual tracking using L1minimization[C]. Proceedings of IEEE Conference on Computer Vision. Kyoto: IEEE Computer Society Press,2009:1436-1443
[3] Mei X, Ling H B, Wu Y, et al. Minimum error boundedefficient L1 tracker with occlusion detection[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Colorado: IEEE Computer Society Press,2011:1257-1264
[4] Chenglong Bao, Yi Wu, Haibin Ling, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Rhode Island: IEEE Computer Society Press,2012:1830-1837
[5] Dong Wang, Huchuan Lu, Ming-Hsuan Yang. Least soft-thresold squares tracking[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Computer Society Press,2013:2371-2378
[6] Zhibin Hong, Xue Mei, Danil Prokhorov, et al. Tracking via robust multi-task multi-view joint sparse representation[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Computer Society Press,2013:649-656
[7] J. Xing, J. Gao, B. Li, W. Hu, S. Yan. Robust objecttracking with online multi-lifespan dictionary learning[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Computer Society Press,2013:665-672
[8] N. Wang, J. Wang, D. Yeung. Online robust non-negative dictionary learning for visual tracking[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Computer Society Press,2013:657-664
[9] Mairal J, Bach F, Ponce J, et al. Online learning for matrix factorization and sparse coding [J]. Journal of Machine Learning Research,2010(11):19-60
[10] Lu Ce-wu, Shi Jian-ping, Jia Jia-ya. Online robust dictionary learning[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Portland,2013:415-422
[11] Ross D, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision,2008.77(1-3):125-141
[12] Yi Wu, Jongwoo Lim, Ming-Hsuan Yang. Online object tracking: a benchmark[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Computer Society Press,2013:2411-2418
[13] Tianzhu Zhang , Bernard Ghanem, Si Liu , et al. Robust visual tracking via multi-task sparse learning[J]. International Journal of Computer Vision,2013.101(2):367-383