视频流中目标的长时间跟踪问题研究
2019-02-12李希
李希
摘要:视频流中目标的长时间跟踪问题是计算机视觉领域中极具挑战性的课题。在视频帧中,目标可由其位置及自身特征等信息进行描述。目前大多数跟踪算法利用滑动窗口机制,对每个窗口进行简单的特征提取,以实现目标的检测与跟踪。出于降低算法计算复杂度的考虑,很多跟踪算法均使用弱特征描述目标,因而导致无法解决目标旋转、尺度变换和光照变化等问题。在最近出现的目标检测与识别算法中,颜色特征已展示出其优异的性能,它们能很好地解决光照变化等问题。但是在滑动窗口机制下,窗口数量非常大,导致基于颜色特征的计算复杂度过高,直接影响跟踪算法的实时性能。本论文基于TLD算法的框架体系,提出利用BIN-NST算法对窗口进行筛选,大幅度减少候选窗口数量,在此基础上能够高效地利用颜色特征对目标进行检测与跟踪,解决了在光线骤变的情况下出现的跟踪失败的问题。
关键词:视频流;跟踪;TLD算法
1. 引言
视频中目标物体的长时间跟踪是计算机视觉领域一个非常具有挑战的问题。视频跟踪在许多应用中,特别是人机交互,视频监控,以及机器人中都扮演了重要的角色。但是由于光照变化,局部遮挡,杂乱的背景,形状变化等因素,使跟踪问题更加复杂化。
近期出现的视频跟踪算法,主要分为三类:基于特征、基于外表模型和基于结构信息。基于特征的跟踪算法中,所使用的特征包括多种不同的图象属性特征,如像素值[1]、颜色信息[2,3,4,5]、纹理描述[6,7]等。外表模型主要有颜色分布特征[3,4]、子空间描述[1,8]、支持向量机(SVM)[9]、Boosting[6,7,10]、特征稀疏描述[11,12,13]等。逐漸地越来越多的跟踪算法开始使用目标结构信息[2,14,15,16,17,18]。融入目标结构信息的跟踪算法对目标变形、遮挡有较强的鲁棒性。
基于特征的跟踪算法中,大部分使用方型模板提取特征信息描述目标。Lim等[1]提出使用增量子空间模型描述目标的方法,在很大程度上增强了算法对光照变化的鲁棒性。为了增强算法的鲁棒性,Kwon等[19]将跟踪器分解成为几个更小的跟踪器。Wen等[8]在跟踪算法中融入时空上下文特征信息,Mahadevan等[20]利用图象显著特征信息以改进跟踪算法。这些跟踪算法都没有考虑目标的变形、遮挡问题。
后来涌现出一些能够较好地解决遮挡问题的跟踪算法。Adam等[2]将目标分割成水平和垂直方向的子块,这种处理方法对部分遮挡具有较强的鲁棒性。文献[11,12,13]采用稀疏描述方法从外表特征中重建目标信息,也较好地解决了遮挡问题。Babenko 等[22]采用多实例学习策略来减少遮挡对跟踪的影响。Grabner等[23]利用上下文信息解决全遮挡问题,取得了较好的实验结果。然而,这些算法却忽视了目标的变形问题。
为了真正有效地解决目标变形、遮挡问题,近期出现了一些综合性的跟踪算法,如在外表模型中融入时空特征信息、上下文先验信息等,以期达到更鲁棒有效的跟踪性能。基于分段的跟踪器[29]使用多个局部块直方图描述目标,融合了目标的内部结构信息,能很好的处理部分遮挡。然而,它的模板并不随着视频序列的变化而进行修正,因而难于跟踪有外表变形的目标。另外一种处理方式是在跟踪过程中融入目标检测模块[30,31,32]。利用检测模块实时地更新外表模型,这种算法在目标脱离跟踪范围后,仍能重新捕获到目标。但这些基于检测的跟踪器容易被具有相似外表的目标所误导。对于在无约束环境下的长时间跟踪任务,需要融入一些空间先验信息以增强算法的鲁棒性。Yang等设计了一种上下文敏感的跟踪器[33](Context-Aware Tracker:CAT)解决了目标漂移问题,上下文先验信息是一些容易跟踪且与目标运动一致的辅助性目标。
基于特征类的算法没有较好的解决目标变形及局部遮挡的问题;而基于外表模型的算法却没有较好的解决光照变化和局部遮挡问题。基于结构信息的算法没有较好的解决相似目标的影响,以及光照变化的问题。
本文设计使用跟踪与检测相结合的体系结构,实现了一个长时间跟踪算法。首先设计改进的BING算法(BIN-NST算法),使得在检测器中最初的目标候选窗口数量锐减至2000个左右,并且完全不影响目标检测性能。然后在此基础上,在算法中采用lsh的强特征信息来描述候选窗口内的目标特征,较好地解决光照变化的问题。
Our contributions are as follows:
1 我们对bing算法进行了改进,原始的bing算法采用梯度作为特征
2 在跟踪算法中融入强特征,有效的解决了光照不变形和旋转不变性的问题
3 通过改进的bing与tld融合,在使用强特征的前提下仍然保证了跟踪算法的实时性
2. 相关工作
2.1 跟踪—学习—检测算法(TLD)
TLD算法[38]主要讨论研究视频流中的目标物体的长时间跟踪问题。在一幅单独的图像帧中,目标物体是由其位置和自身特征所表征的。在连续的视频帧中,TLD算法能够定位或者重新出目标的位置。TLD由三个部分组成:跟踪,学习和检测。跟踪器在视频流中跟踪目标。检测器使用滑动窗口机制找出目标,其结果可修正跟踪器,并在跟踪器失效的情况下使得该算法能继续找到目标。学习器通过PN约束把检测器错误分类的正负样本找出来,重新训练并对检测器的所用到特征进行更新,保证收敛于目标。TLD算法中开创了一种全新的学习方法(P-N学习,Positive和Negative),这种方法通过一对约束来估计出错误。P约束就是找到被错误分类的正样本,N约束找到被错误分类的负样本。整个学习过程可以被看作是一个独立的离散的动态过程模型,并且在该过程模型下发现学习器的效果得到了有效地提升。
参考文献
[1]J. Lim,D. A. Ross,R.-S. Lin,and M.-H. Yang,“Incremental learning for visual tracking,” in Advances in Neural Information Processing Systems 17. Cambridge,MA,USA:MIT Press,2004.
[2]A. Adam,E. Rivlin,and I. Shimshoni,“Robust fragments-based tracking using the integral histogram,” in Proc. IEEE Comput. Soc. Conf. CVPR,vol. 1. Jun. 2006,pp. 798–805.
[3]D. Comaniciu,V. Ramesh,and P. Meer,“Real-time tracking of non-rigid objects using mean shift,” in Proc. IEEE CVPR,vol. 2. Jun. 2000,pp. 142–149.