基于稀疏表示的目标追踪方法
2018-01-18李俊瑶
李俊瑶
【摘 要】目标追踪作为图像理解重要的一部分,在公安工作中有着广泛的应用。但是对于一些复杂场景,车辆、行人众多、背景多样,传统的目标追踪算法难以达到理想效果。本文概述了稀疏表示基本概念和稀疏编码的方法,对稀疏表示方法在目标追踪领域中重要研究进展进行总结归纳,并展望了稀疏表示方法在目标追踪领域的发展方向。
【关键词】目标识别;目标追踪;稀疏表示;稀疏编码
中图分类号: TP391.41 文献标识码: A 文章编号: 2095-2457(2017)29-0030-002
【Abstract】Target tracking, as an important part of image understanding, has a wide range of applications in public security work. However, for some complex scenes, vehicles, pedestrians, diverse backgrounds, the traditional target tracking algorithm is difficult to achieve the desired results. This paper summarizes the basic concepts of sparse representation and sparse coding methods, summarizes the important research progress of sparse representation methods in the field of object tracking and prospects the development direction of sparse representation methods in the field of object tracking.
【Key words】Target recognition; Target tracking; Sparse representation; Sparse coding
0 引言
隨着信息化、大数据的不断深入应用,对可疑人员、车辆等展开目标追踪已经成为侦查工作的一大重要组成部分。传统的图侦工作主要依靠人工识别实现追踪,耗费大量人力和时间,效率较低。
典型的目标追踪系统主要包括三个部分:(1)目标外观模型——计算目标在特定位置上的相似度;(2)目标运动模型——预估被追踪目标在整个视频序列中的运动状态;(3)追踪搜索策略——搜索当前视频帧中最相似目标的位置。其中目标外观模型作为目标追踪的基础和关键,其表现力和健壮程度对目标追踪的准确性和稳定性有着决定性的作用。
图像的稀疏表示与人类视觉系统的描述方式很类似[1],即捕捉图像的结构特征,可以实现图像的有效表示。而在实际应用中,由于成像机理的不同,目标表现出不同的特征,需要将稀疏表示与具体的应用领域相结合,弥补传统目标检验算法的缺点。本文简要介绍了稀疏表示的概念,对其在目标追踪中的应用进行总结梳理,并展望其在公安工作中的发展方向。
1 稀疏表示
1.1 稀疏表示的基本概念
人类视觉系统的神经元细胞在接收自然图像时,神经元会提取图像的结构特征,即采用稀疏编码原则[2]。目前,图像的稀疏表示研究主要包括两大方面: 单基表示和多基表示。
1.1.1 单基表示
图像的单基稀疏表示基于多尺度分析方法,该理论认为图像具有非平稳和非高斯的特性,无法用线性算法进行准确处理,应对图像的几何结构(包括边缘、纹理等)进行建模,主要包括:脊波和曲波等。该方法产生的图像模型结构较为简单,对于大场景或复杂目标无法精确的进行描述,因此,各位学者提出了稀疏的多基表示。
1.1.2 多基表示
图像的多基稀疏表示基于Mallat和Zhang于1993年提出的过完备字典理论[3],通过学习获取信号完备的字典集,将信号样本表示成基向量与稀疏权向量的线性组合,利用信号本身的特点自适应地选择可以对信号进行稀疏表示的冗余基。稀疏表示的基础是稀疏编码,即利用过完备基向量中的少数基向量对样本数据进行线性表示:
1.2 稀疏编码
稀疏编码是在给定如图1所示,信号x∈Rn和字典D下计算稀疏权矩阵α的过程,针对稀疏编码和字典学习,常用的稀疏编码算法有OMP算法、特征符号搜索算法[6]等;而相关的字典学习方法有KSVD算法[7]、在线字典学习算法(SPAMS)[8]等,分为贪婪法和松弛法。
1.2.1 贪婪法
贪婪法针对公式1进行求解,通过迭代,利用字典中的原子,对信号和字典进行内积计算选择最匹配的,作用对信号(图像)的表示。其中匹配追踪在计算方面简单有效,但是容易出现发散。可以使用最小二乘法来获取原子的表示系数,因此,对于信号x∈Rn和字典D={d1,d2,…,dk},r0=y,k=1,可以通过以下步骤来实现正交匹配追踪:
1.2.2 松弛法
松弛法就是使用经典的连续优化方法[9]实现逼近效果。其中,基追踪方法[10]就是说公式2可以采用凸优化方法进行求解,加入噪声、松弛等式其他条件,公式2的求解可转为求解以下方程[11]:
这里ε是用于信号重构的误差项,而公式3可以作为图像稀疏表示的标准数学模型,可以通过内点方法[12](Interior Point methods)、最小角度回归方法[13](Least Angle Regression, LARS)、迭代收缩法[14](Iterative Shrinkage)。endprint
2 基于稀疏表示的目標追踪
2.1 基于稀疏表示的目标追踪一般步骤
目标追踪算法包括:目标识别、运动模型建立、目标搜索。稀疏表示作为信息结构化表示方法,灵活设计字典中的参数,突出目标特征,与背景区分性更强,其流程如图2所示。
2.2 基于稀疏表示的目标特征学习
对于目标追踪而言,对目标进行鲁棒性和可区别性的特征描述是关键所在,而对于图像级特征在设计时需要考虑:
(1)对于不同类别的情况,有相当的判别性用以区别不同类别内容;
(2)对于同一类别的情况,有相当的鲁棒性用以区别同一类别的不同展现形式。
目前用的较多的是利用SIFT[15]等底层局部特征建立词包模型(BOW),最早由Joachims等[16]在1997年提出,当时主要是在文本分类中用于描述相关文本特征,而最早将该特征应用于视觉领域的是Sivic等[17]和Csurka等[18]。使用BOW模型进行图像结构化表示可以分为三个步骤:图像块特征的获取与描述,字典生成以及图像的直方图表示,如图3所示。
第一步,通过稠密采样等特征提取方式获得图像中可以表示图像特征的图像块,利用SIFT、HOG等对每个图像块的特征进行区别化表示;第二步,对上一步得到的训练集合中的图像块特征进行聚类,并将聚类得到的全体类中瓜视为图像特征的“字典”(codebook);第三步,计算特征向量与字典中所有类中心的距离,确定特征向量所属码字的类别,这样一幅图像就可以通过码字出现频率为单元的直方图进行标识,也就是词包。通过这样的方式,局部特征变成整体特征,可以更好的面对对尺度、旋转等变化。
目前,BOW只使用了图像中的关键点、边缘特征等底层信息,无法对图像中的场景、对象等高层信息进行表示,导致获取的特征信息不够完整;另外,对于算法的具体应用和具体数据情况,SIFT的构造缺乏适应性,人工干预较多,提取的特征也有不确定性,追踪效果差。
3 总结与展望
目标追踪是一个内容繁多的系统工程,稀疏表示已经应用于目标追踪里的很多方面,效果较好,虽然体现了一定优势,但其可利用空间还有待挖掘,针对公安的特定目标研究仍然很少。未来可以主要关注一下几个方面:
3.1 构建鲁棒的目标识别模型
为实现良好的目标识别性能,需要构建稳健的目标识别模型。因此,如何对目标进行结构化的稀疏表示是将来的重要研究方向。在实际应用中,使用者还需要对基于稀疏表示的目标识别追踪模型进行参数设置,而这些参数的调整和设置还是主要依靠使用者的经验。因此,利用识别追踪模型从自动进行参数自适应调整还需要展开进一步的研究。
3.2 算法实时性
基于稀疏表示的目标追踪算法相较于传统算法,其准确性、性能明显提高,但是运算时间也较长,是稀疏表示在实际应用中的一个瓶颈,需要对算法进行优化,进一步对计算速度和效率进行优化,尤其是复杂场景,数据量更大,更需要对算法进行优化已实现更为高效的运算。
3.3 目标稳健特征学习
目标特征的优良程度对目标追踪的准确性起着重要作用,其不变性和可区分性的设计也很难达到完美,需要进一步对利用稀疏表示方法,从图像中获取底层、中层及高层特征,使得特征描述更为准确;另外,可以结合目前更先进的深度学习算法,提取更为本质的目标特征,改进算法效果。
【参考文献】
[1]Vinje W E,Gallant J L. Sparse coding and decorrelation in primary visual cortex during natural vision[J].Science,2000,287:1273-1276.
[2]Serre T,Wolf L. Bileschi S,et al. Robust object recognition with cortex-like mechanisms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007,29(3):411-426.
[3]Mallat S G,Zhang Z. Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.
[4]Donoho D L, Elad M. Optimally sparse representation in general(nonorthogonal)dictionaries via 1 minimization[J].Proceedings of the National Academy of Sciences, 2003,100(5):2197-2202.
[5]B.K.Natarajan, Sparse approximate solutions to linear systems[J].SIAM Journal on Computing,1995,227-234.
[6]Lee H,Battle A, Raina R,et al. Efficient sparse coding algorithms[A].Advances in neural information processing systems(NIPS)[C].MIT Press,2007.801-808.
[7]Aharon M, Elad M,Bruckstein A.The K-SVD: An algorithm for designing of over complete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing,2006,54(11) :4311-4322.endprint
[8]Mairal J,Bach F,Ponce J,et al. Online learning for matrix factorization and sparse coding[J].The Journal of Machine Learning Research, 2010, 11:19-60.
[9]M.Elad, Sparse and Redundant Representation: From Theory to Applications in Signal and Image Processing [M].Springer, New-York, 2010
[10]S.S.Chen,D.L. Donoho, and M.A.Ssunders, Atomic decomposition by basis pursuit[J].SIAM Journal on Scientific Computing, 1998,20(1):33-61.
[11]Candes E J, Tao T. Decoding by linear programming[J]. IEEE Transactions on Information Theory, 2005, 51 (12) : 4203-4215.
[12]S.J.Kim,K.Koh, M.Lusig,S.Boyd,and D.Gorinevsky,A method for largescale,1-regularized least squares proble- ms with applications in signal processing and statistics[J].IEEE J.Selected Topics Signal Processing, 2007,1(4):606-617
[13]B. Efron,T. Hastic,I.M.Johnstone,and R. Tibshirani,Least angle regression[J]. The Annals of Statistics,2004,32 (2):407-499
[14]M.Elad, M.Zibulevsky, Iterative shrinkage algorithms and their acceleration for L1-L2 signal and image processing applications[J].IEEE Signal Processing Magazine,2010,27(3):78-88.
[15]Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110
[16]Joachims T. A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization. Proceedings of the 14th International Conference on Machine Learning(ICML), San Francisco, CA, USA: Morgan Kaufmann Publishers Inc,1997, 143-151.
[17]Sivic J, Zisserman A. Video Google: a text retrieval approach to object matching in videos. Proceedings of 2003 Ninth IEEE International Conference on Computer Vision(ICCV). IEEE.2003.1470-1477
[18]Csurka G, Dance C, Fan L,et al.Visual categorization with bags of keypoints. Proceedings of Workshop on Statistical Learning in Computer Vision, ECCV, volume 1.Prague, 2004. 1-22.endprint