基于深度特征的稀疏表示目标跟踪算法
2018-09-29徐龙香李康徐婷婷程中建袁晓旭
徐龙香 李康 徐婷婷 程中建 袁晓旭
摘 要:基于稀疏表示的目标跟踪算法速度快、精度高,但这类算法使用灰度特征来描述目标外观,因此在跟踪外观变化较大的目标时容易发生漂移。为了解决该问题,研究提出一种基于深度特征的稀疏表示目标跟踪算法。首先,使用预训练的卷积神经网络提取目标的深度特征;其次,根据采集到的模板集对候选样本计算重构误差;然后,选择具有最小重构误差的候选样本作为当前帧的目标;最后,根据已跟踪到的目标更新模板集。实验结果表明,本算法与传统的稀疏表示算法相比更具有鲁棒性。
关键词:目标跟踪;稀疏表示;卷积神经网络;生成模型;深度学习
中图分类号:TP391.41 文献标识码:A 文章编号:2095-1302(2018)09-00-03
0 引 言
目标跟踪研究的是仅给出目标在场景中的初始位置,设计算法跟踪场景中目标的问题[1-2]。目标跟踪在实时跟踪、视频分析、运动捕捉和游戏娱乐等领域有着广泛的应用,是计算机视觉领域最为活跃的研究方向之一。
目标跟踪按照跟踪过程中的模型是否在线更新可以分为静态外观模型和自适应外观模型。基于静态外观模型的算法仅使用目标初始化外观进行训练,模型在跟踪过程中保持不变。这类算法速度快,在目标从场景中消失再重现后能重新定位目标。自适应跟踪算法在跟踪过程中根据目标当前的外观动态地更新模型,从而适合跟踪外观变化的目标。
根据算法训练的外观模型不同,目标跟踪算法又能分成判别式算法[3]和生成式算法[4]两种。判别式算法将目标跟踪看成是分类问题,通过正样本和负样本训练分类器将目标和背景分开。生成式跟踪算法假设目标从同一个空间中生成,使用之前跟踪到的目标作为样本训练生成空间,然后在候选目标中选择重构误差最小的作为当前帧的目标。
在本研究中,所使用的算法是基于自适应外观模型的生成式目标算法。传统的L1跟踪算法[5]中使用的是图像灰度特征,这种特征在目标遭受光照和外观发生变化时难以精确表达目标外观。为解决该问题,本研究提出使用卷积神经网络提取特征代替灰度特征来表达目标。在模板更新方面,本算法提出一种基于重构误差的模板替换方法。该方法能够在保持模板集多样化的同时适应目标的外观变化。以上策略有效地解决了稀疏表示算法存在的问题,提高了跟踪的鲁棒性。
1 算法实现
1.1 跟踪基本流程
本研究使用基于检测的目标跟踪框架来设计算法。设第t帧中的目标位置为xt*,则该算法完成跟踪第t+1帧的目标时包含以下步骤:
(1)根据密集采样算法[6-7]在第t+1时刻采集样本集Xot+1。
(2)根据已训练的模型对Xot+1中所有候选样本进行评估,并依据设定的标准选择出目标在第t+1帧中的位置xt*+1。
(3)根据算法得到的xt*+1更新训练模型。
重复以上步骤直至跟踪结束。
1.2 特征提取
本研究中的特征提取步骤如图1所示。其中Input层是输入的原始图像,在输入之前需要将图像大小调整至107×107,单位为像素;C1至C3层表示卷积层;P1和P2表示池化层;符号“@”前的数字表示特征图的层数,后面的数字表示特征图的尺寸;最后将C3层的特征图拉伸成512×3×3维的列向量作为图像的特征。图1中C1至C3层的网络参数使用预训练的VGG-M[8]网络,这些参数在跟踪过程中保持不变。特征提取的详细步骤如下:
(1)将原始图像调整至107×107像素大小,作为卷积神经网络Input层的输入。
(2)使用卷积核为96@3×3的模板对输入进行卷积,步长为2,得到C1层的结果。
(3)对C1层的特征图使用池化,步长为2,得到P1层特征图。
(4)对P1层特征图使用256@3×3的模板进行卷积,步长为2,得到C2特征图。
(5)对C2层的特征图使用池化,步长为2,得到P2层特征图。
(6)对P2层特征图使用512@3×3的模板进行卷积,步长为1,得到C3特征图。
(7)将C3层的特征图拉伸成512×3×3维向量作为输入图像的特征。
1.3 稀疏表示跟踪
稀疏表示目标跟踪算法假设跟踪目标可以由若干模板线性表示[5,9],并且其线性系数是稀疏的。设目标的模板集为T=[t1,t2,…,tN],其中ti∈Rm为模板集中的第i个模板,N为模板集中的模板数量,需要跟踪的目标y可由公式(1)
1.4 模板更新
为了使已训练的模型能够适应目标的外观变化,需要在得到新一帧的目标时对模板集进行更新。模板集更新算法首先要保证模板集中有足够的目标外观来表示候选样本;其次需要考虑模板的更新频率。如果模板更新过快,当目标在被遮挡时,模板会集中保存过多被遮挡的目标外观,从而在目标从遮挡中恢复时导致算法丢失目标。而如果模板更新过慢,模板集中的模板不能实时反映目标的外觀变化,将导致在跟踪外观变化频繁的目标时容易发生漂移。
本研究综合考虑模板集中所保存的目标外观的多样性以及模板集中各模板的时序特征,设计了一种动态更新模板集的算法。本研究中模板跟踪算法遵循规则:在得到新一帧的目标位置时,若其重构误差小于给定阈值M,则用其替换掉模板集中重构误差较大的模板。因为重构误差反映了当前目标与训练模型的相似程度,当重构误差较高时,说明目标可能受到了遮挡或遭受了巨大的形变,此时不适合将当前目标加入模板集。
2 实验与分析
2.1 实验配置
本研究算法在Matlab 2016b平台下实现,操作系统为Win10,CPU为3.3 GHz Intel i5-6600处理器,内存容量8 G,模板更新误差阈值M=20,学习因子λ=0.9(经验参数)。
为了验证本算法的有效性,我们在以下测试视频中进行测试,它们分别是Car4,David,Motorrolling,Soccer。这些视频测试集中包含了目标跟踪中常遇到的各种难以跟踪的特征,如快速运动、复杂背景、运动模糊、形变、光照变化等。我们选择MIL[10],CT,L1作为对比算法。其中L1算法是经典的稀疏表示目标跟踪算法,CT和MIL是经典的判别式目标跟踪算法。对比视频跟踪数据来源于文献[4]。
2.2 评价方法
为了全面地评价算法的性能,对跟踪结果使用两种方式进行评估:
(1)距离误差成功率。如果某一帧算法结果与人工标定的跟踪结果距离误差小于某个阈值,那么该帧被认为跟踪成功。则距离误差成功率表示为跟踪成功的帧数占总帧数的比例,距离误差成功率见表1所列。
(2)重合度成功率。如果某一帧算法跟踪结果与人工标定的跟踪结果区域重合度的比大于某个阈值,则说明该帧跟踪成功。重合度定义为,其中R为算法跟踪目标区域,G为人工标定目标区域,∪和∩分别表示两种区域的并集和交集,函数area(·)为返回区域中像素点个数。当某帧中目标area值大于设定阈值时则认为该帧跟踪正确。重合度成功率定义为依据重合度计算得到的跟踪成功率,其阈值设置为0.5,重合度成功率见表2所列。
2.3 实验结果分析
从表1、表2(最好结果由粗体标出)可以看出,本研究提出的算法与其他经典算法相比具有较好的跟踪效果。结合图2,根据所选的测试跟踪序列特点具体分析。
Car4:视频中需要跟踪一辆行驶中的车辆。该车辆经过人行天桥时,受到了阴影的干扰,光照环境发生了剧烈变化。并且在行驶过程中,车辆的尺度发生了一定的改变。从图2大写可以看出,CT和MIL丢失了目标。只有本算法和L1算法跟踪到了目标。
David:视频中在跟踪一名在室内行走的男子。从图2可以看出,目标在室内移动时,由于相机转动产生了整体场景的模糊。在男子行走过程中,目标与相机距离由近变远,再由远变近,发生了尺度变化。在此过程中,MIL发生了严重的漂移,而本算法能够准确地跟踪到目标。
Motor:视频中的目标是一台在空中翻滚的摩托车,其跟踪的主要难点在于目标的旋转,由于目标的旋转不具备旋转不变性的特征,使得训练的算法检测不到目标位置。如图2所示,只有本算法精确地跟踪到了目标。
Soccer:视频中跟踪的目标是一位运动员的脸部。在跟踪过程中,目标遭受了严重的遮挡和背景干扰。从图2中可以看出,当目标被红色纸片遮挡后,CT,MIL,L1算法均发生了漂移。从测试视频中可以看出,本算法能够应对较为严重的遮挡。
3 结 语
在复杂环境中跟踪外观变化较大的目标是跟踪算法需要解决的难题之一。本研究提出使用卷积神经网络结合稀疏表示算法来构建模型。该算法在跟踪场景中目标外观变化较大的目标时取得了鲁棒跟踪效果。基于上述策略,本文算法在与其他算法的比较中取得了良好的效果,体现了本算法的优越性。在未来的研究中,我们拟将卷积神经网络特征结合经典判别式跟踪算法构建目标外观模型,从而提高算法在跟蹤复杂环境中目标的准确性。
参考文献
[1] YILMAZ A,JAVED O,SHAH M. Object tracking: A survey[J].Acm computing surveys,2006,38(4):13.
[2] YANG H,LING S,ZHENG F,et al. Recent advances and trends in visual tracking:A review[J].Neurocomputing,2011,74(18):3823-3831.
[3]李康,何发智,潘一腾,等.基于簇相似的多分类器目标跟踪算法[J].电子学报,2016,44(4):821-825.
[4] WU Y,LIM JONGWOO,YANG M H. Online object tracking: A benchmark[C]. Proceedings of the IEEE conference on computer vision and pattern recognition,2013:2411-2418.
[5]黄庆俊,何儒汉.基于协方差矩阵的压缩感知跟踪算法[J].软件导刊,2017,16(4):31-34.
[6] MEI X,LING H. Robust visual tracking using l1 minimization[C]// Computer vision,2009 IEEE 12th international conference on.IEEE,2009: 1436-1443.
[7] ZHANG K,ZHANG L,YANG M H. Real-time compressive tracking[C]. European conference on computer vision. Springer,Berlin,Heidelberg,2012:864-877.
[8] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint:1409.1556,2014.
[9] MEI X,LING H.Robust visual tracking and vehicle classification via sparse representation representation[J].IEEE transactions on pattern analysis and machine intelligence,2011,33(11):2259-2272
[10] BABENKO B,YANG M H,BELONGIE S. Visual tracking with online multiple instance learning[C].Computer vision and pattern recognition,2009:983-990.