深度特征目标感知交替方向乘子法优化多指标更新相关滤波跟踪算法
2024-02-02王国刚杨雨前李泽欣
王国刚,杨雨前,李泽欣
(山西大学 物理电子工程学院,山西 太原 030006)
0 引言
在给定跟踪目标初始信息的前提下,目标跟踪的任务是持续估计后续帧目标的位置、尺度等状态信息。作为计算机视觉领域的研究热点之一,目标跟踪在军事侦察、智能机器人、手势识别等诸多领域具有重要的研究价值[1-2]。
基于回归判别式模型,传统相关滤波算法结合循环矩阵和快速傅里叶变换,实现了对目标的跟踪[3-4],该类算法主要包括搜索区域、特征提取、目标定位和模型更新4 个步骤。由于采用了数据量较小的手工特征,传统相关滤波算法具有较快的跟踪速度。但是,手工特征对旋转、形变等外观变化的鲁棒性较差,因此该类算法在跟踪中难以取得较为鲁棒的跟踪效果。
得益于深度特征良好的表征能力和抗干扰能力,结合深度学习的相关滤波算法[5-7]相较于传统相关滤波算法具有较好的跟踪准确性和鲁棒性。该类算法主要分为两类:一类是将预训练深度特征融入相关滤波器的HCF[8],HDT[9]等算法;另一类是将相关滤波器集成到深度网络中的CFNet[10],DCFNet[11]和UDT[12]等算法。这些结合深度学习的相关滤波算法虽然实现了精确和鲁棒的跟踪,但是仍未解决因循环移位带来的边界效应,导致跟踪算法的性能提升受到限制。
空间正则化相关滤波算法(Spatially Regularized Discriminative CF,SRDCF)[13]按照滤波器系数的空间位置引入正则化项,有效解决了边界效应。但是,该算法跟踪中仅采用手工特征表征目标,Gauss-Seidel方法训练相关滤波器的时间复杂度高,跟踪结果不可靠时仍逐帧更新模型。
针对SRDCF算法存在的问题,提出深度特征目标感知ADMM优化多指标更新相关滤波跟踪算法(Target-Aware Deep Tracking by ADMM Optimization and Multi-Index Update,TACF)。该算法融入预训练的深度特征,并依回归损失的梯度信息进行通道选择,提高对目标的表征能力;采用交替方向乘子法(ADMM)[14]训练相关滤波器,降低算法复杂度,加快跟踪速度;根据多指标更新方法判断是否进行模型更新,不但提升了算法运行效率,还避免了因学习到大量干扰信息而导致的模型损坏。实验结果表明,TACF算法相较于其它8种现有算法实现了更精确、更鲁棒的跟踪。
1 TACF算法跟踪框架
针对SRDCF算法存在的缺陷,提出TACF跟踪算法。该算法框图主要包含深度特征目标感知、TACF模型优化和多指标更新三部分,如图1 所示。
图1 TACF算法整体框架图Fig.1 The overall framework diagram of TACF algorithm
1.1 训练位置滤波器
相关滤波算法利用循环矩阵进行训练和检测,尽管提高了计算效率,但也带来了边界效应。为抑制边界效应,引入空间正则化项,构造如下目标函数,训练TACF跟踪模型的位置滤波器。
式中:大小为M×N的xl和f l分别为第l通道的目标特征和位置滤波器;L为总通道数;⊗和 ·分别为循环卷积操作和哈达玛积;y为预定义的标签;空间正则化项抑制背景干扰,凸显感兴趣的目标区域。
1.2 位置检测与模型更新
位置检测时,从当前帧提取特征图zl,与前一帧训练的位置滤波器f l在频域的各通道上进行哈达玛求积运算,再把各通道的哈达玛积的和经傅里叶逆变换得到跟踪响应图S
式中:F-1表示傅里叶逆变换;表示傅里叶变换。跟踪响应图S中最大响应值点即为预测的当前帧目标的位置。
为适应跟踪目标外观的不断变化,需要对跟踪模型进行如下更新
式中:η为更新时的学习率。
2 深度特征目标感知ADMM 优化多指标更新相关滤波跟踪算法
2.1 深度特征目标感知
现有深度跟踪器用预训练的卷积神经网络(Convolutional Neural Networks,CNN)特征表征跟踪目标,而预训练的CNN 特征先前一般是在目标识别任务中用来描述目标外观特性的。与目标识别任务中的目标不同,跟踪目标可以是任意形式的任意对象类,所以,将深度特征直接用于跟踪不仅会带来大量的干扰信息,而且难以区分目标与背景,致使跟踪效果不佳。
为解决此问题,更好地提升对目标的表征能力,提出深度特征目标感知方法,对预训练的CNN特征图进行通道选择,具体流程如图2 所示。
图2 深度特征目标感知Fig.2 Target-aware of deep features
构建如下回归损失函数,得到适用于跟踪任务的目标感知特征。
式中:h,xdp分别为回归权重矩阵和预训练的深度特征图;标签为相对跟踪目标的偏移量;σ为高斯内核的宽度。
使用式(5)计算回归损失梯度,以衡量各特征通道的重要性。
式中:xo(u,v)为回归损失收敛后的权重矩阵h与预训练的深度特征图xdp的卷积。
对回归损失梯度作全局平均池化(GAP)处理,可得特征通道重要性权重Δ,如式(6)所示。
重要性权值越大,特征通道对目标的表征能力越强[15]。因此,深度特征目标感知策略保留权值为正的特征通道,剔除权值为负的特征通道,得到如式(7)所示的适用于跟踪任务的目标感知特征xta。
式中:Q(·)为根据权重Δ选择目标感知特征的函数。
绘制特征热力图,比较原始深度特征和目标感知特征的不同,以验证深度特征目标感知策略的有效性。图3 为绘制的热力图,从左到右分别为视频帧、原始深度特征和目标感知特征。
图3 原始深度特征和目标感知特征热力图Fig.3 Thermal maps of original deep features and target-aware features
如图3(a)所示,原始深度特征热力图焦点没有聚集在目标区域,未能有效区分目标与背景;而目标感知特征热力图焦点全部聚集在目标区域,剔除了右下角的干扰信息,能将目标与背景区分开来。图3(b)中,与跟踪目标相似的干扰物较多,原始深度特征热力图在干扰物上有大量焦点聚集,包含较多干扰信息;而在目标感知特征热力图中,大量干扰信息被剔除,焦点主要聚集在目标区域,凸显了跟踪目标的外观特征。
2.2 TACF模型优化
式(1)为TACF 跟踪模型的目标函数,为优化模型,引入约束条件f=g,式(1)的增广拉格朗日方程可以表示为
式中:s为拉格朗日乘子;ρ为步长参数。
将TACF模型优化问题拆分为如式(10)所示的3个局部子问题,采用ADMM算法交替求解。
1)求解子问题f
依帕塞瓦尔定理,式(11)在频域中可化为
令式(13)的导数为0,可得
由式(14)和Sherman-Morrison 公式,可得子问题f在频域中的封闭解
子问题f的时域解可由频域解的傅里叶逆变换得到。
2)求解子问题g
令式(16)的导数为0,可得子问题g的封闭解
式中:W为1个LMN×LMN的对角矩阵。
3)更新步长参数
式中:ρmax为ρ的最大值;γ为尺度参数。
2.3 多指标更新
因为深度特征包含丰富的语义信息,所以,基于目标感知特征的跟踪模型对目标的外观变化具有较强的鲁棒性,但目标感知特征的空间分辨率较低,目标定位准确性较差。另一方面,手工特征空间分辨率较高,有利于目标的精确定位,但包含颜色、纹理等信息的跟踪器鲁棒性较差。因此,TACF 采用目标感知特征和手工特征训练相应的跟踪模型,分别利用式(2)得到响应图Sta和Shc,再依式(19)获得融合后的响应图Sfu。
式中:Sta,Shc分别为目标感知特征响应图和手工特征响应图;θ1和θ2为融合系数。
得到响应图Sfu后,可根据最大响应分数判断当前帧跟踪结果的好坏。如图4 所示,第2 帧的跟踪目标没有受到干扰,最大响应分数较大,跟踪结果良好;第73帧,跟踪目标被相似物干扰,最大响应分数减小,跟踪结果开始出现偏差;第110 帧,跟踪目标被严重遮挡,最大响应分数很小,跟踪结果越来越差。如果把响应分数最大值点预测为目标位置,那么在第110 帧,由于遮挡和相似物干扰,导致目标位置出现错判。因此,仅采用最大响应分数作为模型更新的判据会因判断不准确使跟踪发生偏移。
图4 不同跟踪场景下的最大响应分数Fig.4 Maximum response score under different tracing scenarios
跟踪结果置信度包含最大响应分数和平均峰值相关能量(Average Peak Correlation Energy,APCE)[16]两个指标。APCE 描述响应图波动程度,定义为
图5 不同跟踪场景下的跟踪置信度Fig.5 Tracking confidence under different tracing scenarios
深度特征的引入使模型参数量急剧增加。由于跟踪过程中训练数据的稀缺性,训练数据量小于模型参数量,可能会导致模型过拟合。而且,逐帧更新的传统策略虽然能使模型较好地适应不断变化的目标外观,但过度更新也会使模型对最新几帧样本过拟合。此外,相邻两帧的目标通常不会有较大变化,采用前一帧的模型仍可精确定位当前帧目标。因此,TACF 采用隔帧更新方法以提高算法的运行速度,防止模型过拟合。
综合最大相应分数、APCE和隔帧更新策略,提出了多指标更新方法,如式(21)所示。
2.4 算法流程
TACF算法流程如图6 所示。
图6 TACF算法流程图Fig.6 The flow chart of the TACF algorithm
跟踪阶段,TACF 算法对预训练网络提取的深度特征进行通道选择,得到适合跟踪任务的目标感知特征,以提升对目标的表征能力;同时,采用ADMM 算法优化跟踪模型,加快相关滤波器的训练速度;最后,根据最大响应分数、APCE 和隔帧更新策略判断是否更新模型,避免模型损坏。
3 实验结果及分析
3.1 实验环境与配置
实验采用Windows10 操作系统下的Matlab2019a 对TACF 算法进行实现,并通过Mat-ConvNet 工具包实现预训练网络VGG-16[17]的前向传播。硬件平台配置为:16 GB 内存,AMD R5 4600H 6核3.00 GHz CPU,GTX1650 GPU。
ADMM参数设置为:初始步长ρ=1,最大步长ρmax=10 000,尺度γ=10。多指标更新参数设置为:β1=0.6,β2=0.5,学习率η=0.018 5。响应图融合系数设置为:θ1=1,θ2=1。深度特征目标感知参数设置为:回归损失收敛阈值=0.02,最大迭代次数=200,原始深度特征为VGG-16中Conv4_3层的输出。
3.2 数据集与评价指标
实验数据集为OTB2015[18](object tracking benchmark),该数据集含目标部分离开视野、遮挡、平面内旋转、背景杂乱等11种场景属性。
实验采用一次通过评估(One Pass Evaluation,OPE)、空间鲁棒性评估(Spatial Robustness Evaluation,SRE)、时间鲁棒性评估(Temporal Robustness Evaluation,TRE)、11 种复杂场景下的精确度和成功率作为评价指标。OPE,SRE,TRE、精确度和成功率的定义如下:
1)OPE:在目标初始信息为理想的情况下,算法维持其跟踪性能的特性。
2)SRE:在首帧的真实跟踪框出现位置平移或尺度缩放的情况下,算法维持其跟踪性能的特性[21]。
3)TRE:在起始帧发生改变(不为第1 帧)的情况下,算法维持其跟踪性能的特性[18]。
4)精确度:预测中心位置与真实中心位置的欧氏距离小于20 pixel的帧数占总帧数的比值。
5)成功率:预测框与真实框的交并比大于0.5的帧数占总帧数的比值。
OPE 模式下的精确度和成功率主要反映跟踪算法在理想情况下的跟踪性能,是目标跟踪领域常用的评价指标。而SRE 和TRE 模式下的精确度和成功率能在一定程度上评价算法在真实情况下的跟踪性能,是更加重要的评价指标。
3.3 定量分析
为评估所提算法性能,将TACF 算法与SRDCF,AutoTrack[19],TADT[20],CFNet,DCFNet,UDT,STRCF[21],LADCF[22]8种主流算法进行比较,实验结果如表1 所示,OPE精确度、成功率如图7 所示。
表1 OTB2015数据集上的实验结果Tab.1 The experimental results on OTB2015 dataset
图7 OPE精确度和成功率Fig.7 Precision and success rate of OPE
由表1 和图7 可知,TACF 算法的OPE 精确度、成功率分别为0.902 和0.691,相较于Auto-Track,STRCF,TADT,LADCF,DCFNet,UDT,SRDCF和CFNet,精确度分别提高11.5%,4.7%,3.8%,6.5%,8.4%,13.2%,13.9%和15.3%,成功率分别提高10.4%,4.0%,3.3%,4.5%,6.5%,9.6%,10.8%和12.1%。
在初始帧数改变、第一帧真实框平移或尺度变化的情况下,跟踪算法性能可能有较大变化。因此,采用TRE、SRE对TACF和其它8种对比算法作进一步分析,实验结果如表2、表3 所示。
表2 9种算法的时间鲁棒性评估Tab.2 TRE for the nine algorithms
表3 9种算法的空间鲁棒性评估Tab.3 SRE for the nine algorithms
由表2 和表3 可知,TACF算法的TRE精确度、成功率分别为0.898 和0.695,相较于SRDCF 算法分别提高11.2%和8.0%;SRE 精确度、成功率分别为0.873 和0.646,相较于SRDCF算法分别提高11.2%和8.4%。由表2 和表3 还可知,TACF 算法的TRE 和SRE 均好于其它8种算法。
为分析跟踪算法在复杂场景下的性能,实验对9种算法在11种场景下的OPE精确度和成功率进行比较,结果如表4、表5 所示。
表4 9种算法在不同场景下的成功率Tab.4 The success rate of the 9 methods under various scenarios
表5 9种算法在不同场景下的精确度Tab.5 The precision of the 9 methods under various scenarios
由表4、表5 可知,TACF 算法的成功率和精确度在低分辨率(Low Resolution,LR)场景下仅比TADT 算法略低,在其它10 种场景下均为最优。与SRDCF 算法相比,TACF 算法的跟踪性能在所有场景下均有较大提升,尤其在超出视野(Out-of-View,OV)、运动模糊(Motion Blur,MB)和遮挡场景(Occlusion,OCC)下,成功率分别提升20.7%、13.4%和12.5%,精确度分别提升32.4%,16.1%和17.3%。
3.4 定性分析
实验挑选OTB2015 的5 个典型视频序列以定性分析TACF 和8 种主流对比算法。所选视频序列含背景杂乱、遮挡、快速运动和尺度变化等多种场景属性。实验结果如图8 所示。
图8 不同算法的跟踪结果Fig.8 Tracking results of the different methods
视频序列bolt2跟踪过程中,主要存在的挑战因素是背景杂乱。从第10 帧到第292 帧,跟踪目标被视频背景中的相似物干扰,SRDCF,DCFNet,UDT 和AutoTrack 相继出现严重的跟踪漂移,TADT 和LADCF 跟踪到相似物上,仅TACF、STRCF 和CFNet 能准确定位目标,如图8(a)所示。目标被相似物干扰时,TACF的跟踪效果优于SRDCF,是因为TACF 采用的深度特征目标感知策略有效区分了目标与背景。
视频序列girl2跟踪过程中,主要存在的挑战因素是遮挡。如图8(b)所示,从第109帧到第120帧,目标被干扰物严重遮挡,仅TACF算法能对目标实现精确和鲁棒的跟踪,而其它对比算法均出现不同程度的跟踪漂移;到第170帧,TACF仍可精确定位目标,而其它对比算法均完全丢失了跟踪目标。遮挡场景下,TACF的跟踪效果优于SRDCF,是因为TACF采用的多指标更新方法避免了由于学习到过多干扰信息而造成的模型腐败。
视频序列biker 跟踪过程中,存在运动模糊、平面外旋转和尺度变化等多种挑战因素。从第65 帧到第75 帧,目标跳跃、旋转,出现运动模糊,SRDCF 完全丢失目标,TADT,STRCF,CFNet 和UDT 均发生一定程度的跟踪漂移;从第105 帧到第130 帧,AutoTrack、LADCF 和DCFNet 也完全丢失了目标,而TACF 一直可实现较为精确和鲁棒的跟踪,如图8(c)所示。
视频序列matrix跟踪过程中,存在光照变化、快速运动以及背景杂乱等多种挑战因素。第13帧,目标被相似物干扰,CFNet、LADCF和AutoTrack出现跟踪漂移;从第46帧到第100帧,目标快速运动,出现光照变化,TADT,STRCF,DCFNet、UDT 和SRDCF 均发生不同程度的跟踪漂移,仅TACF能一直精确定位目标,如图8(d)所示。
视频序列DragonBaby跟踪过程中,存在超出视野、快速运动和平面内旋转等多种挑战因素。从第24 帧到第113 帧,目标剧烈运动,Auto-Track,TADT,DCFNet,UDT,SRDCF 和CFNet 均出现不同程度的跟踪漂移,而TACF 自始至终能准确跟踪目标,如图8(e)所示。
3.5 消融实验
针对所提深度特征目标感知(Target-Aware,TA)、交替方向乘子法(ADMM)和多指标更新(Multi-Index Update,MIU)方法,实验在OTB2015 上对TACF 算法作消融分析,结果如表6 所示。
表6 消融实验Tab.6 Ablation experiment
由表6 第1~2行可知,SRDCF-ADMM算法的精确度、成功率虽比SRDCF 算法分别下降0.6%和7.3%,但是跟踪速度提升了375%。这说明采用ADMM 方法求解相关滤波器,降低了算法时间复杂度,加快了跟踪速度。由表6第2~3 行可看出,在SRDCF-ADMM 基础上,融入深度特征目标感知方法,精确度、成功率分别提升15.5%和23.3%,这说明深度特征目标感知方法有效提升了算法对目标的表征能力,提高了跟踪准确性。由表6 第3~4 行还可看出,在采用了深度特征目标感知方法SRDCF-ADMM基础上,融入多指标更新方法,精确度、成功率、跟踪速度分别提升2.9%,3.7%和24.5%,这说明多指标更新方法不仅提升了算法运算效率,还避免了因学习到错误信息而导致的模型损坏。
4 结论
本文提出了深度特征目标感知ADMM 优化多指标更新相关滤波跟踪算法。该算法融入预训练网络提取的深度特征,并根据回归损失的梯度信息进行通道选择,提高了对目标的表征能力;采用ADMM 方法训练相关滤波器,降低计算复杂度,加快跟踪速度;根据多指标更新方法控制模型更新,不仅提升了算法运行效率,而且避免了由于学习到大量干扰信息而导致的模型损坏。实验结果表明,TACF 算法的成功率、精确度在数据集OTB2015 上均优于其它8 种对比算法,且在复杂场景下实现了更鲁棒的跟踪。