自适应双路间隔调控跟踪算法

2023-02-17蒋秋萍付小雁

计算机应用与软件 2023年1期

蒋秋萍付小雁,2*

1(首都师范大学信息工程学院北京 100048) 2(电子系统可靠性技术北京市重点实验室北京 100048)

0 引言

目标跟踪是指根据图像信息，应用图像处理技术对视频中目标进行检测识别并估计目标的位置、轨迹、尺寸等信息以完成更复杂的高层应用任务。目标跟踪是计算机视觉领域的重要研究课题，在视频监控、行为理解、智能交通、人机交互及自动驾驶等应用领域中都发挥着关键作用。经过几十年的发展，目标跟踪技术已取得很大的进展[1-3]，但仍面临着许多挑战。物体在视频中出现的各种无法预测的变化，如目标尺度变化、遮挡、光照变化、目标形变及背景干扰等都会对跟踪结果产生影响。因此，克服干扰因素，设计出符合应用需求的快速、准确的跟踪算法具有重要意义。

近年来，基于判别式相关滤波(DCF)[7]的跟踪方法受到广泛关注[4-22]。相关滤波类算法采用循环移位操作增加样本数量，使分类器在密集样本的训练下更具判别能力，同时借助循环样本的对角化特性大大简化了计算，缩短了计算时间，有效提高了算法的跟踪速度。但DCF中目标框大小固定不变，算法不能实时更新目标框的大小，跟踪精度较低。Martin等[9]采用多尺度手工特征单独训练尺度滤波器专门用于目标尺度更新，实时改变目标框的大小，解决了DCF的目标框尺度问题，但算法精度为0.72仍有待提高。2013年以来随着深度学习技术的兴起，跟踪领域中的学者们也开始去尝试着将深度神经网络应用该领域中：一方面是端到端深度网络的设计，以SINT和Siamese fc为代表的孪生网络跟踪算法给大家展现了一个较好的跟踪速度和精度。另一方面是仅使用预训练的网络提取深度卷积特征，特别是相关滤波结合深度卷积特征的方法[10,12-14]在精度上优势显著。分层卷积(HCF)算法[13]将KCF的手工特征替换为VGG-19的卷积层特征，达到了0.83的精确度。Wang等[12]基于DCF框架，结合深度卷积及手工特征训练了多个跟踪器，算法较HCF精度又提高了10.8%，但算法的跟踪速度为1.3 FPS。

传统尺度算法[9,15-18]中，位置滤波器的训练仅考虑单一尺度，导致算法在目标尺度变化较大的视频序列中发生跟踪漂移甚至丢失现象。现有的很多深度算法[10-14]中卷积特征使用频率高，而相较手工特征，卷积特征提取耗时较长，因此造成算法跟踪速度较慢。

综上所述，深度卷积算法可有效解决复杂场景下的跟踪漂移问题，但实时性不够理想；传统手工算法跟踪速度快，然而精度有待提高。本文考虑到手工及深度卷积算法的不同特性，提出以手工算法为主线，适时切入深度辅线算法的自适应双路间隔调控算法(ATIR)，算法的创新性主要包括以下几个方面：

1) 本文提出了一种将手工算法和深度卷积算法自适应结合的调控跟踪框架。在手工主线算法跟踪过程中，实时评估目标的运动状态，依据目标状态自适应调整深度算法辅助插入的间隔，以实现深度卷积特征的低频高效使用。

2) 在手工主线算法中，本文结合多尺度、主成分分析操作训练了多个相关滤波跟踪器。算法采用一种能同时反映精确性和鲁棒性的质量评估策略，用来进行跟踪决策。

3) 在深度辅线算法中，本文构造了既包含外观信息又包含高层语义信息的卷积特征。多层次卷积特征的融合使用有效提高了算法的跟踪精度。

本文在OTB 2015和Temple Color128数据集上进行评估测试，并与多种算法进行对比。实验结果表明本算法自适应融合了手工特征和深度卷积特征，达到优势互补，在保证跟踪精度的同时又尽可能地减少深度卷积特征的时间消耗。

1 DCF跟踪框架

相关滤波算法较CT[23]、TLD[24]等算法，实现了快速跟踪且跟踪精度也有较大提升。因此，应用相关滤波框架训练跟踪器是近年来常用的跟踪方法，这些算法主要利用循环矩阵的相关特性快速训练分类器。自相关滤波提出以来，其一系列的改进算法层出不穷，以该框架为基础，多通道算法[7-8,25]将DCF从单通道[5-6]扩展到多维通道特征[7-8]，改进了传统算法中单一的灰度特征，使得跟踪精度有很大提高。而尺度算法[9,15]的出现将DCF框架中融入了尺度滤波器，实现目标尺度估计。核相关算法[6-7]在DCF框架中加入了非线性核，将特征数据映射到高维空间，使得数据变得“更容易”线性可分，有利于目标分类。

在跟踪任务中，DCF的应用是设计一个与输入特征图尺寸相同的滤波器模板，并与输入的特征图作卷积，得到响应图。根据响应得到目标的预测位置，并以该位置为中心提取特征图，反向传播给滤波器用以更新模型。

本文使用核相关滤波[5,7]作为基础操作框架，用x表示目标特征图，尺度为M×N。通过循环矩阵得到的特征图集合为xm,n。相关滤波器w求取过程如式(1)所示。

(1)

式中：(m,n)∈{0,1,…，M-1}×{0,1,…，N-1}，λ参数是用来约束滤波器的正则化参数。

标签函数y(m,n)及d(d∈{1,2，…，D})通道相关滤波器如式(2)和式(3)所示。

(2)

(3)

在跟踪阶段，将特征图Z(M×N×D)输入相关滤波器得到响应图，式(4)用来表示该过程。

(4)

式中：Res代表响应图。

2 自适应双路间隔调控跟踪算法

本文提出了自适应双路间隔调控算法，自适应融合了手工主线算法和深度辅线算法。在主线算法跟踪过程中，实时评估目标的运动状态，依据目标状态自适应调整深度算法辅助插入的间隔，以实现深度卷积特征的低频高效使用。算法大大减少了提取深度卷积特征的时间消耗，既保证算法的跟踪精度又尽可能地提高深度卷积算法的跟踪速度。本文算法框架可移植性较强，可实现不同的手工与深度卷积算法的自适应融合。

如图1所示，本文算法整体框架分为两条跟踪线路和一个调控策略，从左到右依次是基于手工特征的主线算法、双路间隔调控策略、基于深度卷积特征的辅线算法。通过间隔调控策略，算法在持续使用主线算法的同时适时切入深度辅线算法，应对不同跟踪场景可自主控制是否使用深度卷积特征。图中，虚线表示主线跟踪结果不一定会作为最终跟踪结果，而一旦采用深度辅线算法，则一定将辅线跟踪结果作为最终跟踪结果。

图1 自适应双路间隔调控算法流程

2.1 基于多尺度手工特征的组合跟踪主线算法

在目标跟踪任务中，目标尺度经常会发生较大变化，若采用单一尺度特征，会导致算法在目标尺度变化较大的视频序列中发生跟踪漂移甚至丢失现象。本文着眼于目标尺度变化问题，提出基于多尺度手工特征的组合跟踪主线算法。首先，考虑到不同的特征表征目标信息的差异性，算法使用FHOG、CN以及灰度特征得到更丰富的目标特征表达。其次，为提高跟踪器对于尺度变化问题的鲁棒性，算法将多尺度操作同时用于位置和尺度滤波器的训练中，并为减少多尺度带来的计算开销采用主成分分析(PCA)进行特征降维。最后，算法将多尺度特征自由组合为三种混合特征，训练出三个相关滤波器，并采用质量评估策略从三种跟踪结果中决策出最佳跟踪结果。为实时调整模型学习率、提高跟踪模型鲁棒性，算法利用PSR和质量评估进行模型更新。

本文基于多尺度手工特征的主线算法框架示意图如图2所示。

图2 基于多尺度手工特征的组合跟踪主线算法

图2中上部虚线框内表示DSST多尺度算法，DSST为同时训练位置和尺度滤波器，每帧图片都需要提两次特征。下部实线框内代表本文主线算法，主要分为以下几步：

(1) 对输入的图像进行多尺度图像变换，得到33种多尺度图。

(2) 分别对多尺度图像提取MFHOG(33)、MCN(33)和MGray(33)多尺度特征，训练尺度滤波器。

(3) 依据特征尺度选择策略从33种尺度中选择5种尺度的特征图MFHOG(5)、MCN(5)和MGray(5)，用于训练位置滤波器。

(4) 将5种多尺度特征进行PCA降维，并进行特征组合得到三种组合特征，使用三种组合特征分别训练3个位置滤波器。

(5) 使用质量评估策略对3种跟踪响应图进行评估，决策出最佳目标位置。

(1) 多尺度特征提取模块。算法中多尺度特征的使用大大增加了样本的特征多样性，有利于提高算法的跟踪精度。除此之外，本文多尺度特征提取策略仅提取一次多尺度特征，较传统多尺度算法，相对减少了特征提取次数。本文的多尺度搜索策略[9,11,22]设置了33种尺度，并设定相对比例因子为1.02。本文的多尺度特征有两层应用：一方面，使用33种多尺度特征进行尺度滤波器的训练，从而进行实时目标框尺度更新；另一方面，依据特征尺度选择策略从33种尺度中选取5种多尺度特征用于训练位置滤波器，从而进一步提高算法的跟踪精度。

本文的特征尺度选择策略如图3所示。S1～S33为尺度滤波器中使用的33种尺度，其中，Si表示上一帧尺度滤波器预测的目标尺度，算法选择使用33种尺度中的S1(输入图像原始尺度)、Si以及Si左右相邻在内的共5种尺度对应的特征图。当Si-1≤1时，选择Si右侧相邻的尺度。

图3 特征尺度选择策略

(2) PCA降维模块。采用多尺度丰富特征集合及目标信息的同时，特征图的计算量也随之倍增，这对算法实现快速跟踪是非常不利的。降维常被用于跟踪任务中，文献[11]为提高CCOT的速度，使用因式分解操作将D维滤波器降至C维。文献[8]基于PCA思想，实时选择图片中比较显著的颜色，将11维颜色通道降为2维。多维特征中只有部分特征发挥了重要作用，因此，为减少多尺度带来的时间消耗，本文在提取多尺度特征基础上加入了主成分分析PCA降维。

(5)

表1展示了特征的原始通道数及PCA降维后的特征维度。MFHOG和MCN特征分别从31×5、10×5维降到13×5和5×5维，数据量分别降低了58%和50%。

表1 多尺度特征图通道数

(3) 多跟踪器组合跟踪模块。单一跟踪器性能不稳定，而从多个追踪器的决策层得出的融合结果可以有效地提高算法鲁棒性[12]。本文采用多尺度组合特征训练三个相关滤波跟踪器，通过鲁棒性评估策略[12,33]从多种预测位置中自适应选择最优的结果，并将该结果共享反馈给三个跟踪器用以滤波器更新。在此阶段，本文将多尺度灰度特征拼接到多尺度梯度特征的前5维，拼接后MFHOG尺寸为13×5+5，表2为本文的多尺度特征组合方式。

表2 特征组合方式

不同的特征具有不同的属性，能反映目标多方面的信息，灰度特征反映的是最基础的图像信息，和原图相比，灰度特征除去了颜色信息，使图像所含信息量减少，从而也减少了后续跟踪处理的计算量；MFHOG特征表征目标梯度信息，与灰度特征一样色彩几乎对该特征没有贡献，但MFHOG梯度方向直方图可用来表达形状及边缘信息，并通过局部梯度信息特征化目标图像的局部或全局外观及形状。MCN特征弥补了颜色信息的缺失，把RGB三原色细化为11种不同的颜色。本文对于三种手工特征的叠加混合使用，目标信息表述更全面，使算法更好地适应光照变化及小范围的目标形变。

为了从三种跟踪结果中决策出最优结果，算法采用一种能同时反映精确性和鲁棒性的质量评估策略。质量评估Qt定义如下：

(6)

Δ(τ)=1-e-k|τ|2

(7)

式中：k控制着函数值从0到1的变化速度。Δ是二次连续函数，Δ(0)=0,limτ→∞Δ(τ)=1。k=8max(w,h)，w、h是第一帧给定目标框的宽高。

图4直观展示了质量评估过程。图中曲线表征响应图的剖面轮廓，最左侧为最高峰值(主峰)，1～3号峰与主峰的偏离间隔分别为4A、A和3A，与主峰的位置距离为0.2、0.4和0.6。根据式(6)的质量评估公式，三个峰的质量评估值分别为20A、2.5A和5A，2号峰的质量评估值是最小的，则该峰为次峰，同时将2.5A作为响应图Ri的质量评估值Qt(Ri)。

图4 质量评估示意图

使用Qt(R1)、Qt(R2)和Q(R3)分别表示响应图R1、R2和R3的质量评估值，将质量评估值从大到小排列，选择最高质量评估值max(Qt(Ri))对应的跟踪结果作为当前帧的预测目标位置。

2.2 基于分层卷积特征的深度辅线算法

深度网络[26-29]可针对性的从训练数据中学习到更有效的特征表示，有利于提高跟踪精度，近来被较多跟踪算法所采用。本文设计了基于分层卷积特征的深度辅线算法(HCFF)，算法架构如图5所示。算法使用VGGNet-19的Conv4- 4(低层)和Conv5- 4(高层)层卷积特征加权融合构造出既包含外观信息又包含高层语义信息的Fusion4- 5(中层)卷积特征；算法通过加权融合响应获得目标位置。

图5 基于分层卷积特征的深度辅线算法框架

VGGNet-19[27]模型使用3×3以及少数1×1尺寸的小型卷积核和2×2大小的最大池化层，网络深度为19层，常被应用到目标检测、分类及跟踪任务中。在同一个深度网络中，相比全连接层特征，卷积层特征具有更好的图片分类性能表现[30]。卷积层的不同深度也表述了不同层面的信息。浅层CNN特征保留了原图目标的更多空间信息，比如目标的外形、目标的精确位置等；而深层CNN特征基本不包含目标外形等信息，仅能提供大致目标范围，但其提取的高层语义信息，不易随目标外形变化而失真的，应对环境变化具有更强的稳健性。Conv4- 4和Conv5- 4层卷积特征提取的目标信息区别较大，卷积层次由浅入深，对应着深度特征由表观到抽象，两种特征均有优势与不足，能够互补结合。基于此，算法提出利用Conv4- 4和Conv5- 4层卷积特征通过加权叠加的方式构造出中间过渡层特征。一方面，这样做可以构造出更加全面的卷积特征，另一方面，也补充了特征表达从直观到抽象的中间层，形成深度特征由表观到抽象的逐渐过渡。用Fusion4- 5来表示构造的特征，该特征介于两者之间，既包含低层特征的外观轮廓信息，又含有高层特征的深度语义信息，良好地结合了Conv4- 4和Conv5- 4层卷积特征。融合特征Fusion4- 5构造过程如下：

Fusion4- 5=μ*Conv4- 4+σ*Conv5- 4

(8)

随着卷积深度的增加，卷积特征的像素逐渐减小，Conv5- 4层比Conv4- 4层卷积特征像素小得多。因此，为更好地融合两种特征，算法设置了相差较大的μ和σ值，分别为0.05和1。Conv4- 4和Conv5- 4层卷积特征维度均为512维，同一视频序列中，特征尺寸被固定到相同大小以便特征叠加。

Fusion4- 5融合卷积特征可视化展如图6所示，两边分别是Conv4- 4和Conv5- 4层卷积特征，中间一列是Fusion4- 5层卷积特征。Fusion4- 5融合了低层和高层的特征，在基本保留目标轮廓信息的同时更加强调了目标位置信息，还降低了背景信息的噪声。令Fusion4- 5融合特征作为中层特征，三种特征由直观到抽象逐渐过渡，形成良好的特征层次性。

(a) Conv4- 4层卷积特 (b) Fusion4- 5层卷积特 (c) Conv5- 4层卷积特征图6 Fusion4- 5融合卷积特征可视化

随着卷积层次的深入，特征表征目标信息也极具层次性，逐渐从直观到抽象，基于此训练而得的相关滤波器fL、fM和fH相应也具有功能层次结构。fL得到的响应结果ResL有助于精准确定目标位置，但当目标自身及背景发生较大变化时跟踪结果不够稳定；fH的响应结果ResH稳定性高不易受到目标外观变化等影响，可粗略地确定目标位置范围，但精准定位效果有待提高；fM对应的响应图ResM介于fL和fH之间，为由粗到细地定位目标提供了有效的中间过渡保障。高层用于估计目标大致范围，中层逐渐缩小目标范围，在此基础上，低层用于精准定位，三层滤波器的加权融合有助于提高算法的鲁棒性，融合权重α、β和γ分别为1、0.75和0.5。

2.3 自适应双路间隔调控策略

现有的采用相关滤波和深度卷积特征融合训练跟踪器的算法[13,31-33]由于高频使用深度卷积特征而普遍存在特征提取时间长、跟踪实时性较低问题。

本文针对该问题，提出自适应双路间隔调控跟踪算法。算法通过间隔调控策略，在持续使用基于手工特征的主线算法的同时适时切入深度算法，应对不同跟踪场景，可自主调控是否使用深度卷积特征。

为实现在目标发生运动突变时及时调用深度算法，算法引入参数T，用来决定深度辅线算法是否参与跟踪以及确定在哪一帧进行跟踪。图7描述了双路间隔T值更新的流程：目标运动变化量获取、目标运动状态判断和更新T值。其中，输入的目标位置和尺度均为主线算法的跟踪结果。

图7 自适应双路间隔T值更新流程

(1) 目标运动变化量U。运动状态评估是本文算法调节深度特征使用频率的关键步骤。为判断目标运动状态，本文采用目标框中心点位移变化和尺度位移变化的加权值来表征相邻帧的目标运动变化情况，即u。设当前帧的帧数为t，(xt,yt)、(Wt,Ht)分别代表主线算法在第t帧预测目标框的中心位置坐标和宽高。

d1t=(xt-xt-1)2+(yt-yt-1)2

(9)

(10)

ut=αd1t+βd2t

(11)

式中：α、β值分别为0.7和0.3。通过综合估计中心位置和目标尺度变化信息，可评估每一帧图像的目标运动变化量。

(12)

(3)T值更新。若当前帧属于运动突变帧，则设置间隔T等于1，代表间隔一帧使用一次深度特征；若目标状态不属于运动突变，则增加T值，更新方式为从1开始依次递增1个单位。从当前帧开始算起，下一次使用深度辅线算法是在第t+T帧。

双路间隔T值更新算法伪代码如算法1所示，算法设定在目标出现运动突变时，立即切入深度辅线算法，设置间隔T值为1；否则，依次递增深度间隔，不断减少深度特征使用次数。

算法1双路间隔T值更新算法ATIR

Input:

Frame number t,t>=5;j=0,Tj=1 s=4

The value of motion change ui,i∈(2,3,…,t-1,t}

Output:

Twin-channel interval:Tj

LOOP

3:Whent=s+Tj

4:Set: j=j+1;s=t

5:Ifut∉Uthen

6:Set:

7:elseTj=1

8:Set:

9:endifTj=Tj-1+1

10:endwhen

11. The number of frames that using VGG- 19

features:t=s+Tj

图8 自适应双路间隔调控策略演示

2.4 模型在线更新

主线算法与辅线算法相对独立，在更新滤波器环节，主线算法利用PSR峰值旁瓣比以及质量评估值Qt(Ri)进行模型更新，实时调整模型学习率、提高跟踪模型鲁棒性。峰值旁瓣比常被应用于目标跟踪算法中，用来检测是否跟丢，先计算响应图中峰值与响应平均值之差，再比上响应标准差P=(Rmax-μ)/σ，比值越大，代表响应图越干净，跟踪效果越好可靠性越高。在第t帧，计算三个跟踪器的平均PSR值和平均质量评估值如下：

(13)

(14)

(15)

(16)

式中：C=0.01表示学习率，α=0.6，β=3。将η代入式(17)、式(18)即可实现位置滤波器的更新。

(17)

(18)

尺度滤波器fs更新方法与位置滤波器更新过程类似，同样使用式(17)和式(18)进行更新。

本文ATIR算法属于间隔性的跟踪，在调控策略的作用下深度辅线算法仅跟踪了视频序列中的部分帧，因此，用于模型更新的帧数较少。为了提高跟踪的鲁棒性，算法设置在每次使用深度辅线算法后及时更新模型，避免模型不能及时地学习到目标信息。更新公式如式(17)和式(18)所示，其中，模型学习率为η=0.02。

3 实验

3.1 实验环境及评估基准

本文实验所用的软件平台是MATLAB 2015b和Visual Studio 2016，编程语言是MATLAB和C++，处理器配置Intel(R)Core(TM)i7- 4790CPU 3.60 GHz，8 GB RAM，Win10硬件操作系统。

实验使用OTB 2015和Temple Color 128数据集分别进行测试，前者视频序列包含灰度及彩色图像，涉及到11种不同的跟踪属性，包括尺度变化、背景干扰、尺度变化、快速运动等。Temple Color 128数据集，含有128个视频序列，与OTB最大的不同之处在于，Temple Color 128数据库中均是彩色图像，该数据集的提出强调了颜色信息对于跟踪的重要意义。

基于OTB和Temple Color 128数据集，实验采用Visual Tracker Benchmark评估算法的性能，使用精确度和成功率做定量分析：(1) 跟踪精度Precision plot，也称中心位置误差，定义为预测位置中心点与benchmark数据库中手工标注的中心位置之间的平均欧氏距离，是以像素为单位进行的计算。通常使用20像素处的Precision值(DP)作为标准。(2) 成功率图Success plot，主要指的是预测目标框尺度与benchmark数据库手工标注的目标框的重叠率。通常情况下，使用成功率图的曲线下面积AUC值作为标准，用于跟踪算法的排序。

3.2 实验结果与分析

本文实验分为多个部分：1) 针对主线算法的多个改进设置了递进对比实验，为针对性的评估不同改进策略的有效性。2) 在深度辅线算法中，为验证分层卷积特征融合的方式有利于提高跟踪精度，实验对比统计了VGG-19中不同层次的卷积特征以及不同的特征组合方式的跟踪精度。3) 针对本文整体算法ATIR的定性实验，直观评估算法性能。4) 针对本文整体算法ATIR的定量实验，使得评估结果更具有说服力。

1) 主线算法中不同改进模块递进对比实验。

实验基于OTB 2015数据库，设计了不同改进模块的对比实验，跟踪精确度Precision plot如图9所示。图中，不同颜色块表征不同的改进，经典核相关滤波算法KCF为基准算法，Algorithm1～Algorithm5代表基准算法以及基于基准算法的层层递进的改进算法，其中，每个算法均是前一个算法加上改进模块组成。图中黑色文本数字值表示对应模块的数值，红色文本数值表示对应的Algorithmi的跟踪精确度。

图9 不同改进模块递进对比实验

本文主线算法的跟踪精确度为0.812。相较基准算法的0.715，多特征(FHOG+CN+Gray)的使用使算法跟踪精度提高了0.02；多尺度操作的加入不仅可以实时更新目标框尺度大小，并且将算法精度进一步提高至0.765；PCA降维降低了算法的计算量，对于跟踪精度没有较大影响；多跟踪器融合跟踪的使用，将算法精度提高了0.044。上述实验，表明了本文提出的不同改进模块均有效提升了传统相关滤波算法的跟踪性能。几种改进部分对于算法跟踪效果提升度，从大到小排序为多跟踪器、多尺度、多特征以及PCA降维。

2) 深度辅线算法中分层卷积特征对比实验。

深度辅线算法中分层卷积特征对比实验结果(OTB 2015数据库)如表3所示。表中，Layer1、Layer2分别代表使用Conv4- 4和Conv5- 4层卷积特征的跟踪结果；Layer3表示同时使用Conv4- 4和Conv5- 4层卷积特征；Layer4代表使用Fusion4- 5层卷积特征；Layer5使用的特征组合为Conv4- 4、Conv5- 4和Fusion4- 5层卷积特征。实验中使用统一的跟踪框架KCF，仅仅改变不同特征层次的使用。观察表中数据可得，算法构造出的Fusion4- 5层卷积特征取得了较高的跟踪精度，相较Conv4- 4层，精度提高了3.9%。最后一列的Layer5跟踪精度最高，为0.885。实验结果说明：(1) 使用Conv4- 4和Conv5- 4层卷积特征构造出的Fusion4- 5层融合卷积特征表现良好。(2) 本文辅线算法采用的Conv4- 4、Conv5- 4以及Fusion4- 5三层卷积特征的融合使用有助于取得更高的跟踪精度。

表3 不同深度层次的精确度和成功率

3) ATIR算法定性实验。

基于Temple color 128数据库进行了定性实验，选取数据库中的Biker、Skiing、Matrix视频序列，探究本文ATIR算法对于运动突变帧的良好适应性。

跟踪结果如图10所示。在主线算法明显发生跟踪漂移的视频如第一行到第三行中，目标出现了运动突变帧，此时使用稳定性更强的深度卷积特征可及时纠正主线算法的失误，进而可以准确定位目标。如第四行，该目标在运动过程中，起初是匀速运动，此时使用手工特征就足够了。但目标从一侧跳到另一侧的过程中出现运动突变，此时相邻帧运动变化过快，超过了手工特征能跟踪到的稳定范围，此时深度辅线算法发挥关键作用，给主线提供了更准确的目标位置。

图10 不同视频跟踪效果展示

4) ATIR算法定量实验。

本文算法分别与多种经典相关滤波类的算法进行对比实验。其中，对比算法均采用作者提供的源代码，且设置使用默认参数。

(1) OTB 2015数据库实验。

本文选取了CSK、KCF、DSST、SRDCF、CCOT、MCCT等算法进行对比。

表4详细展示了本文算法与经典相关系列算法基于OTB-2015数据库的跟踪效果对比。其中，前六种算法均为基于手工特征的相关滤波算法，后九种除了Siamese-fc，其余八种均为相关滤波结合卷积特征算法。表中，DeepSRDCF、CCOT、以及MCCT等算法在使用深度网络时，每帧都提取深度特征，而本文算法自适应间隔性使用深度特征。由于节省了部分帧图提取深度特征的时间，本文算法较传统深度算法在速度上有明显提高。相较2018年的MCCT算法，本文算法ATIR的跟踪速度为MCCT的3.23倍，基于GPU的速度可达到17.5 FPS。观察表中数据可得，Siamese-fc算法属于端到端的孪生网络，在跟踪速度上优势显著。

表4 不同算法跟踪效果对比

续表4

得益于多尺度以及深度特征的极大优势，本文算法(ATIR)达到了91.2%的最高精度，AUC为68.8%。如图11所示，较基准算法MCCTH，跟踪精度和AUC分别提升了12.3%和8%；与经典多尺度相关滤波算法DSST对比，精度和AUC分别提高26.4%和24.8%；较经典KCF算法，精度和成功率分别提高27.3%和33.8%。实验结果表明，本文提出的自适应间隔调控算法在提高跟踪精度的同时提升了算法的跟踪速度。

(a) 精确度图

(b) 成功率图图11 OTB 2015上精确度图和成功率图

(2) Temple Color128数据库实验。

基于Temple Color128数据库，本文算法分别与CSK、L1APG、MEEN、KCF、MCCTH等多种经典算法进行对比实验。本文算法ATIR跟踪精度达到78.87%，AUC为59.66%。观察图12，较算法MCCTH，跟踪精度和AUC分别提升了8.5%和9.3%；较KCF算法，精度和成功率分别提高40.6%和47.2%。实验结果反映本文算法具有一定优势，能较好解决传统相关滤波算法精度不高问题，除此之外，还有效平衡了使用深度特征带来的时间消耗问题。

(a) 精确度图

(b) 成功率图图12 Temple Color 128上精确度图和成功率图

4 结语

本文提出的自适应间隔调控算法，在手工主线算法基础上间隔性调用深度算法，既保证了深度特征发挥作用，精度极大提高，又尽可能地降低了时间开销，为平衡深度特征和手工特征提出了新思路。本文算法取得了较高的跟踪精度，跟踪速度相较结合卷积特征的深度算法也有些许提升，但仍未达到实时。未来，我们将进一步探索更加实时的跟踪算法，尝试结合Siamese端到端的网络结构，进一步提高跟踪速度。