自适应融合的长期目标跟踪算法

2019-10-16刘巧玲刘一达成都大学信息科学与工程学院四川成都610106

成都大学学报（自然科学版） 2019年3期

刘巧玲，刘一达(成都大学信息科学与工程学院，四川成都 610106)

0 引言

目标跟踪是计算机视觉的重要组成部分之一，主要用于监控、人机交互和医疗图像等方面[1].近年来, 基于相关滤波的实时目标跟踪得到了广泛关注，研究者们提出了大量相关目标跟踪算法.Bolme等[2]首次提出了以均方误差和最小为目标的相关滤波跟踪方法,其最大优点是快速傅里叶变换求解相关操作,跟踪速度快，但由于采样数据有限,跟踪算法容易受环境和目标表观特征变化的影响.Henriques等[3]设计了一种基于循环结构的稠密采样策略,可以尽可能多地采集样本，又不影响目标跟踪的执行速度,取得了很好的效果，但该算法只采用灰度特征来表征目标的表观模型,当遇到灰度特征相近的目标时，容易造成跟踪失败.Danelljan等[4]使用颜色属性(Color name,CN)扩展稠密采样相关滤波跟踪器,应用主成分分析对原本11维的颜色属性进行降维，得到2维的颜色特征,改进了目标的表观特征.Henriques等[5]采用方向梯度直方图(Histogram of oriented gradient,HOG)特征和核函数技术来改进稠密采样相关滤波跟踪器,得到基于HOG特征的核相关滤波跟踪算法,跟踪鲁棒性有了较大提高.Li等[6]将CN和HOG进行组合后用于相关滤波(Correlation filter，CF)框架,提出了SAMF跟踪算法,实验结果表明特征融合能够有效提高跟踪性能.此外，Ma等[7]提出了基于相关滤波的LCT算法，因引入再检测模块在长期跟踪中性能良好.这些基于相关滤波器的跟踪器性能优于经典算法，但并不总是如此有效地应对复杂的视频环境.

当目标受尺度变化、严重遮挡、出视野或快速运动等因素影响时，基于相关滤波的跟踪算法会出现跟踪失败的情况.针对这一问题，本研究在稀疏核相关滤波器(Sparse-kernel correlation filter,S-KCF)[8]的基础上，引入颜色模型跟踪，进行自适应融合，同时，应用了一种跟踪失败情况下的再检测模块，以响应图最大值作为判断跟踪失败和再检测成功的标准，解决了KCF跟踪器在跟踪过程中目标因严重遮挡、出视野等因素而造成的跟踪失败问题，实现了长期的目标跟踪.为验证本研究方法的有效性，本研究利用OTB-2015评估基准[9]的100组完全标注的视频序列进行测试，并与目前热门的10种跟踪算法进行对比.

1 基础模型

1.1 S-KCF模型

核相关滤波器KCF[5]在实时跟踪中取得了很大的成功,利用循环结构，将视觉跟踪表述为相关滤波问题.首先，利用初始帧中目标区域的循环移位来训练KCF模型，KCF模型用于预测下一帧的响应图，具有最大响应值的位置即为新目标的位置.随着跟踪的进行，KCF模型逐步更新以适应背景变化.然而，对于复杂场景，传统的KCF模型会由于许多相似的干扰物、严重的遮挡和光照变化而导致跟踪失败.

为了增强KCF模型对背景变化的鲁棒性，文献[8]提出了使用一个l0稀疏项来调整响应图，从而抑制干扰物、遮挡和光照变化引起的高响应.典型的相关滤波器[10-11]是岭回归问题，

(1)

式中，f(xi)=WTφ(xi)是回归函数，用特征空间投影器φ(·)训练得到，{yi}是高斯形状的响应图，λ>0是控制过拟合的参数.

高斯型目标响应图是稀疏的，由于干扰物在人群场景中具有相似的外观，跟踪器通常会生成多峰值响应图.因此，在响应映射上添加稀疏正则化项，以便抑制不相关的响应并保留目标响应[8]，

(2)

式中，Φ=[Φ(x1),…,Φ(xi)]；y=[y1,…,yi]T;τ>0是控制响应图稀疏性的参数.

在训练过程中，稀疏约束使跟踪器滤波器W考虑上下文变化，并将分类器的弱正响应推到0.因此，稀疏约束训练的滤波器可以在测试集上生成稀疏响应映射.式(2)是一个NP困难问题，因为它有一个l0项.为了使式(2)易于处理，添加辅助二次约束，并重写式(2)为，

(3)

式中，β是控制r和ΦTW相似度的参数，当β足够大，r接近等于ΦTW.式(3)的解可以通过交替求解W和R找到，

(4)

(5)

对于核回归(非线性)，W=∑iαiφ(xi)，因此，优化下的变量是α[5],可以用闭合形式求解，

(6)

式中，k是核矩阵K的第一行，矩阵K的元素为kij=φ(xi)Tφ(xi)，∧表示向量的DFT，分数意味着元素级划分，式(6)最优解r为，

(7)

式中，σ是软阈值函数.

σ(ε,x)=sign(x)max(0,|x|-ε)

(8)

(9)

1.2 颜色模型

颜色模型[12]一般是基于广泛使用的检测跟踪原理，它从边界框集合中选择得分最高的边界框(给出目标位置)作为最终的测试结果，在几帧内定位感兴趣的对象.与其他基于分类器方法相比，颜色模型通过学习正样本和负样本来获得参数.

本研究采用基于RGB的颜色特征，在32×32×32的箱子空间中计算bins颜色直方图.为了加快计算速度，在颜色模型中，Staple算法[12]将RGB空间表示的每个像素u映射到图像32×32×32个分隔空间的索引特征j=φ(u)中.如图1所示，在区域中的实线框内是前景区域O，实线边框外虚线框内的区域是背景区域B.

图1 训练块Td,t

假设矩阵框Td,t是从t帧估计的目标位置T周围采样得到的，Staple算法将Td,t分为前景区域O、背景区域B，分别计算前景区域O(与先前帧的估计目标共享大小)和背景区域B里每个特征比例.假设区域Ω∈{O,B},每个特征32×32×32个空格的比例可以用ρj(Ω)=Nj(Ω)/|Ω|来表示，其中Nj(Ω)=|{u∈Ω∶φ(u)=j}|表示区域Ω特征数量，|Ω|表示区域Ω里的总像素.因此，在线模型的ρj(O)和ρj(B)遵循以下公式，

(10)

(11)

(12)

图2 颜色模型的响应

称之为每一像素得分，如图2(b)中的热图所示.

(13)

然后，利用固定尺寸st的滑动边框的得分矩阵St+1,β，利用式(13)可以计算所有在Y集合中边界框的颜色.由此，得到其他得分矩阵，

2 改进算法

2.1 自适应融合

本研究在S-KCF和颜色模型的基础上，提出从滤波响应图层面进行模型融合，以提升跟踪性能，同时，为了增加融合的适应性，在对不同视频序列进行跟踪时对2个模型得到的响应图进行自适应加权，以突出视频帧中更具判别力的特征[10].

第t帧训练中，损失差的计算简写如下，

(14)

式中,sum()表示对矩阵内每一项求和,F表示模型的集合.模型f对应的归一化权重为，

(15)

式中,{F-f}表示F中不同于f的另一模型.

(16)

(17)

2.2 在线检测

在跟踪失败的情况下，鲁棒的长期跟踪算法需要重新检测模块.当对每个帧进行再检测时，计算复杂度很高，因此本研究提出了一种新的方法来检测跟踪失败以确定何时需要激活再检测模块.

2.2.1 失败检测.

CCT跟踪器[11]使用边界框的重叠率来检测跟踪故障，但是平移估计的不准确性会导致结果不准确.本研究利用响应图最大值来检测，响应图的最大响应值Rmax定义为，

Rmax=maxR

(18)

式中，R为响应图.当前帧的准则Rmax大于其历史平均值，并且具有一定比率时，当前帧中的跟踪结果被认为是高置信度的.

2.2.2 对象重新检测.

类似于CUR跟踪器，本研究采用一个在线的CUR滤波器来重新检测对象.但与CCT跟踪器不同，本研究使用Rmax来确定是否更新过滤器，并且使用多通道特征来表示对象候选.CUR分解算法寻求矩阵A∈Rm×n的c列的子集以形成矩阵C∈Rm×c，r行的子集以形成矩阵R∈Rr×n，以及交矩阵U∈Rc×r，使得‖A-CUR‖ζ最小化，其中‖‖ζ是2范数或F范数.在跟踪过程中，本研究将目标外观表示为向量，数据矩阵A的一列.A也可以被视为历史目标表示矩阵.根据文献[11]中的理论，本研究用随机抽样的方法对数据矩阵A的c列进行抽样，生成列矩阵C，然后对列矩阵C进行平均，从而实现目标检测滤波器.矩阵C的列c可以从近似c=(2k/ε)(1+O(1))得到，其中，k是目标秩，ρ是A的秩,0<ε<1.

3 结果与分析

为验证本研究算法的有效性，在配置为Matlab2016a、Intel(R)Core(TM)i5-7300 CPU、主频2.6 GHz及8 GiB内存的平台上，利用OTB-2015中[9]的100个完全标注的视频数据集包含11种属性进行评估，与目前热门的跟踪算法[4-15]进行了对比.OTB-2015视频数据集[9]包含了以下11个属性：光照变化(Illumination variation)、尺度变化(Scale variation)、遮挡(Occlusion)、形变(Deformation)、运动模糊(Motion blur)、快速运动(Fast motion)、平面内旋转(In-plane rotation)、平面外旋转(Out-of-plane rotation)、出视野(Out-of-view)、复杂背景(Background clutter)与低分辨率(Low resolution).

为了评估跟踪算法的性能，本实验采用了OTB-2015中的2种评估方法作为定量评价指标[9]：精确度图(Precision plot)和成功率图(Success plot).在跟踪精度评估中，广泛应用的是中心位置误差(CLE).中心位置误差定义为跟踪目标的中心位置和手工标定的准确中心位置之间的平均欧式距离.精确度图能够显示目标中心位置误差小于阈值的帧数占视频总帧数的百分比.实验中阈值选定为20 pixels.成功率图能够显示重叠率S大于给定阈值t0的帧数占视频总帧数的百分比.其中，重叠率S定义为S=|Rt∩Ra|/|Rt∪Ra|,Rt为跟踪的目标框，Ra为准确的目标框.成功率给出了阈值t0从0到1变化时，成功的帧数所占的比例，利用成功率图曲线下的面积(AUC)作为跟踪算法性能的评价准则.

3.1 整体性能分析

图3为整体性能排名前10的跟踪算法分别在SRE、TRE、OPE 3种方法下的.在OPE的精确度图中，可以看到本研究的算法精确度为0.890，相比于KCF和LCT算法分别提高了21%和5.82%.在OPE的成功率图中，本研究的算法成功率为0.861，相比于KCF和LCT算法分别提高了41.1%和7.48%.

图3 排名前10跟踪算法SRE、TRE、OPE的精确度图和成功率图

3.2 基于数据集属性的性能分析

为充分评估本研究的算法跟踪性能,利用OTB-2015视频数据集的11个属性进一步评估本研究算法的性能.图4为排名前10的跟踪算法在包含11个属性数据集上的精确度图.由图4可知，本研究的算法除了在低分辨率这个属性精度图上排名第3位，其余10个属性的精度图上都排名第1位，对比其他算法中效果最好的LCT算法，在遮挡、出视野、变形和快速运动属性精度图上，本研究的算法分别提高了6.3%、4.5%、4.7%和15.1%.

图4 排名前10跟踪算法在11个属性的精确度图

通过整体性能、数据集属性对比，可以看出本研究算法相对于其他算法具有更强的鲁棒性.

4 结论

本研究探讨了一种有效的长期目标跟踪算法，提出了稀疏核相关滤波和颜色模型的自适应融合.此外，本研究使用相关响应最大值来检测完全遮挡和视野之外的跟踪失败，并使用在线CUR滤波器来重新检测目标.实验数据表明，在目标发生尺度变化、遮挡及快速运动等复杂场景下,与近年出现的几种优秀跟踪方法相比，本研究的算法具有更强的鲁棒性.