深度特征的核相关滤波视觉跟踪

2020-08-03魏永强杨小军

计算机工程与应用 2020年15期

魏永强，杨小军

长安大学信息工程学院，西安 710064

1 引言

视觉目标跟踪作为计算机视觉领域的一个重要研究课题，在智能监控[1-3]、人机交互[4-5]、虚拟现实[6-8]中得到广泛的实际应用。视觉目标跟踪是指当给定要跟踪的视频图像第一帧中目标的初始位置，来计算在下一帧视频图像中目标的确切位置[9]。与此同时，对于视频中的运动目标，其运动的场景非常复杂并且经常发生变化，容易受到背景相似、光照条件变化、遮挡、外观变形、快速运动等各种干扰因素；并且目标跟踪算法还要具备实时性[10]。针对这些问题，许多算法应运而生。其中，文献[11]使用分类方法对目标进行跟踪。文献[12]提出TLD（Tracking-Learning-Detection）目标跟踪框架，尝试实现目标在完全被遮挡或者目标离开视场等复杂场景下的长时间目标跟踪。该框架将长时间目标跟踪划分为三个子模块，即跟踪、学习和检测模块。文献[13]利用SVM方法在线学习一个分类器。文献[14]将颜色属性作为输入数据，通过将目标在RGB空间的颜色特征转化到CN空间的11维颜色特征，它可以准确、稳定地处理丰富的颜色特征，因此用提取到的CN特征训练出来的滤波器更加鲁棒。文献[15]针对传统的核相关滤波器样本尺寸固定的问题，融合了HOG特征和CN特征以及灰度特征；同时使用尺度池技术对目标进行尺度变化的检测跟踪，找到目标的最佳尺度，提高跟踪器的综合性能。文献[16]将尺度滤波器和位置滤波器相结合，位置滤波器进行当前帧目标的定位，尺度滤波器进行当前帧目标尺度的估计，从而可以选择不同的特征种类和特征计算方式。文献[17]通过采用PCA降维，尺度由33个减少到17个，提高了速度和鲁棒性。针对在遮挡的情况下可能导致追踪失败。文献[18]通过将空间和时间正则化纳入DCF框架，有效解决边界效应，可以在有遮挡情况下成功追踪目标，同时能够很好地适应较大的外观变化，该模型在准确率、鲁棒性和速度方面都表现良好，可实时追踪目标。文献[19]使用每一帧灰度图像中的目标图像块训练滤波器，在频域进行相关滤波，实现目标的实时跟踪。在该框架基础上，基于相关滤波的跟踪算法取得了极大的突破，大大扩展了相关滤波的应用范围。文献[20]中，在时域中的相关运算数学表达式为：

式中f和h、g分别表示要跟踪的视频图像、滤波器模板、响应输出。为加速计算，对上式进行快速傅里叶变换。将输入的图像以及滤波器进行二维傅里叶变换，然后将时域中的卷积变成频域内的点乘，得到下式：

⊙表示点乘，∗表示复共轭。为了能获得一个将训练数据映射到期望输出的滤波器，通过建立最小化输出平方和误差模型来求解滤波模板。考虑到目标外观变化的影响，因此对初始跟踪框进行随机仿射变换来产生n个图像作为参考样本，从而提高滤波器模板的鲁棒性。由此得到目标函数：

利用目标函数可以训练出最优的相关滤波模板。

基于核相关滤波的算法凭借实时性优势得到广泛应用。但由于采用传统的浅层手工特征，在实际跟踪过程中存在精度过低问题。针对此问题，本文提出的算法基于核相关滤波框架，并利用预训练好的卷积神经网络模型（残差网络[21]）来提取深度特征，在满足实时性的同时，精度也有较大的提升。

2 核滤波相关

自从 MOSSE（Minimum Output Sum of Squared Error）算法把相关滤波的思想运用到目标跟踪问题中，凭借极快的跟踪速度，相关滤波算法不断得到改进。CSK跟踪算法，引入图像的循环移位采样、巧用核函数等方法进行跟踪。后来，在原有的核相关滤波算法的基础上，把此算法拓展到具有多个通道特征的情况，提出了KCF[22]算法。该算法主要流程可分为以下四个方面。

2.1 样本构造

在分类时如何构造所需要训练的样本是一个非常关键的问题。传统方法中利用在视频图像上临近目标区域采集得到的样本作为正样本，离目标较远的区域采集得到的样本为负样本。但这种采样方法不足之处在于：采集到的样本没有规律，采集的样本过多，在进行训练的时候会很耗时。于是，KCF算法通过对目标区域进行循环采样，既能获得足够多的合理训练样本，又能在计算的过程中利用循环矩阵的性质把求解过程转化到傅里叶域中实现，提高了算法的速度。

2.2 训练分类器

算法的主要目标是从训练样本中学习一个多通道的卷积滤波器。假设第i个训练样本为xi，对应标签为yi，对样本训练的目标就是要获取一个函数来表示输入与输出，分类器的训练可以通过最小下式来获得：

其中，w为向量参数（滤波模板系数），λ为正则化参数。

2.3 目标位置检测

通过下式来计算检测样本z对应的回归值为：

当待检测样本的个数很多时，计算非常耗时，为此，在样本检测过程中，采取与样本训练同样的方式，循环构造检测样本，定义训练样本x和检测样本z的核矩阵：f()

z表示循环移位构造得到的检测样本对应的回归响应，利用循环矩阵的性质，可以在离散傅里叶域先求出：

其中⊙表示点乘，对上式两边使用傅里叶逆变换即可获取回归响应。整个过程中在傅里叶域上进行各种运算，减少运算量、更加快速。

2.4 更新分类器

由于目标的外观模型是不断变化的，同时，目标的历史信息也极为重要。因此采用如下的更新公式来更新分类器：

3 结合深度特征的核相关滤波

3.1 用CNN提取深度特征

在目标跟踪领域，文献[23]提出不同的卷积层输出的特征图特性不同：深层次的卷积层会提取出更抽象的特征，包含更丰富的语义信息，在区分不同种类物体时能力较强，而且对形变和遮挡比较鲁棒；浅层次的卷积层特征将会提供更具体的局部特征，它们在区分同类物体的不同个体时，区分能力更强，但对于外观变化并不鲁棒。因此，为了使卷积神经网络的空间分辨能力进一步提升，提出的算法基于核关滤波框架，并且利用预训练好的残差网络提取深度特征，得到每一个卷积层的输出特征，然后结合相关滤波来确定目标的位置。

3.2 双线性插值进行上采样

由于网络中的池化操作，随着卷积层级的加深，提取到的特征空间分辨率逐步降低，无法对目标进行精确的定位，因此需要使用双线性插值对提取到的特征进行上采样，按照公式：

这里xi代表上采样后的特征图，hk代表上采样之前的深度特征图，αik是插值的权值。

3.3 相关滤波结合深度特征

每个卷积层的输出都是被用作多个通道特征，对于每一层的输出特征，大小为M×N×D，M、N代表图像特征的宽高，D是特征的通道数。将上采样后的特征图xi在M维和N维上的所有循环移位作为训练样本，每一个xm,n(m,n)都有一个高斯函数标签y(m,n)=符合二维高斯分布。因此可以学习得到一个与xi同样尺寸大小的滤波器w。

λ是正则化参数。通过快速傅里叶变换将目标函数转换到频域：

Y表示傅里叶变换，表示X的复共轭，代表逐元素点乘。当给定下一帧视频图像当中的候选区域后，然后提取该区域的深度特征Z，大小为M×N×D，则第l卷积层相关滤波的响应图可以用下式子计算得到：

其中，F-1表示傅里叶逆变换。则相关响应图fl的最大值处就是目标位置。

3.4 精确估计目标位置

本文采用CNN各层的输出作为深度特征，并对每层的输出均构造一个独立的相关滤波器。给定一组相关滤波响应特征图的集合{fl}分层来推断出每一层特征图当中的目标位置，用(m̂,n̂)=argmaxm,nfl(m,n)来表示第l层的最大响应位置，则前一个卷积层当中目标的最优位置可以用下式求出：

其中，γ为正则化参数，后一层的响应会对前一层的响应产生影响。后一层的响应值被正则化参数γ加权并且反向传播到前一层的相关响应映射。最后，在空间分辨率最高的卷积层通过最大化式（15）来估计目标的精确位置。

3.5 相关滤波器更新

为了得到一个更加鲁棒的近似，用移动平均来分别更新滤波器式（13）中Wd的分子Ad、分母Bd。

其中，t为视频帧索引，η为学习速率。

4 实验结果与分析

4.1 实验参数

本文用在ImageNet上训练好的残差卷积神经网络提取深度特征。为了提高特征图的空间分辨率，输出特征不经过池化层。给定视频帧的搜索窗口大小是目标大小的2倍，把每一个卷积层提取到的深度特征缩放到固定尺寸。每一个卷积层上用于训练滤波器的参数是一样的，式（12）的正则化参数设置为10−4，用核带宽为0.1的高斯函数产生标签。把式（13）中学习速率设置为0.001。

4.2 评价标准

本文主要选用OTB50和OTB100[24]中的视频序列进行实验评测，遵循文献[24]实验设置。采用主流的评价指标来衡量跟踪效果。第一个是精确度曲线，定义为跟踪目标的中心位置和手工标定的准确位置之间的平均欧氏距离，一般选择曲线在阈值为20像素处的精确度来对比不同的算法，欧式距离为：D=成功率指对于视频的每一帧，当跟踪得到的目标区域BT与目标真实区域BG交集除以并集得到的VOR大于某个阈值时，代表跟踪是成功的但这种方法不具有代表性，因此通常使用每一个成功率图曲线下方的面积（AUC）作为替代，用于对目标跟踪算法进行排序。

4.3 定量比较分析

将本文提出的算法和一些算法进行对比。对比的算法包括 ECO_DEEP[25]、SRDCF[26]、STRCF[18]、DCF[27]、CCOT_HOG[28]、BACF[29]。提出的算法通过深度特征融合，极大地提升了性能，同时，由于实验选取的数据集包含各种挑战因素，在不同的视频帧中，本文算法都取得了较好的结果。跟踪结果精确度图，成功率图如图1所示。

图1 算法精确度、成功率图

为了进一步验证本文算法对光照变化、尺度变化、运动模糊、遮挡、快速运动等各种干扰因素的鲁棒性，图2给出了与其他各种算法的对比。

从图2得出，本文提出的算法由于采用更轻量级的主干网络架构来提取深度特征，能够在大多数干扰因素下取得较好的跟踪效果。

图2 各种干扰因素下的对比

4.4 定性比较分析

为了体现本文提出算法的跟踪性能，在OTB50、OTB100数据集上选取了一些视频序列进行测试，对不同算法的跟踪结果进行对比，跟踪结果如图3所示。

图3 算法在不同视频跟踪结果

综合上述实验的对比结果，在不同干扰因素视频中本章算法表现了其优越的跟踪性能。从图3中可以看出，在Jogging视频序列中第55帧目标被电线杆完全遮挡，其他四种算法虽然也能成功到跟踪目标，但本文算法能迅速地找到目标，跟踪精度更高，能够完成全跟踪过程，说明本文算法可处理完全遮挡，鲁棒性好。在freeman序列中，目标在行走过程中存在旋转现象，从第237帧可知，由于目标旋转，其他四种算法均陆续出现漂移，跟丢目标。而本文算法利用深度特征，因此能够精确地跟踪目标，保证了算法的高效性。在skiing视频序列中，由于目标存在快速运动、旋转、尺度的变化且目标运动方向发生急剧变化，对算法跟踪产生了较大干扰，只有本文提出的算法能够有效地一直成功跟踪目标，其他算法均跟踪失败。在soccer视频序列中，存在背景杂波、快速变形、运动模糊、超出平面外旋转等干扰，本文算法的跟踪效果优于其他四种算法。

5 结论

针对相关滤波目标跟踪算法中手工特征带来的一些问题。本文提出的算法基于核相关滤波框架，并利用预训练好的卷积神经网络模型（残差网络）来提取深度特征，充分考虑了不同卷积层的深度特征特性，使用对不同类别物体判别能力较强的高层特征和对同类间不同物体判别能力较强的浅层特征，将不同层次的深度特征进行融合，增强了深度特征的判别能力，提升了目标跟踪算法的性能。在选定的视频序列上进行对比实验得到的结果表明，得益于深度特征融合算法，本文提出的算法优于相关的对比算法。