融合卷积神经网络的核相关滤波视觉目标跟随算法研究

2021-01-07田应仲刘伊芳

计算机测量与控制 2020年12期

田应仲,刘伊芳,李龙

(1.上海大学机电工程与自动化学院，上海 200444; 2.上海市智能制造及机器人重点实验室，上海 200444)

0 引言

目标跟踪技术在各行各业发挥着越来越重要的作用，具有极大的研究意义。目标跟踪任务的过程是第一帧标定跟踪目标的位置和大小，在接下来的每一帧预测出跟踪目标的位置、大小。整个跟踪过程首先，初始化目标框，然后，在下一帧中产生众多候选框，提取候选框的特征，并对候选框打分，最后选出得分最高的候选框即为预测的目标对象，或者对多个预测值进行融合，得到更优的预测目标。

文献[1]在2014年提出核相关滤波(KCF,kernel correlation filter)跟踪算法。KCF跟踪算法引入循环矩阵线性可对角化的性质，并且通过岭回归模型计算模板样本和当前样本的相关性，来预测目标所在位置。该算法将时域的卷积转换到频域的点乘，避免了求逆过程的计算量，可显著提升跟踪速度，获得学者们的广泛关注。

近些年，深度卷积网络(CNN)学习技术迅速兴起，尤其在视觉检测和目标识别获得巨大进展，将深度学习技术应用于目标跟踪成为热门研究方向之一。深度卷积网络在特征提取方面的强大能力，使目标跟踪在许多复杂场景中的准确率显著地提升。通过研究卷积网络发现，其底层特征更注重细节，而其高层特征更能体现语义信息[2]。若将各层卷积特征加权融合，则目标检测的效果优于仅用单层特征。具体来说，首先，将每一层中提取的特征分别送到核相关滤波器中学习，其次，再根据场景不同，调节各层权重，线性融合各层的特征，最后，由相关滤波器来预测目标为主。综上，将深度特征应用在核相关滤波算法中，可将深度学习的精度与核相关滤波的速度两个方面优势互补，全方面提升跟踪效果。

1 ZFnet算法

如图1所示，卷积神经网络是三维空间模型，主要有三部分组成：输入层、中间层、全连接层。输入层是图像信息的输入，为保证效果，输入的图像会进行预处理。中间层由卷积层和池化层交替组成。如果层数越多，则计算量越大，结构也越复杂。卷积层是卷积神经网络的核心，主要用于图像处理。池化层能够通过处理相邻区域的特征减少参数。全连接层在整个模型中起到“分类器”的作用，且不含有空间信息。卷积神经网络的最终结果由全连接层输出。

图1 卷积神经网络结构图

众所周知，卷积神经网络在目标跟踪方法具有强大的优势。首先，深度卷积网络因具有极高的目标特征提取与表达能力，在跟踪精度和鲁棒性方面超越了传统目标跟踪算法。其次，卷积神经网络采用端到端的学习方式，用单个模型替代多模型，这样不仅可以减少数据，降低计算复杂度，也可以降低由多个模型带来的累积误差。但是，卷积神经网络还存在一些问题亟待解决：1)在跟踪过程中，需要一直在线微调，这会降低跟踪的速度，并且，多尺度检测也会降低跟踪的实时性;2)卷积网络不同层提取到的特征对目标的定位作用不同，每一层提取的各层特征算子并未得到充分利用。

为了解决以上两点问题，在众多卷积神经网络模型中选用ZFnet[3]算法作为基本框架。ZFnet算法基于Alexnet改进卷积层数少，结构简单，且不需要在线更新网络模型，保证算法实时性的同时兼顾精度，曾获2013 ILSVRC2013的冠军，具有非常好的性能。ZFnet网络介绍如下：输入的图像为三通道固定大小224×224。网络的第一层有96 个不同滤波器的卷积，其中每个滤波器的大小均为 7×7，横纵向的步长均为 2。激活函数是ReLU，用于处理非线性问题。池化层大小为 3×3。池化层后是局部响应归一化LRN，可以增强模型的泛化能力。以此方法类推，完成卷积层2，3，4，5层的操作。卷积层后是两个全连接层以 4096 维向量形式输出结果。

2 基于卷积神经网络的分层特征提取机制

为了进一步提升ZFnet算法的跟踪精度，提出分层特征提取机制。ZFnet算法由5个向量卷积层组成。当输入同一张图片到卷积神经网络模型中时，不同卷积层的输出结果不同。原始图片经过卷积层采样之后，层数越高，得到的语义信息更丰富，更易区分出来目标物体的类别。但是，也造成了特征图片不清晰和分辨率下降，在目标外形颜色等细节识别上存在劣势。之所以出现图片轮廓不清晰的问题，是因为采样过程中过滤掉了图片中的细节特征。综上，第一层和第二层表示基本特征，具有较高的空间分辨率。比如边缘、颜色等特征。第三层具有复杂环境的空间不变性，能识别相似的纹理特征。第四层能够显示特定类别之间的明显差异。第五层包含更多抽象语义信息，能表示整个目标的全面变化。于是，当面对背景剧烈变化时，我们会适当加大第四层和第五层的权重。当目标静态遮挡严重时，可调高第一、二和三层权重。

为将浅层特征与深层特征更好地结合，提出一种自适化逐层推理化的模型。具体推导如下，每层卷积网络的响应图为：

f=R(z)=F-1(w⊙ψ(z))

(1)

其中:F-1是傅里叶逆变换；w核相关滤波器； (z)是卷积通道的特征。

每层卷积网络根据响应位置得到的预测结果为：

(2)

其中:l是层数，m、n是响应图的目标位置，ul是l层对应系数。

若从第三、四、五层卷积层提取特征，每层得到三个不同的响应结果f1、f2和f3。则从最高层(第五层)开始推理，得到最大响应值的位置后，在下一层(第四层)取半径为r的区域，找到第四层和第五层响应值线性组合最大的响应位置，即为第四层目标位置。以此类推，可以得到每层响应的最大位置。逐层推理的公式如下：

(3)

在得到每层的响应位置后，融合多层输出特征可以更全面表征图像。将第三层、第四层和第五层中提取的特征进行加权融合。但是由于卷积模型中的池化作用，每层的特征图尺寸大小不同。所以，在融合之前需要先用双线性插值的方法将图像进行归一化采样。采样后的每层图像大小相同，使用公式(4)进行加权融合，计算融合后的响应图位置，则是目标的预测位置。

f=a1f1+a2f2+a3f3

(4)

其中:f1、f2和f3分别是第三、第四和第五层的响应图。a1、a2和a3分别是第三、第四和第五层的响应图对应的权值。

(5)

其中:P(xi,yi)是预测目标的位置，也是最终响应图的最大响应值。

3 结合分层卷积特征的核相关滤波算法

孪生网络模型可以从图像中提取更具判别力的卷积特征，而核相关滤波模型具有快速检测的能力，能加速跟踪算法。将两种算法融合，从而实现优势互补。图2是孪生网络与核相关滤波算法融合的算法结构图。

图2 孪生网络与核相关滤波算法融合图

融合跟踪算法的主要流程如下：首先，分别输入样例图像和当前搜索图像到孪生网络模型；然后，孪生网络模型根据相似度函数求出当前搜索图像中与样例图像相似性最高的区域，并将结果输出到滤波器中；最后，滤波器通过对两张图的相关操作，生成相似度概率热图。概率热图中的最大值就是目标所在位置。

核相关滤波算法将初始图像通过循环移位构建训练样本矩阵X，监督标签Y，核相关滤波系数是W，W是一系列的高斯分布值，则核相关滤波回归模型可表达为：

(6)

其中:λ1为正则化系数，*是核相关滤波卷积运算。

将每层卷积网络都加入核相关滤波器后，可以用深度学习框架优化求解滤波器回归模型，构建卷积神经网络能量函数，并优化该函数使之能量最小化。

(7)

其中:Lw(X(i))是学习损失项，γ(W)是正则化项，i是当前样本数，N是训练样本总数。

在训练过程中，为了进一步降低预测值与真实值之间的差异，提出损失函数这一概念：

L(W)=‖F(x)-Y‖2+λ1‖W‖2

(8)

为了进一步感知目标周围的背景信息，在卷积网络中融入背景感知模型：

(9)

其中:x0代表目标，xi是目标附近的背景图像，它们循环移位构造的矩阵样本分别是f(x0)和f(xi)；L+(x0)为正样本损失函数，L-(xi)为负样本损失函数，都为2范数损失项；‖w‖是正则化式；λ1和λ2分别为正则化系数和正负样本控制参数；k是负样本个数。

将核相关滤波器融入卷积层时，修改能量函数为:

(10)

4 基于遮挡判别的更新策略

在跟踪过程中经常会遇到目标被障碍物部分遮挡或者全部遮挡，其中很多障碍物跟目标具有相似外形，这给跟踪的过程带来了极大的挑战。

目标识别过程选用置信度响应图函数，置信度越高代表越接近目标。函数如下：

(11)

(12)

(13)

最后通过式(12)滤波操作可求解响应值，响应值最大处即为预测的跟踪目标位置。

(14)

5 实验结果与分析

实验评估视频训练数据集选用CVPR2013发表出的OTB-50(object tracking benchmark)[4]。实验硬件配置是2.6 GHz Intel CoreI5 CPU，8 GB 内存。软件是Window10系统上Matlab2018a以及谷歌云GPU服务器。在ImageNet上预训练网络模型。

实验参数如下：正则化参数λ1=10-4，λ2=25。卷积层第五层到第三层的参数依次为1，0.5，0.25。实验部分从定性和定量两个方面评估改进后的算法(Ours)。

5.1 定性评估

图3介绍的是Ours在girl视频训练集上的跟踪效果对比图。整个视频出现了很严重的遮挡现象，并且目标在视野内旋转形变。这些挑战给跟踪过程带来了困难。从图3可以看出Ours算法能够准确识别目标。这是由于算法采用深度特征处理图像信息。此外，深度特征还可以应对尺度变化的挑战，在目标发生尺度变化时，可以自适应调节跟踪框，保证良好的目标识别效果。因此，将卷积神经网络模型和核相关滤波算法相结合，可以直观地看到跟踪性能的明显提升。

图3 girl视频训练集定性评估

5.2 定量评估

Ours算法与将之前发表流行目标跟踪算法进行一次通过评估(OPE,one-pass evaluation)。OPE是指从视频序列的第一帧开始，按照视频顺序，运行到最后一帧。评价指标包括精确率和成功率。精确率采用中心位置误差进行评估，具体是指预测目标中心位置与实际目标中心位置之间平均欧式距离。成功率是指跟踪器预测的目标框与真实框的重叠面积与两个目标框总面积之比。对比的算法主要分为两大类。一类是传统的目标跟踪算法，包括：staple[5]、KCF[1]、fDSST[6]和CSK[7]；另一类是基于深度学习的跟踪算法，包括：DCFnet[8]、Raf[9]和CNT[10]。

通过本章算法与其他优秀的7种算法比较，可以看出本章算法性能表现优异。由图4可以看出，Ours在精确率和成功率都排名第一，在OPE评估方式中平均准确性达到了90.0%，相比于核相关滤波算法(KCF)70.2%的精确度，提升28.6%；平均成功率达到了80.2%，相比于KCF 60.6%的精确度，提高了32.3%。实验证明Ours鲁棒性更好，相较于KCF有较大提升。

由图5可以看出，KCF、CSK和staple传统跟踪算法在遇到背景复杂、目标发生形变或被严重遮挡的情况下跟踪精确率较低。这是由于他们使用的手工特征，提取特征较少，没有充分利用图像信息。相反，基于深度特征的视觉跟踪算法，如Ours、DCFnet具有结构性的特点，够将目标和背景进行更加精准的区分，准确识别目标物体，算法的鲁棒性较强。图5(a)的实验结果表示，在目标发生外观变形的挑战下，Ours算法精确度87.5%，在各类对比算法中排名最高。相较于KCF算法67.1%的精确度，提升30.4%。这是由于Ours算法用卷积神经网络模型拥有尺度自适应的目标检测处理机制。目标识别框随着跟踪目标的尺度变化而变化，这样能避免目标图像信息采集不全或者目标框内冗余信息过多。但是，KCF算法的跟踪框由第一帧人为标定，后期跟踪过程中不会随着目标尺度发生变化。图5(b)背景模糊评价指标中，Ours跟踪精度排名第一，精确率86.3%，在各类对比算法中排名最高。相较于KCF算法68.8%的精确度，提升25.4%。在跟踪过程中，当遇到目标物体与障碍物形状、颜色相似，背景信息杂乱的情况时，需要充分考虑目标的上下文信息。Ours算法在融入深度特征的同时，加入背景感知模型，充分利用目标周围具有参考意义的障碍物协助判别目标，从而提升目标识别率。然而，KCF算法没有利用目标周围的背景信息，在应对目标非刚性形变时，很难对目标进行精确定位。从图5(c)可以看出，各类算法在应对遮挡类挑战时，Ours跟踪精度排名第一，精确率86.5%。相较于KCF算法74.9%的精确度，提升15.4%。遮挡问题是在跟踪过程经常遇到的挑战，Ours算法引入遮挡判别机制，可以有效提升跟踪的准确率。在目标遇到障碍物遮挡时，Ours算法仍能够精准识别跟踪目标。然而，KCF缺乏跟丢重新识别机制。当跟踪失败后，KCF并不能继续对目标进行重新识别。这些劣势导致KCF算法不能应对遮挡严重的场景。基于深度特征的Ours3和DCFnet在以上三类具有代表性的挑战中分别排在前两位，也证明出深度特征比手工特征更具有优势。

图4 OPE(一次性通过性)定量评估图

图5 OPE(一次性通过性)评估指标下不同场景的的精度率跟踪性能对比曲线

6 结束语

首先介绍了ZFnet结构原理，然后将每层网络分别进行研究，发现高层特征有更强的语义信息，低层卷积特征具有更多的空间信息。为了实现两类特征优势互补，将各层特征进行结合。同时为了利用核相关滤波算法的高效计算能力，将这两种算法结合，既可以提高跟踪的精度，也能保证算法的实时性。此外，在应对跟踪过程中的遮挡问题，设计了基于遮挡判别的更新策略，提升跟踪精度。最后，在公开视频序列的OTB-50数据集上对各种跟踪算法进行评估，分析跟踪算法的精确率和成功率。改进后的算法在GPU环境下的运行速度可以达到38 FPS，可以满足实时性需求。