基于改进的方向梯度直方图的互补跟踪方法

2020-05-16肖少明何小海王正勇卿粼波

计算机应用与软件 2020年5期

肖少明何小海王正勇卿粼波

(四川大学电子信息学院四川成都 610065)

0 引言

视频目标跟踪的实质可以理解为：在第一幅图像里获取目标的基础信息后，如何在以后的图像帧中精确地找到目标位置。人类跟踪目标是通过眼睛获取目标信息，经过大脑处理，找到目标的一些固定特征，继而当目标运动时，能够根据这些固定特征跟踪上目标。但是在计算机利用摄像头跟踪时，会遇到一些问题：计算机该通过图像获取哪些特征，且获取的这些特征最好是当目标运动时改变也比较小，这样有利于计算机在后续图像提取特征之后进行比较；提取特征时的计算量不能太大，否则就达不到实时的要求。因此目标跟踪领域最重要的就是能实时获取良好的特征，比如方向梯度直方图特征、颜色特征等[1]。

2010年Bolme等[2]提出基于相关滤波的判别式方法——误差最小平方和滤波器MOSSE，证实了相关滤波的潜在能力，但实时性极强。牛津大学Henriques等[3]提出了CSK，之后加入了核函数(Kernel-trick)，便演变为经典的核相关滤波器[4](KernelizedCorrelationFilter，KCF)。但是由于实际应用环境的各种干扰，如何提取目标更加不易变化的特征仍然是难点。

在特征提取方面，KCF使用的是方向梯度直方图(HistogramofOrientedGradient，HOG)特征，DAT[5]使用的是颜色特征。HOG特征值对于光照变化、局部遮挡等效果较好，但是不适应快速运动、快速变形，而颜色特征对于快速运动、快速变形效果较好，但是不适应光照变化和局部遮挡，因此这两种算法互补。针对目标尺寸变换，有两个经典算法：一个是SAMF[6]算法，滤波器同时更新位置与尺度，速度较快；另一个是DSST[7]算法，多尺度方法是先平移滤波找到最佳位置，再尺度滤波，找到最佳尺度大小。上述各类基于相关滤波的算法的本质都是获得更加可靠的特征，其中HOG特征作为相关滤波类算法最常用的特征，对于图像轮廓和边缘有很强的描述能力，但是对于快速运动、低分辨率等造成的边缘模糊跟踪性能较差，因此若能改进HOG特征适应边缘模糊问题，就能更加稳定地跟踪目标。本文考虑对图像进行锐化预处理来获取更好的HOG特征。

本文在获取改进的HOG特征值后，为了实现核相关滤波能够用于各类复杂情况，如目标遮挡、快速运动变形、“渐变”目标等情况，提出一种利用两个互补跟踪器预测框交并比的方法自适应改变模型更新系数，以适应复杂的实际情况。在两种滤波模板均跟踪到目标的情况下，利用两个跟踪器的预测框的交并比自适应改变模型更新系数，来获得更好的跟踪结果。若有一个跟踪器跟踪不正确时，则利用另一个跟踪器继续跟踪目标；若都没有跟踪到目标，此时目标可能已经被遮挡了，因此保留当前模板，停止模板更新，扩大搜索检测范围，当目标不遮挡时就能快速检测匹配到目标。

1 KCF算法

本节介绍核相关滤波算法，以此为基础研究解决核相关滤波三个主要问题：(1) 传统的HOG特征值不足以适应于各类复杂场景跟踪[8]；(2) 滤波窗口固定，对于“渐变”目标，不能准确地跟踪；(3) 滤波器模型更新系数固定，不能用于有遮挡时的长期跟踪[9]。

1.1 岭回归与循环位移

KCF算法为图像提供了一个基于岭回归的分析模型，可以获得堪比支持向量机(SVM)这类复杂方法的性能。模型训练主要是获得一个函数f(z)=wTz最小化样本xi与它的岭回归目标yi的平方误差：

(1)

为了获得所有的样本xi，在样本的采样过程当中，我们把基础样本循环位移来进行密集采样。这样获得的样本，进行傅里叶变换之后的矩阵可以进行对角化，减少了矩阵的运算量，最后得到一个闭式解:

(2)

1.2 模板更新

在目标跟踪中，考虑到目标是处于变化当中的，因此目标模型也需要实时更新，KCF采用的是线性差值，更新公式如下:

(3)

式中:η是更新率;αt表示第t帧的系数矩阵;xt表示目标第t帧的外观模板。

核相关滤波的流程如下：(1) 由基础样本构建循环样本，提取HOG特征；(2) 循环样本核空间矩阵离散傅里叶变换，训练分类器；(3) 新样本检测；(4) 更新分类器，再次循环，进入步骤(1)。

2 互补跟踪算法设计

2.1 方向梯度直方图及其优化

对于图像而言，利用图像边缘梯度的方向，就能很好地描述目标的轮廓以及形状，而HOG特征就是对图像当中像素点的梯度描述。算法流程为：(1) 获取图像后进行灰度化和归一化；(2) 图像分小块后获取每个像素点的梯度，再统计每个块内的直方图；(3) 合并所有小块的直方图进行归一化，得到图像的HOG特征。

图像中任意一个位置为(x,y)的像素点的方向梯度可以表达为：

(4)

式中：Gx(x,y)、Gy(x,y)表示像素点(x,y)处的水平方向和垂直方向的梯度，H(x,y)表示像素值。

如前文所述，HOG特征值被广泛使用于基于相关滤波的判别式算法中，所以加强HOG特征值提取，获得更好的HOG特征值是十分必要的。特别地，对于快速形变、遮挡等造成的图像边缘模糊，HOG特征值提取的效果较差，基于以上情况我们可以考虑增强目标边缘的信息或加强目标的纹理。本文利用拉普拉斯滤波来获得边缘信息增强的图像，即锐化图像。假定取图像中一个3×3的块，那么其对应的拉普拉斯滤波模块也就是取一个3×3的块，中心点取-8，其余点取1，将两个块进行时域的点乘就可以获得中心点新的像素值。假设中心点原始的像素值表示为H0(x,y)，中心点新的像素值表示为H(x,y)，其余8个点的像素值和表示为H1(x,y)，那么这三个值之间的关系表示如下：

H(x,y)=H1(x,y)-8×H0(x,y)

(5)

对于图像边界上像素点可以进行拓展，拓展区域的值是其对应的另一个边界。在所有像素点更新之后，把像素值进行归一化处理，就可以得到最后的结果。其表达式如下：

(6)

式中:max、min分别表示图像像素值在一个颜色通道内的最大值和最小值。处理之后的图像能够提供更好的HOG特征值，可以在不同的目标与场景下获得较好的跟踪效果。

2.2 尺度滤波器

由于核相关滤波使用的是滤波窗口固定的余弦窗口，所以在处理“渐变”目标时存在很大的不足[10]。这是因为余弦窗口的窗口大小固定，当目标尺寸变小时，会将非目标的冗余信息包含进来；而当目标尺寸变大时，则会丢弃目标的有用信息。为此，文献[11]在KCF算法的基础上加入了自适应高斯窗口函数和基于关键点的尺度估计[12]，提出了sKCF，能够自适应目标尺度的变化以及摒弃冗余特征，在运行速度上也有了一定的改进，但是当目标运动的尺寸变化较大时，容易丢失目标。因此本文采用DSST算法的思想，单独训练一个尺度滤波器，当位置滤波器确定目标位置之后，在该位置使用尺度滤波器，找到最佳的滤波窗口尺寸。

2.3 基于交并比的自适应位置滤波器

核相关滤波中除了“渐变”目标不好跟踪以外，当目标运动姿态变化较大或者有轻微遮挡时，跟踪的目标也容易丢失，其根本原因是目标模型更新速率是固定的，这种更新方式仅能适应运动姿态的微弱变化。其中目标模型更新就是根据以前的观测数据和目标模型估计下一时刻的目标模型。模型更新存在“模型漂移”问题，会导致跟踪结果准确性降低。传统相关滤波更新算法会将错误的背景信息加入到目标模型中，造成目标模型的更新错误，这样的错误积累会导致模型偏离正确的跟踪目标。因此，为了避免目标模型更新过程中出现“模型漂移”，需要采取合适的模型更新策略。

KCF算法以固定更新速率对当前模型进行更新，更新公式为：

Modlenext=α×Modleresult+(1-α)×Modlecurrent

(7)

式中:α为固定值；Modleresult为根据当前跟踪结果训练出的预测模型；Modlecurrent为当前模型；Modlenext为下一帧图像进行跟踪时所采用的模型。使用式(7)更新模型，对于一些运动姿态变化不大的目标效果尚可，但是对于一些在跟踪过程中姿态变化较大的目标并不适用，因为利用式(7)进行模型更新并不能反映被跟踪目标的真实运动姿态，极易导致跟踪失败。

为了使当前模型更能够反映被跟踪目标的最新变化，本文以HOG特征模块和颜色特征分别进行跟踪，以两个互补的跟踪器预测框的交并比来确定模型更新系数。两个跟踪器的跟踪结果可通过相关滤波的峰值来判定，具体有三种情况：

(1) 两个跟踪器均能跟踪，此时采用交并比的方式来进行模板更新，更新公式如下：

(8)

式中：Siou(HOG,Color)表示两种跟踪模板预测框面积重叠部分所占比例；Aera(HOG)和Aera(Color)分别表示基于HOG特征和颜色特征的滤波器的预测框的面积，分子是两个面积的交集，分母是两个面积的并集；β是自适应变化因子，β=c×Siou(HOG,Color)；c是常数。

(2) 一个跟踪器正确，另一个不能正确跟踪，此时采用正确模板跟踪结果与第一帧目标模型的相似系数来更新模板，为了提高实时性，相似性使用直方图相交来衡量，更新公式如下：

(9)

式中：Hfirst和Hresult分别是第一帧目标模型和预测模板图像块的直方图；Dinteraction(Hfirst,Hresult)是直方图相交系数，取值范围是[0,1]，匹配程度与值的大小成正比；β=c×Dinteraction(Hfirst,Hresult)；c是常数。

(3) 两个跟踪器均跟踪失败，停止模板更新，扩大搜索检测范围。

在上述三种情况中，使用自适应因子进行模型更新可以对模型的更新速进行有效的控制，可以真实反映出被跟踪目标的姿态变化情况。对于如何评判是否跟踪到目标，本文使用峰值旁瓣比(PSR)来衡量相应的质量，其公式如下：

(10)

式中：max表示响应的最大值；μ、σ分别表示响应的均值和标准差。PSR的阈值设置为P，若当前跟踪器的跟踪结果的PSR大于P，则当前模板能够正确跟踪，否则就不能正确跟踪。

综上所述，本文提出的基于改进的HOG特征值的互补跟踪算法框架如图1所示。

图1 基于改进的HOG特征的互补跟踪算法框架

3 实验结果及分析

本文采用数据集OTB2015[13]验证算法的有效性，并与近几年流行的算法进行对比。测试了OTB2015上全部的100个视频序列，同时选取 Staple[14]、SRDCF[15]、SAMF、KCF、DAT五种方法做对比实验，其中基于HOG的KCF和基于颜色的DAT是本文算法的基准算法，Staple、SRDCF、SAMF均在OTB2015具有良好的跟踪结果，便于与本文算法进行对比。

3.1 定性分析

本文选取2组具有代表性的视频序列来进行跟踪效果上的对比，给出的视频序列分别是Shaking、Bird1。跟踪效果如图2所示：第一行表示基于改进的HOG特征的KCF算法的跟踪结果，第二行表示基于颜色特征的DAT算法的跟踪结果，第三行是本文算法的跟踪结果。

图2 本文算法与其他算法跟踪效果图定性对比

可以看出：KCF算法对于光照变化和局部遮挡效果较好，但是不适应于快速运动和快速形变；DAT算法对于快速运动和快速形变效果较好，但是不适应于光照变化和局部遮挡；本文算法充分发挥了两种算法互补的优势，既能适应光照变化和局部遮挡，也能适应快速运动和快速形变，说明本文算法在复杂环境中也能跟踪目标。从图2(b)的Bird1视频序列中还可以看出：最开始所有算法均能准确跟踪，但是在遇到遮挡之后，也就是第190帧时，只有本文算法能够准确跟踪，其他算法均已漂移。在第285帧目标剧烈形变时，本文算法也能够快速地再次跟踪上，说明本文算法抗遮挡性能较好，而且对于目标剧烈形变也具有良好的适应性。

3.2 定量分析

为了更加精确地分析本文算法跟踪的准确性，同时也方便与其他算法对比，实验的衡量标准[16]采用OPE(One-Pass Evaluation)，包括精确度曲线(precision plot)和成功率曲线(success plot)。其中精确度描述的是给定的中心位置误差阈值之内跟踪正确的帧数占总帧数的比例，成功率描述的是大于给定的重叠率的跟踪正确的帧数占总帧数的比例，精确度和成功率的取值范围都是[0,1]。对于精确度曲线，我们采用阈值为20像素时的精确度来评价跟踪器的表现；对于成功率曲线，我们用曲线下面积AUC(the Area Under Curve)来评价跟踪器的表现。本文算法与Staple、SRDCF、SAMF、KCF、DAT在OTB2015上的对比结果如图3所示。

图3 OTB2015测试集上本文算法与其他5种优秀算法在精确度和成功率上的OPE指标对比

可以看出，DAT和KCF的跟踪精确度和跟踪成功率都不高，这是由于DAT只考虑颜色特征，而KCF只考虑HOG特征，没有发挥出颜色特征与HOG特征的互补性，并且不适应于尺度变化，所以跟踪误差较大。而本文算法充分发挥出了颜色特征与HOG特征的互补性，并且采用了尺度滤波和自适应模型更新，因此本文算法的精确度和成功率比KCF和DAT提高了很多。本文算法相比于DAT，精确度提高了38.2%，成功率提高了29.1%；相比于KCF，精确度提高了30.2%，成功率提高了24.5%；相比于SAMF，精确度提高了8.3%，成功率提高了9.1%；相比于Staple，本文算法的平均速率不高，但是精确度提高了5.3%，成功率提高了5.8%；相比于SRDCF，精确度提高了3.7%，成功率提高了3.7%。虽然本文算法较SRDCF算法在精确度和成功率上提升不大，但是SRDCF的平均速率只有3.6FPS，本文算法平均速率为15FPS，实时效果更好。综上所述，本文算法充分发挥了互补特征的优势，提升了精确度和成功率，虽然平均速率有所下降，但也基本满足实时性要求，具有良好的应用价值。

4 结语

本文算法在充分考虑基于HOG特征值的核相关滤波方法的基础上，以图像锐化来获取更好的HOG特征值，同时利用基于改进的HOG特征值与颜色特征值的两个跟踪器预测框的交并比来自适应地更新位置滤波器，提升了跟踪目标的成功率。视频序列实验表明，本文算法适应于各类复杂情况，在目标变形模糊或目标遮挡之后仍能准确跟踪，与其他当前优秀算法的比较，也说明本文算法能够获得更好的跟踪精度，具有良好的应用价值。