自适应尺度的上下文感知相关滤波跟踪算法

2021-02-04茅正冲陈海东

计算机工程与应用 2021年3期

茅正冲，陈海东

江南大学物联网工程学院，江苏无锡214122

目标跟踪是计算机视觉领域中关注的重点，在智能视频监控、自动泊车系统、临床医学救助、虚拟成像等多个领域被广泛应用[1]。在实际工程应用中，跟踪目标不仅受到外部环境诸如光照变换等影响，而且还会伴有自身形态的变换[2]。如何解决多种复杂环境及目标本身多样变化所导致的目标丢失的问题仍充满了挑战[3]。

Bolme 等[4]首次在目标跟踪领域内引入相关滤波理论，提出采用单通道灰度特征的最小输出平方误差和（Minimum Output Sum of Squared Error Filter，MOSSE）算法；Henriques[5-6]在MOSSE 的基础上引入了循环矩阵和核技巧提出了核循环结构跟踪器（Circulant Structure of tracking-by-detection with Kernels，CSK），后又在CSK 的基础上扩展了多通道特征，采用方向梯度直方图（Histogram of Oriented Gradient，HOG）表征外观模型提出了核化相关滤波器（Kernelized Correlation Filters，KCF）算法，在实时性和精度上有很大的提升；Danelljan[7]等提出使用颜色命名（Color Name，CN）特征来改进目标外观模型，通过主成分分析（Principal Component Analysis，PCA）降维来降低运算量。

文献[8]提出了一种融合CN和HOG特征的相关滤波跟踪算法。

最近的研究发现，通过修改用于训练的常规CF 模型，可以克服算法固有的一些局限性。Danelljan[9-10]考虑到特征值的多重维度，在单通道MOSSE 的基础上重构了最小代价函数，提出三维滤波器来定位和预估尺度的判别式尺度空间跟踪器（Discriminative Scale Space Tracking，DSST）。但当目标背景较复杂时，由于余弦窗和搜索区域的限制，导致学不到太多的背景信息。Mueller[11]等提出了（Context-Aware，CA）框架，该框架可以与许多相关跟踪器集成，如文献[12]中提出的自适应尺度的多特征融合（Scale Adaptive Multi-feature Fusion，SAMF）跟踪算法结合后SAMF_CA 算法体现了高效性，但实时性较差。文献[13]提出给每一帧的目标和上下文信息赋予权重，挑出可靠的上下文信息用于训练和更新滤波器系数的自步上下文感知相关滤波跟踪算法，该算法在快速移动，旋转等问题能有效地检测出目标，但当目标尺度持续变化后，滤波器仅能学习到少量部分目标或过多的背景样本。

本文的主要创新和贡献点如下：

（1）引入上下文感知框架，将上下文信息送入核相关滤波器中学习，使得目标位置产生高响应，上下文区域趋于零响应。

（2）提出一种区分平移滤波器的在线学习尺度滤波器的方法，利用一组不同尺度采样目标外观来训练模型并估计最佳尺度。

（3）针对相关滤波类的跟踪算法误差会随时间积累，导致目标模型越来越差，本文提出一种利用帧差均值来评估目标的表观状态以自适应更新率的策略。

1 相关滤波理论

其中，λ为正则化系数。根据文献[4]求解w可表示为：

其中，X是循环样本xi的集合矩阵，y为期望目标回归矩阵，I是单位矩阵。

其中，K是以为元素的核矩阵。

对于当前帧的图像块z分类器响应为：

2 本文算法

2.1 上下文感知框架

在相关滤波跟踪中由于循环样本的特性容易造成边界效应，虽然通过余弦窗口能有效地限制，但与此同时背景信息会减少，当出现快速移动，背景混乱等情况下，目标周围的上下文信息显得十分重要。

在式（1）的基础上，在目标样本周围采样n个背景样本作为上下文信息，循环位移得到Xi，以使目标样本处具有高响应值和背景样本处响应值接近于零为约束条件来训练分类器[14]。因此加入上下文感知框架后的目标函数的岭回归为：

X0表示目标位置处的循环位移样本，λ2为抑制背景样本回归值趋于零的正则化参数。

通过将原始目标区域上与加入上下文信息的背景样本叠加，为了方便推导，需将式（5）优化为以下矩阵形式：

由于多通道特征比单通道特征具有更好的表观性，本文采用HOG特征与具有较好补偿性的灰度特征进行级联，非线性映射后的需对偶域中求解：

由循环矩阵的特殊性质可得：

上式图像之间的相关性可以使用线性核进行加速运算。在下一帧图像中目标位置检测公式最终简化为：

2.2 尺度滤波器

针对跟踪中目标的尺度变换问题，文献[12]中提到的SAMF 跟踪算法，该方法仅需一个滤波器，在平移滤波器的基础上提取尺度金字塔，对缩放后图像块进行检测，但该方法每个尺度检测都需要提取特征，且采用CN+HOG 的级联特征导致计算量更大，为了维持实时性采用较粗尺度池也导致无法准确获得最佳尺度，本文算法将跟踪划分为平移跟踪和尺度跟踪，可以更加灵活地采用不同的方法。

本文采用的判别式尺度滤波器学习每个特征通道的滤波器，训练得到最佳尺度滤波器h，最小化代价函数为：

其中，m代表特征维度，g为期望输出，f代表当前帧的特征图，λ3为正则项系数。

通过Parseval可在傅里叶域内求解公式（12）为：

对于每一帧尺度模板的更新策略如下：

其中，η为学习速率。在下一帧中，可通过求解：

尺度池中的最大响应得分则为当前帧的最佳尺寸。

本文利用子网格插值的方法，使用较粗糙的特征网格即较少的尺度滤波长度S用于训练和检测样本，减小执行的傅里叶运算次数，最终通过三角函数插值将相应图插值回原长度（S=33），得到最佳的尺度大小。

2.3 自适应学习率

在实际应用中，目标随时发生不同程度的变化或遇到各种各样的问题，采用原有的固定学习率来适应变化容易导致模板的漂移从而导致目标丢失跟踪失败。因此需采用一种新的策略能随目标形态的形变程度及环境的变化为增加或减小更新率，本文使用相邻帧图像的像素差值来评估模型变化的情况，计算输入尺寸为M×N的第t帧图像与前一帧图像之间的帧差均值[15]为：

文献[15]中利用帧间均值对相邻两帧图像变化的大小进行判断，故本文以此为基础对η做以下处理：

2.4 算法流程

输入：图像序列，初始化目标跟踪目标及目标尺度

输出：预测目标位置和尺度

初始化：确定第一帧跟踪目标的状态

fort=1：N（N为视频序列总帧数）

ift>1

位置预测：

步骤1 在目标处及周围提取以CN和GREY特征级联的图像样本块X0及背景样本Xi

步骤2 根据式（8）计算跟踪滤波器的目标模型

步骤3 利用式（11）计算跟踪滤波器的输出响应，确定最大位置即目标位置pt

尺度预测：

步骤4 以当前帧的目标位置pt为中心提取多尺度图像块

步骤5 使用式（12）计算尺度滤波器模板

步骤6 根据式（15）计算尺度滤波器的响应值，最大响应尺度即第t帧的最佳尺度

模板更新：

步骤7 利用式（16）评估当前帧模型变化情况并采用式（17）分段学习率调整模型

end

3 实验分析

为了验证本文算法的有效性，本文采用三种性能指标进行评估，分别是时间鲁棒性评估（Temporal Robustness Evaluation，TRE）、一次通过评估（One-Pass Evaluation，OPE）以及空间鲁棒性评估（Spatial Robustness Evaluation，SRE），实验结果如图1 所示。其中Success rate和Precesion分别是指覆盖重叠率大于0.5且平均中心位置误差小于20 像素时，算法成功跟踪的帧数与视频总帧数的比值。采用OTB[16]数据集中包含11种不同场景的挑战50 组视频综合评估算法。实验中，参与比较的算法分别为CSK[3]、DCF[4]、DSST[6]和SAMF_CA[9]这4种相关滤波框架算法。

3.1 实验环境及参数

本文算法实验的硬件平台为IntelCore i5-8300H 2.30 GHz CPU，8 GB 内存的笔记本，软件平台为Matlab2014a。本文中尺度滤波器尺度数为S=17，尺度滤波器参数λ3=0.01，上下文采样数k为4，正则化参量λ1=10-4，λ2=25，HOG特征仍沿用DCF中的参数。

3.2 定量分析

图1 OPE、SRE、TRE的精度图与成功率

如图1，在OPE实验下，本文算法的成功率为0.739，比第一名SAMF_CA略有下降0.6%，距离精度为0.811，比SAMF_CA 提升了1.5%，比DSST提升了5%，比DCF提升了6.2%。在SRE 实验中本文算法较SAMF_CA 的成功率略有提升但不大，比第三名DSST提升了2.4%左右，比DCF 提升了9.8%，在距离精度下本文算法相较SAMF_CA 显著提升了3.4%。在TRE 实验中成功率与SRE 实验中较相似，SAMF_CA 与本文算法保持较小精度差，但比其他算法都提升了很多，在精度图中本文算法依然能保持第一，而DCF超过了DSST排在第三。整体可见本文算法在加入上下文感知框架后精度上有明显的提升，加入尺度滤波器后在成功率也与现阶段较好的SAMF_CA保持较小的差距甚至超越，在TRE和SRE下结果说明本文算法具有较好的抗漂移能力和鲁棒性。在表1 中可发现本文算法帧速率为41.2，相比于DCF来说速度下降很多但仍能保持很好的实时性，比起同样基于感知上下文框架的SAMF_CA 和本文所使用的尺度滤波器的DSST速度都快很多。

表1 5种跟踪算法的速度对比

3.3 定性分析

3.3.1 尺度变换性能分析

图2 在Girl 数据集中目标由开始向后移动，所有算法都能保持跟踪，在第78帧中DSST、SAMF_CA及本文算法能自适应尺度框，能较好地学习到目标信息，在第283 帧也并未有出现目标丢失，而在Car4 数据集中，CSK及DCF学习过多背景信息后造成目标漂移。

3.3.2 抗遮挡性能分析

图3 在Woman 数据集中目标从右侧移动在108 帧时经过车辆且一半身体被遮挡，在第108帧后目标走过车辆，目标整体重新出现在画面中，除CSK其余算法都很好地应对。在David3 数据集中目标经过树时，全身被短时间遮挡到第96 帧恢复，所有算法都有效地跟踪到了。通过实验发现算法具有较好的抗遮挡性。

3.3.3 快速运动性能分析

图4 在Boy 数据集中第508 帧时CSK 出现较小的偏差但仍能保持在跟踪范围内，其他算法都能跟踪到。在Jumping 数据集中目标刚开始跳绳移动时，DSST、DCF 及CSK 就丢失目标，在第40 帧目标到达最高点后返回到原位置时，DCF 又重新捕捉到目标。当目标发生快速移动时，目标位置会在短时间内偏移一段位移，由于余弦窗的效果目标搜索范围变小，训练样本变少，加入上下文框架发现在应对快速移动的状况时具有较好的效果。

图2 五种算法在Girl和Car4上的跟踪效果图

图3 五种算法在Woman和David3上的跟踪效果图

图4 五种算法在Boy和Jumping上的跟踪效果图

3.3.4 目标形变性能分析

图5 在Bolt 数据集中目标从起跑线开始出发，SAMF_CA 跟踪框已脱离目标，CSK 稍有偏出，在加速过程中DCF及本文算法能实现对目标的跟踪，在第241帧目标减速时DCF 目标框出现偏移。在Trellis 数据集中目标在面对镜头时向左向右旋转，使得目标外观产生形变，除CSK 以外算法都能应对小形变。实验结果表明单HOG 特征对处理目标形变有明显效果，多特征融合时简单的级联易造成目标特征的混乱而影响滤波器的训练。

3.3.5 光照变换性能分析

图6 在Skating 数据集中第51 帧、81 帧及378 帧都出现了光照变换，光线由暗转亮又变暗，除SAMF 稍有偏出，其余算法能保持对目标的跟踪。在Singer2 数据集中，CSK 起初有点偏移，在第59 帧出现明显的光亮时，目标出现立刻丢失，其他算法都能有效地应对此类况。结果同样表明了有效的外观表征十分重要，简单的特征融合效果可能会变差。

4 结论

图5 五种算法在Bolt和Trellis上的跟踪效果图

基于相关滤波算法，提出了一种自适应尺度的上下文感知算法，通过在分类器训练阶段对上下文信息进行采样来解决循环移位的不足，利用尺度滤波器学习并更新尺度模板得到最佳尺度尺寸，最后采用分段学习率调整策略来使算法更好地适应目标外观变化。从实验结果来看，本文算法在与解决尺度的相关滤波类算法对比在快速移动、目标形变等环境下具有更好的鲁棒性，与同类结合上下文感知框架的多特征融合自适应尺度的相关滤波跟踪算法在不失精度的情况下，算法实时性有较大的提升。