基于自适应搜索区域的相关滤波目标跟踪*

2018-11-23何小卫郑忠龙贾永超吴娇娇

浙江师范大学学报(自然科学版) 2018年4期

何小卫，郑亮，郑忠龙，贾永超，吴娇娇

(浙江师范大学数理与信息工程学院,浙江金华 321004)

0 引言

目标跟踪是预测视频帧序列中给定的目标在后续视频帧中出现的位置.目标跟踪领域出现了许多优秀的跟踪算法,但仍敏感于复杂的现实环境，如：尺度变化、遮挡、光照变化、形变、快速移动等.因此，设计准确、高效、鲁棒的目标跟踪算法仍然是一个值得持续关注的、极具挑战性的课题.

目标跟踪算法通常可分为两类：基于生成式的目标跟踪模型和基于判别式的目标跟踪模型.基于生成式的目标跟踪模型直接对目标进行外观建模，然后使用外观模型与目标进行比对，找到新一帧中与外观模型匹配程度最高的区域(即目标位置)，从而实现目标跟踪.基于增量学习的目标跟踪算法(IVT)[1],采用自适应全局目标外观的生成式模型，对于处理刚性目标运动的表现很好，但对目标姿态变化和目标出现遮挡极其敏感；视觉跟踪分解算法[2]将原运动模型分割成多个小的图像块，这样可以更好地捕捉运动中目标位置的变化，但其跟踪速度仅达到5.7 帧/s，不能满足在线跟踪的需求；基于稀疏的目标表示模型[3]将目标外观模板与稀疏模板融合，很好地解决了目标部分遮挡的问题，但仍然无法处理非刚性目标和严重遮挡问题，且算法的复杂度高，无法满足实时性.基于判别式模型的方法将跟踪问题看成一个二元分类问题,是找到区分目标和背景的最好决策，从而实现对前景对象的判定.文献[4]引入了多实例学习的概念,有效地处理目标尺度变化及背景杂波等引起的漂移现象;文献[5]将压缩感知引入到目标跟踪中，跟踪速度达到64 帧/s；文献[6]基于结构化输出SVM提出了目标跟踪算法，利用核化的SVM直接输出结果，满足实时性要求.基于判别式模型的目标跟踪算法性能主要取决于分类器的判别性，因此更好地利用训练样本,得到更精准的分类器,是此类算法研究的主要方向.

基于相关滤波的跟踪器[7-13]近几年来在目标跟踪领域表现出很好的跟踪效果和性能.2010年,Bolme[7]首次在跟踪领域引入相关滤波,提出了MOSSE，利用信号的相关性，计算视频序列的当前帧不同区域对于前一帧目标的响应值，响应值最大的区域被预测为当前帧目标所处的位置.文献[7]将时域中卷积操作转换到频域中的点乘运算，大大降低了计算的复杂度，算法运行速度高达615 帧/s，但在跟踪的精度上显得有些不足(43.1%);CSK[8]采用循环矩阵的方式进行密集采样，得到在滤波器训练阶段所需要的更多负样本，更好地适应和表达在不同场景中目标位置的变化，同时利用循环矩阵可对角化的性质，在频域内快速地训练分类器,以保证算法的实时性，在精度提升到54.5%时仍保持189 帧/s的速度；KCF[9]在CSK工作的基础上，利用HOG算子进行特征的提取，采用核技术将线性不可分的问题映射到核空间，在保证速度的同时又提高了目标跟踪的精度;DSST[10]引入空间正则分量，根据空间位置约束相关滤波系数，利用Gauss-Seidel在线学习模型的优化策略，在数据集上表现出83.8%的高精度，但没有达到实时性的要求；DeepSRDCF[11]利用非全连接网络的特征提取方式使得跟踪精度达到84.9%，但算法速度不足1 帧/s；文献[12]融合HOG与颜色直方图特征，对于解决目标边缘形变时有很好的效果，精度达到了78.2%，速度达到67 帧/s；文献[13]提出多峰检测和高置信度选择性更新目标的模型APCE(average peak-to-correlation energy)，很好地解决了相似目标出现情况下的跟踪问题，精度达到了83.9%，速度保持80 帧/s，但是模型敏感于目标快速移动的情形.基于深度学习的目标跟踪[14-16]，跟踪精度非常高，但算法无法达到实时性要求.以上基于相关滤波的目标跟踪算法,由于搜索区域的大小固定,仅局限于目标所在区域，所以这些算法容易产生误判.为了解决以上问题，本文提出一个自适应调整搜索窗口的相关滤波模型(RIACF)，并有效地利用目标周围的背景信息.

1 自适应搜索区域的相关滤波目标跟踪

跟踪目标所处环境对跟踪器的性能会产生很大的影响.假如目标所处环境有大量背景杂波，在跟踪过程中新一帧图像将产生污染，导致分类器无法正确分辨目标和背景，从而引起跟踪漂移.对此，本文基于KCF算法[9]和CACF算法[17]提出一种新的相关滤波跟踪器(RIACF)，通过采用以下两点避免漂移现象：抑制目标周围背景信息以突出跟踪目标；自适应调整搜索区域，增加响应值匹配的可信度.

1.1 RIACF模型

以下是RIACF算法的具体描述：在每一帧中，根据目标响应值自适应调整目标搜索区域，对新的搜索目标周围采样k个背景块xi∈Rn,i=1,2,…,k,其相应的循环矩阵是X0,Xi，i=1,2,…,k，这些背景信息块可以看作是负样本用来抑制对跟踪目标的干扰.显然，好的滤波器应对目标位置有较大的响应值，而对背景信息块的响应值接近于0.本文将传统相关滤波的岭回归分类问题转变成以下最小化目标函数：

(1)

(2)

(3)

式(3)的右边各项可以通过快速傅里叶变换分别求解：

(4)

(5)

(6)

(7)

1.2 目标搜索区域自适应更新策略

在跟踪目标过程中，由于复杂环境下固定大小的搜索窗口只能完成目标的局部标定，所以通常会导致目标的局部特征被错误地归类为背景信息，最终导致后序帧目标跟踪失败.通过实验发现，在训练滤波器时，通过更新尺度参数动态地调整目标搜索区域可以有效地解决此类问题.

考虑到目标在受到外界干扰时才会引起这种情况，笔者仅在相邻几帧目标最优响应值较小时才会更新尺度参数、调整搜索区域.假设第t帧图像Mt中所有候选区域响应值的平均值为

(8)

计算连续两帧响应值的平均值，对连续两帧之间的尺度估计可以表示为

(9)

为了减少尺度估计误差可能带来的噪声影响，本文采取对n个连续帧求尺度估计平均值的方法，使得所求尺度估计更加稳定、可靠，即

(10)

同时，为了避免尺度估计敏感于过度缩放，利用尺度阈值对其进行约束，即

(11)

式(11)中:smin表示尺度估计更新下限;smax表示尺度估计更新上限;S表示尺度更新步长；「*⎤表示上取整运算；⎣*」表示下取整运算；n是连续帧的数量；Sm是搜索窗口尺寸；A是输入图像尺寸；Ts表示目标尺寸.利用相应的参数进行尺度更新，最新的尺度估计值St+1按如下函数取值：

(12)

式(12)中,参数λ为尺度因子.考虑上下限阈值，最终尺度估计值St为

(13)

由得到的最新尺度估计值St来获取新的搜索区域，即

Mt←Mt*St.

(14)

模型更新方案通常采用线性更新方式，相关滤波模型更新时用当前帧与前一帧的图像信息，即

(15)

式(15)中:η为学习因子;0≤t≤N;Mt为图像样本;ωt为滤波器参数.

1.3 算法实现

算法1 RIACF跟踪算法

输入：图像帧信息Mt(t=0,1,…,N)，标注起始帧目标初始位置m0.

输出：跟踪每一帧目标所处位置mt(t=1,2,…,N).

1)针对图像帧M0,根据式(6)计算ω0；t=1;

Whilet≤N

3)if最大响应值大于阈值(可取先前历史帧目标响应平均值)

5)针对图像帧Mt,根据式(6)计算ωt；

6)t=t+1;

7)利用式(15)更新跟踪模型计算下一帧Mt；

8)else

9)利用式(14)更新当前帧的搜索窗口Mt；

10)Continue;

11)end if;

12)end Loop

2 实验结果与分析

2.1 实验环境及参数

为了验证本文算法的有效性，选择CVPR-2013[18],OTB-100[19]数据集进行测试，并与KCF进行比较.实验平台为MATLAB R2010a，实验均在Intel Core i5-4460 CPU、主频3.20 GHz、4 G内存配置的计算机上完成，用于比较的跟踪器的默认参数设置与原文献相同；本文模型的正则化参数λ1和λ2为0.000 1和25，更新尺度因子λ为0.25，学习因子η为0.015.

所有实验均在CVPR-2013/OTB-100[18-19]数据集图像序列进行对比，主要比较跟踪精度和算法的运行速度.精度指的是跟踪算法跟踪的目标中心位置与标定真实目标的中心位置的平均欧氏距离，在生成的plot图中一般选用阈值20像素精度值作为参考标准；成功率指的是跟踪算法的目标框与真实标定的目标区域重叠面积的大小.算法的运行速度在目标跟踪挑战赛后也作为一个重要的评判标准，算法的运行速度指的是跟踪器处理图像序列的平均速度——即每秒处理的帧数.

2.2 定量结果分析

目标跟踪研究的2个主要目标分别为理想的跟踪精度和符合实时性要求的跟踪速度.例如：MD-Net[16]，C-COT[17]的实验精度很高，但是处理速度非常慢，无法满足实时性要求；另一类则在跟踪速度上有很大优势，但其跟踪精度相对较低，如CSK[8].对CVPR-2013/OTB-100[18-19]中所有包含跟踪挑战的数据图像序列进行计算和分析.基于相关滤波的跟踪器，比如CSK[8],KCF[9]，虽然在速度上相比于传统的跟踪器有着很大的优势，即实时性得到了很好的保证，但精度不高.因此,应该更加注重提升这类算法的精度.表1是本文算法RIACF和其他算法的比较结果.

表1 RIACF与其他跟踪器之间实验结果对比

在具有尺度变化、形变、平面内/外旋转等挑战的视频中，如：Blur Body,Freeman 4,Dog等，KCF的跟踪效果分别是：58.4%/102.79 帧5s-1，53%/487.52 帧5s-1和75.6 %/205.8 帧5s-1;RIACF模型的跟踪效果分别是：92.2%/37.51 帧5s-1，85.2%/178.62 帧5s-1和98.4%/44.73 帧5s-1.从上面数据可以看到，RIACF算法通过对搜索区域的自适应调整，有效地提高了KCF在形变、尺度变化及旋转等情形下的跟踪效果.在跟踪精度提高的同时，本文算法以牺牲部分速度为代价，保证了RIACF模型目标跟踪的实时性要求.而对于部分遮挡和快速运动的视频，如：Human 7,Couple,Deer等，KCF的跟踪效果分别是：42.7%/143.07 帧5s-1，25.7%/253.84 帧5s-1和81.7%/91.23 帧5s-1；RIACF模型的跟踪效果分别是：100%/35.48 帧5s-1，45.7%/58 帧5s-1和85.9%/24.7 帧5s-1.RIACF模型在处理目标运动模糊的情况下也有较好的鲁棒性.

2.3 定性结果分析

如图1(a)所示，从KCF模型的跟踪效果图中可以看出，跟踪目标运动到绿色搜索框的边界时，发生严重遮挡，导致模型跟踪失败.图1(b)为本文RIACF模型的跟踪效果.由于RIACF模型的目标响应值较小，所以本文采用搜索尺度更新策略，扩大目标搜索区域.图1(b)中蓝色区域为新的目标搜索区域.通过扩大目标搜索区域和抑制目标周围局部背景信息，实现了目标的准确跟踪，很好地解决了图1(a)中出现的跟踪失败问题.

(a)KCF模型在Jogging视频序列中的跟踪表现

(b)RIACF模型在Jogging视频序列中的跟踪表现

图2 RIACF与其他跟踪算法在OTB数据集视频中的跟踪表现对比

从直观感觉上，图2给出了几种优秀算法(Staple[12],KCF[9],DSST[20],CSK[8])对数据集OTB-100[19]中Jogging,Dog和Blur-body视频的比较结果，可以明显看出RIACF模型的跟踪算法有较好的跟踪表现.

如图3和图4所示，本文的算法RIACF在数据集CVPR-2013[18]中与最优算法Staple[12]的表现相差无几，在OTB-100[19]中与Staple效果接近，远远好于KCF的表现.图5和图6分别为4种跟踪挑战:形变(deformation)、目标离开视野(out of view)、遮挡(occlusion)、快速移动(fast motion)情形下的跟踪成功率表现,对于克服光照变化(illumination variation)、运动污染(motion blur)等挑战，本文算法相比于其他算法也有着很好的效果.

(a)CVPR-2013数据集精度图 (b)CVPR-2013数据集成功率图

(a)OTB-100数据集精度图 (b)OTB-100数据集成功率图

(a)形变 (b)目标离开视野

(a)遮挡 (b)快速移动

3 结论

为了解决目标遮挡、非刚性物体运动形变及低像素所带来的跟踪漂移现象，本文通过自适应搜索目标区域结合抑制目标周围的背景信息，很大程度上降低了跟踪时背景对于目标的干扰，使本文模型的跟踪效果相比于基准跟踪器有了很大提升，算法运行速度仍可满足实时性要求.对于解决目标消失后重新回到跟踪区域的挑战，将考虑引入检测器的方法重新检测目标所在区域，进而提升跟踪效果.