一种改进相关滤波目标跟踪算法

2020-05-12李国燕

小型微型计算机系统 2020年3期

关键词：滤波尺度方向

王旭，刘毅，李国燕

(天津城建大学计算机与信息工程学院，天津 300384)

E-mail ：wangx_0@sian.com

1 引言

随着计算机图像处理技术的快速发展，运动目标跟踪算法研究已经成为国内外学者研究的热点[1,2].并在军事国防、安防监控、人机交互等领域都有着广泛应用[3].

目前较为主流的目标跟踪算法一般包括机器学习类[4,5]算法和基于传统图像处理类算法[6]等，深度学习运动目标跟踪算法在检测准确率上占有较大优势.Danelljan等[7]提出C-COT算法，为了应对不同卷积层分辨率不同的问题，进行连续空间域插值转换操作，在训练之前通过频域隐式插值将特征图插值到连续空域，方便集成多分辨率特征图，从而保持定位的高精度，但由于神经网络训练较为复杂，计算效率低，因此检测实时性较差.

传统基于相关滤波方法的运动目标跟踪具有速度快、精确度高等特点，非常适合嵌入到中小型设备中进行计算.Henriques等[8]提出的KCF算法通过使用方向梯度直方图并结合核函数进行加速，在速度和精度上较传统相关滤波方法均有所提高.

但基于相关滤波方法的运动目标跟踪算法仍面临一些问题.如当运动目标发生较大形变时难以对其尺度进行有效估计，或运动中出现短暂遮挡、干扰等情况时，算法容易丢失当前跟踪目标.

本文提出采用改进后的灰度方向直方图fHOG特征结合颜色特征对目标进行特征融合采样，提高模型表达能力；针对遮挡丢失等问题，提出通过运动方向场结合区域响应程度对目标状态进行评估，调整模型更新机制并在运动惯性下对短暂消失后的目标尝试找回；最后引入自适应尺度因子对目标尺度进行分析，提高算法适应能力.

2 传统KCF算法

2.1 算法特点

在运动目标跟踪算法研究中，一般通过对给定的样本进行特征学习来构建一个相关滤波器h，在检测过程中将待测区域中的候选信号f与滤波器h进行卷积运算：

g=f*h

(1)

得到候选区域的相关响应g，由于滤波器h是由给定目标的特征学习得到，因此被跟踪的目标位置区域得到响应输出g应服从二维高斯分布.

通过循环位移策略对被跟踪目标选取进行密集采样，训练出相关滤波器h将具有更好性能.且采样过程可以根据循环矩阵原理变换到信号的频域进行快速计算，通过离散傅里叶变换进行对角化：

(2)

核函数方法是一种强大的计算以及优化策略，它从理论上提供了一个从线性到非线性的连接以及对于高维空间中向量内积运算可以被转化到低维空间中进行计算.

相关滤波算法中常用高斯核函数：

(3)

2.2 算法流程

在相关滤波算法(KCF)中，利用当前目标位置的特征信息构建相关滤波器h，由循环位移策略得到大量样本xi，并通过脊回归方法建立目标函数：

f(xi)=wTφ(xi)

(4)

(5)

式中φ(xi)为样本xi的高维非线性变换，w为分类器的相关参数，yi为样本标签，λ为目标损失函数中的正则化惩罚项参数.通过最小二乘法对上式进行优化，导数为0时w的约束条件为：

w=(XHX+λI)-1XHy

(6)

式中X为样本x特征所构造的循环矩阵，将上述相关公式进行带入后得：

(7)

(8)

引入核函数策略后，由于w是可以通过φ(xi)的线型组合来表示，给定滤波器系数为α，则w可表示为：

(9)

将目标函数中的w进行替换后，优化问题即转换为对滤波器系数α的求解，此时引入核函数策略，利用核函数

K(x，x′)=<φ(x)，φ(x′)>

(10)

来处理高维空间中向量点积运算，大幅降低计算复杂度.此时对α的求解转换为

α=(K+λI)-1y

(11)

式中α为w的参数矩阵，K为核矩阵，且由于循环矩阵的性质得

(12)

(13)

(14)

式中σ为核函数参数，*表示为复频域共轭，F-1表示离散傅里叶逆变换.

当分类器训练完成后，将新一帧图像的区域特征z作为输入来描述其对应的相关响应，并进行离散傅里叶变换后可以得到：

(15)

在计算过程中，对待测区域的相关滤波响应值进行分析，得到响应最大区域即为被跟踪目标的新位置.

3 改进KCF算法

3.1 基于多特征融合的特征提取

目前目标跟踪算法中使用的主要特征包括：灰度特征、颜色特征、纹理特征以及形状特征等.这些特征从不同角度对图像的一些信息进行量化与描述，产生特征算子的表达能力各有侧重.

传统相关滤波算法多采用图像的方向梯度直方图(HOG)特征，虽然这种特征能较好应对图像对于光照和颜色的变化，具有一定鲁棒性，但是当目标发生形变时该特征的表达能力有所下降，难以保证算法性能.

本文考虑采用fHOG特征和颜色特征的图像特征融合策略，增强对被跟踪区域的信息表达能力.

fHOG特征在基于HOG特征原理的基础上去除了其Block策略并加入梯度方向敏感性分析，并通过相应行列累加对特征维度进行优化.具体步骤如下：

1)图像预处理时采用Gamma校正等方法对输入图像进行颜色空间中的归一化操作并进行去噪声处理，以减少无关因素造成干扰.

2)计算像素点梯度值，图像中像素点的水平和竖直梯度可以通过梯度算子卷积进行求解，水平方向使用[-1，0，1]的梯度算子，竖直方向为[-1，0，1]T的梯度算子，得到两个方向上的梯度分量可表示为

Gx(x，y)=H(x+1，y)-H(x-1，y)

(16)

Gy(x，y)=H(x，y+1)-H(x，y-1)

(17)

通过水平和竖直方向上的梯度分量求得像素点的梯度值大小和方向为

(18)

(19)

式中G(x，y)为像素点的梯度值大小，α(x，y)为像素点的梯度方向.

3)梯度特征映射构建直方图，HOG特征采用无符号映射策略，在得到直方图后将多个单元Cell合并为一个计算块Block，并对Block进行归一化截断处理.在fHOG特征提取过程中，去除了将多个Cell合成Block的操作.fHOG特征提取方法中的31维特征可以理解为有符号18维方向梯度特征与无符号9维方向梯度特征结合图像单元Cell与其所在邻域单元的梯度能量分析.

fHOG特征能较好表达图像区域的纹理信息，但是由于其对物体形变能力的适应性较低，本文考虑引入图像的颜色特征进行特征融合，在被跟踪目标发生一定变化时仍能保证收集其有效信息进行追踪.

对于在颜色特征提取方法，不同颜色空间中的描述方法不同.与RGB颜色空间和HSV颜色空间的描述方法类似，CN颜色空间对常用颜色进行了差异化的分类，可以认为是将RGB颜色空间映射为一个具有11个通道的图像颜色空间模型中.CN颜色空间的通道一般分为：红、黄、蓝、绿、橙、粉、紫、棕、黑、白、灰.这种操作虽然能使图像的颜色表达更加丰富，但是对计算量的要求较高，且大多数图像在颜色空间中的各通道中一般成极不均匀分布，因此对这种颜色特征数据进行PCA降维后，得到2或3个主要成分仍然保证图像颜色信息的完整性.本文采用对CN颜色特征进行主成分分析后降低至2维度的特征方法进行特征提取.

3.2 响应因子结合方向场找回策略

在目标跟踪过程中，由于视频序列场景中可能出现一些环境变化或目标遮挡变形等情况.传统相关滤波跟踪算法运行过程中，受到上述干扰时，图像特征的相关响应水平降低，此时计算当前序列中目标位置不可靠风险较大.因此本文提出采用一种结合响应阈值判别与方向场的策略对存在丢失风险的目标尝试找回.

算法模型进行更新时，传统相关滤波算法一般采用线性差值的方法对滤波器各参数进行更新

(20)

(21)

式中η为算法的更新速率，i为当前序列索引.由于目标遮挡等情况的发生，一旦相关响应程度较低即当前目标位置不确定性较大、跟踪处于高风险状态时，此时仍对相关区域进行更新会造成遮挡物信息对被跟踪目标的特征模型与滤波器参数造成一定污染，使跟踪选框产生漂移，造成在遮挡结束时容易丢失被跟踪的目标.

此处引入被跟踪目标的响应因子，通过分析当前区域进行相关响应后的响应图谱，对当前目标跟踪状态进行估计.一般情况下，选定区域越靠近真实跟踪目标时，跟踪精度较高，此时相关响应峰值比较尖锐.如果出现响应结果成平滑的多峰分布或波动较为明显时，目标位置的跟踪可信度较低.本文通过最大响应与峰值能量结合的方式对跟踪目标的状态进行分析，构建描述被跟踪目标的丢失可能性大小的目标响应因子.

(22)

式中Pi为第i帧序列中目标区域的响应因子，max(f(xi))为相关滤波响应图谱中的峰值，μi和σi分别表示响应均值与标准差.

当响应因子大于给定阈值时，此时目标的跟踪状态较好，应对外观模型进行相应更新.响应因子小于给定阈值时应暂停对外观模型的更新以免将干扰因素更新到模型中去.

(23)

式中ηi为第i帧视频序列更新率，δ为给定更新速率，T为响应阈值.

在一般情况下，当运动目标发生遮挡时，其运动的方向和趋势在相邻帧中的变化幅度相对较小.本文考虑为跟踪目标引入能描述其运动方向和趋势的方向场参数，并通过目标未发生遮挡或严重形变时的位置信息对其方向场直方图进行更新，方便目标找回.

Di={d1，d2，…，d8}

(24)

式中Di为被跟踪目标在第i帧时的方向场，d1，d2，…，d8为该目标当前时刻各方向的运动趋势，原理参考前文fHOG特征直方图映射时对像素梯度的计算，方向场采用相关响应满足阈值条件下的相邻序列图像中目标位置的差分计算运动方向与趋势大小并构建方向特征.

方向场策略通过对目标位置坐标变化的分析和计算，估算被跟踪目标的运动方向与运动趋势.当目标跟踪过程中响应因子高于阈值时，则在调整模型更新速率的同时，对最近一帧正常跟踪目标位置通过方向场信息进行延伸，并对其邻域范围进行有侧重的采样工作，使被跟踪目标遭遇严重形变、遮挡等情况后也能在干扰结束后尝试将其找回.

3.3 自适应尺度估计

在传统相关滤波跟踪算法中，采样选框的大小是固定不变的，即在视频序列的跟踪过程中，算法一直采用同样尺寸的选框对图像特征进行提取.固定选区策略的局限性在于一旦被跟踪目标发生尺度变化，算法准确性将受到很大影响.如果目标的尺度减小，则选框中收集到的特征信息混入了周边负样本区域的噪声，影响相关滤波器参数的更新；如果目标的尺度增大，则当前选框所收集到的特征信息不足以描述被跟踪目标的全部特性，此时超出选框的正样本特征信息会被划分为负样本信息并对滤波器参数进行更新，造成跟踪过程极不稳定.

本文通过先对被跟踪目标的丢失概率进行分析，在被跟踪目标的特征信息与滤波器响应后，被跟踪目标响应因子较高时，其位置可靠性较高，此时对选区进行自适应尺度估计，防止目标发生较大形变或被遮挡对目标的跟踪尺度造成影响.

本文采用等差步长的方法定义尺度范围，第i帧序列的尺度变化因子为：

scalesi=1+am，m=-N，-N+1，…,0，1，…,N-1，N

(25)

式中a为变化步长，取值在0到1之间，当m<0时，scalesi<1此时算法对选定区域按照比例进行缩减并重新采样；当m>0时，scalesi>1此时算法对选定区域按照比例进行放大.当目标没有处于形变和遮挡状态时，按照步长对缩放后的区域重新采样，并与相关滤波器进行响应，计算出取得最大响时的尺度因子scalesi并对目标选区尺度做出相应调整.

4 实验分析

为了更好对比算法性能，本研究采用OTB-50上的数据集进行仿真[9]，实验环境为CPU为Intel Core i5，内存为8G，操作系统为WIN7旗舰版，算法仿真通过MATLAB程序实现.本文通过定性与定量两个方面对算法性能进行测试，在对传统KCF算法进行仿真和优化改进的同时也选取了其他比较具有代表性的目标跟踪算法进行对比.选择的对比算法有跟踪学习检测算法Tracking-Learning-Detection(TLD)[10]、压缩跟踪算法(CT)[11]、以及相关滤波CSK算法[12].

4.1 定性分析

在仿真实验中，本文通过不同灰度的选框标识出各算法当前序列所跟踪到的目标位置，其中用0灰度选框区域表示CSK算法结果、64灰度选框区域表示CT算法结果、128灰度选框区域表示TLD算法结果、192灰度选框表示相关滤波算法KCF结果、255灰度选框区域表示经过本文优化改进后的相关滤波算法(在后文图中用Ours表示)结果.

图1为在视频序列basketball中的部分跟踪结果.该序列环境变化比较复杂，背景与跟踪目标的颜色或纹理特征比较接近，且视频序列涉及光照变化、目标遮挡和目标旋转形变等多种因素影响.当环境纹理较为复杂时，TLD算法作为一种通过分析光流变化对目标进行识别跟踪的算法，在复杂条件下光流信息和相应特征的复杂程度较高，且目标运动过程中出现形变遮挡等情况，迭代特征信息易受到环境干扰，导致跟踪误差较大，出现目标丢失等情况.CSK算法虽然是一种基于相关滤波的方法，但是由于只采用单一的灰度特征，因此图像的颜色信息不能被更好收集，跟踪中也会出现目标丢失情况.CT算法通过对特征进行压缩提高计算速度，但在检测过程中会牺牲一定精度.KCF方法在目标发生尺度变化或形变后会出现一些偏差，尤其在目标与相似事物发生短暂遮挡交叉等情况时，由于在前一帧目标位置附近进行特征筛选，导致交叉重叠的类似事物容易被误检为跟踪目标，并可能影响后期整体跟踪性能.本文算法能更有效的对目标进行跟踪.在目标发生小范围形变、旋转或尺度变化时，由于融合特征对目标信息的表达更加丰富，提高算法在复杂环境下的分类能力.当目标与相似事物发生交叉重叠时，如283帧中的重叠位置，各传统算法在检测中发生不同程度位置偏移，本文算法结合融合特征来分析运动方向场特性，对目标的运动趋势进行估计，防止跟踪窗口发生偏移影响迭代，且判别过程中加入了尺度自适应分析，提高目标特征可靠性，便于更准确对目标位置进行判断.

图1 视频序列basketball中各算法结果

图2为跟踪目标在运动过程中出现被遮挡情况的视频序列jogging中部分检测结果.目标被完全遮挡前各算法均能较为准确判断目标位置，在目标被全部遮挡的情况下，此时对目标模型更新的特征可靠性较低，由于部分算法应对特征选框中信息发生突变时，缺乏对目标特征信息可靠性的分析和判别，只选择接受特征信息并进行更新和迭代，因此CT、CSK、KCF算法中均出现遮挡在结束后丢失跟踪目标的现象，并导致了跟踪目标发生了改变.序列第71帧中目标被遮挡，各算法跟踪区域信息发生较大变化，此时发生目标丢失的可能性较大.由于本文算法的目标找回策略，在跟踪目标特征发生较大变化时，算法对当前位置的特征信息可靠性进行分析，自适应判别能否对跟踪选区中的信息进行更新，防止突发遮挡等情况对跟踪目标的特征造成污染，且根据目标当前运动方向信息对目标位置进行分析，便于在短暂遮挡结束后对跟踪目标进行找回，防止目标丢失.

对于旋转和尺度变化，图3为视频序列dudek和carscale中的部分结果，其中dudek视频中涉及目标与镜头均有较快速移动和目标形变等更为复杂的因素.当目标发生尺度变化时，由于CT、CSK和KCF算法均没有自适应的尺度变换机制，导致固定区域内的信息全部更新到目标特征集合中.如果跟踪目标尺度减小，则大量背景特征信息保存到该选区中，并被误判为目标特征进行更新.如果目标尺度增加，则固定选区不能完整收集跟踪目标的全部特征信息，造成数据缺失，导致跟踪的准确性较低.本文算法通过尺度自适应分析调整跟踪选框大小，在确认跟踪位置可靠程度较高时对选框尺度进行自适应调整，方便收集跟踪目标的全部信息，并结合融合后的特征进行分析迭代，使得检测结果更加准确.

图2 视频序列jogging中各算法结果

图3 视频序列dudek和carscale中各算法结果

由图3中序列carscale部分结果可知，视频中存在目标遮挡、目标快速移动、镜头快速移动以及尺度变化等多种因素，场景较为复杂，如序列第167帧中出现的遮挡物对各算法均产生不同程度影响.由于目标的移动速度和尺度变化速率较快，且受到树木等环境因素的影响，目标本身的颜色纹理等特征变化较剧烈，跟踪位置可靠性较差，各算法在跟踪过程中均出现了一定误差，其中CT、TLD和CSK出现目标丢失现象，KCF算法虽然能判断跟踪目标但是由于固定尺度和比较单一的特征分析方式，使得算法能够提取和分析的信息有限，且噪声影响比较严重，因此结果存在一定偏差.本文算法特征融合后信息表达能力较强，有一定抗干扰能力，且在位置可靠性较差时结合目标运动方向进行综合分析，提高复杂背景下的检测能力，为防止特征信息溢出，本文算法对尺度变化速率设置了一定阈值，虽然对检测结果造成了一定影响，相比其他对比算法本文算法检测结果在车身中间位置且有效区域重合度最高.相比各传统算法，本文算法跟踪效果较好.

4.2 定量分析

为了使结果更加全面，本文通过算法精度和算法成功率对各算法性能进行评估.精度(precision plot)主要指预测位置中心点与测试数据集中标注的中心位置间的欧式距离，以像素为单位进行计算，通过目标跟踪时被跟踪目标左上角的坐标数据和选框大小计算得出.成功率(success plot)指跟踪目标位置数据与所在测试数据集上位置标注数据的重合程度.在测试结果中，SRE模式为在视频初始化时对目标位置进行一定偏移，即测试初始化时存在一定偏差情况下的目标跟踪性能，通过进行12次测试(8个方向4个尺度)检测被测算法的鲁棒性.TRE模式在视频序列时间轴上找到20个点作为起始点进行测试，通过不同起始位置对目标进行跟踪，最后通过反复试验得出算法跟踪精度和成功率.如图4-图7所示.

通过本文算法与其他各算法的比较可得，本文算法在跟踪成功率和跟踪精度上性能相对较好.由于本文算法采用融合特征进行分析，并结合可靠性判别机制和结合方向场的找回策略，使得算法应对复杂场景或容易发生结果漂移情况时能较准确的定位目标位置，跟踪成功率和精度曲线的线下面积相对其他算法均为最大.通过数据分析并平均化计算后，相比较传统相关滤波算法KCF，本文算法在检测成功率和跟踪精度上分别提高了18.49%和9.54%，相比TLD算法在检测成功率和跟踪精度上分别提高了45.31%和33.16%.在计算效率上，由于改进算法引入多特征融合、丢失目标找回策略以及尺度自适应分析，算法在计算速度较传统KCF算法有所下降，但和TLD算法相当，仍具有一定实时性.

图4 TRE模式下各算法的跟踪成功率

Fig.4 Success plots of TRE

图5 TRE模式下各算法的跟踪精度

Fig.5 Precision plots of TRE

图6 SRE模式下各算法的跟踪成功率

Fig.6 Success plots of SRE

图7 SRE模式下各算法的跟踪精度

Fig.7 Precision plots of SRE

表1 算法实时性性能表

5 结束语

改进算法通过将改进方向梯度直方图与颜色特征进行特征融合，并结合方向场和响应因子构建目标丢失找回策略，最后加入自适应尺度分析对跟踪选框大小进行自适应更新，从而提升算法精确性.通过实验与各常用跟踪算法进行对比，结果表明本文算法虽然计算量增加导致实时处理能力有所下降，但在目标跟踪精度和成功率上分别较传统KCF算法提高了18.49%和9.54%，具有较好综合性能和实用价值.