多特征的尺度自适应核相关滤波目标跟踪算法

2023-09-04于昊充王贵宇

计算机仿真 2023年7期

贾亮,于昊充,王贵宇

(沈阳航空航天大学电子信息工程学院,沈阳辽宁 110136)

1 引言

在计算机视觉领域中,跟踪是非常基础且重要的问题之一[1,2],在视频监控,无人机巡航,机器人感知等应用中发挥着重要的作用。近年来,随着相关滤波[3-5]的出现,使得鲁棒性得到了显著提升[6],矩形框在视频的初始帧确定,再根据初始帧训练跟踪器,在下一帧图像进行相关滤波计算,最大响应值点即为下一帧的目标位置,并用矩形框跟住目标,具备较高的运算速度。然而,并不能较好的应对存在如目标尺度变化、遮挡及低分辨率等复杂背景的问题。在传统核相关滤波跟踪(kernel correlation filter,KCF)算法[7]的基础上,通过将HOG特征与CN特征[8]进行线性融合[9-12],弥补HOG特征无法描述目标颜色特征的不足,将融合后的特征代替传统KCF算法的单一特征;在更新阶段引入平均峰值相关能量[13](average peak-to correlation energy,APCE)通过计算最大响应峰值及APCE来判断当前帧跟踪器是否进行更新从而避免遮挡导致的更新失败;在未受到遮挡时,对目标尺度进行放缩,寻找不同尺度间的最大响应值,从而找到当前目标的最佳尺度。

本文所提出的算法在检测阶段,更新阶段分别做出了改进。在检测阶段通过多特征融合技术加强对目标的特征的描述,在更新阶段分别采用多峰值检测更新机制与尺度池的方式避免遮挡与尺度变化导致的跟踪失败。与传统KCF算法相比,改进后算法在尺度变化、遮挡以及低分辨率等复杂背景下具有较好的稳定性。

2 核相关滤波跟踪算法

KCF跟踪算法对目标进行采样的方式是通过建立循环矩阵,实现对目标的密集采样。并且通过核函数的方式将线性空间中的回归问题扩展到非线性空间,这样就把低维空间不可分的情况扩展到高维空间之后变线性可分,使得核相关滤波更加具有鲁棒性。

2.1 循环矩阵

在样本采集的过程中,传统的目标跟踪算法通常采用的是稀疏采样方式,这样的采集方式会使得目标特征表达不完全,并且计算量也较大,运行速度较慢。KCF跟踪算法是通过使用循环位移的方式对训练样本进行采样,进而可实现对目标样本的密集采样。使用一个一维向量作为基本样本x=(x1,x2,…,xn)通过循环移位对基本样本进行密集采样

(1)

由循环矩阵在傅里叶域中可进行对角化性质,可将循环矩阵化简

(2)

2.2 线性回归

KCF跟踪算法的分类器使用了岭回归分类器,岭回归分类器可以快速的得到训练目标的闭式解,并且在实际应用中,岭回归分类器拥有较高的性能水平,分类性能与SVM相近。通过采用岭回归找到一个回归函数

f(z)=ωTz

(3)

式中:z为样本,ω为滤波器系数。

通过该函数计算样本xi与回归目标yi的平方误差,并且使平方误差最小化。该过程要使得误差函数取最小值,即寻找最优的ω

(4)

式中:ω为滤波器系数,λ是正则化参数,用于抑制过拟合。yi是样本xi的期望输出。

对(4)式求导,使导数等于0求得ω,得到闭式解并写成复数域的形式

ω=(XTX+λI)-1XHy

(5)

式中:y是每个元素对应一个样本的标签的列向量,XH为X的共轭转置。

将式(2)的循环矩阵进行对角化,并用对角化形式来化简式(5)中的岭回归公式可得

(6)

用矩阵元素的点乘代替矩阵求逆的运算过程,可大幅提高训练时的计算速度,并得到

(7)

2.3 非线性回归

KCF采用高斯核函数,其计算公式为

(8)

在非线性问题的处理上,通过使用核函数把非线性问题从非线性空间转换到线性空间,使在低维空间线性不可分到高维空间线性可分。滤波器ω表示为

(9)

由此得出ω的最优解问题变为为寻找对偶空间中α的最优解。由高斯核可知

K(x,x′)=φT(x)φ(x′)

(10)

使用核矩阵K表示所有元素的点乘结果,其中Ki,j=K(xi,xj)。所以可得

(11)

式中:K是核矩阵,α是αi的矢量。

引入核函数后得到岭回归的闭式解

α=(K+λI-1)y

(12)

若核矩阵K为循环矩阵,可将式(11)化简得到

(13)

2.4 快速检测

训练样本x和待测样本z的核矩阵通过Kz表示,并且x和z均为循环移位获得,故Kz也是循环矩阵,即定义为

KZ=C(kxz)

(14)

将其代入式(10)中得

f(z)=(Kz)Tα

(15)

将其进行傅里叶变换并进行对角化处理得

(16)

当前帧中目标的所在位置即为响应f(z)的峰值所在位置。

3 改进的核相关滤波跟踪算法

3.1 算法的整体流程

本文在KCF算法基础上进行了相关改进,算法的鲁棒性有了明显提高。改进后算法的的流程如图1所示。

图1 改进后的KCF算法流程

其步骤如下:

1)特征提取阶段分别计算HOG特征与CN特征,将HOG特征与CN特征进行线性融合;

2) 相关滤波阶段使用新的特征进行计算,并计算当前帧的响应值;

3) 更新阶段通过采用APCE更新准则,目的是为了防止遮挡等干扰导致更新错误信息使得跟踪失败;

4) 在未受到遮挡时,对目标进行尺度放缩,计算每一个尺度的响应值,通过比较响应值大小来寻找最大响应值,最大响应值所对应的尺度即为当前目标的最佳尺度。

5) 最后,通过确定目标区域与每一个像素的相似度,来确定这一帧的目标位置。

3.2 多特征融合

传统的KCF跟踪算法对目标特征的提取通常采用单一的目标特征,使用单一的目标特征会导致跟踪器在存在大量复杂背景的场景中跟踪失败,例如:HOG特征在目标背景具有较强的光照变化,目标与背景颜色相近等颜色干扰情况下具有较强的稳定性,但是在快速运动,模糊背景等干扰下的适应性较差;CN特征在快速运动、低分辨率等情况下表现良好,但是对于颜色干扰表现较差。为了解决这一问题,本文将HOG特征与CN特征进行线性融合,因HOG特征与CN特征可以相互弥补其缺点,所以本文算法采用这两种特征进行线性融合来提高跟踪精度,并将融合后的特征用于目标跟踪中。

HOG用于检测目标的几何特征。通过计算目标区域的梯度方向直方图的方式来描述感兴趣目标的特征,因HOG反应的是目标的外形轮廓,对目标的颜色变化不敏感,但是对于模糊背景以及遮挡等适应性较差。

CN是一种描述颜色语言的颜色标签。CN特征能够检测目标的颜色,检测的颜色信息为目标的重要特征信息,在快速运动、低帧数背景和光照变化等复杂背景下的敏感度很低,但是无法良好的应对颜色相似干扰。

本文算法多特征融合的具体步骤为:

1)进行HOG特征与CN特征的特征提取;

2)将HOG特征与CN特征进行线性融合,HOG特征的通道数为31,CN特征的通道数为10,融合后得到41个通道特征;

3)通过对应像素相加的方式将41个通道特征进行相加,最终得到一个单通道的特征图;

3.3 尺度自适应

在目标跟踪过程中,尺度变化是较为重要也是较为基础的问题。如果在跟踪过程中,跟踪框不能自适应变化尺度,在目标大小发生变化时,将会遭遇以下问题:当目标尺寸变小时,跟踪器将会学习大量的背景信息;当目标尺寸变大时,跟踪器不能学习完整的目标信息,使得目标信息不完全。

SAMF[14]算法通过计算7个不同尺度的响应值,选择最大响应值尺度作为最佳尺度。本文也采用尺度池的方式来实现尺度自适应变化。首先,对目标缩放到不同尺度Si,在对所有尺度进行核相关滤波计算,得到不同尺度的响应值FSi,再通过比较响应值大小来寻找最大响应值,最大响应值对应的尺度为最佳尺度,寻找最佳尺度过程如图2所示。

图2 基于尺度池方法的尺度不变性算法原理框图

本文为了不大幅降低算法的运算速度,且保证算法的实时性,将尺度数量设置为三个,尺度池Si={0.95,1.0,1.05},通过计算以上三个尺度的响应值来寻找最佳尺度。

3.4 多峰值检测更新机制

在目标跟踪过程中,除了初始帧之外,在每一次跟踪器更新前增加一个多峰值检测机制,在没有出现干扰情况下,响应的峰值都将出现单一峰值;如果出现遮挡等复杂背景的干扰,响应将不再是单峰值,而是将会出现多峰值情况。如图3所示。

图3 Jogging图像序列的51帧、79帧的响应图

图3采集自OTB-100数据集中的Jogging序列,在51帧时未出现遮挡,响应呈现单峰值;在79帧出现了明显的多峰值,这代表在此刻周围环境出现了遮挡,跟踪器计算了大量相似的背景信息,将无法正确寻找响应最大值,导致目标丢失,跟踪失败。

在原有核相关滤波算法(KCF)基础上加入APCE更新准则,并且只有在检测的响应值存在唯一且明显的单峰值时,才会对跟踪器进行更新。若出现干扰等产生多峰值,会根据当前帧的APCE值和响应峰值的最大值(Fmax)来判断目标是否受到遮挡干扰。APCE更新准则如下:

(17)

式中:Fmax代表响应最大值;Fmin代表响应的最小值;Fω,h代表在目标在(ω,h)位置处的响应值。

APCE更新准则可以反映出在跟踪过程中的整体响应情况,当APCE骤然减小时,代表着目标受遮挡影响,为了避免在此帧更新干扰信息,跟踪器将不会进行更新。加入APCE评价标准即在一定程度上减少跟踪时跟踪器的漂移情况,又减少了跟踪器的更新次数,起到了一定的加速效果。

在KCF算法中对跟踪器系数α进行线性插值

α=(1-β)αpre+βαx′

(18)

式中:α为下一帧的跟踪器系数;αpre为前一帧的跟踪器系数;β为线性插值因子;αx′由当前帧跟踪器训练得到。

4 实验结果与分析

4.1 实验环境与参数设置

本次算法所用的实验平台配置为AMDRyzen7 4800H withRadeon Graphics CPU,主频2.9GHz,8G内存,使用Matlab2018b开发平台进行测定。在本次实验中,传统的KCF参数保持不变,padding值由原本的1.5设置为2.5,标准差σ设置为0.7,插值因子β设置为0.014,正则项系数λ设置为0.0001。

尺度步长为1.05。

在本次实验中,根据Wu等[15]提出的OTB(online object tracking)跟踪性能评估标准来评估本文算法的性能,并且评价指标采用中心位置误差(CLE)与重叠率(Overlap)。CLE是指通过算法计算得到的跟踪目标的中心坐标与目标所在的真实位置坐标之间的欧氏距离

(19)

式中:(x,y)为算法计算所得的目标中心坐标,(xc,yc)为目标的真实位置坐标。精确度是计算CLE小于某一阈值(本文取值为20pixel)的视频帧数与该视频序列总帧数的百分比大小。

帕斯卡尔重叠率可用来评估跟踪成功率,重叠率是指给定跟踪框BT与实际跟踪框BG区域面积的交集,而成功率计算的是目标的重叠率大于设定的重叠率阈值(本文取值为0.5)的视频帧数总和占总帧数的百分比大小

(20)

4.2 定量实验与结果分析

为验证本次改进算法的鲁棒性,将本文算法KCF＿HC1(包含多特征融合、APCE更新标准、尺度自适应)、KCF＿HC(包含多特征融合、APCE更新标准)、KCF＿AS(包含APCE更新标准、尺度自适应)、KCF＿APCE(仅有APCE更新标准)、KCF以及本文参考的SAMF算法进行比较,精确度与成功率结果对比图如图4所示。

图4 精确度与成功率对比图

从测试结果可以看出,本文的改进算法KCF＿HC1精确度为80.6%,明显优于改进前KCF算法的精确度,相较于传统KCF提高14.9%;成功率为77.2%,也明显优于改进前的KCF,相较于传统KCF提高22.6%,表明增加多特征融合、APCE更新标准以及尺度自适应等改进措施确实可以提高算法的鲁棒性。

为了进一步验证本文改进后KCF算法的跟踪性能,测试时选取了OTB-100数据集中较为经典的具备遮挡的视频序列,在视频序列中同时标注出改进前与改进后算法的跟踪框进行对比,如图5所示。

图5 改进前与改进后KCF算法在Jogging1、Couple、Singer1上的跟踪效果

在图(a)Jogging1视频序列中,选择跟踪目标为左侧跑者,在第57帧时,两种算法均可正常跟踪;在第80帧时出现了遮挡情况,改进后的KCF跟踪器因此帧未进行更新,所以没有学习遮挡的背景信息;在第91帧可明显看出改进前KCF因学习了背景信息,跟踪框停留在遮挡处,改进后的KCF则正常跟踪。

在图(b)Couple视频序列中,因该视频序列全程存在窗口剧烈晃动,所以只有在初始时两算法均正常跟踪。在后续帧中因改进前KCF只进行HOG特征提取,改进后的KCF因结合了CN特征,所以只有改进后的KCF可以正常跟踪。

在图(c)Singer1视频序列中,在第12帧两种算法均可正常跟踪;在第58帧到第115帧时,目标逐渐缩小,改进后KCF算法因可以进行尺度自适应变化,则算法正确跟踪目标且持续锁定目标大小。

5 结束语

本文提出一种将多特征融合,多峰值检测机制及尺度自适应相结合的核相关滤波(KCF)跟踪算法。将HOG特征与CN特征进行线性融合,将融合后的特征作为新特征,解决了HOG特征对目标颜色变化敏感问题;同时提出多峰值检测更新机制,通过计算最大响应峰值及APCE来判断当前帧是否更新跟踪器来避免跟踪器学习错误信息;使用尺度池的方式对目标进行放缩,寻找不同尺度间的最大响应值来确定最佳尺度;通过OTB-100公开数据集对改进后算法进行评估,从结果得出改进后算法相较于传统的KCF算法在精确度与成功率上分别提高了14.9%与22.6%,具有更好的跟踪效果。