APP下载

基于自适应特征融合的多尺度相关滤波跟踪

2022-12-01张立国周思恩

计量学报 2022年10期
关键词:分类器滤波器成功率

张立国, 杨 曼, 周思恩, 金 梅

(燕山大学 电气工程学院,河北 秦皇岛 066004)

1 引 言

随着人工智能技术的快速发展,目标跟踪在现实生活中的应用越来越多,包括视频监控、运动项目的比赛分析、智能人机交互[1~3]、跟踪系统的设计[4]等,由于跟踪中也存在运动模糊、背景复杂变化、目标遮挡、光照变化等问题,故实现鲁棒性高、准确度高以及速度快的目标跟踪仍然是一个急需解决的问题[5,6]。

由于深度学习的跟踪算法自身鲁棒性强以及速度快的特点,相关滤波目标跟踪方法受到了国内外众多研究者们的关注[7,8]。早期,Bolme D S等[9]提出的最小输出平方误差和(minimum output sum of squared error,MOSSE)跟踪算法;Henriques J F等[10]提出的循环结构的检测跟踪(circulant of tracking-by-detection with kernel,CSK)算法虽然都显著地提高了跟踪速度,但都是仅利用灰度特征,限制了精度的提升; 随后,Henriques J F等[11]又提出核相关滤波器(kernelized correlation filters,KCF)算法,该算法将颜色直方图(HOG)特征代替CSK算法中的灰度特征,使单通道扩展至多通道,提高了跟踪精度。Danelljan M等[12]提出的空间正则化鉴别相关滤波器(spatially regularized discriminative correlation filters,SRDCF),在KCF基础上,加入了空间正则来解决边界效应,但是速度比较慢,无法达到实时跟踪的效果;Danelljan M等[13]还提出了自适应颜色名跟踪(color name tracking,CNT),基于CSK滤波器,融入了颜色名称(color name,CN),虽然精度相比CSK滤波有所提高,但是对快速运动跟踪效果不佳。

针对以上存在的问题,本文在相关滤波KCF框架下,提出一种基于自适应特征融合的多尺度相关滤波跟踪方法。首先,提取VGG-19网络中conv2-2、conv3-4、conv5-4层的特征,同时提取CN特征,然后,将CN特征直接与conv2-2层特征并联,并将3层的特征分别经过滤波器学习得到响应图,由加权融合的方法搜索响应图峰值,根据峰值坐标估计目标位置。以适应目标跟踪过程中目标外观变化,引入文献[14]的方法,进行尺度估计。实验采用数据集OTB(object tracking benchmark)100,实验结果表明:与KCF算法相比,精确度提高13.6%,成功率提高11.8%,并将本文跟踪算法与其他跟踪算法进行对比,在遮挡、变形、光照变化快速运动、平面旋转、运动模糊几个方面的精度和准确率上都优于其他算法。

2 KCF跟踪算法

KCF算法的核心思想是循环移位跟踪目标区域,并以此构造大量的样本来训练分类器,见文献[11]。通过分类器计算候选区域与跟踪目标之间的相似度,更新最大相似度区域作为新的跟踪目标,同时通过离散傅里叶变换降低分类器训练与检测过程中的运算量。

2.1 循环样本矩阵

选取目标周围n×n大小的图像块x,训练分类器f(x)=<φ(x),w>,循环移位图像块xi(i∈{0,…,n-1}×{0,…,n-1}),写成矩阵形式:

(1)

利用循环矩阵扩大样本数量,提高分类器的训练效果。循环矩阵经离散傅里叶变换(Discrete Fourier Transform,DFT)对角化为

X=FHdiag(Fx)F

(2)

式中:FH是F的埃尔米特变换;F为离散傅里叶变换矩阵。

2.2 岭回归分类器

通过岭回归对KCF进行训练,用以获取目标模型分类器的权重w。岭回归问题可以转化为正则化最小二乘问题,对于所有训练样本X和预期输出Y,分类器权重w由优化目标函数(3)求解。

(3)

式中:xi是通过循环移位获得的训练样本;yi是xi高斯标签;λ是正则化参数;φ是核k诱导的高维特征空间的映射。因此,式(3)的解可以表示为

(4)

式中:w是线性低维空间权重系数;α是从核函数映射到非线性高维空间系数。

对于在原始空间不能进行分类的样本,引入核函数的相关概念,将低维的线性不可分问题映射到高维空间,使其在高维空间线性可分。假设H是某种特征空间;如果存在某个映射φ(x):x→H,则核函数k(x,x)满足的内积如下:

k(x,x′)=φT(x)φ(x′)

(5)

联立式(3)、(4)和(5)可以将分类器权重w的求解转化为求解分类器系数A为

(6)

式中:F(*)是离散傅里叶变换(DFT)算子;k(x,x)是核函数。

2.3 目标检测

检测阶段中,输入视频的最终目标位置信息是经过岭回归分类器的分类来确定,再将得到的目标位置信息继续训练岭回归分类器,如此反复,最终完成对目标的跟踪[15]。检测样本是下一帧中相同位置的图像块z,分类器响应输出:

(7)

2.4 参数的更新

(8)

3 对KCF算法的改进

3.1 CN特征

CN特征本质是通过颜色属性扩展CSK。是一种全局的特征,描述的是图象或者图象某区域内的全局性表观特征,利用文献[16]中的映射方法将RGB空间转化成了11维的颜色特征空间,并利用主成分分析法(PCA)将11维颜色特征降为2维颜色特征,参见文献[13]。其中,PCA就是在最小均方的情况下,寻找原始数据的最优投影方法,Danelljan M等利用PCA思想寻找特征空间的主轴方向,然后用主轴构建出一个低维坐标系,将图像中的颜色特征信息投影到新坐标系中,达到降维处理的目的。

利用最小化公式(9)可以得到当前t帧的合适的降维图:

(9)

(10)

(11)

为了获得更加鲁棒的投影矩阵,将平滑项加入式(9)中,可以得到新投影矩阵Bt和先前投影矩阵Bj之间的平滑误差,计算公式如下:

(12)

(13)

3.2 VGG-19卷积神经网络

VGG-19网络模型[17]结构如图1所示,以输入224×224大小图像为例,VGG-19网络选择3×3的卷积核,卷积层步长为1,池化层的步长为2,其中,C1-C5为卷积块,P1-P5为池化层,FC1-FC3为全连接层,Output是输出分类结果。基于此,VGG(visual geometry group)网络可以在特征图大小改变很小的情况下通过3×3卷积扩大通道数,又可以根据池化层缩小数据的尺寸。

图1 VGG-19卷积神经网络结构Fig.1 VGG-19 Convolutional Neural Network Structure

3.3 特征融合

借助文献[18]的设计思想,在卷积浅层中加入颜色特征,并且采用的层特征并不是全连接层的输出特征。经过大量的实验发现,conv5-4层特征在定位尖锐边界方面不太有效,但conv3-4特征对于精确定位阶梯边缘更有用,同时在conv2-2层加上颜色特征,可以减小光照变化的影响。最终确定利用VGG-19网络中的conv2-2、conv3-4、conv5-4层的特征输出,并将CN特征广播成与conv2-2层特征大小一样后直接与之相加,随后3层的特征分别经过相关滤波器学习,获取不同的响应图,基于最大输出响应进行线性插值,得到新的输出响应图,再加权融合搜索最大响应评估目标位置。

εl=2l-5

(14)

然而,在conv2-2层加入CN特征,会使得模型对光照变化敏感,因此将conv2-2层特征的权重选择与conv3-4层保持一致,假设加权融合后响应值峰值坐标为(m,n),则根据公式(15)进行目标位置P(m,n)的预测:

(15)

3.4 多尺度跟踪器

本文借鉴Danellian M等提出的多尺度跟踪器(DSST),见文献[14],学习一维独立的相关滤波进行尺度变化的检测。首先,在被检测的目标周围采集一系列尺度不同的图像块xsl,提取m′维HOG特征,利用这些图像块训练岭回归分类器,并在线性空间进行求解,获得一维的尺度相关滤波器,最后,相关滤波器的最大输出响应即为新的一帧中目标的尺度。

(16)

然后,尺度相关滤波器的输出响应为

(17)

本文的算法流程如图2所示。

图2 本文算法具体流程图Fig.2 Flowchart of the algorithm in this paper

在目标位置检测部分,利用VGG-19网络中的conv2-2、conv3-4、conv5-4层的特征,并在conv2-2层直接相加CN特征,并将3层的输出响应进行加权融合,搜寻峰值坐标,并相应的在线更新参数;在尺度检测部分,在目标检测出后,在目标周围提取一系列不同尺度的图像块,进行HOG特征提取,并训练岭回归分类器,经KCF滤波并寻找使输出响应最大的值,作为目标尺度。

4 实验结果与分析

实验采用Intel Core i5-4210M、CPU 2.60 GHz、RAM4.00GB的笔记本,算法开发平台是Matlab R2018b,在标准跟踪数据集OTB100[19]上检验跟踪的精度和成功率性能指标,实验中选取的模型学习率γ=0.01,正则化参数λ=0.000 1。OTB100数据集包含了跟踪中经常遇到的具有挑战性的问题:形变、背景杂乱、遮挡、快速运动、旋转、运动模糊等背景环境。基于此环境和数据集,分别将本文算法与近年几个优异的跟踪算法进行全部视频序列的测试,并使用一次通过评估(one-pass evaluation,OPE)模式,计算精确度(precision)[20]和成功率(success)。

成功率曲线(success curve)描述的是估计目标矩形框与真实目标矩形框的重合率(overlap score,OS)的大小,即两矩形框的相交部分面积除以两矩形框的相并部分的面积[21]。当某帧的重合率大于给定的阈值T0时,该帧就是跟踪成功(success)。通常取T0=0.5用来衡量跟踪算法[22]。成功率曲线图的横坐标是从0到1的连续阈值,纵坐标是总的跟踪成功的帧占所有帧的百分比。评价得分用曲线下方的面积来表示。

精度曲线(precision curve)是指跟踪目标坐标中心与标签(ground-truth)的坐标中心的欧式距离(中心误差(center location error,CLE))小于给定阈值的视频帧数和整个测试集视频帧数的比值,精度曲线图的横坐标是一系列不同的距离阈值大小,单位为pixel,纵坐标是估计目标中心位置的误差距离小于该阈值的所有帧占该序列总帧的百分比。一般阈值不同百分比也不同,由此可以得到一条曲线,本文CLE阈值选20个像素点。

本文算法(简称ours)与近几年来出现的几个先进跟踪算法进行了比较,OPE检测结果如图3所示,左侧图框内各算法前面的数据表示平均成功率,右侧图框内的数据则表示阈值下的准确度。

在表示成功率图的坐标中,其横坐标是估计目标矩形和真实框矩形的交并比阈值,纵坐标是满足交并比阈值条件下的成功率;在表示精度图的坐标中,其横坐标是跟踪目标结果与人工标注目标结果的误差阈值,纵坐标则是精度值。

由图3可知,在目标变形、光照变化、运动模糊、平面旋转几个方面,ours优于KCF、HCF、SRDCF、siamfc3s、DCFNet、LCT、CNNSVM、DLSSVM跟踪算法。尤其是,相比于KCF滤波器跟踪算法,一遍过评精度提高13.6%,成功率提高11.8%。

图4是ours算法与其他4种算法(siamfc3s、 KCF、 HCF、 SRDCF)的跟踪结果对比,黄、粉、绿、蓝框均为跟踪目标框。其中,bird1序列倾向于目标变形情况,Ironman序列倾向于光照变化情况,Soccer序列倾向于运动模糊情况。

为了进一步说明图4中各算法跟踪性能的效果,计算了5种算法的中心位置误差(center location error,CLE),随机选取几组视频序列的结果如表1所示。CLE是指跟踪目标坐标中心与人工标注(ground-truth)的坐标中心的欧式距离,单位为pixel,值越小跟踪效果越好。

图4 跟踪效果Fig.4 Tracking effect

表1 中心位置误差(CLE)对比Tab.1 Central position error (CLE) comparison pixel

针对以上序列实际跟踪结果分析如下:

bird1序列:此序列倾向于目标变形情况,在第24帧siamfc3s算法跟踪丢失,第30帧又重新跟踪成功,在第32帧KCF算法和SRDCF算法目标跟踪丢失,ours和HCF算法跟踪成功。通过表1中此序列CLE性能的对比,本文算法的跟踪效果更好。

Ironman序列:光照变化比较明显,在第17帧SRDCF算法目标跟踪丢失,在第45帧KCF算法目标跟踪丢失,在第106帧siamfc3s算法目标跟踪丢失,ours和HCF算法跟踪成功。通过表1中此序列CLE性能的对比,ours的跟踪效果更好。

Soccer序列: 主要涉及运动模糊,第45帧siamfc3s算法目标跟踪丢失,第76帧KCF算法目标跟踪丢失,ours和HCF算法以及SRDCF算法跟踪成功。通过CLE性能比较ours的跟踪效果更好。

5 结 论

本文在KCF跟踪算法的基础上,结合在旋转、目标形变、背景杂乱情景中鲁棒性更优的CN特征及在快速运动、模糊等情景中鲁棒性高的深度网络的特征,提出一种基于自适应特征融合的多尺度相关滤波跟踪方法。

实验结果表明:本文算法在目标变形、运动模糊、光照变化及平面旋转方面的精确度和成功率均优于其他8种跟踪算法,比KCF跟踪算法精确度和称功率分别提高了13.6%和11.8%。在遮挡、背景杂乱、快速运动情景中,跟踪效果与HCF算法相当,有效的提高了目标跟踪的准确性。

猜你喜欢

分类器滤波器成功率
成功率100%,一颗玻璃珠入水,瓶子终于坐不住了!
成功率超70%!一张冬棚赚40万~50万元,罗氏沼虾今年将有多火?
基于多模谐振器的超宽带滤波器设计
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
如何提高试管婴儿成功率
从滤波器理解卷积
一种自适应子融合集成多分类器方法
Comparison of decompression tubes with metallic stents for the management of right-sided malignant colonic obstruction
一种微带交指滤波器的仿真