APP下载

多分辨率多特征融合自适应相关滤波跟踪算法

2022-07-11王国刚刘一博

测试技术学报 2022年4期
关键词:低分辨率鲁棒性滤波器

王国刚, 刘一博, 吴 艳

(山西大学 物理电子工程学院, 山西 太原 030006)

0 引 言

视觉跟踪是估计图像序列中目标的运动轨迹, 在视频监控、 智能交通检测、 医学图像分析、 行为识别等领域得到了广泛应用. 然而, 视觉跟踪在实际应用中仍面临诸多挑战, 如遮挡、 光照变化、 目标姿态变化、 尺度变化、 低分辨率、 面内旋转等[1-2]. 早期经典跟踪算法很难处理这些难题, 无法满足工业需求. 随着技术的发展, 出现了以跟踪学习检测(Tracking-Learning-Detection, TLD)[3]、 自适应结构局部稀疏外观模型(Visual Tracking Via Adaptive Structural Local Sparse Appearance Model, ASLA)[4]和结构化输出(Structured output tracking with kernels, Struck)[5]为代表的诸多跟踪算法, 在跟踪性能方面超越了经典算法.

近年来, 对视觉跟踪算法的研究主要体现在深度学习和相关滤波两个方面. 基于深度学习的视觉跟踪算法, 利用神经网络提取目标特征, 在大规模数据集上训练跟踪模型, 能够实现精准跟踪. 但该类算法计算复杂, 无法实现实时跟踪. 因此, 兼备跟踪实时性和精度的相关滤波算法倍受青睐[6-16].

2010年, Bolme等[17]首次将相关滤波的概念引入跟踪领域, 提出最小输出平方误差总和(Minimum Output Sum of Square Error, MOSSE)算法. MOSSE算法的核心思想是求图像中二维信号间的相似性. Henriques等[18]在MOSSE算法的基础上引入循环矩阵, 使用核技巧将低维不可分的底层样本信息映射为高维线性可分的特征信息, 提出利用循环结构的核相关滤波(Exploiting the Circulant Structure of tracking-by-detection with Kernels, CSK)算法. 相较于MOSSE算法, CSK算法性能提升显著. 2015年, Henriques等[19]又引入多通道特征, 使用方向梯度直方图(Histogram of Oriented Gradient, HOG)特征代替CSK算法中的灰度特征, 提出核相关滤波(Kernelized Correlation Filters, KCF)算法. 由于上述算法在跟踪过程中仅使用单一特征训练滤波器, 所以, 当目标发生剧烈形变时将导致跟踪性能变差. Lan等[20]提出了联合稀疏表示和鲁棒特征层融合的多线索视觉跟踪(Joint Sparse Representation and Robust Feature-Level Fusion for Multi-Cue Visual Tracking, RJSRFFT)算法, 其融合多种特征, 并去除融合特征中的不可靠特征信息, 提高了跟踪准确性. 尽管RJSRFFT算法采用多特征融合, 增强了对目标的表征能力, 但目标尺度固定, 未考虑分辨率特性对特征提取的影响, 导致跟踪性能不佳.

文献[19]提出的KCF算法在跟踪性能和速度上取得非常大的突破, 成为近几年最经典的相关滤波跟踪算法. 但KCF算法在跟踪过程中仅使用单一特征训练位置滤波器, 无法处理目标尺度变化, 未对不同分辨率视频做相应预处理.

针对KCF算法存在的缺陷, 提出了一种多分辨率、 融合多种特征信息和自适应调整跟踪框的相关滤波跟踪(Adaptive Correlation Filtering Tracking Algorithm Based on Multi-resolution and Multi-feature Fusion, MRMF)算法. 该算法融合颜色属性(Color Name, CN)、 HOG和Gray特征训练位置滤波器, 并利用主成分分析(Principal Component Analysis, PCA)技术对融合特征降维; 计算尺度滤波器与尺度金字塔的响应得分, 自适应确定跟踪框的最佳尺寸; 采用多分辨率多分段预处理策略, 对不同分辨率视频跟踪目标进行尺寸缩放. 仿真实验表明, MRMF算法的跟踪准确性和鲁棒性均优于以KCF为代表的其它8种主流算法.

1 MRMF算法跟踪框架

1.1 循环矩阵

类似地, 可推广到二维情况.

X=

其中,A为n阶方阵;X和A分别为循环矩阵和正样本;PiA(PT)j为负样本,i,j∈{0,1,…,n-1},i,j不同时为0;P0为n阶单位阵.

(1)

1.2 训练位置滤波器

MRMF算法使用循环矩阵产生的正负样本训练位置滤波器.

1.2.1 线性回归

假设样例(xi,yi)服从线性岭回归模型f(z)=wTz, 训练位置滤波器可建模为如下约束最优化问题.

(2)

式中:λ为防止过拟合正则化参数.

问题(2)的闭式解为

w=(XHX+λI)-1XHy,

(3)

式中:X,I和y分别为样本阵、 单位阵和回归目标yi构成的列向量.

若X为循环矩阵, 式(3)可简化为

(4)

1.2.2 非线性回归

(5)

式中:α=(α1,α2,…,αn)T.X和α分别为样本矩阵和对偶空间的解.

问题(5)的闭式解为

α=(K+λI)-1y,

(6)

式中:K=(φ(xi)T·φ(xj))=(k(xi,xj)),K和y分别为核矩阵和回归目标列向量.

(7)

式中:λ为全λ的列向量.

1.3 快速检测

经训练获得位置滤波器后, 在当前帧, 正样本选为前一帧得到的预测区域. 正样本循环移位得到测试样本集Z, 当前帧的目标位置为位置滤波器与测试样本集最大响应值点.

设核矩阵为Kz, 可表示为Kz=(φ(xi)T·φ(zj)), 其中φ(z)为非线性函数.

设位置滤波器与测试样本的响应值为f(z), 可表示为

f(z)=(Kz)Tα,

(8)

式中:α为位置滤波器的模型参数;z为测试样本,z∈Z.

若Kz为循环矩阵, 式(8)可简化为

(9)

2 多分辨率多特征融合自适应相关滤波算法

2.1 多分辨率多分段预处理

视觉跟踪系统提取目标跟踪框的特征信息来表征目标. 跟踪框越大或分辨率越高, 所包含目标的特征信息越多, 反之亦然.

MRMF算法采取了多分辨率多分段预处理策略. 具体说来, 包含像素不小于100×100的跟踪框称为高分辨率跟踪框; 包含像素不大于35×35的跟踪框称为低分辨率跟踪框; 其余情况的跟踪框称为标准分辨率跟踪框.

对于标准分辨率跟踪框, 跟踪目标大小保持不变, 设置padding为1.5.

对于高分辨率跟踪框, 利用式(10)和式(11)将跟踪目标缩放为原来的0.5倍, 缩小特征提取区域, 设置padding为1.2, 减少冗余信息, 降低复杂度, 保证实时性.

(10)

W(x)=

(11)

式中:k=-0.5.

对于低分辨率跟踪框, 通过双立方插值将跟踪目标缩放为原来的2倍, 扩大特征提取区域, 设置padding为2, 获取目标更多特征信息, 增强对目标的表征能力, 提高跟踪性能.

2.2 多元特征融合

视觉特征是对目标信息的有效描述. 不同的视觉特征包含不同的特征信息, 根据实际应用场景融合多种特征, 可有效提升视觉跟踪算法的性能.

HOG是方向梯度直方图表征的目标局部特征, 能有效描述目标的轮廓和形状信息, 具有较好的光照不变性和几何不变性. 在目标区域较大、 目标形变剧烈或运动模糊的场景, 仅采用HOG特征的算法会出现跟踪漂移现象. 文献[21]提出的CN特征, 是一种对目标形变不敏感的全局特征, 在一定程度上能克服跟踪漂移现象. 根据不同特征之间的互补性, 本文采用核相关函数多通道聚合方法将HOG, CN和Gray特征进行融合, 以提高算法对目标的表征能力. 核相关函数采用高斯核

(12)

设矩阵R,G,B为检测区域的3个通道.R通道可表示为

其中

i∈{1,2,…,m/4},j∈{1,2,…,n/4}.

R″为检测区域R通道缩放后的通道矩阵.类似可得,G″和B″分别为检测区域G,B通道缩放后的通道矩阵.

于是可得索引向量为

α=(1, 1, …, 1)T+g2[f2(R″)]+32*

g2[f2(G″)]+32*32·g2[f2(B″)].

设α=(index1,index2,…,indexmn)T, 可得CN特征为

其中,CN0为Google训练的32 768×10的颜色矩阵.

灰度特征为

Ggray=

(13)

式中:I为全1矩阵.

特征融合如图 1 所示. 其中, HOG为36维统计特征, 每一维均需FFT运算, 为提高效率, 用PCA压缩特征信息得到31维FHOG特征, 最终得到42维融合特征.

图1 HOG-Gray-CN融合特征Fig.1 HOG-Gray-CN fusion feature

2.3 尺度自适应更新

在核相关滤波算法中, 跟踪框尺度无法适应目标大小变化, 导致提取特征不充分或存在冗余, 影响跟踪性能. 针对此问题, 训练一维尺度滤波器, 计算尺度滤波器与尺度金字塔的响应得分, 自适应确定跟踪框的最佳尺寸.

2.3.1 训练尺度滤波器

设f为目标样本,fl为f的第l个特征通道,l∈{1, …,d}.训练尺度滤波器hl可建模为如下线性最小二乘问题

(14)

其中, ★和g分别表示循环相关和正态响应输出.

问题(14)的频域解为

(15)

(16)

(17)

式中:η为学习率.

2.3.2 尺度框检测

设目标所在检测区域大小为M×N, 根据式(18) 获取S个以目标为中心的不同大小的尺度框(S=33).

{Jn|size(Jn)=anM×anN,

(18)

式中:a=1.02, 表示尺度因子;Jn为第n个尺度框.

经训练获得尺度滤波器后, 在当前帧, 由式(18) 得到测试样本集Zt, 利用式(19)计算第t帧测试样本集Zt与滤波器Ht-1的得分yt.

(19)

当前帧目标的最佳尺度框为最大得分(yt)max对应的尺度框.

2.4 算法流程

MRMF算法的整体流程如图 2 所示. MRMF算法在跟踪过程中, 对不同分辨率视频跟踪目标进行尺寸缩放, 调整特征提取区域; 提取并融合HOG, CN和Gray特征, 提高对目标的表征能力; 构建尺度金字塔, 使用尺度滤波器自适应确定跟踪框的最佳尺寸.

图2 MRMF算法流程图Fig.2 The flow diagram of MRMF algorithm

3 实验结果及分析

3.1 实验环境与配置

在PC机上采用Matlab2018b进行实验仿真. PC机配置为: Intel(R) Core(TM) i7-4710MQ CPU @ 2.5GHz处理器, 8 GB内存.

位置滤波器参数设置为: 特征带宽σ=0.5, 正则化系数λ1=10-4, 学习率η1=0.01.尺度滤波器参数设置为: 尺度因子a=1.02, 被检测的尺度框个数S=33, 正则化系数λ2=10-2, 学习率η2=0.025.

3.2 评价指标和数据集

本实验将文献[22]中的一次通过评估模式(One Pass Evaluation, OPE)下的精确度和成功率、 跟踪速度、 时间鲁棒性(Temporal Robustness Evaluation, TRE)和空间鲁棒性(Spatial Robustness Evaluation, SRE)作为算法的评价指标. 成功率和精确度的阈值分别设置为0.5和20 pixel.

实验采用包含低分辨率、 遮挡、 形变、 尺度变化、 快速运动、 光照变化、 面内旋转等属性的OTB2015公开数据集[22]进行测试.

3.3 定量分析

为有效评估所提算法性能, 将MRMF算法与8种主流跟踪算法TLD[3], ASLA[4], Struck[5], CSK[10], Discriminative scale space tracking(DSST)[11], KCF[19], Distribution fields for tracking(DFT)[23], Real-time compressive tracking(CT)[24]进行比较, 跟踪结果如表 1 所示, OPE曲线图如图 3 所示.

由表 1 和图 3 可以看出, MRMF算法在OTB2015数据集上的精确度和成功率分别为 0.742 和 0.611, 相较于KCF算法分别提高了6.3% 和10.3%, 且跟踪准确性均优于其它算法.

如表 1 所示, MRMF算法的跟踪速度为38.16 FPS, 满足实时性要求.

表 1 9种算法在OTB2015数据集上的跟踪结果Tab.1 The tracking results of nine algorithms on theOTB2015 dataset

跟踪系统在起始帧变化、 第一帧标记的真实框发生移动或缩放的情况下, 可能会导致其跟踪性能变好或变差. 因此, 本实验在OPE基础上引入时间鲁棒性和空间鲁棒性对本文算法进行更全面评估, 实验结果如表 2、 表 3 所示.

由表 2 和表 3 可以看出, MRMF算法在OTB2015数据集上SRE的成功率为0.485, 精确度为0.710, 与KCF算法相比, 分别提升了9.0%和10.4%; TRE的成功率为0.558, 精确度为0.765, 与KCF算法相比, 分别提升了6.3%和6.1%. 由表 2 和表 3 还可以看出, MRMF算法的空间鲁棒性和时间鲁棒性均优于其它对比算法.

表 2 9种算法在OTB2015数据集上的空间鲁棒性Tab.2 SRE of nine algorithms on the OTB2015 dataset

表 3 9种算法在OTB2015数据集上的时间鲁棒性Tab.3 TRE of nine algorithmson the OTB2015 dataset

在起始帧变化、 第一帧标记的真实框发生移动或缩放的情况下, 因为MRMF算法采用了多分辨率多分段预处理策略和尺度自适应更新模型, 跟踪系统能够及时调整跟踪框, 准确提取目标特征, 避免了跟踪漂移. 所以本文算法的跟踪精度和鲁棒性均优于其它8种跟踪算法.

为了验证MRMF算法多分辨率多分段预处理(Multiple Resolution, MR)策略在低分辨率视频上的有效性, 将KCF算法和仅使用了MR策略的KCF算法(Multiple Resolution-Kernelized Correlation Filters, MR-KCF)在OTB2015数据集9组低分辨率视频上进行对比实验, 结果如图 4 所示.

(a) 精确度曲线图

(b) 成功率曲线图图4 低分辨率视频OPE精确度和成功率曲线图Fig.4 Precision plots and success plots of OPE for LR video

由图 4 可以看出, MR-KCF算法的OPE精确度和成功率分别为0.700和0.288, 相比于KCF算法分别提高了4.3%和13.8%. 这说明了MRMF算法多分辨率多分段预处理策略对跟踪算法性能提升的重要性.

3.4 定性分析

选取6组视频对本文算法的跟踪性能进行定性分析. 所选视频包含形变、 遮挡、 低分辨率、 快速运动、 尺度变化和背景复杂等多种不同属性. 实验结果如图 5 所示.

在视频Dog1中, 跟踪面临的主要挑战是尺度变化. 从第539帧到第1 257帧, 目标向前、 向后移动, 发生了较大尺度变化, MRMF算法和DSST算法可以一直将目标完整地包含在跟踪框内, 而其余算法跟踪效果不佳, 如图5(a)所示.

目标尺度发生改变时, 本文算法优于KCF算法, 是因为它利用了尺度自适应策略确定了当前帧目标的最佳尺度.

图5 9种算法在6个视频上的跟踪结果Fig.5 Tracking results of 6 videos of 9 algorithms

在视频Jogging-1中, 跟踪面临的主要挑战是遮挡. 运动目标在第70帧受到遮挡, 并在第89帧再次出现, 仅有MRMF算法和使用了重检测策略的TLD算法能一直跟踪到目标, 而以KCF为代表的其余算法均发生了跟踪漂移, 且在之后的视频帧中完全跟丢目标, 如图5(b)所示. 在目标被遮挡的情况下, 本文算法优于KCF算法, 是因为它融合了CN特征.

在视频Surfer中, 跟踪面临的主要挑战是低分辨率. 第39帧, MRMF算法能够准确跟踪目标, CSK、 DFT、 ASLA和CT算法均丢失了跟踪目标. 从第116帧到第143帧, 目标在低分辨率视频中持续运动, Struck、 KCF和DSST算法也相继发生了跟踪漂移或跟踪失败现象, 仅有MRMF算法和TLD算法能够稳定跟踪目标, 如图5(c)所示. 在低分辨率情况下, 本文算法优于KCF算法, 是因为它采用了多分辨率多分段预处理策略.

在视频Basketball中, 跟踪面临的主要挑战是背景杂乱、 光照变化、 遮挡以及形变. 第61帧, 目标转身奔跑, 发生形变, 除MRMF算法外, 其余算法均出现一定程度的跟踪漂移. 从第283帧到第608帧, 背景杂乱, 目标受到遮挡且发生光照变化, 本文算法能够准确跟踪目标, 而其余算法跟踪失败, 如图5(d)所示.

在视频Bird2中, 跟踪面临的主要挑战是遮挡、 变形、 快速运动和平面内旋转. 第11帧, 目标周围存在干扰物, 目标被部分遮挡, 除MRMF算法外, 对比算法在一定程度上均出现了跟踪漂移现象. 从第56帧到第93帧, 目标快速运动、 形状改变、 发生平面内旋转, MRMF算法的跟踪效果仍优于其余算法, 如图5(e)所示.

在视频Bolt中, 跟踪面临的主要挑战是遮挡、 变形、 平面内旋转和平面外旋转. 第33帧, DFT算法发生了跟踪漂移现象, 其余对比算法跟踪失败, 从第221帧到第315帧, 对比算法均丢失了跟踪目标, 而MRMF算法从第33帧到第315帧, 始终可以跟踪到目标, 如图5(f)所示.

由图5(d)~图5(f)可以看出, MRMF算法在复杂跟踪环境下的跟踪效果均优于其余算法, 这说明了本文算法具有更好的鲁棒性和跟踪准确性.

4 结 论

针对核相关滤波算法特征单一、 尺度固定、 未处理低分辨率视频的缺陷, 提出了MRMF算法. 该算法融合了HOG, CN和Gray特征, 增强了对目标的表征能力, 并利用PCA降维降低了算法复杂度; 计算尺度滤波器与尺度金字塔的响应得分, 自适应确定跟踪框的最佳尺寸, 优化了跟踪效果; 使用多分辨率多分段预处理策略, 对不同分辨率视频的跟踪目标进行尺寸缩放, 提高了在低分辨率视频上的跟踪准确性. 实验结果表明, MRMF算法的跟踪精度和鲁棒性均优于其它8种主流算法. 在OTB2015数据集上的OPE精确度和成功率分别比KCF算法提高了 6.3% 和 10.3%; 且跟踪速度达到了38.16 FPS, 满足实时性要求.

猜你喜欢

低分辨率鲁棒性滤波器
红外热成像中低分辨率行人小目标检测方法
武汉轨道交通重点车站识别及网络鲁棒性研究
基于边缘学习的低分辨率图像识别算法
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
从滤波器理解卷积
开关电源EMI滤波器的应用方法探讨
树木的低分辨率三维模型资源创建实践
一种微带交指滤波器的仿真
一种基于三维小波变换的鲁棒视频水印方案
基于鲁棒性改进理论的大面积航班延误治理分析