基于目标和背景子空间组合的目标跟踪算法

2021-08-19毛以芳

数字技术与应用 2021年7期

毛以芳

(成都工业职业技术学院信息工程学院,四川成都 610218)

0 引言

随着AI的不断发展,目标检测和跟踪受到了越来越多的研究和发展[1-3]。基于稀疏表示的目标跟踪方法受到广泛的关注,稀疏表示模型[4-5]的核心思想是在字典中将信号表示为基元线性组合,而且很少的基元即可表示信号,其权重向量称为线性组合稀疏系数。

目前基于稀疏表示模型的目标跟踪方法中,大部分基于单一特征进行跟踪,基于单一特征的目标跟踪无法对视频图像进行全面的描述,诸如光照变化、噪声干扰、形态变化等复杂环境下的鲁棒性较低。本文在稀疏表示模型的粒子滤波框架下,分别构造视频所在的目标子空间和背景子空间,通过两个子空间的组合以构造和更新字典模板,提高目标跟踪应对场景变化的适应能力,减小目标跟踪的漂移。该方法考虑了目标的全局和局部空间信息,进一步提升了目标跟踪的鲁棒性。

1 目标跟踪算法

1.1 目标跟踪框架

在稀疏表示模型的框架下,综合考虑目标子空间和背景子空间模型,采用粒子滤波方法选取候选样本,并融合图像的灰度和HOG特征,提出一种目标跟踪算法,算法流程图如图1所示。

图1 目标跟踪算法流程Fig.1 Diagram of object tracking

1.2 目标跟踪算法步骤

步骤2:将字典模板和N个粒子产生的候选样本进行重叠分块,提取每个分块的像素灰度值和HOG特征。设产生的候选样本数为p,由粒子的运动模型生成候选样本,即基于粒子的运动模型产生,其中xt-1,xt分别表示t-1和t时刻目标的状态向量,,其中表示目标在第t帧x,y方向上的坐标,分别表示目标在第t帧时的旋转角度、变化尺度、宽高比、倾斜角。N（·）表示正态分布,ψ表示对角协方差矩阵。

步骤3:用字典模板中所有块对p个候选样本中的每一块进行多特征联合弹性结构稀疏表示,运用块正交匹配追踪方法(BOMP)[4]求解弹性结构稀疏表示问题,得到粒子的稀疏表示系数w。

步骤5:重复步骤3和4,直到p个候选样本全部处理完为止。

步骤6:应用MAP(maximum a posterior)计算当前目标的状态和跟踪结果yt。具体过程为:,其中表示观测模型,表示运动模型

步骤7:从第6个视频帧开始,每隔5个帧更新字典模板D,即D=[D+,D-,I],其中D+=[D+[1],D+[2],…D+[p]]表示目标子空间集,p表示目标子空间的个数。D-=[D-[1],D-[2],…D-[q]]表示背景子空间集,q表示背景子空间的个数。I表示单位矩阵。因此,粒子的稀疏表示系数w可表示为:。其中w+,w-分别表示由目标子空间和背景子空间集分解的稀疏系数。

步骤8:根据更新的字典模板D,返回步骤2,重复步骤2至7,直到所有的视频序列全部处理完为止。

1.3 基于子空间的字典模板更新

在目标跟踪过程中,字典模板D每隔5个视频帧更新一次,字典模板由目标子空间和背景子空间组合而成。构造和更新的具体方法如下所示。

1.3.1 目标子空间

步骤1:输入M个样本序列 {y1,y2, ∙∙∙,yM},设置目标子空间的维度为d,数量为S。

步骤2:对每d个视频帧,采用方法[4]构建d维子空间Ω,Ω=(U,Λ,n)。其中U,Λ,n分别表示特征向量、特征值和子空间总的样本数量。

1.3.2 背景子空间

步骤2:对每d个视频帧,采用方法[4]构建d维新的子空间Ω,,h= 1,2,∙∙∙,H。其中U,Λ,n 分别表示特征向量、特征值和子空间总的样本数量。

步骤3:如果背景子空间对应的字典模板D-为空,将d维子空间Ω,,h= 1,2,∙∙∙,H赋值给背景子空间对应的字典模板D-,即= 1,2,∙∙∙,H。如果背景子空间对应的字典模板D-不为空,在H个背景子空间中,计算背景子空间所在字典模板之间的最大相似度,最后将最为相似的背景子空间进行合并,形成总的背景子空间,具体过程为:

其中相似度的计算过程与1.3.1相同。

2 实验结果与分析

为了测试跟踪算法的性能,以文献[4]中所提供测试集中的视频序列为测试对象,l1稀疏表示方法[1]、MIL(Multiple Instance Learning)方法[2]和文献[3]提出的FSSR(Flexible Structured Sparse Representation)跟踪方法进行比较。实验环境为普通计算机、Intel CoreTM i5处理器、主频3.3GHz、内存8G,操作系统为64位Windows 7,软件平台为MATLAB2012b。

跟踪采样粒子数为600,目标状态转移矩阵为[8,8,0.01,0,0,0]。采用粒子滤波方法采样600个目标的候选区域,对每个候选区域进行归一化处理,大小为32×32,在归一化的目标区域中重叠地采样144个8×8的局部图像块,其中步长为2个像素。由于HOG特征是一种用来进行目标检测的特征描述子,对平移、尺度变化具有较好的不变性。所以文中利用图像的灰度特征和HOG特征信息的融合对目标进行稀疏表示,正则化因子λ值为0.01。在字典模板的构造和更新中,目标子空间和背景子空间的个数分别为12和4,维度为5。最后在性能比较方面,每种目标跟踪方法在测试序列上都运行了10次并取平均值作为最终的比较结果。

实验分别对Animal、Board、Bird2和Bolt四组视频序列中的目标进行跟踪测试,跟踪误差采用中心点误差和重叠率来度量,中心点误差能反映目标跟踪方法的稳定性,一般情况下,如果在一个视频序列中中心点平均误差不超过20个像素则认为跟踪成功。重叠率考虑了跟踪框的位置、姿态、面积、旋转等多个因素,可以反映跟踪性能的鲁棒性。

表1和表2分别给出了本算法与其他跟踪算法的性能比较,均是测试前50个视频帧取平均值后的结果。从表1和表2可以看出,相比l1稀疏算法[1],MIL[2]和文献[3]提出的结构稀疏表示算法三种跟踪方法具有更好的性能,表明提出的跟踪算法具有较强的稳定性和鲁棒性。

表1 平均重叠率(%)Tab.1 Mean of overlap rate error

表2 平均中心点误差(单位:像素)Tab.2 Mean of center location error (unit: pixel)

3 结语

基于稀疏表示模型和粒子滤波理论,利用视频图像的灰度特征和HOG特征,研究了一种基于特征融合的稀疏表示目标跟踪算法。该算法将灰度特征和HOG特征进行提取,并融于弹性结构稀疏表示模型,建立了多特征的稀疏表示跟踪模型。然后对字典模板进行更新,同时分别对目标子空间和背景子空间进行了建模,以形成新的字典模板用于目标跟踪。最后对提出的算法进行了实验,并对比其他跟踪算法。结果表明本文的目标跟踪算法可较好地减轻目标跟踪的漂移问题,具有较强的稳定性和鲁棒性。