间隔贝叶斯估计和空时目标运动边界视觉跟踪

2021-09-28梁文辉叶永达

计算机技术与发展 2021年9期

梁文辉，宋涛，叶永达

(1.解放军31004部队，北京 100094；2.解放军信息工程大学，河南郑州 450000；3.解放军陆军工程大学，江苏南京 210001)

0 引言

视觉跟踪的主要任务是在视频序列中连续得到感兴趣目标的运动轨迹、形状和速度等状态，在智能交通、自动监控、精确制导等领域应用广泛。近年来，跟踪算法研究成果层出不穷，但由于现实目标变化灵活、伪目标干扰、遮挡及复杂背景等原因，使得构建高精度、高稳定性的视觉跟踪算法仍然亟待研究。

基于一阶马尔可夫模型的贝叶斯滤波将视觉跟踪转化为求解目标状态最大后验概率密度估计问题或后验概率的期望估计问题，为视觉跟踪提供了一个非常优秀的空时融合框架。但是，近年来出现的大多主流视觉跟踪方法均致力于研究目标观测模型[1-4]，仅将动态模型和目标更新视为简单的辅助机制。文献[5]结合Mean-Shift算法提出基于核密度估计的贝叶斯滤波跟踪方法，利用多线索融合提高了观测模型的可靠性，但Mean-Shift易陷入局部极值，无法有效预测目标运动信息。文献[6]结合生成和判别模型提出鲁棒的协作外观模型，该类方法难点在于如何平衡学习阶段两类模型训练样本集之间的比重，过度依赖正样本易导致模型过拟合，过度依赖负样本则会降低模型的泛化能力。文献[7]利用像素、超像素和整体目标建立多级外观模型，增加了观测模型的匹配精度，但该方法以整体目标的似然匹配来预测目标的运动信息，易陷入局部极值。上述文献均过度关注目标外观的空间特性而忽略了目标的时间运动特征，破坏了贝叶斯框架的空时融合机制。

针对上述问题，文中在间隔贝叶斯估计框架[8]的基础上结合空时运动边界提出一种在线学习的视觉跟踪方法，充分利用时间运动预测模型、空间匹配观测模型和模型更新的各自优势，将视觉跟踪转化为运动目标检测、关联和更新的空时多线索融合机制。不同于传统运动模型提供的目标中心点在下一帧可能出现的位置坐标，文中利用色度反投影和时间显著度计算目标的运动边界，预测目标可能出现的区域、形状和尺度，并能去除背景干扰，提高外观模型似然匹配的可靠性。建立整体和局部双层外观模型，根据间隔似然模型采用多尺度匹配原则寻找最优的目标框选窗口，并利用局部模型判断目标的遮挡状态。在模型更新阶段，根据整体模型和局部分块模型的匹配权重提出交叉限制的在线更新方法，能够有效处理长期和短期的跟踪场景。

1 基于间隔贝叶斯估计的视觉跟踪框架

文献[8]将间隔分析应用于视觉目标跟踪，提出基于间隔贝叶斯估计的跟踪框架(如式(1)所示)，但该方法通过预设高斯函数来近似状态间隔的转移模型，无法真实反映目标运动和尺度变化。

(1)

1.1 间隔预测模型

(2)

1.2 间隔观测模型

在视觉跟踪中，间隔观测模型是为了度量预测状态间隔与观测值之间的似然程度，如式(3)所示。在预测状态间隔的空间范围内，文中首先利用多尺度整体外观候选模型寻找匹配权值最大的目标窗口，然后通过局部分块匹配判断目标的外观变化和遮挡状态，并为模型更新提供线索。

(3)

2 目标运动边界

感兴趣目标的运动边界是十分重要的空时结构信息，其精确反映了目标的位置、形状和尺度变化，并能完全去除背景干扰；尤其对非刚性目标而言，只有运动边界内的目标外观信息才是真实的前景目标(true positives，TP)，而运动边界和跟踪窗口之间的像素都属于背景(true negatives，TN)。但在实际应用环境中却很难捕捉到可靠的运动边界。

(4)

(5)

数据注意力模型体现了目标空间特性，文中采用文献[9]提出的基于内容感知的空间显著度检测方法，并根据简单线性迭代聚类算法(simple linear iterative clustering，SLIC)[10]和第一级状态间隔确定像素子块的尺度。

s.t.xi∈Carea

(6)

图1 目标运动边界示意图

SS/T(xi)=γt·I(xi)+(1-γt)·Sr(xi)

(7)

3 目标匹配与模型更新

3.1 多尺度目标匹配

(8)

3.2 基于交叉限制的模型更新

4 实验结果与分析

4.1 实验说明

目标运动边界是文中算法的核心，为验证算法有效性，选择YMB(YouTube motion boundaries dataset)[12]中带有真实目标运动边界检测结果的公共标准图像序列进行测试，采用CVPR2013(computer vision and pattern recognition dataset)[13]提供的视觉跟踪算法通用评估体系，采集了50段常用公开标准视频测试序列，并为每段序列标注属性及真实目标的位置尺度。为验证文中算法在处理相似背景干扰和尺度变化方面的优越性，与CVPR2013数据库中三类具有代表性的跟踪算法SCM[6]、KMS[14]和TLD[15](如表1所示)进行了两组对比实验。所有相关实验都是在Intel双核2.2 GHz CPU、2.0 GB内存的PC平台上，利用C/C++、Matlab和OpenCV函数库实现的。

表1 三类代表性算法SCM、KMS、TLD和文中算法的跟踪策略

通过中心点跟踪误差dt和目标覆盖率rt来定量评价跟踪算法的有效性。

(9)

4.2 实验结果与性能分析

实验1定性分析了文中所提目标运动边界检测算法的检测性能，场景选择YMB数据库中五类目标。从图2(a)～(c)可以看出，对于背景单一且目标与背景对比度较大的场景，文中算法能够完全拟合目标边界。对于背景纹理比较复杂的应用场景，文中算法可能会融入错误的背景边缘，但对整体跟踪框架而言，背景边缘所产生的影响只是扩大了预测状态间隔上限，不会对后续观测模型起决定性作用，如图2(d)所示。相似背景干扰是跟踪算法的一大难点，文中算法捕获的目标运动边界从很大程度上去除了相似背景干扰，即使在极度相似的背景中依然能够有效区分目标和背景，如图2(e)中的白色运动服和白色冰面。

图2 文中算法效果

实验2定性分析了SCM、KMS、TLD和文中算法在相似背景、尺度变化应用场景下的跟踪性能，如图3所示。图3(a)是数据库ChangeDnet2014的“snowFall”视频序列，其难点在于：感兴趣目标尺度逐渐减小且与背景非常相似。从图3(a)可看出，KMS在跟踪过程中逐渐丢失目标，无法捕捉目标尺度变化；TLD在学习过程中无法有效区分正负样本，导致跟踪窗口逐渐偏离；SCM和文中算法都能随着目标尺度变化自适应调整跟踪窗口大小，但文中算法的跟踪窗口能更好拟合目标真实边界。图3(b)是数据库VOT2015的“iceskater1”视频序列，其难点在于：感兴趣目标尺度随机变化且存在大量相似背景信息。从图3(b)可以看出，只有文中算法能够有效捕捉到细微的目标运动边界。

图3 SCM、KMS、TLD和文中算法在相似背景干扰和尺度变化环境下的跟踪结果

图4量化反映了SCM、KMS、TLD和文中算法在实验2中的跟踪性能，SCM和TLD均无法处理严重的相似背景干扰和连续的非刚性尺度变化，dt和rt指标迅速恶化。如图4(a)所示，虽然整个跟踪过程SCM和文中算法dt指标比较接近，但文中算法rt指标优于SCM并且rt的平均值大于75%，说明文中算法能够很好地拟合目标边缘、去除相似背景干扰。从图4(b)可以看出，文中算法与SCM的dt和rt指标比较接近且rt的平均值≈45%，这是因为非刚性目标跟踪窗口包含大量背景像素；但图3(b)已展示了文中算法能够更好拟合目标边缘。

图4 实验2的定量分析图

5 结束语

文中提出了一种基于间隔贝叶斯估计框架的在线视觉跟踪方法。利用目标驱动和数据驱动的双层视觉注意力模型计算感兴趣目标在下一帧的运动边界，有效去除了背景干扰并为观测模型提供了位置和尺度等线索，提高了多尺度模型匹配的可靠性。根据目标局部子块的匹配权值提出了基于交叉限制的在线更新机制，能够长时间保持目标整体模型的同时利用子块实时捕捉目标外观的局部变化。实验结果表明，相较于SCM、KMS和TLD三类具有代表性的跟踪算法，文中算法在相似背景干扰和尺度变化的应用场景中存在明显优势，能够有效拟合目标边界，找到最优的目标框选窗口。