基于置信区域内多级动态层表达的类贯序蒙特卡洛视觉跟踪方法
2016-08-12刘广怡
宋 涛,李 鸥,刘广怡
(信息工程大学信息系统工程学院,河南郑州 450002)
基于置信区域内多级动态层表达的类贯序蒙特卡洛视觉跟踪方法
宋涛,李鸥,刘广怡
(信息工程大学信息系统工程学院,河南郑州 450002)
视觉跟踪是智能监控、机器人和视觉导航等领域的核心技术.针对现有类贯序蒙特卡洛跟踪方法复杂度高、实时性差的问题,本文提出了一种融合置信区域内多级动态层表达的跟踪方法,采用更加可靠、有效的粒子模拟状态后验概率.该方法利用检测模块得到目标可能出现的置信区域,根据真实目标尺寸给出一种粒子采样策略,每个粒子代表一级动态层表达,并为每个粒子建立双层运动模型;构建Mean-Shift分块观测模型以引入空间和外观信息,同时根据子块的匹配程度计算粒子权值、检测目标遮挡状态并提出模型更新策略.在公开视频序列上同经典粒子滤波和Mean-Shift等算法的实验对比结果证明了本文算法具有较优的跟踪准确度和实时性.
视觉跟踪;置信区域;双层多级运动模型;分块观测模型;模型更新
1 引言
目标跟踪是计算机视觉领域的关键底层技术,是一项正在不断创新、发展和进步的热点研究方向,越来越多的算法被开发以满足不同的应用需求(比如,智能机器人、自动监控系统和人机交互等).但是,在复杂环境下构建性能优越且兼顾实时性的视觉跟踪算法仍是一个极具挑战性的课题.当前主流跟踪方法大致可以分为两类:基于数据驱动的确定性方法和基于模型驱动的概率性方法.概率性跟踪方法将视觉跟踪转化为求解目标状态最大后验概率密度估计的问题,通过观测模型和动态模型将上述两类跟踪方法融入跟踪框架,具有良好的跟踪性能和扩展性,其最具代表性的方法是基于粒子滤波的视觉跟踪方法.
粒子滤波算法也被称为贯序蒙特卡洛方法(SMC,Sequential Monte Carlo),能够处理非线性、非高斯和多模态问题,被广泛应用于视觉跟踪领域.近些年来,针对粒子滤波的改进方法主要包括三个方面:(1)增加粒子数目,尽可能覆盖目标可能出现的位置;(2)设计有效的分配方案使粒子更加接近目标后验概率的模式点;(3)建立更加鲁棒的观测模型,提高粒子权值的可信度.文献[1]利用交互多模结构(IMM,Interacting Multiple Model)为动态模型引入多种运动模式,可以有效处理机动目标,但计算量较大.为了提高动态模型的预测精度同时减少跟踪所需的粒子数,文献[2]在粒子滤波的框架中提出双层运动模型来寻找更加可靠的预测点,但无法解决目标不规则运动问题.文献[3,4]结合Mean-Shift[5,6]算法构造跟踪方案,将其应用于每个粒子,通过迭代把粒子移动到局部极值点,然后利用最小均方误差得到最终的目标状态.文献[7]提出了基于马尔科夫链蒙特卡洛粒子滤波方法,通过增加粒子数来提高跟踪精度,不适合实际应用.文献[8]建立三维观测模型,使粒子滤波的更新阶段更加可靠,在复杂跟踪环境中有很好的跟踪效果,但是三维模型的计算量大,增加了算法的复杂度.
本文根据上述(2)、(3)的基本思想,提出了一种融合多级动态层表达的类贯序蒙特卡洛跟踪方法:在无需任何先验知识和建议分布的前提下,通过建立双层多级动态模型预测目标行为,为Mean-Shift提供准确的初始搜索位置;利用检测模块得到目标可能出现的区域,根据真实目标尺寸给出一种粒子采样策略,每个粒子独立分布并具有唯一性,代表一级动态层表达,即用最少的粒子覆盖目标可能出现的范围;利用分块思想提出一种融合像素点空间信息的Mean-Shift迭代准则和粒子权值计算方法,提高观测模型的可靠性.
2 构建双层多级运动模型和基于置信区域的采样策略
2.1双层多级运动模型
感兴趣目标的运动模式主要有两个关键要素:速度和方向,大致可以分为两种类型:(1)目标匀速运动或阶段性速度变化较为缓慢,且其动态方程可以近似表达为过去K个已修正状态的线性组合;(2)目标不规则运动,其加速度、方向等易发生突然变化.本文根据上述两种运动类型建立双层运动模型.
第一层运动模型,引入目标运动的平滑机制和限制条件:假设目标速度和方位没有发生突变,且当前帧的状态满足前K帧运动规律.其本质是作为一个“稳定的粒子”来规范第二层动态模型的预测结果,防止目标在全遮挡、相似性背景或其他目标干扰时发生漂移.假设运动目标在半秒钟内不会发生大的突变,本文按照25 frame/s的帧率取值K=25/2.
(1)
第二层运动模型也称为多级动态层表达,主要处理跟踪过程中目标运动的不确定性,如发生突然加速、减速以及方向突变等不规则运动.本文通过2.2节提出的置信区域采样构建第二层运动模型.
2.2置信区域及采样策略
算法1基于置信区域的粒子采样方法
步骤2根据最近邻域法来关联目标与其对应的置信区域.
3 基于分块的Mean-Shift和粒子权值计算方法
3.1构建真实目标区域的KGHM模型
在实际应用中,跟踪窗口常会引入大量的背景信息,影响目标模型的精确表达.文献[10]采用局部背景加权的直方图模型去除窗口内的背景像素,该算法对复杂背景变化有良好的跟踪性能,但额外背景信息的引入增加了算法复杂度.本文利用图像分割技术得到精确目标区域来建立核高斯混合模型(KGHM,Kernel Gaussian Hybrid Model)[11],在无需引入额外背景信息的条件下,去除局部背景像素,分割效果如图1所示.
在初始帧检测感兴趣目标,如图1(a)所示,白色窗口为所要跟踪的目标;利用Canny算子检测目标的边缘信息,然后对目标边缘进行角点检测以近似确定目标真实轮廓,并根据目标的轮廓信息分割目标,如图1(c)所示;通过对比目标分割前、后的直方图可以看出,分割之后的目标区域很大程度上消除了局部背景干扰,其对应直方图也更加紧凑,如图1(b)和(d)所示.
本文采用无参核密度估计(KDE,Kernel Density Estimation)建立真实目标的概率密度模型:
(2)
其中,{fi}i=1,…,n表示真实目标区域o内的n个像素点;ci表示像素点i的色度值;sj表示像素点j的位置坐标;Cn是目标区域内不同色度值的个数;Sni是目标区域内色度值为i的像素点个数.k()是核函数.式(2)遍历区域所有像素,计算量较大.本文采用分块统计的思想将目标区域分为若干子块,利用空间核估计遍历各子块中心点来近似全局像素点估计,式(2)转化为:
(3)
其中,Bn表示目标区域内子块的个数;lj是子块j的中心点坐标;Ntj表示子块j中色度值为i的像素点个数.本文提出以分块为主线来指导目标建模,式(3)转化为:
(4)
其中,Nj表示子块j中像素点的个数,cjz表示子块j中像素点z的色度值.式(4)更加直观地体现了由目标区域过渡到目标子块,再过渡到子块内像素点的建模思想,并利用核函数融合了各子块之间的空间信息.
3.2建立基于分块的Mean-Shift向量
在实际跟踪应用场景中,多个完全一模一样目标出现的概率极低.大多数情况下,跟踪过程中出现所谓的相似或伪目标是指全局特征相似,而局部特征各有不同.如图2所示的六个目标,它们拥有一样的直方图特征,但其局部特征却各不相同;利用分块的匹配策略完全可以区分彼此.
本文采用最基本的分块方案,按照几何区域将目标均匀分为m乘n个互不重叠的子块.以色度u1为例,对目标的整体区域和每个子块进行核函数加权的直方图建模:
(6)
其中,ρMS(y)为全局巴氏系数,也是粒子的全局权值;ρms(y)为各子块加权融合巴氏系数,即粒子的局部权值;b=1,…,B表示子块的数目,v(b)决定了每个子块的贡献度/重要程度(距离中心点越近,可靠性越高).
根据经典Mean-Shift算法的理论框架计算得到基于目标区域分块的Mean-Shift向量,如式(7)所示:
(7)
其中,l=1,…,L表示像素点的颜色分量;定义:
4 遮挡处理和模型更新
4.1遮挡检测
遮挡推理是决定目标是否处于遮挡状态的辅助机制,指导系统及时调整外观模型和跟踪策略.文献[12]构建自遮挡概率图来判断非刚性目标的遮挡情况,但该方法比较复杂、计算量大,不适用于实时跟踪.本文利用分块模型和目标当前帧状态提出一种简单的推理策略:(1)边缘像素最先受到遮挡的影响,当边缘子块的度量函数开始变小而核心子块正常时,说明遮挡开始出现;(2)多目标跟踪的情况下,通过目标的状态和相似性度量函数来判断遮挡目标和被遮挡目标;(3)当大部分/所有子块的度量函数都变小时,说明全遮挡出现,仅通过动态函数来继续跟踪目标.
4.2遮挡处理及更新机制
5 本文跟踪方法
本文以贯序蒙特卡洛方法为框架,将双层多级动态模型、Mean-Shift分块观测模型、遮挡处理机制和目标模型更新方法相结合建立视觉跟踪方法,如算法2所示.
算法2置信区域内多级动态层表达的类贯序蒙特卡洛跟踪方法
步骤6根据4.2节的更新机制调整目标模型.并在下一帧循环步骤2.
6 实验结果与分析
为了验证所提算法的有效性,本文针对Mean-Shift[6]、粒子滤波[13]和基于核贝叶斯框架的文献[14]进行了多组对比实验,包括阴影干扰、目标复杂运动和全遮挡三个场景.本文选择PETS提供的公共标准视频序列进行测试,且所有实验都是在Intel双核2.2GHz CPU、2.0GB内存的平台上,利用C/C++和OpenCV函数库实现的.
本文通过质化评价(跟踪效果图)和量化评价(跟踪误差dt、目标覆盖率rt)两个方面来论述算法的有效性;根据耗时(实时性)来评价算法的运行效率.
(8)
图3显示了本文算法去除阴影干扰的有效性.首先,根据目标检测模块捕捉感兴趣目标,如图3(a)和(b)所示;框选目标可能出现的区域,从图3(b)中可以看出,白色矩形框中存在大量的阴影;利用3.1节目标分割方法去除阴影并近似确定目标真实轮廓,从图3(c)中可以看出,通过角点的聚集分类可以快速去除孤立角点(阴影部分)并确定真实目标范围,如图3(d)中的黑色矩形框.
图4显示了本文算法在目标复杂运动场景中与文献[6]、[13]和[14]的跟踪效果对比图,其跟踪窗口分别由白色实线矩形框、黑色实线矩形框、白色虚线矩形框和黑色虚线矩形框表示.场景解析:感兴趣目标为图像上方的轿车,目标在第850帧向西驶入丁字路口,并开始发生转向;从第878帧至932帧,目标先后经历了树木的局部遮挡和草坪的大面积局部遮挡.从图4可以看出,文献[13]无法处理目标复杂的运动形式,其状态预测阶段的误差逐渐积累,从第878帧开始丢失目标;跟踪过程中,由于目标发生了快速转向运动,其帧间移动范围超过了核函数的半径,导致文献[6]在第878帧搜索不到感兴趣目标,跟踪失败;文献[14]利用Mean-Shift迭代得到目标的预测位置,通过增加粒子数弥补预测误差,虽然Mean-Shift算法在第878帧没有提供有效预测,但通过增加粒子数仍能找到目标,而且文献[14]的模型更新策略可处理半遮挡问题.本文算法根据置信区域采样所得到的粒子可以有效捕捉到机动目标,然后利用分块Mean-Shift算法寻找目标的精确位置,同时通过遮挡检测和模型更新策略来解决遮挡问题,如图4所示,本文算法在整个跟踪过程中都可以正确跟踪感兴趣目标.
表1 本文算法与文献[6]、[13]、[14]的跟踪效率
跟踪算法粒子数耗时(ms)本文算法528.7文献[6]022.9文献[13]10061.8文献[14]1839.3
图5量化反映了本文算法和文献[6]、[13]、[14]在目标复杂场景下的跟踪性能;表1根据各算法所需的粒子数和运行耗时来评价算法执行效率.一般情况下,视频流帧率为25帧/s,显示一帧图像的时间为40ms,因此,算法的运行耗时小于40ms就可满足实时跟踪.文献[6]和[13]在跟踪过程中丢失目标,失去了量化分析的意义;文献[14]通过多线索融合使跟踪窗口逐渐接近真实目标,如图5所示:该方法中心点误差和覆盖率均优于其他方法,但当目标发生不规则运动和遮挡时,其需要增加粒子来扩散目标搜索范围,导致算法的执行效率下降(如表1所示);综合图4、5和表1可以看出,本文算法不但可以有效跟踪目标且具有较好的实时性.
图6的第一行序列是本文算法、文献[6]和文献[14]在全遮挡场景下的跟踪效果图,其跟踪窗口分别由白色实线框、黑色实线框和黑色虚线框表示;第二行序列是本文算法对应的检测结果.场景解析:目标为地铁站内由南向北行走的行人,目标从第3469帧开始向东转向出口处,行走过程中目标将遇到立柱的完全遮挡.由图4可知,传统粒子滤波方法不能处理目标的复杂运动,因此本文算法只与文献[6]和[14]进行对比.从图6第一行的第3511帧和第3522帧可以看出,文献[6]和[14]的特征匹配策略在目标消失的情况下完全失效,导致目标丢失并发生漂移.而本文算法根据第一层动态模型提供的运动信息和目标检测信息依然可以在目标重新出现之后找到并继续跟踪目标,如图6第一行的第3522帧和第3534帧所示.如图6第二行的第3431帧所示,检测模块捕捉到两个相互叠加的运动目标(白色虚线框),本文算法通过Mean-Shift迭代找到感兴趣目标(白色实线框);当目标于第3511帧丢失时,在目标可能出现的附近检测不到任何运动信息;当目标在第3522帧和第3534帧出现时,检测模块能重新捕捉到目标,并通过Mean-Shift迭代确定其最终位置.
表2 本文算法与文献[6]、[14]的跟踪效率
图7和表2量化反映了本文算法和文献[6]、[14]在全遮挡场景下的跟踪性能和执行效率.从图7可以看出,当全遮挡出现时,文献[6]、[14]的跟踪性能迅速恶化,而本文算法始终保持较好的跟踪性能.如表2所示,三种算法均具有良好的执行效率(运行耗时均小于40ms),都可以满足实时性要求较高的应用场景.
7 结论
本文提出一种融合置信区域内多级动态层表达的类贯序蒙特卡洛视觉跟踪方法,通过置信区域采样和第一层动态方程得到有效粒子在下一帧不同的预测位置;构建基于分块模型的Mean-Shift迭代算法,计算粒子修正位置和权值;并依据子块的似然程度提出遮挡检测和模型更新策略.实验结果表明,该方法可以有效处理阴影干扰、目标复杂运动及全遮挡等问题,极大减少了跟踪过程所需要的粒子数量和Mean-Shift迭代次数.同时,该方法具有很好的扩展性:在粒子的权值计算阶段,可以根据应用场景的不同需求来平衡跟踪精度与实时性之间的权重比例,构建适当的外观模型,如:颜色、纹理、梯度或融合各类特征的混合模型等.
[1]Xue J,Zheng N,Geng J.Tracking multiple visual targets via particle-based belief propagation[J].IEEE Transactions on SMC,Part B,2008,38(1):196-209.
[2]Matej K,Stanislav K.A two-stage dynamic model for visual tracking[J].IEEE Transactions on SMC,Part B,2010,40(6):1505-1520.
[3]Han H,Ding Y S,Hao K R.An evolutionary particle filter with immune genetic algorithm for intelligent video target tracking[J].Computer & Mathematics with Applications,2011,62(7):2685-2695.
[4]Chang C,Ansari R.Kernel particle filter for visual tracking[J].IEEE Signal Processing Letters,2005,12:242-245.
[5]Comaniciu D,Meer P.Mean shift:A robust approach toward feature space analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(5):603-619.
[6]Comaniciu D,Ramesh V,Meer P.Kernel-based object tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(5):564-577.
[7]Cong D T,Septier F,Garnier C,et al.Robust visual tracking via MCMC-based particle filter[A].IEEE International Conference on Acoustics,Speech and Signal Processing[C].Kyoto:IEEE Press,2012.1493-1496.
[8]Brown J A,Capson D W,Member S.A framework for 3D model-based visual tracking using a GPU-accelerated particle filter[J].IEEE Transactions on Visualization and Computer Graphics,2012,18(1):68-80.
[9]Anderson C,Bert P,Vander W.Change detection and tracking using pyramids transformation techniques[A].Proceedings of SPIE Conference on Intelligent Robots and Computer Vision[C].Cambridge MA:Elsevier Press,1985.72-78.
[10]Wang L F,Yan H P,Wu H Y.Forward-backward mean-shift for visual tracking with local-background-weighted histogram[J].IEEE Transactions on Intelligent Transportation Systems,2013,14(3):1480-1489.
[11]Zhou L,Huang K,Tan T.Foreground object detection using top-down information based on EM framework[J].IEEE Transactions on Image Processing,2012,21(9):4204-4217.
[12]Gay-Bellile V,Bartoli A,Sayd P.Direct estimation of non-rigid registrations with image-based self-occlusion reasoning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(1):87-104.
[13]Isard M,Blake A.Condensation-conditional density propagation for visual tracking[J].International Journal of Computer Vision,1998,29(1):5-28.
[14]Zhang X,Hu W,Bao H.Robust head tracking based on multiple cues fusion in the kernel-Bayesian framework[J].IEEE Transactions on Circuits and Systems for Video Technology,2013,23(7):1197-1208.
宋涛男,1983年9月出生于河南省焦作市.现为解放军信息工程大学信息系统工程学院博士研究生.主要研究方向为计算机视觉和目标跟踪技术.
E-mail:taosong-1983@126.com
李鸥男,1961年出生于河南省郑州市.现为解放军信息工程大学信息系统工程学院教授、博士生导师.主要研究方向为无线通信网络、信息融合和目标跟踪技术.
E-mail:zzliou@126.com
Quasi-Sequential Monte Carlo Visual Tracking Based on Multilevel Dynamic Layer Representations in Confidence Region
SONG Tao,LI Ou,LIU Guang-yi
(InstituteofInformationSystemEngineering,InformationEngineeringUniversity,Zhengzhou,Henan450002,China)
Visual tracking is a core technology for the application domains of intelligent monitoring,robotics and vision navigation,etc.Aiming at the problem of high complexity and poor real-time performance in the existing quasi-sequential Monte Carlo tracking algorithms,this paper presents a method based on multilevel dynamic layer representations,which simulates the posteriori probability of a state using more reliable and effective particles.Then a sampling strategy is proposed in confidence areas derived from the detector,in which each particle represents a dynamic representation and has a two-layer motion model.The observation model based on parted-mean-shift is constructed for space and appearance information.Depending on the degree of matching sub-blocks,the weight of particles is calculated and a way to detect the occlusion state of an object is put forward for realtime model update.Experimental results using challenging public video sequences show better accuracy and efficiency of the proposed method,compared with the classical particle filter and mean-shift algorithms,etc.
visual tracking;confidence region;two-layer multilevel motion model;block-based observation model;model update
2014-10-30;修回日期:2015-03-23;责任编辑:覃怀银
国家科技重大专项(No.2014ZX03006003)
TP319
A
0372-2112 (2016)06-1355-07