APP下载

基于序列图像的人体跟踪算法研究综述

2012-08-15范新南丁朋华刘俊定郑庆元

计算机工程与设计 2012年1期
关键词:背景人体图像

范新南,丁朋华,刘俊定,郑庆元

(河海大学 计算机与信息学院 (常州),江苏 常州213022)

0 引 言

在目前最新的核心文献中,张娟[1]等人撰写了运动目标跟踪算法研究综述,从运动检测和目标跟踪分别加以讨论;杜友田[2]等人从人体运动的类别、运动表示方法和运动识别方法3个方面分析,侧重点为运动识别;黎洪松[3]等人介绍了人体运动分析的运动目标检测、分类、人体运动跟踪、行为识别与描述的研究现状和难点。

本文在前人研究分析的基础上,侧重介绍了近5年来人体运动目标检测与跟踪的最新研究进展和常用的算法策略,并针对难点问题进行了专门讨论,最后探讨了人体跟踪算法未来的研究趋势。

1 人体运动目标检测

人体检测是实现人体自动跟踪的第一步,其目的是在视频图像序列中将运动人体区域从背景中提取出来。常用的运动目标检测方法也可以用于人体运动目标检测。

1.1 背景差分法

背景差分法是将当前图像与背景模型相减,与背景偏离超过一定阈值的区域即为运动区域。这种算法实现简单,能够较为完整的提取出运动目标的位置、大小、形状等信息,特别是摄像机静止的情况,背景差分法是首选方法。但它对光照剧烈变化、背景中对象的扰动和固定对象的移动、阴影影响等特别敏感。因此,背景差分法核心问题是如何获得一个较为准确的背景模型,并对其进行不断的更新以保持与实际背景精确相似。

1.2 帧间差分法

帧间差分方法又称为时间差分法,它是利用图像序列连续两帧或几帧图像中逐个像素的差值来提取运动目标区域。由于相邻帧时间间隔较短,因此该算法对场景中的动态变化不太敏感,对动态环境具有较强的自适应性,适合背景固定不变的情况。但一般不能完整地提取出运动目标区域,容易在人体内部产生空洞和重像现象,对噪声较敏感,要求运动目标速度不能太快。

1.3 光流法

光流法通过研究运动目标在图像序列间的光流场来进行目标检测和提取。光流场是空间运动物体被观测表面上的像素点运动产生的瞬时速度场,它包含了物体编码结构和动态行为的重要信息。光流法实际就是通过此光流场近似计算图像序列中不能直接得到的运动场,根据运动场的特征对目标进行检测。该方法不需要知道场景的任何先验知识,适用于静止或运动背景,在摄像机运动的前提下也能检测出独立的运动目标。缺点是该方法采用迭代的求解计算,计算相当复杂,抗噪性能差,如果没有特别的硬件装置很难实现实时目标检测。

2 人体运动目标跟踪

人体运动目标跟踪的目的是通过对获得的图像序列进行分析,计算出人体在每帧图像上的位置,根据不同的特征值,将图像序列中不同帧中的同一目标关联起来,并在目标运动过程中对其连续跟踪,获得连续的目标运动轨迹,等价于在连续的图像帧间创建基于位置、速度、形状、纹理、色彩等有关特征的对应匹配问题。

中国调味品企业在产品结构升级和技术创新上不断发力,在包装、品牌宣传、产品创新方面都有了很大提升,推动了中国调味品行业品牌集中度和产业集中度不断上升。目前在各个分支产业都涌现出家喻户晓的品牌,如酱油产业的海天、加加、美味鲜、李锦记,食醋产业的镇江香醋、山西老陈醋、福建永春、四川保宁醋,复合调味料产业的太太乐、家乐、佳隆,调味酱产业的李锦记、老干妈,火锅调味料产业的周君记、天味等。除了大型品牌的强劲发展,各地区域性的中小企业也竞相成长,并在不少地区形成了产业集群。

2.1 人体运动目标跟踪算法分类

一个理想的跟踪算法应具有快捷性、鲁棒性、透明性、高效性、稳定性和简单性,通常人们根据特定的应用需求,做一个折衷的考虑。目前人体跟踪方法主要分为4类[4]:

2.1.1 基于模型的人体跟踪

基于模型的人体跟踪首先通过一定的先验知识建立人体模型并预测下一图像中的模型姿态,接着对预测模型进行分析、合成、抽象,将得到的结果与实际图像进行比较,直到找到最匹配的模型,同时进行模型的实时更新。这种方法优点是能对自遮挡情况进行判断,可以结合人体运动学特性,排除错误跟踪状态,提高跟踪的可靠性,缺点是计算复杂度高,人体的确切几何模型不容易得到,这就限制了基于模型的跟踪算法的使用。

人体模型可分为二维模型和三维模型。二维模型减少了参数的数量,简化了跟踪过程,一般用于基于单视频的监控和人机交互领域,因为这些应用只需要知道人的位置即可;三维模型由于其包含较多的深度信息,有利于3D姿态数据的恢复与计算,大多用于多摄像机跟踪环境,主要针对更高层次的应用。随着动画技术和图形学中人体建模技术的发展成熟,这类结合图形学和视觉技术的方法得到了越来越多的研究。

2.1.2 基于区域的人体跟踪

基于区域的人体跟踪方法就是用图像帧中的运动区域或块 (blob)来表示整个人体或人体的各个部分[5],跟踪过程即在所有图像帧中定位这些区域并建立它们之间的对应关系。当跟踪整个人体时,不需要考虑精确的人体模型和人体细节部分,所以不需要对模型进行初始化,通过对检测到的前景区域进行面积、几何结构的约束,对跟踪区域加框线用以跟踪;当对人体部分进行跟踪时,需要得到更精确的运动前景,通过对人体轮廓与颜色的分析,构造不同部分的代表物。该方法应用于跟踪较小的目标或对比度较差的目标,如果能正确预测目标的姿态变化,可实现稳定的跟踪。优点是计算复杂度低,难点是运动目标的影子和遮挡处理问题,可以借助色彩、纹理加以改善。

2.1.3 基于特征的人体跟踪

基于特征的人体跟踪只考虑人体一些显著特征来进行跟踪,如颜色、纹理、局部不变特征、质心、角点、光流等特征,通常用多个人体特征信息融合在一起作为跟踪特征。此方法包括特征的提取和特征匹配两个过程,特征提取的目的是进行帧间目标特征的匹配,并以最优匹配来跟踪目标。该算法优点是对运动目标的尺度、形变和亮度等变化不敏感,只要目标还有一部分特征没被遮挡,就可以完成跟踪,缺点是对于图像噪声比较敏感。

例如,Huiyu Zhou[6]等人使用局部不变特征 (SIFT)与基于颜色的MeanShift算法相结合进行目标跟踪,从而提高了传统的MS和SIFT跟踪算法的性能。杨戈与刘宏[7]等人结合人体运动图像的颜色特征、预测目标位置特征和运动连续性特征,提出一种多线索融合算法,可以处理目标部分遮挡、颜色饱和度低等情况,但不能处理目标被长时间、完全遮挡的情况。Min Li等人[8]提出了一个新的快速鲁棒的人体检测和跟踪方法,该方法基于人体头肩部分Ω形状特征,用粒子滤波跟踪检测出的头肩部分,在人群拥挤、背景杂乱、部分遮挡情况下具有较好的鲁棒性。

2.1.4 基于主动轮廓的人体跟踪

该方法基本思想是根据实际问题建立一个关于轮廓的能量函数、采用变分方法最小化该能量函数、最终得到轮廓的进化方程。例如,Kass等人提出的Snake模型,是在图像域内定义的可变形曲线,通过对其能量函数的最小化,动态轮廓逐步调整自身形状与目标轮廓相一致。基于Snake模型的人体跟踪,一般做法是将当前帧得到的轮廓作为下一帧Snake模型的初始轮廓,演变得到当前帧的运动物体轮廓,重复直至完成所有图像序列的人体目标轮廓跟踪。然而,Snake模型依赖于图像本身的质量和初始轮廓位置,不能解决快速运动的目标跟踪。

2.2 人体跟踪常用搜索策略

跟踪问题可以被看成是动态系统的状态估计问题,算法可以分为两种策略:确定性和概率跟踪方法。

确定性跟踪方法:其本质上是一个优化问题,基本思想是:首先通过手动或目标检测获得目标模板,建立代价函数 (Cost Function)来表达目标候选位置和目标模板的相似程度,然后利用最优化方法找到代价函数的最值,最值对应的位置就是目标在图像序列中的位置。基于均值漂移 (MeanShift)的跟踪算法是确定性跟踪方法的典型代表。该方法选择目标模板与候选位置颜色柱状图之间的距离作为代价函数,用MeanShift搜索代价函数的最大值。MeanShift算法以其无需参数、快速模式匹配的特性被广泛应用到目标跟踪领域,而且在非刚性物体跟踪中具有很好的实用性。它的优点在于,在目标区域已知的情况下可以完成实时跟踪,采用核函数直方图建模,对边缘遮挡、目标旋转、变形和背景运动不敏感;不足之处在于:Mean-Shift没有利用目标运动方向和速度等空间信息,跟踪过程中宽窗大小保持不变,缺乏必要的模板更新,当目标出现遮挡,尺度变化,光线变化较快时,可能跟踪失败。许多学者为解决这些问题做了大量研究,如Hong Liu等人[9]提出一种基于MeanShift框架的多线索融合方法,利用一个质量函数来判别运动和颜色线索的可信度,可以解决由于目标旋转而产生的变形问题,此外,具有遮挡处理的直接线索融合方法与自适应的融合方法相结合可以处理全遮挡的情况。

概率跟踪方法:将目标跟踪转换为在贝叶斯框架下推理目标状态 (如位置、速度)后验概率密度的过程。首先选择状态变量,通过状态转移方程进行预测,然后利用最新观测值对预测作出修正。常见的有卡尔曼滤波 (KF)、扩展卡尔曼滤波 (EKF)和粒子滤波 (PF)等方法。当过程噪声和观测噪声都是高斯分布且状态转移方程和观测方程是线性的,常规的KF能给出最优解;当状态方程和观测方程是非线性函数时,EKF能求解后验概率。但在实际跟踪中,状态方程和观测方程往往都是非线性的,噪声是非高斯且状态分布是多模态的,常用粒子滤波方法来进行目标跟踪。粒子滤波特别适用于图像跟踪领域,已成为图像跟踪的研究热点,它的主要问题是粒子退化问题,即经过几步迭代后,除少数粒子外,其他的粒子权值小到可以忽略不计。

以上两种方法各有优缺点,结合两种方法可以获得有效的跟踪效果,例如,马丽和常发亮[10]等人将均值漂移算法和粒子滤波分别改进并有效结合,具有较好的实时性和鲁棒性,能有效处理人体遮挡问题。

3 跟踪难点技术及发展方向

尽管视觉跟踪技术近几年得到了很大的发展,但仍存在很多问题需要解决:

(1)人与背景的自动分离。目前运动跟踪系统常用背景差分法来提取运动目标,这就需要建立一个能够实时更新的背景模型。目前获得背景模型的常用方法有,时间平均法、统计平均法[11]、混合高斯模型[12]等。

(2)遮挡处理问题,遮挡包括人体自遮挡和人与人之间的遮挡。可利用统计方法从获得的图像信息中进行目标姿势、位置等的预测。例如,Parrilla[13]等人提出了使用自适应滤波和神经网络来预测跟踪目标的速度,有效克服了基于光流法的跟踪不能处理目标遮挡的问题。在解决遮挡问题时,将目标分块化也是一种常用的方法。例如,文献[14]使用了大量的分块,采用穷搜索的办法来跟踪目标,并采取积分直方图的办法来降低计算复杂度。不过,解决遮挡问题最有实际意义的潜在方法是基于多摄像机的跟踪。

(3)基于模型跟踪方法的困难。目前大部分基于视觉的三维跟踪系统由于要求鲁棒性而引入了简化的约束条件。三维跟踪也导致了摄像机标定、目标模型的获取、遮挡处理、参数化建模等一系列难题。

通过总结近几年相关文献,人体跟踪研究趋势有:融合使用多摄像机数据,利用多摄像机数据来克服基于单摄像机跟踪中无法处理的遮挡、三维信息丢失等问题;通过多线索融合,结合辅助物[15],建立视觉注意机制[16]等加强跟踪算法的鲁棒性;在多人跟踪中,可以引入音频跟踪技术,提高定位的准确性,融合多种视觉传感器,如结合激光扫描仪和视频摄像机来跟踪多人[17],使其相互配合,提高跟踪系统的整体性能;通过全方位视觉来跟踪人体目标[18],全方位摄像机可以在图像中获取水平方向360°的环境信息,可全方位实时检测人体运动;融合2D和3D跟踪算法等。

4 结束语

由于人体的非刚性运动、背景图像的动态变化和目标之间相互遮挡、自遮挡等因素的影响,使获得一个具有鲁棒、实时和准确的人体检测与跟踪算法成为一项极具挑战性的研究课题。本文在前人研究分析的基础上,着重介绍了近5年来人体运动目标检测、跟踪两方面的最新研究进展,对跟踪方法进行了分类和比较,总结了其常用的搜索策略,同时对目前的研究难点技术和发展趋势做了阐述,希望能对相关领域的研究学者有所帮助。

[1]ZHANG Juan, MAO Xiao-bo,CHEN Tie-jun.Survey of moving object tracking algorithm [J].Application Research of Computers,2009,26 (12):4407-4410 (in Chinese). [张娟,毛晓波,陈铁军.运动目标跟踪算法研究综述 [J].计算机应用研究,2009,26 (12):4407-4410.]

[2]DU You-tian,CHEN Feng.A survey on the vision-based human motion recognition [J].Chinese Journal of Electronics,2007,35 (1):84-90 (in Chinese).[杜友田,陈峰.基于视觉的人的运动识别综述 [J].电子学报,2007,35 (1):84-90.]

[3]LI Hong-song,LI Da.Some advances in human motion analysis [J].Pattern Recognition and Artificial Intelligence,2009,22 (1):70-78 (in Chinese).[黎洪松,李达.人体运动分析研究的若干新进展 [J].模式识别与人工智能,2009,22(1):70-78.]

[4]Yilmaz A,Javed O,Shah M.Object tracking:a survey [J].ACM Computing Surveys,2006,38 (4):1-45.

[5]Hariharakrishnan K,Schonfeld D.Fast object tracking using adaptive block matching [J].IEEE Transactions on Multimedia,2005,7 (5):853-859.

[6]ZHOU Hui-yu,YUAN Yuan,SHI Chun-mei.Object tracking using SIFT features and mean shift [J].Computer Vision and Image Understanding,2009,113 (3):345-352.

[7]YI Yang,HONG Liu.A multi-cue fusion algorithm for visual tracking of human motion [J].Journal of Computer-Aided Design & Computer Graphics,2009,21 (10):1495-1499 (in Chinese).[杨戈,刘宏.面向人体运动视觉跟踪的多线索融合算法 [J].计算机辅助设计与图形学学报,2009,21(10):1495-1499.]

[8]LI Min,ZHANG Zhao-xiang,HUANG Kai-qi,et al.Rapid and robust human detection and tracking based on Omega-shape features [C].16th IEEE International Conference on Image Processing,2009:2545-2548.

[9]Liu Hong,Yu Ze,Zha Hongbin,et al.Robust human tracking based on multi-cue integration and mean-shift [J].Pattern Recognition Letters,2009,30 (9):827-837.

[10]MA Li,CHANG Fa-liang.Target tracking based on mean shift algorithm and particle filtering algorithm [J].Pattern Recognition and Artificial Intelligence,2006,19 (6):787-793(in Chinese).[马丽,常发亮.基于均值漂移算法和粒子滤波算法的目标跟踪 [J].模式识别与人工智能,2006,19(6):787-793.]

[11]QI Meibing,WANG Qian,JIANG Jianguo,et al.A background reconstruction algorithm based on the hypothesis of background pixel with maximum probability [J].Journal of Image and Graphics,2008,13 (4):723-728 (in Chinese).[齐美彬,王倩,蒋建国,等.基于背景像素值频次最高假设的背景重构算法 [J].中国图象图形学报,2008,13 (4):723-728.]

[12]WANG Chao,HOU Li-min.A new parameter estimation algorithm of Gaussian mixture model [J].Journal of Shanghai University (Natural Science Edition),2005,11 (5):475-480(in Chinese).[王超,侯丽敏.一种新的高斯混合模型参数估计算法 [J].上海大学学报:自然科学版,2005,11(5):475-480.]

[13]Parrilla E,GinestarD.Handling occlusion in optical flow algorithms for object tracking [J].Computers and Mathematics with Applications,2008,56 (3):733-742.

[14]Adam A,Rivlin E,Shimshon L. Robust fragments-based tracking using the integral histogram [C].Conference Computer Vision and Pattern Recognition.IEEE Computer Society,2006:798-805.

[15]Yang Ming,Wu Ying, Hua Gang.Context-aware visual tracking [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31 (7):1195-1209.

[16]ZHANG Geng,YUAN Ze-jian,ZHENG Nan-ning,et al.Visual saliency based object tracking [G].Lecture Notes in Computer Science 5995:9th Asian Conference on Computer Vision,2010:193-203.

[17]Cui J.Laser-based detection and tracking of multiple people in crowds [J].Computer Vision and Image Understanding,2007,106 (2-3):300-312.

[18]Liu Hong,Pi Wenkai,Zha Hongbin.Binocular omni-stereo based human tracking system in indoor environments for intelligent surveillance [C].2nd International Conference on Artificial Intelligence,2006:577-581.

猜你喜欢

背景人体图像
改进的LapSRN遥感图像超分辨重建
人体“修补匠”
“新四化”背景下汽车NVH的发展趋势
人体冷知识(一)
排便顺畅,人体无毒一身轻
《论持久战》的写作背景
有趣的图像诗
奇妙的人体止咳点
晚清外语翻译人才培养的背景
遥感图像几何纠正中GCP选取