动态背景下基于光流场分析的运动目标检测算法∗

2017-08-12崔智高王华李艾华王涛李辉

物理学报 2017年8期

关键词：光流像素点流场

崔智高王华李艾华王涛李辉

1)(火箭军工程大学,西安710025)2)(清华大学自动化系,北京100084)

动态背景下基于光流场分析的运动目标检测算法∗

崔智高1)2)†王华1)李艾华1)王涛1)李辉1)

1)(火箭军工程大学,西安710025)2)(清华大学自动化系,北京100084)

(2016年10月21日收到;2017年1月24日收到修改稿)

针对现有动态背景下运动目标检测算法的不足,提出一种基于光流场分析的运动目标检测算法.首先根据前背景在光流梯度幅值和光流矢量方向上的差异确定目标的大致边界,然后通过点在多边形内部原理获得边界内部的稀疏像素点,最后以超像素为节点,利用混合高斯模型拟合的表观信息和超像素的时空邻域关系构建马尔可夫随机场模型的能量函数,并通过使目标函数能量最小化得到最终的运动目标检测结果.该算法不需要任何先验假设,能够同时处理动态背景和静态背景两种情况.多组实验结果表明,本文算法在检测的准确性和处理速度上均优于现有算法.

动态背景,运动目标检测,光流场分析,马尔可夫随机场模型

1 引言

运动目标检测是指从视频序列中提取出感兴趣的运动物体或区域,是后期实现目标跟踪、行为分析的基础[1−3].在实际应用中,根据摄像机运动与否,可分为静态背景下和动态背景下的运动目标检测两类:应用于静态背景下的运动目标检测方法主要有帧差法和背景差分法[4,5];而动态背景下由于摄像机的不规则运动会造成背景和前景目标的相对运动,给目标的检测带来了非常严峻的挑战.因而致力于研究摄像机运动下的目标检测方法具有非常重要的意义[6].

动态背景下的运动目标检测方法主要分为基于背景补偿的方法、基于初始背景模型构造的方法和基于运动线索的方法三类[7],其中第三种是当前的主流方法和研究难点,此类方法一般以视频序列获得的像素点运动轨迹作为运动线索的基本载体.例如:Lee等[8]首先根据像素点运动轨迹确定类似目标的候选关键区域,然后计算候选关键区域的二值化分割,从而获得具有稳定外观和持续运动的假设组,最后使用已被排序的假设组得到所有帧像素级的目标检测结果,该算法的不足之处在于其准确率对物体的外观假设和位置先验依赖较大;Li等[9]通过条件随机场模型将利用像素点运动轨迹获得的目标内部稀疏像素点进行有效集成,算法不需要通过任何训练数据来获取先验知识和条件假设,能够鲁棒处理前景目标形状和姿态的任意变化,但是该方法在运动轨迹稀疏区域会出现大块的误检测;Zhang等[10]首先根据运动目标的空间连续性和运动轨迹的局部平滑性建立目标样本集,然后利用所有的目标样本集建立层状有向无环图,图中最长的路径满足运动评分函数最大且代表了可能性最大的目标样本,最后这些目标样本被用于建立目标和背景的混合高斯模型,并利用最优化图割方法求解模型获取准确的像素级分割结果,该算法要求每一环节中的参数设置都必须准确合理,一般在实际场景检测中较难实现;Elqursh和ElgamMal[11]提出了一种基于轨迹聚类分析和颜色模型迭代学习的运动检测方法,其中作者在使用运动轨迹时未用到未来信息,即轨迹是在线延长的,因此在视频序列的初始阶段,由于运动轨迹缺乏足够的运动信息,容易造成聚类错误并影响后续的颜色模型学习和前景背景分割;高文等[12]将目标检测问题视为一种更普遍的二分类问题,并利用1 bit BP特征通过三个级联分类器实现运动目标检测,该算法对摄像机微小晃动、背景模糊等复杂情况具有良好的检测效果,但在背景剧烈变化时检测精度较低;崔智高等[13]首先利用多组单应约束对背景运动进行建模,然后通过累积确认策略实现前背景轨迹的准确分离,最后将轨迹分离信息和超像素的时空邻域关系统一建模在以超像素为节点的马尔可夫随机场模型中,求解模型得到最终的前背景标记结果,该算法的计算复杂度较高,并且在前背景的边缘区域会出现较大的误检率.

众所周知,像素点运动轨迹的提取基于帧间获取的光流场[14,15],即首先求得帧间光流场,然后利用匹配方法[16−18]获得像素点之间的匹配对应,因此若直接以帧间光流场作为运动线索的基本载体,则可以有效避免匹配过程中的误差累积和时间消耗.基于上述思想,本文提出一种基于光流场分析的运动目标检测方法.算法首先利用光流的梯度幅值和矢量方向确定前景目标的大致边界,然后根据点在多边形内部原理获得边界内部的稀疏像素点,最后以超像素为节点构建马尔可夫随机场模型的目标能量函数,利用混合高斯模型构建数据项,利用超像素时空邻域关系构建平滑项,并通过使目标函数能量最小化得到最终的运动目标检测结果.本文所提算法不需要物体运动和场景估计的先验假设,并且在静态场景和动态场景下均能实现准确、鲁棒的运动目标检测.

2 基于光流梯度幅值和光流矢量方向的目标边界检测

对于摄像机运动的场景,背景所对应的光流场是由背景运动产生的,而目标所对应的光流场则是上述运动与场景中目标运动叠加产生的,二者的光流矢量存在着较大差异,因而可通过对光流矢量的分析确定背景与目标的大致边界.

基于上述思想,本文提出了一种基于光流梯度幅值和光流矢量方向的目标边界检测方法.首先利用文献[19]提出的算法计算视频序列的光流场,若视频序列包括N帧图像,则第t帧图像坐标(u,v)处的光流场矢量可表示为ft(u,v),其中1 6 t 6 N−1.本文把获得的光流场分为两类:由摄像机运动产生的背景光流场和由运动物体产生的目标光流场.本节将通过对光流梯度幅值和光流矢量方向的分析,获得背景光流场和目标光流场的大致边界.

2.1 光流梯度幅值确定边界

尽管目标运动和背景运动具有较大差异性,但目标内部像素点的运动或者是背景内部像素点的运动则具有高度一致性,具体表现在目标与背景边缘区域光流矢量梯度的幅值是较大的,其余区域则接近0.因而可通过设置合适的阈值,将梯度幅值超过阈值的像素点确定为边界点.基于上述分析,本文引入目标边界强度系数(u,v)∈[0,1],

其中,∥∇ft(u,v)∥表示像素点ft(u,v)的光流梯度幅值,ηm表示将(u,v)控制在[0,1]范围内的参数.

2.2 光流矢量方向确定边界

背景内部像素点或目标内部像素点的光流矢量方向基本趋于一致,而在背景与目标的边界区域,光流矢量方向的差异则较为明显.因此,可将当前像素点的光流矢量方向与其8邻域像素点的光流矢量方向做比较,获取最大的夹角值,并将夹角超过阈值的像素点确定为边界点.基于上述分析,本文引入另一个目标边界强度系数(u,v)∈[0,1],

其中,maxθ(ft(u,v),Φt(u,v))表示像素点ft(u,v)与其8邻域像素点集合Φt(u,v)的最大夹角,ηa表示将(u,v)控制在[0,1]范围内的参数.

一般情况下,利用上述的其中一种强度系数即可实现目标边界的检测,但在实际场景中往往存在各种噪声的干扰.为了提高鲁棒性,本文将光流梯度幅值确定的边界和光流矢量方向确定的边界进行融合处理,并通过阈值判断得到目标边界的二值图,如下式所示:

其中1代表边界点,0代表非边界点,阈值η取值范围为[0,1].

3 基于点在多边形内部原理的目标像素点判断

在理想情况下,通过上述步骤获得的目标边界应与目标实际轮廓相重合,但由于图像噪声、光流估计误差、阈值判断等多种因素的影响,二者的边界曲线往往存在较大误差,并且经过上述步骤获得的目标边界通常不是闭合的.图1给出了一个具体的例子,其中图1(a)为People2视频序列[20]中的第3帧图像,图1(b)为其对应的目标实际轮廓,图1(c)为利用上节提出的基于光流梯度幅值和光流矢量方向的目标边界检测方法得到的目标边界.

为了解决上述问题,本文利用点在多边形内部原理确定目标内部的像素点.其核心思想是从一点出发沿水平或垂直方向引出一条射线,若该射线与多边形边的交点数目为奇数,则判断该点在多边形内部,否则判断该点在多边形外部.基于上述点在多边形内部原理,本文将每个像素点间隔45◦,分别从8个方向引出射线,若8个方向引出射线与目标边界交点为奇数的方向超过5个,则认为该点在目标边界内部,从而得到目标内部稀疏的像素点.上述方法通过多个方向的综合判断得到像素点的位置,可以有效避免部分边界不连续或者图像噪声造成的误判断,增强算法的准确性和鲁棒性.图2为图1所示图像对应的目标内部像素点,其中目标内部像素点以白色星形显示.

图1 目标边界检测结果示例Fig.1.An exaMp le of the ob ject boundary detection.

图2 目标内部像素点检测的实验结果Fig.2.ExperiMental result of internal points detection.

4 基于时空马尔可夫随机场模型的前背景像素标记

通过上述步骤只能获得稀疏的目标像素点.为了进一步对每个像素信息进行前背景标记,本文首先利用SLIC算法[21,22]对视频序列进行过分割得到超像素集合,然后以超像素为节点构建时空马尔可夫随机场模型的能量函数,最后通过使能量函数最小化得到最终的前背景像素标记结果.

4.1 时空马尔可夫随机场模型能量函数设计

设第t帧图像对应的超像素集合为ℜt,则ℜt中的每个索引为i的超像素对应一个分类标签∈{0,1},0表示背景,1表示前景目标.此时,以超像素为节点可构建时空马尔可夫随机场模型的能量函数,如下式所示:

4.2 数据项势能函数设计

数据项势能函数反映了超像素标记结果与第3节获得的目标内部像素点的符合程度.基于此,本文首先计算每帧图像超像素包含已获得的目标内部像素点的比例系数,并将该比例与两个设定阈值进行比较,从而将超像素初步分类为前景超像素和背景超像素,如下式所示:

然后本文利用包含超像素均值颜色和质心坐标的5维向量代表每个前景超像素,并通过所有前景超像素为每帧图像构建前景混合高斯表观模型考虑到比例系数越大,其属于前景超像素的概率越高,在混合高斯模型中的贡献也应更大,为此本文在构建前景混合高斯表观模型时,为每个前景超像素引入权重系数,

在每帧图像估计出前景和背景混合高斯表观模型后,即可计算出该帧图像中每个超像素对应的数据项势能函数(),

其中,δ(·)为K ronecker delta函数.(8)式表明,如果某个超像素被赋予更加符合其表观模型的标签,那么它的数据项势能函数将更小,从而使得整体能量函数最小.

4.3 平滑项势能函数设计

平滑项势能函数用于编码相邻超像素之间的标记连续性,又可分为空域平滑势能函数和时域平滑势能函数两类.在空域平滑方面,考虑到同帧图像中各区域颜色是平滑渐变的,因此相邻超像素应具有相同的分类标签.若设超像素和其空域近邻超像素的质心坐标分别为和,均值颜色分别为和,那么空域平滑势能函数可定义为

在时域平滑方面,考虑到视频序列的连续性,时域近邻的超像素也应具有相同的分类标签.若设超像素经过帧间光流补偿在后一帧图像的映射区域[23,24]与时域近邻超像素的重合面积为,超像素的均值颜色为那么时域平滑势能函数可定义为

对每个超像素建立势能函数后,本文利用图割算法[25,26]求解(11)式能量函数最小化问题,得到每个超像素的最优分类结果.

将上文所述的时空马尔可夫随机场模型应用到图2所示图像中,可以得到图3所示结果.图中超像素之间的边界用黄色线段表示,背景区域用暗红色表示,运动目标区域则保持原有颜色.

图3 运动目标检测结果示例Fig.3.ExperiMental result of the finalMoving ob ject detection.

综上所述,本文提出的基于光流场分析的运动目标检测算法具体步骤如下.

算法1动态背景下基于光流场分析的运动目标检测输入:视频序列,图像帧数目N

目标边界检测

1)计算每帧图像的光流场ft(u,v),(1 6 t 6 N−1)

2)for t=1:N−1 do

利用(3)式确定得到目标边界的二值图st(u,v);

end for

目标内部像素点判断

3)for t=1:N−1 do

利用点在多边形内部原理确定目标内部像素点

end for

前背景像素标记

5)for t=1:N−1 do;

end for

6)利用图割算法求解(11)式所示能量函数最小化问题

输出:视频序列每帧图像的前背景二值标记

5 实验结果与分析

本文选择多个公开发布的视频序列进行实验测试.实验数据分别来自标准视频库中的Cat和Dog序列,Hopkins 155数据集[27]的Cars1-Cars4序列,Sand和Teller[28]提供的VPerson和Vcar序列,以及Changedetection.net数据集中[29]的Highway和Lab序列,选取视频包含多种复杂场景中的刚体和非刚体运动,具有较好的代表性.另外,选取视频中Highway序列和Lab序列为静止相机拍摄的视频序列,其余则为手持式相机拍摄的视频序列,可验证本文方法在静态和动态两种背景下的有效性.

采用广泛使用的查准率PR、查全率RE和综合评价FM[30]对所提算法进行评价,并与主模块算法(KS)[8]、视觉和运动显著算法(VMS)[9]和单应模型约束算法(HC)[13]进行定性和定量对比,结果如图4和表1所示.实验中,取ηm=0.7,ηa=0.4,η=0.1,超像素初步分类参数T1和T2分别为0.2和0.001.

如图4所示,不同场景下各种算法都可以大致检测出感兴趣的目标区域,但在检测的准确度上有所差异.对比可以发现,主模块算法KS虽然检测得到了前景目标的主体内容,但在目标的完整性上误检区域较为明显,比如Cars1场景中前轮胎区域和迎面驶来的小汽车的漏检,以及在静态场景Highway中未检测出第二辆行驶的小汽车;视觉和运动显著性算法VMS检测出的目标轮廓相对清晰,但当运动目标旁边存在颜色相似的物体或者场景中含有视觉上较为突出的目标时,也会出现明显的误检,表现为在Cat场景中误检了场景中的两只碗,同时猫的腿部白色区域出现了局部漏检,在其他场景中也部分出现了上述问题;单应性算法HC的检测结果相对完整,但目标的过检测导致边界不清楚,比如Cars1和Highway场景中将车身与阴影融为了一体,除此之外,该算法在操作过程中需要计算大量运动轨迹,计算复杂度较高;相比前三种算法,本文方法在综合性能上更为优越,算法采用光流梯度幅值和光流矢量方向两种方法来确定目标的边界,在不同场景下得到的目标轮廓都较为清晰准确,并且可以消除部分运动阴影的影响,另外算法对前背景的表观信息建立混合高斯模型,并结合超像素点的时空邻域连续性,使检测的结果更加完整准确.

从表1数据可以看出,不同场景下本文算法的查全率PR和查准率RE多数高于其他算法,表明所提算法对前景目标的检测准确性明显提升,综合评价指标值FM也稳居最高,且基本达到了90%左右,更充分说明了本文算法具有非常好的鲁棒性,能够广泛适用于不同场景下的运动目标检测.

为进一步说明本文算法在处理速度上的优势,同样在上述10组视频序列上进行对比实验,得到4种算法在所有视频帧上的平均处理时间,结果如表2所示.值得注意的是,动态背景下目标检测的输入通常是像素点运动轨迹或帧间光流场,目前二者的计算度非常高,尚不能满足实时要求,这也是限制动态背景下目标检测运算速度的主要因素,若想要提高处理速度,可采用GPU加速的光流场或像素点运动轨迹[31].

表1 四种算法的定量评估Table 1.The quantitative resu lt of four algorithMs.

图4 (网刊彩色)四种算法在不同场景下的前景检测结果(a)Cat(dynaMic scene);(b)Cars1(dynaMic scene);(c)VPerson(dynaMic scene);(d)Highway(static scene)Fig.4.(color on line)The experiMental resu lts of fou r algorithMs in d iff erent scenes:(a)Cat(dynaMic scene);(b)Cars1(dynaMic scene);(c)VPerson(dynaMic scene);(d)H ighway(static scene).

表2 四种算法的处理速度对比Tab le 2.CoMparison of p rocessing tiMe about fou r algorithMs.

6 结论

本文提出一种基于光流场分析的运动目标检测算法.算法以相邻视频帧的光流矢量为基础,首先通过光流梯度幅值和光流矢量方向共同确定目标的边界,得到相对清晰准确的前景轮廓;然后利用点在多边形内部原理对像素点进行多方向判断,获得前景目标内部较准确的稀疏像素点;最后以超像素为节点,将利用混合高斯模型构建的数据项和利用超像素时空邻域关系构建的平滑项统一纳入到马尔可夫随机场模型中,并通过图割最优理论求解模型得到最终的前背景区域分割结果.本文算法具有非常广泛的适用性,在静态背景和摄像机任意运动产生的动态背景均能实现准确、鲁棒的运动目标检测.

[1]Radke R,And ra S,Kofahi A,RoysaMB 2005 IEEE Trans.IMage Process.14 294

[2]Ren Y,Chua C,Ho Y 2003 Mach.Vision Appl.13 332

[3]Sheikh Y,Javed O,Kanade T 2009 Conference.on CoMpu ter V ision and Pattern Recognition(CVPR)MiaMi,USA,June 20–25,2009 p1219

[4]Chen L,Zhu S,Li X 2015 International SyMposiuMon CoMputers&InforMatics Beijing,China,January 17–18,2015 p742

[5]Bi G L,Xu Z J,Chen T,W ang J L,Zhang Y S 2015 Acta Phys.Sin.64 150701(in Chinese)[毕国玲,续志军,陈涛,王建立,张延坤2015物理学报64 150701]

[6]Sun SW,W ang Y F,Huang F,Liao H Y 2013 J.Visual.ComMun.IMage Represen t 24 232

[7]Li A H,CuiZG 2016Moving Object Detection in Videos(Beijing:Science Press)p15(in Chinese)[李艾华,崔智高2016视频序列运动目标检测技术(北京:科学出版社)第15页]

[8]Lee Y,K iMJ,G rauMan K 2011 In ternational Conference on CoMputer Vision(ICCV)Barcelona,Spain,NoveMber 6–13,2011 p1995

[9]LiW T,Chang H S,Lien K C,Chang H T,W ang Y C 2011 IEEE Trans.IMage Proc.22 2600

[10]Zhang D,Javed O,Shah M2013 Conference on Computer Vision and Pattern Recognition(CVPR)O regon,Portland,June 25–27,2013 p682

[11]E lqursh A,E lgamMal A 2012 European Conference on CoMpu ter Vision(ECCV)F lorence,Italy,O ctober 7–13,2012 p228

[12]Gao W,Tang Y,Zhu M2014 Acta Phys Sin.63 094204(in Chinese)[高文,汤洋,朱明2014物理学报63 094204]

[13]Cui Z G,Li A H,Feng G Y 2015 Journal of CoMputer-Aided Design&CoMputer Graphics 27 621(in Chinese)[崔智高,李艾华,冯国彦2015计算机辅助设计与图形学学报27 621]

[14]W ang J,Adelson E 1994 IEEE Trans.IMage Process.3 625

[15]C reMers D,Soatto S 2004 In t.J.CoMput Vison 62 249

[16]Yoon S,Park S,K ang S 2005 Pattern Recogn it.Lett.26 2221

[17]Adhyapak S,K ehtarnavaz N,Nad in M2007 J.E lectron.IMaging 16 13012

[18]D i S,Mattoccia S,ToMbari F 2005 In ternationalWorkshop on CoMputer Architecture for Machine Perception PalerMo,Italy,Ju ly 4–6,2005 p193

[19]Bouguet J 2001 In tel Corporation 5 10

[20]B rox T,Malik J 2010 European Conference on Computer Vision(ECCV)Crete,G reece,September 5–11,2010 p282

[21]Achanta R,Sha ji A,SMith K 2012 IEEE Trans.Pattern Anal.Mach.In tell.34 2274

[22]Achanta R,Shaji A 2010 EPFL Technical Report 1 149

[23]Vazquez A,Avidan S,P fi ster H 2010 European Conference on CoMpu ter Vision(ECCV)C rete,G reece,September 5–11,2010 p268

[24]Fu lkerson B,Vedald i A,Soatto S 2009 In ternational Conference on CoMputer V ision(ICCV)Kyoto,Japan,Sep teMber 27–October 4,2009 p670

[25]Boykov Y,Veksler O,Zabih R 2001 IEEE Trans.Pattern Anal.Mach.In tell.23 1222

[26]Boykov Y,Funka L 2006 In t.J.CoMput.V ison.70 109

[27]Tron R,V idal R 2007 Conference on CoMputer Vision and Pattern Recognition(CVPR)Minneapolis,USA,June 18–23 2007 p1

[28]Sand P,Teller S 2008 In t.J.CoMpu t.Vison.80 72

[29]Goyette N,Jodoin P,Porikil F 2012 Conference on CoMputer Vision and Pattern Recognition Workshops(CVPRW)Providence,Rhode Island,June 16–21,2012 p1

[30]Cui X,Huang J,Zhang S,Metaxas D 2012 European Conference on CoMputer Vision(ECCV)Florence,Italy,O ctober 7–13,2012 p612

[31]SundaraMN,B rox T,Keutzer K 2010 European Conference on CoMpu ter Vision(ECCV)C rete,G reece,Sep teMber 5–11,2010 p438

(Received 21 October 2016;revised Manuscrip t received 24 January 2017)

PACS:42.30.Tz,07.05.Pj,02.50.–rDOI:10.7498/aps.66.084203

*Pro ject supported by the National Natural Science Foundation of China(G rant No.61501470).

†Corresponding author.E-Mail:cuizg10@tsinghua.edu.cn

Moving ob ject detection based on op tical fl ow fi eld analysis in dynaMic scenes∗

Cui Zhi-Gao1)2)†Wang Hua1)Li Ai-Hua1)Wang Tao1)Li Hui1)

1)(The Rocket Force of Engineering University,X i’an 710025,China)2)(DepartMent of Au toMation,Tsinghua University,Beijing 100084,China)

To overcoMe the liMitation of existing algorithMs for detecting Moving ob jects froMthe dynaMic scenes,a foreground detection algorithMbased on optical flow field analysis is p roposed.Firstly,the ob ject boundary information is deterMined by detecting the diff erences in optical fl ow gradient Magnitude and optical fl ow vector direction between foreground and background.Then,the pixels inside the ob jects are obtained based on the point-in-polygon probleMfroMcoMputational geometry.Finally,the superpixels per frame are acquired by over-segmenting method.And taking the superpixels as nodes,the Markov RandoMfield Model is built,in which the appearance in forMation fi tted by Gaussian Mixture Model is combined w ith spatioteMporal constraints of each superpixel.The final foreground detection result is obtained by finding the MinimuMvalue of the energy function.The proposed algorithMdoes not need any priori assuMptions,and can eff ectively realize theMoving ob ject detection in dynaMic and stationary background.The experimental results show that the proposed algorithMis superior to the existing state-of-the-art algorithMs in the detection accuracy,robustness and tiMe consuMing.

dynaMic scene,moving ob ject detection,optical flow field analysis,Markov randoMfield model

10.7498/aps.66.084203

∗国家自然科学基金(批准号:61501470)资助的课题.

†通信作者.E-Mail:cuizg10@tsinghua.edu.cn

http://w u lixb.iphy.ac.cn