APP下载

基于三维矩阵的动态背景建模方法

2013-02-13茹,黄

电视技术 2013年19期
关键词:前景像素背景

薛 茹,黄 操

(1.西藏民族学院 信息工程学院,陕西 咸阳712082;2.长安大学 信息工程学院,陕西 西安710064)

责任编辑:时 雯

1 背景建模

背景减法是视频监控中常用的运动目标检测方法,它通过当前帧的像素和背景模型中的相应像素比较,将视频图像中的运动目标提取出来,由此可见背景模型直接影响背景减法获得运动目标的质量[1]。最简单的背景模型是为每个像素做高斯分布[2],然而,单高斯分布对于摆动的树木、光线变化等动态背景并不得心应手。因此,Stauffer和Grimson用高斯混合模型[3]表达动态背景的变化,并用参数估计技术更新背景模型,由于外界环境变化的不确定性,用高斯分布建立精确的背景模型是不可能的。为了克服因快速变化的背景引起的参数估计错误而导致的背景模型的不精确性,Elgammal和Harwood等人提出了非参数模型[4]方法,通过像素的观测值用核密度估计技术预测当前像素的概率密度函数,这种方法能适应背景的迅速变化,使其迅速检测运动目标。但是,在光线变化和树木摆动的情况下,这种方法需要长时间纪录观测像素,占用大量内存。为了克服该问题,文献[5]提出用码本的方法建立基于像素统计的模型,该方法用压缩的方式在内存有限的情况下表示图像序列,通过比较当前帧和背景帧的颜色和亮度差进行检测,该方法用聚类分析构建背景模型,为每个像素建立包含一个或多个码元的码本。以上都是针对单个像素建立背景模型,而基于像素区域的背景建模也受到了关注。局部二值模式(LBP)[6]是一种检测区域纹理变化的方法。在给定像素为中心的圆形区域内,用中心像素与相邻像素的差值确定编码,所得的二进制值分布在中心像素的环形区域,用于对该像素建立模型。如果检测像素的区域和得到的二值模式相同,那么该像素为前景,否则为背景像素。然而,由于中心像素作为参考来计算二值模式,该像素的稳定性直接影响检测的准确性。文献[7-8]同样提到了该方法,文献[7]用视频序列中相应块之间的相关性检测前景,该方法对于处理动态场景和块内部的固定干扰还有困难,另外,对于运动目标与块的大小、干扰等都需综合考虑。文献[8]利用了固定块大小和边缘直方图的方法,但使用固定块大小很难平衡噪音鲁棒性和检测准确性。边缘直方图不能过滤诸如摆动的树枝这样小范围运动的干扰。Bourezak等人[9]采用在不同大小的块上使用颜色直方图的方法。文献[10]在经典码本[5]算法的基础上,从像素块和像素两个级别对图像进行编码,提取运动目标,但是该方法由于采用两个级别进行编码,其编码和更新过程过于复杂,影响了前景检测的实时性。

本文方法对块向量进行聚类分析,考虑组成图像的相邻像素之间的相关性,用三维矩阵表示块向量的聚集范围,并通过聚集后的部分矩阵向量分割前景和背景。

2 动态背景建模

视频中灰度图像用一维表示,彩色图像用R,G,B空间三维表示。尽管通过颜色的变化可以将图像前景或背景分割[11],但是实际中颜色的变化是随着时间而不断变化的,要更清楚地检测运动目标,并降低运算量,有必要增加空间维度。为了充分表达出空间颜色随时间变化的关系,本文运用三维立体矩阵理论[12-13]将彩色图像的变化表示在一个数学模型里,运用动态的建模方法进行目标检测。

2.1 视频的三维矩阵表示

彩色视频图像中,像素块的R,G,B值分别用块中像素的R,G,B均值来表示,即R—,G—,B—。像素块的R,G,B向量是从原点到那一点的向量v(如图1所示)。RGB空间中向量的夹角、距离都可表征像素间颜色的差异。

图1 RGB向量空间示意图

v1(R1,G1,B1)与v2(R2,G2,B2)分别表示两个块向量,v1,v2的夹角α定义为

v1,v2的距离L定义为

对视频图像序列进行分块,如图2a所示。对于一帧视频的每个块都有自己的位置;对于视频序列,要明确表示像素块的位置,除了行、列外,还需要表示时间的变量。因此将图2a中的视频序列扩展到三维矩阵中,如图2b所示。用v表示像素块向量的大小,下标i和j表示在一帧图像中像素块的位置,t表示图像序列的时间,那么vijt就可以表示第t帧中、第i行、第j列像素块的向量,即在三维矩阵中i,j,t轴分别表示视频中像素块所在的行、列、时间轴纵向序列。

图2 视频的三维矩阵表示

2.2 动态背景建模方法

动态背景建模方法的思想是:将视频图像分块,求其块向量的值。通过计算同一块向量在连续视频序列中的最小欧氏距离,根据欧氏距离对块向量进行聚类分析。根据检测过程中块向量在聚心的聚集范围内出现的次数,移动该聚心的位置,再根据视频图像块与出现频率较高的聚心进行比较,判断该块属于前景或背景,并动态对聚心进行更新。

三维块向量矩阵中各元素分别用vijd表示,i和j值由视频图像大小决定,d为经验值。将该矩阵从纵向深度为d/2的位置,分为深度为1~d/2和d/2~d的两部分。其中,深度为1~d/2的向量是检测过程中可能的块向量的聚心,用来分割视频的前景和背景。而深度为d/2~d的部分是曾经出现过,但出现频次不多,后面可能还会出现或者不会再出现的块向量。由此可见,d的大小决定聚心的精确度。

检测过程中像素块先与纵深在1~d/2范围的向量进行比较,通过式(3)求得欧氏距离最小值

式中:xij为当前视频图像中第i行、第j列像素块的向量值;vijk为V矩阵中第i行、第j列像素块在纵向值为1~d/2的像素块向量;disij为欧氏距离的最小值。如果disij小于阈值TSij,那么这个块判断为背景。这样在第一帧图像到达后就可以粗略地将背景与前景分隔,为背景建立初步模型。

再将当前像素块与纵深在d/2~d范围内的向量比较。在检测过程中将3d/4作为新的候选聚心添加的地方,纵深从3d/4~d的向量是长时间没有出现块。判断添加聚心的条件是,若欧氏距离disij大于阈值TPij,则将该向量添加到纵深为3d/4处,其后面的向量依次后移,纵深超过d则删除。对于disij小于等于阈值TPij的向量,将当前的像素块抛弃,在矩阵中找到对应的(假设该块为vijn)像素块向量,将其在纵向上提升s,也就是在该块的纵深减少s,即块向量为vij(n-s)(其目的在于对在聚心范围内出现的块,将其块向量位置向纵深为1~d/2的范围内提升,使其能代表该块的聚心)。原来位置的向量则依次下移。对于提升距离s则根据实验确定。依次类推,最终使出现频次最高的向量出现在深度为1的平面矩阵中,那么vij1更能代表当前视频的背景。为了确保检测的准确性,将纵深在1~d/2范围内的向量作为分隔前景背景的基本模型。具体过程如图3所示。

图3 动态背景建模方法

对于在检测过程中出现的阈值需要实时掌握视频变化情况,因此对于阈值TSij和TPij,根据计算过程中得到的欧氏距离的最小值βTS和βTP倍和时间常量TC来表示

式中:t代表视频的时间间隔;βTS,βTP,TC为经验值;α=。这样阈值根据像素块的变化实时更新聚类的聚心,并改变聚心的优先级别。

总之,将重复出现的像素块的纵深提升到矩阵纵度的前一半范围内,是为了让这部分像素块能实时代表像素块的聚心,将聚心范围缩小,提高用纵深为1~d/2范围内的块向量进行前景和背景分割的精确性。将出现频度较低的像素块向量剔除,减少矩阵的冗余提高有效度。

算法描述如下:

1)初始化矩阵V,使其初始值为0;正规化当前帧中各像素块xij。

2)计算当前帧中各块与矩阵中纵深为1~d/2的相应块的欧氏距离,并分别求其最小值disij。

3)继续计算当前帧中各块矩阵中剩余像素块的欧氏距离,并分别求其最小值disij

如果当前图像中的某像素块向量和矩阵中相应的像素块向量欧氏距离接近,即小于阈值TPij,则丢弃当前块,矩阵中相应的块(假设该块为vijq)纵向提升s,也就是在该块的纵深减少s,则该块为vij(q-s)。那么矩阵中原来vij(q-s)~vijq及其后面的像素块依次改变。若s=1,即t=vijq,vijq=vij(q-s),vij(q-s)=t,也就是两个向量交换位置。

如果disij大于阈值TPij,则用当前块向量值代替矩阵中深度为p=3d/4的块向量,而矩阵中原来的块向量值从3d/4到d,依次后移一位。最后一个向量vijd直接从矩阵中删除。

4)返回第一步。

用该方法提取前景,由于采用块大小的不同会直接影响前景的分辨力。因此,为了提高检测的效果可以采用重叠块的办法,但是这样会影响计算速度和存储容量。

3 实验结果

本文方法是对图像在水平、垂直、纵向时间上进行块划分,并根据平面上块的大小和时间序列来设计矩阵的大小。实验中,平面中块的大小根据图像分辨率设定,同时要考虑得到背景模型和提取前景分辨率的要求;也就是说,用大块去分割图像会导致提取的前景不平滑、失真率变大。因此,在实验中针对不同的图像,采用了不同大小的块。时间序列的大小根据经验,尽量提取清晰干净的背景为宜,同时还需考虑系统的存储容量和计算速度。

3.1 实验对比分析

实验中提取的视频图像的分辨率为640×480,测试了1 000帧,采用25 f/s(帧/s)。将本文的算法应用于一个三维矩阵中,块大小是4×3像素。矩阵中,行i=640/4=160;列j=480/3=160;纵向深度d=200。时间常数为500,βTS=1.5,βTP=2。通过MATLAB 2007运行。选取两个视频,视频1为湖边的视频,在有风的情况下树木摆动,湖里水波反光,且湖岸上有行人通过;视频2为公园中一房子旁边,有微风、行人较多,这两个视频的场景都比较复杂。

文献[9]采用像素块的码本聚类方法,根据像素块出现频率对其进行编码来提取前景。该方法中块大小是4×3,学习帧为100;像素块距离阈值为10,码元没出现的时间间隔阈值为50。将文献[9]方法与本文方法进行比较,如图4所示。在图4的视频1中,风较大、湖面水波反光,本文和文献[9]的方法都能有效剔除水波的干扰,但是不能完全剔除摆动树木的影响。然而,从图中可以看到,本文方法对摆动树木的抗干扰能力比文献[9]好。视频2中本文和文献[9]方法提取的前景能有效减去固定房屋,对于树木的干扰本文方法更好;对于人体中出现空洞的现象本文方法效果不明显。

3.2 性能对比分析

图4 本文方法与文献[9]提取前景比较

为了进一步对该算法进行分析,采用操作特征曲线(Receiver Operating Characteristic,ROC)来分析评估该算法的性能。ROC曲线通过Y轴的真阳性率(True Positive Rate,TPR)与X轴的假阳性率(False Positive Rate,FPR)形成曲线,是一种评估算法质量或性能的有效方法。AUC(ROC曲线下的面积)是衡量算法的总体性能,算法的AUC值越接近1,说明该算法的性能越好。图5显示了本文实验中的ROC曲线。

图5 ROC曲线

式中:TP为检测到的正确前景像素个数;FN为检测到的错误前景个数;FP为检测到的错误背景像素个数;TN为正确检测的到背景像素个数。从图5可以看出,本文方法的值比文献[9]更接近1。

4 结论

提出针对图像在三维空间建立背景模型,在平面上进行块的划分,在纵向上进行块向量的存储,并根据块向量在一定变化范围内出现的次数,调整块向量在纵向上的位置,使得出现次数高的向量集中在纵深为1~d/2的范围内,有效地进行聚类分析。并将该方法和码本块聚类分析方法(文献[9])进行比较,实验证明该方法能动态更新背景模型,不需要花费时间学习,能有效提取运动目标,降低外界干扰。

[1]薛茹,宋焕生,张环.基于像素的背景建模方法综述[J].电视技术,2012,36(13):39-43.

[2]WREN C,AZARBAYEJANI A,DARRELL T,et al.Pfinder:Real-time tracking of the human body[J].IEEE Trans.Pattern Analysis and Machine Intelligence,1997,19(7):780-785.

[3]STAUFFER C,GRIMSON W.Adaptive background mixture models for realtime tracking[C]//Proc.CVPR 1999.Fort Collins,Colorado:IEEE Press,1999:246-252.

[4]ELGAMMAL A,HARWOOD D,DAVIS L.Non-parametric model for background subtraction[C]//Proc.ECCV 2000.Dublin,Ireland:IEEE Press,2000:751-767.

[5]KIM K,CHALIDABHONGSE T,HARWOOD D,et al.Real-time foreground-background segmentation using code book model[J].Real-Time Imaging,2005(11):172-185.

[6]OJALA T,PIETIKINEN M.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2002,24(7):971-987.

[7]MASON M,DURIC Z.Using histograms to detect and track objects in color video[C]//Proc.AIPR 2001.Washington,DC,USA:IEEE Press,2001:154-159.

[8]MATSUYAMA T,OHYA T,HABE H.Background subtraction for nonstationary scenes[C]//Proc.ACCV 2000.Taipei,Taiwan:IEEE Press,2000:622-667.

[9]BOUREZAK R,BILODEAU G.Iterative division and correlograms for detection and tracking of moving objects[C]//Proc.IWICPAS 2006.Xi’an,China:IEEE Press,2006:45-56.

[10]GUO J,HSU C.Hierarchical method for foreground detevtion using codebook model[C]//Proc.2010 IEEE 17th International Conference on Image Processing.Hong Kong:IEEE Press,2010:26-29.

[11]沈盼盼,樊丰,伍瑞卿.基于RGB三通道分离的运动目标检测方法[J].电视技术,2012,36(3):137-140.

[12]桑爱军,陈贺新.三维矩阵彩色图像WDCT压缩编码[J].电子学报,2002,30(4):594-597.

[13]朱艳秋,陈贺新,戴逸松.彩色图像三维矩阵变换压缩编码[J].电子学报,1997,25(7):16-21.

猜你喜欢

前景像素背景
像素前线之“幻影”2000
“新四化”背景下汽车NVH的发展趋势
我国旅游房地产开发前景的探讨
《论持久战》的写作背景
四种作物 北方种植有前景
“像素”仙人掌
离岸央票:需求与前景
ÉVOLUTIONDIGAE Style de vie tactile
晚清外语翻译人才培养的背景
量子纠缠的来历及应用前景