基于像素的背景建模方法综述

2012-01-31宋焕生

电视技术 2012年13期

薛茹，宋焕生，张环

(1.西藏民族学院信息工程学院，陕西咸阳712082;2.长安大学信息工程学院，陕西西安710064;3.陕西省道路交通智能检测与装备工程技术研究中心，陕西西安710064)

运动目标检测是视频处理技术的重要问题之一，是解决计算机视觉问题的基础。因此剔除时间和空间上冗余信息，对背景和目标进行有效地分割是运动目标检测研究的重点。学者们根据应用场合、方法、技术路线等方面提出了不同的运动目标检测方法，主要有背景减法、帧差法、光流法、均值漂移法、最小化能量法、结合滤波技术的方法、基于学习的方法、小波变化法、分形编码法等。这些方法中背景减法、时间差、光流法能够在固定摄像机情况下自动提取背景目标［1］，因而应用比较广泛。帧差法适应环境变化的能力较强，但在运动目标纹理均匀或缓慢运动时，很难提取所有运动目标像素点，容易造成运动物体透明现象;光流法计算复杂，抗噪性能差;背景减法计算量小、抗噪能力强、精度高，所以是目前使用较普遍的方法。

在实际场景中情况比较复杂，外界天气、光线、道路背景运动物体、影子树枝等变化无常，给运动目标的检测带来极大困难。为了提高背景减法提取运动目标的准确性，背景模型成为影响目标监测和跟踪性能的关键问题。在近些年的研究中，学者们研究了许多背景建模方法，这些方法主要是从像素和像素区域两个方面对背景建模:基于像素的背景模型中每个像素是独立的，这种方法的优点是能提取运动目标的外形，缺点是分割结果与背景和场景相关;像素区域建模的优点是图像的局部变化和动态背景的影响较小，不能得到精确的目标形状。

本文从是否需要为背景评估保留缓存，是否需要用每一个输入的帧来更新背景模型两个方面，将现有的基于像素背景建模方法分为递归和非递归［2-3］两类，并逐一对它们的算法进行分析。

1 背景建模方法

1.1 非递归背景建模方法

非递归建模方法通过开辟内存来存储大量过去时刻的图像序列，并根据这些连续图像对应像素的变化预计背景模型。这种方法能防止单帧图像的干扰，但占内存较大。

1.1.1 中值、均值模型

中值［4］、均值滤波法是背景建模方法中较简单的建模方法。它们的基本思想是将连续采集到的L帧序列图像存储到缓冲区中，对这L帧图像中对应像素求均值或中值，用其均值或中值图像作为下一帧图像的背景模型。

上式分别是像素中值和均值的建模方法。It(x，y)表示t时刻点(x，y)处像素灰度值，Bt(x，y)表示均值法和中值法在该点的背景建模值，median为取中值函数。相比均值法计算简单的特点，中值法能更好地保持图像边缘的平滑。但由于中值法注重滤波窗口数据的次序而忽略了输入数据的时间，因此会产生边缘抖动，并滤掉部分重要细节。为了解决这些问题，提出了多级中值滤波算法和自适应中值滤波算法等改进方法。

1.1.2 帧间差分模型

帧间差分法能弥补均值法中动态前景对背景模型的影响。它将图像序列中相邻两帧进行相减，对得到的差进行阈值化来提取动态前景，在此基础上出现如三帧差分法［5］等多种改进方法。基于帧间差分思想的算法计算简单、计算量小、对光线变化不敏感，且容易造成实体内部空洞。另外差分间隔根据运动目标的速度选择，如果选择不当会影响背景提取精确度。

1.1.3 W4模型

W4［6］构建了人们运动的动态模型来表示他们在哪里(Where)，在什么时间(When)做什么(What)，并且对追踪对象外形建模，通过视频图像中的偶然事件识别追踪对象身份，也就是明确了谁(Who)的问题，这就是W4名字的来源。W4建模的基本思想是:背景场景通过训练图像序列中同一像素的最大值、最小值，和相邻连续帧中同一像素的差分来判断前景像素。具体算法如下。

{x1，x2，…，xL}是L帧图像序列中某像素的集合;σ(x)和λ(x)为像素x在训练序列中的标准差和中值;像素x的初始背景模型为［m(x)，n(x)，d(x)］，m(x)，n(x)，d(x)表示像素的最小值、最大值和像素差的最大值。

dμ为d(x)的中值，k为阈值常数。如果＞kdμ，则xt为前景像素，反之为背景像素。

W4主要应用在单色视频，特别是应用在夜间或其他低亮度水平的情况，这些情况下能有效检测前景区域，但是计算量比较大。后来研究者对背景像素的分割和更新方法进行了改进［7］，使得在相同条件获得了更好的效果。

1.1.4 线性预测模型

线性预测滤波是在美国科学家Wiener和前苏联科学家等人的研究基础上提出的。它的基本思想是根据图像序列中以前帧中的像素值预测下一帧图像中像素值，通过对像素预测值和真实值的偏差来判断该点为背景还是前景，如果当前像素明显偏离预计值，则认为该当前像素是前景，否则为背景。在这里用维纳滤波［8］来进行说明。给定一个像素，它下一时刻的值通过下式预测

式中:It为t帧时某像素的预测值;It-i为t帧之前各帧的像素值;ai为预测系数。通过L帧对当前帧进行预测，其均方误差为

式中，ai由In样本方差计算。根据均方误差E的大小判断像素为前景或背景。维纳滤波对图像周期性变化能很好的判断，并实时对背景更新，对突然变化不能精确检测。从理论上说，维纳滤波的最大缺点是必须用到无限过去的数据，不适用于实时处理。

1.1.5 非参数核密度估计

核密度估计［9-10］(KDE)方法是基于像素颜色空间的非参数背景建模方法。它的基本思想是由序列图像像素的采样样本估计背景像素的概率密度函数，从判断当前像素概率值是否属于背景的概率，来判断属于前景还是背景。

具体算法如下:{x1，x2，…，xL}是L帧图像序列中某像素的集合，根据该像素集合提出像素强度估计的概率密度函数P(x)，xt为在t时刻强度的估计值为

式中，K是服从正态分布N(0，σ2)的函数，σ为该核函数的带宽。所以就有

如果假设在不同的颜色通道有不同的核带宽，密度估计变为

核密度估计虽然能有效地抑制动态阴影，但是需要存储大量背景样本，且计算时间复杂度相当高。另外，选择合适的核带宽比较难。

在该方法的基础上，学者们提出了具有数据依赖性带宽的密度估计方法，通过核对动态场景进行背景建模，并提出一种基于前景背景差分的自适应核估计方法，在前景背景颜色相同情况下能有效进行区分。另外基于动态图像梯度特点的核密度估计模型除了能抑制视频彩色图像的阴影外，还能有效地抑制反射图像扩散。

1.1.6 统计直方图

统计直方图是通过统计像素灰度变化的方法来检测背景。基本思想是先统计一段时间内L帧图像中每个像素在不同灰度出现的次数，像素在某灰度值出现次数最多的，判断为背景本身的灰度值。

L帧的统计直方图算法:k为像素x在第i帧的灰度值，pk(x)表示像素x在连续的L帧中灰度值为k的次数(k=0，1，…，255;i=1，2，…，L)。像素x的背景值为max(pk(x))。

该算法抗干扰性好，通常情况下提取的背景较好，但运算量大、提取背景速度慢。随着统计的图像序列增加，提取背景的效果越来越不明显。文献［11］通过对图像像素的统计直方图划分区域，根据当前像素值所在的直方图区域判定前景和背景，该方法提取的背景较稳定，提取的背景接近真实的背景。

1.2 递归背景建模方法

和非递归相反，递归需要的存储空间相对少很多。根据当前帧中的像素递归地更新背景模型，这样就导致建模过程中很久以前帧的错误对背景模型造成长时间的影响。因此，大部分递归背景建模方法中都使用权重去除以前的帧造成的错误反馈。

1.2.1 近似中值滤波

中值滤波方法在背景建模中应用成功之后，McFarlane和Schofield［12］提出一种简单的递归技术来估计中值。该方法的基本思想是:如果输入像素值大于估计值则中值估计会逐次递增，反之则会逐次减小。这种估计一般会收敛到一个值，一半的输入像素值大于或小于这个值，也就是中值。近似中值滤波只需要存储一个参考图像，计算简单。但是它逐渐适应背景变化，需要采集大量连续帧才能适应变化的背景区域。

1.2.2 单高斯模型

单高斯模型适用于图像背景比较单一、直方图显示出单峰的情况。单高斯模型的思想是把图像的像素值看成是前景高斯分布和背景高斯分布的混合。当某点像素的分布与前景高斯分布匹配，那么该像素就属于前景，否则属于背景。

具体算法如下［13］:假设图像中每个像素的颜色都是独立的，对于图像中任意像素点(x，y)，设它在L帧的像素值分别为I0，I1，I2，…，IL-1，且服从一维正态分布N(μ，σ2)，μ为L帧图像训练样本在像素点(x，y)的均值，σ2为其方差。

P(I)是像素点(x，y)颜色的概率。如果P(I)≤Threshold(Threshold为概率阈值)，(x，y)为前景像素，否则(x，y)为背景像素。阈值可以根据经验或通过实验确定。单高斯模型计算速度快、准确度较高，能较好地处理背景干扰。但是对于突变的背景和前景不能进行有效的处理。还有作者［14］针对红外图像的特点对单高斯分布背景提取方法进行改进，该算法中由于综合考虑像素的灰度值，有效地提高了背景建模精确度。

1.2.3 混合高斯模型

为了克服单高斯模型对复杂场景背景更新的滞后性，混合高斯模型对其进行延伸，用多个高斯分布平滑地模拟像素的变化情况，目前在语音、图像等方面都应用比较普及。

混合高斯模型基本思想是使用多个高斯分布表示序列图像中每个像素点的特征，如果当前帧中的某像素的特征与高斯分布相匹配，则被判定为背景像素，否则为前景像素。

任意像素点(x，y)的像素值在时间上的变化用k(一般是3～5)个高斯分布进行建模，该像素的概率分布为

式中:ωt，i为第i个高斯分布的权重，并且有η为其概率密度函数;Ii为像素值;μt，i为其均值;Σt，i为其协方差。其中

为了减少计算量，提高算法的实时性，一般假设每帧视频图像中像素色彩通道相互独立，那么上式中协方差矩阵估计为:

在混合高斯分布中，各高斯分布根据权重的差异具有不同的优先级，并按照优先级的降序排列。根据检测像素是否属于阈值范围内的分布来判定该像素是背景还是前景。如果像素的分布不符合任何高斯分布，那么重新设计一个权重较小和方差较大的高斯分布，代替优先级最小的高斯分布，并重新对所有高斯分布进行权重归一化处理。

混合高斯分布对于处理复杂、缓慢变化的背景有较好效果，但是对处理变化剧烈的场景时效果不理想，并且计算复杂度较大。为了提高混合高斯分布在背景提取的有效性，研究者们也根据各自的应用不断进行改进，如将颜色、边缘和纹理等视觉特征集合起来进行背景建模的混合高斯背景模型。为每个像素建立多个高斯分布［15］，每个高斯模型按权重排序，通过学习背景环境实时更新的模型等。

1.2.4 卡尔曼模型

卡尔曼滤波是线性预测背景建模中较典型的方法，在实际应用中已有多种不同版本。但基本思想是一致的:将背景图像序列中像素点变化用信号处理系统描述，根据时变随机信号的统计特性，采用线性最小均方误差作为最优化准则，对随机信号的过去、当前或未来值作尽可能接近真值的估计，估计值为

设It为当前时刻某像素的值，I∧t为其估计值，I't为其时间导数，I∧'t为其时间导数的估计值，则t时刻的估计值为

当运动目标速度较慢时，卡尔曼滤波检测出的运动目标有拖影现象，但是能适应光照等动态背景变化较快的情况。鉴于这种情况学者们对卡尔曼模型不断进行改进，用像素一维Kalman滤波跟踪的摄像机中每个像素的强度，并提出自适应Kalman滤波背景减法。

1.2.5 码本模型

码本是基于像素颜色的背景建模法，它的建模思想是:根据图像序列中的每个像素的颜色距离和亮度，用量化技术建立一个码本，这个码本可以是不同长度码元。在检测时，用当前像素的码本与建立的码本进行比较，如果当前像素码本落在任何原来的某个码本范围内，则为背景。否则为前景。

在下面的算法［17］中以彩色图像建模，在灰度图象中应用只需要对颜色值做简单的改动。

X={x1，x2，x3，…，xL}为L个序列图像中某个像素点的集合，C={c1，c2，…，ci}为由i个码元组成的像素码本，每个码本的码长不一定相同。每个码元ci(i=1，2，…，N)由一个RGB向量)和一个6元组auxi=组成，其中:I^，Iˇ分别表示所有采样像素亮度的最大和最小值;f为码元出现的频率;λ为训练期间码元没有出现的最大时间间隔;p，q分别表示码元建立时间和最后一次被访问的时间。采样初期使码元长度为0，码本为空。在训练时间内对一个像素进行采样:如果码本中没有码元，当前像素就被确认为码元，该像素的亮度为码元的亮度;如果码本中存在码元，就用新样本像素与码本中每个码元的参数进行比较，如果匹配，就用当前像素参数更新该码元值，否则将当前像素添加到码本中。

码本方法适用于有移动背景、光线变化等的复杂场景中。和其他建模算法比较，码本建模有相对较好的特性。并且提出从多层codebook建模、像素块建模、根据颜色纹理等背景建模方法。

2 背景建模方法比较

以上的背景建模方法是在摄像头固定的情况下，通过对单个像素建模来提取背景的。这些方法对于有噪声、光照、天气等因素影响的复杂背景情况下敏感度不同，在处理过程中的计算速度、需要的存储容量和最终提取背景的精确度都不尽相同。一般情况下，精确度表示有效提取背景的程度;存储容量直接影响到计算速度，而计算速度关系到背景提取的实时性，也就是对背景变化的敏感性的要求。所以内存、速度、精确度直接关系到背景建模方法性能的好坏。因此本文从背景建模方法的空间复杂度(内存)、时间复杂度(速度)和精确度3个指标对基于像素级的背景建模方法进行比较［18］，最终比较结果如表1所示。

表1 建模方法比较

由表1可以看出，这些方法虽然都有缺点，但是在不同应用场景可以选择不同的方法。比如帧差法，虽然精度不高，但是如果能得到背景的图像，并且背景受外界影响较小，这种方法就简单实用。

3 总结与展望

基于背景减法的背景模型只是视频图像处理的一个预处理，而不是最终目标。一个好的目标检测系统应该解决许多问题，如运动物体、阴影、逐渐或突然改变光线、树枝的摆动、遮挡等。但这些问题不可能同时得到解决，因为它们的差别在于处理过程中对运动的前景和背景理解，如果不知道处理的目的和最终要求，解决这样的问题几乎是不可能的。另外，在某一特定过程中，并不一定会遇到所有上面提到的问题。没有一个背景建模方法是绝对完美的，但一个好的思路将会给背景建模提供很多的帮助。当在特定的应用场合对前景像素进行提前分析，明确要检测前景的哪部分、检测的目的是什么，那么算法的设计者就应该把所有注意力放在已经分析好的、需要检测识别的部分，而不应该是对每个像素都做统一处理。

从近几年提出的背景模型建模方法可以看出，背景建模方法是沿着以下3方面发展:1)在原有典型方法的基础上，结合多种方法，互相弥补其在背景提取过程中的不足;2)冲破典型方法局限于计算机视觉的某一方面的禁锢，向多视觉特点的背景模型发展;3)在背景模型中将时间和空间综合考虑，从时间、梯度、多层等多方面改进。

［1］郭永涛，宋焕生，贺昱曜.视频交通监控系统中背景提取算法［J］.电视技术，2006，30(5):91-93.

［2］CHEUNG S C S，KAMATH C.Robust techniques for background subtraction in urban traffic Video［C］//Proc.IS＆T/SPIE Electronic Imaging.San Jose，United States:IEEE Press，2004:881-892.

［3］ELHABIAN S Y，EL-SAYED K M，AHMED S H.Moving object detection in spatial domain using background removal techniques-state-of-art［J］.Recent Patents on Computer Science，2008，1(1):32-54.

［4］CUCCHIARA R，GRANA C，PICCARDI M，et al.Detecting moving objects，ghosts and shadows in video streams［J］.Pattern Analysis and Machine Intelligence，2003，25(10):1337-1342.

［5］罗笑南，陆晴.一种背景模型与三帧差分相结合进行视频背景检测的方法:中国，CN101883209A［P］.2010-11-10.

［6］HARITAOGLU I，HARWOOD D，DAVIS L S.W4:real-time surveillance of people and their activities［J］.Pattern Analysis and Machine Intelligence，2000，22(8):809-830.

［7］ZHAO Lixing，TONG Qikai，WANG Hongrui.Study on moving-objectdetection arithmetic based on W4 theory［C］//Proc.2011 2nd International Conference on AIMSEC.［S.l.］:IEEE Press，2011:4387-4390.

［8］TOYAMA K，KRUMM J，BRUMITT B，et al.Wallflower:principles and practice of background maintenance［C］//Proc.Internal Conference of Computer Vision(ICCV).Kerkyra，Greece:IEEE Press，1999:255-261.

［9］ELGAMMAL A，HARWOOD D，DAVIS L.Non-parametric model for background subtraction［C］//Proc.the 6th European Conference on Computer Vision.Dublin，Ireland:［s.n.］，2000:751-767.

［10］LAMBERT C G，HARRINGTON S E，HARVEY C R，et al.Efficient on-line nonparametric kernel density estimation［J］.Algorithmica，1999，25(1):37-57.

［11］李晓飞，梅中辉.一种基于直方图统计与多帧平均混合的背景提取算法［J］.南京邮电大学学报:自然科学版，2008，28(6):74-77.

［12］MCFARLANE N J B，SCHOELD C P.Segmentation and tracking of piglets in image［J］.Machine Vision and Applications，1995，8(3):187-193.

［13］WREN C R，AZARBAYEJANI A，DARRELL T，et al.Pfinder:real-Time Tracking of the Human Body［J］.IEEE Trans.Pattern Analysis and Machine Intelligence，1997，19(7):780-785.

［14］TAN Jianhui.A new algorithm of infrared gait detection based on immune ant colony［C］//Proc.2011 International Conference on EMEIT.Harbin，China:IEEE Press，2011，9:4875-4878.

［15］常晓夫，张文生，董维山.基于多种类视觉特征的混合高斯背景模型［J］.中国图象图形学报，2011，16(5):829-834.

［16］WAN Qin，WANG Yaonan.Background subtraction based on adaptive non-parametric model［C］//Proc.7th World Congress on Intelligent Control and Automation.Chongqing，China:IEEE Press，2008:5960-5965.

［17］KIM K，CHALIDABHONGSE T H，HARWOOD D，et al.Real-time foreground–background segmentation using codebook model［J］.Special Issue on Video Object Processing，2005，11(3):172-185.

［18］罗万福，艾斯卡尔.视频监控系统中的背景提取算法［J］.电视技术，2006，30(12):79-91.