基于压缩感知和字典学习的背景差分法

2012-07-05郭厚焜

华东交通大学学报 2012年1期

郭厚焜，吴峰，黄萍

（华东交通大学信息工程学院，江西南昌，330013）

智能视频监控技术已被广泛应用到国民经济的各领域，在军事、工业、智能人机交互、智能交通等方面具有重要的意义。运动目标的检测是智能视频监控系统中一个重要组成部分，如何实现对运动目标的检测，是一个需要关注和研究的重要问题。

目前运动目标检测通常采用的方法有光流场法[1-2]、帧间差分法[3]和背景差分法[4]。光流场法运算复杂，不便实时实现。帧间差分法数据计算量大，并且帧与帧之间运动目标存在相对运动，会造成被检测处的运动目标位置与大小不准确。背景差分法运算简单，容易实现，但是容易受树叶的摆动、水面的波动和外界光线的突变等自然环境的影响，这就要求不断自适应更新背景模型。为此，各国学者已经提出了各种各样的新算法来力图解决现有算法出现的问题。如文献[5-6]提出的背景建模算法，以每一帧图像为一整体，发掘变化区域的内部结构特征，缺点在于不能较好地排除伪前景的干扰。文献[7-8]提出的数据字典学习算法，当输入的背景图像中还有运动目标时，不能很好地建立背景模型。

针对这一问题，在背景差分法的基础上，使用压缩感知原理，用一组数据字典线性稀疏表示背景区域[9-10]，建立背景模型。根据分割算法，排除伪前景的干扰，得到正确的运动目标区域。最后，采用数据字典更新算法，建立实时更新的背景模型。

1 传统背景差分法

背景差分法由于其算法实现简单被广泛应用，一般适合在静态场景中（摄像头固定）。背景差分法的基本算法是利用当前帧灰度值与背景帧灰度值的差分值的差异来实现运动目标检测。具体步骤如下：

1）读取一段视频序列，根据统计平均法获得背景模型B(x，y)。

2）利用当前帧I(x，y)与背景模型B(x，y)做差分运算得到F，然后利用Ostu局部二值化算法对得到的绝对差分图像进行二值化，公式如下

式中：F为前景图像的表现形式；T为阀值。

3）采用数学形态学开、闭运算，排除背景区域抖动与噪声的影响，平滑运动目标区域的轮廓，去掉图像内部小孔、微小噪声及小面积非运动目标部分。

4）背景更新，返回第2步。

2 基于压缩感知的背景差分法

该文提出了一种改进的背景差分法，用一组通过学习得到的基向量对背景模型进行特征表示，利用前景图像、背景图像的稀疏性和数据字典的学习，可以准确检测出运动目标，并且自动排除前景的干扰。该方法主要内容有背景模型的建立、前景检测、运动目标的确定和背景模型的更新。算法过程如下：首先输入一段时间的视频流作为训练样本，通过数据字典学习得到背景的特征表示矩阵D，然后根据前景与背景的稀疏性得到背景模型与前景区域，最后采用分割算法准确检测出前景中的运动目标。算法流程图见图1。

图1 本文算法流程图Fig.1 Algorithm flow chart

2.1 基本原理

对于一幅图像X，可以看成由背景区域Xb和前景区域Xf组成

式中：Xb，Xf和X都是列向量。

读入一个有C张图像的视频序列，假设每一张图像的背景区域Xb可由一组基向量Di特征化表示，就说背景区域Xb中第i张图像的线性表达式为Xb=Diαi，其中αi是系数矩阵。定义一个新矩阵D为图像序列的基向量集合D=(D1，D2，…，Dc)。因此，可以把Xb写成

由上可知，Xb和Xf都是稀疏的，因此，可以把背景差分问题分解成一个数学问题：已知某一帧图像X，求其背景稀疏编码Xb=Dα和前景稀疏矩阵Xf=X-Dα：

油田档案信息化管理工作的开展，离不开一支高素质的管理队伍。油田企业的档案管理部门，既要做好人才引进工作，例如适当提高招聘门槛，要求应聘人员兼具理论知识和实践经验，从而在入职后能够尽快投入到档案信息化管理工作中。此外，又要建立起人才培养机制，对在职的档案管理人员，定期进行专业培训，特别是要掌握信息化数据运行管理技术，更好地为本职工作而服务。新形势下，油田企业对档案管理提出了更高要求，一支高素质的管理队伍，可以切实为档案管理效率的提升以及档案资料自身的安全提供人力支持。

式中：E为单位矩阵。选用l1范数代替l0范数形式的好处[14]：在背景差分法中的数据元素个数要远远小于背景图像的数据元素个数，因此，在实际程序运行过程中，计算量也会大大降低。

线性方程组

是由多个参数组成，如果直接求解α，则无法解答此问题。但式（7）满足文献[11]提出的情况，所以有最优解。因此，能从某一帧图像X中分割出背景图像Xb和前景图像Xf。

2.2 图像分割

前景图像的像素值是当前帧与背景图像的差值，理想情况下前景区域的像素值非零，其余值均为零。但是在现实中，非零值的产生不止因为运动目标的出现，还有背景的变化、背景模型的误差和噪声等的影响。这时就要对分割出来的Xf进行后处理，从候选目标中提取出运动目标。算法的关键在于，由于运动目标区域不仅稀疏而且还具有一定大小的连通区域，这就意味着，运动目标区域的像素是空间相关的。背景的变化和背景模型的误差相对而言是分散的和无结构联系的。受文献[7-8]的启发，该文提出了一种用于目标分割的算法，它判断前景区域Xf属于运动目标的可能性，不但考虑了运动目标区域的密集度，还考虑了其邻域区域的密集度

式中：S(i)为运动目标区域的可能值；N(i)为某像素点的邻域。

2.3 通过数据字典学习建立背景模型

为了使数据字典学习算法既能分割运动目标，同时又能建立正确的背景模型，找到一个D的最优解并满足下列条件：它能以最小的误差代表所有训练的样本，同时产生一个最稀疏的特征矩阵。

在实际应用中，被用来背景建模的图像可能存在以下情况：受到硬件的高斯噪声干扰，伪前景被误判为前景，自然环境中光强的变化和运动目标的渐变与突变。这些都直接或间接的影响背景模型的准确建立。通过式（9），可以有效解决上述现象。

式中：x是训练样本的列向量集合；A是系数矩阵；是矩阵A的l1范数，在这里求对其输入值的绝对值求和。由于式（10）含有两个未知数，不能直接求解，但依据文献[9-12]中提出的方法，反复交替优化D和A，可以求解D和A。

2.4 背景的更新

当建立数据字典后，A可以可视为常量，忽略式（10）的第二项进行对D的自动更新

式（11）中D中元素是线性无关的，因此可把D写成独立形式

式中：dk是D的第k个元素；αk是A的第k行元素（数据矩阵和稀疏矩阵式对应的元素）。

在式（12）中，提取x的列对应的系数值αk在一个小门限值之上。这是因为αk的元素值只是接近零而不是真正等于零，门限操作只保留那些相关的元素而不必处理所有像素，这样大大加速了dk的运算速度。

把式（12）进一步分解成一系列的l1范式问题（13），可以通过迭代重加权最小二乘思想得到一个closed-form的解决方案[13]。通过实验发现，如果同时使用式（14），这样迭代的次数会更少，同时还能更新αk。总之，反复使用式（13）与（14）直到dk收敛。

3 实验结果

该文实验所采用的计算机硬件为CPU C2Q 2.5 GHz，内存8 G，在Matlab 2010b环境下，对算法进行了具体实现，验证了其可行性。

如图2（a）～（c）所示，读入一个视频序列前30帧图像作为训练样本。传统的背景差分法的背景是通过一段时间内的图像均值来获得的，由于图像中的前景像素值和背景像素值相差较大，得到的背景在这种情况下将有误差，会产生图2（d）所示的错误背景。图2（e）是采用该文算法得到的背景模型，排除了伪前景和运动目标对背景的干扰。如果用传统的背景差分法进行处理，由于该方法是基于颜色的亮度特性，即RGB 3个分量，它对亮度的变化很敏感。这里，运动目标图像与背景图像时间相差2小时，汽车表面金属反射光强变化明显，反映在图像上为汽车位置的像素灰度值发生突变，经过传统的背景差分法，静止的汽车会被检测出来，误认为是运动目标，如图2（f）所示。图2（g）所示本文提出的背景差分法，有效解决了亮度变化问题，并且排除了伪前景的干扰，提高了目标检测的准确性。

图2 数据字典的学习即更新Fig.2 Update of data dictionary

4 结语

提出了一种基于稀疏表示和字典学习的背景差分法，该方法利用字典学习来建立背景模型，通过优化l1正则化问题来分割前景区域。实验结果表明，与现有背景差分法相比，该算法能较好处理背景的突变和高频变化，有效消除了数据在学习阶段的离群值，减少噪声干扰，建立正确的背景模型。

[1]HORN B K P，SCHUNCK B G.Determining optical flow[J].Artificial Intelligence，1981，17（1）：185-203.

[2]ALI S，SHAH M.Human action recognition in videos using kinematic features and multiple instance learning[J].IEEE Transactions on PatternAnalysis and Machine Intelligence，2010，32（2）：288-303.

[3]HUI K C，SIU W C.Extended analysis of motion-compensated frame difference for block-based motion prediction error[J].IEEE Transactions on Imaging Processing，2007，16（5）：1232-1245.

[4]TSAI D M，LAI S C.Independent component analysis-based background subtraction for indoor surveillance[J].IEEE Transactions on Imaging Processing，2009，18（1）：158-167.

[5]OLIVER N M，ROSARIO B，PENTLAND A P.A bayesian computer vision system for modeling human interactions[J].IEEE Transactions on PatternAnalysis and Machine Intelligence，2000，22（8）：831-843.

[6]MONNET A，MITTALA，PARAGIOS N.Scene modeling and change detection in dynamic scenes：a subspace approach[J].Computer Vision and Image Understanding，2009，113（1）：63-79.

[7]AHARON M，ELAD M，BRUCKSTEIN A.K-SVD：an algorithm for designing over complete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing，2006，54（11）：4311-4322.

[8]MAIRAL J，BACH F，PONCE J，et al.Online learning for matrix factorization and sparse coding[J].Journal of Machine Learning Research，2010，11（3）：19-60.

[9]JI S H，YA X，CARIN L.Bayesian compressive sensing[J].IEEE Transactions on Signal Processing，2008，56（6）：2346-2356.

[10]DO T T，GAN L，NGUYEN N，et al.Fast and efficient compressive sensing using structurally random matrices[J].IEEE Transactions on Signal Processing，2012，60（1）：139-154.

[11]CANDES E J，TAO T.Decoding by linear programming[J].IEEE Transactions on Information Theory，2005，51（12）：4203-4215.

[12]RUBINSTEIN R，BRUCKSTEIN A M，ELAD M.Dictionaries for sparse representation modeling[J].Proceedings of the IEEE，2010，98（6）：1045-1057.

[13]CABRIEL K R，ZAMIR S.Lower rank approximation of matrices by least squares with any choices of weights[J].Technometrics，1979，21（4）：489-498.

[14]WRIGHT J，YANG A Y，GANESH A，et al.Robust face recognition via sparse representation[J].IEEE Transactions on PatternAnalysis and Machine Intelligence，2009，31（2）：210-227.