基于拉普拉斯混合尺度模型的目标检测算法

2021-04-01邵泽瑞

现代计算机 2021年5期

邵泽瑞

（四川大学计算机学院，成都610065）

0 引言

运动目标检测对于许多计算机视觉应用至关重要，例如基于视频的压缩编码、目标行为试别和监控对象跟踪。因此，在过去几十年里，许多运动目标检测方法被先后被提出来。文献[1]通过简单的统计学方法，例如平均值和直方图模型，来直接区分前景与背景的像素，文献[2]通过使用高斯混合模型（GMM）对像素值进行建模进而达到对视频帧像素进行分类的目的，但是这些方法并没有充分使用到视频帧间的时间相似性和前景目标的空间相似性，当处理具有相机抖动和动态背景等复杂视频数据时，这些算法的性能将会明显下降。

近年来，通过使用背景低秩性和前景稀疏性的先验，基于鲁棒主成分分析（RPCA）的方法在运动目标检测任务中取得了显著的成功。例如，文献[3]提出的PCP算法使用l1范式对稀疏分量进行约束，使用对视频帧数据进行批处理（Batch）的方式提取前景部分；文献[4]提出了ORPCA算法用于提取视频帧的前景部分，该算法是PCP算法的在线（Online）处理方式，我们一般称PCP算法和ORPCA算法为传统的RPCA方法；文献[5]提出的DECOLOR算法使用马尔可夫随机场（MRF）对前景部分进行稀疏约束，并使用l0范式对稀疏分量进行正则化约束；文献[6]提出的OMoGMF+TV算法，在不使用固定的前景分布概率的情况下，使用混合高斯分布（MoG）对前景部分进行建模。

虽然传统的RPCA方法在运动目标检测领域取得了巨大成果，但在实践中它们的前景提取性能存在着一个主要的限制：由于实际应用中的场景过于复杂，前景部分不一定是真正稀疏的，因而l1范式所规定的稀疏性假设对于复杂的前景而言往往过于严格，进而影响到RPCA方法在提取前景时的性能。文献[3,6,8-11,20]提出了相应的改进算法，在本文中我们提出使用拉普拉斯尺度混合（LSM）模型取代l1范式对前景部分进行约束，进而提高对前景物体的提取性能。如图1中的前景提取结果所示，我们分别使用PCP算法、ORPCA算法和本文所提出的LSM_RPCA算法对测试视频帧序列进行前景提取，图中的实验结果表明，与LSM模型相比，基于l1范式的前景建模方法无法有效地提取出完整的运动物体，从而进一步说明l1范式对于前景的稀疏假设过于严格。

第一行结果选自I2R数据集WaterSurface序列中的第1541帧，第二行结果选自Wallflower数据集WavingTrees序列中的第1248帧。

1 相关研究

1.1 在线的鲁棒主成分分析（Online RPCA）

文献[4]中提出了在线的鲁棒主成分分析（ORPCA）算法，该算法使用l1范式对前景部分进行稀疏约束。ORPCA的目标函数如公式（1）所示：

其中，D=[d1,d2,…,dT]∈Rp×T是由T个视频帧所构成的数据矩阵，dt∈Rp表示第t帧，p=m×n表示视频帧的维度。前景部分与背景部分分别由矩阵L=UVT=[l1,l2,…,lT]∈Rp×T和矩阵 S=[s1,s2,…sT]∈Rp×T表示。背景部分被假设为低秩的，矩阵U∈Rp×r和矩阵V∈RT×r分别被用来表示背景部分的基和系数，其中r≪p,T，这两个矩阵的乘积UVT也就是低秩部分L，参数λ和η分别用来平衡稀疏与低秩部分。

1.2 拉普拉斯尺度混合（LSM）模型

最近，拉普拉斯尺度混合（LSM）模型已经被广泛地应用于稀疏信号的建模问题当中，文献[13]提出使用LSM模型为图像编码和压缩感知恢复问题建立稀疏编码系数之间的关系；LSM模型被文献[14]用来去除图像的混合噪声；文献[15]提出使用LSM模型对多帧图像和视频进行去噪处理。在实际应用情况中，前景部分的先验分布P(S)是很难通过估计得出的。

在LSM模型中，每个前景像素被表述为si,t=bi,t·αi,t，其中αi,t是随机拉普拉斯变量，bi,t是正的隐藏乘数值。si,t是st的第i个像素，它的值被一个具有bi,t标准差的零均值拉普拉斯分布建模，即该拉普拉斯分布可以被表述为：P( si,t|bi,t)=1 2bi,texp(-| si,t| bi,t)，分布P(bi,t)被用来对参数bi,t建模，在本文中我们所使用文献[16]中所使用到的分布：P(bi,t)=1 bi,t，此时si,t的LSM模型可以被表示为P(si,t)=∫0∞P(si,t|bi,t)P(bi,t)dbi,t。因此，使用最大后验估计（MAP）从数据矩阵D中提取背景部分L和前景部分S的目标函数如公式（2）所示：

其中，P( D|L,S)具有σ2w方差的零均值高斯似然项，B是乘数值bi,t所构成的矩阵，L的概率分布由P(L)∝exp(-η‖ L‖*)表示。通过假设bi,t和si,t是相互独立的，且S中的每个元素是独立同分布的，公式（2）可以被重写为公式（3）：

其中，S=B⊙A表示稀疏部分，A是由拉普拉斯变量αi,t所组成的矩阵，⊙表示两个矩阵之间的点乘运算。

1.3 基于LSM的在线运动目标检测算法

通过1.2与1.3部分的推导过程可以得出基于LSM的在线运动目标检测算法，该算法我们称之为LSM_RPCA算法，结合公式（1）和公式（3）可得到在线处理的基于LSM的运动目标检测算法的目标函数，如公式（4）所示：

2 算法的优化

我们提出了一种对公式（4）进行高效迭代求解的优化算法，该算法可以逐帧提取视频帧中的运动物体，并根据视频帧信息的实时变化完成对背景部分的更新。优化公式（4）可以通过求解如下几个子问题解决。

2.1 求解V子问题

对于每一帧，当给定st和U的时候，优化V的子问题可以被描述为公式（5）：

公式（5）的封闭解决为：

其中，I表示r×r的单位矩阵。

2.2 求解S子问题

对于每一帧，当给定vt和U的时候，由于st=bt°αt，因此优化S的子问题可以再被分成以下两部分的优化问题。

（1）求解bt子问题

对于每一帧，当给定αt时，bt的优化问题可以被表述为公式（7）：进而，每个bi,t值可以通过公式（8）进行独立求解：

虽然公式（8）的右边部分的非凸的，但是其封闭解可以通过对其求导获得，因而公式（8）的解可由下式获得：

其中，ai,t=αi,t2，hi,t=-2(di,t-li,t)αi,t，q=4σ2w，Ti,t=min{f(0),f(b*)}。b*是公式（8）右边部分求导的驻点值，被定义为：

2.3 求解U子问题

其中，C0=0,F0=0。在本文中，采用文献[7]中提出的双边随机投影法初始化U，如公式（16）所示：

其中，R1∈Rn×r和R2∈Rm×r代表两个双边高斯随机投影矩阵，A1=AR1,A2=ATR2和A∈Rm×n表示初始化背景的矩阵。综上所述，本文提出的基于LSM的在线运动目标检测方法LSM_RPCA的算法流程总结在算法1中。

3 实验

为了证明LSM_RPCA算法的有效性，我们将其与9个运动目标检测的经典算法进行对比，这9个算法包括：文献[2]中提出的GMM算法，文献[3]中提出的PCP算法，文献[5]中提出的DECOLOR算法，文献[6]提出的OMoGMF+TV算法，文献[8]中提出的RegL1算法，文献[9]中提出的TVRPCA算法，文献[10]中提出的GRASTA算法，文献[11]中提出的incPCP算法和文献[12]中提出的SC-SOBS算法。

运动目标检测性能的评价指标我们选用F-measure值，F-measure的定义如公式（17）所示：

其中，Precision=TP/(TP+FP)，Recall=TP/(TP+FN)，TP值（True Positives）表示正确分类为前景像素的像素数量，FP值（False Positives）表示被错误分类为前景像素的像素数量，FN值（False Negatives）表示错误分类为背景像素的像素数量。

测试数据集我们选用3个较为经典的具有长视频帧的数据集，它们分别是在文献[17]中提出的CDnet2014数据集，在文献[18]中提出的I2R数据集和在文献[19]中提出的Wallflower数据集，对于CDnet2014数据集，我们选用其中的8个种类的子数据集进行了测试，它们分别是：“Baseline”，“Dynamic Background”，“Camera Jitter”，“Shadow”，“Thermal”，“Intermittent Object Motion”，“Bad Weather”和“Low Framerate”。

表1和表2展示了不同对比算法在3个数据集上的前景检测性能，表中的数据均来自于参考文献中提供的原始数据，N/A表示在参考文献中没有提供相关数据。通过表1中的数据不难看出，LSM_RPCA算法提取前景的平均性能是最好的，只有在“Dynamic Background”子数据集上的性能比OMoGMF+TV算法低，在“Shadow”数据集上的性能低于DECOLOR算法，其他用于测试的子数据集上的评价性能均由于其他对比算法，LSM_RPCA算法的性能比排在第二位的OMoGMF+TV算法高出0.05，比排在第三位的DECOLOR算法高出0.08。通过表2中的数据可以看出，LSM_RPCA算法在I2R和Wallflower数据集上的性能也是最好的，LSM_RPCA算法在I2R数据集上的性能比排在第二位的OMoGMF+TV算法高出0.01，比排在第三位的DECOLOR算法高出0.04，LSM_RPCA算法在Wallflower数据集上的性能比排在第二位的OMoGMF+TV算法高出0.02，比排在第三位的TVRPCA算法高出0.23。

图2和图3中展示了部分前景提取的效果，对于图中所展示的视觉效果不难看出，LSM_RPCA算法的前景检测效果是最接近数据集原始标签结果的。

图2不同算法在CDnet2014数据集上的视觉效果

视频帧从上到下依次来自于Baseline”，“Dynamic Background”，“Camera Jitter”，“Shadow”，“Thermal”，“Intermittent Object Motion”，“Bad Weather”和“Low Framerate”子数据集。

视频帧从上到下依次来自于“Campus”，“Curtain”，“Fountain”和“WavingTrees”视频帧序列。

图3不同算法在I2R和Wallflower数据集上的视觉效果

表2 不同对比算法在I2R和Wallflower数据集上的F-measure值

4 结语

表1 不同对比算法在CDnet2014数据集上的F-measure值

目前，基于RPCA的运动目标检测算法已经取得了巨大成功，但是由于传统RPCA使用l1范式对前景进行稀疏约束，导致RPCA的运动物体检测性能受到很大的限制。本文结合LSM理论，提出了在线的基于RPCA的运动目标检测算法LSM_RPCA，该算法使用LSM模型对前景部分进行建模，极大提升了运动物体检测的性能。大量的实验结果证明，LSM_RPCA算法在运动物体检测方面具有很好的效果。