基于张量核范数与3D全变分的背景减除
2020-09-29陈利霞王学文
陈利霞,班 颖,王学文
(1.桂林电子科技大学数学与计算科学学院,广西桂林 541004;2.广西高校数据分析与计算重点实验室(桂林电子科技大学),广西桂林 541004;3.桂林电子科技大学计算机与信息安全学院,广西桂林 541004)
0 引言
伴随网络技术和数字视频技术的飞速发展,监控技术日益面向智能化、网络化方向发展,这使得对视频背景减除技术的要求越来越高。背景减除,即从视频中准确检测出运动目标而将不关心的背景完全或部分除去[1],是很多计算机视觉问题中的关键技术。
近年来,低秩稀疏分解在背景减除领域应用广泛,典型的算法是鲁棒主成分分析(Robust Principal Component Analysis,RPCA)[2-3]。该模型将视频矩阵化并分解为背景和前景,其中低秩背景用核范数约束,稀疏前景用L1范数约束。进一步,为解决动态背景和噪声干扰等问题,陈利霞等[4]分别用Schatten-p 范数和3D 全变分(3D Total Variation,3D-TV)代替核范数和L1范数来约束背景和前景,具体模型如下[4]:
其中:E是噪声项,λ为平衡前景与背景的权衡参数。
上述矩阵形式的RPCA 存在一个缺点:只能处理二维数据。而实际数据在本质上通常是高维的,所以要使用RPCA必须先将高维数据矩阵化,但矩阵化会破坏其固有的空间结构,导致一些信息丢失,性能下降;另外,视频矩阵化后得到的结果由于帧数多而变得庞大,故占用较大的内存空间,计算复杂度变大。因此,上述的RPCA 模型进一步扩展到高维空间。Goldfarb 等[5]为减少高维信息的丢失,提出了高阶鲁棒主成分分析模型(High-order RPCA,HoRPCA)。Xie 等[6]提出了用张量稀疏检测代替核范数建模背景——KBR-RPCA(Kronecker-Basis-Representation based RPCA),将每个维度的秩分配合适的权值,考虑了张量低秩的实际物理意义。Liu 等[7]基于核心张量的低秩分量提出了一种新的张量核范数对背景约束,提高了前景背景分离的准确性。为了更加精确地逼近低秩背景,Lu 等[8]提出了一种改进的张量核范数对背景建模——TRPCA-TNN(Tensor RPCA with Tensor Nuclear Norm),旨在加强背景的低秩性。上述方法对于前景大多采用L1范数约束,而L1范数独立地对待每个像素点,没有考虑前景目标在空间中的连续性以及时间上的持续性。
而对于前景约束,Yuan 等[9]用L2,1范数代替L1范数作为前景的稀疏性约束,实现了变量组水平的稀疏性。Xu等[10]进一步用L1,1,2范数代替L2,1范数,加强了前景的管稀疏性和时空连续性。Cao 等[11]提出使用全变分对前景建模,提高了视频前景的时空连续性,抑制了动态背景造成的干扰。上述方法在一定程度上提高了对前景的约束,但对于背景的约束大部分采用张量核范数,其近似程度有待进一步提高。
文献[4]等以矩阵为基础的RPCA 模型导致了高维数据的结构破坏和信息丢失,因此本文以张量为工具提出了一种改进的基于张量鲁棒主成分分析(Tensor RPCA,TRPCA)的背景减除模型。该模型把视频当作三维张量来整体处理,保留了不同视频帧之间的空间结构和信息,且以张量的形式进行存储节约了内存空间,降低了计算复杂度,有效解决了文献[4]耗时长的问题。矩阵Schatten-p 范数[4]约束的背景同样由于信息的丢失而导致对实际视频背景的近似程度不够,因此本文利用改进的张量形式的核范数对背景成分进行低秩约束,考虑了视频背景的时空连续性,且更加接近实际高维数据的秩函数(加强了视频背景的低秩性),从而提高了前景背景分离的效果。同时,为解决L1范数约束前景不够充分的问题,利用3D-TV正则化对前景成分进行稀疏性约束,加强了视频前景的时空连续性,且对视频中的不连续变化有较强的抑制作用,因此有效地抑制了动态背景对前景提取的干扰作用,使得前景背景分离更加准确。
1 基于张量核范数与3D-TV的背景减除
现有的模型在平稳背景下能实现较好的背景减除效果,但大多没有考虑前景目标的时空连续性和局部结构,且在动态背景中提取目标的效果较差,基于此,提出了一种结合改进的张量核范数与3D-TV的TRPCA模型,下面详细介绍。
1.1 前景建模
视频前景的运动轨迹在第三维(时间)上通常是光滑的,故前景目标在时空域上具有光滑性和连续性的特征,而动态背景中微小物体的显著变化呈现不连续的特性[4]。在数学上,全变分具有平滑信号的作用,对信号中的不连续变化具有较强的抑制作用[11]。因此,3D-TV 能有效地抑制由动态背景造成的噪声干扰,其定义[4]如下:
从上述定义可以看出,沿水平和垂直方向的差分算子表明3D-TV 考虑了前景目标在空间上的连续性;同时沿时间方向的差分算子表明其考虑了前景目标在时间上的持续性。
为计算方便[11],引入沿水平、垂直和时间方向的向量差分算子:
1.2 背景建模
在TRPCA 模型中,通常采用张量核范数代替秩函数来约束背景。但是一般的张量核范数是对张量进行矩阵化,然后用矩阵的奇异值来定义张量核范数,破坏了视频的空间结构,对秩函数的近似程度不够。基于t-product,Lu 等[8]提出了一种改进的张量核范数,定义如下:
1.3 新模型的建立
基于以上讨论,本文提出一种新的基于张量核范数和3D-TV的背景减除模型:
其中λ为平衡前景成分与背景成分的权衡参数。上述模型以TRPCA 为基础,用改进的张量核范数加强背景的低秩性,以达到更加接近实际视频背景的目的;用3D-TV来平滑信号,有效抑制动态背景的干扰作用。
2 模型的求解
为求解式(5),先引入辅助变量g,则上述模型变为:
3 实验结果及分析
3.1 实验数据和指标选取
为了验证所提算法的效果,本文从CD.net数据库[15]选取8 组大小为128×128×128 的视频序列SnowFall 和Skating(复杂天气)、Traffic 和Boulevard(相机抖动)、CopyMachine 和Backdoor(阴影)、PETS2006和Highway(基础集),如图1所示,并在相同的实验环境下与HoRPCA[5]、IALM-RPCA(RPCA via Inexact Augmented Lagrange Multipliers)[3]、TRPCA-TNN[8]、KBR-RPCA[6]和文献[4]算法从主观和客观两方面进行比较。本文实验的运行环境为Matlab 2014a,Inter Core i5-6500 处理器,8 GB的内存,Windows 10 64位操作系统。
图1 实验视频集Fig.1 Experimental video set
为了在客观上准确地评估本文算法的性能,采用查全率(recall)、查准率(precision)和综合评判指标F-measure值(F值)来评价前景背景分离的效果,其定义[16]分别为:
其中:tp表示检测出正确的前景像素点;fp表示误检为前景的背景像素点;fn表示误检为背景的前景像素点。其中recall、precision和F值均在0~1,且其值越大,得到的结果就越精确。
3.2 主观分析
图2前4行给出了复杂天气和相机抖动的视觉效果,从中看出,对于复杂天气和相机抖动,HoRPCA 和TRPCA-TNN 提取前景的效果较差;IALM-RPCA 对Skating 和Boulevard 的提取效果较好,但对SnowFall 和Traffic 目标的移动对前景提取产生较大的干扰,对前景的误判较大;KBR-RPCA 由于飘落的雪花和白雪的覆盖容易将把白色背景部分误判为前景,且出现较大的空洞现象;对SnowFall 和Traffic 文献[4]算法同样由于目标的移动和复杂天气而对前景提取产生较大的误判,出现较大的运动轨迹;本文算法对前景目标提取的效果较好,对前景的误判较小,有效抑制动态背景的干扰作用,虽然对Skating的前景提取效果较差,且出现少量的背景部分,但从表1知本文的F值要远高于其他算法。
图2 不同算法下的视频集视觉效果对比Fig.2 Visual effect comparison of experimental video set by different algorithms
图2 后4 行给出了阴影和基础集的视觉效果。从图2 看出,对于阴影和基础集,HoRPCA 和KBR-RPCA 提取前景的效果较差,且易将背景误判为前景;TRPCA-TNN 提取的目标存在着较大的空洞现象;IALM-RPCA、文献[4]算法和本文算法提取前景的效果较好,且空洞现象和对前景的误判较少,其中Backdoor和Highway,文献[4]算法提取前景的效果优于其他2种算法,但在客观评判指标上本文算法有较高的F值。
综上所述,本文算法在前景背景分离中提取前景的效果较好,对前景的误判和目标中的空洞现象较少,且有效抑制了动态背景和目标移动对前景提取的干扰。
3.3 客观分析
将本文算法与其他5 种算法进行对比,其评判指标recall、precision和F值见表1。从表1 可以看出,本文算法的recall值基本上高于其他5 种算法,基本上处于最优的情况。因此,本文算法在前景背景分离中有较高的查准率,对运动目标有较为准确的提取效果。表1中文献[4]算法的precision值在一些视频上比本文算法占有一定的优势,虽然HoRPCA、IALM-RPCA、TRPCA-TNN 和KBR-RPCA 算法的precision值有比本文算法高的情况,但由于recall只能反映丢失运动目标内部信息的相关性,precision只能反映丢失目标外部信息的相关性,且两者指标值有时会出现矛盾的情况,因此采用它们的调和平均值F值来综合判断提取效果更准确。本文算法的F值均处于最优或次优的情况,因此本文算法在提取前景上有较高的准确率,且对前景的误判较小。另外,表1 给出了5 种对比算法与本文算法的运行耗时,看出本文算法在运行耗时方面占有一定的优势,虽然运行耗时高于IALM-RPCA 和TRPCA-TNN,但在客观评判指标F值上均优于上述两种算法(表1)。并且不同于文献[4],本文算法把视频当作张量来整体处理,故节约了内存,运行耗时上优于文献[4]。
表1 不同算法下的客观评判指标对比Tab.1 Comparison of objective evaluation indicators of different algorithms
4 结语
以TRPCA 模型为基础,本文首先利用改进的张量核范数代替秩函数约束背景的低秩性,加强了视频背景在时空上的连续性;再利用3D-TV 代替L1范数,有效抑制了动态背景的噪声干扰。实验结果表明,与经典算法以及目前最新算法相比,本文算法提取的前景目标空洞现象较小,有效抑制了动态背景和目标移动对前景提取造成的干扰作用,减少了对前景的误判。