基于边缘特征和自适应融合的视频显著性检测

2019-09-10郭迎春李卓

河北工业大学学报 2019年1期

郭迎春李卓

摘要针对目前大多数视频显著性检测中背景复杂以及显著目标边缘模糊、显著目标内部存在空洞不能一致高亮的问题，提出了一种基于动静态边缘和自适应融合的视频显著性检测算法。该算法利用静态边缘和运动边缘信息融合后初步定位显著目标，并对其进行一系列平滑操作获得目标的精确边缘然后计算梯度获得初始显著图。然后，考虑前一帧对当前帧的有效性约束，计算相邻两帧的颜色直方图进而得到两帧的相似度，由相似度决定两帧在自适应融合时各自的比重，得到当前帧的最终显著图。在公开视频显著性数据集ViSal上算法F值接近0.8，MAE接近0.06，表明该方法性能优于目前主流算法，对复杂背景有较强鲁棒性，同时能够快速、清晰而准确地提取出视频序列中的显著性目标。

关键词视频显著性；边缘特征；自适应融合；相似度；复杂背景

中图分类号 TP391.41 文献标志码 A

0 引言

当今社会信息技术迅猛发展，图像和视频是人们收集、传递各种信息的主要载体，人们在享受信息时代带来便利的同时更加依赖计算机对爆炸增长的信息数据进行处理，然而计算机处理数据的速度远远达不到信息增长的速度。如何快速有效地从海量数据库中筛选“重要的”，“吸引注意力的”信息是当下图像处理中亟待解决的问题，从1幅图像中筛选人类视觉系统所感兴趣的信息更多地需要借助于图像的显著性. 目前显著目标检测在多个领域已经获得了广泛的应用，如图像分割[1]、目标跟踪[2]、目标分类[3]等。

经过近20年的发展，显著性检测模型的构造方法多种多样，显著目标检测最初是由静态图像的显著性研究发展开始的，Itti等[4]于1998年首次提出了基于生物学特征的IT模型，认为像素与背景的对比是吸引人注意的重要因素，综合考虑颜色、亮度、方向等多种特征得到显著图，但Itti模型只考虑了图像的局部特征，没有从全局特征来检测图像显著特性，导致只在轮廓附近产生高显著值而没有均匀突出整个目标。而基于纯计算的显著性检测方法中，大多都利用对比度来计算显著值。Cheng等[5]提出了基于颜色直方图的Histogram Based Contrast（HC）算法和基于全局对比度的Region Based Contrast（RC）算法，HC算法的显著图具有精细的细节，RC算法生成空间增强的高质量显著图，但这2种算法计算效率相对较低，不适合应用于显著运动目标的检测。近几年基于背景先验的算法[6]发展迅速，背景优先思想假设图像某部分作为背景，一般取图像边界，考虑到图像中除了背景就是前景，将找到的背景区域去除，得到的便是前景区域，即显著性区域。考虑到人眼的视觉特性，人在观看景物或者视频时仅仅对一些运动目标更感兴趣，所以視频显著性检测正受到越来越多的关注[7]。但是视频显著性检测存在一些问题，如运动特征常常只简单地作为1个特征加入到图像显著性检测模型中，如Guo等[8]在Spectral Residual Approach（SR）算法[9]基础上舍弃幅度谱，只输入图像的相位谱，再加入运动特征，将图像扩展为四元，通过四元傅里叶变换和逆变换获得显著图，但存在同一区域的显著值在连续的帧内可能变化巨大的问题。或者分别计算静态显著图和运动显著图然后将其进行简单地线性融合，忽略前景/背景区域的显著值不应该沿时间轴急剧变化，场景转换除外[10]。如Kim等[11]通过将纹理对比结合到多尺度框架中，计算空间和时间显著图，再进行加权融合，融合的结果很大程度取决于加权系数的选取，并且目标内部存在空洞。Zhou等[12]利用多尺度时空显著性来实现输入高帧率（high-frame-rate）的视频，输出低帧率（low-frame-rate）的视频。在每个尺度下采用流媒体分割，在区域内使用多种低层级特征（颜色、前景、光流等）进行基于区域的对比度分析，设置中心位置、速度等局部优先，最后将对比度与局部优先融合得到最终的显著图，但只是单帧处理，背景噪声严重。随着视频显著性检测算法越来越成熟，显著目标检测的准确率有很大提升，但仍存在背景噪声、显著目标不均匀等问题。为了得到更准确地显著目标边缘，本文提出了增强的时空边缘检测，对静态和运动边缘进行平滑细化，初步确定显著目标。为了在能在复杂背景下精确一致突出显著性目标，本文算法计算相邻两帧的相似性，其决定了前一帧与当前帧融合时的权重。与目前比较先进的方法比较，获得了不错的效果。

1 显著性检测基本原理

人类视觉系统能够从外界输入的大量信息中快速选择特定、感兴趣的区域，因而称为视觉选择性注意机制[13]。这种机制可帮助人类从整幅图像中筛选重要区域即显著区域并忽略其中不感兴趣的部分，在进一步图像处理中能够有针对性地处理所需要的信息。显著性检测的目的就是用计算机代替人眼实现对感兴趣区域的提取。1幅图像是由多个像素点组成的，显著图中各像素点的灰度值大小即显著值，反映了该点的显著性。

图像的显著性检测的流程图如图1所示，通过分析人类视觉注意机制，首先利用图像处理方法选择性地提取图像的不同特征图，包括颜色特征、纹理特征、形状特征、运动特征、局部特征、图像频率（相对较新）等，然后选择设计合适的融合模型实现显著目标的提取。融合方法包括加权平均法、贝叶斯估计方法、聚类分析方法等。

对视频序列来说，时间显著性分量指的就是运动特征。在人们观察视频的过程中，运动目标往往更容易成为视觉注意点即使前景背景对比度很大，因此时间域上的运动显著性计算需要通过视频序列运动检测实现，目前主流的运动目标检测的方法包括帧差法、背景差法和光流法等。

2 基于边缘特征和自适应融合的检测算法

在视频图像纹理复杂、背景中存在运动物体的情况下，单一的静态边缘信息和运动信息都不能准确地确定显著目标的位置。并且考虑到多数自然视频序列中连续视频帧的前景/背景区域的显著值不应该沿时间轴急剧变化。所以本文首先利用动静态边缘特征初步定位显著目标区域，经过一系列形态学操作获得显著目标的精确边缘，在时空边缘的基础上计算梯度得到初始显著图，然后考虑前一帧对当前帧的有效性约束，计算2帧的颜色直方图并得到2帧的相似度，根据将相似度确定2帧自适应融合时的权重得到最终目标显著图。

2.1 边缘特征检测

边缘检测是图像处理与计算机视觉中极为重要的1种分析图像的方法。边缘检测的目的就是找到图像中亮度变化剧烈的像素点构成的集合，表现出来往往是轮廓。边缘信息有助于确定显著目标的位置，在对现实世界的图像采集中，有4种情况会表现在图像中时形成1个边缘，深度的不连续，即：物体处在不同的物平面上；表面方向的不连续，如正方体的不同的2个面；物体材料不同，这样会导致光的反射系数不同；场景中光照不同，如被树萌投向的地面。

本文考虑到单一静态边缘在具有高纹理背景区域的复杂场景中不能有效表示显著目标的问题，而合理地利用运动信息有助于提取显著运动目标的边缘，因为在光流场中突然变化的像素通常引起人们更多的关注。然而，在运动物体可能具有较小的运动，或背景中存在扰动的情况下，单独的运动信息不能突出显著的运动区域。这里综合静态边缘和运动边缘信息提取视频中的显著运动目标。

首先，对输入的视频序列[F={F1 ，F2， F3，…，Fnframe}]逐帧进行SLIC超像素分割[14]，设第k帧图像的超像素块集合为[Fk]，超像素分割之后视频序列表示为[F'={F'1 ，F'2 ，F'3，…，F'nframe}]，对[F'k] 进行均值滤波后计算图像中像素处[X=（x，y）]的颜色梯度幅值[MckX]，得到视频图像的静态边缘

[Mck（X）=∇F'k（X）]。（1）

式中[∇]表示梯度计算。利用大位移运动估计[15]计算帧间运动光流场[vk]的梯度幅值，得到运动边缘

[Mok（X）=∇vk（X）]。（2）

对运动边缘[Mok（X）]进行一系列形态学操作以获得更精确地运动边缘图，闭运算操作填补断裂使轮廓更光滑，开运算操作去掉细小的突出部分，再利用腐蚀操作和闭运算操作使边缘精细。运动边缘和静态边缘的融合采用线性融合，权重分别为0.3和0.7。

[Mk（X）=0.3∙Mck（X）+0.7∙Mok（X）]。（3）

其次，在时空梯度的基础下分别从上、下、左、右4个方向计算第k帧中每个像素点[X=（x，y）]的梯度[Gk（x，y）]，根据在时空梯度场中的像素的梯度相对其它区域的梯度值更大来初步确定显著目标区域[16]。计算公式如下：

[Gk，l（x，y）=Mk（x，y）+Gk，l（x，y-1）]，（4）

[Gk，r（x，y）=Mk（x，y）+Gk，r（x，y+1）]，（5）

[Gk，t（x，y）=Mk（x，y）+Gk，t（x+1，y）]，（6）

[Gk，d（x，y）=Mk（x，y）+Gk，d（x-1，y）]，（7）

式中：[Gk，l]、[Gk，r]、[Gk，t]和[Gk，d]分别是从左、右、上、下4个方向计算像素点的梯度，取4个方向最小值以抑制背景中的噪声同时使得显著目标区域内部一致高亮，得到初始显著图[Tkx，y]：

[Tkx，y=minGk，lx，y，Gk，rx，y，Gk，tx，y，Gk，dx，y]。（8）

图2是对ViSal数据集中的Horse视频帧图像利用时空梯度提取显著运动目标的初始显著图的示意图。图2b）中得到的静态边缘图中既包括了显著目标也包括了背景内容，图2c）中是运动边缘，运动边缘图中抑制了背景，但提取显著目标时存在某部位不准确，融合了静态边缘和运动边缘融合后抑制了背景，也有效提取出显著目标。进一步从上下左右4个方向来计算时空梯度图中的梯度流得到初始显著图，图中显著目标已相对精准，内部一致高亮。

2.2 自适应融合机制

图像融合是通过1个数学模型把来自不同传感器的多幅图像综合成1幅满足特定应用需求的图像的过程，目的是可以有效地把不同图像传感器的优点结合起来，提高对图像信息分析和提取的能力，以便于后续的图像处理过程。大多数图像融合利用简单加权融合，也称为像素加权平均法，是最简单、直接的图像融合方法。它具有简单易实现、运算速度快的优点，并能提高融合图像的信噪比，但是这种方法削弱了图像中的细节信息，降低了图像的对比度，在一定程度上使得图像中的边缘变模糊，在多数应用场合难以取得满意的融合效果。

本文通过边缘特征然后计算梯度得到的初始显著图虽然能够精确地得到显著目标的位置，但是仍然存在边缘模糊和背景噪声的问题，所以考虑前一帧对当前帧的影响，有效约束背景噪声和模糊边缘。通过融合相邻帧的初始显著图，自适应地计算前一帧的显著目标图对当前帧的显著目标图的影响比重，得到当前帧的最终显著图。

假如视频序列中同一场景中的帧具有很强的相关性和较小的差異，前一帧可以有效约束当前帧的显著区域以获得更精确的运动目标显著图。反之，前一帧可能会与当前帧有不同的颜色和亮度，显著区域必然发生巨大变化，不适合作为当前帧的显著区域的1个先验。本文提取图像的颜色直方图进行相邻两帧的相似度判断，根据相似度确定相邻2帧在融合时的权重。

提取相邻帧的颜色直方图[Histk-1]和[Histk]，2幅图像颜色直方图差异越小则证明两帧越相似，反之则可能目标的运动速度较快或存在场景变换。这里相邻帧的相似度Simi可以表示为

[Simik=i=1Nmin（Histik，Histik-1），] （9）

式中[Histik]和[Histik-1]分别为相邻帧在颜色直方图中的第i个量化级值，[1≤i≤N]。为了自适应地融合相邻帧的初始显著图，这里构造了权值取值函数[ωk]，构造规律是当相似度Simi很大时，为了保证当前帧本身的显著性测量占据更多的比重，将前一帧的最大权值限定为0.5，反之，当相似度Simi非常小时，权重[ω]随之降低直至趋于0，公式如下：

[ωk=[sin（π∙Simik-π/2）+1]4]，（10）

式中，Simi取值从0到1，得到[0≤ω≤0.5]，相应的曲线如图3所示。从图3中可以看出权值[ω]随相似度Simi呈S型变化趋势。

根据权重[ω]自适应融合相邻帧的运动显著图得到第k帧的运动显著图[STk]，公式如下：

[STk=ωkTk-1+（1-ωk）Tk ，] （11）

式中[Tk-1]和[Tk]分别表示前一帧和当前帧的运动显著图，如公式8）所示。图4展示了Horse的初始显著图和最终显著图，可以看到最终显著图背景噪声较少。

3 实验结果与分析

本文在ViSal[16] 数据集上进行了对比试验. ViSal数据集是Wang等[16]为了更深入地探索具有各种前景/背景运动模式和复杂色彩分布的一般情况，构建的一个专门为视频显著性检测设计的新的数据集，包括17个具有挑战性的视频序列，包含复杂的颜色分布（摩托车，牛等），高度杂乱的背景（人，熊猫等），各种运动模式（静态：船，快速：汽车），快速拓扑变化（猫，摩托车等）和相机运动（gokart，摩托车等）。这些视频的长度范围从30到100帧。在ViSal数据集中主要比较2014年以来比较典型的算法：视频序列显著性检测模型GF（Gradient Flow）[16]、SAG（Saliency-Aware Geodesic Video Object Segmentation）[17]、以及静态图像显著性检测模型SR[9]、RBD[6]。

在ViSal数据集上的实验结果如图5所示。自上而下依次为原图、GF 、SAG 、SR 、RBD 、本文算法以及Ground Truth。从图中可以看出，SR因算法本身简单，只轻微突出了边缘，存在空洞现象，而RBD是基于背景先验的算法，当显著目标出现在边缘时会失效，在背景复杂的情况下会有严重的背景噪声，与静态显著性检测模型相比，视频显著性模型考虑了运动信息，效果相对提升了很多，如GF、SAG。本文的方法相对更接近Ground Truth，在背景噪声和显著目标边缘以及一致高亮显著目标方面均优于其他算法。

本文采用的客观评价指标是PR曲线、F值以及平均绝对误差（Mean Absolute Error，MAE）。PR曲线指的是Precision-Recall曲线，为查准率-查全率曲线。PR曲线在分类、检索等领域有着广泛的使用，来表现分类/检索的性能。precision是检索出来的结果中，相关的比率；recall是检索出来的结果中，相关的结果占数据集中所有相关结果的比率. ppre：正确预测正样本/所有预测为正样本；rre：正确预测正样本/真实值为正样本。

F值是精度和召回率的调和平均值，以评估整体性能。

[F=（1+β）∙ppre∙rreβ∙ppre∙rre] ，（12）

式中，[β]控制着分割准确率和分割完全率的权重，这里选择[β=0.3]，这是1个常用的选择。

MAE估计显著图和Ground Truth之间的近似度，将其归一化为[0，1]。MAE提供了1种新的评估方法，它直接测量显著图与Ground Truth的接近程度。从图6中PR曲线可以看出，本文方法无论在召回率还是精度方面相对其他算法都有明显的改进，最靠近图表右上方，且在高精确度上有最长的水平持续区间。平均F值接近0.8，平均 MAE 在 0.06 左右，明显优于其他算法，表明本文结果和真值更加接近。

本文所述算法的运行环境为Windows7，内存32 G， Intel（R） Xeon（R） CPU E5-1650 v3 @ 3.50 GHz. 在MATLAB R2014a平台上进行。各个算法都直接运行作者公布的源代码，所有代码都在MATLAB R2014a平台下重新运行，不同算法的平均运行时间比较如表1所示，静态显著性检测方法用時较短，因其算法结构比较简单，效果也相对差。时空显著性算法需要计算光流，表1所示均不包括计算光流的时间，GF算法在时间上较本文算法快，但精度相对较差。本文算法在时间上相对SAG较快，并且在背景噪声和一致突出目标方面有更好的效果。

4 结论

本文通过计算动静态边缘特征，计算梯度后初步确定显著目标，考虑前一帧对当前帧的约束作用，由相邻2帧的相似度决定2帧自适应融合时的比重，得到最终显著图，在ViSal公开视频显著性检测数据集上实验，结果表明本文算法具有有效性和通用性。本文算法存在的问题是当背景也在运动并且边缘很明显时，容易将背景同样检测为显著目标突出，如何在复杂运动背景的图像中获得更准确的显著图，这也是今后研究的方向和重点。

参考文献：

[1] ROTHER C，KOLMOGOROV V，BLAKE A. Grabcut：interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics，2004，23（1）：309-314.

[2] MAHADEVAN V，VASOONCEIOS N. Saliency-based discriminant tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition （CVPR），Miami，USA，2009：1007-1013.

[3] 肖德贵，辛晨，张婷，等.显著性纹理结构特征及车载环境下的行人检测[J].软件学报，2014，25（3）：675-689.

[4] ITTI L，KOCH C，and NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，1998，20（11）：1254-1259.

[5] CHENG M M，ZHANG G X，MITRA N J，et al. Global contrast based salient region detection[C]//IEEE International Conference on Computer Vision and Pattern Recognition，Colorado Springs，2011：409-416.

[6] ZHU W J，LIANG S，WEI Y C，et al. Saliency Optimization from Robust Background Detection[C]// IEEE International Conference on Computer Vision and Pattern Recognition，Columbus，2014：2814-2821.

[7] 蒋寓文，谭乐怡，王守觉.选择性背景优先的显著性检测模型[J].电子与信息学报，2015，37（1）：130-136.

[8] GUO C L，MA Q，ZHANG L M. Spatio-temporal saliency detection using phase spectrum of quaternion fourier transform[C]//Computer Vision and Pattern Recognition，Anchorage，AK，USA，2007：1-8.

[9] HOU X D，ZHANG L Q. Saliency Detection：A spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition，Minneapolis，Minnesota，USA，2007：1-8.

[10] 田畅，姜青竹，吴泽民，等. 基于区域协方差的视频显著度局部空时优化模型[J]. 电子与信息学报，2016，38（7）：1586-1593.

[11] KIM W，KIM C. Spatiotemporal saliency detection using textural contrast and its applications[J]. IEEE Transactions on Circuits & Systems for Video Technology，2014，24（4）：646-659.

[12] ZHOU F，KANG S B，COHEN M F. Time-mapping using space-time saliency[C]//IEEE Conference on Computer Vision and Pattern Recognition，Columbus，USA，2014：3358-3365.

[13] DESIMONE R，DUNCAN J. Neural mechanisms of selective visual attention[J]. Annual review of neuroscience，1995，18（1）：193-222.

[14] ACHANTA R，SHAJI A，SMITH K，et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2012，34（11）：2274-2281.

[15] BROX T，MALIK J. Large displacement optical flow：descriptor matching in variational motion estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2010，33（3）：500-513.

[16] WANG W G，SHEN J B，and SHAO L. Consistent Video Saliency Using Local Gradient Flow Optimization and Global Refinement[J]. IEEE Transactions on Image Processing，2015，24（10）：1-12.

[17] WANG W G，SHEN J B，PORIKLI F. Saliency-aware geodesic video object segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition，Boston，USA，2015：3395-3402.

[責任编辑田丰]