基于纹理抑制和连续分布估计的显著性目标检测方法
2015-03-21邓丹,吴谨,朱磊,刘劲
邓 丹,吴 谨,朱 磊,刘 劲
(武汉科技大学 信息科学与工程学院,湖北 武汉430081)
1 引 言
人类视觉系统提取出视觉场景中感兴趣的区域的过程包含两个阶段。首先是一个自底而上的,快速的,由数据驱动的过程。接着是一个自顶而下的,慢速的,由知识驱动的过程。在第一个阶段中,由于整个处理只与观察的场景有关,具有较高的客观性,近几年来在图像处理领域被广泛地研究。
图像显著性研究方法主要有3类:像素、固定块和区域。2007年,Hou等人[1]提出了显著性检测的一个谱残差的方法,该方法主要是通过计算增量编码长度来测量信息熵增益,但是这种结构的前提是图像必须具备相对复杂的背景。同年Harel等人[2]提出一种基于图的视觉显著性,该方法主要是在显著性区域检测中应用马尔可夫链的平稳分布作为图像的显著性度量。2009 年Achanta[3]提出一种调频显著性检测方法并于2010年对该方法进行了改进,该方法主要是通过在每一个像素上计算当前像素的颜色以及亮度与全图像的平均颜色及亮度的差异来去除低频部分(模糊部分)。Goferman等人[4]在2011年提出一种基于上下文的显著性检测方法,该方法使用局部对比,结合显著区域的上下文信息检测出现显著对象。在众多的显著性检测方法中以Itti算法[5]最为典型,该方法通过中央-邻域差异算子(Center-surround differences)进行多尺度显著性度量并将度量结果合并成一幅显著图。
中心-邻域差异性被证明是目标之所以显著的首要原因,受到该原理的启发,很多文献提出了他们的显著性检测方法[6-7]。这种测量通常是在图像的一个局部区域内完成的,在自然场景下不可避免地受到目标内部纹理扰动的影响。本文首先通过对图像进行双边滤波处理,在保留目标和背景之间的主要边缘的同时,平滑目标或者背景区域内部的扰动。
中心-邻域的差异性仅考虑一个像素或区域在局部范围内的显著性,并未考虑到目标在整幅图像中空间分布。在此基础上,本文结合被广泛使用的背景先验知识来强化自然图像中目标在空间分布上所具备的普遍特征。
2 本文提出的显著性检测方法
2.1 目标及背景区域内部的纹理抑制
双边滤波(Bilateral Filtering)最早是由Tomasi和Manduchi提出的[8]。传统低通滤波器,在像素空间完成滤波以后,导致图像的边缘细节丢失。双边滤波器可以在抑制目标以及内部纹理的同时很好地保留目标边缘。这主要是因为双边滤波在处理相邻各像素时,不仅考虑到了灰度的空间邻近关系,同时考虑到其相似关系。
对于图像f(x),在空间范围内得到低通滤波的图像为I(x),则
其中:c(ε,x)代表中心点与其邻近点ε的空间邻近度,设x=(x1,x2),ε=(ε1,ε2)为图像的空间坐标,那么
同理,在灰度范围内进行滤波得到的图像表示为:
其中:s(f(ε),f(x))代表了中心点x 与它的邻近点ε 的灰度相似度,此时
与空间邻近度不同的是,灰度相似度是由图像间两点灰度的差值来决定的。根据式(1)与式(3),将空间邻近度与灰度相似度相结合进行滤波,这样得到的输出图像为:
其中:
目前对图像的处理大都以像素为单位,用二维矩阵来表示一张图像,但是这样没有考虑像素之间的空间组织关系,在很大程度上会降低算法处理效率。2003年Ren[9]等提出超像素的概念,并在2010年利用图像超像素(superpixel)提取来获取一致性片段,然后对超像素进行GMM 模糊聚类,最后利用Google开发的PageRank算法来计算每个超像素的显著性。
超像素是指具有相似纹理、颜色和亮度等特征的相邻像素构成的图像块。超像素分割算法主要利用像素之间特征的相似度对像素分组以获取图像的冗余信息,从而降低后续图像处理的复杂度。Achanta等[10]提出一种简单线性迭代聚类(SLIC)算法,该算法是在LAB 空间使用聚类,由LAB颜色空间的亮度分量和两个颜色分量以及像素坐标来计算。
2.2 基于连续分布的区域相似性度量
本文在进行相似性度量之前,先对滤波后图像进行SLIC超像素分割的预处理。图像预处理之后,分割成很多在颜色空间上具有相似特征的区域,我们假设每一个超像素内部的像素集合在颜色空间内符合多维正态分布,那么可以通过多维正态分布来挤去超像素的特征。那么第i个超像素集合可表示如下:
其中:NSi表示均值为μ,协方差为∑的多维正态分布,CSi表示该超像素的中心位置,x,y 是超像素的坐标。
有许多用于区域对比的检测技术均被用来辨识局部对比。最近,Klein 和Frintrop[11]统计了以每个像素为中心的两个不同尺度的高斯加权矩形区域内像素在颜色空间内的分布,并利用二范数约束下的Wasserstein距离来计算该像素中心-邻域差异。在实数空间中,欧式范数约束下的Wasserstein距离定义如下:
其中:χ 和μ 是在测度空间(Rn,L2)上的概率测度,Γ(χ,μ)表示与χ 和μ 有关的在Rn×Rn上的所有测度。
简单的说,Wasserstein距离计算了从一个分布变换到另外一个分布的最小代价,它不仅累计了在两个分布中对应每个点在测度空间中的个体变化,同时也考虑从一个分布到另一个分布的距离。在机器视觉中,离散化的W1距离通常被称为推土机距离,该距离也经常被用于比较直方图。
一般地,对于任意连续分布,二范数Wasserstein距离(W2距离)没有解析的计算方法。幸运的是,针对于两个正态分布,文献[12]给出了其W2距离的解析解。对于任意两个经过SLIC超像素分割的区域Ri和Rj均服从多维正态分布,那么这两个区域的W2距离可以由公式(9)得到:
其中:μi 和μj分别是区域Ri和Rj的均值,∑i和∑j分别是区域Ri和Rj的协方差矩阵,tr(∑i)和tr(∑j)是协方差矩阵的迹。
2.3 基于中央-周边差的局部显著性检测
传统的中心-邻域差异性计算首先将粗尺度插值转换到相应的细尺度图像,然后细尺度逐个像素进行减法运算。计算公式如(10)所示。
其中:I为亮度通道的尺度图,用来产生一个高斯金字塔I(σ),σ∈[0…8],表示高斯金字塔尺度值,中心c∈{2,3,4},s∈{4,5,6},Θ 是差分算子。
传统的中心-邻域差异计算没有考虑像素的空间相似性,易降低算法处理率,因此本文先对图像进行SLIC超像素分割,然后提取超像素特征,在不进行多尺度插值计算下采用上文提到的W2距离进行局部显著性检测。
2.4 基于背景先验的全局显著性检测
根据背景先验知识,背景往往集中在图像边缘,那么可以通过提取边界区域特征进行显著性检测得到全局显著图。本文整体考虑所有边缘在特征空间的相关性,根据边缘在特征空间中的潜在流形分布结构,采用边界区域的流形排序方法[13-15],对边界细节进行排序。
在SLIC超像素分割的基础上,采用闭环图模型来模拟边界数据的流形结构[16-17]。以超像素为节点,计算包空间的近邻点,连接超像素和近邻点作为加权图的边。
假定超像素集合由X={x1,x2…xn}∈Rm×n构成,m 为特征空间的维数,n 为超像素的个数。由集合中的n个节点构建图,节点之间的边权值矩阵为:
其中:σ为给定的参数,d(xi,xj)为超像素xi,xj在特征空间的距离,由前文提到的W2距离计算得到,为了防止自相似性,设wii=0,据S=D-1/2WD-1/2归一化W。其中D 为对角阵,满足:
定义f 为向量f={f1,f2,…fn},其中fi为像素xi的排序值,i∈{1,2,…n}。同时定义向量y,满足y={y1,y2,…yn},如果xi是查询元素,那么yi=1,反之为0。
定义f*为序列{fi(t)}的极限,假定f(t)收敛于f*,文献[13]证明区域最优查询排序结果可由公式(12)得到:
在衡量超像素的相似性中,每一个比较后的像素作为下一个查询元素,依次传递下去,所得到的排序评分记为第一个查询元素的评分大小,那么在t+1时刻,边界区域的排序评分为:
f(t+1)=αSf(t)+(1-α)y, (13)
其中:α为参数并且满足α∈[0,1),它定义了在排序评分传递过程中,某区域所获得的排序评分的来源。定义f*为序列{fi(t)}的极限,假定f(t)收敛于f*,那么对于公式(13)可有:
整理后可以得到:
图1 显著性结果对比图Fig.1 Significant results of comparison chart
3 实验结果分析
本文通过双边滤波和SLIC 超像素分割对图像进行预处理,应用W2距离度量特征相似度,结合背景先验知识进行显著性检测。为了验证本文算法的有效性,我们采用MSRA 图像库应用MATLABR2010a实现算法有效性,并将其与经典 的5 种 显 著 性 算 法CA[4]、GB[2]、MZ[12]、RC[18]、SR[1]进行对比,最后将由我们的算法得到的显著性图对比ground truth数据库中图片得到精准-查全率曲线(precision-recall curves)。
MSRA 显著性目标图像库中包含1 000幅可以用来准确提取ground truth的二进制结果的图片。这些图片每幅均含有一个显著性目标且经由众多研究者认同才被收纳到 MASR 中的。Ground truth是由许多学者通过提取那些他们觉得是显著性的图像边框得到的标准图片集。据我们所知,MASR 是被认可的具有精准ground truth图片集中最大的图像集。实验对比结果如图1所示。
图2 精准-查全率曲线Fig.2 Precision-recall curves
由图1可以看到本文算法得到的显著性图最接近grouth truth的结果。本文算法有效地抑制了目标内部纹理,比其他算法更好地保留了目标与背景之间的边界,更加突出了显著性目标在背景中的整体轮廓。
将本文提出的显著性检测方法和CA、GB、MZ、RC、SR 算法分别对MSRA 数据库1 000幅图片进行显著图提取,再对比显著图和grouth truth二值图像计算精度和查全率,得到图2 精度-查全率曲线。
精度-查全率曲线提取显著性目标最简单的方法就是在一定的灰度值范围内根据固定阈值分割显著图。我们将所有的显著图归一化到[0,255]上,并采用256 个变化阈值对其进行分割。对于每一幅图像,通过比较计算该图的显著图和数据库的ground truth中二值图像来得到精度和查全率。最后,我们将数据库中所有图片的精度和查全率平均化来得到选择基准的全部评估。
假设显著图I经固定阈值分割得到的图形中共有S 个区域,其中有M 个是前景区域,也就是显著区域。Ground truth中I的前景区域个数为N,定义true positive为两者的交集,表示为:
那么精度P(presition)可表示为:
查全率R(recall)可表示为:
从图2也可以看出,本文算法的精度和查全率明显高于CA、GB、MZ、SR 4种方法,说明本文算法相对于这4种算法检测效果更好。
当查全率为0.1~0.5 时,本文算法的精度-查全率曲线和RC 算法有部分是重合的,但是从曲线上可以看到,对应的精度达到0.9,这说明本文和RC算法都能够取得不错的检测效果。当查全率为0.5~0.9时,本文算法的精度略高于RC算法,表明本文算法可以获得更精确的显著图。
4 结 论
提出了一种应用双边滤波抑制图像内部纹理,通过多维正态分布提取区域特征,结合中央-周边差异性和背景先验知识,应用二范数约束下的Wasserstein距离进行显著性检测的方法。首先对图像进行双边滤波,以平滑目标以及背景区域内部纹理的同时较好地保留图像边界。显著图提取建立在SLIC 超像素的分割基础上,通过多维正态分布提取区域特征,应用W2距离对超像素进行相似性度量,分别得到局部显著图和全局显著图,最后两者像素相乘得到图像显著图。实验结果表明采用本文的方法获得了较好的检测效果。
[1] Hou X,Zhang L.Saliency detection:A spectral residual approach[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2007:1-8.
[2] Hare J,Koch C,Perona P.Graph-based visual saliency[C].The 20th Annual Conference on Neural Information Processing Systems,2006:545-552.
[3] Achanta R,Hemami S,Estrada F,et al.Frequency-tuned salient region detection[C].IEEE Conference on Computer Vision and Pattern Recognition,2009:1597-1604.
[4] Goferman S,Zelnik-Manor L,Tal A.Context-aware saliency detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(10):1915-1926.
[5] Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[6] 董宇星,刘伟宁.基于灰度特性的海天背景小目标检测[J].中国光学与应用光学,2010,15(3):252-256.Dong Y X,Liu W N.Small target detection based on the characteristics of the gray sky background[J].Chinese Optics and Applied Optics,2010,15(3):252-256.(in Chinese)
[7] 宋建中.图像处理智能化的发展趋势[J].中国光学,2011,4(5):431-440.Song J Z.Development trend of intelligent image processing[J].Chinese Optics,2011,4(5):431-440.(in Chinese)
[8] Zhang X N,Liu G Q,Hu Y,et al.A new two-sided coupling channel drop filter based on a two-dimensional photonic crystal[C].The 2nd International Conference on Opto-Electronics Engineering and Materials Research,2013:417-420.
[9] Ren Z,Hu Y,Chia L T,et al.Improved saliency detection based on superpixel clustering and saliency propagation[C].The l8th Annual ACM International Conference on Multimedia,2010.
[10] Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods[C].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012:2274-2281.
[11] Klein D A,Frintrop S.Salient pattern detection using w2on multivariate normal distributions[C]∥The 8th Symposium on Multispectral Image Processing and Pattern Recognition,2012:246-255.
[12] Givens C R,Shortt R M.A class of wasserstein metrics for probability distributions[J].Michigan Math.,1984,31(2):33-40.
[13] Wei Y,Wen F,Zhu W,et al.Geodesic saliency using background priors[C].The 12th European Conference on Computer Vision,2012:29-42.
[14] Wan X,Yang J,Xiao J.Manifold-ranking based topic-focused multi-document summarization[C].The 20th International Joint Conference on Artificial Intelligence,2007:2903-2908.
[15] Belkin M,Niyogi P.Towards a theoretical foundation for laplacian based manifold methods[C].The 18th Annual Conference on Learning Theory,2007:486-500.
[16] Yang C,Zhang L,Lu H,et al.Saliency detection via graph-based manifold ranking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2013:3166-3173.
[17] Cheng M M,Zhang G X,Mitra N J,et al.Global contrast based salient region detection[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2011:409-416.
[18] Ma Y F,Zhang H J.Contrast-based image attention analysis by using fuzzy growing[C].The 11th Annual ACM International Conference on Multimedia,2003:374-381.