基于稀疏表示的图像显著区域检测算法

2016-07-19张巧荣

计算机应用与软件 2016年6期

关键词：像素编码显著性

张巧荣

(河南财经政法大学计算机与信息工程学院　河南郑州 450002)

基于稀疏表示的图像显著区域检测算法

张巧荣

(河南财经政法大学计算机与信息工程学院河南郑州 450002)

摘要针对图像的显著区域检测问题，提出一种基于稀疏表示的显著区域检测算法。该算法首先利用稀疏编码对图像进行特征描述，然后根据图像的稀疏编码进行视觉显著性的计算，而不是对原始图像直接进行处理，提高计算的效率。最后，根据视觉显著性的计算结果，进行显著性区域分割。在公开的测试图像集上进行实验，并和目前几种流行的算法进行实验对比。实验结果表明，该算法用于图像的显著区域检测是正确有效的。

关键词显著区域检测稀疏表示视觉显著性显著图

0引言

随着信息技术的发展，图像已经成为人们获取信息的主要来源。如何高效准确地进行图像分析和处理成为人们研究的焦点。通过视觉注意机制，人类可以快速准确地检测出图像中的显著区域，优先注意到图像的重要部分，从而迅速地获取有用的信息。通过检测图像中的显著区域并优先分配计算资源，可以有效地提高图像处理的效率和准确度。因此，显著区域检测技术被广泛应用于目标检测[1]、目标识别[2]、图像分割[3]、图像压缩[4]以及图像检索[5]等应用领域。

检测图像中的显著区域，首先需要计算图像中各部分内容的视觉显著性。到目前为止，已经有很多学者提出了视觉显著性计算模型。生物视觉研究成果表明，显著性源于视觉信息的独特性、稀缺性以及奇异性，并由亮度、颜色、方向、边缘等图像特征所致[6]。因此，一些研究者通过计算图像区域相对于其周围邻域的特征对比度来得到视觉显著性。其中以Itti等提出的模型最具代表性[7]，得到各国研究者的广泛关注。Itti等通过计算多个特征图像的多尺度下的中央-四周特征差异来生成视觉显著性。Ma等提出一种计算局部对比度并采用模糊增长的方法生成显著图[8]。基于局部对比度计算的方法容易在边缘部分产生较高的显著性值，而物体内部的显著性值反而较低，出现“显著性反转”的现象。一些研究者通过计算全局对比度来解决这个问题[6]。还有一些研究者基于信息论的观点，通过计算图像特征的稀少性来生成显著图[9,10]。为了提高计算效率，一些学者提出基于频域分析的视觉显著性计算方法，例如Hou等提出的基于谱残差的方法[11]，Guo等提出的基于相位谱的方法[12]，以及Hou等最近提出的利用DCT的“图像签名”算子的方法[13]等。这些方法计算速度快，适合实时监测。但是，通过实验我们发现这些方法虽然运算速度较快，检测的准确度却不是很高。因此，如何在保持计算速度的情况下，提高检测的准确度是需要解决的问题。

因此，基于以上的分析，本文提出一种利用稀疏表示的视觉显著性计算方法。首先，计算图像的稀疏编码表示。然后，利用图像的稀疏编码计算视觉显著性，提高计算效率。根据视觉显著性计算结果，提取显著区域。

1显著区域检测算法

本文提出的利用稀疏编码的图像显著区域检测算法如图1所示，主要包括视觉显著性计算和显著区域检测两部分。

图1　显著区域检测算法框图

2视觉显著性计算

2.1稀疏表示

生物视觉系统的研究发现，当视觉神经系统接收到某幅自然图像时，大部分神经元对该图像的响应很弱甚至为0，只有很少的神经元有较强的响应。当接收的自然图像发生变化时，产生较强响应的神经元可能会改变，但这些神经元的个数仍然只占整体的少部分，这种特性叫作稀疏性[14]。为了模拟神经元响应的稀疏特性，人们提出了针对自然图像的有效编码方法，即稀疏编码。

在稀疏编码模型中，利用基函数的线性叠加表示输入图像，在最小均方差意义下使得线性叠加的结果尽可能地与原图像相似。同时表示的特征尽可能地稀疏化，即基函数的权值尽可能多地为0或接近0。图像的线性叠加可以表示为[15]：

X=AS

(1)

式中，X表示输入图像，表示为多个基函数的线性组合，A为基函数组成的矩阵，S为线性组合时基函数的权值向量。从神经生物学的角度，式(1)表示的稀疏编码模型可以解释为，人的视觉感知系统将输入图像刺激X通过感受野A的特征提取，将其表示为视觉细胞的活动状态S。S即为输入图像的稀疏编码。

对于式(1)表示的稀疏编码模型，Olshausen提出的优化准则为：

(2)

式中，I(x,y)表示输入图像X中的像素值，φi(x,y)为基函数矩阵A中的第i个列向量，ai为向量S的第i个响应值。式(2)中的第1项用原始图像与重构图像之间的误差平方和表示重构图像的信息保持度，第2项反映了编码的稀疏程度[15]。

根据式(1)表示的稀疏编码模型及式(2)的优化准则，本文从自然图像库中选取10 000个8×8的图像块进行训练得到字典A。则图像的稀疏编码可以通过式(3)求得：

S=DX

(3)

式中，D=A-1。

2.2生成显著图

通过上面的方法，我们得到了输入图像的图像块级别的稀疏编码。为了计算视觉显著性，我们需要像素级别的稀疏编码。为此，本文通过计算包含某像素的所有图像块的稀疏编码的均值来得到该像素的稀疏编码。

位于(x,y)的像素的稀疏编码记为PS(x,y)=[ps1(x,y),ps2(x,y), …]，psk(x,y)表示该像素在第k个子码中的编码值。图像中所有像素在第k个子码中的编码值组成的矩阵Fk可以看作是对输入图像提取的第k个稀疏特征图。

研究表明，视觉显著性源于视觉信息的独特性和稀缺性。本文通过计算图像中各部分内容与其周围环境所包含的视觉信息的差异来计算视觉显著性。根据目前有效编码理论中广泛采用的贝叶斯决策理论，P(X)表示某数据集X的初始概率，即先验概率，反映了根据已有知识断定X是正确的可能程度；P(D|X)为似然函数，表示X为正确假设时，观察到D的概率；P(D)表示D的先验概率；P(X|D)是给定样本D时，X的后验概率。贝叶斯定理可以表示为：

防治方法：可用50%乙烯菌核利水分散粒剂(农利灵)(40～60克/亩)1 000～1 500倍液，或75%百菌清可湿性粉剂(75～100克/亩)600～800倍液，或45%特克多悬浮液(60毫升/亩)1 000倍液，或50%多菌灵可湿性粉剂(75～100克/亩)600～800倍液，或70%甲基硫菌灵可湿性粉剂(甲基托布津)(75～100克/亩)600～800倍液，或50%腐霉利可湿性粉剂(速克灵)(75～100克/亩)1 000～1 500倍液防治。

(4)

由式(4)可以看出，如果新的样本数据D产生了信息差异，则先验概率和后验概率是不同的。为了衡量D引起的差异的程度，可以通过计算先验概率分布与后验概率分布之间的Kullback-Liebler(K-L)距离得到：

(5)

由此可知，将图像中某位置的周边环境划分为两个区域，即中央区域和周边区域，周边区域远大于中央区域。周边区域的信息分布看作是先验概率，中央区域的信息分布为后验概率。如果某位置引起了观察者的注意，则其中央区域和周边区域的信息分布是不同的，其差异程度即为其显著程度[16]，可以通过式(6)得到：

(6)

SM(x,y)=∑SMi(x,y)

(7)

3显著区域检测

得到综合显著图之后，选择合适的阈值对显著图进行阈值分割，获得二值图像，其中白色区域对应位置即为图像中的显著区域。将二值图像和原始图像进行叠加，即可提取出显著区域。阈值可以通过式(8)计算得到：

(8)

式中，L为显著图中像素最大的灰度值，pi为灰度值i出现的概率。

4实验设计及结果分析

为了客观地评估本文算法的正确性和有效性，我们在两个公开的测试图像库上进行了实验，并和目前比较流行的7种算法进行了实验对比。本文算法的运行环境为Matlab7.0，硬件平台为个人计算机(IntelCorei3/双核2.53GHzCPU，内存为2GB) 。

4.1测试图像集

本文选取的第一个测试图像集为Bruce等人提供的人眼跟踪图像库。库中包含120幅测试图像以及通过人眼跟踪设备记录的20个测试者在测试图像上的人眼跟踪数据(GroundTruth)。该数据集可以从http://www-sop.inria.fr/members/Neil.Bruce获得。

第二个测试图像集为Achanta等人提供的公开图像测试集，该测试集包含有1000幅测试图像，以及由人工精确标注的显著性区域结果(GroundTruth)。该数据集可以从http://ivrgwww.epfl.ch/supplementary_material/RK_CVPR09/index.html获得。

限于篇幅，本文从测试图像集中选择4幅图像比较典型的图片，在图2中给出利用本文算法和目前大家关注度比较高的其他8种算法计算得到的显著图直观的实验对比结果。这8种算法分别为ITTI(Itti的引用最多的经典算法)、GBVS[17](Kouch等人的基于图论的视觉显著性计算方法，检测准确度较高)、AIM[18](第一个测试图像集的作者Bruce等人的基于信息最大化的算法)、FTSRD[19](第二个测试图像集的作者Achanta等人的算法)、SUN[20](利用图像统计信息的算法)以及SR(基于谱残差的方法)、IS(基于DCT的图像签名的方法)、ICL[21](基于增量编码长度的算法)这三种影响力比较大的基于频域分析的算法。这几种算法的作者都提供了源代码，方便我们进行实验比较。

图2　实验结果对比

图2中的前两幅图片来自Bruce提供的测试集，其GroundTruth是对人眼跟踪数据经过高斯模糊处理后的人眼关注图。后两幅图片来自Achanta提供的测试集，其GroundTruth是以二值图像表示的由人工精确标注的显著区域结果。从图2中可以看出，一些算法如FRSRD、SUN出现了显著性反转的情况，一些算法如ITTI、SR、ICL、IS计算出的显著性结果更强调边缘部分，而本文算法的结果与GroundTruth最接近。

为了客观地评价本文算法的效果，本文采用目前本领域常用的ROC曲线、AUROC值对本文算法以及其他算法进行定量比较分析。

为了分割显著区域并计算ROC曲线，本文参考文献[19]，将各种方法得到的显著图中各像素的显著值调整到[0,1]。然后从0到1每隔0.05取一个阈值，分别将各算法的显著图进行二值化，进行显著区域和非显著区域的分类，并与GroundTruth进行比较，计算相应的TPR(TruePositiveRate)和FPR(FalsePositiveRate)，分别得到21组TPR和FPR的对应值，画出ROC曲线。图3是各种算法的ROC曲线图。表1为各种算法的AUROC值对比结果。从图3和表1可以看出，本文算法的ROC曲线是最高的，AUROC值是最大的。

图3　各种算法ROC曲线对比结果

方法测试图像集1测试图像集2ITTI0.78190.8524GBVS0.81340.8840AIM0.69330.7057FTSRD0.55560.8026SUN0.67700.8050SR0.63950.7623IS0.64990.7714ICL0.69800.8362本文算法0.83180.8904

4.3时间复杂度评估

我们对本文算法和其他8种算法在两个测试图像集上单幅图像的平均运行时间进行了测试，对比结果如表2所示。

表2　各种算法的运行时间对比

续表2

从表2中可以看出，ITTI、FTSRD、SR、IS等几种算法的平均运行时间比本文算法的运行时间要短，其余几种算法的平均运行时间高于本文算法。但是，本文算法的检测准确度要高于ITTI、FTSRD、SR、IS等几种算法。因此综合考虑，本文算法相对于其他算法仍然具有一定优势。

5结语

本文针对图像中的显著区域检测问题进行了研究，提出一种利用稀疏编码的显著区域检测算法。该算法首先对原始图像提取稀疏特征，采用稀疏编码对图像进行表示，在此基础上通过计算图像中各部分内容之间的信息差异来得到视觉显著性结果。结合视觉显著性计算结果，提取显著区域。本文在两个国际上公开的测试图像集上进行了实验，并和8种目前大家关注度比较高的算法进行了对比，结果证明了本文算法的正确性和有效性。

本文算法还存在一些需要进一步改进的地方。一方面，本文算法只考虑了图像的一些底层特征，没有考虑目标轮廓、人脸等高层特征；另一方面，本文只对静态图像进行了研究，如何对算法进行改进使其适合视频图像也是下一步工作努力的方向。

参考文献

[1]LiuT,YuanZ,SunJ,etal.Learningtodetectasalientobject[J].IEEETPAMI,2011,33(2):353-367.

[2]KarthikDesingh.VisualSaliencyandNextBestViewModelsforObjectRecognitionandSearch[R].InternationalInstituteofInformationTechnologyHyderabad,2013.

[3]AchantaR,EstradaF,WilsP,etal.Salientregiondetectionandsegmentation[C]//IEEEICVS,2008:66-75.

[4]ChristopoulosC,SkodrasA,EbrahimiT.TheJPEG2000stillimagecodingsystem:anoverview[J].IEEETrans.ConsumerElec.,2002,46(4):1103-1127.

[5]OlegMuratov.VisualSaliencyDetectionandItsApplicationtoImageRetrieval[D].PhDthesis,UniversityofTrento,2013.

[6]ChengMM,ZhangGX,MitraNJ,etal.GlobalContrastbasedSalientRegionDetection[C]//IEEEConferenceonComputerVisionandPatternRecognition,2011:409-416.

[7]IttiL,KouchC.Computationalmodelingofvisualattention[J].NatureReviewsNeuroscience,2001,2(3):194-230.

[8]MaYufei,ZhangHongjiang.Contrast-basedImageAttentionAnalysisbyUsingFuzzyGrowing[C]//Proceedingsofthe11thACMInternationalConferenceonMultimedia.NewYork,NY:AssociationforComputingMachinery,2003:374-381.

[9]BruceN,TsotososJ.SaliencyBasedonInformationMaximization[C]//ProceedingsofAdvancesinNeuralInformationProcessingSystems,2006:155-162.

[10]PanQK,TasgetirenMF,LiangYC.Adiscretedifferentialevolutionalgorithmforthepermutationflowshopschedulingproblem[J].Computers&IndustrialEngineering,2008,55(4):795-816.

[11]HouXiaodi,ZhangLiqing.SaliencyDetection:ASpectralResidualApproach[C]//Proceedingsof2007IEEEConferenceonComputerVisionandPatternRecognition.Florida,USA:IEEE,2007:1-8.

[12]GuoC,MaQ,ZhangL.Spatio-TemporalSaliencyDetectionUsingPhaseSpectrumofQuaternionFourierTransform[C]//IEEEConferenceonComputerVisionandPatternRecognition,2008:2908-2915.

[13]HouXiaodi,JonathanHarel,ChristofKoch.ImageSignature:HighlightingSparseSalientRegions[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,34(1):194-201.

[14] 罗四维.视觉感知系统信息处理理论[M].北京:电子工业出版社,2006.

[15] 李志清,施智平,李志欣.基于结构相似度的稀疏编码模型[J].软件学报,2010,21(10):2410-2419.

[16]HouWeilong,GaoXinbo,TaoDacheng,etal.VisualSaliencyDetectionUsingInformaitonDivergence[J].PatternRecognition,2013,46(10):2658-2669.

[17]HarelJ,KochC,PeronaP.Graph-BasedVisualSaliency[C]//ProceedingsofAdvancesinNeuralInformationProcessingSystems,2007:681-688.

[18]BruceN,TsotsosJ.Saliency,Attention,andVisualSearch:AnInformatonTheoreticApproach[J].JournalofVision,2009,9(3):1-24.

[19]AchantaR,HemamiS,EstradaF,etal.Frequency-tunedSalientRegionDetection[C]//ProceedingsofIEEEInternationalConferenceonComputerVisionandPatternRecognition.Florida,USA:IEEE,2009:1597-1604.

[20]ZhangL,TongM,MasksT,etal.SUN:ABayesianFrameworkforSaliencyUsingNaturalStatistics[J].JournalofVision,2008,8(7):1-20.

[21]HouXiaodi,ZhangLiqing.DynamicVisualAttention:SearchingforCodingLengthIncrements[C]//Nisp,2008:681-689.

AN ALGORITHM FOR IMAGES SALIENT REGION DETECTION BASEDONSPARSEREPRESENTATION

Zhang Qiaorong

(School of Computer and Information Engineering,Henan University of Economics and Law,Zhengzhou 450002,Henan,China)

AbstractFocusing on the problem of images salient region detection, we proposed a sparse representation-based salient region detection algorithm. First, the algorithm uses sparse coding to describe images feature. Then it calculates the visual saliency based on images sparse coding instead of directly processing raw image so as to improve the efficiency of computation. Finally, according to the computation result of visual saliency it segments salient regions. The proposed method was experimented on public test image datasets and the experiment was compared with some other current popular algorithms. Experimental results showed that this algorithm was correct and effective when applying in images salient region detection.

KeywordsSalient region detectionSparse representationVisual saliencySaliency map

收稿日期：2014-11-29。国家自然科学基金项目(61374079)；河南省基础与前沿技术研究计划项目(122300410379)；河南省教育厅科学技术重点研究项目(14A520025)。张巧荣，副教授，主研领域：图像处理。

中图分类号TP3

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.06.048