APP下载

基于Boolean编码的自下而上视觉显著性检测方法研究

2017-08-07王晓鹏陈丹淇

航天控制 2017年2期

赵 迪 王晓鹏 陈丹淇

1. 上海卫星工程研究所,上海201109 2. 上海航天技术研究院,上海201109 3. 上海机电工程研究所,上海201109



基于Boolean编码的自下而上视觉显著性检测方法研究

赵 迪1王晓鹏2陈丹淇3

1. 上海卫星工程研究所,上海201109 2. 上海航天技术研究院,上海201109 3. 上海机电工程研究所,上海201109

提出了一种利用Boolean编码的二值特征自下而上视觉显著性检测方法。该方法是基于视觉注意的Boolean分布图理论而提出的,同时结合多特征通道(如CIELab颜色空间),利用二进制值(即 0/1)编码每个像素,以表征场景视觉认知的位置分布信息。根据显著区域和背景区域间各维度的 Boolean编码的不同分布,通过低秩分解实现显著性检测。该模型不仅很容易实现,而且通过在2个公开的基准数据库中进行的实验结果表明该方法有效。 关键词 自下而上;视觉显著性;Boolean编码;低秩分解

视觉显著性在为生物和机器视觉系统实时提取场景有效信息的过程中扮演着重要角色。在现实世界中,注意力表现为2种方式的组合:自下而上和自上而下[1]。自下而上的方式是基于视觉场景特征的,是快速、被动和刺激驱动的。但是,自上而下的方式源于认知现象,包括知识、期望、奖励和当前目标,是缓慢、主动和任务驱动的[2]。本文主要研究自下而上视觉显著性检测方法。

自从Treisman等人[3]提出特征合成理论(FIT)后,很多研究方向都倾向于基于特征合成理论的自下而上显著性检测。作为一个里程碑模型,Itti等人[4]结合灰度、颜色和方向特征,提出了一种基于中心-周边对比差异的仿生结构。随后,Bruce等人[5]提出利用自信息的稀疏特征来度量显著性。Harel等人[6]提出了一种基于随机图平稳分布搜索方法。Hou等人[7]采用图像稀疏特征来突出显著区域。Murray等人[8]提出低维度空间彩色模型来估计显著性。

与不同特征整合(如强度、颜色和方向)的传统方法不同,本文提出一种新的基于Boolean编码二值特征的自下而上视觉显著性检测方法,不再需要进行众多复杂特征融合过程。在显著性检测过程中,Boolean编码能简单有效表达图像像素或区域特征。该方法是基于视觉注意的Boolean分布图理论而提出的,该理论表明在任何给定时刻观察者的视觉认知只对应一张Boolean分布图。基于这一机制,结合多特征通道(如CIELab颜色空间),利用二进制值(即 0/1)来编码每个像素,以表征视觉认知的位置分布信息。这些二进制的Boolean编码对显著区域和背景区域各维度有明显不同的分布。最后,利用低秩分解方法进一步检测显著性。本文模型框架如图1所示。

图1 本文提出的视觉显著性特征检测方法框架图

1 布尔编码理论

1.1 视觉注意的Boolean分布图理论

Boolean分布图(A Boolean map)[9]在这里指一种空间表征,它将人类的视野分成2个清晰而又相互补充的区域:1)被选择的区域;2)没有被选择的区域。在Boolean分布图中,一旦选择其中的一个区域,另一个区域就很难被同时选取。也就是说,Boolean图将视野按特征进行二值化。同时,Boolean图也可以与特征标签相联系,它仅仅包含了单维度上的单个特征标签,而且这个特征标签必须描述整个区域的所有特征属性。

视觉注意的Boolean分布图理论[9]表明一个观察者扫视一个场景时,他能够有意识地获取什么样的视觉内容,是通过在一个维度中选择一个特征信息,或者将前者的输出与预先存储的Boolean图相结合。与此同时,任一瞬间观察者只能固定每个维度的一个特征值。相应的,与其对应的被标注的二进制Boolean图信息被同时捕捉到。换言之,在任何一个给定的瞬间,一个观察者的视觉注意只对应一张Boolean图。这个短暂且有意识的捕捉能够有效访问到Boolean分布图的形状信息和关联特征标签。简单而言,Boolean分布图理论为视觉注意提供了2个显著的特征:功能特征(当前Boolean图的维度)和位置特征(不同特征值的二进制编码)。事实上,视觉注意的Boolean分布图理论揭示了人类视觉的一个真实的基本原理,同时它也为利用Boolean分布图进行视觉显著性检测提供了方法和途径。

1.2 Boolean编码

在构建Boolean编码之前,通过一个简单的途径来介绍Boolean分布图的生成方法。该计算方法与Zhang等人[10]的方式类似,通过为每个特性通道构建一组分层阈值二值图来提取图像特征。它最初来源于Boolean图理论,也就是根据特征通道和阈值的先验分布得到随机阈值图像特征图谱。由于Boolean图的分布仅由特征空间的选择和特征选择的先验分布决定,因此不失一般性特征选择和阈值都可以看作是服从均匀分布。因此,本文为每个特征图选取均匀间隔阈值。详细的操作说明如下。

图2 固定点和背景点之间的统计频率

第1步:输入图像被分为不同的特征通道,然后被线性缩放到[0,255]的整数区间。本文选择CIE Lab 彩色空间,因为它的感知均匀性较好;第2步:通过一组均匀间隔的阈值{θi} (i=1,2,…,n)以及固定步长的δ,将每个特征图转化为二进制图,其中,θi+1=θi+δ,且n是阈值的数目。通过这种方式,区域的值高于当前阈值为1,否则为0;第3步:提取二进制图的反向色差,以免背景区域在局部特征通道上可能比显著区域更亮;第4步:依据中心偏差(表明大多数物体定位靠近图像中心[11])和格式塔规则[12](表明边界区域更可能是背景),将相邻图像边界的连通区域设置为0,这个区域在上一步已被设置为1。

给定Boolean图谱集合后,利用从所有Boolean编码的二进制图中得到的相应位置标签(即1 / 0)编码每个像素。Boolean编码中的特征顺序被分成L-map,a-map和b-map。对于每个特征通道,Boolean编码的数值被从小到大分成θ1~θn。对于每个固定阈值,以下一个相邻数值取反的方式编码。Boolean编码过程是利用二值特征向量代表每个像素,即Boolean编码。Boolean编码过程实例见图1。

1.3Boolean编码的意义及特征

Boolean码是一种简单而有效的特征,不仅表达简短而且内涵丰富。以像素为例,Boolean码的每一位标签都包含了位置信息,以及相关的特征值和通道(对应于当前维度(位))被选择时视觉场景的访问区域。因此,Boolean码包含各种特征值和通道下的视觉注意位置的分布信息。

为了说明Boolean编码显著性检测的效率,对显著点和背景点的Boolean编码频率进行统计。在这项工作中,本文选择了Bruce数据集[5],它是预测视觉显著性最常用的基准数据集之一。为了减少运行时间,设置阈值为7~247,固定步长为8。图2显示了固定点和背景点之间标号1的统计频率。其中,图2(a)代表每个维度,图2(b)代表Boolean码之和。很显然,一方面,图2(a)表明在大多数Boolean编码分布中,显著点的分布与背景点的分布是能被区分的;另一方面,图2(b)清楚的表明显著点标号1的数目通常大于背景点,符合视觉认知。除此之外,图2(a)中显著点频谱包络的3个峰值分别与L-map,a-map和b-map相对应。这进一步说明显著点和背景点之间的区别普遍存在于每个特征图中,与特征通道无关。这里,统计结论无论对任何一个可用的数据集[13]还是不同的阈值间隔都是不变的。因此,Boolean编码确实是一个强大而有效的,被用来进行特征显著性检测的特征。

2 自下而上的显著性检测

2.1 低秩分解

在本文模型中,利用显著点和背景点之间的Boolean码分布差异,通过低秩矩阵分解[14-15]预测视觉显著性。首先将所有像素的Boolean编码数组转换为Boolean编码矩阵D=[d1,d2,…,dN],其中,N是图像中的像素数,dj(j=1,2,…,N)是第j个像素的Boolean码矢量。低秩分解方程式如下:

(1)

其中,A是低秩矩阵,E是服从于D=A+E的稀疏误差矩阵,λ是平衡秩和稀疏性的参数。显然,优化式(1),将矩阵D分成2个部分:矩阵A的低秩部分和矩阵E的稀疏误差部分。根据上述可知背景点都有一个共同的特征:他们的Boolean码标签一般为0,而显著点为1,所以他们的Boolean编码矢量差异可以通过矩阵D显示。此外,观察区和背景区之间的面积存在巨大差异,毕竟眼睛能够观察到的信息与背景[5,13]相比是非常小的。根据这些因素,低秩分解法的应用是合理可行的,其中显著性和背景信息分别隐含在矩阵E和矩阵A中。事实上,式(1)是非凸的,且是一个NP难问题,幸运的是,在一定条件下[14]可以通过如下优化解决。

(2)

2.2 显著性计算

由于背景被认为是矩阵A中Boolean编码主要特征,本文利用稀疏误差矩阵E计算视觉显著性,其中矩阵E包含了剩余非规律信息。具体而言,对于每一个像素,通过下式进行显著性计算。

(3)

其中,ej是矩阵E的第j列,对应第j个像素的异常剩余码。最后,显著图可通过高斯平滑,是因为显著区通常是稀疏且连续的[7]。

2.3 实验结果

为了评估本文模型,利用2个公开可供选择的数据库:Bruce数据集[5]和Kootstra数据集[13],进行人眼注视数据预测实验。2个数据集分别包含20名和31名受试者视点的120和100个自然彩色图像,前者分辨率为681×511像素,后者分辨率为1024×768像素。为减少运行时间,在整个数据集中,对于每个输入图像,保持其原始纵横比例,调整它的宽度为64。阈值设置从7~247,固定步长为8,因为其在宽范围内对结果的影响不大。同时,按照经验设置高斯核的标准偏差为图像宽度的4%。除此之外,采用ROC特性曲线原理,并按照Murray等人[8]提出的方法来定量分析性能,按照Zhang等人[16]提出的方法克服中心偏差和边界效应。

图3 本文提出模型不同λ的AROC评分

λ决定了低秩分解的平衡性,它可能影响检测的性能。式(2)中,从0.02~0.2改变参数值,来评估受λ影响的预测结果。2个数据集的AROC评分在图3中。很显然,当λ取值在0.1左右时性能最佳;当λ更小或变大时,AROC评分将变低,2个基准数据集得到的结果基本一致。当λ在一个较大的范围内变化时,比如[0.04, 0.16]区间内,评分结果是可接受的且令人满意的,说明了这个参数对于本文模型来说影响有限。

表1 本文模型和当前先进性模型试验结果比较

随后,根据图3获取的优化原则,将模型的λ值设为0.1,并且将本文提出的方法与当前比较先进的方法进行比较:Itti[4],AIM[5],GBVS[6],SUN[16],DVA[17],Seo[18],SIGS[7]。2个基准数据库的试验结果在表1中。因为Kootstra数据集[13]包含动物、街道、建筑、花卉和自然这5种不同种类,其图像包含了从语义对象到混乱场面等多种不同内容,所以,它的AROC评分要低于Bruce集[5]。尽管如此,依然可以看出本文提出方法与BMS[10]相当,且优于其他方法。此外,即使λ数值在一定范围内变化,本文提出的方法依然比其他方法效果更好,不仅易于实现而且具有良好的性能。视觉显著图的比较分析在图4中。

3 结论

Boolean编码在描述显著点和背景点间维度时有着明显不同的分布,因此,可以被用来进行显著性检测。实验证明,本文提出的方法易于实现而且性能优良。今后,将对Boolean编码进行扩展使用,可以结合时间信息进行实时显著性检测,也可以通过训练进行有目的的显著性检测。

图4 视觉显著图比较分析

参 考 文 献

[1]BorjiA,SihiteDN,IttiL.QuantitativeAnalysisofHuman-ModelAgreementinVisualSaliencyModeling:AComparativeStudy[J].IEEETransactionsonImageProcessingaPublicationoftheIEEESignalProcessingSociety, 2013, 22(1):55.

[2]BorjiA,IttiL.State-of-the-artinVisualAttentionModeling[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2013, 35(1):185-207.

[3]TreismanAM,GeladeG.AFeature-integrationTheoryofAttention[J].CognitivePsychology, 1980, 12(1):97.

[4]IttiL,KochC,NieburE.AModelofSaliency-basedVisualAttentionforRapidSceneAnalysis[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 1998, 20(11):1254-1259.

[5]BruceNDB,TsotsosJK.SaliencyBasedonInformationMaximization[C]//InternationalConferenceonNeuralInformationProcessingSystems.MITPress, 2005:155-162.

[6]HarelJ,KochC,PeronaP.Graph-basedVisualSaliency[J].Proc.AdvancesinNeuralInformationProcessingSystems, 2007.

[7]HouX,HarelJ,KochC.ImageSignature:HighlightingSparseSalientRegions[J].PatternAnalysis&MachineIntelligenceIEEETransactionson, 2012, 34(1):194-201.

[8]MurrayN,VanrellM,OtazuX,etal.Low-LevelSpatiochromaticGroupingforSaliencyEstimation[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2013, 35(11):2810.

[9]HuangL,PashlerH.ABooleanMapTheoryofVisualAttention[J].PsychologicalReview, 2007, 114(3):599-631.

[10]ZhangJ,SclaroffS.SaliencyDetection:ABooleanMapApproach[J]. 2013:153-160.

[11]TatlerBW.TheCentralFixationBiasinSceneViewing:SelectinganOptimalViewingPositionIndependentlyofMotorBiasesandImageFeatureDistributions.[J].JournalofVision, 2007, 7(14):4.1-17.

[12]PalmerSE.VisionScience:PhotonstoPhenomenology[J].TheQuarterlyReviewofBiology, 2001, 77(Volume76,Number4):233-234.

[13]KootstraG,NederveenA,BoerBD.PayingAttentiontoSymmetry[C]//BritishMachineVisionConference2008,Leeds,September.DBLP, 2008:1279-1285.

[14]CandesEJ,LiX,MaY,etal.RobustPrincipalComponentAnalysis?[J].JournaloftheACM,Vol.58.No.3,Article11.

[15]LinZ,ChenM,MaY.TheAugmentedLagrangeMultiplierMethodforExactRecoveryofCorruptedLow-RankMatrices[J].EprintArxiv, 2010, 9.

[16]ZhangL,TongMH,MarksTK,etal.SUN:ABayesianFrameworkforSaliencyusingNaturalStatistics.[J].JournalofVision, 2008, 8(7):32.1-20.

[17]HouX,ZhangL.DynamicVisualAttention:SearchingforCodingLengthIncrements[C]//ConferenceonNeuralInformationProcessingSystems,Vancouver,BritishColumbia,Canada,December.DBLP, 2008:681-688.

[18]SeoHJ,MilanfarP.StaticandSpace-timeVisualSaliencyDetectionbySelf-resemblance.[J].JournalofVision, 2009, 9(12):15.1-27.

Bottom-Up Visual Saliency Detection by Boolean Coding

Zhao Di1, Wang Xiaopeng2, Chen Danqi3

1. Shanghai Institute of Satellite Engineering, Shanghai 201109, China 2. Shanghai Academy of Spaceflight Technology, Shanghai 201109, China 3. Shanghai Institute of Mechanical and Electrical Engineering, Shanghai 201109, China

AnovelbinaryfeaturebasedonBooleancodingispresentedtodetectvisualsaliencyinabottom-upmanner.TheschemeisinspiredbytheBooleanmaptheoryofvisualattention,andeachpixelwithbinaryvalues(i.e. 0/1)isencodedtocharacterizethedistributiveinformationoflocationsforvisualattentionundervariousfeaturevaluesandchannels(e.g. CIE Labspace).BytakingadvantageofthedifferentdistributionofBooleancodesontheirdimensions(bits)betweensalientpointsandbackgroundpoints,low-rankdecompositionisthenleveragedforfurthersaliencydetection.Notonlytheproposedmodeliseasytobeimplemented,butalsotheexperimentalresultsoftwopubliclyavailablebenchmarksdemonstratethatitiseffectiveagainstthestate-of-the-artmethods.

Bottom-up;Visualsaliency; Booleancoding;Low-rankdecomposition

2016-08-04

赵 迪(1984-),男,黑龙江人,硕士研究生,工程师,主要研究方向为卫星总体设计;王晓鹏 (1979-),男,山东人,硕士研究生,高级工程师,主要研究方向为航天器总体技术和控制技术研究;陈丹淇 (1986-),女,内蒙古人,硕士研究生,工程师,主要研究方向为图像及语音处理。

TP37

A

1006-3242(2017)02-0066-06