融合多视角信息的RGB-D图像协同显著性检测
2018-08-06吴乾绅
吴乾绅
(1.中国科学院合肥物质科学研究院,安徽 合肥 230031; 2.中国科学技术大学,安徽 合肥 230026)
0 引言
图像的显著性[1]概念是人类在研究视觉感知机制的过程中提出来的,可以理解为视觉场景中物体吸引人类注意力的程度。近年来,图像显著性检测研究受到了广泛关注,并在物体识别、图像检索等领域展现出广阔的应用前景。早期的工作主要基于人工设计的视觉特征进行显著性检测,例如对比算法[1]以及多尺度显著区域融合[2]等。近年来,深度学习被逐渐用于图像显著性检测,并取得了良好的实验效果[3]。随着深度相机的普及,深度图像(RGB-D图像)的数据规模呈爆炸式增长,而且能克服二维图像丢失深度信息的不足,因此利用深度信息提升视觉分析性能逐渐成为计算机视觉领域新的趋势,吸引了研究人员的关注。在已有研究中,文献[4]融合了深度信息来检测图像中的显著目标,文献[5]采用了一种进化策略检测RGB-D图像中的显著区域。以上工作均局限于检测单幅图像的显著性,难以用于检测一组相关图像的协同显著性。
较之单幅图像显著性检测,图像协同显著性检测力求在一组内容相关的图片中发现共有的显著目标。理论上,互相关联的图片组包含了更多信息,而且重复出现的目标有助于进一步理解图像。对于RGB图像,文献[6]通过采用3个自下而上的显著特征(对比特征、空间特征以及相似特征)进行特征聚类来获得协同显著图。文献[7]提出了一个基于多层分割的算法模型,该算法在粗分割的基础上确定目标轮廓,然后通过细分割检测区域间的相似性。文献[8]通过基于图模型的流行排序算法获得协同显著图,但是仅使用单一图模型必然会丢失部分信息。近年来,探索RGB-D图像的协同显著性也逐渐成为研究热潮。与以往的前向检测策略不同,文献[9]设计了一个反馈迭代优化模型来检测协同显著目标。文献[10]通过特征匹配约束和显著性标记传播实现对RGB-D图像的协同显著性检测。可以看到这些方法依赖于算法中所设计的自下而上的先验特征,而且并没有充分利用单幅图像的显著信息,因此在检测效果上仍有很大的提升空间。
为了克服上述不足,本文提出了一种基于多视角信息融合的RGB-D图像协同显著性检测算法。如图1所示,考虑到单幅图像的显著图包含了大量的图像前景区域信息,本文首先采用深度学习网络获得效果良好的单幅RGB图像的显著图。接着,提取图像的多种类型特征建立多图模型,采用流形排序算法初步检测到协同显著性目标。然后使用基于深度信息的显著图对初始的协同显著图进行优化,最后使用秩约束算法将多种显著信息进行融合,在进一步增强目标显著性的同时降低了非显著区域的影响。在标准数据集上的检测结果证明了本文方法的优越性能。
图1 RGB-D图像协同显著性检测平台
1 RGB-D图像的协同显著性检测
1.1 基于DHSNet的单幅图像显著性检测
1.2 基于多视角信息融合的图像协同显著性检测算法
(1)多图模型
(1)
式中xg,j为节点xg,i的近邻节点,g表示某一种图像特征。采用多种类型的图像特征建立多图模型,其损失函数为:
(2)
(3)
采用迭代的方式对式(3)求解。分别对f以及β求导,有:
(4)
固定f求βg:
(5)
固定β可以求得f:
(6)
(2)协同显著性检测
(7)
其中t表示超像素, rep(·)为在Z个图像中某一超像素被记为显著目标的次数。通过该算法过程,不仅可以在单幅图像显著图的基础上增加未标记的协同显著区域,而且抑制了非协同显著区域。
1.3 基于深度图的显著性检测及融合
对比因子类似于人类视觉系统的感受野,因此对比线索广泛用于显著性度量。对于图像Ii的任一像素点ra,定义特征对比线索[12]为:
(8)
与RGB图一样,深度空间里唯一的距离信息也可以增强目标的显著性。D(ra,rb)为像素ra和rb的深度信息差异,也可以看作是相对显著程度,ω(ra,rb)是空间权重项,分别定义为:
(9)
其中,d(ra,rb)是像素ra和rb的欧式空间距离,α2为常数控制空间权重。在视觉注意机制中,人们更倾向于关注图像的中心区域。因此引入空间偏置进行平滑:
(10)
式中第一项反映了中心偏置,la为像素坐标,N是高斯核函数,θ为图像中心,方差σ2为归一化后的图像半径。第二项为深度信息偏置,定义为:
Φ(da)=(max{da}-da)γ/q
(11)
其中,q=max{da}-min{da},为深度图中距离da最远和最近的像素之间的距离,γ为平衡参数。借助于中心偏置,基于深度图的显著性检测模型可以定义为:
WD(ra)=W(ra)·Ws(ra)
(12)
基于深度信息的显著图虽然包含了重要的显著信息,但同时也要进一步去除非协同显著的区域。考虑到单幅图像的显著图S1基本包含了显著区域,首先采用掩码的方式大致剔除非前景区域,然后考虑如下的融合方法:如果协同显著区域的显著值较大则将其保留下来,否则应将其与基于深度信息的显著图进行线性拟合,即:
S3(ra)=
(13)
1.4 基于秩约束的融合算法
s.t.F=R+E
(14)
(15)
(16)
2 实验结果及分析
2.1 数据集及评价标准
Cosal150数据集目前被广泛用于RGB-D图像协同显著性检测。实验中,令α2=0.4,ηg=0.01,γ=5,ρ=0.5,δ=0.01,σ2=1,ψ=0.05。对于RGB图像分别抽取颜色特征以及纹理特征,同时通过FCN[15]深度网络抽取Conv1_2层特征和Conv5_3层特征,因此G=4。在实验中经过MAE测试令λ=1.2。在秩约束融合过程中,将S1、S2、S3以及通过LI G等[16]设计的深度学习模型获得的单幅图像显著图进行融合。为了定量比较试验效果,采用准确率-召回率(Precision-Recall)曲线和平均绝对误差(MAE)两种评价规则。准确率与召回率曲线是通过改变显著阈值判断像素是否显著获得的。MAE是显著图和真实标注图之间的平均绝对误差,定义为:
(17)
其中,S(x,y)为算法预测的显著图,GT(x,y)为标注的真实显著图,W、H分别为图像的宽度和高度。
2.2 效果对比
将本文提出的算法与其他协同显著性检测方法做对比。对于RGB图像,主要与模型CB[6]、HS[7]、SCS[11]进行对比。针对RGB-D图像,主要与代表性的检测模型MFM[10]、IC[9]进行对比。实验结果如图2以及表1所示。可以看到,本文方法在PR曲线上大幅领先其他方法。对于MAE,本文方法取得了最小值0.093,相比MFM下降了32.61%。
图2 PR曲线对比
ModelCBHSSCSMFMICourMAE24.227.119.713.817.99.3
2.3 算法分析
为了证明多图模型以及深度信息的重要作用,对算法模型进行逐步分析。实验结果如图3及表2所示。从PR曲线可以看到在采用多图模型后(MG),检测结果与单图模型[8](SG)相比有显著提升,对应的MAE下降了30.00%。加入深度信息后(MG-D),PR曲线进一步提升,同时MAE相比MG下降了6.67%。进一步地,在采用秩约束算法融合显著信息(our)后,PR曲线达到最优,MAE也获得了最小值0.093,与MG-D相比继续下降了5.10%。该分析实验表明,深度信息在图像协同显著检测中起到巨大作用,同时融合多种显著信息能有效提升检测效果。
图3 模型内部PR曲线分析
ModelSGMGMG-D ourMAE15.010.59.89.3
3 结论
本文提出了一种基于多视角信息融合的RGB-D图像协同显著性检测算法。该算法通过使用多种类型的图像特征建立多图模型,有效克服了单一图模型在检测过程中的信息丢失问题。实验还表明融合深度信息能有效提升协同显著性检测效果。值得指出的是,本文提出的方法不仅适合RGB-D图像协同显著性检测任务,也同样适用于RGB图像的协同显著性检测。接下来的工作将更好地融合深度特征以及采用深度学习方法进行RGB-D图像的协同显著性检测。