DEL分割算法对SSLS算法的改进

2019-11-09王宝艳杜松林

小型微型计算机系统 2019年10期

王宝艳,张铁,李凯,杜松林

1(东北大学计算机科学与工程学院,沈阳 110004) 2(东北大学秦皇岛分校通信工程学院,河北秦皇岛 066004) 3(燕山大学信息科学与工程学院,河北秦皇岛 066004)E-mail:wangbaoyan2005@163.com

1 引言

图像分割与显著目标检测这两个任务具有较强的相关性.图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同.通常,分割区域的个数可以通过调整算法的参数来确定.理想的分割算法不但要保证过分割(精细分割)下分割的有效性,还要考虑分割数目较小时(粗糙分割)分割的有效性.显著目标检测是指将图像中显著的目标检测出来.由于显著目标也属于目标,若通过图像分割算法可以将目标有效地分割出来,那么显著目标的检测结果可能会因此而受益.

目前,很多学者从事基于图像分割算法进行显著目标检测的研究[1-4],他们大都采用的是超像素分割方法.通常,用于显著目标检测的超像素分割数一般控制在200或300左右,这样的分割虽然可以保证同一超像素内像素间的相似性,但无法保证不同超像素间的差异性.对于现在流行的超像素分割法[5],虽然理论上可以通过调整其参数产生较大的超像素分割区域,但往往得到的分割区域并不符合人的感知.除此之外,也有一些研究学者尝试基于其他的图像分割算法建立显著目标检测模型[6-8],比如mean-shift方法[9],图的分割方法[10]等.但由于这些算法并不能很有效地、准确地分割出可感知的区域,从而导致最终的显著目标检测效果并不理想.这也是为什么至今很多研究学者仍倾向基于分割区域数较多的超像素分割方法进行显著目标检测的原因.

尽管超像素分割被广泛地应用到显著目标检测领域[1,3,11,4],但对于一些复杂图像,紧密、小区域的超像素往往会导致同一显著目标的显著性是分片的,不光滑的.事实上,这与算法是基于超像素分割计算的显著性值有关.因此,我们尝试引入一种更可靠的图像分割方法(精细和粗糙分割均有效)来提高显著目标的检测结果.

卷积神经网络(CNNs)的研究在最近几年取得了巨大的进展,它在计算机视觉方向的广泛应用同样也鼓舞一些研究者尝试将卷积神经网络研究用于准确的、有效的图像分割上[12].这势必会给显著目标检测的研究带来更多的启发.Liu等人[13]最近提出了一种基于深度嵌入学习的图像分割算法(DEL),这种算法以超像素分割为基础,通过计算相邻超像素间的相似性对超像素进行合并,从而实现了图像的有效分割.值得一提的是,图像的分割区域数可以通过相似阈值进行控制.同时,此算法的运行速度也很快.

由于显著目标检测在计算机视觉方面的广泛应用[14-17],许多学者从事此领域的研究,并建立了一些经典、有效的算法[18].Wang 等人[19]提出了SSLS算法,此算法对于一般图像的显著目标检测是比较有优势的.但对于复杂图像,检测效果不是很理想.因此,我们考虑利用有效的图像分割算法DEL对SSLS算法进行改进,以提高显著目标的检测结果.不失一般性,这种做法同样适用于其他显著目标检测算法的改进.虽然本文提出的算法思想比较简单,但实验结果表明,改进后的检测结果明显优于原来算法的检测结果.同时,相对于目前流行的显著目标检测算法,本文提出的改进算法也是有一定优势的.这表明,有效的图像分割算法在一定程度上会提高显著目标的检测结果.本文的创新点有三个:

1)将基于深度学习的DEL分割算法引入到显著目标检测中,通过DEL算法对SSLS算法进行改进.不失一般性,这种方法同样可以应用到一些其他显著目标检测算法的改进上.

2)提出了多尺度显著目标的检测算法,尤其是将深度特征引入到多尺度显著性图的融合算法中.

3)本文在三个数据集上从多个评价指标分析改进算法的实验结果.

2 相关工作

本文通过DEL分割算法对SSLS算法进行改进,因此本节只对这两个算法的相关内容进行简要介绍.

2.1 图像分割算法

图像分割的目的是将一幅图像划分成有特别意义的不相交子区域,并且每个区域具有最大的相似特性和相似意义.由于图像类型、格式及表现方式的多样性和复杂性,图像分割目前仍有很多待解决的问题,也依然是一个研究热点[20].Shi等人[21]将图像分割转化为一个图割问题.Comaniciu等人[9]提出了Mean Shift算法.Felzenszwalb等人[10]提出了一种有效的基于图的EGB算法.基于边缘的gPb算法[22]通过多尺度的局部特征和谱聚类对图像的边缘进行检测,然后基于分水岭算法将这些边缘转化为分割问题.

随着卷积神经网络(CNNs)的广泛研究,一些研究者考虑将卷积神经网络引入到图像分割的研究上[12,13].DEL算法以超像素分割为基础,利用特征嵌入学习网络得到超像素间的相似性,依据相邻超像素间的相似性,对相邻的超像素进行合并,实现图像的分割.此算法的超像素分割区域是利用SLIC算法的GPU版本—gSLIC1得到的,每个超像素大约包含64个像素.特征嵌入学习的网络结构是基于VGG16 网络[23]建立的,它将VGG16网络的第5层池化层和3个全连接层删除,同时,第4层池化层的步长改为1.五个Group卷积层的输出分别同32个,64个,128个,256个和256个3*3的卷积核做卷积,然后将卷积后的输出分别同32个,64个,64个,128个和128个1*1的卷积核做卷积,所得结果再进行L2标准化.考虑到随着网络层数的加深,学习到的特征就会越来越粗糙.除此之外,由于精细的特征会包含图像更多的细节信息,而粗糙的特征会反映更多的全局信息.因此,此网络将五个Group卷积层得到的特征图聚合,以便同时反映粗的全局信息和细的局部信息.聚合后的特征图同256个3*3的卷积核进行卷积.然后,将输出结果同1*1的卷积核进行卷积,从而得到64维的特征嵌入空间.最后,网络对特征嵌入空间进行池化操作,将每个超像素对应的特征向量输出.根据超像素的特征向量计算相邻超像素之间的相似性,并与阈值作比较,将相似的超像素进行区域合并.

2.2 基于图的显著目标检测算法

Wang等人[19]提出的SSLS算法是基于图的显著目标检测算法.在这节中,我们回顾一下这类显著目标检测算法.算法有2个关键的环节:

1)显著种子的选取.通常,可靠的背景种子和前景种子作为显著种子.对于背景种子的选择,依据“背景先验”的知识,一般选取图像的上、下、左、右四个方向的边界作为背景种子.然而对于一些诸如显著目标接触图像边界等复杂图像而言,研究学者尝试对选取的边界种子进行过滤[24,25].Li等人[24]在进行背景显著性估计之前通过定位、排除错误的边界从而优化了边界对整体估计的影响.蒋寓文等人[25]利用“背景的连续性特征”提出了一种基于背景先验的显著区域检测算法.对于前景种子的选择,不同于[3,19,26-27]通过自适应的阈值对第一阶段的显著性图进行二值分割,选取显著性值大于阈值的超像素作为前景种子,Fu等人[28]将粗糙显著性图与Harris和Foci凸包方法结合,二值化得到前景标签.Li等人[29,30]结合“中心”和“似物性采样”等先验知识确定前景标签.Kong等人[31]采用“模式挖掘”的方法获得的前景种子.

2)显著模型的建立.显著模型一般有测地距离法,随机游走法和能量函数法.具体地,WEI等人[1]通过未标签节点与标签节点的测地距离来计算未标签节点的显著性值.文献[4,32]都是基于随机游走法得到的显著性图.能量函数法将显著目标检测问题转化为求能量函数最小值的一个优化问题[3,28-29].能量函数的构造通常包含smoothness 和fitness项,smoothness项要求相邻节点的显著性值差别不会太大,fitness项要求节点真正的显著性值不应当与其初始的显著性值有太大的偏离.除此之外,Li等人[29]构造的能量函数又考虑了局部smoothness约束项,这项要求每一个节点的显著性值不应

1http://www.robots.ox.ac.uk/～victor/gslicr/.

当与此节点邻域的平均显著性值偏离过大.Fu等人[28]构造的能量函数同时加入了“流形重构”项,这项的引入使得初始特征空间的“流形重构”在新的特征空间仍旧被保持.与既有的基于图的显著目标检测算法不同的是,本文采用的SSLS算法的两阶段显著模型是基于两阶段显著种子所在类的不同而建立的,而且这两个模型的关系既是互补的,又是相辅相成的.特别地,第 2 阶段扩散模型中汇点的引入,既提高了检测效果,又增强了模型的鲁棒性.

3 本文提出的改进的SSLS算法

依据图像分割与显著目标检测这两个任务的相关性,我们有理由相信,高效的图像分割算法一定会提高显著目标的检测结果.DEL算法无论是在精细尺度,还是在粗糙尺度的分割上均有很大的优势,因此本文考虑利用DEL算法对既有的显著目标检测算法进行改进,主要介绍对SSLS算法的改进.不失一般性,算法的思想还可用于其他算法的改进.改进的SSLS算法的一般步骤为:首先,利用SSLS算法得到图像的初始显著性图;利用DEL算法得到的多尺度分割图对初始显著性值进行区域化的重新分配,从而形成多尺度的显著性图;最后,基于DEL算法学习到的深度特征,将多尺度的显著性图深度融合,从而得到最终的显著性图.本节将对上述步骤逐一展开.

DEL算法是以超像素分割为基础进行区域合并的,不妨假设超像素集为S={S1,S2,…,SM},M为超像素的个数.对于DEL算法,首先通过特征嵌入学习网络得到超像素的相似性,然后经验性地选取10个T的值作为区域合并阈值,通过相似性与阈值的比较,将相似的超像素合并,从而得到由细到粗的10个尺度的分割图.假设第i个尺度分割图的分割区域集合记为Ri=Ri1,Ri2,…,Riz,i=1,2,…,10,Z为第i个分割尺度的分割区域数.值得注意的是,后一个分割图是以前一个分割图为基础,通过计算相邻超像素的相似性,进行合并的.

对于一幅图像I,假设由SSLS算法得到任意像素j的显著性值为sj(j=1,2,…,N).第i个尺度分割区域Rik的显著性值sik定义为区域Rik所包含像素的显著性值的平均值:

(1)

其中,sj由SSLS算法确定,|Rik|表示区域Rik所包含的像素的个数.将区域的显著性值作为区域所包含像素的显著性值,即可得到10个不同分割尺度下的显著性图.图1为两幅图像在不同阈值下的多尺度分割图及显著性图,其中,每一幅图像的第一行分别为原图,改进算法分割阈值T=0.01,0.06,0.11,0.16,0.21对应的显著性图;第三行分别为由SSLS算法得到的显著性图,改进算法分割阈值T=0.26,0.31,0.36,0.41,0.46对应的显著性图;第二行和第四行分别表示DEL算法中阈值T分别取0.01,0.06,0.11,0.16,0.21及0.26,0.31,0.36,0.41,0.46时对应的分割图.如第一幅图像的分割图及其对应的显著性图所示,随着阈值的增加,分割区域越来越粗糙,显著目标猩猩被更加准确、完整地分割出来.但这并不意味着,相对于精细尺度,粗糙尺度的分割对显著目标的检测一定是最有效的.因为对于一些复杂的图像,粗糙尺度的分割可能会失效,而这会直接影响到显著目标的检测效果.如图1中第二幅“枫叶”的图像所示,显著目标枫叶与背景的颜色很相近,原则上,这类图像的显著目标比较难检测.对于此图像的显著性图,相对于粗糙尺度的分割,精细分割尺度下显著目标的检测结果更令人满意.其原因是由于从第5个分割尺度之后,图像的分割结果就很差了,这直接影响了显著目标的检测.综上分析,对于变化的图像而言,基于单一尺度的分割图进行显著目标检测并不是一种合理的做法.因此,本文考虑将多尺度的显著性图进行融合,形成最终的显著性图.

图1 不同阈值下的多尺度分割图、显著性图Fig.1 Corresponding multi-scale segmentation graphs and saliency maps with various thresholds

显著图的融合主流方法包括线性相加进行平均融合[33,34],直接相乘融合[35]等.Tong 等人[36]提出的颜色加权融合是一种较为新颖的思路,该方法充分考虑了超像素内像素点的颜色差异,得到的显著目标检测效果更好.Li等人[2]以像素点与其所属超像素的颜色差异为权值,将不同尺度的显著性值进行加权求和.与[2]不同的是,本文提出的算法是以像素点与其所属区域的深度特征差异为权值的.这里,区域是由DEL算法分割得到的,而特征是通过DEL算法中特征嵌入学习网络学习得到的.特征嵌入学习网络中得到的深度特征同时反映了图像的局部、全局信息,因此,相对于单纯的颜色特征,本文利用深度特征融合多尺度的显著性图,融合效果更加有效.

考虑到用于显著性融合的深度特征是像素级别而非超像素级别的,因此需要将特征嵌入学习网络中 “超像素池化”的过程略去,从而得到深度特征.不妨假设任意像素p的深度特征为xp,其显著性值用sp表示.多个尺度的显著性图进行如下的深度融合:

(2)

(3)

其中,k是区域的索引,i是区域尺度的索引,Z为第i个尺度下分割区域的个数,ε是一个小的常值.xik表示区域Rik中心的特征向量,由公式(3)所确定,它是区域Rik包含的所有像素特征向量的平均值.‖xp-xik‖2表示从像素p到区域Rik中2为方便起见，后面将 FB-measure记为 F-measure.

心的特征距离.δ(·)为指标函数.公式(2)即为多尺度的显著性图经过深度融合后得到的任意像素p的显著性值.

值得一提的是,由于SSLS算法简单地选取图像的四个边界为背景种子,对显著目标位于边界的图像而言,这种做法会导致显著目标接触边界的区域可能不会被检测出来.然而,我们惊奇地发现,在粗糙尺度分割下,本文改进的SSLS算法却可以将接触边界的显著目标完整地检测出来,而这主要是归功于DEL算法在粗糙尺度下可以分割出符合人感知的较完整的目标.如图1的一幅图像所示,图中有一只接触边界的猩猩,利用SSLS算法只检测出猩猩的头部和上半部分身体,并没有将猩猩接触边界的部分检测出来.但改进的SSLS算法在粗糙尺度分割下,却可以将猩猩较完整地检测出来,包括接触边界的猩猩的下半部分身体,只不过此时的检测会使猩猩整体对应的显著性值适当的降低.由前面的分析可知,单一地利用某一尺度的显著性图作为最终的检测结果是不合理的,因此我们考虑多尺度显著性图的融合.虽然这种做法可能会破坏显著目标检测的完整性,但相对于SSLS算法,融合后的显著性图对于接触边界的显著目标的检测,其完整性还是有一定的改善.

4 实验结果

本节将主要介绍改进的SSLS算法在三个数据集上的实验.这三个数据集分别是ECSSD[37],DUT-OMRON[4]和PASCAL-S[38].ECSSD是一个包含了1000幅复杂场景的数据集.DUT-OMRON包含了5168幅图像,这些图像通常有一个或两个显著目标,且背景较复杂.PASCAL-S 包含了850幅具有多个复杂目标和杂乱背景的自然图像.这个数据集取自PASCAL VOC2010[39].

4.1 参数的设定及评价指标

为了得到10个粗细尺度不同的分割图,DEL算法中的阈值T分别取为0.01,0.06,0.11,0.16,0.21,0.26,0.31,0.36,0.41和0.46,minimum-size分别设定为0,0,0,0,3,3,4,4,4,4,初始超像素数取为200.公式(2)中ε的取值设定为0.1.

本节选取3种普遍被认可的、标准的、易于计算的评价指标对改进的算法进行评价,这些评价指标分别是正确率(precision),召回率(recall),Fβ-measure.为方便起见,记S为标准化到[0,255]的被预测的显著图,M为S的二值掩码,G为显著目标 Ground-Truth 的二值掩码,|·|表示掩码中非零元素的个数.

正确率,召回率:通过以上M和G的定义形式来计算正确率和召回率:

(4)

Fβ-measure:只使用正确率和召回率并不能综合地评价显著性图的质量,为此,评价指标Fβ-measure被提出来,它由非负权值β2对正确率和响应率做加权调和平均得到的:

(5)

为了更侧重于考虑正确率,β2通常取为0.3,其原因是相对于召回率,正确率更加重要[40]2.

4.2 SSLS及其改进算法的比较

本节通过三个数据集对SSLS及其改进算法进行评价,分别是ECSSD数据集,DUT-OMRON数据集和PASCAL-S数据集.图2分别表示SSLS及其改进算法在三个数据集上的比较结果.图2的左图为P-R曲线,右图通过正确率,响应率和F-measure的指标来评价原算法与改进算法.综合多种评价指标分析,改进的SSLS算法在一定程度上了提高了原算法的检测结果.

图2 SSLS及其改进算法在三个数据集上的比较结果Fig.2 Comparison results of SSLS and improved SSLS for 3 datasets

图3 改进的SSLS算法与9种流行算法在ECSSD数据集上的P-R曲线Fig.3 P-R curves of improved SSLS and 9 state-of-the-art algorithms for ECSSD dataset

4.3 改进的SSLS算法与既有算法的比较

除了与原算法进行比较外,我们还选取目前流行的9种显著目标算法同改进算法进行比较.测试的数据集仍是ECSSD数据集,DUT-OMRON数据集和PASCAL-S数据集.9种显著目标检测算法分别为MC[4],MR[3],GS[1],wCtrO[11],HS[37],DSR[2],MPDS[28],SS[41],MLSP[42].图3-图5为改进的SSLS算法与9种流行算法分别在ECSSD,DUT-OMRON和PASCAL-S数据集的P-R曲线.图6-图8通过正确率,响应率和F-measure的指标对改进的SSLS算法与9种算法进行比较.综合多种评价指标分析,相对于目前流行的 9 种显著目标检测算法,改进的SSLS 算法具有较大的优势.

除了利用评价指标分析本文提出的改进算法外,我们还将从直观的视觉角度来评价改进SSLS算法的检测效果,并与一些既有的算法进行比较,其结果如图9所示.这里,第1至第2行,第3至第4行,第5至第6行图像分别来自数据集DUT-OMRON,ECSSD和PASCAL-S.第1列是原图像,第2列是原图对应的GT,第3列至第10列的显著性图分别是由算法DSR[2],MC[4],wCtrO[11],MR[3],GS[1],HS[37],SSLS[19]和改进的SSLS算法得到的.从各种算法的显著性图中可以看到,改进的SSLS算法在较好地抑制背景的同时,较完整地将显著目标检测出来.尤其对于接触边界的显著目标也可以较完整地被检测出来.

图4 改进的SSLS算法与9种流行算法在DUT-OMRON数据集上的P-R曲线Fig.4 P-R curves of improved SSLS and 9 state-of-the-art algorithms for DUT-OMRON dataset

图5 改进的SSLS算法与9种流行算法在PASCAL-S数据集上的P-R曲线Fig.5 P-R curves of improved SSLS and 9 state-of-the-art algorithms for PASCAL-S dataset

图6 改进的SSLS算法与9种流行算法在ECSSD数据集上的正确率,召回率和F-measure指标Fig.6 Precision,Recall and F-measure index of improved SSLS and 9 state-of-the-art algorithms for ECSSD dataset

图7 改进的SSLS算法与9种流行算法在DUT-OMRON数据集上的正确率,召回率和F-measure指标Fig.7 Precision,Recall and F-measure index of improved SSLS and 9 state-of-the-art algorithms for DUT-OMRON dataset

图8 改进的SSLS算法与9种流行算法在PASCAL-S数据集上的正确率,召回率和F-measure指标Fig.8 Precision,Recall and F-measure index of improved SSLS and 9 state-of-the-art algorithms for PASCAL-S dataset

图9 不同方法的显著性比较结果Fig.9 Saliency detection results for different methods

5 结论

考虑到图像分割与显著目标检测两者之间较强的关联性,本文通过引入一种基于特征嵌入学习网络的高效分割算法(DEL)对既有的SSLS算法进行改进.对于变化的图像,单一尺度分割图的有效性很难保证,这必然会影响到后续算法的改进.因此,我们利用多尺度的分割来弥补单一尺度分割的不足.改进的显著性值实际上是利用多尺度的分割图对SSLS算法得到的初始显著性值进行区域化的重新分配.除此之外,改进算法独创性地将特征嵌入学习网络得到的深度特征引入到多尺度显著性图的融合中.值得注意的是,融合用到的深度特征并不需要通过其他的网络单独学习,它可直接通过DEL的分割算法学习得到,从而提高了计算效率.不失一般性,对SSLS改进的思想还可以应用到其他一些显著目标检测算法上.本文通过三个数据集对改进算法进行评价.实验结果表明,改进算法在多个评价指标上均超越了原算法.同时,相对于目前流行的显著目标检测算法,它也是有一定优势的.除此之外,从视觉上对显著性图的直观比较发现,改进后的检测不但更能突出显著目标的整体性、一致性,对背景的抑制也更加有效.因此,虽然本文提出的改进算法的思想很简单,但改进后的效果却比较显著.