多特性融合的多尺度显著性检测

2019-08-13岳星宇赵应丁杨文姬杨红云江西农业大学计算机与信息工程学院南昌330045

小型微型计算机系统 2019年8期

关键词：金字塔显著性像素

岳星宇，赵应丁，杨文姬，杨红云，3，邵鹏(江西农业大学计算机与信息工程学院，南昌330045)

2(江西农业大学软件学院，南昌330045)

3(江西省高等学校农业信息技术重点实验室，南昌330045)

E-mail:ywenji614@163.com

1 引言

随着计算机视觉的发展，显著性检测引起越来越多研究者的关注.显著性检测的研究目的是希望计算机可以模仿人眼的视觉特征，高效快速地发现场景中最具吸引力的区域.因此，显著性检测结果应该符合人眼的视觉特征［1］，检测结果必须与人眼观察到的结果一致.显著性检测在计算机视觉中有着广泛的应用.例如:对象检测［2，3］，对象识别，目标跟踪［4］，图像分割［5］和视频缩放［6］等.现有的显著性检测算法可分为两类:一类是自顶向下，由任务驱动的方法［7-12］.这类方法通常是为特定任务而设计，它们以监督的方式学习目标的各种特征，并应用学习的信息来检测对象.另一类是自底向上，由数据驱动的方法［13-16］.这类方法通常依赖于图像的低层次特征，比如颜色和亮度等.此外，它们也会使用有效的先验信息，比如边界先验和中心先验等.本文主要讨论自底向上的显著性检测算法.

Itti等人［17］最早提出符合人类视觉注意机制的显著性检测方法，基于多尺度特征对比度(包括亮度、颜色和方向)确定图像显著性.Liu等人［18］使用条件随机场融合图像的显著性特征，从背景中分离显著性目标.Goferman等人［19］综合考虑颜色和空间信息，利用上下文感知(Context-Aware，CA)改善显著性检测结果，缺点是很容易在物体边界处产生较高的显著性值.Zhai等人［20］将像素显著性定义为当前像素与其余所有像素的差异性，方法的缺点是不能完整高亮显著性区域，会受到噪声的影响.Cheng等人［21］利用颜色直方图信息提出一种基于直方图和基于区域的显著性检测方法.Yan等人［22］提出一种层次传播的显著性检测方法，较好地解决了图像中小尺度高对比度图案对显著性检测结果的影响.Jiang等人［23］将图像对象性加入到显著性检测，通过融合独特性、聚焦性和对象性三个视觉线索获得图像显著图.Wei等人［24］利用边界先验，将区域的显著性值定义为其与边界区域的测地线距离.Yang等人［25］同样利用边界先验，将图像四条边界上的区域假设为背景，使用流形排序方法检测显著性目标.使用边界先验的方法的缺点是当显著性目标出现在图像边界时，检测结果误差较大.

本文使用图像金字塔表示多尺度图像，基于对象性，背景性和外观性检测显著性目标，最后融合多尺度检测结果得到最终显著性图，这一方式能够有效提升在复杂背景图像中，显著性检测结果的准确性.

2 多特性融合的多尺度显著性检测方法

本文提出的方法主要分为三个阶段，首先是构建图像层次的多尺度图，然后在单一尺度中，分别使用对象性，背景性和外观性计算显著性，通过融合三种特性的计算结果获得单尺度显著性图，最后融合所有的单尺度显著性图获得最终的显著性图.2.1至2.3对各阶段做了详细介绍.方法流程图如图1所示.

图1 本文方法流程图Fig.1 Diagram of our method

2.1 图像层次的多尺度图的构建

背景区域可能在不同尺寸下具有相似性，并且在整个图像中广泛分布，构建多尺度图像可以在抑制背景区域同时，提升显著性区域和背景区域之间的差异性.和传统基于区域层次的多尺度表示方法不同的是，本文采用图像金字塔构建基于图像层次的多尺度图像.

给定一副图像 I，图像金字塔可表示为 I={I1，I2，…，IM}，M表示图像金字塔的层数，Im表示图像金字塔第m层的图像.I1表示图像金字塔底层，IM表示图像金字塔顶层.

2.2 单尺度显著图的计算

在图像金字塔的单层图像中，首先使用高效的SLIC(Simple Linear Iterative Clustering)超像素分割方法生成超像素，然后利用对象性、背景性和外观性分别计算显著性，最后将三种计算结果融合得到单尺度的显著性图.

2.2.1 超像素的生成

早期的很多显著性检测算法在像素层次上进行显著性分析，得到的检测结果往往很差，如图2所示.这类方法很难处理背景复杂的自然图像，检测结果容易受图像中噪声的影响，且不能完整突出显著性目标，同时伴有大量的计算花销.将图像使用超像素分割成互不重叠的区域，能够有效避免上述问题，大大减少后续计算的花销.

图2 LC、FT、HC 检测结果Fig.2 Saliency detection results of LC，FT and HC

以图像金字塔第m层图像为例，使用SLIC对其进行分割，结果表示为，它包含Km个超像素，其它层图像的分割结果也采用同样的方式表示.将图像分割成超像素可以保留图像的主要信息而忽略不必要的细节和噪声，增强对图像中复杂纹理的鲁棒性.超像素的颜色使用超像素内所有像素在CIE Lab颜色空间内的平均颜色表示，图像金字塔第m层图像的第i个超像素Rmi的颜色可通过F(Rmi)获得.p表示超像素中的像素，pf表示像素p的颜色向量，Num(表示超像素内的像素数目.

2.2.2 基于对象性的显著性

在图像金字塔的单层图像中(以第m层为例)，以任意像素p为中心，随机选择图像中Ω个矩形框，利用［26］中的方法计算每个矩形框包含对象的概率值，记为P(ω)，那么像素p的对象性值计算公式为:

式中:p(ωp)表示像素p所在矩形框ωp包含对象的概率值;Obj(p)表示像素p的对象性值.根据像素的对象性值，则第i个超像素Rmi基于对象性的显著性值为:

其中ni表示内像素的个数.

2.2.3 基于背景性的显著性

在自然图像中，图像四周更可能属于背景，称之为边界先验.但是当显著性目标位于图像四周时，简单地将图像四周认定为背景的方式会造成较大误差.受文献［25］和文献［27］启发，首先根据边界先验选取位于图像四周的超像素，然后根据边界连接性对选取的超像素进行筛选，将筛选后的结果作为背景.将剩余超像素相对于背景的流形排序得分定义为其基于背景性的显著性值.

流形排序可以简单理解为:定义确定的种子节点作为查询节点，根据剩余节点与查询节点之间的相关性进行排序.具体而言，给定一组数据集 Y={y1，…，yl，yl+1，…，yn}∈瓗m×n，m为数据特征维数，n为数据的个数，其中某些数据被标记为查询节点.排序函数可以被定义为:f:Y瓗n，其目的是根据给定的查询节点，为每一个数据yl分配对应的排序得分.f可以看成是一个向量 f=［f1，f2，…，fn］T.同时，定义一个指示向量 δ =［δ1，δ2，…，δn］T，其中当 yl是查询节点时 δl=1，否则δl=0.建立这组数据的图模型G=(V，E)，其边权重使用关联矩阵 W=［wij］n×n表示，本文 wij通过式(7)计算;度矩阵 D=diag{d11，…，dnn}，其中 dii= ∑jwij.那么在给定查询节点后，剩余节点对于这些查询节点的排序得分可以通过对公式(3)求最优解获得.

其中参数μ用于平衡平滑约束(第1项)和拟合约束(第2项)条件.

可以通过将式(3)导数设置为0，获取最优解.最终结果使用矩阵的形式可以表示为:

其中 I为单位矩阵，α=1/(1+μ)，实验时 α 取值为0.99，s是规范化拉普拉斯矩阵，S=D－1/2WD－1/2.采取非规范化的拉普拉斯矩阵对公式(4)进行优化，结果表示为:

自然图像中的对象和背景区域在空间布局上是完全不同的，对象区域与图像边界的连接性小于背景区域，如图3所示.假设图像被划分为若干个较大的区域，那么区域R的边界连接性可以定义为其接触到图像边界部分的周长占其整体面积的平方根的比例，公式表示为:

其中sp为区域R中包含的超像素，sp∈Bnd表示该超像素位于图像边界.在实验中，将阈值设置为1，即BndCon＞1的区域认为是图像背景.

使用流行排序的方法计算显著性值时，首先需要对图像建立图模型G=(V，E)，然后根据边界先验和边界连接性选取查询节点，然后计算剩余节点相对查询节点的排序得分.

图3 边界连接性示例Fig.3 An illustrative example of boundary connectivity

本文使用SLIC算法生成的超像素作为图中节点，节点的集合记为V，将相邻节点之间通过一条无向边连接并赋予权值，同时也将当前区域和与它邻接区域相邻的区域所对应的节点做连接并分配权值，有效地利用超像素之间的空间关系，所有边的集合记为E.权重矩阵使用W表示，W中大多数元素值为0.两个节点i、j之间的权重计算公式如下:

式中的ci和cj表示i和j对应的超像素在CIE Lab颜色空间中对应的点;σ是控制权重强度的常数.

在单层图像金字塔中(以第m层为例)，将经过边界先验和边界连接性筛选后的节点作为查询节点，按式(5)计算图中剩余节点相对于给定查询节点的排序得分，第i个超像素

2.2.4 基于外观性的显著性

通过观察图像发现，相对于显著性目标区域，背景区域更加容易识别，这是由自然图像中的背景区域的外观性决定的，背景区域更大而且更加均匀，背景区域内的超像素之间更加容易相互连接.因此，本文将外观性用于显著性检测中，认定背景区域比显著性目标区域更加容易连接到图像背景.超像素基于外观性的显著性定义为其连接到图像背景最短路径的长度，公式表示如下:

其中BP表示处于图像四周且边界连接性大于1的节点集合，B属于BP;weight(Pi，Pi+1)表示节点Pi和其邻节点Pi+1之间边的权重.{P1，P2，…，Pn}表示超像素到B路径上的节点集合.

2.2.5 多特性融合

单层图像最终的显著性图通过融合基于对象性，背景性和外观性计算的结果获得.融合方式为:

Im表示第m层图像金字塔，Saliency(Im)为第m层图像金字塔的显著性图.Sobj(Im)表示第m层图像金字塔基于对象性的显著性值，Sby(Im)表示第m层图像金字塔基于背景性的显著性值，Sapp(Im)表示第m层图像金字塔基于外观性的显著性值;N(·)表示归一化操作.

2.3 多尺度显著性图融合

将图像金字塔每层图像的显著性图融合得到的显著性图即为最终的显著性图.在融合之前，需要将各层的显著性图修改为相同尺寸.最终显著性图融合方法为:

I即为输入图像;M代表金字塔层数，通过对比M取不同值时(M={1，2，3，4})的实验结果发现，当 M 从1变成2时，结果得到了提升，达到峰值，但当M从2到4时，其结果不断的变差.因此，本实验中M=2.

3 实验

本文在ASD数据集和ECSSD数据集上对所提方法进行了验证.其中ASD数据集是常用于显著性检测的公开数据集，包含1MGMR.http://kns.cnki.net/kcms/detail/11.2109.TP.20181007.2348.007.html000张图片及其对应的像素级标注的真值图，但其中图片多是背景单一，具有较为明显的显著性对象，因此检测难度较小.ECSSD数据集包含1000张图片及其对应的像素级标注的真值图，大多数图片背景复杂、显著性目标与背景相似，而且具有多个对象，大大增加了检测难度.图4是ASD数据集和ECSSD数据集的部分图片对比.

图4 ASD和ECSSD数据集部分图片对比Fig.4 Samples of ASD and ECSSD

3.1 视觉对比

将本文算法与 12 种(CA［19］，DSR［28］，GR［29］，PCA［30］，RBD［27］，SWD［31］，HDCT［32］，MR［25］，TLLT［30］，MCRC［27］，GNCSA［31］，MGMR1MGMR.http://kns.cnki.net/kcms/detail/11.2109.TP.20181007.2348.007.html)显著性检测算法进行对比，其中，MCRC、GNCSA和MGMR的数据来源于作者公开发表的论文，其余9种算法，先使用作者公开源的代码获得显著性检测结果再进行评价.视觉对比图如图5所示.

图5 本文同9种算法视觉对比图Fig.5 Saliency detection results of different methods

3.2 定量分析

Pre和Rec分别表示准确率和召回率;同其它方法一样，本文将μ的值设置为0.3.

将各算法的检测结果通过自适应阈值(阈值设置为平均显著性值的2倍)的方式进行分割，对比分割后的平均Precision、Recall和 F-measure，结果见图 7.图 7(b)中，由于 GNCSA和MGMR对应的论文中只明确公布了F-measure的数值(分别为0.719和0.7034)，没有对应 Precision和 Recall的明确数值，因此图中只显示F-measure的结果.人［36］提出的结构性度量(S-measure)方法对结果进行评价.

1)P-R曲线

P-R曲线是显著性检测最常用的评价标准.当P-R曲线越靠近右上角(坐标(1，1)处)，表明算法性能越好.各算法在ASD和ECSSD数据集上的P-R曲线如图6所示.图6(a)和图6(b)显示，本文方法的P-R曲线更靠近外侧，优于其它方法，特别是在ECSSD数据集上，优势更加明显.

2)F-measure

图6 各算法P-R曲线Fig.6 P-R curves of different algorithms

如图7(a)和图7(b)所示，在ASD数据集中，F-measure最高的3个算法分别为:本文算法(0.92)，MR(0.898)和 TLLT(0.896).在ECSSD数据集中，F-measure最高的三个算法分别为:本文算法(0.726)，GNCSA(0.719)和 MR(0.712).无论是在ASD数据集还是在ECSSD数据集，本文方法的F-measure均高于其它方法，充分证明了本文方法的有效性和先进性.

3)MAE

前面两种评价指标只考虑被正确检测为真正显著性目标的图像区域，而忽略被正确检测为背景的区域.因此本文采用了MAE来更加全面地衡量显著性图和Ground truth之间的相似性.MAE的计算公式如下:

S表示显著性检测结果，G是对应的真值图，Ix表示图像中的像素，IN表示图像中像素总个数.

MAE的值越小，则表示算法性能越好.各算法在ASD和ECSSD数据集上的MAE如表1所示.从表中可以看出，在ASD数据集中，本文算法的MAE值低于大多数算法，略高于TLLT，但在ECSSD数据集中，本文算法的MAE值明显低于TLLT等其它算法.这是由于ASD数据集中的大多数图像只包含单一对象且背景简单，TLLT方法能够准确地估计对象凸包，获得准确性较高的结果，但在更加复杂的ECSSD数据集中，TLLT方法估计的对象凸包位置不准确，导致后续传播错误较大，产生的结果也较差.

图7 自适应阈值分割后各方法的平均Precision、Recall和F-measureFig.7 Mean precision，recall，F-measure of different methods after Adaptive threshold segmentation

4)S-measure

除了以上3种常用的显著性检测评价标准，本文还使用了一种非二进制前景图评估方法——S-measure.S-measure从人类视觉系统对场景结构非常敏感的角度出发，使用结构性度量评估检测结果，使得评估结果和人的主观评价具有高度一致性.S-measure值越大表明算法性能越好.

表1 各算法MAE得分表Table 1 MAE of different methods

各个方法在ASD数据集和ECSSD数据集上S-measure得分见表2.表中数据表明，在ASD数据集上，本文算法的S-measure高于大多数方法，略低于RBD方法，这是因为在ASD

数据集上，显著性目标和背景差异较为明显，RBD可以准确检测出显著性区域，但在ECSSD数据集上，图像背景复杂，多数显著性目标与背景相似，检测难度较大，但本文算法表现出了较强的适应性，S-measure高于RBD，也明显高于其它算法.

表2 各算法S-measure得分表Table 2 S-measure of different methods

4 结束语

针对图像显著性目标与背景相似时，检测结果误差较大的情况，提出了一种新的方法，建立图像金字塔，对每一层图像，利用对象性、背景性和外观性获得不同的显著性检测结果，再将其融合得到单尺度显著性图，最后将多尺度显著性图融合，获得最终的显著性图.本文使用四种评价指标在ASD和ECSSD数据集上同12种显著性检测算法做对比，结果充分证明了本文方法的有效性和先进性.相比于其它12中检测方法，本文方法能够更加准确地检测到显著性目标，尤其在显著性目标和背景相似的情况下.考虑到未来会将本文算法用于手势识别中，接下来的工作会考虑利用更高层次的信息来增强算法对复杂背景的适应性，进一步提高显著性检测结果的完整性和准确度.