视觉显著性检测综述

2020-04-08温洪发周晓飞任小元颜成钢

杭州电子科技大学学报(自然科学版) 2020年2期

温洪发,周晓飞,任小元,颜成钢

(1.杭州电子科技大学自动化学院，浙江杭州 310018；2.中国电子学会，北京 100036)

0 引言

近年来，随着计算机技术以及移动互联网的快速发展，人们已然步入一个大数据时代。通过多种智能终端设备，例如智能手机、照相机、手提电脑等，可以方便快捷地获取海量的图像、视频信息，在充实人们生活的同时也无形提升了生活质量。不可避免的是，信息在爆炸式增长的同时也带来了大量的冗余信息，为信息的有效利用带来巨大的挑战，因而，如何从海量信息中选择出有效部分显得尤为关键。此外，人类对信息的筛选工作，主要是通过视觉系统及其神经系统来协调完成的。人类神经学[1-2]和认知心理学[3-4]的相关研究表明，人类在观察图像/视频时，往往只会被图像/视频中的局部区域所吸引，而对其余部分的信息并不关注。在人类视觉系统注意力机制的启发下，研究人员尝试利用计算机技术进行相应研究，即视觉显著性检测研究。

1 视觉显著性检测

一般来说，显著性检测研究按照原理上的差异被划分为注视点检测和显著性检测两个分支。注视点检测主要是利用眼动仪来跟踪人眼的运动轨迹，将采集得到的离散点作为显著点或视觉关注点，由此模拟人眼的视觉行为。但是，由于其复杂的原理和高昂的采集成本，使许多研究人员望而却步。而显著性检测以定位人类视觉最关注的区域为主要目标，并将其称为显著性区域，其余部分被定义为背景区域，一般显著性区域都是包含语义信息的特定区域。本文主要是针对后者，系统地介绍其相关研究，即视觉显著性检测研究。

视觉显著性指人类在观察某一区域时总会有最能引起其视觉关注的局部区域，该局部区域被称为显著性区域。视觉显著性检测主要是在模拟人类视觉系统的基础上，通过计算图像或者视频帧序列中每一个像素的显著性值来生成对应的显著性图，进而有效凸显其显著性区域，如图1所示。该研究方向是以神经学、心理学和计算机技术的发展为前提的，特别是近年来深度学习技术的井喷式发展，使得视觉显著性检测研究更进一步。目前，已经有众多的视觉显著性检测算法被提出，并且广泛地应用于图像分割[5-6]、目标检测[7-8]、视频压缩[9-10]和行人重识别[11-12]等领域。例如，在目标检测研究中，通过初期的显著性检测可以有效定位待检测的目标，后期只要针对显著性区域做进一步处理即可，极大地降低了计算复杂度。在视频压缩研究中，对通过显著性检测算法定位的前景区域进行高质量压缩，而对背景区域尽可能压缩，从而在有效节约存储空间的同时提升了传输效率。

图1 视觉显著性检测

2 视觉显著性检测研究现状

视觉显著性检测研究早在1998年就被Itti等[13]提出，并由此开始了相关的研究工作。目前，视觉显著性检测的研究经过多年发展，大致可以分为RGB图像显著性检测、RGBD图像显著性检测、视频显著性检测和协同显著性检测等多个方向。

2.1 RGB图像显著性检测

简单来说，RGB图像显著性检测就是在图像中找到最能引起视觉关注的物体或区域，其与许多图像处理领域的研究息息相关，逐渐成为热点的研究方向。早期的RGB图像显著性检测方法主要依赖图像中所包含的颜色[14]、纹理[15]和先验中心[16]等信息来获取显著性图。受视觉注意力机制的启发，对比度信息在RGB图像显著性检测中不容忽视，根据采样范围的不同，其可分为基于局部对比度的RGB图像显著性检测方法[13,17-18]和基于全局对比度的RGB图像显著性检测方法[19-21]。基于局部对比度的RGB图像显著性检测方法通过模拟人类的视觉注意力机制，对蕴含丰富信息的中心区域进行分析从而计算出显著性图。基于全局对比度的图像显著性检测方法则是通过利用中心区域与四周区域的直方图进行对比的方式得到显著性图。然而，当图像中前景和背景的对比度不足时，基于手工设计的特征无法准确地定位显著性区域，进而难以得到高质量的显著性图，如图2所示。

图2 基于手工设计特征的图像显著性检测方法

基于手工设计的特征描述符主要表征图像的低级特征，而忽视了其中丰富的上下文语义信息。最近，卷积神经网络(Convolutional Neural Networks, CNNs)[22]成功突破了传统手工特征的局限性，特别是在全卷积神经网络(Fully Convolutional Networks, FCNs)[23]出现之后，凭借其高效率和高性能的表现逐渐取代了常规的显著性检测方法。特别地，FCNs有效解决了像素标记问题，从而实现了端到端的RGB图像显著性检测，较好地凸显了物体的区域细节。例如，Hou等[24]在FCNs中引入了短连接以集成来自不同网络层的特征。Deng等[25]通过迭代学习网络中深层和浅层的特征来逐步完善显著性图。为了获得图像的多尺度特征，Zhao等[26]以图像块(Patch)作为卷积神经网络模型的输入，进而通过学习到的上下文信息获得显著性图。Chen等[27]利用注意力机制引导网络模型来提取和选择互补特征并将其融合以增强显著性图。Zhang等[28]设计了双向的信息传递模型用以实现更优的特征选择和融合。Zhao等[29]同时引入通道注意力机制和空间注意力机制，在突出有效特征的同时抑制了背景噪声。Luo等[30]提出了一种基于U-Net的结构，通过进行边缘损失约束来凸显显著性区域。

2.2 RGBD图像显著性检测

近年来，伴随着软、硬件技术的协调高速发展和诸如Kinect，Huawei Mate 10等深度信息采集设备的快速发展，RGBD图像的获取越来越方便，从而引发了针对RGBD图像的显著性检测研究，该方向综合考虑RGB图像所包含的颜色、亮度等信息以及深度图像所包含的深度信息来进行显著性检测。结合图3可以看出结合深度信息进行显著性检测的意义，即当目标对象与背景区域在RGB图像上难以明确区分时，深度图像则能够对两者进行很好的区分。

图3 RGB图像及其深度图像

总体来说，现有的RGBD图像显著性检测方法大致分为3类。(1)如图4(a)所示，在方法初期就进行特征融合，将深度图像单独视为一个通道并与RGB图像的三通道拼接构成一组四通道数据，在此基础上通过CNNs学习新数据的特征表示并进行显著性预测[31-32]。(2)如图4(b)所示，先分别提取RGB图像与深度图像的特征并产生各自的初步显著性图，然后运用诸如点加或点乘的后处理方法将2张初始显著性图融合产生最终的显著性图。Fan等[33]通过计算RGB图像和深度图像中每个超像素的深度对比度、加权颜色对比度和颜色空间分布来获得局部的显著性图。Fang等[34]综合考虑局部和全局信息，从离散余弦变换系数中提取颜色、亮度、纹理和深度等4种类型的特征，通过融合多种特征得到显著性图。Cheng等[35]根据颜色和深度空间中的视觉规律来计算显著性图。Desingh等[36]利用支持向量机的非线性回归模型来融合提取到的显著性特征。(3)如图4(c)所示，先分别对RGB图像和深度图像进行初步的特征提取，然后在此基础上进行深层特征的提取，最后计算出显著性图。

图4 3种RGBD图像显著性检测算法基本框架

最近，随着深度学习的飞速发展，计算机视觉领域里各项成果层出不穷，其中就包括视觉显著性检测研究。基于深度学习的RGBD图像显著性检测算法大多是利用深度卷积神经网络提取在超像素分割基础上的局部和全局邻域特征、像素级的局部和全局特征以及多尺度多级别的特征表示，进而实现RGBD图像显著性检测。纵观目前已经提出的基于深度学习的RGBD图像显著性检测算法，大多属于上述第3种方案。例如，Qu等[37]在生成超像素级的RGB图像和深度图像特征向量的基础上通过CNNs计算出显著性值。Chen等[38]设计了一种以渐进的方式进行特征融合的方法，充分考虑了交叉模态的互补性问题，有效融合了多尺度的特征信息，将所有较深层的预测结果跳连到较浅层，实现了从深层到浅层的逐级监督。Han等[39]提出了一种双分支的CNNs框架，分别提取RGB图像和相应深度图像的特征，最后通过一个全连接层得到预测的显著性图。Zhao等[40]将对比度先验应用于基于深度学习的体系结构当中以增强深度信息，通过金字塔结构更好地融合多模态多尺度之间的特征信息。

2.3 视频显著性检测

显然，视频显著性检测与图像显著性检测之间有着明显的差别，前者同时包含了空域和时域上的信息，且具有更加复杂多变的场景，例如目标移动或相机抖动导致的模糊、目标发生非刚性形变等，而后者往往只需要考虑单一的空域信息即可。因此，在视频显著性检测研究中，为了保证全局时空的一致性，需要关注空域信息和时域信息的有效融合问题，进而检测出视频中的显著性区域。

与图像所代表的静态场景不同，视频显著性检测旨在模拟人类在观看动态场景时的注意力机制。由于预测得到的显著性图可用于在空域上和时域上确定视频中所包含信息的优先级，所以该研究具有非常广阔的应用前景，例如视频描述[41]、视频监控[42-43]、视频压缩[9,44]等。一般来说，当前的视觉显著性检测算法通常基于中心环绕方案[13]、控制论、信息论、机器学习、频域分析及信息融合等理论。例如，Itti等[45]遵循中心环绕方案，将颜色、方向、亮度及动能等多个特征进行融合以计算前景对象与背景之间的特征差异。Mahadevan等[46]为了衡量显著性值的动态特征，将K-L散度引入其中。基于信息论的思想，Liu等[47]使用降维和核密度估计方法来构建信息显著图，从空间域和时间域上表达显著性特征并以动态的方式进行融合；Hou等[48]使用增量编码长度来测量每个特征的透视熵增益，通过选择具有大的增量编码长度的特征，从而使视觉特征的熵最大化，该方法在静态场景和动态场景中都具有良好的特征选择性。此外，机器学习算法进一步推动了视频显著性检测研究的发展。例如，Ren等[49]通过稀疏重建过程来表征空间显著性；Huang等[50]提出的算法中以速度熵和加速度熵来表示轨迹，采用支持向量机来定位目标的运动轨迹，最后通过轨迹扩散来凸显显著性区域。

除此之外，还有一些算法先分别生成空域显著性图和时域显著性图，然后采用不同的融合策略将两者融合为最终的显著性图。Zhong等[51]提出了一种光流模型用以表征时域信息，并将其与空域信息进一步通过最大融合法得到动态一致的全局显著性图。Fang等[52]将空域显著性图和时域显著性图通过点加或点乘的方式进行融合来生成每个视频帧的显著性图。Chen等[53]将原始的长视频序列均等地分割为许多短视频序列，然后将各个视频序列的运动线索进行整合并在时域上进行扩散，通过视频序列间的先验信息来指导深层次特征的融合。同时，超像素思想也被引入视频显著性检测研究中。Liu等[54]在提取超像素级的颜色和运动直方图以及全局运动直方图的基础上，分别使用帧内相似性矩阵和帧间相似性矩阵表征空域和时域特征。Wang等[55]使用基于局部区域的帧内图像和帧间图像来连续生成初始和最终显著性图。

最近，类似于RGBD图像显著性检测研究，深度学习方法也被广泛应用到视频显著性检测研究中。例如，Bak等[56]提出了一种专注于眼动点注视预测的双分支显著性预测网络来融合空域和时域信息。与之不同的是，Le等[57]提出了一种新的时空条件随机场，根据时空深度特征计算时空显著性。值得注意的是，深度卷积神经网络在该算法中仅被用作特征提取器，因此它不是端到端的学习框架。此外，Wang等[58]将全卷积神经网络应用于空域显著性模型和时域显著性模型中，可以直接生成时空显著性图。Song等[59]提出了一种新型的基于递归网络架构的快速视频显著性检测模型，通过金字塔膨胀卷积模块同时提取多个尺度的空间特征，并以递归的方式获取更深层次的特征。由此可知，深度学习方法在视频显著性检测研究中的应用极大地提升了对检测的性能，促进了该领域的进一步发展。

2.4 协同显著性检测

协同显著性检测作为视觉显著性检测研究中一个备受关注的新兴方向，其主要的目的是从一组相关的图像中标注出其共同拥有的显著性区域。区别于传统的RGB图像显著性检测研究从单张图像中定位信息，协同显著性检测需要从一组图像中探索共有信息，作为一项扩展研究，显然是更具挑战性的。同时，协同显著性检测研究也颇具应用前景，如多摄像机系统等。

为了从特定图像对中检测出共有的显著性区域，Jacobs等[60]开拓了协同显著性检测研究这一方向，通过一对图像间共有显著目标的局部特征变化来进行检测。从此，协同显著性检测研究得到了不断发展。Li等[61]提出了一个协同的多层图模型来探索图像对间共有的显著性区域。Chen等[62]在计算2幅图像间稀疏特征的基础上运用K-L散度来表达图像间的相似性，有效增强了协同显著性检测模型的表达能力。Fu等[63]基于聚类的思想，将提取到的颜色和纹理特征进行聚类，利用多幅图像中共有显著性区域的聚类中心距离较小来进行相似性度量。Huang等[64]在梯度直方图(Histograms Of Gradients，HOG)等手工特征的基础上构建了多尺度的超像素金字塔，并借助高斯混合模型生成协同显著性图。Cao等[65]通过定义不同区域间的相互关系，分配自适应权重来实现协同显著性检测。Liu等[66]进一步提出了一个基于分割的模型，其中的区域对比度、全局相似性和对象先验均是通过多级的分割计算的。最近，Zhang等[67]首次将深度学习方法引入到了协同显著性检测研究当中，提出了将CNNs和受限波尔兹曼机(Restricted Boltzmann Machine，RBM)相结合的方法。Han等[68]提出了一种基于度量学习的模型，在支持向量机(Support Vector Machine，SVM)的迭代训练过程中引入度量学习正则项。Jeong等[69]使用VGG16模型来提取高层语义特征并生成像素级的协同显著性图。

3 数据集和评测指标

3.1 数据集

本小节主要介绍常用于视觉显著性检测研究的数据集，包括常用于RGB图像显著性检测的数据集DUTS[70]，ECSSD[15]，PASCAL-S[71]，HKU-IS[72]，DUT-OMRON[73]和MSRA10K[14]，常用于RGBD图像显著性检测的数据集NJUD2K[74]，NLPR1K[31]，LFSD[75]，RBGD135[35]，STEREO[76]，SSD80[77]和SIP[78]，常用于视频显著性检测的数据集SegTrackV2[79]，UVSD[54]和DAVIS[80]，常用于协同显著性检测的数据集Cosal2015[67]和MSRC[81]。

DUTS：包含15 572张选自数据集ImageNet DET[82]和SUN[83]的图像，其中训练集有10 553张图像，测试集有5 019张图像，是一个极具挑战性的大规模数据集。

ECSSD：包含1 000张从互联网上搜集得到的具有多个尺度以及各种复杂场景的图像。

PASCAL-S：包含850张从PASCAL VOC分割数据集[84]的验证集中选择的图像，并按像素进行了标注。

HKU-IS：包含4 447张具有高质量注释的图像，其中许多图像中含有多个互不相连的显著对象。

DUT-OMRON：包含5 168张高质量且具有挑战性的图像，其中每张图像都含有一个或多个具有相当复杂场景的显著物体。

MSRA10K：包含10 000张具有标注的图像。

NJUD2K：该数据集共有2 003张由RGB图像和深度图像组成的图像对，包含各种复杂的场景，主要是从3D电影、互联网以及Fuji W3深度相机拍摄的照片中搜集整理而来。

NLPR1K：该数据集共有1 000张RGB图像和深度图像对，其中包含多种室内及室外场景，且每对图像中可能存在多个显著性对象，主要是由Microsoft Kinect深度相机在不同的光照条件下拍摄得到的。

LFSD：该数据集共有100张由RGB图像和深度图像组成的图像对，主要是通过Lytro光场相机来实现深度信息的获取。

RBGD135：该数据集共有135张RGB图像和深度图像，以室内场景为主，主要是通过Microsoft Kinect深度相机获取。

STEREO：该数据集共有1 000张RGB图像和深度图像对，其中RGB图像主要是从3D电影和互联网上搜集整理而来，深度图像主要是由光流法生成。

SSD80：该数据集共有80张RGB图像和深度图像对，其中包含多种室内及室外场景，其中RGB图像主要是从3D电影中搜集整理而来，深度图像主要是由光流法生成。

SIP：该数据集共有1 000张RGB图像和深度图像对，以人物室外活动场景为主，主要是通过Huawei Mate 10智能手机获取。

SegTrackV2：该数据集共有14段视频，包含了复杂的场景，例如运动模糊和形变遮挡等，其中每段视频的帧序列都有完整的像素级标注。

UVSD：该数据集共有18段视频，包含了丰富的运动及多变的场景，使用Adobe Photoshop CC软件对每段视频帧序列中的显著性对象进行了精确的分割并完成了像素级的标注。

DAVIS：该数据集共有50段视频，包含了多种对象的复杂运动场景，例如人、动物及机器的运动模糊和形变遮挡等，其中每段视频的帧序列都具有精确的像素级标注。

Cosal2015：包含2 015张图像，分为50个图像组，每个图像组含有26～52张图像不等，这些图像均提供了像素级的手工标注。

MSRC：包含240张具有复杂背景的图像，分为7个图像组，每个图像组约有30张图像，这些图像均按像素逐个标记。

3.2 评测指标

本小节将着重介绍在视觉显著性检测研究中常用的几种评测指标，主要包括平均绝对误差(Mean Absolute Error，MAE)、PR曲线(Precision-Recall Curve)、F-measure和S-measure(Structure-measure)等。

评测指标MAE用来估算预测值与真值之间的一致性，表示为：

(1)

其中，W和H分别代表特征图的宽度和长度，P(x,y)表示预测图P中(x,y)处的像素值，Y(x,y)表示真值图Y中(x,y)处的像素值。需要注意的是，预测图P和真值图Y中的每一个像素值都需要被归一化到区间[0,1]。在视觉显著性检测研究中，MAE被用来评估显著性图与真值图之间的一致性。同时，由式(1)可知，对于较小的目标对象来说，计算得到的误差值较小；反之，对于较大的目标对象来说，计算得到的误差值较大。因此，在比较不同方法的性能时，为了保证公平性，需要在完全一致的数据集上进行测试。

在视觉显著性检测研究中，通常利用二值化后的显著性图M和相应的真值图G来计算精确率(Precision)和召回率(Recall)，表达式如下：

(2)

(3)

由此可见，采用不同的二值化方法将会影响最后的评判结果。图像二值化的方法多种多样，Achanta等[85]提出了一种自适应阈值的二值化方法，如下所示：

(4)

其中，W和H分别代表预测图P的宽度和长度。另一种方法是分别在0～255的范围内选取固定的值作为阈值，每一个阈值可以计算得到一组精确率和召回率，并由此绘制PR曲线。

通常，精确率和召回率都不能全面地评估预测结果的质量。由此，定义F-measure为精确率和召回率的加权谐波均值，如下所示：

(5)

其中，β代表非负权重，用来平衡精确率和召回率之间的关系，通常取β2=0.3。在视觉显著性检测研究中，根据显著性图所采取的二值化方法的不同，可分为2种计算F-measure的方法：Mean F-measure和Max F-measure。当使用自适应阈值进行二值化时，可以为每张图像生成对应的Fβ，最后通过取平均值得到Mean F-measure。当使用固定阈值进行二值化时，可以通过PR曲线上的最优点计算得到Max F-measure。

MAE和F-measure都是从特定的角度来评估预测图的质量，但是都忽略了对其中结构信息的评估。相关研究表明，人类视觉系统对场景中的结构性信息高度敏感，这在视觉显著性检测研究中尤其关键。Fan等[86]在结构相似性指标SSIM(Structural SIMilarity)[87]的基础上提出了结构评测指标S-measure。简而言之，S-measure综合考虑了区域结构相似性度量Sr和物体结构相似性度量So，进而从整体结构的角度对预测图的质量进行评估，如下所示：

Sα=αSo+(1-α)Sr

(6)

其中，α是取自区间[0，1]的平衡参数，通常取α=0.5。

4 结束语

视觉显著性检测研究经过不断的发展已经初具规模，部分富有成效的算法被陆续提出。但不可否认的是，已有的视觉显著性检测模型仍存在诸多不足，比如在处理更为复杂场景的图像或视频时，如背景与目标相似、背景信息丰富、目标移动或相机抖动导致的模糊、目标发生非刚性形变等。同时，视觉显著性检测研究的不断发展离不开其应用的广泛性，如何更进一步地将视觉显著性检测的成果应用到不同的实际场景中尤为重要。此外，对于视觉显著性检测研究来说，许多当下较具前景的研究方向也值得借鉴，如弱监督学习、图神经网络等，如何将这些在其他领域已经得到验证与应用的方法应用于视觉显著性检测研究将是未来值得探究的方向。