基于深度学习的显著性检测方法模型<br/>——SCS

基于深度学习的显著性检测方法模型
——SCS

2018-05-09张洪涛路红英刘腾飞张玲玉张晓明

计算机与现代化 2018年4期

张洪涛，路红英，刘腾飞，张玲玉，张晓明

(北京交通大学计算机与信息技术学院，北京 100044)

0 引言

人眼具有从一张图像中快速定位显著性区域，并过滤掉次要的信息，提取有用信息并传输给大脑进行处理的能力机制，这一机制被称为人眼视觉注意机制。普遍认为人类的视觉系统对周围环境的感知机制分为2种：第一种是自底向上的视觉注意机制，这种机制受视觉刺激，与任务无关；第二种是自顶向下的视觉注意机制，这种机制受意识驱动，与任务相关[1]。近些年，人眼视觉注意机制研究成为了计算机视觉学科的一个重要的研究领域，主要的研究方向包括图像显著性区域检测和目标检测等[2]，其中图像的显著性区域检测就是模拟实现上述的2种视觉注意机制。图像的显著性区域检测是包括图像压缩[3]、图像分割[4]、图像检索[5]等在内的许多图像处理任务的前期预处理过程，因此图像的显著性区域检测研究具有重要的意义，本文也致力于快速精准的图像显著性区域检测方法的研究。

传统的图像显著性区域检测方法大多依据自底向上的人眼视觉注意机制，该机制主要受到图像的低级的对比特征的刺激作用产生。简而言之，如果图像中某一位置在亮度和色彩等方面与其周围区域存在较大的差别，则这一区域最有可能引起人眼的视觉注意[6]。根据这一事实依据，传统显著性检测模型采用各种数学建模方法建立数学模型，对图像的所有位置与其周围区域进行数据对比计算，将各种对比结果数据(差异性)进行整合处理来得到最终的显著图。根据对比计算范围的不同，可以将此类方法分为2种：局部对比方法和全局对比方法。局部对比方法通过某种方法计算某一图像位置与其相邻小范围的周边区域的对比数据，从而得到该区域的显著值，之后对图像上的所有位置进行同样的计算得到整张图像所有位置的显著值，最后根据显著值计算生成显著图。例如，Itti[7]等利用颜色、方向、亮度等底层特征构建9层高斯金字塔，并使用高斯差分计算中央-周边差值来得到多个特征显著图，再对多个特征显著图进行线性融合形成最终的显著图；Zhao等[8]对Itti的方法作出进一步的优化，利用最小二乘法计算得到各个特征显著图进行融合的最优权重系数；Borji[9]等将某一图像块自身的特征信息与该图像块在RGB和Lab颜色空间上与周围图像块欧氏距离相结合，从而得到相应的显著图；Han[10]等提出了一种基于稀疏编码计算局部对比的方法，利用稀疏编码和残差得到显著图[10]。不同于局部对比，全局对比的方法计算某一图像位置与整张图像之间的差异性，得到该图像位置的对比数据，之后对图像上的所有位置进行同样的计算进而得到图像的显著图。例如，Zhang[11]等利用广义的高斯模型计算全局对比数据得到显著图；而Han[12]等利用稀疏编码提取特征数据之后再利用混合高斯模型进行计算；Bruce[13]等将信息论引入全局对比计算；近些年还有很多研究人员利用频域计算全局对比数据进而得到显著图[2]。此外，为了得到更加全面的对比数据，也有研究人员综合利用局部对比和全局对比2种方法来计算显著性区域得到显著图[14]。尽管近些年此类方法的模型得到不断优化，并在一些简单的测试数据上取得了很好的效果，但是由于目前整个科学界对人类视觉原理本质理解的不足，因此建立的各种方法模型也存在本质上的局限，并且大量实验结果表明其预测的准确度仍有待进一步的提升。

视觉注意机制还包括自顶向下的注意机制，该机制是受到图像中的语义特征对人的意识驱动作用产生。图像中的文字、人脸、动植物等富含语义信息的目标通常会引起人们的视觉注意，这些语义目标便是自顶向下的视觉注意机制的具体体现。近些年，先进的图像显著性区域检测模型开始模拟实现自顶向下的人眼视觉注意模型，使用各种高级特征用于显著性区域检测。例如：Judd[15]等在其检测模型中加入了人脸、文本、动物和汽车等目标的高级特征；Cerf[16]等将人脸检测技术应用到图像的显著性区域检测；Borji的模型中则加入了图像水平线、人物、汽车和人脸等因素。然而图像中的这些富含语义的目标的特征提取和识别是一个复杂而困难的问题，目前基于自顶向下的视觉注意机制的检测模型大多是简单地加入某类目标识别的具体特定的知识特征，用于识别特定的目标从而辅助图像的显著性区域的检测，未能充分实现统一的自顶向下的视觉注意机制。

近些年多方面的实践证明，深度学习中的人工神经网络模型在大规模的图像分类等图像处理任务中展现出了很好的效果。随着深度学习相关理论和实践的不断发展，开始有学者和研究人员将深度学习方法引入图像显著性区域问题的研究。例如：Shen[17]等利用3层的稀疏编码器以无监督的学习方式从图像中提取更高的特征用于图像的显著性区域检测，但该方法只关注了高级顶层特征的提取而忽略了低级特征；Lin[18]等采用一组通过k-means算法训练学习到的卷积滤波器提取低级和中级特征，之后利用中央-周边差值方法计算局部对比度，不难发现，该方法并没有考虑低级特征。据此，本文提出一种基于深度学习的自然图像显著性区域检测的方法，该方法充分考虑了2种视觉注意机制所涉及的2类特征，利用稀疏自编码器(SAE)网络和卷积神经网络(CNN)直接从图像的原始数据中分别提取低级的底层对比特征和高级的顶层语义特征，并将二者组合到一起，训练SVM分类器进而得到基于分类思想的图像显著性检测模型。实验对比结果表明，该方法与其他一些当前先进的方法相比，显著性区域检测的准确性具有很大的优势。如图1所示，本文提出的SCS模型方法的核心主要包括以下几个方面：

图1 SCS检测模型方法流程

1)利用SAE，采用无监督的学习方式从原始的图像数据中学习得到低级的底层对比特征，与传统的数学建模方法相比，不仅处理时间大大缩短，而且能够提取更好的低级对比特征信息。

2)利用CNN，采用有监督的学习方式从原始的图像数据中学习得到高级的顶层语义特征用于分类检测。CNN网络能够提取更具抽象性的高级语义特征。

3)结合底层对比特征和顶层语义特征，并采用线性SVM分类器进行再分类训练从而提高分类检测的准确率。

1 SCS检测模型方法

本章中，首先对本文提出的方法模型中的低级底层对比特征和高级顶层语义特征的提取方法分别进行详细的介绍，最后对SVM的训练过程和显著图的生成做出必要的阐述。

1.1 底层对比特征提取

传统显著性检测方法中对于低级底层对比特征的提取问题，基本上是采取建立某种数学模型，采用某种计算方法对图像的所有像素点进行量化计算，之后与其周围的像素点进行对比计算得到对比特征数值。不难发现，当处理大规模复杂的图像时，这种方法首先在处理速度方面会遇到严重的计算瓶颈，此外建立的数学计算模型对于处理大规模复杂图像的有效性也需要进一步的验证。实践证明多数情况下建立的数学模型很难适合于各种类型的复杂图像，因此该类方法不具有普遍的适用性[19]。

本文方法利用具有广泛适用性的SAE处理底层对比特征信息，不同于传统方法对每一个像素点低级底层对比特征进行特定的计算，本文方法主要致力于对低级底层对比特征的提炼提取，而不进行具体的底层对比特征数值的计算，并且以8×8像素单元作为最小处理粒度进行计算以减少处理大规模复杂图像时的计算量。对于由m个像素点组成的图像而言，单像素逐点的处理方法需要进行m次的分类判定才能得到最终的显著图，而本文方法采用8×8的像素单元作为最小的处理粒度，则只需要进行m/(8×8)次的分类判定即可，处理的循环次数直接缩小到1/64，这一点对于处理复杂图像特别是大尺寸的高清图像显得尤为重要；此外，对对比特征的提取只需进行简单的前向传导计算，具有很高的时间效率。接下来将对SAE的训练和对比特征的提取进行详细的阐述。

1.1.1 训练SAE

如图2所示，本文方法将图像进行切割，切割后的每个单元的尺寸为8×8像素。在每张图片中各随机选取一定数量的像素单元作为训练数据，采用无监督的方式训练SAE。SAE的输入是选取的8×8的像素单元的像素数据xi，在训练过程中使稀疏编码器输入输出近似相等。SAE训练由2个过程组成，即编码过程和解码过程。编码过程定义为一个非线性的映射过程f(xi,θf)，将输入层的xi映射成隐含层的yi，这一过程可以表示为：

yi=f(xi,θf)=sigm(W(1)xi+b(1))

其中，θf表示参数集合，包括权重矩阵W(1)和偏置向量b(1)；sigm表示一种非线性化操作函数，在此方法中采用sigm(μ)=1/(1+exp (-μ))。解码过程与编码过程相反，将隐含层的yi映射到输出层的zi，这一过程可以表示为：

zi=g(yi,θg)=sigm(W(2)yi+b(2))

图2 低级对比特征提取

为了满足稀疏自编码器输入输出近似相等的条件，训练目标被定义为最小化损失函数，即：

其中，m为所有训练样本的数量。神经科学研究发现，人脑中神经元活跃呈现出稀疏的特性，因此对自编码器的隐含层的神经元加入了稀疏性的限制。上述的最小化损失函数中加入稀疏限制项后，从而修正为：

1.1.2 提取对比特征

如图2所示，对于像素单元的低级底层对比特征并不进行具体数值的计算，只是将每个像素单元的低级底层特征和其周围像素单元的低级底层特征进行组合得到包含底层对比特征信息的组合向量，具体组合方式为：利用已训练好的编码器通过前向传导算法对某个像素单元进行编码得到中心编码向量，之后对其最临近的8个相邻像素单元进行编码并取平均值得到最近外围平均编码向量，然后对其次外围的14个相邻像素单元进行编码取平均值得到次外围平均编码向量，最后将3个编码向量进行串联得到最终包含低级底层对比特征信息的编码向量。

采用上述对低级的底层对比特征进行提取方法具有以下的优点：该方法利用了最近外围和次外围的像素单元进行对比特征的计算，很自然地融合了局部对比和全局对比的思想，能够计算得到更加准确的对比特征数据值。

1.2 顶层语义特征提取

人眼观察图像时，首先会受到图像的亮度和色彩等低级信息特征的刺激，之后更加受到富含高级语义信息的区域的吸引。因此要想得到更加准确的图像显著性区域检测效果，必须在检测过程中提取图像的高级顶层语义特征[20]。不同于当前的检测模型中对高级顶层语义特征的处理方式，本文方法采用了CNN网络彻底统一地提取图像的高级顶层语义特征。高级顶层语义特征的提取仍然以8×8像素单元作为最小处理粒度，而计算范围扩大到以8×8像素单元为中心的40×40的像素单元。

1.2.1 训练CNN

在本文提出的方法中，首先用滑动窗口的方式截取所有40×40大小的像素单元，之后选取一定数量的像素单元(包括正样本和负样本)用于训练CNN网络模型。本文模型中的CNN由3组卷积和池化层以及2个全连接层组成，记第l层的输出状态为Hl，其中l∈{1,2,3,4,5}，特别地，将输入数据记为H0。在CNN的每一层中，有2个参数需要训练得到：连接这一层以及其前一层的权重矩阵Wl，偏置向量bl。40×40像素单元的像素数据首先进入一个卷积层，在卷积层中一个卷积核为Wl的二维卷积操作首先作用于输入数据，之后卷积的结果数据与偏置项bl相加，并将结果输入非线性的激活函数中得到激活值，最后最大池化操作以某种固定尺寸的滑动窗口进行池化操作进一步提取特征，整个卷积池化过程可以表示为：

Hl=pool(Actv(Hl-1*Wl+bl))

其中，*代表卷积操作，pool代表最大池化操作，Actv(x)=max(0,x)。3组卷积和池化层前后连接形成层次的特征提取结构，之后最终的结果特征被全连接层线性映射成一维的特征向量，线性映射过程可以表示为：

Hl=Actv(Hl*Wl+b)

其中，*代表矩阵相乘操作，Actv(μ)=1/(1+exp (-μ))。最后一层为softmax层，这一层的神经元个数等于最终的分类数。各个操作层的类型、计算尺寸、输入输出尺寸在图3中详细标出。此外，在第3个卷积层和后续的全连接层中还采用了dropout操作。

图3 CNN网络结构

训练CNN网络采取的是有监督学习的训练方式，因此需要对训练数据进行标记，即将训练样本标记为正样本和负样本。尽管本文提出的方法中CNN网络的输入为40×40大小的像素单元，但是由于CNN网络的输出结果是对处于输入中间的8×8的像素单元的显著性判断，因此对训练集的标记实际上是对处于中间位置的8×8的像素单元的显著性标记。本次实验中使用了眼动实验数据卷积得到的Groundtruth显著图对数据集进行标记。为了保证具有充足有效的训练集数据，实验中采用了一定的图像显著像素点确定标准：如果显著图中的某个像素点的灰度值大于255×90%=230，则将该像素点标记为显著像素点；若某个像素点的灰度值小于255×10%=26，则该像素点标记为非显著的像素点；其余点作为不确定点不做任何处理，自然也不作为训练样本的候选像素点。最后利用随机梯度下降算法进行训练。

1.2.2 提取语义特征

网络训练结束后，得到网络的所有相关参数，包括{W1,W2,W3,W4}和{b1,b2,b3,b4}。之后利用前向传导算法对40×40的像素单元进行前向传导计算，取FC层得到的512维的向量作为该像素单元中间8×8像素单元的高级顶层语义特征向量。不难发现，本文提出的方法中用于提取语义特征的CNN网络数据为较为浅层的卷积神经网络数据。之所以采用较为浅层的CNN网络，是因为实验发现，即使是3层的浅层网络，也能够提取到较好的顶层语义特征，并较好地完成图像显著性检测的任务；另一方面，浅层网络的训练速度和前向传导的计算速度较快，因此采用浅层的CNN网络能够极大地加快图像显著性检测的检测速度。综合以上因素的考虑，最终选取了3层的CNN网络用于提取顶层语义特征信息。

1.3 模型训练与显著图生成

按照上述步骤提取到低级的底层对比特征数据和高级的顶层语义特征数据之后，将二者进行串联得到SVM的输入向量。最终SVM分类器的训练也采用有监督的训练学习方式进行，因此需要对训练数据集进行标记，由于训练SVM分类器时只是将向量进行组合后进行精准分类训练，因此仍然使用训练CNN时的标记值。最后，利用联合向量和标记值对SVM进行训练，得到最终的分类模型的参数，整个过程如图4所示。

图4 SVM模型训练

至此，整体的模型训练基本完成，之后便可对某张图像进行如下步骤的处理得到该张图像的显著图：将图像中的所有不相交的8×8像素单元作为待分类处理的单元，分别利用训练好的SAE和CNN网络提取到低级的底层对比特征和高级的顶层语义特征并进行串联结合，输入模型进行分类处理，将模型输出的显著值的大小按照比例缩放成灰度值(0～255范围)，所有像素单元对应的灰度值组成的灰度图像就是模型输出的原始显著图像，将该原始的显著图像缩放到与原图像相同的尺寸便得到了最终的显著图。

2 实验对比

在本章中，首先给出本次实验的实验环境、使用的公开数据集和模型的训练参数，之后介绍对本次实验结果的评价指标，最后以图表和文字等形式给出本次实验的结果数据，并与当前最为先进的几个检测模型进行比较，对实验结果进行简要的分析。

2.1 实验准备

2.1.1 实验环境

对比实验的实验环境如下：Ubuntu2016.04(64位)操作系统；Intel i-7HQ @2.6 GHz×8 CPU；16 GB内存；NVIDIA GTX 1080显卡。模型使用Caffe框架以Matlab语言实现，并借助于CUDA利用显卡进行并行加速。

2.1.2 实验数据

为了检验本文方法的性能，实验使用3个被广泛使用的数据集进行验证：1)MIT数据集[15]。该数据集共有1003张图片，其中包括各种景物图和各种人物图以及几张包含文字的图片，此外该数据集中收集了15位实验人员对每张图片的注视点数据，被认为是迄今为止最大规模的人眼注视数据集。2)Toronto数据集[21]。该数据集中包括120张具有相同尺寸的室内场景和室外场景的彩色图片，并且包含了20位实验人员的注视点数据。3)NUSEF数据集[22]。该数据集包含758张(实验机构只开放了431张)图片，其中包括人脸图片和物体图片等，对每张图片均采集了25位实验人员的注视点数据。这3组公开的数据集中都包含了有注视点数据经过卷积操作生成的模拟显著图。

2.1.3 评价标准

本文方法将图像的显著性区域检测问题视为对图像上像素单元的分类问题，训练得到的模型为基于SVM的二分类模型。根据像素单元是否为注视点将其分为2类，即显著单元和非显著单元，相应地该像素单元中的像素点则为显著点和非显著点。AUC是被广泛采用的对于二分类模型进行评价的指标。分类模型得到一个(0,1)范围内的概率值，根据数值大小对所有样本点进行降序排序，通过设置一个阈值将所有的样本分为2类，利用分类结果混淆矩阵(表1)计算不同的阈值下分类模型的“真正例率(TPR)”和“假正例率(FPR)”，其中：

以“真正例率”为纵轴，以“假正例率”为横轴，描点连线得到ROC曲线。AUC值则是ROC曲线以及横轴纵轴组成图形的面积。然而，众所周知，AUC数值容易受到中心偏差问题[23]和边界中断问题[11]的影响，从而得出有偏差的评价，因此本文采用Shuffled AUC的评价指标。不同于AUC，计算Shuffled AUC的过程中，将某张图片的所有测试者的注视点作为正样本点，其他点作为负样本点。不难发现，Shuffled AUC会受到不同卷积核的影响，因此本文列出了不同卷积核情况下的Shuffled AUC。

表1 分类结果混淆矩阵

真实情况预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)

2.2 训练参数

在3个数据集分别进行实验的过程中，均采用了十折交叉验证，即将数据集随机平均分成10份，其中的9份用于训练模型，1份用于测试模型，交叉验证重复10次，使得每份均被一次选作测试集，并将10次的平均交叉验证正确率作为最终的结果。在训练SAE过程中，为了训练得到效果较好的编码器，对于每一个数据集，从每张图片中随机选取200个样本进行训练；在训练CNN和SVM过程中对于每个数据集，从每张图片中按照样本选定规则随机选择10个正样本和20个负样本用于训练模型。

在训练稀疏自编码器的过程中，为了能够提取到较高质量的低级的底层对比特征，并且尽可能减少计算量，对稀疏自编码器的训练参数进行如下的设置：将稀疏自编码器隐含层神经元个数设置为25×3；权重的衰减参数和稀疏惩罚参数分别设置为0.0001和3；在训练过程中采用L-BFGS优化算法，并将最大迭代次数设置为400次。

在训练CNN网络的过程中，为了能够提取到更具抽象性的顶层语义特征，对相关的训练参数进行如下的设置：将weight和bias的初始学习率分别设置为1和2，其中基础学习率为0.01，初始值的初始化方式分别为Gaussian(STD=0.01)方式和Constant(value=0)方式，每1000次迭代降低一次学习率，学习率的变化指数为0.1，并且为了防止过拟合将weight的衰减系数设置为1；Dropout层中数据的丢弃率均设置为0.5；训练过程中最大的迭代次数设置为5000；为了加快学习速度将动量参数设置为0.9。

在训练SVM分类器的过程中，设置惩罚系数c为1；核函数中的函数设置为0.07；采用概率估计形式进行分类结果的计算。

2.3 实验结果

为了充分检验本文提出的检测方法模型的性能，在实验中将SCS模型方法的结果与AWS[24]，BMS[25]，CA[26]，IS[27]，eDN[18]模型方法的结果作比较，上述几种模型方法是近些年提出的一些检测效果较好的模型方法，并且这些模型方法的源代码和实验结果已被公开，可以方便地获得。图5～图7中给出了3组数据集下，本文提出的模型和其他5种模型的Shuffled AUC值随σ的变化情况；表2给出了每种模型的最优的Shuffled AUC值以及σ的取值情况。最后，图8给出了部分图片在不同的检测模型下生成的最终的显著图的效果。由于版面原因，在此只给出了6张图片的原图和与之对应的显著图。

图5 MIT数据集实验结果

图6 Toronto数据集实验结果

图7 NUSEF数据集实验结果

表2 最佳准确度及σ(扩大1000倍)

AWSBMSCAISeDNSCSMITσ695010694020672250669040627010720030Torontoσ718010722025696025712040629010723030NUSEFσ640020633025617035621045576010665030

实验结果数据显示，本文提出的方法模型在3组公开数据的实验上都取得了最好的分类检测效果。然而不难发现，在Toronto数据集上，本文提出的方法模型的性能优势较小，比次好的BMS的性能仅仅高出0.001，这样的结果可能是由于Toronto数据集中图片数量较少的缘故，不能保证充分的训练数据，从而导致最终的模型训练不充分，进而影响到了最终的模型准确性。

由图8中的部分图片的显著图可以看出，SCS模型检测生成的显著图能更加凸显出显著性区域，基本可以正确过滤掉图像的背景区域，充分证明了本文提出的方法模型的有效性。

原图 AWS BMS CA IS eDN SCS图8 原图与6种模型效果图

3 结束语

本文提出了一种基于深度学习进行特征提取，再进行模型训练的图像显著性区域检测的方法。通过实验结果分析得到，该方法与当前的一些其他先进方法相比，具有更高的检测准确性。此外，该实现结果进一步证明了深度学习方法在图像特征提取和信息理解方面的强大优势。

参考文献：

[1] Chen Li-qun, Xie Xing, Fan Xin, et al. A visual attention model for adapting images on small displays[J]. Multimedia Systems, 2003,9(4):353-364.

[2] Hou Xiaodi, Zhang Liqing. Saliency detection: A spectral residual approach[C]// Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. 2007, doi: 10.1109/CVPR.2007.383267.

[3] Christopoulos C, Skodras A, Ebrahimi T. The JPEG2000 still image coding system: An overview[J]. IEEE Transactions on Consumer Electronics, 2000,46(4):1103-1127.

[4] Ko B C, Nam J Y. Automatic object-of-interest segmentation from natural images[C]// Proceedings of the 18th International Conference on Pattern Recognition. 2006,4:45-48.

[5] Chen Tao, Cheng Ming-ming, Tan Ping, et al. Sketch2Photo: Internet image montage[J]. ACM Transactions on Graphics, 2009,28(5): Article No. 124.

[6] Perazzi F, Krähenbühl P, Pritch Y, et al. Saliency filters: Contrast based filtering for salient region detection[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. 2012:733-740.

[7] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998,20(11):1254-1259.

[8] Zhao Qi, Koch C. Learning a saliency map using fixated locations in natural scenes[J]. Journal of Vision, 2011,11(3):74-76.

[9] Borji A. Boosting bottom-up and top-down visual features for saliency estimation[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. 2012:438-445.

[10] Han Biao, Zhu Hao, Ding Youdong. Bottom-up saliency based on weighted sparse coding residual[C]// Proceedings of the 19th ACM International Conference on Multimedia. 2011:1117-1120.

[11] Zhang Lingyun, Tong M H, Marks T K, et al. SUN: A Bayesian framework for saliency using natural statistics[J]. Journal of Vision, 2008,8(7), doi: 10.1167/8.7.32.

[12] Han Junwei, He Sheng, Qian Xiaoliang, et al. An object-oriented visual saliency detection framework based on sparse coding representations[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013,23(12):2009-2021.

[13] Bruce N D B, Tsotsos J K. Saliency, attention, and visual search: An information theoretic approach[J]. Journal of Vision, 2009,9(3), doi: 10.1167/9.3.5.

[14] Borji A, Itti L. Exploiting local and global patch rarities for saliency detection[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. 2012:478-485.

[15] Judd T, Ehinger K, Durand F, et al. Learning to predict where humans look[C]// Proceedings of the 12th International Conference on Computer Vision. 2009:2106-2113.

[16] Cerf M, Harel J, Einhäuser W, et al. Predicting human gaze using low-level saliency combined with face detection[C]// Proceedings of the 20th International Conference on Neural Information Processing Systems. 2007:241-248.

[17] Shen Chengyao, Song Mingli, Zhao Qi. Learning high-level concepts by training a deep network on eye fixations[C]// Proceedings of the 2012 NIPS Workshop on Deep Learning and Unsupervised Feature Learning. 2012.

[18] Lin Yuetan, Kong Shu, Wang Donghui, et al. Saliency detection within a deep convolutional architecture[C]// Workshops at the 28th AAAI Conference on Artificial Intelligence. 2014:31-37.

[19] Han Junwei, Zhang Dingwen, Wen Shifeng, et al. Two-stage learning to predict human eye fixations via SDAEs[J]. IEEE Transactions on Cybernetics, 2016,46(2):487-498.

[20] Li Hongyang, Chen Jiang, Lu Huchuan, et al. CNN for saliency detection with low-level feature integration[J]. Neurocomputing, 2017,226:212-220.

[21] Bruce N D B, Tsotsos J K. Saliency based on information maximization[C]// Proceedings of the 18th International Conference on Neural Information Processing Systems. 2005:155-162.

[22] Ramanathan S, Katti H, Sebe N, et al. An eye fixation database for saliency detection in images[C]// Proceedings of the 11th European Conference on Computer Vision. 2010:30-43.

[23] Tatler B W, Baddeley R J, Gilchrist I D. Visual correlates of fixation selection: Effects of scale and time[J]. Vision Research, 2005,45(5):643-659.

[24] Garcia-Diaz A, Fdez-Vidal X R, Pardo X M, et al. Saliency from hierarchical adaptation through decorrelation and variance normalization[J]. Image and Vision Computing, 2012,30(1):51-64.

[25] Zhang Jianming, Sclaroff S. Saliency detection: A Boolean map approach[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. 2013:153-160.

[26] Goferman S, Zelnik-Manor L, Tal A. Context-aware saliency detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012,34(10):1915-1926.

[27] Hou Xiaodi, Harel J, Koch C. Image signature: Highlighting sparse salient regions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012,34(1):194-201.