视觉显著性预测综述

2017-05-13石志儒

电子设计工程 2017年9期

关键词：物体显著性数据库

孙夏，石志儒

（1.中国科学院上海微系统与信息技术研究所上海 200050；2.上海科技大学信息科学与技术学院，上海201210；3.中国科学院大学北京 100049）

视觉显著性预测综述

孙夏1，2，3，石志儒2

（1.中国科学院上海微系统与信息技术研究所上海 200050；2.上海科技大学信息科学与技术学院，上海201210；3.中国科学院大学北京 100049）

本文针对视觉显著性预测这一热点问题，通过介绍和对比了基于认知型、基于图论模型、基于频谱模型、和基于模式识别模型等视觉显著性预测算法的优缺点，得出基于模式识别模型在现有数据库效果最好的结论。同时，本文探究了已有的数据库特色以及适用范围。除此之外，本文分析了Auc、NSS和EMD等性能评估方法对于评估各种视觉显著性预测算法性能的优势和劣势。文章最后针对已有视觉显著性预测方法和数据库的问题，对现有的视觉显著性预测方面的研究做了总结和展望。

视觉显著性；显著性预测；认知模型；模式分类

在过去的十几年，基于视觉显著性的研究日益增多，因为其广泛的应用性。人类在观测事物时会迅速捕捉与背景和周围不同的显著性区域，以此实现在短时间内最大化所获取的信息。因此，在计算机视觉领域，对视觉显著性的研究有着重大意义。视觉显著性可以用于图像分割，图像质量评估，图像匹配，图像恢复，图像渲染，图像和视频压缩，图像缩略图，图像重定向，视频摘要，视频压缩，场景分类，物体检测，物体识别，视觉跟踪，兴趣点检测，自动图像拼贴，人脸分割和跟踪等。在机器人领域，视觉显著性可以用于机器人定位，机器人导航等。

1 视觉显著性预测

鉴于许多研究者经常混淆视觉显著性预测与显著性物体检测这两个概念，本文将简单地阐述视觉显著性预测与显著性物体检测的异同。视觉显著性预测即预测人类的视觉凝视点和眼动；显著性物体检测是基于视觉显著性在图像大小调整上的应用而得来的概念。二者主要有二方面的不同。

1）两者的标准集的定义不同。视觉显著性预测只需预测出人类在3～5秒的凝视中所关注的点；显著性物体检测的目标是检测出最显著的物体。其中显著性物体作为一个整体被检测出来，需要精确到像素级别；理论上，在显著性预测模型上成功的方法在显著性物体检测的标准中会失败。

2）两者的评估标准不同。视觉显著性预测的评估方法需要评估显著性图的相似程度，而显著性物体检测方法需要基于显著性物体区域中每个像素点的命中率来计算准确率和回召率。

图1 视觉显著性预测与显著性物体检测

2 常用的视觉显著性预测方法

2.1 认知模型

几乎所有的显著性模型都直接或间接地受认知模型启发而来。认知模型的一大特点是与心理学和神经学有着十分紧密的关联。从心理学特征出发，Itti的基本模型使用了三个特征通道，颜色，属性，方向。模型通过对这三个特征图加权形成最终的显著性图。这一模型是后来需要衍生模型的基础。同时，也成为了许多基准在比较过程中使用的比较对象。一个输入图像被下采样为高斯金字塔，每个金字塔层次σ被分解为通道红色R，绿色G，蓝色B，黄色Y，属性I，和方向O。对于不同的通道，基于中心计算并归一化其特征图。在每个通道，相加特征图并归一化，

2.2 信息论模型

信息论模型的本质是最大化来自所处视觉环境的信息。其中最有影响力的模型是AIM模型。首先，计算每个点的特征pi；接下来，计算特征的分布，平均值μ，方差Σ。然后，通过计算特征向量T间的马氏距离Δ来计算显著性，其中 Δ2=（T-μ）′Σ-1（T-μ）。Seo和Milanfar提出SDSR方法。首先，每个像素的局部结构可以由局部描述矩阵（局部回归核）来计算。接下来，通过矩阵的余弦相似度来计算与相邻像素的相似度。对于每一个像素，最终的显著图代表着特征矩阵Fi与身边特征矩阵Fj的统计似然

其中ρ（Fi，Fj）代表着矩阵间的余弦相似度，σ是局部权重参数。局部特征矩阵的列代表着局部旋转内核为：

其中l=1，…，P，P是本地窗口中所含像素的个数。h是全局平滑函数。Cl是由围绕当地分析窗口的空间梯度向量计算而来的协方差矩阵。

2.3 图论模型

4) 4台推进器变压器，容量为5 300 kVA/2 650 kVA/2 650 kVA,电压变比11 kV/0.71 kV/0.71 kV。

一个图模型是一个基于图的概率框架，这个图是基于随机变量间的条件独立结构。基于图论的显著性模型把眼动数据看成时间序列。因为有隐藏变量在影响眼动的顺序，因此方法如隐马尔科夫模型（HMM），动态贝叶斯网络（DBN），条件随机场被囊括在内。Salah提出一种基于图论的显著性模型并将其应用到手写数字化以及人脸识别。Harel提出基于图论的方法（GBVS）。他们在多个空间尺度提取特征。接下来，建立一个基于各个特征图的全连接的图。两个节点间的权重与两个节点的特征相似度和空间距离成正比。特征图中位置（i，j）和位置（p，q）的不相似度表示为

其中M（i，j），M（p，q）为对应点的特征值。那么点（i，j）到点（p，q）的值，也就是权重为与他们的不相似度和距离成正比

最终的结果图为经过权重归一化和平衡的马尔科夫链。在平衡过程中，与邻接顶点的相似度非常低的店被赋予大的显著数值。图论可以帮助研究者为显著性模型构建更复杂的显著性机制。然而，图论模型的缺点是模型的复杂度太高。

2.4 频域模型

除了使用空域信息处理图像外，利用频域信息处理图像往往可以得到更好的效果。基于相似性冗余原理，Hou提出了频谱残差的显著性预测模型。他在文章中指出，频谱上的统计奇异点对图像中的异常区域有关联，而图像中的异常区域恰为图像的显著性区域。给定一个输入图像I（x），振幅A（f）=R（F（I（x））），以及相位P（f）=ψ（F（I（x））），同时可以计算出对数普L（f）=log（A（f））。已知对数普，可以计算频谱残差R（f）=L（f）-hn（f）*L（f）。然后通过逆傅里叶变换可以在频域重建显著图。最后，用高斯滤波器g（x）来使显著图呈现更好的视觉效果

其中F和F-1代表傅里叶变换和逆傅里叶变换。

频谱分析易于理解，计算高效而且效果显著，但是关于频域领域的相关解释还未明朗。

2.5 模式分类模型

机器学习方法也同样被应用于视觉显著性预测领域。一般的模型需要选择特征，再评估权重，整合等3个步骤。因为常常会加入人脸，文字等高层视觉信息，这些方法也不是纯粹的自底向上方法。Kienzle提出一种基于学习的非参数的自底向上方法。该模型通过训练一个支持向量街（SVM）[17-18]来决定显著性。他们还在视频上学习了一组空域滤波器来寻找显著性区域。这种方法的优势是不需要事先定义哪些特征对显著性有影响，哪些特征对显著性的影响大。当然，这种方法的结果也更倾向于在图像中心。Judd，与Kienzle相似，训练了一个基于低层视觉，中层视觉，高层视觉特征的线性支持向量机（SVM）。他们的方法在1 003张图片上测试效果显著。随着眼动数据库的增多，以及眼动仪的普及，模式分类模型越来越受欢迎。在现有的数据库评估中，排名最高的模型大多都是基于模式分类的模型。然而，这种模型是完全依赖于大量数据以及数据内容的。这样的一个弊端是使得显著性模型的评估，计算速度。同时，容易造成研究者疏于研究视觉显著性模型的内部机理。

3 视觉显著性数据库

为评估视觉显著性模型的效果，相关研究者提供了丰富的数据库。早期的数据库情景单一，背景和前景颜色对比强烈。近年，一些数据库包含了复杂的背景和多个显著物体。表一介绍了近些年的用于视觉显著性预测的图像数据库，其中包括数据库年份，图像分辨率，图像数量，观测者数量，观测时长等重要信息。每个数据库都有它的优点和局限性。评估一个视觉显著性预测模型的最好方法是在不同的数据库上同时评估。Salicon[3]是迄今为止规模最大的眼动数据集，目前公开的图像超过10 000张。与传统的使用眼动仪来收集标注集的方法不同，该数据库使用了一种鼠标点击的方法来收集标准集。数据库中图像来源于内容复杂的MSCOCO。这为今后基于机器学习的显著性预测方法提供了大规模可训练数据。

4 性能评估

4.1 Area Under ROC

在这些评估方法中，AUC是使用最广泛的评估标准。在AUC的计算过程中，预测的显著性图用作分类器来区分正确的样本（人眼所关注的区域）和错误的样本。通过改变显著性图的分类阈值，可以得到以真正类（true positive rate）和假负率（false negative rate）为横纵轴的受试者工作特征曲线（简称ROC曲线）。Auc既是ROC曲线与横纵坐标所围成图形的面积。其中Auc数值为0代表没有命中率为0，即显著图预测完全错误；Auc数值为1代表命中率为百分之百。然而，由于ROC特性的局限，只要命中率高，ROC曲线与横竖坐标轴所围成图形的面积就会很高，尽管错误率也会提升。由此可见，ROC分析方法不足以描述预测的显著图与实际的凝视图至今的差异。在预测的显著图中，一个被错误预测的位置，在离真实显著性区域很近和很远这两种情况下应该是有区分的。为此，我们引入了EMD和相似度，相关性评估方法来弥补AUC方法的不足。

4.2 Similarity Score

相似度用于描述两种分布的相似程度。在每种分布分别被归一化后，相似度即为两种分布所有位置最小值之和。数学上，显著图P和显著图Q的相似度S为：

两个完全相同的分布的相似度为数值 1。两个完全不同没有任何重叠的分布相似度为数值 0。

4.3 Linear Correlation Coefficent

线性相关性（Linear Correlation Coeffcent，简称CC）用于描述预测的显著图和基准显著图直接的线性相关性。对于两个显著图，将其转换为向量P和Q，那么

CC数值越接近1或者-1，说明预测的算法越好。CC数值为0说明两幅显著图完全不相关。

4.4 Earth Mover's Distance

地球移动距离 EMD（Earth Mover’s Distance（EMD））是在某一区域两个概率分布距离的度量。不正式地说，如果两个分布被看作在区域上两种不同方式堆积一定数量的山堆，那么EMD就是把一堆变成另一堆所需要移动单位小块最小的距离之和。更正式地从数学角度可以描述为：

其中每个fi，j代表从第i个区域到第j个区域需要移动的数量。di，j是第i区域第j区域之间的地球距离。EMD数值越大，说明两个分布越不相同。相反地，两个完全相同的分布EMD数值为0。

4.5 Normalized Scanpath Saliency

标准化扫描路径显著性（Normalized Scanpath Saliency，简称NSS）由预测模型中人眼凝视点位置对应的显著性平均值来定义。首先，模型中点（xh，yh）被归一化为均值为0，方差为1，继而可以求得

NSS小于等于0代表显著性模型不比随机点模型效果好。

4.6 String Editing Distance

字符串编辑距离（String Editing Distance）常用于比较预测的显著性模型的兴趣区域（Region of interest，检测ROI）和人眼的兴趣区域的相似度。首先将兴趣区域安装显著性数值或者人眼扫描的空间路径排序。字符串编辑距离Ss是由删除，插入，替换三种操作的最少次数来定义，其中每删除字符，插入字符或者替换字符则记录为一次操作。最终，两个字符串的最短编辑距离为

以上方法各自有它们的优缺点，一个准确的显著图应有一个高的AUC数值，一个高的相似度，和一个低的EMD数值，一个高的NSS，一个高的字符串编辑距离。

5 研究趋势

目前，随着针对显著性算法的不断探索，大规模显著性数据库的增多，计算机器性能的提升，视觉显著性预测模型已经在现有的数据库上达到不错的效果。然而，数据库本身的局限性和偏差，使得显著性预测模型所受的调整降低，基于复杂情景的显著性预测结果仍与标准集有一定差距。一方面，创建一个情景更加复杂，多显著性物体，颜色更加相似，基于语义的显著性图像数据库将极大地促进视觉显著性预测的发展；另一方面，针对具体情景的研究将更具有实际意义，比如，公共交通中的显著性预测，平面广告设计中的显著性预测，超市物品摆放的显著性预测等。

6 结论

目前，关于视觉显著性的研究日益增多因为其广泛的应用前景。因此，鉴于目前学术界对视觉显著性预测综述性质的文章很少，本文对现有的显著性预测算法做了一个总结和概述，同时展望了该领域未来的研究趋势。本文的目的是方便研究者对显著性预测有一个总体的认识和把握，因为篇幅有限，算法的具体实施可以参考文中对应的参考文献，希望对大家在相关领域的科研有所帮助或启示。

[1]Borji A，Itti L.CAT2000:A large scale fixation dataset for boosting saliency research[C]//.CVPR 2015 workshop on “Future of Datasets”,2015. arXiv.

[2]Bylinskii Z，Isola P，Bainbridge C，et al.Intrinsic andextrinsic effects on imageme morability[J]. Vision research，2015，116:165-178.

[3]Jiang M，Huang S，Duan J，et al.SALICON: Saliency in Context[C]//The IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2015:1072-1080.

[4]Jiang M，Xu J，Zhao Q.Saliency in crowd[C].In Computer Vision-ECCV2014，Springer，2014：17-32.

[5]Shen C，Zhao Q.Webpage saliency[C].In Computer Vision-ECCV 2014，Springer，2014：33-46.

[6]Koehler K，Guo F，Zhang S，et al.What do saliency modelspredict [J].Journal of vision，2014，14（3）:14-14.

[7]Li Y，Hou X，Koch C，et al.The secrets of salient objectsegmentation[J].In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2014：280-287.

[8]Xu J，Jiang M，Wang S，et al.Predicting humangaze beyond pixels[J].Journal of vision，2014，14（1）:28-28.

[9]Ma K T，Sim T，Kankanhalli M.VIP:A unifying framework for compu-tational eye-gaze research[J]. In Human Behavior Understanding，Springer，2013：209-222.

[10]Li J，Levine M D，An X，et al.Visual saliency based on scale-space analysis in the frequency domain.Pattern Analysis and Machine Intelligence[J].IEEETransactionson,2013，35（4）:996-1010.

[11]Kootstra G，de Boer B，Schomaker L R.Predicting eye fixations oncomplex visual stimuli using local symmetry[J].Cognitive computation，2011，3（1）: 223-240.

[12]Chikkerur S，Serre T，Tan C，et al.What and where:A Bayesianinference theory of attention[J]. Vision research，2010，50（22）:2233-2247.

[13]Ramanathan S，Katti H，Sebe N，et al.An eye fixation database for saliency detection inimages[J]. Computer Vision-ECCV2010，2010：30-43.

[14]Judd T，Ehinger K，Durand F，et al.Learning to predict where humans look[J].Proceedings，2009，30（2）:2106-2113.

[15]Borji A，Sihite D N，Itti L.What stands out in a scene A study of humanexplicit saliency judgment [J].Vision research，2013，91:62-77.

[16]Van D L I,Rajashekar U,Bovik A C,et al. DOVES:a database of visual eye movements.[J]. Spatial Vision，2009，22（2）:77-161.

[17]邬连东.基于SVM的生产性服务业与城乡发展一体化耦合评价[J].西安工程大学学报，2016（6）：841-847.

[18]危傲.基于SVM算法的分类器设计[J].电子科技，2015（4）：23-26.

Light field compression based on HEVC encoding and decoding

SUN Xia1，2，3，SHI Zhi-ru2
（1.Shanghai Institute of Microsystem and Information Technology，Chinese Academy of Sciences，Shanghai 200050，China；2.School of Information Science and Technology，ShanghaiTech University，Shanghai 201210，China；3.University of Chinese Academy of Sciences，Beijing 100049，China）

Based on the core problem of visualsaliency prediction，this paper firstly analyzed the imagefeature，then introduced and compared the advantages and disadvantages of the existing prediction methods，such asthese methods based on the graph model，cognitivemodel，patternclassification model and etcanddrewtheconclusionthatthepatternclassificationmethodsworkthebestamong existing dataset.Also，this paper summarized existing dataset，dataset characteristic and usable range for fixation prediction. Meanwhile，this paper used Auc，NSS and EMD performance evaluation methods to assess the performance of various visual fixation prediction algorithms.Finallythis papermade the summary and outlook on future work of visual saliency predictionespecially on existing methods and dataset.

visual saliency；saliency prediction；cognitive model；pattern classification model

TN919.81

1674-6236（2017）09-0189-05

2016-04-07稿件编号：201604067

孙夏（1991—），女，辽宁锦州人，硕士研究生。研究方向：计算机视觉。