显著性目标检测理论与应用研究综述

2022-11-17金海燕肖照林

计算机技术与发展 2022年9期

金海燕，肖照林，蔡磊，王彬

(1.西安理工大学计算机科学与工程学院，陕西西安 710048；2.陕西省网络计算与安全技术重点实验室，陕西西安 710048)

0 引言

现代神经医学和视觉心理学的研究结果表明，人类视觉感知系统可以迅速通过少量视觉特征对目标场景进行准确检测[1-3]，这也是计算机视觉乃至人工智能感知领域的一个核心研究内容。基于图像或视频的信息处理技术近年来已成为国内外学界争相研究的学术热点，其发展极大推动了三维场景数字化建模、自动导航与驾驶、视觉智能检测与判别、遥感图像分类与识别等众多前沿领域的发展[4-6]。然而，欲不断提高基于视觉信号感知的人工智能系统对场景的判断与理解能力，使之拥有可与人类视觉认知系统相匹敌的性能，视觉信号计算的精度和效率之间的矛盾是相关领域研究人员无法回避的一个重要问题。

人类对于自然场景的感知具有较强的主观倾向性，其中一个重要的生物视觉特性就是人眼具备动态对焦能力。这使得在处理重要视觉信息时，在保证感知精度的前提下，它平衡了人脑的处理速度，即“重要目标，重点关注”。受此启发，计算机视觉与图像处理领域的学者提出了视觉显著性目标检测(Visual Saliency Object Detection)的理论问题。在目标识别、图像视频压缩、图像检索、图像重定向等领域，针对显著性目标检测的理论研究成果已得到广泛应用[7-9]，并引起了学术界与产业界的高度关注，促进了大量计算机视觉应用的创新与发展。

1 显著性目标检测理论

1.1 显著性目标检测的研究现状

自1998年，Itti等[10]提出了基于图像的显著性检测模型以来，学者们在原始的视觉注意力模型基础上，以亮度、对比度、颜色和几何分布、特征分布等为线索，开展了显著性检测理论与方法研究。为了增强对显著性目标的准确定位，2007年，Hou等[11]采用图像变换域中的谱残差，在仅需较少先验知识的条件下获得了显著性对象的准确位置。但是，由于谱残差向空域变换具有全局性，故此类方法所产生的分辨率、边界轮廓和计算代价仍存在较大改进空间。针对该问题，2009年，Achanta等[12]定义了一种新的底层特征提取方法，采用马尔可夫随机场计算目标对象的显著性，最终输出具有明确边界的全分辨率显著图，与已有方法相比，边界较为清晰，分辨率更高，能够均匀突出显著区域。随后，2017年，Liu等[13]使用超像素级别的最短路径法生成基于图结构的运动显著图，同时计算超像素级别上图像的运动信息直方图以及颜色直方图特征。

对显著性目标准确定位之后，继续对其进行分割以获得更为准确的目标信息。2010年，Rahtu等[14]提出了基于显著性度量与条件随机场模型结合的目标分割方法，该方法以场景光照、颜色和运动等局部特征的对比度为度量，并以条件随机场能量最小化模型对运动场景视频数据进行显著性目标检测。2011年，Liu等[15]将显著性目标检测与图像分割问题进行联合建模，以多尺度对比度、中心环绕直方图和颜色空间分布特征为基础，提出了基于条件随机场理论的多特征融合显著性目标检测方法，实现了较为准确的显著性目标检测。为增强显著性检测对复杂场景的适应性，2014年，Liu等[16]提出了一种称为显著性树的显著性层次表示模型，通过整合原始区域的全局对比度、空间稀疏度和对象先验来测量初始区域显著性，最终采用显著性区域合并及区域显著性调整实现高精度的显著性检测。2015年，Cheng等[17]提出了一种基于区域对比度的SaliencyCut视觉显著性检测算法，该方法同时考虑全局对比度和空间相干性，以生成高质量的显著性目标分割结果。在此基础上，同年，Wang等[18]由时空显著性图、外观模型和动态位置模型，构建了基于时空连贯性的能量最小化框架求解动态视频显著性检测方法。2017年，Zhu等[19]通过构建树型结构，提出了显著性结构化标签预测方法，在六种标准显著性检测数据集上取得了良好的效果。2018年，Wang等[20]又提出了一种基于测地距离的无监督视频对象分割改进技术，该方法提供了超像素级别的空间精度和时间域连续的显著性测量。

随着深度学习理论的发展，2016年，Kruthiventi等[21]提出了一种基于深度卷积神经网络的人眼注意力预测和显著性目标分割方法。2017年，Li等[22]提出了多尺度显著性细化网络的深度学习方法，为输入图像生成具有不同对象实例标签的显著性掩码，并通过网络细化显著性图和显著性目标边界，最终得到准确的显著性目标识别结果。2018年，Lee等[23]提出集成低级特征和高级特征的显著性检测ELD-Net深度学习框架，实现了在视觉质量和定量评价方面均具有优势的显著性目标检测与识别性能。2019年，Wang等[24]提出了“深度-聚焦边界”的网络模型对物体边界进行检测，并以路径优化算法实现了对显著性目标的准确检测。同年，Wei等[25]提出了基于图的整体与单独个体之间的互动模型，并基于深度学习方法细化了显著性检测结果。2020年，Zhang等[1]提出了基于无监督学习的显著性排名框架算法，通过计算相似性矩阵对背景和前景区域进行区分，取得了准确的显著性检测结果。

随着深度传感器的推广，国内外研究人员将图像的深度信息引入到显著性检测中。为了得到更准确的显著性目标检测结果，研究人员尝试在RGB-D数据上将目标分布、对象几何形态和深度线索等信息融合，以实现更优的显著性检测结果。2018年，Jeong等[26]通过建立深度显著性网络并通过选取种子点的方式联合获取图像中的高级语义信息，进一步提高了显著性目标检测的精度。2019年，Liu等[27]提出了一种“前景-中心背景”显著区域检测模型，提高了显著性检测性能；Xiao等[28]提出了基于3D感知的RGBD显著性检测框架概念，将伪深度作为图像特征和先验知识，建立了独立的深度感知模型，优化了RGB-‘D’显著性检测模型的性能；Fang等[29]提出了由时空显著性模型(STSM)和立体显著性感知模型(SSAM)两个子模型构成的基于3D卷积神经网络的立体视频显著性检测方法，对3D视频序列有较好的显著性评估性能。2020年，Piao等[30]提出了“深度诱导元胞自动机”显著性检测优化模型，结合深度信息定义了图模型中超像素与临近超像素的相似性，实现了对目标的显著性检测。与此同时，在深度图像、3D感知RGBD图像、立体视频、光场图像等方向，也逐渐产生了针对不同模态数据源特性的显著性检测方法。

1.2 多模态特征提取与融合的研究现状

由于复杂背景、遮挡、动态目标、尺度和光照变化、图像噪声等，基于单一模态数据特征分析的显著性检测方法仍存在准确性不高和适用范围受限的问题。为了将单一模态特征的分析延拓至多模态特征分析理论中，研究人员结合多视几何理论和特征融合理论，构建了基于多模态特征分析的视觉关联性理论。2007年，Han等[31]采用自动配准方法从彩色和红外图像序列中提取人体轮廓，并采用分层遗传算法找到对应关系进行融合。2011年，Li等[32]比较了六种不同滤波器和不同分解层数的图像融合方法，并给出了使用多尺度图像分解的通用图像融合框架。2014年，Wang等[33]提出了一种非负稀疏表示(NNSR)的红外与可见光图像的显著特征提取方法，并提出了基于区域一致性规则的融合方法，该方法在无噪声环境下表现更佳，但是在嘈杂的环境下效果不确定。2015年，Liu等[34]提出了一种结合多尺度变换(MST)和稀疏表示(SR)的通用图像融合框架，同时克服了使用单一的MST和SR融合方法的固有缺陷。2016年，Ma等[35]为了同时保持红外图像的热辐射特性及可见光图像的外观信息，提出了一种新的基于梯度传递和总变化最小的红外图像与可见光图像融合方法，使得融合结果看起来像是锐化的红外图像，具有突出的目标和丰富的纹理信息。同年，Kim等[36]提出了一种基于聚类的字典学习的多模态图像融合方法，对来自具有相似图像结构的不同源图像的补丁进行分类，并组合那些补丁簇的主要成分来构造紧凑且信息丰富的完全字典，字典学习后将源图像的低频分量和高频分量分别融合。2017年，Zhao等[37]通过结合全局最大熵和梯度约束正则化提出了一种基于优化的融合方法，使融合后的结果具有了清晰的细节和带有噪声抑制的稳定边缘。同时，基于稀疏表示的图像融合方法备受关注，这些技术的三个关键组成部分包括：稀疏表示模型、字典学习和融合规则。2018年，Zhang等[38]对基于稀疏表示的图像融合方法的三个关键算法进行了理论研究，并对其性能进行了全面评估。目前，现有的多模态数据融合大多针对红外和可见光图像，且大多采用传统图像配准和增强手段进行融合，针对显著性目标检测的特征提取与融合理论与方法仍亟待研究。

此外，近几年在多视图数据的提取与融合方面，为了改善无监督稀疏特征选择的有限外推能力，2015年，Shi等[39]提出了基于多模态Hessian正则化的半监督稀疏特征选择框架；Wang等[40]受流形学习和多视图非负矩阵分解(NMF)的启发，考虑数据之间的内视图相关性，建立了基于局部图正则化的多视图NMF特征提取方法；Yang等[41]提出了在特征选择时引入基于秩最小化和稀疏的Lasso，在特征选择时去除冗余的特征。2016年，Shi等[42]将判别分析、频谱聚类和多视图之间的相关信息合并到一个统一的框架中。2017年，Aissa等[43]提出了基于自组织映射(SOM)的特征提取的无监督方法。2018年，Shi等[44]提出了一种多视图特征提取与动态图形学习的统一框架。现有多视图特征提取及融合方法考虑了视图间的特征的低秩性和结构保持特性，其思想在研究多模态特征提取和融合问题时可以借鉴。

随着深度学习理论的发展，基于神经网络的多模态图像融合方法取得了较快的发展。2011年，Jiang等[45]提出了对当前的McKusick and Langley(M-L)优化进行阶数和频率修正，并将优化和修剪结合的处理方法，最后使用自生成神经网络(SGNN)和模糊逻辑对多传感器图像进行融合。2014年，Kong等[46]提出了一种基于非下采样小波变换空间频率-脉冲耦合神经网络(NSST-SF-PCNN)的红外和可见光图像融合新方法。2015年，Xiang等[47]提出了一种基于自适应双通道单元链接脉冲耦合神经网络(PCNN)的融合算法，用于非下采样轮廓波变换(NSCT)域中的红外和可见光图像融合。2017年，Liu等[48]提出了一种基于深度的卷积神经网络(CNN)对多焦点图像融合方法，CNN模型可以实现源图像和焦点图之间的直接映射，也可以学习融合规则。2018年，Liu等[49]又总结了传统图像融合领域存在的困难，讨论了深度学习在解决传统图像融合领域问题时的优势，详细地总结了基于深度学习的图像融合技术的最新进展并将其归纳为几个通用框架，并提出了一个潜在的基于深度学习的框架来开发客观评估指标。2019年，Ma等[50]提出了一种采用生成对抗网络的红外与可见光图像融合方法，可以很好地保留红外图像的热辐射信息和可见光图像的纹理信息。2020年，Ma等[51]又提出了基于细节保留对抗学习的红外和可见光图像融合的端到端模型，克服了传统融合方法中人工评价和复杂的融合规则设计的局限性。

随着特征提取与融合理论的发展，联合显著性(Co-Saliency)检测成为该领域理论应用的典型代表[52]。基于图像的自底向上联合显著性检测方法采用人工设计的低级特征构建共同显著性线索[53-57]。基于多显著性图特征融合生成共显著性映射的方法，可有效利用已知显著性先验，生成高精度的Co-Saliency检测结果图。此外，研究人员采用多示例学习(MIL)和自主学习(SPL)的联合学习框架，得到对复杂场景中显著性目标的引导强化学习，也取得了较为精确的显著性检测结果[58-59]。

1.3 尚需解决的问题

由于对人类视觉系统注意机制本身的研究仍有待完善，加之自然场景的随机性与复杂性，现有显著性检测方法仍面临较多技术瓶颈。

早期的研究工作中，使用了谱残差、提取图像底层特征、统计直方图等方法，主要集中在对显著性目标的检测，而对于目标的完整轮廓、边界信息的完整提取关注较少，因此检测效果并不理想；通过分割显著性目标，虽然可获得较为准确的显著性检测结果，但是由于需要密集的显著性检测计算，故此类算法的计算复杂度相对较高，且对复杂光照阴影或目标与背景具有相似性纹理的场景鲁棒性不高；引入图像深度信息的视觉显著性检测方法大多基于单一模态数据，采用多种不同特征对目标显著性进行描述和度量。由于复杂背景、遮挡、光照变化、成像噪声等因素影响，此类方法仍存在目标对比度低，以及对复杂场景中目标检测的精确性和鲁棒性不足的问题；基于深度学习的显著性检测方法在特定数据集上均表现出非常优异的性能，但其算法较为依赖训练数据，不同网络结构的泛化性与可解释性仍有待进一步研究。

综上所述，现有显著性检测技术存在对场景中的遮挡情况鲁棒性较差，对动态多目标场景的检测存在多义性或不确定性，对场景光照变化、图像尺度变化、图像噪声等均较为敏感，对视觉显著性检测理论与方法的进一步发展提出了极大的挑战。

2 显著性目标检测应用

针对传统视频目标检测领域，2015年，Wang等[60]使用梯度流场和能量优化来估计视频中的显著区域，结合帧内信息和帧间信息对视频进行显著性检测。2017年，Chen等[61]提出了基于时空显著融合和低秩相干引导显著性扩散的视频显著性检测方法。2017年，Wang等[62]提出的深层视频显著性模型具有两个模块，分别是静态显著性网络和动态显著性网络，用于捕获动态场景的时空统计信息。2018年，Qiu等[63]提出了一种基于弱监督学习的视频显著性检测算法，该算法依据人眼注意力特性，将人眼注视区域进行有效传播，进而形成对多个显著性目标的有效检测。2019年，Cong等[64]提出了基于稀疏重建和传播的视频显著对象检测方法，该方法通过在单帧显著性图像的基础上结合稀疏传播算法从而提高视频显著性检测的准确性。此外，利用深度学习理论进行视频显著性检测的典型研究工作也成为该领域发展的重要趋势[65]。

在多模态数据显著性检测领域，2017年，Li等[66]提出了一种应用于无人机上的红外和可见光图像融合新方法，在涉及具有类似系统结构的其它中海拔或高海拔无人机应用中具有显著效果。2017年，Koenig等[67]使用全卷积神经网络将红外与可见光图像信息的多光谱图像用于人员检测，此方法在光照或图像分辨率不足的场景下具有重要应用价值。2018年，Xu等[68]将显著性检测应用于人脸检测，在建立眼球追踪数据库的基础上，提出了基于粒子滤波器的动态高斯混合模型，从而实现了针对面部显著性特征的高精度检测。2019年，Ding等[69]提出了计算每个点云深度的全局稀有度，并将点云簇的局部差异和全局稀有度结合，获得点云数据的显著性检测结果。2020年，Hu等[70]开发了一种集成可见光和NIR-I/II多光谱成像仪，该设备将可见光、NIR-I(700 nm～900 nm)和NIR-II(1 000 nm～1 700 nm)多光谱成像应用于人体肿瘤的检测。

同时，显著性目标检测技术有效提高了社会生产的自动化效率，进一步拓展该技术的应用范围对国内重点行业实现现代化和智能化意义重大。2019年12月，沈阳金山热电分公司10千伏供热电缆接地故障，造成1号热网水源变压器10千伏侧绕组过热、绝缘击穿、短路着火，多机组相继跳闸，导致了大面积停电事故。2020年1月，宁夏石嘴山发电有限责任公司核心泵房11号供水泵管线电动调阀出现故障，高温蒸汽与低温原水在管道内部直接混合加热，内部汽水混合物大量喷出，造成了多人受伤的生产安全事故。2020年初，在武汉抗击疫情过程中，电力工人全力以赴24小时不间断巡视，以确保医疗场所供电稳定。针对上述电力场景，应用显著性检测技术可有效提升电力生产的可靠性及安全性。但常见的可见光数据难以采集发热、漏电、潮湿以及气液等状态异常现象特征，而非可见光数据又不利于采集自然场景中人员设备的可视细节特征。因此，基于单一模态数据的显著性检测方法仍无法满足对上述场景的应用需求。

目前，国内学者针对单一模态数据显著性目标检测的研究已有许多突破性进展，其相关理论与发展已接近理论成熟期。但单一模态数据对于场景信息采集的完备性较低，导致了基于单一模态数据对目标显著性特征进行分析、提取、表达、计算等诸多环节的理论研究可拓展性较弱以及适用范围不足。现有多模态数据进行显著性检测的研究工作逐渐受到国内学界的关注，对多模态数据显著性检测的系统性工作还在进一步探索中。

3 结束语

通过该文的梳理和分析可见，现有基于单一模态数据特征分析的显著性检测方法已有大量研究成果。由于复杂背景、遮挡、动态目标、尺度和光照变化、图像噪声等，现有基于单一模态数据特征分析的显著性检测方法仍存在准确性不高和适用范围受限的问题。为了突破对目标显著性特征进行分析、提取、表达、计算等诸多环节的理论瓶颈，将单一模态的显著性检测理论与方法延拓至多模态场景，研究基于多模态数据和特征融合的显著性检测问题或可成为推动该领域发展的重要理论增长点，且有望突破场景遮挡、动态目标、尺度和光照变化、图像噪声等导致的显著性目标检测领域的技术瓶颈。