采用特征引导机制的显著性检测网络
2021-07-28左保川
左保川,张 晴
上海应用技术大学 计算机科学与信息工程学院,上海201418
显著性检测旨在通过模拟人类的视觉特征来提取人类感兴趣的图像显著区域。检测显著性物体需要理解整个图像以及图像中物体的语义信息和详细结构。因此,显著性检测是计算机视觉中的一个基本且具有挑战性的问题。在过去的十几年里,随着大数据和人工智能技术的快速发展,研究者们提出了很多经典的显著性检测方法,可以应用于多种计算机视觉任务,例如目标识别[1]、图像压缩[2]和图像修复[3]。
传统算法通常采用人工选择特征的方法检测和分割图像中的显著物体,基于局部或全局对比度[4-6],人为选择基于像素或超像素级别的各种图像特征(例如颜色、强度和直方图),进行显著性计算。这些方法在简单的数据集上表现良好,但是当图像背景变得复杂时可能会检测失败,因为人工选择的低层特征无法有效捕获图像中隐藏的语义信息。此外,这些人为手动选择的特征大多是基于现有数据集的先验知识,因此在面临实际应用中的复杂场景时往往不能取得令人满意的检测效果。近年来,研究人员在显著性检测方法中引入了卷积神经网络(Convolutional Neural Network,CNN),它展示出了出色的特征表征和学习能力,可以自动且有效学习图像上下文信息。卷积神经网络[7]突破了传统人工特征的性能局限,并且在检测速度方面取得了很大的提升。随后研究者们提出了全卷积神经网络(Fully Convolutional Network,FCN)[8],把全连接层变为卷积层,进一步促进了显著性检测的发展,提供了一种更高效和更完善的网络模型,实现了端到端的检测。
现有研究成果[9-10]表明,CNN具有金字塔状结构,较浅的卷积层输出特征图具有较大的分辨率,保留了丰富的细节信息,例如边界和轮廓,较深的卷积层包含丰富的语义信息,并有助于定位显著物体位置。据此,研究者们设计了多种用于显著性检测的网络结构,其中基于特征金字塔网络(Feature Pyramid Network,FPN)结构的显著性检测模型受到广泛关注,因为它能够通过自顶而下的路径构造多尺度多层次的特征图。
尽管基于卷积神经网络的方法较传统方法极大提升了算法检测性能,但仍有许多方面值得进一步研究与改进。首先,采用FPN 结构的模型,深层的语义信息以逐层传递方式传递到浅层,由粗至精更新显著性图,然而在这过程中,深层特征所包含的物体位置信息等语义特征也同时被逐层稀释。其次,目标物体具有不同的大小,单一尺度的卷积核并不能有效检测出图像中的所有物体。
受膨胀卷积[11]和感知结构[12-14]的启发,本文设计了一种新的基于深层特征引导的显著性物体检测网络模型,以特征金字塔网络为基础,主要包括:全局特征生成模块(GGM)、残差模块(RM)和引导流(GF)。首先,本模型的GGM 由多个膨胀卷积组成,可以支持感受野成倍的扩大而不会降低分辨率和网络收敛性,进一步提取丰富的语义信息。RM 是通过不同卷积核的卷积操作所得到的卷积层组成,可以提取多尺度特征。同时,在构建自顶而下的路径时,通过GF将来自GGM和RM模块的特征进行融合,在每个侧输出补充来自GGM 的深层语义信息。此外,所提模型对每个侧边的输出进行监督。本文模型与近年发表的主流方法的视觉比较结果如图1所示。
图1 视觉比较
概括的说,本文的主要贡献如下:
(1)提出了一种基于特征引导的显著性物体检测网络模型。首先,采用一个由膨胀卷积组成的全局特征提取模块捕获丰富的语义信息。然后,对于不同的侧输出,采用残差模块提取其多尺度特征。采用由粗至细方式,逐层更新显著性图。
(2)设计了一种连接方式,可以在建立自顶而下路径的过程中,通过引导流来逐步融合两个模块所提取的特征,达到为浅层特征补充语义信息的作用。同时可以用深层语义信息帮助浅层特征准确地定位显著性物体的位置。
(3)与其他11种近年发表的主流模型相比,无论是定量还是定性评估,本文模型在5个广泛应用的公开数据集上取得了较好的检测性能。
1 相关工作
在过去的十年里,研究者们设计了许多显著性检测模型。开拓性工作可以追溯到文献[5-6]。这些早期的显著性物体检测方法大多数是基于人为手动选择的特征,例如边界背景[6]、颜色对比度[4]和中心先验[15]。这些方法对内容简单的图像具有较高的检测性能。然而,手动选择特征和先验知识难以捕获显著性物体的高级语义信息。
与利用人为手动选择特征的传统方法相比,基于卷积神经网络的方法在显著目标检测中大大提升了系统性能。Li 等人[16]将图像调整为三个不同的比例以提取多尺度特征,然后将这些显著图进行汇总以获得最终的预测图。Wang等人[17]设计了一个神经网络以图像块作为输入提取局部信息,并将这些特征与全局对比度信息进行融合,用来描述整个图像。Zhao等人[18]提出使用两个独立的卷积神经网络,它可以同时提取局部和全局上下文信息,然后将它们进行融合。Lee 等人[19]先用传统方法提取低层次的启发式特征(例如颜色对比度和Gabor响应),然后和原始图像一起作为卷积神经网络的输入。上述方法很耗时,因为它们将图像块作为CNN 的输入。此外,它们忽略了重要的图像空间信息。
为了解决上述问题,相关研究者提出了基于全卷积神经网络的方法[20-21]。它实现了端到端的检测,并且FCN 的显著性检测方法可以捕获更丰富的空间信息和多尺度信息,找到最佳的多尺度融合方法来解决由下采样操作引起的尺度空间问题。Zhang等人[22]设计了一个混合的上采样模块,以减少反卷积操作引起的棋盘效应,并融合多层次卷积特征进行显著性检测。Liu 等人[23]设计了一个两阶段网络,该网络首先获得粗略的显著性预测图,然后融合局部上下文信息以循环的方式且分层次的优化它们。Hou等人[9]受整体嵌套边缘检测器(HED)[24]的启发设计了一个短连接的方式对侧输出进行逐步融合,然后进行显著性预测。Luo 等人[10]改进了U形结构,并使用了多级上下文信息来准确定位显著物体的位置。Zhang等人[22]将注意力机制嵌入到U形网络结构中,以引导特征融合过程。Zhang 等人[25]利用一个双向结构在FCN提取的多层次和多尺度特征之间传输信息,以更好地预测显著图。Chen等人(RAS)[26]采用逆向注意力模型来迭代地优化其侧边输出。
与上述方法不同,本文的方法研究如何在FCN 的基础上利用特征引导机制来提高性能。
2 本文模型
研究人员在文献[9,23,27-28]中指出,深层的语义信息有助于定位显著性物体的位置,浅层和中层特征可以补充一些细节信息,以保证物体的完整性。基于此,本文提出了新的显著性物体检测模型,利用全局特征准确定位显著物体位置,通过信息引导流将全局特征与侧边输出的多尺度特征进行融合。
2.1 网络结构
本文提出的模型基于特征金字塔网络[29],它是典型的U型结构,具有自底向上和自顶向下两个路径。由于它具有组合来自分类网络的多层次特征[30-31]的能力,因此许多视觉任务采用了此类网络结构。本文所提模型结构如图2 所示,首先,全局特征生成模块(GGM)建立在自底而上路径的最顶部。在这个过程中,浅层会显现出一个大致的物体轮廓,随着网络的加深,细节信息会丢失,深层卷积层输出显现出一个模糊的物体。融合深层信息和浅层信息可以突显物体的完整性,因此,将由GGM 提取的信息通过引导流(GF)分配到各个层次的特征图中,具体的方法是逐像素相加,这样做可以便于定位不同层次特征图中显著性物体的位置。在进行特征融合之前,利用残差模块(RM)通过不同卷积核大小的卷积运算提取不同尺度的特征以进行多层级特征增强。
图2 模型架构
2.2 全局引导模块
FPN 在自顶向下的过程中可以逐步融合来自主干网络的多层次和多尺度特征。因为自顶而下的路径建立在自底而上的主干网络上,所以这种结构的问题之一是深层的语义信息在传输到低层时会逐渐被稀释。研究表明,CNN经验上的感受野比理论上要小得多,尤其是对于更深的层次。因此,对于输入图像,整个网络的感受野不足以提取足够的全局信息。另外,由于自顶向下的路径中缺少深层语义信息,因此,本文提出了一种全局生成和特征引导流模块,直接将深层特征与侧输出特征相互融合,准确定位各个层次特征图中的显著性物体的位置,GGM模块的详细结构如图3所示。
图3 全局引导模块的详细结构
更具体地说,为了有效地捕获输入图像的上下文信息,受SIFT 特征提取的启发[32],本文利用膨胀卷积[33]获得具有相同比例但不同感受野的特征图。在卷积和池化的过程中卷积核的感受野是相对变大的,但是依然可以进行进一步的扩大,提取更多信息。卷积核膨胀就是将卷积核扩张到膨胀尺度约束的尺度中,并将原卷积核没有占用的区域填充为零,这样可以使输出变得稠密,而且在不增加计算量的情况下,扩大了卷积核的尺寸。将VGG-16中的conv5_3作为深层语义特征来提取全局信息。第一个分支利用卷积核大小为1×1 的卷积操作来降低维度,而接下来的三个分支则使用膨胀率分别为3、5和7的膨胀卷积捕获多感受野的上下文信息。为了更好捕获全局上下文信息,添加了全局最大池化操作作为额外的分支,然后结合来自不同分支的特征图,采用3×3和1×1的卷积操作生成具有一个通道的特征图作为全局特征输出。
2.3 残差模块
首先使用了一个类似于inception的结构,因为显著性物体检测不针对特定目标,不同物体在不同图像中所占的比例、位置都不尽相同,因此,很难为卷积运算选择合适的卷积核大小。因此,采用不同大小的多个卷积核分别对侧输出进行卷积操作,从而提取多尺度的侧输出信息。
此外,受残差网络[30]启发,在上述结构的基础上,本文提出了一种残差结构模块来提取多尺度特征。利用残差结构第一是为了加快训练时间,使模型收敛速度更快,第二是为了加强上下文之间的联系,原始的卷积层经过一系列操作后再与原始的卷积层融合可以提取更多细节信息,进行进一步的特征优化和调整。残差模块的细节信息如图4所示。卷积核大小会影响训练时间,为了保证模型的统一性且不增加过多的参数,不宜采用过大的卷积核,因此,本模型以卷积层的最小尺寸为基础,采用三个具有不同卷积核大小(1×1,3×3,5×5)的卷积层在降维的同时生成三种特征图。为了获得多尺度的上下文信息,将这些特征图和原始卷积层进行结合,得到fcat,然后通过一个3×3 和一个1×1 卷积的运算获得只含有一个通道的特征图。
图4 残差模块的结构
2.4 损失函数
该模型的最终损失为所有侧边输出损失的总和,由以下公式表示:
其中,lk表示第k个侧输出的损失,K表示输出的总数,αk是每个输出的权重。在本文中,将每个侧输出的αk设置为1。
在本文中,选择二值交叉熵损失函数作为模型的损失函数,它是交叉熵损失函数的一个特例且是二分类问题中常用的一种损失函数,显著性检测可以看做是一个二分类问题,其结果用0和1两种类别来表示,0代表图像背景,1 代表显著性物体,模型会通过一个sigmoid 函数输出概率值。概率值越大,表示该像素为显著性物体的可能性越大。具体公式如下:
其中,H、W表示图像的高度和宽度,Gxy∈(0,1)是像素(x,y)的真值图标签,Sxy表示相应的成为显著性物体的概率。另外,通过双线性插值法将6个显著性预测图上采样到与真值图相同的大小,最后,使用Sigmoid 函数将预测图的值归一化为[0,1]。
3 实验结果
3.1 数据集和评估指标
数据集:为了评估模型的性能,本模型在五个具有代表性的公开数据集进行了实验,这些数据集包括ECSSD[34]、HKU-IS[35]、PASCAL-S[36]、DUT-OMRON[6]、DUTS-TE[37]。ECSSD 具有1 000 幅语义信息丰富的复杂结构图像。HKU-IS是一个较大的数据集,包含4 447幅复杂图像,其中大多数具有两个或多个显著性物体。PASCAL-S 具有850 张背景和前景复杂的图像。DUTOMRON 数据集包含5 168 张图像,虽然大多数图像只有一个显著性物体但具有数百种不同的类别。DUTS-TE数据集由于其多样性和数量庞大的特性,已广泛应用于相关的显著性检测模型。
评估指标:本文使用四个指标评估模型性能:准确率-召回率(PR)曲线、F-measure、ωF-measure和平均绝对误差(MAE)。
显著图的准确率和召回率是通过将预测图与真值图相比,预测图中预测正确的像素所占的比例来计算的,从0 到255 的阈值得到一系列相对的准确-召回值,绘制PR曲线。
F-measure可以评估显著性图的质量,通过准确率和召回率的加权调和平均得到:
其中,β2设置为0.3,和以前的论文[38]一样。与Fβ类似,ωF-measure用Precisionω和Recallω的加权调和平均值计算。
MAE得分用来评估显著图S与真值图G之间的平均像素差值:
3.2 实施细节
本文分别选择VGG-16[31]和Resnet[39]作为主干网络,使用DUTS-TR 数据集训练模型。在训练过程中,每个输入图像的大小均调整为320×320,除主干网外,其他卷积层均由Xavier 初始化[40],且使用Adam 优化器[41]优化本文的网络,并将一些超参数设置为默认值,其中初始学习率为5E-5,权重衰减为5E-4。参照文献[31]中的建议,本文模型在训练时未使用验证集,训练损失稳定时停止训练。所有上采样操作均使用双线性插值的方法。本文所提的网络模型在公开可用的框架Pytorch 0.4.0[42]上实现。
3.3 消融实验
通过组合不同模式的GGM、RM 和GF 进行消融实验,以说明所提各模块的有效性。表1显示了在数据集ECSSD和DUTS-TE上的性能比较结果。
表1 在两个流行数据集上的消融实验的对比结果
RM。简单地将RM嵌入基础网络中可以提高检测性能。这可能是因为与原始卷积层相比,RM使用不同大小的卷积核扩大了整个网络的感受野,并且还表明FPN 结构仍需要结合更多来自不同尺度和不同层次的特征图。
RM+GF。在上述模型基础上增加了信息引导流,但用普通的卷积核1×1 代替了GGM,并降成一个通道的特征图。由于深层特征图含有丰富的语义信息可以为浅层特征图补充信息,因此检测效果有所提升。
GGM+GF。GGM 和GF 的组合方式优于前两种情况。来自GGM的全局信息使模型能够更加专注于显著性物体的完整性,从而提高预测显著图的质量。
GGM+RM+GF。这种组合方式可以进一步提高整个网络的性能。利用这些模块可以使模型拥有准确定位显著性物体的位置和完善边界信息的强大能力。图5是可视化效果比较。
图5 消融实验的视觉对比结果
3.4 与经典模型比较
本文所提模型与11种近年发表的主流方法进行比较,包 括UCF[22]、RFCN[43]、DHS[23]、Amulet[44]、DCL[20]、NLDF[10]、DSS[9]、PAGRN[45]、C2S[46]、PiCANet[47]、RAS[26],其中UCF 是典型的编码和解码结构,只是用深层次特征生成最终的特征图,缺少浅层的细节特征。DSS、DCL、DHS 和NLDF 先提取多尺度和多层次特征,然后用上采样进行逐层次融合生成最终的显著图。Amulet和C2S 加入了边界约束,进一步补充显著图的边界信息。RAS 和PiCANet 则是在多尺度和多层次特征的基础上加入了注意力机制。最后RFCN和PAGRN则是加入了循环结构,RFCN额外添加了先验图作为引导信息,而PAGRN加入了注意力机制。这些模型都没有注重深层特征的重要性。本文模型充分利用了深层的特征。
定量比较:表2是所提模型和主流方法在五个公开数据集上的比较结果。其中DCL、DSS两个模型采用了全连接条件随机场(CRF)的后处理技术。从表2中可以看到,本文模型的性能仍几乎超过了所有模型,整体性能最佳。为了进行更直观的比较,本文还展示了在五个数据集上的PR曲线,如图6所示。可以看出,与其他经典的方法相比,本文模型(红色)的PR 曲线几乎领先或持平于其他模型。在PASCAL-S数据集中,本文的准确率和召回率略低于PAGRN 和PiCANet,可能是因为这两个模型中加入了循环机制和注意力机制,但总体而言,本文模型预测的显著性图的质量更高。
图6 本文算法的PR曲线与经典算法在5个数据集上的比较
表2 在5种基准数据集上的性能比较
视觉比较:为了进一步证明本文提出的模型的优越性,在图7 中展示了一些视觉比较结果。从顶部到底部,图像的场景分别包括大物体、小物体、前景和背景之间的低对比度以及含有复杂的物体结构。可以明显看出,本文模型不仅可以预测正确且较完整的显著性物体,而且可以保持清晰的边界。
图7 与经典模型的视觉对比结果
4 结语
本文提出了一种显著性物体检测模型,通过设计和实现全局特征生成模块(GGM)和残差模块(RM),研究多尺度和多层次特征的提取与融合,尤其是深层语义信息的利用。实验结果表明,该模型可以在五个广泛使用的基准数据集较现有的主流网络具有较好的检测性能,此外,本文设计的模块独立于网络结构,可以灵活地应用于基于特征引导的模型。在以后的研究中,将探讨注意力机制对显著性检测中不同通道和区域的影响。