一种结合全局和局部相似性的小样本分割方法

2021-04-13刘宇轩孟凡满李宏亮杨嘉莹吴庆波许林峰

北京航空航天大学学报 2021年3期

刘宇轩，孟凡满，李宏亮，杨嘉莹，吴庆波，许林峰

（电子科技大学信息与通信工程学院，成都610000）

小样本语义分割旨在使用少量有标注的图像对新类目标进行分割，其关键问题之一是如何提取支持图像（有标注的图像）和查询图像（待分割的无标注图像）的相似关系，实现先验知识的迁移。现有的小样本分割方法［1-5］常被建模为两分支卷积神经网络，分别是支持分支和查询分支。支持分支提取支持图像的分割先验，查询分支则用于提取查询图像在嵌入空间中的特征，根据支持分支的分割先验，构建两者之间的相似关系，实现对查询图像的分割。

然而，现有的方法通过单独考虑图像的全局线索或者局部线索构建支持图像和查询图像的相似关系。例如，一些方法［1-2，6-8］只考虑了全局线索，而忽略了蕴含细节信息的局部线索，使得模型难以实现细节的准确分割。另一方面，一些方法如LTM［3］只考虑了局部线索，忽略了携带有丰富语义信息的全局线索，导致模型的通用性和泛化性受限。综合两者的优劣，本文将全局线索和局部线索相结合，克服彼此的缺点，使得两者相互促进，获得更优的分割结果。

基于上述分析，在建模支持图像分割先验和查询图像特征之间的关系时，本文同时考虑了支持图像的全局线索和局部线索。具体地，本文提出了一个新的注意力谱生成器，根据支持图像和查询图像之间的关系，更准确地输出查询图像的注意力谱。注意力谱生成器包含2个级联的模块：全局引导器和局部引导器。全局引导器对特征间的全局相似性进行构建，局部引导器建模特征间的局部相似性。本文提出一种新的基于指数函数的全局相似性度量方式，可以对查询图像特征中与支持图像全局分割先验相似的部分进行增强，同时对不相似的部分进行削弱，更有效地对全局相似性进行度量。受到LTM［3］的启发，基于局部关系矩阵，使用局部引导器对局部相似性进行建模，从而得到与类别无关的注意力谱。将全局引导器和局部引导器进行级联，实现了全局相似性和局部相似性的融合。在Pascal-5i数据集上对所提方法进行实验验证，所提方法在1-shot设定下mIoU达到59.9%，5-shot设定下mIoU达到了61.9%，均优于现有方法。

本文所作出的贡献如下：

1）提出了一种新的小样本分割模型，在进行关系建模时，同时考虑了支持图像的全局线索和局部线索，通过同时使用特征之间的全局相似性和局部相似性实现更准确的分割。

2）在进行全局相似性建模时，提出了一种新的基于指数函数的全局相似性度量方式，能够更有效地建模全局相似性。

3）在Pascal-5i数据集上进行了实验验证。所提方法优于最新的对比方法（在1-shot设定下mIoU达到了59.9%，5-shot设定下mIoU达到了61.9%）。

1 相关工作

1.1 小样本学习

小样本学习旨在使用少量样本，学习可以迁移到未知类别的知识，进而实现未知类目标识别的泛化。现有的小样本学习方法可以分为3类：基于模型微调的方法［9］、基于图模型的方法［10］、基于度量学习的方法［11-12］。基于模型微调的方法使用少量新类样本，对模型的参数进行微调。基于图模型的方法建立支持样本和查询样本之间的图模型，对新类样本进行识别。基于度量学习的方法度量支持样本和查询图像之间的距离，继而识别新类样本。目前，小样本学习已在图像分类、图像分割等领域得到了广泛的关注。

1.2 语义分割

语义分割对图像中每个像素点所属类别进行预测。基于全卷积网络（FCN）［13］，研究人员提出了一系列语义分割方法［14-18］，并验证了其有效性。为了得到含有丰富语义信息的特征表达，全卷积网络大量使用池化、跨步长卷积等操作，从而降低特征的分辨率，丰富特征的语义信息。不仅如此，为了提高感受野，DeepLab［15］使用空洞卷积。然而，现有的语义分割方法不能对未知类目标分割进行泛化，因此，研究者提出小样本分割任务，旨在使用少量有标注实现未知类目标的有效分割。

1.3 小样本分割

小样本分割旨在使用少量有标注的图像对新类目标进行分割。现有的小样本分割方法根据其思路可以分为3类：基于度量学习的方法［1-3］、基于元学习的方法［4-5］、基于原型学习的方法［6-7］。基于度量学习的方法［1-3］建模支持图像和查询图像之间的相似性，通过迁移支持图像分割先验实现查询图像的分割。基于元学习的方法［4-5］利用支持分支提取的信息预测查询图像的分类器权重，进而实现查询图像的分割。基于原型学习的方法［6-7］将支持图像的前景和背景分别映射为2个原型先验，然后使用距离最近的原则对查询图像进行分割。其中，基于度量学习的方法被广泛应用到小样本分割的任务中，并且取得了良好的效果。本文方法采用度量学习的思路进行建模。

1.4 国内小样本学习研究现状

文献［19］对融合小样本学习和零样本学习相关方法进行综述，主要介绍了当前小样本学习和零样本学习的一些主流方法。文献［20］将小样本学习与域迁移结合，应用于跨域人脸欺诈检测中。文献［21］利用度量学习的思路，提出了一种基于小样本学习的零器件表面缺陷检测的方法。文献［22］将小样本学习应用于点云分类中，提出了一种基于迁移学习的点云分类方法。文献［23］提出了一种基于已知类权重生成未知类权重的方法，有效地避免了小样本学习中灾难性遗忘的问题。

2 本文方法

2.1 小样本分割问题设置

对于未知类数据Dtest，小样本分割网络致力于提取未知图像的前景区域。通常，分割网络在有标注的已知类数据集Dtrain上进行训练，其中Dtrain和Dtest中的图像类别没有交集。具体地，小样本分割将Dtrain分为支持训练集和查询训练集。

对于k-shot设定，从支持集合的支持训练集和查询训练集中随机采样k张支持图像及其对应的二值掩膜进行训练。测试阶段，小样本网络则根据输入的k张支持图像及其对应的二值掩膜对未知的查询图像进行分割。

2.2 方法框架

本文提出一种新的小样本分割网络，致力于通过全局和局部线索对特征之间的关系建模以生成更精确的注意力谱。最终实现查询图像前景部分的增强和背景部分的削弱。

本文方法框架如图1所示，所提网络共包括4个步骤：

步骤1 将支持图像和查询图像输入到特征提取器CNN中，得到支持图像特征Fs和查询图像特征Fq。

图1 本文方法总体框架Fig.1 General framework of proposed method

步骤2 为了滤除Fs的背景部分，接着将下采样后支持图像掩膜Ms和Fs相乘，得到的F′s只包含支持图像的前景信息。

步骤3 将F′s、Fq以及Ms输入到基于全局和局部相似性度量的注意力谱生成器中，构建与类别无关的注意力谱att，以突出查询图像的前景区域。

步骤4 将att与另一查询图像特征F′q相乘，并输入到上采样网络，得到最终的预测结果P。

所提网络的核心是注意力谱生成器，其基于全局和局部相似性。对注意力谱att进行构建，其由2个级联的模块组成：全局引导器和局部引导器。全局引导器用于对特征之间的全局相似性进行度量。局部引导器则建模局部相似性。在全局引导器方面，提出了一种新的基于指数函数的全局相似性度量方式，可以对查询图像特征中与支持图像先验相似的部分进行增强，同时对不相似的部分进行削弱，更好地进行全局相似度量。在局部引导器方面，受到方法LTM［3］的启发，基于局部关系矩阵，使用局部引导器对特征的局部相似性进行建模，从而得到最终与类别无关的注意力谱。

2.3 注意力谱生成器

本文基于全局和局部相似性对注意力谱att进行构建，具体如图2所示。具体思路是：将F′s和Fq映射到同一个嵌入空间，在嵌入空间中对全局和局部相似性进行建模，最终生成与类别无关的注意力谱。

具体地，F′s和Fq被输入到一个嵌入模块E中，分别得到嵌入特征φs=E（F′s）和φq=E（Fq）。然后，利用全局引导器，对φs和φq的全局相似性进行建模，实现φq与φs中全局信息相似的部分指数型增强，生成粗糙的查询图像特征φ′q。接着利用局部引导器对φs和φ′q中的每个空间位置之间的关系进行度量。通过将Ms、φs和φ′q输入局部引导器中，得到最终与类别无关的注意力谱att。

2.4 全局引导器

现有的基于全局相似性度量的方法计算查询图像特征的每个空间位置与支持图像全局分割先验的余弦距离。然而，该方法将导致查询图像特征中前景部分和背景部分的可区分度较差的问题。针对上述问题，提出了一种新的全局引导器，如图3所示。

图3 全局引导器的细节结构Fig.3 Detailed structure of global guider

2.4.1 全局余弦相似性

按照式（1），对φs进行全局平均池化，获得支持图像全局分割先验vecs。进一步，按照式（2），计算φq每一个空间位置与vecs的余弦距离，进而获得能够表征φs与φq之间全局余弦相似度的余弦相似谱S。Si的值越高，表示当前位置i的局部特征φq，i与vecs越相似。

式中：h为矩阵的高度维度大小；w为矩阵的宽度维度大小。

2.4.2 基于指数函数的全局相似性度量

由于S的值域为［-1，1］，本文期望对S值越高的部分进一步增强，对S值越低的部分进行削弱，从而得到一个新的可以表征距离的相似谱。基于上述分析，提出一种基于指数函数的全局相似性度量方式。具体地，基于式（3），增强了与vecs相似的查询图像特征，削弱了与vecs不相似的查询图像特征。

式中：λ为超参数。

在实验中，将λ设为10、20、40，分别获得attg1=10S、attg2=20S、attg3=40S。进而对attg1、attg2、attg3取平均，得到如式（4）所示的attg，其表征了全局相似性度量。

基于上述原理，获得了基于全局相似性度量的注意力谱attg，其对查询图像特征中与支持图像全局分割先验相似的部分进行增强，同时对不相似的部分进行削弱。

因此，如图3所示，根据式（5），所提全局引导器可获得前景与背景可区分度更高的查询嵌入特征φ′q。

式中：“⊗”为逐元素相乘。

为了获得更具鲁棒性的φ′q，本文在训练阶段将φ′q进行上采样，输出粗糙的分割结果Φ。这里使用如式（6）所示的交叉熵损失对此过程进行监督。

式中：Gi，j为查询图像标签掩膜在位置（i，j）的值；Φi，j为Φ 在位置（i，j）的值。

2.5 局部引导器

包含丰富细节的局部线索对于目标分割任务非常重要，而局部相似性由局部线索所刻画。受到LTM［3］的启发，本文基于局部关系矩阵，使用局部引导器对每一对局部空间特征的相似性进行建模，从而得到最终的与类别无关的注意力谱。

2.5.1 局部关系矩阵

本文对支持图像和查询图像特征之间的局部相似性进行测度。所提方法考虑类似Non-local［24］中提出的关系矩阵。给定2个特征F1和F2，其尺寸为C×H×W，度量F1和F2局部相似性的局部关系矩阵R（F1，F2）为

所得R（F1，F2）为（H×W）×（H×W）尺寸的矩阵，其中的每个元素R（F1，F2）i，j表征了局部特征F1，i和F2，j的余弦相似性。

本文的局部引导器对φ′q和φs的每一对局部特征点进行比较，根据式（7）计算局部关系矩阵R=R（φ′q，φs）。

2.5.2 基于局部关系矩阵的注意力谱构建

令Mq和Ms分别为查询图像和支持图像降采样后的掩膜。在理想情况下，式（8）成立：

在式（8）中，Mq和Ms的尺寸被调整为（H×W）×1和1×（H×W），φ′q和φs分别调整尺寸为（H×W）×C和C×（H×W）。

局部引导器的目标是：根据局部相似性，构建与类别无关的注意力谱att。由于att对φ′q中的前景部分进行增强，对背景部分进行削弱，可以将其视为查询图像的粗糙分割结果。因此，式（8）近似为

更进一步，将式（9）的左侧替换为R，得到

显然，Ms为行满秩矩阵，其右逆Mr-s 可根据式（11）计算：

因此，基于式（12），得到最终的注意力谱att。最后，将att调整大小为H×W。

2.5.3 局部引导器实现流程

在训练阶段，由于所提网络的与类无关性，将所有前景类别视为“前景”一类，背景视为一类。为了获得更具鲁棒性的att，所提方法将att转化为一个2×H×W 的概率谱ρ。具体地，由于att的值域为［0，1］，将其视为前景概率谱，则1-att可视为背景概率谱。进而将att和1-att按通道维度拼接，获得ρ=Concat（att，1-att），从而实现从注意力谱att到概率谱ρ之间的转化。进而使用式（13）所示的交叉熵损失对其进行优化。

式中：La为该损失函数；ρi，j为ρ在位置（i，j）的值。

本文的局部引导器受到LTM［3］的启发，不同之处在于：LTM［3］仅考虑局部相似性，并且对局部关系矩阵R的构建使用L2损失函数监督。该方法的弊端有2点：①缺乏全局分割先验的引导；②由于L2损失是逐元素计算的，缺乏结构信息。这对测试阶段新类的R的构建是不利的，使得该方法的可扩展性受限。本文方法在将查询图像特征φ′q输入局部引导器时，已经滤除了大量背景，不需要对R的构建进行监督，这样使得生成的att更具鲁棒性。

图4 局部引导器的细节结构Fig.4 Detailed structure of local guider

2.6 上采样网络

获得注意力谱att以后，将att与F′q相乘，获得最终的查询图像特征σ′q，此时已经对其背景部分进行了有效的滤除。所提网络将σ′q输入到上采样网络中，获得最终的预测结果P。上采样网络结构如图5所示，使用了空洞空间金字塔池化（ASPP）［14］进行多尺度融合，使得结果更具鲁棒性。使用式（14）对这个过程进行监督。

图5 上采样网络架构Fig.5 Framework of up-sample network

式中：Pi，j为P在位置（i，j）的值。

在整个训练阶段，使用的损失函数为

2.7 k-shot分割

在k-shot设定下，LTM［3］输入k张支持图像，每张支持图像与查询图像建模局部关系，分别生成k个注意力谱［att1，att2，…，attk］，进而将其平均化，得到最终的注意力谱att。其弊端在于平均化的过程中丢失了部分局部线索，使得注意力谱更加粗糙。为了更好地实现对全局相似性和局部相似性的结合，提出一种新的基于拼接的k-shot分割方案。

所提k-shot方案优点在于建模局部相似性时，对查询图像特征与k个支持图像特征每个点的余弦距离进行测度，避免了局部信息的丢失，能够生成更精细的注意力谱att。

3 实验

3.1 实现细节

为了验证方法的有效性，在Pascal-5i数据集上进行了实验验证，使用Pytorch深度学习框架对模型构建，所有的实验平台为Nvidia Titan XP GPU，使用Adam优化器对所提模型参数进行优化，学习率设置为10-4。本文使用了不同的主干网络作为特征提取器验证性能，分别为在ImageNet［25］上预训练的VGG16［26］、ResNet50［27］、ResNet101［27］。在训练阶段，冻结了特征提取器的参数；在测试阶段，使用了多尺度策略和Dense-CRF［28］。将查询图像调整大小为320×320、416×416、224×224，对提取的多尺度特征进行平均化，进而进行后续操作。

3.2 Pascal-5 i数据集

Pascal-5i是基于Pascal数据集和SBD数据集构建的。Pascal-5i数据集中一共有20类目标，按照现有小样本分割研究的常用设置，将其分成4个子集，每个子集图像有5类目标图像。

数据集的划分如表1所示。实验阶段，采用交叉验证法，轮流将Fold0、Fold1、Fold2、Fold3作为测试集，另外3个子集作为训练集，得到4个训练-测试集为［（Fold1、Fold2、Fold3），Fold0］，［（Fold0、Fold2、Fold3），Fold1］，［（Fold0、Fold1、Fold3），Fold2］，［（Fold0、Fold1、Fold2），Fold3］。

表1 Pascal-5i四个子集的划分Table 1 Four subsets setting of Pascal-5i

3.3 评价指标

使用了所有前景类别的平均交并比mIoU作为评价指标，这个指标被广泛地运用于小样本分割任务评价中。mIoU值越高，模型的性能越好。

同时，也使用前景交并比和背景交并比的平均值FB-IoU作为参考指标。

3.4 对比实验

3.4.1 不同主干网络下的对比实验

由于不同主干网络对模型性能有较大的影响，为了保证公平性，分别使用不同的主干网络，和其他现有方法进行对比，mIoU对比结果如表2及表3所示，表中最佳实验结果加粗。

表2 不同主干网络下，本文与现有方法的1-shot对比实验mIoU结果Table 2 Comparative experimental results（m IoU）of proposed method and existing methods under 1-shot setting using differ ent backbone networ ks %

表3 不同主干网络下，本文与现有方法的5-shot对比实验m IoU结果Table 3 Comparative experimental results（mIoU）of proposed method and existing methods under 5-shot setting using different backbone networks %

表2与表3实验结果表明，所提方法使用不同的主干网络，在1-shot设定和5-shot设定下实验mIoU结果均优于现有方法。

同时，本文进一步在FB-IoU指标下，与其他现有方法进行对比。表4和表5分别列出了在1-shot和5-shot设定下，所提方法与其他现有方法的FB-IoU对比实验结果，表中最佳实验结果加粗。由表4可以看出，所提方法使用不同的主干网络，在1-shot设定下结果均优于现有方法。表5的5-shot实验结果也充分说明了所提方法的有效性。

表4 不同主干网络下，本文与现有方法的1-shot对比实验FB-IoU结果Table 4 Comparative experimental results（FB-IoU）of proposed method and existing methods under 1-shot setting using different backbone networks %

表5 不同主干网络下，本文与现有方法的5-shot对比实验FB-IoU结果Table 5 Comparative experimental results（FB-IoU）of proposed method and existing methods under 5-shot setting using different backbone networks %

3.4.2 全局相似性度量对比实验

为了验证所提出的全局相似性度量方式的有效性，进一步将模型中全局相似性度量方式替换为余弦距离（SG-One［1］中提出）和通道维度拼接的方式（CANet［2］中提出）。并且为了消除局部引导器对实验结果的影响，本节实验仅仅保留全局相似性建模，即仅保留了全局引导器。本节使用ResNet50作为主干网络，对3种全局相似性度量方式进行了对比，mIoU结果如表6所示，表中最佳实验结果加粗。可以看出，表6所示实验结果证明了本文提出的全局相似性度量方式的有效性。

表6 全局相似性度量方式的对比实验m IoU结果Table 6 Comparative experimental results（mIoU）of global similarity metric %

3.4.3 k-shot设定下的对比实验

为验证本文k-shot设定方案的有效性，在5-shot设定下，对方法LTM［3］中平均化注意力谱的方式和所提k-shot方案进行对比，对比实验mIoU结果如表7所示，表中最佳实验结果加粗。表7所示实验结果证明了所提k-shot方案的有效性。

表7 5-shot设定方案对比实验mIoU结果Table 7 Comparative experimental results（mIoU）under 5-shot setting %

3.5 消去实验

3.5.1 全局引导器和局部引导器的消去实验

本文提出了2个级联的模块：全局引导器和局部引导器。为了验证这2个模块的有效性，在1-shot和5-shot设定下，使用ResNet50作为主干网络，进行了消去实验。实验测得mIoU结果如表8所示，表中最佳实验结果加粗。

从表8可以看出，当单独使用全局引导器时，模型效果最差，这是因为仅使用全局引导器时，缺少了局部细节的刻画。单独使用局部引导器时，模型性能略有提升，其原因是局部细节的刻画更加丰富，不足之处在于缺少全局信息的引导。当同时使用全局引导器和局部引导器时，模型的性能较好，此时模型已经充分结合了全局相似性和局部相似性。

表8 全局引导器和局部引导器的消去实验mIoU结果Table 8 Ablation exper imental results（mIoU）of global guider and local guider %

3.5.2 损失函数的消去实验

所提方法使用的损失函数L包含3项：Lseg、La和Lseg0，Lseg为整体损失函数的核心，用于监督最终预测结果的生成。因此，实验中始终保持Lseg，对其余2项进行消去实验。使用ResNet50作为主干网络，在1-shot和5-shot设定下，进行本节的消去实验，实验的mIoU结果如表9所示，表中最佳实验结果加粗。

可知，当本文同时使用3项损失函数时，所提模型性能较好。

表9 损失函数的消去实验mIoU结果Table 9 Ablation experimental result（mIoU）of loss function %

3.6 可视化结果

3.6.1 分割效果较好的可视化结果

进一步列出了部分高质量的分割结果，如图6所示。可知，由于结合了全局和局部线索，本文方法对轮廓的刻画较为精细。

图6 部分分割效果较好的可视化结果Fig.6 Some visualized high-quality segmentation results

3.6.2 分割效果较差的可视化结果

对于分割效果较差的图片，也进一步展示了部分典型代表，并且对其分割失败原因进行分析。部分分割效果较差的可视化结果如图7所示。

对于第1行可视化结果，由于查询图像的目标存在遮挡，且查询图像与支持图像外表差异较大，所提方法对其不能很好地进行分割。对于第2、3行可视化结果，查询图像中含有猫、狗2类目标，由于猫和狗的类间差异较小，所提网络将其视为一类目标进行分割。这是小样本分割的难点，也是将来进一步研究的重点。

图7 部分分割效果较差的可视化结果Fig.7 Some visualized low-quality segmentation results

4 结束语

本文提出了一种新的小样本分割模型，在构建注意力谱时，有效地结合全局相似性和局部相似性。该注意力谱生成器包含2个级联的模块：全局引导器和局部引导器。全局引导器用于建模特征间的全局相似性，局部引导器用于建模特征间的局部相似性。具体来说，在全局引导器中，提出了一种新的全局相似性度量，对查询图像特征和支持图像全局分割先验进行关系建模，更有效地输出前景增强、背景削弱的查询图像特征。进一步通过引入基于局部关系矩阵的局部引导器，所提方法对支持图像特征和查询图像局部特征之间的相似性进行建模，最后得到与类别无关的注意力谱。Pascal-5i数据集的实验验证了所提方法的有效性。