小样本实例分割综述

2022-09-26周雪茗黄定江

华东师范大学学报（自然科学版） 2022年5期

周雪茗,黄定江

（华东师范大学数据科学与工程学院,上海 200062）

0 引言

目标检测和语义分割都是计算机视觉的基本任务.目标检测是属于目标级别的任务,它关注物体级别的低层特征,检测目标的定位和类别.语义分割是属于像素级别的任务,它关注包含物体类别信息的高层特征,实现对目标的像素级分类.实例分割可以看作是目标检测和语义分割的结合,它同样属于像素级别的任务,不仅需要对图像中的所有目标进行定位,还需要给出像素级别的分类.实例分割广泛应用于自动驾驶、机器人抓取控制、医疗影像分割、工业质检和遥感图像分析等领域.实例分割的难点包括: 处理不规则形状分割、小物体分割、多物体遮挡重叠、高成本标注等问题.对于标注成本过高或者样本采集难度过高的目标,很难使用经典方法实现有效的实例分割,因此,有研究[1]提出了基于小样本学习的小样本实例分割,并逐渐引起了广大学者的关注.

小样本学习(Few-Shot Learning,FSL)[2]可以从非常有限的训练数据(通常每个类只有少量的训练样本)中学习预测模型.小样本学习很快便应用到计算机视觉的图像分类任务中[3-4],随后又拓展到语义分割[5-7]和目标检测任务[8-9]上.由于目标检测不仅需要对图像目标进行分类,还需要确定目标的位置,这使得小样本目标检测在检测的实时性、多尺度性和泛化性上充满挑战.作为目标检测和语义分割结合的实例分割,在与小样本学习的融合下,将实例分割的研究推上了一个新的台阶.本文对小样本实例分割的相关概念进行陈述,从现有小样本实例分割算法的分类和概述出发,分析比较了算法性能和优缺点,介绍了小样本实例分割实验常用的基本设置、数据集和评价指标.通过对研究现状的整理归纳和对未来发展的展望,为后续研究提供了有价值的参考.

1 小样本实例分割概念介绍

1.1 实例分割

实例分割是两大计算机视觉基础任务即目标检测和语义分割的结合.实例分割的主要目标是对图像实现像素级别的分类和定位,并分割所有目标,实例分割对图像分辨率的要求较高,需要更多的细节信息.通常实例分割的输出包含每个目标对应的类别、边界框和掩码.当前图像实例分割的研究已经颇为成熟,实例分割的算法通常分为两类: 两阶段算法和一阶段算法.两阶段实例分割是按照对检测任务和分割任务的处理顺序划分的.其中,自下而上的方法是先进行分割再实现检测,它通过聚类的方法实现实例分割,即将图像中属于同一个物体的像素聚类再对其进行分类,它的代表方法有SGN (Sequential Grouping Networks)[10]和SSAP (Single-Shot Instance Segmentation with Affinity Pyramid)[11].自上而下的方法是先进行检测再实现分割,它先检测出图像中所有实例的位置,然后再对实例进行像素级别的分类,其代表方法包括DeepMask[12]和Mask R-CNN (Mask Region-Convolutional Neural Network)[13].上述两类方法中,自上而下的方法严重依赖目标检测效果,自下而上的方法虽然弥补了基于候选框的缺陷,但是聚类的方法对算法性能产生很大影响,造成了一定的局限性.一阶段实例分割受到一阶段目标检测方法的启发,现有方法将实例分割统一到FCN (Fully Convolutional Networks)[14]框架下,如以全卷积一阶段目标检测(Fully Convolutional One-Stage Object Detection,FCOD)[15]为框架衍生出的一系列一阶段实例分割算法,该算法难点在于没有候选框的辅助下如何直接区分不同物体.

1.2 单样本实例分割

单样本学习[16]是指从一个训练样本中学习目标类别.单样本目标检测和实例分割的目标是设计出能够在提供单一可视实例的情况下对任意类别中的对象进行定位和分割的模型.单样本检测和分割定义为: 给定一个展示了新对象类别的特定样本的参考图像,在另一张查询图像中查找并分割属于该类别的所有目标实例,该查询图像展示了一个包含许多目标的整个视觉场景.此任务与通常的目标检测设置上的主要区别是从基于类别变为基于示例.基于示例的任务不需要对来自多个固定类别的目标进行定位,而是需要检测来自单个类别的目标,该类别由参考图像定义.参考图像展示了要检测的类别的单个目标实例,它被裁剪到边界框中,该实例没有提供掩码标注.

1.3 小样本实例分割

在小样本学习中,将整体数据集C分成互不相交的两个集合: 第一类称为基础类Cbase,它包含大量训练数据;第二类称为新类Cnovel,它只包含少量训练数据,且与基础类交集为空集.小样本的学习目标是训练一个模型,能够在新类Ctest=Cnovel或者整个数据集Ctest=Cbase∪Cnovel上表现良好.情景训练是小样本图像分类任务中一种常用的训练方法[10],情景训练设置了一系列情景Ei=(Iq,Si),其中每个情景中的训练集称为支持集,测试集称为查询集.Si是包含Ctrain=Cnovel∪Cbase中N个类且每类均有K个样本的支持集(N-wayK-shot),在小样本学习中K通常为很小的数.小样本图像分类(Few-Shot Image Classification,FSIC)的任务是将图像Iq(查询图)从Si的类别中分类出来.通过每次训练不同的分类任务来提升在新类上的分类结果.该方法也扩展到了小样本语义分割(Few-Shot Object Detection,FSOD)和小样本实例分割(Few-Shot Instance Segmentation,FSIS)上,区别在于FSOD 和FSIS 将整张图像中的所有目标视为查询集,即每张图片对应一个支持集,而不是图像分类中每张查询图对应一个支持集.FSIS 的挑战不仅在于对查询目标进行分类,而且在于对目标进行定位和分割.给定一个查询图像Iq,FSIS 会生成Iq中属于Ctest的所有目标的类别标签yi、边界框bi和分割掩码Mi.

在训练阶段中,给定许多对展示相同目标类别的支持图和查询图,目标类别下的每个实例都有像素级别的标注.在测试阶段,给定K张支持图和对应的K个实例分割掩码,实例所属类别是训练中没有出现过的新类,目标是对具有相同目标类别实例的查询图进行正确的实例分割,并预测出相应的掩码.这样的问题称为1-wayK-shot 实例分割问题,将1-wayK-shot 问题拓展至N-wayK-shot 问题的方法通常是在同一张查询图上运行N个支持类,对每个类别独立检测.

2 小样本实例分割研究现状

小样本学习是一种在训练过程中使用少量未知类样本的适应性方法,小样本学习相关的算法通常可以分为基于度量的方法和基于模型优化的方法,小样本学习与度量学习和模型微调的结合使它在计算机视觉任务中发挥了显著作用.随着小样本学习在简单图像分类、语义分割、目标检测等任务中的应用,将小样本学习拓展到实例分割任务中是意义重大的.小样本实例分割通常出现在对所有目标实例人工分割标注的代价过于昂贵的应用场景下,关键难点是如何在小数据量上实现有效训练.近年来仅有少量面向小样本实例分割的研究.自从2018 年单样本实例分割算法Siamese Mask R-CNN[17]首次被提出,小样本实例分割相关的研究层出不穷.2019 年Yan 等[1]提出了实例级别的少样本分割算法Meta R-CNN,在上述两项开拓性工作的基础上,Fan 等[18]于2020 年提出了小样本实例分割方法,它设计了全引导网络FGN (Fully Guided Network)在Mask R-CNN 的基础上实现了小样本实例分割.2021 年,Ganea 等[19]首次提出了增量式小样本实例分割方法iMTFA (increamental Mask Two-Stage Fine-Tuning Approach),Nguyen 等[20]设计了基于目标区域的无锚框小样本实例分割FAPIS(Few-Shot Anchor-Free Part-Based Instance Segmentation).在当前最新研究中,初次用弱监督代替全监督实现小样本实例分割[21].本文将现有小样本实例分割方法分为两类: 基于锚框(Anchor-based)的小样本实例分割和无锚框(Anchor-free)的小样本实例分割.现有小样本实例分割方法的关系架构见图1.

图1 现有小样本实例分割方法架构Fig.1 Framework of existing few-shot instance segmentation approaches

2.1 基于锚框(Anchor-based)的小样本实例分割

2.1.1 添加引导机制

文献[17]是小样本学习在实例分割领域的初次尝试,首次提出了单样本实例分割的概念,并将度量学习的思想与Mask R-CNN 融合,提出了单样本实例分割网络Siamese Mask R-CNN.度量学习是指定义一种度量形式,将图像通过神经网络映射到低维特征嵌入空间,在此嵌入空间中,同类目标间的距离很近,异类目标间的距离很远,通过判断目标间的度量大小进行分类学习.Mask R-CNN[13]是实例分割中极具代表性的两阶段网络,第一阶段首先通过特征提取网络FPN (Feature Pyramid Network)提取多层次特征,然后由区域候选框网络(Region Proposal Network,RPN)生成类无关的目标候选框,经过RoI (Region of Interest)对齐后,进入第二阶段分别计算得到目标类别得分、边界框回归定位和目标掩码.

Siamese Mask R-CNN 通过对参考图像和场景进行Siamese 骨干编码扩展了Mask R-CNN,允许其对参考类别进行目标检测和分割.Siamese Mask-RCNN 使用一种经典的度量学习方法,即Siamese 网络[3],来计算相似性距离.为了将参考信息整合到Mask R-CNN 中,使用相同的骨干(Mask R-CNN 的特征提取器),并共享权值,从参考和场景中提取特征,最后通过L1 范数度量查询图中不同区域与参考的相似度来实现特征匹配,从而得到后续的分类、目标候选框和实例掩码.Siamese Mask R-CNN 能够有效地实现独立目标的精确分割,但是在检测参考类别上还有待提升.Siamese Mask R-CNN 与Mask R-CNN 架构的对比如图2 所示,Siamese Mask R-CNN 与Mask R-CNN 的主要区别包含两部分 (见图2 红色标记处) : ①Siamese Mask R-CNN 使用孪生骨干网络对参考图像和输入图像进行联合编码;②根据参考图像的类别将参考图特征与输入图特征互相匹配,进行后续的区域候选框生成和分类.

图2 Mask R-CNN 和Siamese Mask R-CNN 的对比Fig.2 Comparison of Mask R-CNN and Siamese Mask R-CNN

Meta R-CNN 同样对Mask R-CNN 进行了拓展,它通过在RoI (感兴趣区域)特征上应用元学习实现了少样本实例分割.Meta R-CNN 的主要贡献在于预测重构网络(PRN),PRN 是全卷积的且与Mask R-CNN 共享主干网络,它接受包含少样本目标边界框或掩码的图像来推断它们的类注意力向量.该向量对RoI 特征进行通道级别软注意,对R-CNN 的预测部分进行重构,以检测或分割包含这些向量所代表的类的目标.从RPN 中产生的候选框与PRN 中的类注意向量结合,起到引导网络检测或分割新类对象的作用.Meta R-CNN 补齐了之前元学习算法无法处理多目标语义信息的短板,在不同骨干网络(Faster/Mask R-CNN)下有较好的泛化性,且采用轻量级网络PRN 使得网络架构比较简洁,通过对类注意力向量的预处理提升了推理的效率,并能够有效地实现少样本实例分割.

Meta-RCNN 和Siamese Mask R-CNN 使用相同的基于锚框的网络架构.但不同的是,Meta-RCNN 在RPN 之后执行特征关联,而Siamese Mask R-CNN 在RPN 之前执行这一操作.

Fan 等[18]为FSIS 提出了一种全引导网络FGN.与Siamese Mask R-CNN、Meta R-CNN 相同,FGN 同样将小样本学习范式与Mask R-CNN 相结合.但是Siamese Mask R-CNN 将第一阶段的网络连接以引导对支持集的编码.因此,不同任务下的所有后续部分必须共享相同的引导机制.Meta R-CNN 通过从支持集中提取的类注意向量对权重图进行加权,从而在第二阶段的起始部分将引导注入Mask R-CNN 中,强制所有第二阶段模块共享相同的引导机制并完全忽略了第一阶段的RPN.FGN 的创新点在于对Mask R-CNN 中不同模块的任务采用不同的引导机制,从而实现全引导.FGN 的整体架构如图3 所示,FGN 在Mask R-CNN 中添加了3 种引导机制,分别是: 注意力引导RPN (Attention Guided RPN,AG-RPN)、关系引导检测器(Relation Guided Detector,RG-DET)、注意力引导FCN (Attention Guided FCN,AG-FCN).AG-RPN 通过对特征图进行全局平均池化(Global Average Pooling,GAP)和均值计算得到类感知注意力向量,用此对支持集编码,然后利用它引导RPN 专注于新类别并生成类感知候选框.RG-DET 利用多层感知机(Multilayer Perceptron,MLP),通过显式对比方案来引导Mask R-CNN 中的检测分支,以适应FSIS 中的类间泛化.AGFCN 结构与AG-RPN 类似,同样从支持集中获取注意力信息来引导掩码分割部分.FGN 提出的全引导网络通过对支持集编码并利用它引导基础网络实现实例分割,在小样本实例分割的表现上取得了重大突破,为后续研究奠定基础.

图3 全引导网络FGN[18]的概述Fig.3 Overview of fully guided network (FGN)

2.1.2 模型微调优化

由于Siamese Mask R-CNN 和FGN 在测试时需要处理每个类的样本,在测试类别数较多时内存占用过大,而Meta R-CNN 虽然通过预先计算每个类别的注意力向量来避免内存占用,但是在类别数改变时需要重新训练,这些都造成了时间和空间冗余.为此,Ganea 等[19]设计了首个增量式小样本实例分割方法,利用增量学习的思想,添加新类别时无须进一步训练或者访问现有训练数据.首先提出了FSIS 基础方法MTFA (Mask Two-stage Fine-tuning Approach),然后在此基础上引出了增量式方法: iMTFA.MTFA 是对两阶段微调目标检测方法TFA (Two-stage Fine-tuning Approach)[22]的拓展,TFA 是在Faster R-CNN[23]的基础上,对RoI 分类器和边界框回归部分进行微调实现的.与Mask RCNN 将Faster R-CNN 拓展至实例分割领域的方法相同,MTFA 在TFA 的RoI 层添加了掩码预测分支,并使用余弦相似度作为目标分类器,采取两阶段微调方法: 先在基础类上训练网络,然后在每个类均有K个样本的均衡数据集上对所有预测模块(分类、边界框回归和掩码)进行微调.

MTFA 的主要缺陷在于添加新类的过程.第二个微调阶段固定了可以识别的新类数量,因此添加新类需要再次运行这个阶段,特定类别的掩码和候选框回归部分也需要以通过微调学习到的权重来适应新的类.iMTFA 和MTFA 在架构上大致相同,如图4 所示,主要区别在于训练部分,iMTFA 对RoI 层特征提取器进行了微调,且对掩码预测部分进行了冻结.iMTFA 将特征提取部分合并成实例特征提取器(Instance Feature Extractor,IFE),使模型类不可知性并能够在特征提取器层面学习判别嵌入.这些嵌入用于分类部分的新类别表达,无须重复训练.iMTFA 还对掩码预测器进行了优化,不需要特定类别的权重用于边界框回归和掩码预测,而是在这些部分使用类无关变量,通过简单的嵌入取平均并放入分类器权值矩阵中来添加新类,这也表示无须提供实例掩码便可在新类上训练.iMTFA 重新利用Mask R-CNN 的特征提取器来生成有区别的实例嵌入.这些嵌入的均值被用作余弦相似分类器中的类表达,由于目标定位和分割部分是类无关的,因此这些嵌入能够有效地实现新类别添加.但是iMTFA 在生成新特征嵌入时,对现有基础类的特征适应性较差,且对于新类别位置和分割精度低于MTFA,将引导机制与iMTFA 结合可以有效地弥补上述缺陷.

图4 MTFA 和iMTFA 的架构对比Fig.4 Comparison of MTFA and iMTFA

2.2 无锚框(Anchor-free)的小样本实例分割

2.2.1 关注局部轮廓

传统的基于锚框的小样本实例分割方法虽然能够以较好的性能实现实例分割,但是由于对候选框的依赖可能会限制模型对测试集中新类别的适应性,并且传统方法学习的特征主要捕捉目标整体轮廓,对于新类别目标的泛化性也比较低.针对上述问题,Nguyen 等[20]提出了首个无锚框基于局部的小样本实例分割方法FAPIS,与通常方法中对目标整体的关注不同,该方法的关键创新点在于对训练目标类间共享的潜在局部区域进行显式建模,促进在测试中对新类别的小样本学习.FAPIS 首先检测支持图定义的目标对象类的边界框和分割掩码,对潜在局部区域勾勒轮廓和加权,然后通过训练中所有目标类共享的潜在目标集合的定位对每个边界框进行分割,最后在每个检测到的边界框中实现实例分割.

FAPIS 的主要贡献包括无锚框的目标检测器(Anchor-Free object Detector,AFD)和基于局部区域的实例分割器(Part-based Instance Segmenter,PIS).AFD 主要针对查询特征图每个位置上的3 个任务: 前景边界框的密集评分、前景边界框的定位回归以及密集估计潜在局部区域在分割中的相对重要性.分类得分通过包含一个全连接层块和单一卷积层的SimNet 计算得到,而相对重要性通过潜在区域在实例中的尺寸和形状衡量.AFD 的输出将通过NMS (Non-Maximum Suppression)选出得分最高的一组边界框.PIS 旨在对潜在区域进行定位和整合,包括两部分: PartNet 和局部装配模块PAM(Part Assembling Module).PartNet 预测潜在区域的激活图,也称为局部图.对于每个NMS 选出的边界框,这些局部图通过PAM 整合,用于预测局部对该框的相对重要性.最后,所有实例分割形成了输出的查询分割掩码.

2.2.2 弱监督学习

最新研究提出了首个弱监督小样本实例分割任务[21],并采用了十分简单但实用的基本模型FoxInst.FoxInst 与先前研究的最大区别在于在所有训练阶段均采取弱标注(如类标注和框标注),这进一步提高了数据效率和实用性.FoxInst 的架构图见图5,FoxInst 与FAPIS 相同,采用无锚框架构以避免候选框带来的过拟合或偏向特定目标尺寸等限制.FoxInst 采取在基础网络上训练后在新类别上对网络微调的训练方式,采用BoxInst[24]的架构.BoxInst 由基于ResNet 的特征金字塔FPN 骨干、掩码生成分支、动态掩码模块和预测模块构成.FoxInst 遵循FCOS[15]中预测分支的设计,它由分类、回归和中心点3 个模块组成,所有模块都用卷积层代替全连接层实现逐像素无锚框预测.在训练阶段将骨干和掩码分支冻结,并对预测部分微调.FoxInst 在各种数据设置上优于全监督的FSIS 方法.此外,FoxInst 在跨数据集设置COCO2VOC 方面的性能甚至超过了当前最先进的全监督FSIS 方法.

图5 FoxInst[20]的架构Fig.5 Architecture of FoxInst

3 小样本实例分割算法性能分析

3.1 数据集与评价指标

3.1.1 数据集

小样本实例分割主要使用两个数据集: Microsoft COCO (Common Objects in Context) 2017[25]和PASCOL VOC (Visual Object Classes) 2012[26](下述将分别简称为COCO 和VOC).COCO 数据集是微软构建的一个数据集,它在目标检测领域被广泛使用,主要包含图像检测、分割、关键点匹配等任务.COCO 共包含80 个目标类别,涵盖了自然界图片以及日常生活中常见的图片,其中训练集包含118 287 张图片,验证集包含4 952 张图片.VOC 数据集共含有20 个类别,分为四大类: 交通工具、家居用品、动物和人类.VOC 包含的类别是COCO 的子集,VOC 主要关注图像分类和检测任务.VOC 用于分类和检测的数据以及用于分割的测试数据包含2008—2011 年的所有数据,其中训练集有1 464 张图片,验证集有1 449 张图片.

ImageNet[27]数据集也是在计算机视觉中常用的数据集之一,该数据集包合 14 197 122 张图片和21 841 个索引.ImageNet 数据集中的图片涵盖了大部分生活中会看到的图片类别.ImageNet 数据集通常作为评估图像分类算法性能的基准.虽然COCO 的类别总数小于ImageNet,但是COCO 中的图片背景复杂,且同一类别下的实例目标数量较多,目标尺寸较小.因此,对于检测分割任务来说,衡量一个模型好坏的标注通常取决于模型在COCO 数据集上的表现.

3.1.2 评价指标

VOC 的评价指标是mAP (mean Average Precision).mAP 是多标签图像分类任务中的评价标准,AP 的定义表示IOU (Intersection Over Union)即两个实例掩码的交并比,mAP 则为所有类别AP 的平均值.VOC 在计算mAP 时取IOU=0.5.COCO 的测试标准比VOC 更加严格,COCO 的AP 涵盖了80 个类别下10 个不同IOU 的平均值.IOU 的取值范围为0.5～ 0.95,每隔0.05 测试一次AP,并对10 次结果取平均得到最终的AP 值.COCO 的评价指标主要有6 个,涵盖了不同IOU 和不同目标尺寸下的AP 值,如表1 所示.COCO 将目标尺寸分为大中小3 类,其中大目标表示目标区域area＞962,中目标表示322＜area≤962,小目标表示area≤322.

表1 COCO 的评价指标Tab.1 Evaluation indices of COCO

3.2 算法性能对比

3.2.1 实验设置

小样本实例分割实验中通常设定基础类Cbase和新类Cnovel,以及对应的训练集Dbase和查询集Dnovel(测试集Dtest).本文主要采用文献[18]提出的交叉数据集设置,能够更好地比较各种模型的泛化能力.具体做法是将COCO 和VOC 共有的20 个类别作为新类Cnovel,剩余60 个类别作为基础类Cbase.进一步,从COCO 的训练集中取出类别属于基础类Cbase的子集作为基础训练集Dbase,并取VOC 的验证集(属于20 个新类集合)作为测试集Dnovel.通过上述方法设定的实验设置称为COCO2VOC.用同样的方法还可以构建VOC2VOC 等类似实验设置.

3.2.2 性能分析

本文在COCO2VOC 设置下针对1-way 1-shot 的情形对现有小样本实例分割算法的性能进行了比较,选择mAP 和mAP50作为共同评价指标,见表2.表格中列举出了每个算法的发表年份、类别、使用的骨干网络以及分别在检测阶段和分割阶段的mAP 和mAP50.从整体上看,每一个新算法与先前研究相比,检测和分割的性能都有所提升,最新的无锚框弱监督FSIS 方法在检测和分割上性能都是最优的,甚至超过了全监督学习中的最优算法.从类别上看,可以看出基于锚框的算法在分割上表现平平,无锚框的算法能够展现出更好的分割能力,这是由于基于锚框的算法受到候选框的限制,在对新类别轮廓学习上产生了局限性.从视觉任务上分析,在检测部分有着显著优势的是全引导网络FGN 和弱监督网络FoxInst,FGN 作为基于锚框的全监督学习算法,在检测任务上的优势主要来自它对Mask R-CNN 中检测分支施加的引导机制,以及采用更深的骨干网络ResNet-101 进行特征提取,这使得FGN 的类间泛化性较好.在分割任务上各算法的性能都在逐步提升,但是FoxInst 的进步最为明显,它与往年最优的分割相比,将mAP50提升了近40%.FoxInst 在检测和分割上的双重优秀表现源于它不受锚框限制,能够更好地实现新类学习,同时在训练阶段采取弱标注和模型微调优化方法,降低了标注成本和网络复杂度.

表2 现有小样本实例分割算法性能对比Tab.2 Performance comparison of existing few-shot instance segmentation algorithms

3.3 算法优缺点对比

本文对现有小样本实例分割算法的优缺点进行了对比分析,见表3.本文将现有算法分为基于锚框和无锚框两类.基于锚框的算法通常选择以经典两阶段实例分割算法Mask R-CNN 为基础,对其添加引导机制(Siamese Mask R-CNN,Meta R-CNN,FGN)或者通过模型微调(MTFA,iMTFA)来实现小样本实例分割任务,加入类注意力向量等引导机制能够提升网络对新类别的关注度,从而提高模型类间泛化能力,较好地实现新类目标分割,但是引导机制造成的内存占用较大,导致了拓展类别数的局限性.与此相反,模型微调具有训练成本低、内存消耗少的优势.基于锚框的算法现有技术较成熟,且检测性能较好,但是受到候选框的限制,易对训练样本产生过拟合,或者受训练样本整体轮廓信息影响,使模型对类未知目标的分割和定位表现欠佳.由此,最新研究倾向于提出无锚框小样本实例分割的方法.

表3 现有小样本实例分割算法分析Tab.3 Analysis of existing few-shot instance segmentation algorithms

无锚框的小样本实例分割方法根据中心点和关键点生成边界框,没有候选框的影响,具有更好的模型泛化性,适用于多尺度目标和小目标的实例分割场景,分割的性能得到了极大的提升.但是无锚框小样本实例分割方法通用性较差,且在目标检测的性能上略逊于基于锚框的方法.FAPIS 作为首个无锚框的小样本实例分割方法,它重点关注多目标共享的潜在局部信息,提升了对新类别的学习性能,但是该方法分割出的边缘信息不够清晰.FoxInst 首次提出了弱监督无锚框小样本实例分割方法,该方法不仅通过弱标注降低了小样本分割中的高标注成本,且采取对轻量级基础网络的微调训练,算法的表现性能甚至超过了现有最佳全监督小样本实例分割算法,但是该方法在弱监督下的图像分类精度依然有很大的提升空间.

4 总结与展望

本文对小样本实例分割的相关概念和现有研究进行了系统性的梳理分析,将现有小样本实例分割算法分为基于锚框的方法和无锚框方法两类.针对不同类型的算法,本文对算法的整体框架和主要方法进行了概述.通过在COCO2VOC 数据集设置下,利用评价指标AP50 对算法在检测和分割两部分任务上的性能做了对比分析,并总结了各算法的优势和缺陷.基于锚框的算法将度量学习与小样本学习结合,通过引导机制或者模型微调方法在Mask R-CNN 的框架上进行拓展,其在检测上具有较高的精度,但是由于受到候选框的限制,容易产生过拟合,在新类别分割上有一定的局限性.现有无锚框的算法关注局部轮廓信息,采用弱监督的方式,在分割上取得了显著的进展.目前,小样本实例分割面临的最大瓶颈是目标分类,特别是在涉及复杂特征和背景抑制的场景下,对现有算法来说是十分困难的.小样本实例分割的研究还有很大的发展空间,本文认为小样本实例分割未来的发展重点是解决分类问题.同时,FGN 提出的引导机制、FAPIS 提出的关注局部信息、FoxInst 基于弱监督弱标注的学习方法都为小样本实例分割打开了不同创新思路,如何将这些方法融合成性能更优的算法也具有很高的研究价值.