APP下载

基于深度学习的实例分割研究进展

2021-05-14李晓筱胡晓光王梓强杜卓群

计算机工程与应用 2021年9期
关键词:掩码分支实例

李晓筱,胡晓光,王梓强,杜卓群

1.中国人民公安大学 信息网络安全学院,北京100038

2.中国人民公安大学 侦查学院,北京100038

深度学习诞生前,实现图像中目标检测任务主要依赖于人工设计局部特征描述子,概括性强、抽象表达概括全局信息从而区分图像的不同区域,经典算法有HOG[1](Histogram of Oriented Gradient)、SIFT[2](Scale-Invariant Feature Transform)及LBP[3](Local Binary Patterns)等,但局部特征描述符的设计需要极强的领域专业知识且耗费人力。在深度学习的发展之下,借用深层次卷积神经网络可以从图像中学习具有不同层次的特征表示方法,如何设计具有更好局部特征描述子的问题转化为如何设计轻量网络结构和简化训练过程,以实现精细任务。在计算机视觉的飞速发展之下,细化分类的计算机视觉技术可以分为分类、目标检测、语义分割、实例分割多个类别[4]。分类指的是预测目标图像中对象类别,目标检测在由粗至细的过程中不仅确定图像中目标的类别,同时以边界框或者图中心的形式标明目标所在图像中具体位置。语义分割在此基础上对目标每个像素点标签预测,使每个像素按照其所在区域或对象分类标记,得到更精细分割结果。实例分割的概念最早由Hariharan等人[5]提出,旨在对同类对象组不同个体提供不同标签,整个过程中相同含义像素被赋予相同标签,在实现目标检测任务时解决语义分割问题。

随着深度学习[6]及卷积神经网络[7]的出现,许多实例分割框架被提出。实例分割广泛应用于无人驾驶、医学影像分析、安全防控、工业分拣等领域,可靠、迅速提取图像关键信息,准确、精细分割的结果为后续视觉处理提供便利。分割精度体现在精确定位及识别框架,在内外条件变化的实际场景中保持较高鲁棒性;保持较高精度的同时降低算法计算量是实例分割的开发思想。目标分割根据阶段分类可分为基于候选区域的双阶段检测及基于一体化卷积网络的单阶段检测器,前者的准确率高、检测精度高,但后者检测运行速度快。受单双阶段目标检测启发,实例分割也存在单阶段实例分割及双阶段实例分割。两类实例分割方法适用于不同的场景,近期实例分割取得很大进展,基于Faster R-CNN发展而来的Mask R-CNN实例分割网络使用掩码分割、包围框回归、对象分类三支线并行,是一种直接有效的实例分割方法,以其网络的高精度和稳定性成为双阶段实例分割网络的标杆;单阶段实例分割网络YOLACT 的出现标志实时性实例分割的开端,以较小的精度损失获取高效的处理能力。但目前而言实例分割方法缺乏相关综述性文章。本文将以近两年计算机视觉会议为主,阐述主流实例分割网络结构及应用,并介绍常用评价指标及数据库,对未来可能发展进行展望。

图1 FCIS网络结构

1 双阶段实例分割网络

1.1 FCIS

传统语义分割网络使用采用交叉熵并结合标签进行端到端训练,无法实现同一像素在不同区域具有不同语义的实例分割任务。FCIS[8]提出一种端到端完全卷积的实例分割方法,它沿用了实例感知全卷积网络[9](Instance-sensitive fully convolutional networks)中位置感知特征图(Position-sensitive Score Map)概念,在输入图片中卷积生成k×k组位置感知特征图;特征感知特征图表示像素在不同感兴趣区域(Regions of Interest,RoI)的位置特征表示,综合像素在每个感兴趣区域的得分衡量像素属于对象实例的可能性。

为了增加分割、检测子任务的联系性,FCIS在位置感知特征图基础上提出内部分数和外部分数。在分割任务中,直接使用Softmax 判别函数对像素分类,感兴趣区域对每个像素分数集合;在检测任务中,先对每类位置特征感知特征图逐像素使用Max 函数分类,汇集所有像素可能性后使用Softmax 判别函数获得整个区域预测分数。两类位置特征感知图的提出将分割和检测的子任务紧密结合,使用较简洁、直观的网络结构实现任务。

对于整个FCIS框架(如图1),图像输入只保留卷积层的ResNet 进行卷积操作获得初步特征,特征经过区域建议网络得到感兴趣区域同时经过卷积层生成特征图。结合位置特征感受的过程实现分割和检测的子任务。FCIS 建立了一个完全抛弃全连接层的轻量级网络,设计的位置特征感知图架构使图像分割和图像分类可以共享特征图,整个网络计算量小、更加轻量。

FCIS 作为实例分割早期模型,提供了一种实例分割任务的解决方案,但就结果来看,在重叠的实例上FCIS 出现系统性的检测错误,并产生了虚假边缘[10],如图2所示。

图2 实例重叠时FCIS检测产生虚假边缘

1.2 Mask R-CNN

Mask R-CNN[10]是目标检测网络Fast R-CNN[11]、Faster R-CNN[12]发展而来的实例分割网络,通过在边界框识别分支的基础上增加预测目标掩码的分支,有效检测目标对象的同时,对每个实例生成高质量的分割掩模。

传统特征提取操作中,系列卷积获得的特征图经过上采样尺寸过大,无法实现对小目标的检测。主干网络部分,Mask R-CNN 采用特征金字塔网络[13](Feature Pyramid Networks,FPN)和ResNet101 网络结合,在原始特征金字塔网络自上而下特征中加入3×3 卷积进一步提取特征。抽象但语义更强的特征图上采样并横向连接至分辨率更高的底层特征图,保证空间尺寸相同的情况下,融合后特征图更好的定位,主干网络的选择实现信息丰富、特征加强。

Mask R-CNN 使用轻量的区域建议网络(Region Proposal Network,RPN)获取感兴趣区域,对每块扫描获得的瞄(anchor-box)输出前景或背景的类别,并同时评估输出精细调整前景瞄框与目标中心位置关系;在多个瞄框重叠的情况下使用非极大值抑制(Non-Maximum Suppression,NMS)选择前景分数最高瞄框,最终输出图片内最佳的区域建议。

Mask R-CNN提出RoIAlign操作,使用双线性插值的方法计算每个感兴趣区域采样点输入特征值,避免边界量化的同属保证提取特征与输入对齐。训练中Mask R-CNN提出多任务损失函数L:

式(1)中Lbox衡量目标分类损失值,Lcls衡量目标检测损失,Lmask衡量实例分割损失。

由于Mask R-CNN 具有较强的分割精度,Zimmermann 等[14]受人工设计分割算子的启发,提出在原有Mask R-CNN 基础上增加边缘分支以增强网络对边缘检测的精度,在速度基本不变的情况下网络精度提升1.8%;Huang[15]等将金字塔注意力网络(PAN)作为Mask R-CNN 的骨干网络,以统一的方式从自然场景图像中检测出多方向和弯曲的文本,该方法能有效地抑制文本类背景引起的误报警,在多项文本检测基准任务上取得了优异的性能。

1.3 Mask Scoring R-CNN

Mask R-CNN中,掩码分支最终输出由分类分支最高置信度决定,但分类分支置信度与掩码的相关度很低,依据分类分支确定的掩码并不是最佳选择,导致衡量算法掩码部分分值降低。针对此问题,Mask Scoring R-CNN[16]设计一种掩码评价策略Mask IoU衡量真实掩码与预测掩码差异,同时引入网络分支Mask IoU Head对评价进行训练。掩码评价策略用Smask表示:

其中,Scls表示目标分类分数,SIoU表示交并比分数。Mask Scoring R-CNN提出的掩码评价策略相比之前的评价对目标分类及掩码分割更敏感,从而校准了掩码质量和掩码得分之间的偏差,提升分割性能;且网络稳定性能高,为后续实例分割评价工作的进一步发展提供可能方向。

1.4 BlendMask

较高级别的特征对应于较大的感受野,并且可以更好地捕捉关于姿势等实例的整体信息,而较低级别的特征保存更好的位置信息,并且可以提供更精细的细节。BlendMask[17]提出一种基于提议的实例掩码预测的方法,称为blender,它结合了丰富的实例级信息和精确的密集像素特征,在与目标检测框架结合的过程中,以较小的计算提高检测准确性。

网络结构方面,BlendMask由一个检测器网络和一个掩码分支组成。掩码分支有三个部分,其中底部模块用于预测评分图,模块的输入可以是语义分割网络的主干特征,或特征金字塔;顶层模块attention map 获取粗略的实例信息,包括对象形状及位置;Blender module模块用于合并评分和关注度,它根据关注度结合位置感知生成最终预测。与典型分辨率为28×28 的掩码版相比,混合掩码具有灵活性,提供了详细的实例级信息,获取位置感知信息并抑制外部区域。在输出高分辨率掩膜的同时可以适用于实时性任务。

2 单阶段实例分割

2.1 YOLACT

在YOLACT[18]诞生前,精度较高的实例分割网络是基于双阶段目标检测提出的,但双阶段方式掩码的生成依赖于目标定位,例如Mask R-CNN使用RoIAlign从边界框中获取特征,并将局部化特征输入到掩码生成模块,这样依序处理的方式使得双阶段实例分割方式虽然精度高,但处理速度慢。受单阶段目标检测算法SSD[19]、YOLO[20]等实时性强的启发,YOLACT将实例分割分解为两个并行的任务:生成整个输入图像的掩码组合、预测每个实例掩码系数并将相应预测系数与全图组合;在不需要依序处理(repooling)的情况下,YOLACT网络速度达到30 frame/s(每秒帧数)以上,产生高精度掩码的同时可以实现实时性的实例分割。

主干网络部分,YOLACT 沿用单阶段目标检测网络RetinaNet 结构,使用RestNet101 与特征金字塔网络结合,其中,特征金字塔网络部分由P3至P7构成,P3至P5层由ResNet对应C3至C5层计算获取。P3层保留更深层次图像特征输入全图掩码分支(Protonet),通过全卷积神经网络将最后一层保留k个通道,处理后变为原图1/4 大小,获取全图预测的k个掩码组合。全图掩码分支监督来自最终掩码损失,在获得高质量掩码的情况下对小目标分割体现更好的分割效果,如图3。

掩码系数部分,YOLACT在基于锚点(anchor)目标检测基础上,对应全局掩码分支增加第三个分支预测k个掩码系数;共包含预测分类置信度分支、预测边框分支、掩码系数预测分支,对每个瞄点产生4+c+k个系数。全图掩码和掩码系数采用线性组合的方式:

其中,P表示全图掩码矩阵h×w×k,C表示经非极大值抑制和得分阈值筛选后的掩码系数矩阵n×k。

在提升网络速度方面,YOLACT 提出一种快速非极大值抑制方法(Fast NMS)。传统目标检测网络中,在为每个锚点产生边界回归和类别置信度后使用非极大值抑制降低重复检测,但按顺序执行的方法受速度限制,快速非极大值抑制方法并行排序矩阵计算,并保留确定剔除的检测框对其他框的影响。在Mask R-CNN中仅替换非极大值抑制方法,就提速15.0 ms,且性能损失仅为0.3 mAP,快速非极大值抑制方法在网络性能损失较小的情况下,实现了网络提速的飞跃。

YOLACT 虽然在测试过程中也存在目标场景复杂时无法准确定位、相距较远两个实例间掩码重叠的问题,但轻量且精度较高的网络为实时实例分割网络提供了参考。改进方面,Lee 等[21]提出了一种将混合精度量化技术应用于YOLACT 网络的方法,根据YOLACT 中的参数大小和对模块精度的影响自适应量化,在尽可能保持精度的同时显著地减小网络规模,在精度损失小于0.1%的情况下整个网络的参数尺寸减小75.4%;Liu等[22]提出一种实时实例分割YolactEdge。对基于图像的实时方法YOLACT 进行了两个改进:(1)TensorRT 优化,同时考虑了速度和精度;(2)提出新的特征扭曲模块。实验表明,YolactEdge 在保证掩码精度同时,速度提升3~5倍。

图3 YOLACT网络结构

2.2 YOLACT++

针对YOLACT 实时性强但精度稍差的问题,YOLACT++[23]被提出;它沿用YOLACT 生成整个输入图像的掩码组合、预测每个实例掩码系数并将相应预测系数与全图组合的设计,保持原有网络架构的大部分结构,从主干网络、瞄框选择、掩码评估改进等方面对原有结构进行优化。主干网络方面,YOLACT++加入可变性空间卷积(Deformable Convolution with Intervals),提升对长宽比、尺度、角度不同目标的处理能力,衡量精度和处理速度的可变性空间卷积使网络耗时增加2.8 ms的情况下,mAP 提升1.6。瞄框选择方面,YOLACT++尝试两种变形方法:保持尺度不变增加长宽比以及保持长宽比不变增加每层尺寸的比例;掩码评估方面,YOLACT++参考Mask Scoring R-CNN的评价思想,加入快速掩码重评分分支(Fast Mask Re-Scoring Network),截取全局掩码预测结果输入卷积层提取特征,并将全局池化输出的交并比与目标分类分数相乘作为最终评分。快速掩码重评分分支校准了掩码质量和掩码得分之间的偏差,且保持了网络速度,如图4。

图4 快速掩码重评分分支

2.3 PolarMask

PolarMask[24]是一种全卷积、无锚框的单阶段实例分割算法,它将实例分割问题转化为极坐标下选取实例中心并进行分类及密集回归预测目标实例轮廓的问题:输入整幅图像后,PolarMask 通过预测每个角度上采样的正位置确定目标实例中心,并预测目标实例中心到实例轮廓的距离,组装后输出掩码。图5表示了不同掩码表示方法,(b)表示了像素到像素预测网络的掩码表示方法,例如Mask R-CNN,虽然精确度高但耗时较长;(c)表示笛卡尔坐标系的掩码表示方法,坐标原点表示目标实例中心,轮廓线由距离和角度决定;(d)表示极坐标系下掩码表示方法,在兼备笛卡尔坐标系以目标中心为原点、距离角度确定轮廓线的基础上,角度具有很强方向性,对于确定外轮廓来说较为方便。

图5 不同掩码表示方法

为了获得更简洁的网络结构,PolarMask 嵌入单阶段目标检测方法FCOS[25]。主干网络部分,PolarMask保持了与FCOS一样的主干+特征金字塔网络结构用于提取不同层次丰富特征;分支部分,PolarMask引入掩码回归分支替代FCOS中检测框分支,以图片输入网络确定的实例中心为原点,间隔△θ角度均匀发射n条射线,轮廓与中心的距离决定射线长短,其中△θ为10°,n为36;由于角度预设定,只需预测射线长度。

在实例中心选择上,PolarMask以目标质心为基础,将质心周围9~16 个像素作为实例候选中心的正样本,引入极轴中心度(Polar Centerness)分支选择目标极坐标中心,降低正负样本的不平衡性。定义每个实例中n条射线长度分别为{d1,d2,…,dn} ,则有:

极轴中心度分支与分类分支并行,在对极轴中心加权过程中,依据式(4),射线长度均衡的中心会被赋予更高权重。

在交并比损失方面,PolarMask 引入极坐标下交并比损失计算方法(Polar IoU Loss),预测掩模与真实值之间的交互面积与加和面积之比。交并比公式定义为式(5),其中d表示回归目标射线长度,d*表示预测射线长度,夹角为θ;式(5)经离散化和简化操作,最终定义交并比损失函数为式(6):

PolarMask提出一种将掩码表示转化为掩码轮廓表示的方法,使用极坐标和射线的方式模拟轮廓,虽然最终精度稍差于主流实例分割算法,但对于掩码轮廓的设计提供了全新的思路。改进方面,对于PolarMask掩膜分割边缘模糊的问题,张绪义等[26]通过对轮廓点角度的偏置及距离预测,并加入语义分割子网络精细边缘,测试分割结果比原方法提升2.1%。

2.4 CenterMask

CenterMask[27]是一种单阶段无瞄框实例分割方法,在单阶段目标检测方法FCOS的基础上,提出新的空间注意力引导掩码分支(SAG-Mask)。SAG-Mask 分支从FCOS 检测中获取目标预测框,以预测每个感兴趣区域上的分割掩码;同时空间注意力模块(SAM)有助于分支聚焦于有意义的像素并抑制无意义的像素。

针对Mask R-CNN 中RoIAlign 不考虑输入尺度比例的缺陷,CenterMask 引入尺度自适应区域分配函数(Scale-adaptive RoI assignment function),在为掩码预测提取感兴趣区域的特征时,考虑感兴趣区域比例。

主干网络方面,CenterMask 在VoVNet[28]的基础上改进,提出高效的主干网络VoVNetV2,以进一步提高中心掩码的性能。由于单次聚合(OSA)模块有效捕捉不同的感受野的特性,原有的VoVNet 网络可以有效进行多样化特征表示;但在网络深度增加的情况下,由于conv 等变换函数的增加,堆叠OSA 模块使得梯度的反向传播逐渐困难。因此CenterMask在VoVNet中增加了残差连接和eSE 模块。残差连接中,输入路径连接到OSA 模块的末端,OSA 模块能够以端到端的方式在每个级上反向传播模块梯度,扩大主干网络深度;针对SE模块降维导致的信道信息丢失问题,eSE使用一个具有C 通道的全连接层(fully-connected layer)保持信道信息,从而提高了性能。

3 对比分析

3.1 实例分割数据集

实例分割解决不同实例个体像素分割的问题,为了提高网络对复杂场景的理解能力,需要高清晰度、数量规模庞大的数据库作为支撑。在实例分割网络飞速发展的同时,一些为网络性能提供训练验证的公开数据集出现,为网络模型的测试结果提供基准。

Cityscapes[29]数据集着重于对城市街道场景的理解,主要包含城市街道场景图像,按照与城市场景相关性(车辆、天空、地面等)将30 个目标类别分为8 类数据集。数据集包含约5 000 张带有精细注释的图像和20 000 张带有粗略注释的图像,提供语义、实例注释。Cityscapes 在天气情况稳定良好的时间内采集了50 个城市图像;但由于视频记录的形式,在使用数据集前需要人工选择视频帧数,获取所需不同场景下具有较多目标类别的标注图像。

MS COCO[30](Microsoft Common Objects in Context)数据集是微软公司于2014 年公布的数据集,主要包含日常复杂生活场景照片,超过328 000 张照片中包括91 种常见物体类型(80 个可分类别)及250 万个标注实例,其中82种每种有超过5 000个标注实例。基于庞大、可靠的数据量,以COCO 数据集为基准的检测挑战赛是目前目标检测、实例分割领域的标杆。检测挑战赛包含超过80 个可分通用场景物体,训练图像及测试图像超过80 000张、验证图像超过40 000张。测试图像包括用于验证及调试的测试图像集test-dev、用于不同比赛和最新技术的测试图像集test-standard、提交服务器的测试挑战图像集test-challenge 及避免过拟合的预留测试图像集test-reserve。

Mapillary Vistas[31]数据集着重于大规模街道图像,主要针对语义分割和实例分割任务。数据集包含25 000 幅高分辨率图像和66 个目标类别,其中37 个类别使用多边形细致标注单个实例,细致标注总量是Cityscapes 的5 倍,可用于实例分割。图像由不同经验的摄影师使用多种成像设备(手机、平板电脑、动作相机、专业拍摄平台)拍摄,拍摄场景来自多变天气、季节的世界各地,保证了数据集图像细节和地理范围的多样性,丰富数据集为视觉道路场景理解提供了发展基础。LVIS[32](Large Vocabulary Instance Segmentation)是Facebook AI research于2019年公布的数据集。目前实例分割训练建立在目标类别少、单类样本充分的数据集中,但实际应用场景下存在大量单类样本不足的目标类别,针对小样本训练,LVIS 收集164 000 张图像,对1 000 多个对象类别标注获得220 万个高质量的实例分割掩码,构建大型词汇实例分割数据集。相比于COCO数据集,LVIS 人工标注掩码具有更大的重叠面积和更好的边界连续性,更加精确的掩码保证有较长的分类尾的情况下依然保持很好的训练效果。

3.2 常用评价指标

公开大型数据集的产生为实例分割提供了网络性能评价的标准,依赖于网络适用场景的不同,指标常从网络执行时间、运行内存占用、算法精度等多个方面考虑。其中执行时间的提出针对于近年来发展迅速的实时性网络,算法精度因为客观性和准确性依然是实例分割主流的评价指标。目前算法精度评价指标主要有PA[33](Pixel Accuracy)、mPA[33](Mean Pixel Accuracy)、IoU[33](Intersection over Union)及mIoU[33](Mean Intersection over Union)。其中,PA表示总像素与预测正确像素之比,mPA表示每类预测正确的像素总数与每类别总数之比求和的均值,IoU表示预测图像掩码和真实掩码交集与两部分和的比率,mIoU 表示每个类别IoU 求和的均值。

在实例分割过程中总计k+1 个分类,表示为{L0,L1,…,LK},且包含背景类别1。则评价指标公式如下:

Pii表示实际类别与像素预测类别都为i的数目,Pij表示实际类别为i的像素预测类别为j的数目,Pji表示实际类别为j预测类别为i的数目。

3.3 分析

本文所述主要实例分割网络在MS COCO 数据集上测试性能如表1 所示,其中FPS 指每秒帧数(frames per second)。

表1 网络性能比较

由表1 可知,在现有的庞大数据集支撑下,为增加精度,以Mask R-CNN为代表的双阶段网络增加全卷积分支、使用特征金字塔网络增加主干网络不同层次信息融合,利用不同卷积层特性增加网络分辨率加强小目标检测效果;以Mask Scoring R-CNN 为代表的网络增加掩码质量评价分支,通过对掩码质量和分类结果的综合评价实现精度提升;以BlendMask为代表的网络结合了丰富实例信息和密集像素特征,以较小的计算保证实时性的同时提高检测准确性。

以YOLACT为代表的单阶段网络参考单阶段目标检测网络,使用主干网络构建特征金字塔网络获取不同卷积层网络信息,融合全局掩码与掩码系数分支并改进非极大值抑制方法,实现网络实时性;以YOLACT++为代表的单阶段网络加入可变性空间卷积以适应不同尺度物体分割检测任务,并加入掩码评分分支校准掩码得分实现网络精度的提升;以PolarMask 为代表的单阶段网络将实例分割问题转化为极坐标下选取实例中心并进行分类及密集回归预测目标实例轮廓的问题,为掩码表示方法提供新的思路。

基于以上分析可知,单双阶段实例分割网络选用轻量高效网络并追求特征表达稳定,但同时又具有不同的特性。双阶段实例分割网络比单阶段实例分割网络具有更高的精度,主流的双阶段网络框架灵活,在小目标检测效果上体现出优势;但同时由于分类和分割任务的时序性,双阶段网络在实时任务上表现稍差。单阶段实例分割网络较少使用全卷积网络分支,且去掉基于区域的时序步骤,整个网络呈现轻量化的状态,网络实时性强可用于实时场景实例分割检测任务;但同时对于小目标的检测效果稍差。目前实例分割网络改进主要从以下几方面展开:(1)主干网络的选择更换。主干网络实现图像特征提取,是实例分割网络的重要组成部分;以ResNet 为代表的网络解决了网络深度增加带来的梯度爆炸问题,目前ResNet V2[34]、ResNeXt[35]等也可以应用到实例分割主干网络部分,实现较小计算量下的网络特征提取。(2)目标特征稳定表达。实例分割网络引入特征金字塔网络结构,将不同卷积层信息融合,解决同张图像中不同尺寸目标处理问题,获取不同分辨率以提高小目标的处理能力;加入可变性空间卷积解决角度变换、图像长宽比变换的问题。(3)掩码评分分支引入。在网络结构中增加掩码评价分支,校准预测掩码质量和得分偏差,提升网络精度。

4 总结与展望

基于深度学习的实例分割是计算机视觉领域的重要发展方向,快速处理数据并主动学习使得不断更新的网络朝着轻量、实时、精度高的方向迈进,在保持精度和运行速度的同时付出最小训练代价、实现端到端处理并落地于实际应用。在目标检测和语义分割发展促进下,实例分割作为计算机视觉领域的新任务取得一定成果,但仍然存在许多挑战:

(1)小样本任务。日常生活场景中存在大量单类样本不足的目标,在样本量不足的情况下难以获得较好的训练效果;小样本学习旨在样本不足的情况下对新样本进行有效分割。最早的距离度量学习模型是孪生网络,直接匹配学习样本相似;更新的方法指利用元学习思路,学习结束的元分类器在新任务上仅微调参数即可实现分类任务。但目前小样本目标检测存在样本类增多识别精度迅速下降等问题,实例分割领域的小样本任务仍然存在空白。

(2)实时性场景任务。在无人驾驶、生物识别等实用场景下,保证实时性的同时要求网络达到良好精度。YOLACT及YOLACT++标志着实时实例分割任务成为可能,多分支网络及轻量化的网络结构提升网络速度,但相对于其他主流实例分割网络精度有所下降。

(3)三维实例分割。相比于二维图像实例分割,三维实例分割是解决端到端的分割问题,直接将点云作为输入。PointNet[36]保持输入点排列不变性,实现对三维点云的直接处理,为对象分类、部分分割到场景语义解析的应用提供了统一的体系结构。

猜你喜欢

掩码分支实例
巧分支与枝
低面积复杂度AES低熵掩码方案的研究
一类拟齐次多项式中心的极限环分支
基于布尔异或掩码转算术加法掩码的安全设计*
基于掩码的区域增长相位解缠方法
基于掩码的AES算法抗二阶DPA攻击方法研究
完形填空Ⅱ
完形填空Ⅰ
生成分支q-矩阵的零流出性
硕果累累