APP下载

特征自适应融合插值的点云语义分割算法

2023-06-16朱芬芬

现代电子技术 2023年12期
关键词:邻域插值语义

朱芬芬,王 蕾,刘 华

(1.东华理工大学 信息工程学院,江西 南昌 330013;2.东华理工大学 测绘工程学院,江西 南昌 330013)

0 引 言

近年来,随着3D 传感器技术的迅猛发展,尤其是消费级RGB-D 相机的广泛应用,点云数据作为3D 数据的原始表示形式,吸引了越来越多研究者的关注。三维点云语义分割技术能够预测输入点云中每个点的语义信息,帮助智能机器更好地理解周围环境,实现更加精准的定位和闭环检测等任务,被广泛应用于自动驾驶、智能机器人、增强现实和虚拟现实等领域。

强大的深度学习技术使得点云语义分割任务取得巨大进展。基于投影的方法把三维点云投影成多种视角的二维图像,再利用二维卷积神经网络等较为成熟的图像算法进行综合分析,通过反投影图像语义得到点云的语义信息。SalsaNext[1]采用球状投影的方法,把点云表示为激光雷达原始广角的二维图像,基于ResNet[2]的编码-解码结构,通过卷积神经网络对点云的类别标签进行预测。这类方法容易损失原始点云的重要结构信息,产生离散化误差和卷积模糊输出等问题。RangeNet++[3]则采用新颖的后处理方法减少这些问题。基于体素的方法把点云离散化为规则的体素(三维栅格),然后利用三维卷积神经网络等面向结构化数据的算法进行处理,如VoxelNet[4]。然而该类方法常常会产生大量无效的数据和计算,故FusionNet[5]利用新的基于栅格的卷积算法,采用基于体素的多层感知机(voxel-based MLP)提取点的特征;同时,采用基于稀疏体素的卷积聚合有效的体素特征,减少对空体素的冗余计算,最后将两种特征融合起来。PolarNet[6]采用极鸟瞰图表示法,在极坐标系中平衡网格单元之间的点,采用环形卷积提取特征。综上,基于投影和基于离散化点云的方法仍然面临着点云几何信息损失、遮挡等问题。近年来,基于原始点云的深度学习算法迅速发展,这些方法均不使用投影、体素化等预处理操作对输入的点云直接处理,因此能够最大限度地保留点云的原始信息。PointNet[7]首次实现直接处理点云数据,利用多层感知机(MLP)将低级的点云特征转换到高维空间,以分析不同类型的点之间的差异,但是因对点进行单独学习,该方法没有关注到点的邻域信息。为此,PointNet++[8]逐层地对点云分组,结合每组的局部特征推理点云语义信息。PointConv[9]定义了一个计算高效的卷积核,由密度函数和MLP 计算得到每个点的权重,再对输入的点集三维坐标进行卷积。PointConvFormer[10]在PointConv 基础上,将自注意力机制加入卷积核中,分割效果得到了显著的提升。图结构的方法是利用天然适合无序数据的图结构表示点云,并对其进行卷积等运算。PointCloudTrans[11]首次将自然语言处理领域的Transformer 算法应用于点云处理,利用该算法天然的置换不变特性和优异的特征提取能力分析点云的语义信息。GAC[12]通过注意力的图卷积算法自适应地对每个邻域点加权,能够自动选择重要的邻域点特征。DGCNN[13]在处理点云的过程中动态地建立图结构,采用类似于卷积的形式提取点云特征。尽管在小的点云中表现出较好的精度,然而因计算效率的关系,这些算法对点云的容量有所限制,不能直接处理大量的点云。MapConvNet[14]利用端到端的可学习核函数将点云邻域点三维坐标编码成核权重,对该邻域内点的特征进行卷积,通过分层的方式逐步地提取多尺度的点云局部特征,最后使用跳跃连接的最近邻上采样插值法推理点云语义信息。RandLA-Net[15]采用自注意力机制提取局部点云特征,逐层地降采样点云,最后采用基于跳层连接的最近邻插值算法恢复点云密度,利用提取的局部特征推理预测输入点云中每个点的类别标签。最近邻插值的算法根据最近点的特征来推理当前目标点的特征,然而距离较近的点之间未必具有很大的相关性,而距离较远的点之间也可能具有相关性。

为了得到更准确的大场景点云语义特征,本文方法采用多个注意力局部编码模块堆叠提取局部特征;最后在上采样过程中,通过跳层连接,利用低级特征中含有的丰富结构的信息修正高级特征中产生的偏差,同时采用自注意力机制自适应地选择重要的相关特征。

1 本文方法

本文的主干网络设计为多层的编码-解码结构,编码层以RandLA-Net[15]为基础,通过注意力机制的局部特征聚合模块学习多尺度点云内部的局部上下文关系,各向异性地描述不同点云的模式特征;解码层用自适应的特征插值法代替跳跃连接的最近邻插值法,对多尺度的局部上下文进行自适应融合的特征插值,恢复特征图密度到原始点云密度,最后预测每个点的类别标签。

1.1 注意力局部特征聚合模块(SA_LFA)

注意力局部特征聚合模块结构如图1 所示。为了提取点云的局部邻域特征,首先需要利用KNN 算法得到每个点的K邻域内点云的三维坐标Pi={p1i,p2i,…,pki,…,pKi|pki∈R1×3} 和点云的原始输入特征,也可 以 是 通 过 编 码 后 的 输 入 特 征Xi={x1i,x2i,…,xki,…,xKi|xki∈R1×d1} 得到。为简便叙述,本文以单个点pi为例,将其邻域点坐标Pi和对应特征Xi输入注意力局部特征聚合模块(SA_LFA),可得到包含丰富邻域结构信息的特征向量yi∈R1×d2公式为:

图1 注意力局部特征聚合模块

具体来说,对于中心点pi和其中一个邻域点pki,为了使得中心点与邻域点的几何关系更加具体,本文对中心点和邻域点的三维坐标进行位置编码:

式中:“⊕”表示连接操作;pi表示中心点三维坐标;pki表示其中一个邻域点三维坐标;‖pi-pki‖表示邻域点相对中心点的距离;g1表示对通道维度的线性变换,得到位置编码δki∈R1×d1。

其次,位置编码与对应的特征连接起来得到的增强特征hki,扩展到K个点可得到Hi={h1i,h2i,…,hki,…,hKi},Hi∈RK×2d1;然后经过一个MLP 层,通过softmax 激活函数得到特征权重Si,将其与特征相乘,通过局部邻域点之间相互作用自动学习重要的特征而去除冗余的特征;最后通过池化操作聚合所有邻域点的特征,通过一个共享MLP 输出局部特征yi∈R1×d2,具体公式如下:

式中:g2、g3代表多层感知机MLP;“⊕”代表通道维度的连接操作;“⊙”代表逐元素相乘;xki代表Xi的第k个元素;[ ; ]代表通道维度的向量连接。

1.2 扩张残差模块(DRB)

DRB 模块将两个注意力局部特征编码模块堆叠起来,使得该部分的感受野由K提高至K×K,模型能够感受到更大的局部区域,得到更加细粒度的局部特征。本文采用残差连接将输入特征与聚合特征逐元素相加,通过LeakyReLU 激活函数增加模型的非线性学习能力,如图2 所示,其中dout为每一层中规定的通道数,在后文中将加以阐述。

图2 扩张残差模块

1.3 自适应融合的插值模块

首先,将每个编码层中的稀疏特征图分离地进行基于跳跃连接的最近邻插值操作。原始点云通过不同采样率 的 随 机 采 样 后 , 点 的 数 量 为{N,N4,N16,N64,N256 }, 通 道 数 为{8,32,128,256,512 }。对于每一张图Sm,1 ≤m≤5,分别进行SkipInterpolation 得到多个全分辨率特征图∈RN×8,1 ≤m≤5。其中N是原始点云的点数,8 是输出通道数,SkipInterpolation 由跳层连接(Skip Connection)、最近邻插值法(NearestInterpolation)和共享的多层感知机(MLP)组成。

其次,通过自注意力的方法(SA)自适应地融合多个输出的全分辨率图,自动选择其中重要的特征。对于每张全分辨率图͂m,学习一个自适应全局掩码并进行加权操作,池化函数将所有特征图相加融合,输出聚合的原始密度特征图Fout∈RN×8。

式中:g表示特征连接操作与多层感知机MLP;“⊙”表示逐元素相乘。

最后,由三个全连接层(FC)和一个Dropout 层组成的全连接模块(FC_Block)对聚合特征图Fout进一步编码,得到原始点云中每个点的类别信息Fclass∈RN×nclass,其中N为原始点的数量,nclass为点云的总体类别数。

自适应融合插值模块框图如图3 所示。由于增加了对多尺度局部特征的自注意力计算,该模型能够自动选择编码层与解码层中重要的特征,从而更有效地融合多尺度上下文,得到更加准确的语义信息。

图3 自适应融合插值模块

2 实验与分析

为验证本文方法的有效性,本文在室外真实大场景环境中的点云数据集SemanticKITTI[16]和S3DIS[17]上进行了评估和分析,并对自适应融合插值模块进行了消融实验。

2.1 实验环境

本文方法的实验配置如表1 所示。

表1 实验环境配置

2.2 评估指标

本文使用平均交并比(mean Intersection-over-Union, mIoU)为评估指标,其是整个数据集上所有语义类别的交并比(IoU)的平均值,公式如下:

式中:TPc、FPc、FNc分别表示正确预测的正例、错误预测的正例和错误预测的负例;C表示语义类别数量。

2.3 在室外交通场景数据集SemanticKITTI 上的评估

SemanticKITTI[16]基于KITTI 视觉数据集,由21 个序列共43 552 帧标注的雷达点云组成,每帧包含个点,覆盖三维空间。规定序列00~07 和09~10 作为训练集(19 130 帧),08(4 071 帧)作为验证集,序列11~21(20 351 帧)用于线上测试,原始三维点云只有三维坐标没有颜色信息,提供给计算机算法进行学习的信息较少,因此在该数据集上的语义分割任务极具挑战性。

2.3.1 SemanticKITTI 上的量化分析

在SemanticKITTI 上测试本文方法AdapFusion-Net,量化结果如表2所示。

表2 各种方法在SemanticKITTI 上的量化结果

由表2 可知,本文方法AdapFusion-Net 的mIoU 比PointNet[7]、PointNet++[8]、RandLA-Net[15]等直接处理点云的MLP 算法分别提高39.6%、34.1%、0.3%,比基于图的方法SPG[19]有明显提高;另外,相比于通过投影处理点云的 方 法SqueezeSeg[18]、DarkNet53Seg[16]、RangeNet53++[3],本文方法mIoU 也有14.5%、4.3%、2%的提高。实验结果表明,即使仅提供三维坐标,本文方法仍然优于大多数先进方法。

2.3.2 本文方法与RandLA-Net 的分割效果比较

各个类别上的不同方法的分数对比如图4 所示。

图4 本文方法Adaptive-Fusion-Net 与基线方法RandLA-Net 在各类别上的分数对比图

由图4 可知,对比基线模型,本文方法在电线杆(pole)、摩托车(motorcyclist)、自行车(bicycle)、骑自行车的人(bicyclist)、骑摩托车的人(motorcyclist)等复杂的小目标类别的分割中取得了明显的进步。

2.3.3 在SemanticKITTI 上的可视化效果

在SemanticKITTI 上进行语义分割的效果如图5 所示。在两组可视化效果图中,本文方法AdapFusion-Net与RandLA-Net 相比分割更加准确。如RandLA-Net 方法在第1 组中将骑自行车的人(bicyclist)错误地识别成摩托车(motorcycle),在第2 组中,RandLA-Net 将汽车(car)错误地识别为卡车(truck),在第3 组中,错将骑自行车的人(bicyclist)识别成骑摩托车的人(motorcyclist),而本文方法AdapFusion-Net 分割更加准确。实验结果表明,本文方法具有更加有效的特征提取能力,即使面对极其相似模式的目标点云,仍能较准确的识别。

图5 本文方法与基线方法在SemanticKITTI 上的分割效果

2.4 在S3DIS 上的评估

S3DIS 涵盖6 个室内工作场景区域,共271 个房间,实验的量化结果如表3 所示。由表3 可知,本文方法的分割精度超过了大多数的先进算法。

表3 各种方法在S3DIS 上的量化结果

2.5 其他实验

为分析自适应融合插值模块的有效性,本文设置了消融实验,所有实验均在SemanticKITTI 的08 序列(含4 071 帧,每帧约10 万个点)上进行测试,实验结果如表4 所示。本文在主干模型上分别使用跳层连接的最近邻插值法(nearest_Interpolation)和自适应融合插值模块(Adap_Interpolation_block)对多尺度的局部特征图进行上采样特征插值,量化结果表明,采用自适应融合插值模块的算法的平均交并比(mIoU)和平均准确率(mACC)提高了1.9%和1.3%。

表4 自适应融合插值模块的消融实验量化结果

该消融实验验证了将多尺度的局部特征进行自适应的融合,能够有效地提高算法的语义推理准确度。

3 结 语

本文方法融入注意力机制进行局部特征学习,在上采样解码部分,不同于广泛使用的跳层连接的近邻插值法,本文方法采用自适应融合的方法,不仅通过跳层连接融合编码层多尺度局部特征中的信息,而且分离地进行上采样插值,最后自适应地选择重要的特征,因此能够更准确地描述相似目标在局部特征空间中的差异,具有更强的特征推理能力。然而,算法在目标的边界上容易产生歧义分割,为此,下一步将提高对目标全局特征的提取和利用,加强模型的边界差异特征描述能力和模型的泛化性能。

猜你喜欢

邻域插值语义
稀疏图平方图的染色数上界
语言与语义
基于Sinc插值与相关谱的纵横波速度比扫描方法
基于邻域竞赛的多目标优化算法
关于-型邻域空间
“上”与“下”语义的不对称性及其认知阐释
一种改进FFT多谱线插值谐波分析方法
基于四项最低旁瓣Nuttall窗的插值FFT谐波分析
认知范畴模糊与语义模糊
Blackman-Harris窗的插值FFT谐波分析与应用