APP下载

基于多特征融合的城市场景三维点云语义分割

2023-11-22刘贤梅刘鹏飞

计算机技术与发展 2023年11期
关键词:类别向量局部

刘贤梅,刘鹏飞,贾 迪,赵 娅

(东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318)

0 引 言

三维点云是在同一空间参考系下用于表达物体表面特征和空间分布的海量点的集合,相比于二维图像,点云可以提供丰富的几何形状信息,并且不易受光照变化和其它物体遮挡的影响[1]。三维点云语义分割的目的是为每个三维点分配语义标签,是三维场景理解和环境智能感知的关键问题之一,广泛应用于自动驾驶、高精地图、智慧城市等领域[2],大规模城市场景的三维点云覆盖范围广、数据规模大、局部点云量稀疏、城市建筑风格各异,使得城市场景的三维点云语义分割面临严峻的挑战。

当前基于深度学习的点云语义分割方法可分为基于投影的方法和基于点的方法。

基于投影的方法:为了将成熟的二维图像语义分割方法应用于三维点云,文献[3]首次提出多视图投影方法,将输入的三维点云投影为多组二维图像,再利用图像语义分割网络对每个视图的图像进行联合分数预测。SqueezeSeg[4]利用球面投影将三维点云转换为二维图像,然后使用SqueezeNet[5]网络进行特征提取与分割, 并应用条件随机场(Conditional Random Field,CRF)优化分割结果。文献[6]在SqueezeSeg的基础上设计了上下文聚合模块(Context Aggregation Module,CAM)以进一步提高分割精度。

基于点的方法:文献[7]提出了首个能够直接处理非规则点云的PointNet方法,该方法采用多层感知器和对称函数来学习和聚合点云特征,但其捕捉局部特征的能力很弱。

为解决该问题,PointNet++[8]通过划分邻域的方法提取局部特征,该模型在将点云划分为多个有重叠的局部邻域后利用PointNet捕获局部邻域特征。

PointConv[9]根据近邻点的距离赋予其不同的权重,再通过加权卷积聚合局部特征。

文献[10]提出可变形核点卷积分割框架KPConv,该方法中的卷积权重是由每个邻域内定义的核点与其余非核点之间的欧几里得距离计算得出,核点的选择可根据不同情况进行修改,相比于PointConv更灵活。

文献[11]提出动态图卷积分割网络DGCNN,用构建的动态图中每个节点代表点的特征,每条边代表邻域内点间的特征关系,且边会根据计算的邻域特征矩阵动态变化,使网络更容易聚类邻域内的相似特征。

文献[12]基于谱图理论设计了RGCNN模型,在构建动态图保存点云特征的基础上,利用图拉普拉斯矩阵自适应地捕获每一层动态图结构。

文献[13]将动态图的思想融入PointNet++,设计了DGPoint动态图卷积网络,通过K近邻算法确定新的局部区域以达到动态图更新的目的。

文献[14]借助图的思想构建超点图(SuperPoint Graph,SPG),使网络捕获点云的上下文结构变得更精准。

GACNet[15]通过注意力机制计算邻域中心点与每一个邻接点的边缘权重,从而使得网络能在分割的边缘部分取得更好的效果。

DALNet[16]提出了一种基于双注意力机制的语义分割网络,结合空间注意力以及双线性插值法实现在解码阶段空间信息的高效恢复,在处理城市道路场景时有不错的效果。

此外,最近的RandLA-Net[17]设计了一个局部特征聚合模块,通过增加感受野的方式聚合局部点云的几何形状特征与颜色特征,极大程度地减少了信息损失,并采用随机采样的方法提高了网络可以同时处理的点云量。

尽管基于点的方法在三维点云语义分割上取得了不错的效果,但几乎都只适用于小规模室内场景或道路场景,无法扩展到大规模城市场景,这主要是由于城市场景点云数据规模更大,覆盖面积更广,对网络训练时的处理速度与内存开销要求极大。RandLA-Net虽然通过随机采样的方法降低了网络训练过程中处理的点云量,但却牺牲了网络提取点云特征的准确性,而城市点云数据的局部区域点云量本身就稀疏,采样后几何形状信息更加难以提取,同时由于城市建筑风格的差异,颜色特征的描述能力也极大下降,因此网络已无法仅依靠几何特征和颜色特征来分割城市点云。为解决上述问题,该文提出了一种基于多特征融合的三维点云语义分割方法MFFN,该方法的贡献如下:

为解决几何形状与颜色特征对城市物体描述能力减弱的问题,引入了点云的法向量特征,点云法向量在表面凹凸程度与光滑度相差较大的城市物体间有明显的差异,利用这种特性可有效弥补几何形状与颜色特征的不足,并基于RandLA-Net特征聚合思想设计了多特征局部聚合模块MFLA(Multi-Feature Local Aggregation),将点云的法向量特征、颜色特征与几何特征进行融合,进一步提高了网络对城市场景三维点云的分割精度。此外,为解决城市点云数据规模大,局部点云量稀疏的问题,在数据预处理阶段与网络训练阶段分别采用网格采样与随机采样进行点云降采样。预处理过程中的网格采样保证了经过一次预处理之后输入到网络中的点云可以最大程度保留原始点云的几何形状特征,既保证了后续网络的训练速度,又缓解了局部点云量稀疏导致形状特征提取不准确的问题;网络训练过程中的多次逐层随机采样凭借其采样速度快的优势,大幅降低每层需要训练的数据量,进一步加快训练速度并降低内存开销。

1 基于多特征融合的城市场景三维点云语义分割网络MFFN

1.1 MFFN整体结构

MFFN采用了带有跳跃连接的编码-解码结构,整体网络结构如图1所示。首先将预处理后的N个携带D维特征的采样点输入网络,利用四组编码解码层学习每个点的局部特征,各层的特征维度为(8,32,128,256,512)。在每个编码层中利用一个多特征局部聚合模块(MFLA)融合局部邻域内的点云法向量、颜色和几何形状信息,并通过逐层随机采样方法降低训练点云量;之后在每个解码层中插入一组多层感知机(MLP)和近邻插值上采样(US),使采样点大小与每个采样点携带的特征维度逐步恢复到原始大小;其间利用跳跃连接将编码解码过程中提取的相同维度的特征信息进行融合;最后利用三个全连接层与一个dropout层对其进行输出,输出结果为N×Class,Class为点云中的类别个数。

图1 MFFN架构

1.2 不同阶段的点云降采样

1.2.1 数据预处理阶段的网格采样

为了解决城市点云数据规模大、网络训练困难的问题,该文利用网格采样在降低点云数量的同时,能最大程度地保留点云几何结构的特点,在网络训练前先利用网格采样对点云进行预处理。

首先,通过遍历查找分别找出点云数据在X、Y、Z轴上的最大、最小坐标值,为输入点云建立一个能包围全部三维点的最小立方体。然后把该立方体划分为多个大小一样的小体素;然后,确定每个三维点所在的体素网格;最后,计算每个网格内三维点的重心,并利用该重心点代替网格内的所有三维点,即可得到网格采样后的点云数据。

1.2.2 网络训练阶段的随机采样

随机采样会根据指定输出的采样点个数从输入点云中进行随机点选取。与网格采样、最远点采样[18]、反密度采样[19]等方法相比,随机采样的采样速度与输入点数无关,且在采样过程中没有中间运算步骤,计算效率极高。因此,在网络编码过程中利用随机采样逐层降低三维点数,以大幅提高网络的训练速度。

1.3 点云法向量特征分析与计算

1.3.1 法向量特征分析

为便于分析点云法向量的特性,图2(a)(b)分别展示了植被和建筑物两个类别的法向量特征局部放大图,图中线条为相应三维点的法向量。

图2 部分类别法向量特征放大图

从图2中可以看出,植被等不规则物体的法向量朝向参差不齐,但建筑物等光滑物体的法向量朝向基本一致,可见点云法向量在表面凹凸程度与光滑度相差较大的城市物体间有明显的差异,这种特征在多数的城市物体上均有所体现。因此,利用法向量的这种特性辅助语义分割网络,可有效加强网络对城市场景中这些类别的学习能力。

1.3.2 法向量计算

法向量的计算方法有三种[20]:基于Delaunay三角分割的方法会受到离群点和噪声的影响,因此不适用于现场采集的数据;基于统计学原理的方法计算复杂度很高,且要求点云在尖锐特征处的采样密度足够稠密,因此不适用于局部区域稀疏的城市点云;基于局部表面拟合的方法计算原理简单清晰、速度快、使用范围广,该文采用该方法,具体计算过程如下:

首先进行局部区域表面拟合,对于每个采样点p,利用k近邻搜索算法搜索到与其最近的k个近邻点,然后根据最小二乘法对k个点进行曲面拟合,形成曲面的表达形式,如公式(1)所示。

(1)

(2)

随后,对式(3)中的协方差矩阵M进行特征值分解,求得M的所有特征值,其中最小的特征值所对应的特征向量即为所求的法向量。

(3)

1.4 多特征局部聚合模块MFLA

在网络的随机采样过程中,不可避免地会丢失一些携带重要信息的三维点,为了同时解决信息丢失和几何形状与颜色特征对城市场景表达不充分的问题,该文引入RandLA-Net局部特征聚合的思想,设计了多特征局部聚合模块,整体框架如图3所示。该模块主要由多特征局部编码模块、注意力池化模块两部分堆叠而成,并将堆叠后的输出特征与输入点云经过多层感知机处理后的特征相加,获得最终的聚合特征。通过多特征编码的方式,缓解重要三维点丢失带来的精度下降问题;同时,通过聚合法向量特征,网络可以更好地学习一些特定城市类别的特征信息,进一步提高模型精度。

图3 多特征局部聚合模块

1.4.1 多特征局部编码模块

多特征局部编码模块通过编码的方式将每个采样点与其近邻点之间建立联系,使每个采样点除了携带自身的多特征信息之外,还会携带与其它邻域点之间的特征关系,这样即使在随机采样过程中一些重要的三维点丢失,其部分特征信息仍能保留在其它邻域点的特征编码中,使网络后续模块可以更好地聚合局部特征;同时,考虑到点云的法向量特征在一些特定的城市类别上的差异性很大(铁轨、植被、建筑等),通过将相对位置编码与颜色信息、法向量信息进行级联的方式,加强网络对这些类别的学习能力,进而提高整体的分割精度。

(4)

(5)

1.4.2 注意力池化模块

注意力池化模块用于聚合点的局部特征。首先,将多特征局部编码模块获得的邻域点多特征信息送入可学习的全连接层;然后,使用Softmax激活函数获得该点多特征信息的权重;最后,将得到的所有邻近点特征权重加权求和获得局部邻域聚合特征。在处理大规模城市场景的点云时,该方法相比于最大池化或平均池化的优势在于注意力池化可以自动选择重要的局部特征,进一步降低随机采样丢失关键点信息的影响,提高分割网络的精度。

2 实 验

2.1 实验数据集

实验使用的数据集是牛津大学的胡等人在2021年公开的SensatUrban数据集[21],该数据集是城市规模摄影测量点云数据集,其中包含三个英国城市(伯明翰,剑桥以及约克)7.6平方公里中的近30亿具有详细语义标注的点,同时包含每个点的位置信息和颜色信息,共分为地面、植被、建筑物、墙面、桥梁、停车场、铁轨、交通路、街道设施、汽车、人行道、单车和水13个语义类别。

其中,伯明翰城市数据中类别具体占比如表1所示,其它城市中的类别占比与伯明翰类似。

表1 伯明翰数据集中各类别占比(误差在0.001~0.01之间)

2.2 实验环境

实验环境为Linux Ubuntu 18.04操作系统、Intel(R) Xeon(R) Silver 4210处理器、RTX 3090显卡,使用CUDA11.2加速GPU计算,深度学习框架为基于python3.8的tensorFlow2.6.0。

2.3 实验结果与分析

2.3.1 预处理阶段采用不同采样方法对网络分割结果影响的对比分析

为验证网格采样法在应用于大规模城市场景点云数据预处理时的优越性,分别采用随机采样与网格采样对数据进行降采样,检测其对模型训练的影响,评价指标包括总体精度(OA)、平均交并比(mIoU)和各个类别的交并比(IoU),实验结果如表2所示。由于目前无法获得测试集标签,该文展示的相关实验结果均是将训练好的模型上传至SensatUrban数据集发布者提供的官方网站后获得的。从表2中可以看出,采用网格采样的方法处理后的数据训练出来的模型,其各项指标均优于随机采样处理后的训练数据,尤其是在一些分割精度本就较低的类别上差距尤为明显,如停车场、铁轨、道路等。这主要是由于网格采样与随机采样相比,保证了相对稀疏的位置也会有适量的三维点得以保留,使网络可以更好地学习点云局部特征。

表2 随机采样与网格采样对训练模型的影响 %

2.3.2 融合不同点云特征的实验结果对比分析

表3对比了在几何特征中依次融入颜色特征与法向量特征的分割结果。可以看出,当点云数据中存在多种类型时,该文提出的多特征融合算法对地面、建筑物、墙面、铁轨、植被、停车场、人行横道等类别的分割精度均有较大提升,其中对铁轨分割精度的提升最为明显,由0%提升至13.60%。这主要是由于这些类别有着自己独特的法向量特征,极大程度地降低了这些类别之间相互错分的概率,如地面与停车场、道路与铁轨、植被与城市设施等,说明融入法向量特征提高了网络对城市场景点云中这些类别的分辨能力。

表3 融合单几何特征、几何特征+颜色特征、几何特征+颜色特征+法向量特征三种情况的分割结果对比 %

续表3

2.3.3 MFFN与其它分割网络的实验结果对比分析

为进一步验证文中算法在进行城市场景三维点云语义分割中的有效性和优越性,将MFFN与其它基于深度学习的分割方法进行了比较。表4列出了这些算法在SensatUrban数据集上的分割性能,其相应结果是由该数据集发布者在文献[21]中提供,与MFFN的评估方法完全一致,可以对比分析。文中算法得到的平均交并比为55.90%,总体精度为91.90%,表明该算法在所有类别上的评价指标上均好于其它的分割方法,证明其能够有效地提高大规模城市场景三维点云语义分割精度。

从表4中可以看出,文中算法对铁轨、单车两个类别的分割效果仍较差,这主要是因为铁轨和单车的训练数据太少(数据集中类别占比如表1所示),这使得网络无法很好地学习二者的特征,进而很难将它们精准分割;但表1显示在数据集中墙面和桥梁的训练数据也较少,而它们在表4的结果中却比铁轨和单车效果好很多,这主要是因为墙面和桥梁表现出与其它类别完全不同的法向量特征,从而获得了较高的分类性能,进一步说明了融合法向量特征对整个网络的分割精度有极大提升,由此表明融合法向量特征可有效提高大规模城市场景三维点云语义分割模型的性能。

表4 文中方法与其它先进分割方法的实验结果对比 %

2.3.4 MFFN与其它分割网络的模型参数和训练时间的对比分析

为了验证文中网络模型在内存开销和训练速度上的优越性,分别从模型参数和每轮的训练时长两方面与其它网络进行了对比,结果如表5所示。为了保证对比的公平性,其它方法也在训练之前进行了和文中方法相同的网格采样预处理,使训练的数据量保持一致。从表中可以看出,虽然SPG的模型训练参数最少,但由于其依赖于昂贵的超点图构造,反而训练时间最长;PointNet++由于在网络训练过程中采用的是最远点采样法,其训练速度远低于采用随机采样的文中方法;且文中方法在网络的分割性能明显提升的前提下,两项数据均与RandLA-Net几乎持平,且训练速度大幅领先于其它网络,证明了该方法十分适用于数据量庞大的城市点云。

表5 MFFN与其它分割网络的模型参数和训练时间的对比

2.3.5 MFFN与RandLA-Net分割结果的对比分析

图4为MFFN与RandLA-Net在SensatUrban数据集中的分割结果,由于无法获得测试集标签,该文从原数据集的训练数据中选取出合适的点云数据用于测试出图,选取的数据仅用于最终展示分割结果,并不参与模型训练,因此不会对模型性能评估产生影响。从图4第一行可以看出,文中方法相比于RandLA-Net,极大程度地降低了地面、道路、人行横道三个相似度较高的类别的分割误差;从图4第二行可以看出,RandLA-Net将一处道路错分为停车场,可能是该处道路与相连的其它道路颜色略有不同的原因导致出现错分,而文中方法引入的法向量特征对其进行了矫正,使错分面积明显降低。

对比其它方法,MFFN方法具有更好的分割结果,这主要是受益于引入的法向量特征,通过多特征融合模块将点云几何特征、颜色特征与法向量进行融合,使三者特征相辅相成,降低了单一特征带来的分割误差,且对局部区域内占比较少的小型物体更加友好,有效地提高了大规模城市场景点云的分割精度。

3 结束语

该文引入了点云的法向量特征,有效地弥补了几何形状与颜色特征的不足,并基于RandLA-Net的特征聚合思想设计了多特征局部聚合模块,将点云的法向量特征、颜色特征与几何特征进行融合,大幅提高了城市场景三维点云的分割精度。并且,在数据预处理阶段与网络训练阶段分别采用网格采样法与随机采样法进行点云降采样,保证了大规模城市点云的训练速度。在SensatUrban城市语义数据集上的结果显示,该算法的平均交并比为55.90%、总体精度为91.90%,相比其它分割网络在绝大多数类别上的分割精度均有大幅提升。但由于城市场景点云数据中物体类别分类不均衡,部分类别的占比过低,导致这些物体难以被分割,如铁轨、单车等,引入法向量后虽有所提升,但并未达到预期效果,如何解决该问题是下一步研究重点。

猜你喜欢

类别向量局部
向量的分解
局部分解 巧妙求值
非局部AB-NLS方程的双线性Bäcklund和Darboux变换与非线性波
聚焦“向量与三角”创新题
局部遮光器
吴观真漆画作品选
向量垂直在解析几何中的应用
服务类别
向量五种“变身” 玩转圆锥曲线
论类别股东会