融合几何特征与全局关系的室内点云语义分割
2023-05-30黄逸群孙玉吴宜良
黄逸群,孙玉,吴宜良
(福州大学空间数据挖掘与信息共享教育部重点实验室,地理空间信息技术国家地方联合工程研究中心,福建 福州 350108)
0 引言
随着消费级3D传感器的迅速发展,现有三维激光扫描系统已经可以直接捕获物体表面点的三维坐标、色彩、辐射度等数据,相比二维图像数据蕴含更多的几何信息.如今已经广泛应用在导航、自动驾驶、和室内重建等研究中,点云语义信息的提取是其中重要的一环,能够帮助应用人工智能的机器更好感知真实世界.
点云语义分割是获取点云语义信息的基础,为输入点云逐点指定语义标签.点云语义分割是近年来颇为活跃的研究课题,与二维图像规则的网格像素结构不同,三维点云存在存储无序、空间分布不均匀、地物相互遮挡导致部分区域缺失等特点,使点云语义分割具有一定的困难性.早期的研究主要关注于使用设计好的手工特征利用基于机器学习的分类器对点云进行分类.如文献[1]利用颜色和几何信息来迭代合并超体素对室内数据进行三维分割;文献[2]利用多种特征如法向量、曲率等构建室内点云场景描述子,对每类特征构造数据点之间的相似矩阵,通过近邻传播聚类算法进行聚类,并使用N-cut算法获得点云分割结果.这些方法适合单一场景,只能获取初始点云的浅层特征无法获取深层有效特征.利用深度学习来探索三维点云的语义分割是目前的研究热点,现有基于深度学习的点云语义分割方法可以归纳为三类: 基于投影变换、基于规则体素和基于点的方法.基于投影变换的方法是从不同角度将三维点云映射为二维图像并输入到卷积神经网络(convolutional neural network,CNN)中,如文献[3]利用颜色和深度信息随机从不同角度和方向生成特征图像,然后利用CNN来处理,该方法的优点是能使用成熟的图像CNN来直接处理点云,但三维转换成二维势必会造成几何结构的损失,而且如何确定视图的拍摄角度和数量使得点云地物形状不被遮挡是一大难题.基于规则体素的方法是将非结构化的三维点云剖分成可使用常规三维卷积网络的体素结构,体素分辨率与存储和计算资源成正比,如果分辨率较低,每一块体素涵盖的信息较少将导致局部细节信息的缺失.文献[4]将点云数据转换为体素数据,然后设计空间密集提取模块和引入注意力特征聚合模块来提取有限分辨率下体素化数据的判别特征,但仍然无法避免几何信息的损失和难以适用于复杂室内场景.
基于点的方法是以三维点云坐标和相关特征作为初始数据直接输入深度学习网络的方法,不需要二次转换不会破坏点与点之间的环境上下文,方便进行细粒度分析.文献[5]提出了PointNet,对每个点独立地使用多层感知机(multi-layer perception,MLP)并使用对称函数提取全局特征,这种方法考虑到点云的无序性和非结构化,但没有考虑局部区域中点与点之间的关系;为了增强网络的局部区域上下文,文献[6]在PointNet的基础上采用带有采样层和分组层的层级结构聚合局部区域上下文信息;文献[7]介绍了通过权重函数和密度函数得到卷积核的PointConv,学习三维空间中点云的平移不变和置换不变信息.目前大多数网络在欧式空间中聚集一定范围邻居点的语义特征来表示质心点特征,在构建的过程中不同类别与邻域之间的重叠不可避免,特别是在多种语义类别的交界处只使用语义特征将难以分辨点云类别.
为此,提出GSFNet,通过引入几何与语义两种特征来区分邻域中点与点之间的影响,通过细粒度特征增强局部上下文,提取由质心点构造的邻域有效信息.如今大多数网络通过编码解码器结构单独学习局部邻域内点的特征,全局上下文信息不足,未能充分考虑邻域彼此之间的上下文关系.通过引入全局关系依赖性模块来描述复杂场景中点与点之间的关系,对长距离点之间的关系进行建模,能够缓解大尺度空间中邻域缺乏相互关联导致提取的特征信息不足的问题.
1 几何与语义点云语义分割网络模型
1.1 几何与语义特征融合模块
图1 几何与语义融合模块Fig.1 Geometric and semantic fusion module
(1)
为了将邻域P′的语义上下文信息编码到每个输入点,定义局部语义特征fi,k={pfi,k,(pfi-pfi,k)},其中:pfi和pfi,k代表上一编码层点特征经过PointNet++提取层后的语义线索特征.为了体现其局部空间的几何特征与空间位置分布,汇聚pi的局部相邻点集特征和预定义的几何属性作为输入点pi的几何特征表示为
gi,k={pgi,k,(pgi-pgi,k),Li,k,ρi,k,Si,k}
(2)
其中:pgi和pgi,k分别表示质心点pi和其邻域点pi,k三维点云的空间xyz位置坐标;Li,k表示质心点pi第k个相邻点的线性度;ρi,k表示平面度;Si,k表示球形度.
对于每个质心点pi可以得到一组由邻居点特征组成的集合,分别为几何特征Gi={gi,1,gi,2,…,gi,K}和语义特征Fi={fi,1,fi,2,…,fi,K}.将几何与语义线索信息相互为加权核,彼此相互监督,两者能够互相调整,生成自适应当前质心邻域增强特征信息.为了使网络更稳定且不同相邻点特征之间更好比较,使用带有非线性激活函数SoftmaxSoftmax的MLP层提取卷积算子,即
(3)
(4)
(5)
1.2 全局关系依赖性模块
几何与语义融合模块只能对局部空间中的信息进行描述而无法对具有长距离的关系建模,对于大范围空间中的真实点云,分析其相邻对象之间的关系,对其上下文建模以达到点云分析的目的至关重要,例如椅子常位于地板上方,椅子和桌子通常相邻紧挨,门嵌入墙壁等.在解码器深层引入全局关系依赖性模块(global relationship dependency module,GRD),解码器深层分辨率低,获取的输入点云具有较大的感受野,可以表征为相对于初始输入数据的一定范围邻域深层抽象,每一个点可以认为是邻域抽象特征块.常用的编码解码器网络孤立地分析每个抽象块特征,引入此模块,对全局上下文进行建模提取出每个抽象块之间的影响关系.
如图2所示,首先对所有抽象特征块F′进行一维卷积运算,得到3个特征M1∈RN×C,M2∈RN×C,M3∈RN×C.对两个特征矩阵M1、M2进行所需的转置后相乘,接着使用Softmax操作对矩阵相乘结果进行归一化获得全局对象之间的依赖关系权重图Q.Q中两点之间的依赖关系可以表示为
(6)
其中:Qi,j表示M1的第i个点对M2第j个点的空间位置依赖性,表示×矩阵乘法.空间中不同语义类别与相同语义类别对象之间可能产生很强的依赖性,之间能相互影响.
图2 全局关系依赖性模块Fig.2 Global relationship dependency module
接着,将得到的空间依赖关系矩阵应用到经过卷积抽象后的特征块M2中,并与初始输入F′相加,有
Dout=Q×M3+F′
(7)
这里,×表示矩阵乘法.生成的Dout含有全局上下文关系,根据空间中每个抽象语义块之间的依赖性图有选择地汇聚相关的重要特征,提高每个抽象语义块的辨识度,增进点云的语义分割能力.
1.3 网络框架
通过上面介绍的两个模块,构建了遵循PointNet++的编码与解码器层次结构,可以编码局部几何与语义信息和全局依赖关系,下采样方法使用了能够保持点云结构的最远点采样方法.如图3所示,在解码器部分输入点集通过数据输入模块经过四层编码器,点集的数量逐渐减少但特征维数增加.输入的点云特征除了其位置坐标外还输入了前文提到的3个几何特征,为了减少计算量在第一层编码层中使用预先计算好的几何特征,此特征通过半径为0.05 m的邻域计算得出,在后三层中通过基于KNN的邻域动态计算当前点云集合的几何特征.在解码器部分,使用上采样和跳跃连接操作来自编码器的特征,然后经过一维卷积操作进一步完成特征提取,在解码器第一层插入全局关系依赖性模块来增强点云的上下文关系.最后,通过一个全连接层(fully connected layers,FC)预测每个点的语义标签.
图3 GSFNet网络框架Fig.3 GSFNet network framework
2 实验结果与分析
实验配置的硬件环境为AMD5600XCPU、56 GB内存,GeForce RTX 3060显卡,12 GB显存;软件环境为Ubuntu20.04操作系统、Anaconda 2.1.1、Cuda为11.1、cudnn 8.0.4、pytorch 1.10.1 python 3.7.11.实验设置的超参数依据文献[11]的经验进行设置,其中epoch为100,初始化学习率参数为0.001,batch_size为16,使用SGD优化器,邻域k值为16.
2.1 实验数据集与分割评价指标
在公开数据集S3DIS上评估所提模型在真实扫描场景中的性能.S3DIS是斯坦福大学大型室内场景数据集,由Matterport扫描仪获取的3座不同建筑物中的6个区域共271个房间的彩色点云组成.输入数据的每个点由12维向量组成(xyz、归一化的RGB、标准化的房间坐标和上文提到的3个几何特征),并且带有13个类别的语义标签(天花板、地板、墙壁、门、窗、桌子等),任何不属于其余12类元素的点云都被认定是其他类.按照文献[11]将室内数据分割成彼此重叠的1 m×1 m×高度的方块,并且从中随机抽取4 096个点.由于区域5的环境风格和与其他5个区域区别较大,且没有与其他区域重叠,包含的物体与其他区域有所不同,所以选用其作为测试数据集可以评估模型的可泛化性,剩余区域为训练数据集.在测试数据时,参照文献[12]进行随机缩放投票测试,然后结果取平均值.数据增强包括随机水平旋转、抖动和缩放点.对于评估指标,使用总体精度(overall accuracy,OA)、每一类的交并比(intersection over union,IoU)和平均交并比(mean intersection over union,mIoU).mIoU需要对所有类别的IoU求平均值,其中IoU的定义为
(8)
其中: TPi为网络正确预测第i类地物的点数;FPi为预测为第i类,但实际不是第i类的点数;FNi为预测为其他类,但实际为第i类的点数.
2.2 S3DIS语义分割结果分析
实验评估部分使用了语义分割算法中广泛使用的两个指标OA和mIoU.表1显示本研究的GSFNet与目前方法的对比结果,包括每个方法的OA、mIoU和不同方法实验结果的每一类别IoU.从表1可以看到,模型的mIoU值达到了61.1%,与经典的PointNet网络对比本文模型在室内语义分割中有明显优势.对比其他网络本研究模型在分割精度上也有更加优秀的结果,与整个场景作为输入的超点图SPG结果相比,提高了3.1个百分点,证明了所提模型的有效性;本研究所提模型充分利用了几何与语义特征且兼顾全局上下文,在大多数类别的IoU中取得较好结果,尤其在桌子、沙发和木板等物体上;天花板、地板、椅子等的分割精度与目前方法较为接近;但对于杂物类别还有待提高,由于其本身形状多变,几何特征信息容易与其他物体混淆,本研究模型分割效果较差.
表1 S3DIS中Area-5区域点云数据集语义分割结果
室内场景的风格多样有办公室、会议室、卫生间和大堂等,而且场景中存在同一种类别不同几何结构和不同类别可能具有相似形态的情况,物体之间相互叠加遮挡,因此室内场景的语义分割具有挑战性.图4显示了所提出的模型在室内数据集S3DIS上的语义分割结果,对本研究所提模型选取了5个典型场景进行了比较,可更好地展示结果删去房间的一些天花板和墙壁,并且与原始RGB点云、语义分割真值图和文献[11]实现的PointNet++进行对照.例如,在office_23的橙色框中本研究方法相比于PointNet++在门和书架的分割较为完整;红色框处于多种室内地物密集处,在PointNet++中可以看到其他类、窗户、墙壁和桌子边界模糊,各个地物独立性较差,模型能够较为清晰地分割出地物轮廓,不过对于柱的分割不够理想.由offic_23的RGB图可以看出柱和墙容易混淆,柱大多数情况下是位于墙上的,而且其均为垂直于地面上,墙在拐角凸处容易产生与柱相似的几何形状.在office_35和conferenceroom_3的红框中本研究模型对于杂物中形似木板的挂墙规则物体的形状边缘分割良好,基本保持了原有的矩形特征.室内地物中的墙、木板、窗、其他物、门等分割较难,与桌子、椅子、沙发等相对独立的地物不同,彼此相交或重叠,物体几何形状相似大多为立方体,如在hallway_14的红色框中的垃圾桶与office_35中橙色框中的书架相似导致其容易互相错分.本研究模型的分割结果与真实值较为接近,大部分类别分割准确,本研究模型与PointNet++相比,能够更准确地分割室内物体,PointNet++在一些物体的边缘和细节上分割效果不太理想容易出现多类杂糅边界模糊不清,本研究模型与其相比有很大程度的改善,对于训练样本量较多、相对简单的办公室、门厅环境分割准确,对于训练样本较少复杂的会议室、大堂等分割总体相对不错.以此看来本研究模型能够适应不同复杂室内点云场景,可以进行有效分割.
图4 S3DIS中Area-5语义分割可视化效果Fig.4 Area-5 semantic segmentation visualisation in S3DIS
2.3 消融实验
表2 针对S3DIS中Area-5区域不同模块消融实验结果
为了验证几何与语义融合模块和全局关系依赖性模块的优越性,对模型的主要模块进行拆分并在S3DIS的区域5上进行实验对照.实验结果如表2所示,baseline方法为PointNet++网络,本研究的方法优于baseline方法,OA和mIoU分别提高了1.6%和4.1%.全局依赖性模块的作用是自适应计算全局空间中点与点之间的关系,从表中可以看出,删除全局关系依赖性模块(noGRD)导致了性能下降,mIoU下降了1.2%,这表明,通过收集上下文信息提高了网络的学习特征准确率.在删除几何与语义特征融合模块(noGSF)后,模型性能有明显的下降,mIoU下降2.5%,说明几何与语义特征融合模块对提取有效特征起着关键作用,其产生了丰富的细粒度几何与语义特征进行分类.
3 结语
本研究分析了复杂室内环境点云语义分割的方法,在PointNet++网络基础上添加新的模块强化了几何与语义特征信息学习,提出了一种新的GSFNet网络.在局部邻域中,动态计算每个点在不同编码层中的先验几何特征,分别设计了针对几何与语义特征的卷积算子,充分提取点云邻域的几何特征和语义特征中的有效信息;在全局邻域中,利用全局关系依赖性模块强化对象之间的长程关系.本研究所提出GSFNet网络在S3DIS数据集中的区域5进行测试,取得了较好的分割效果并进行各类地物分析.但由于本研究模型引入了先验几何特征信息,需要在网络动态中计算耗费大量计算资源,GSFNet网络对于S3DIS区域5的测试运行时间为PointNet++网络的5.41倍,所花时间较长,后续将尝试通过优化计算量和增加新的合适几何特征上如法向量等,优化实时应用程序的效率,综合不同网络框架的精华之处,并将网络推广到实例分割、对象检测等任务中.