基于RandLA-Net的机载激光雷达点云城市建筑物变化检测

2022-12-23孟琮棠赵银娣韩文泉何晨阳陈锡秋

自然资源遥感 2022年4期

孟琮棠, 赵银娣, 韩文泉, 何晨阳, 陈锡秋

(1.中国矿业大学环境与测绘学院,徐州 221116； 2.南京市测绘勘察研究院股份有限公司，南京 210019)

0 引言

建筑物是城市中的重要主体，在一定程度上反映了城市的发展规模。准确获取建筑物变化信息对于城市发展规划、非法建筑物识别、灾害评估和地理数据库更新等实际领域中具有重要的作用与意义。利用遥感手段对城市建筑物进行变化检测可以快速准确地获取建筑物的变化信息，借助机载激光雷达(light detection and ranging，LiDAR)点云数据可以实现建筑物的三维变化检测，本文三维变化检测意在获取建筑物在三维空间中面积与高程的变化，包括水平面上的新增、拆除以及高度方向上的增高、降低的变化位置与面积。

多年来，研究者们持续挖掘点云在变化检测中的潜力，并发展出了多种检测建筑物三维变化的方法，如基于2期数字表面模型(digital surface model,DSM)差分结果进行人工解译[1]、直方图统计[2]、连通性分析[3]等确定发生变化的建筑物；或分别对2期点云的DSM通过边界拟合[4]、高度与平整度分析后聚类[5]等方法提取建筑物后，再差分进行变化检测；通过先提取点云中的非地面点，再利用影像与分类树提取建筑物后，与现有地理数据库对比的方法[6]；通过影像数字制图产品与激光雷达(light detection and ranging,LiDAR)点云经过支持向量机(support vector machine，SVM)提取建筑物后对比的方法[7]；使用航空影像密集图像匹配点云与LiDAR点云建立差分DSM提取变化信息后，再使用点云法线方向方差的方法确定变化的建筑物[8]。可见在这些方法中，获取变化建筑物主要有2种手段：提取建筑物后再检测变化；先确定变化候选区域，再确定属于建筑物的变化。而上述方法存在的问题在于：将点云转换为其他规则格式数据易造成信息丢失，局部点甚至更大尺度点云间的关系被忽略；没有充分利用点的强度和光谱信息特征；自动化程度低，需要较多的后处理分析来改善精度。

随着近年来深度学习技术的迅速发展，图像处理算法层出不穷[9-15]，且在遥感影像分类与目标检测等任务中的表现优于多种传统方法[16-20]。点云语义分割方法同样发展迅速[21]，既有以PointNet[22-24]为代表的适用于室内场景点云的语义分割算法，也有适用于大规模点云的RandLA-Net[25]，但利用深度学习方法进行点云的变化检测却少有研究。

本文采用深度学习与分类后检测的方法研究基于机载LiDAR点云的建筑物三维变化检测，与当前主流点云变化检测研究不同的是： ①引入基于深度学习的点云语义分割网络RandLA-Net，快速准确地提取建筑物； ②结合本文的建筑物提取方法，设计了针对本文异源点云数据的处理方法，以减少点云间的差异，保证变化检测的精度； ③充分考虑局部点间的结构与距离特征，加入LiDAR点云的反射强度特征与影像赋予的光谱信息作为语义特征，以提高建筑物提取的准确率。

1 研究区数据采集与标注

1.1 研究区概况与数据源

研究使用的机载LiDAR点云，与车载LiDAR不同之处在于：飞机在一定高度飞行，点云密度较为一致，而车载LiDAR主要为获得较近处的点云，点云密度相较于机载雷达高，但远近点云的密度不同，且点云规模较机载点云规模小。选择南京市部分区域为研究区，地理坐标在N32°2′26″～32°4′8″，E118°34′17″～118°36′21″之间。通过航空机载LiDAR分别采集研究区2017年3月2日及2019年4月6日的点云数据，获得包含地物位置信息以及反射强度的点云，2017年与2019年点云密度分别为1点/m2与16点/m2，点数量分别为10 428 812与181 208 261个点。点云数据示例见图1。

(a) 示例1 (b) 示例2 (c) 示例3 (d) 示例4 (e) 示例5图1 LiDAR点云数据示例Fig.1 Examples of LiDAR point cloud data

1.2 数据集制作

2期点云数据由不同的LiDAR传感器获取，其点云的不同主要在于点云密度与反射强度的值域。由于RandLA-Net在获取局部点信息时，使用了K最邻近(K-nearest neighbor，KNN)算法，并固定了最邻近点的数量，导致在点云密度不同的情况下获取的局部信息存在差异，进而在较小样本上进行训练时，网络损失与精度曲线难以收敛。因此使用稀疏的2017年点云进行训练，并对2019年点云下采样(图2)，使得2期点云密度相同，以保证异源数据的语义分割精度，但是，本文使用网格采样的方法，采样后的点云结构同样存在差异，2017年获取的点云是完全无序的，而2019年点云在采样后则存在着一定的有序性，其表现为点云呈网格状排列。其次，2期点云的反射强度值域不同，2017年点云值为1～6的整数，2019年点云为1～65 535的整数，本文将2019年点云强度值线性映射至2017年的反射强度值域。

(a) 2017年 (b) 2019年图2 采样后点云结构Fig.2 Point cloud structure after sampling

点云数据集基于MicroStation的Terrascan软件，结合航拍影像判读，对研究区内建筑物点云进行目视解译并人工标注。由于实验用的点云重复区域较多，因此仅将2017年点云数据进行数据划分，其中2期点云5%的区域用于测试，并将2017年点云其他部分按4∶1的比例划分为训练集与验证集，2019年点云数据不参与训练，仅用于测试。

数据集的格式参考点云语义分割数据集Semantic3D格式标准[26]，以方便研究与使用时数据集格式的统一。点云数据集包含有标签、坐标、反射强度和光谱信息，标注后的点云数据集如图3所示。

(a) 示例1 (b) 示例2 (c) 示例3 (d) 示例4 (e) 示例5图3 点云数据集示例Fig.3 Examples of point cloud dataset

2 研究方法

传统的使用点云数据进行变化检测，往往基于DSM差分的方法，依赖于高程与手动调整阈值提取建筑物与其变化信息，忽略了较多的局部信息与点云特征，且自动化程度低，结果易与树木混淆，导致低矮建筑物检测结果不佳。针对这些问题，本文引入基于深度学习方法的RandLA-Net点云语义分割网络提取建筑物，利用点云坐标、局部点的位置关系、强度、光谱信息，快速、高精度、自动化地提取建筑物。结合分类后检测的变化检测方案，比较前后时期点云语义分割结果，定性与定量地获得目标区域地物范围与高程的变化。同时，本文还通过实验研究了不同特征的组合对最终结果的影响，提出了不同情况下的应用建议。

点云具有无序性的特点，以及前后时期点云数据密度大多不同，无法实现2期点云的分割结果的直接差分进行变化检测。因此本文结合影像差分的思路，将RandLA-Net网络提取出的点云建筑物通过正射投影的方式，按照相同的空间分辨率投影为包含建筑物高度信息的灰度影像。投影时根据点云的尺寸以及设定的空间分辨率自动计算点云每点坐标与影像像素坐标的转换公式，获得每点对应的像素坐标，像素值为该像素内所有建筑物点的最大Z值，非建筑物目标像素值为0；然后通过2期结果差分前后的状态与差分后的值定性定量地判断建筑物目标在三维空间上的变化。其中，假设前一时期的投影结果对应像素值为A，后一时期为B，则差分时的评判规则为：若B>A，且A=0，则该位置为新增建筑物；若B>A，且A≠0，则为增高；若B

2.1 RandLA-Net算法结构

RandLA-Net结构遵循具有跳跃连接的编码解码思想。其结构如图4所示，点云不同于影像在于无法通过卷积核的遍历影像提取特征，因此在点云的语义分割算法中，其基本单元为多层感知机(multilayer perceptron，MLP)。在编码端，点云通过每一层的局部特征聚合(local feature aggregation，LFA)算法丰富与学习点的特征，并使用随机采样(random sampling，RS)减小点云的规模，每次保留25%的点云数量，每一层的特征维数为(8，32，128，256，512)。解码端使用每个点与KNN获得最邻近点的线性插值方法进行上采样(up-sampling,US)，通过跳跃连接与编码端的特征图叠加，然后输入共享的MLP进行特征降维。最后，3个全连接层(fully connected layers,FC)与Dropout层用于预测每个点的类别。

图4 RandLA-Net整体结构图Fig.4 RandLA-Net overall structure

2.2 LFA算法

LFA算法是RandLA-Net结构的核心，主要由3个模块组成，包括局部空间编码(local spatial encoding，LocSE)、注意力池化(attentive pooling)与扩张残差块(dilated residual block)，LFA的模块结构如图5所示。

图5 LFA模块结构Fig.5 LFA module structure

2.2.1 LocSE

(1)

式中⊕表示两者串联拼接。经过MLP编码后的特征数为d，并与原始输入的特征叠加。最终的输出是该点K个2d长度的特征信息。

2.2.2 注意力池化

注意力池化模块用于聚合点的局部特征。LocSE获得的局部点特征，经过可学习的FC与Softmax激活函数获得每个邻近点特征的得分作为输入邻近点特征的权重，对所有邻近点特征加权求和后获得该点2d长度的特征，在经过MLP后，获得该点最终池化后的特征。

2.2.3 扩张残差块

为了处理大规模的点云，RandLA-Net采用了随机采样的方法对编码端的点云进行下采样，因为其具有时间与空间复杂度低的特点，高效且占用内存小。但是随机采样有几率造成关键点信息的丢失，因此使用扩张残差块模块对LocSE、注意力池化与MLP进行堆叠，增加每个点的感受野，降低随机采样丢失关键点信息的影响。

在扩张残差块中，将LocSE与注意力池化模块进行多次堆叠，并在每次进行LocSE前将点的位置信息加入。同时在输入前与输出后馈入MLP，以获得必要的特征数，并将堆叠后的输出特征与输入点云经过MLP处理后的特征相加，获得最终的聚合特征。

3 实验与结果分析

3.1 实验环境与各项参数

本文的实验环境为I5-8400处理器，内存大小16 G， NVIDIA GeForce GTX 1080Ti 11 G显卡，使用CUDA 11.0 加速GPU计算，深度学习框架为基于Python 3.5.6的TensorFlow-GPU 1.11.0。实验准备数据采样为1点/m2的点云，模型使用的最邻近点K值为16，单次输入点数为40 960，初始学习率为0.01，动量为0.95，模型迭代次数为100。点云的预处理与数据集的制作主要基于MicroStation上的TerraScan软件，点云投影影像空间分辨率为1 m。

3.2 LiDAR点云建筑物提取

从LiDAR点云中准确提取建筑物有着诸多干扰，首先是低矮建筑物高度往往低于周边的高大树木，因此在提取过程中，单纯考虑建筑物的高度常会混淆树木与建筑物的提取结果，同理，在地形地势起伏较大的区域，也存在着这种问题，因此建筑物中点与点之间的关系信息不能忽略。同时，在考虑点与点之间关系时，往往受困于建筑物不同的几何结构，而人工寻找并定义这些结构费时费力。另一方面，可以借助LiDAR点云的反射强度信息作为辅助信息，在同一栋建筑物上的反射强度常常具有一致性，但是不同建筑物仍然会表现不同的强度信息，甚至与周围地物强度一致，所以无法单独作为判断的依据。再者，点云也可以结合影像的光谱信息作为辅助特征，本文则基于以上信息，分析了不同方法以及不同特征对建筑物提取以及变化检测结果的影响。

使用RandLA-Net结合不同的点云特征提取2时期异源点云中的建筑物，并同时使用传统基于DSM高程阈值的方法与基于软件ENVI LiDAR和TerraScan的建筑物提取方法进行了对比。在基于DSM的方法中，为了尽可能获得最好的结果，对每一块区域单独设置基于人工判断的高度阈值，包括最低、最高与分段的高度阈值。测试区域选取了2017—2019年变化较大的区域，并存在着不同形态的建筑物，如矮于树木的低矮临时建筑物、形状不规则的楼宇以及常见的小区住宅楼等。为了直观表达建筑物提取结果以及便于精度评价，将点云垂直投影为二维图像，并通过分级色彩表达建筑物的高程信息，如表1—2所示。其中，RandLA-Net代表本文使用的方法； I代表训练与测试时，除坐标外使用了反射强度信息作为特征； RGB表示结合了后期赋予点的光谱信息作为特征； IRGB则表示同时加入了强度信息与光谱信息； C代表该数据中每一点云块的坐标转换为最小坐标为0的相对坐标。

表1 2017年点云建筑物提取结果Tab.1 Point cloud building extraction results in 2017

表2 2019年点云建筑物提取结果Tab.2 Point cloud building extraction results in 2019

由建筑物提取结果可以看出，使用RandLA-Net算法提取建筑物在2017年与2019年2期点云数据上的结果完整度高，漏检与错检的情况少，并且可以很好地区分低矮建筑物与树木，如图6所示，其中深绿色表示建筑物，红色表示树木，对应表1第一行结果。尤其坐标转换后的点云建筑物提取精度提升明显。

(a) 低矮建筑物与树木 (b) 局部放大图6 低矮建筑物与树木区分Fig.6 Low buildings and trees

一方面，使用传统方法时，本文未对原始点云进行下采样，由TerraScan提取的建筑物在稀疏与密集的点云上表现较为一致，但是目标的边界准确度低，存在着较多的错检情况；而ENVI LiDAR的结果受点云密度影响较大，难以有效提取2017年点云的建筑物；使用人工DSM设置高程阈值的方法简单，且不受点云质量差异的影响，但是高耸的树木与地形的起伏使得在处理时要面对树木与低矮建筑物的取舍，同时，为了避免较多的误差，分区域地设置阈值人工成本高，自动化程度低。

另一方面，在使用RandLA-Net算法时，对比了4种情况，考虑到LiDAR点云数据普遍带有反射强度信息，且在早期测试中的结果也反映出带有特征的点云比单纯使用坐标信息的结果要好，因此本文并没有单独使用坐标信息。在设置的组合中，最值得注意的是，在同样只使用强度信息作为特征时，将坐标转换为相对坐标带来的提升效果明显，尤其在对低矮建筑物的提取上，使用相对坐标则有着更完整的建筑物个体与更为准确的建筑物边界。基于RandLA-Net的结果明显好于其他方法，其误差主要在于建筑物本身上，很少存在将树木或其他地物错分为建筑物的情况。精度对比如表3所示。

表3 建筑物提取方法精度对比Tab.3 Accuracy comparison of the building extraction method

由表3计算出的各项指标可以看出，基于RandLA-Net算法获得建筑物区域的各项指标均优于ENVI LiDAR，TerraSacn以及DSM高程阈值的方法。对比不同特征的影响，在2017年点云上进行的训练，并同时对2017年与2019年点云进行测试，结果是： 2017年点云同时使用反射强度与光谱信息的结果最好，2019年点云仅使用光谱信息结果最好，2期点云差异如图2所示。因此建议： ①在提取建筑物时，使用格网采样后的2019年点云，仅需加入光谱信息。考虑到LiDAR传感器大多无法同时获取光谱信息，或者相机参数未知及相机参数误差较大，无法利用光谱信息的时候，仅使用强度信息同样可以获得很好的结果，不建议同时加入强度和光谱信息； ②在处理质量较差的2017年点云时，其点云整体无序，则需要更多的特征，此时越丰富的特征带来的效果越好，正如结合了反射强度与光谱信息的2017年点云结果最好。

此外，点云差异如第1.2节所述，使用点的位置、邻近点的位置、2点的相对位置关系以及其欧式距离来表达坐标位置的特征。如图2(b)，越是规则的点云其相对位置关系的特征越是一致，这点在RandLA-Net原文中也有阐述。这也解释了在2017年点云上训练的网络在不同特征组合下，2019年的结果会比2017年结果更好的现象。

3.3 LiDAR点云建筑物变化检测

点云存在无序性的特点，以及2期点云获取的传感器不同导致的密度不同，无法直接使用点云间差分的方法进行变化检测，因此本文的思路是将提取建筑物后的点云投影为二维的灰度影像，使用灰度值表示建筑物目标的高度，投影后的二维影像进行差分获得建筑物的变化情况。变化检测结果如表4所示，其中不同颜色表示建筑物变化类型，面积与高度变化检测精度分别为1 m2和1 m，此精度决定于点云的密度。使用混淆矩阵评定建筑物变化检测的精度，如表5所示。

表4 变化检测结果Tab.4 Change detection results

表5 建筑物变化检测结果精度对比Tab.5 Accuracy comparison of building change detection results

(续表)

由变化检测结果与指标的计算结果可知，使用RandLA-Net方法获得的结果明显优于传统方法，其中使用光谱信息与相对坐标的点云获得最优的变化检测结果，而不是加入所有的特征。同时，使用相对坐标比使用绝对坐标的变化检测结果精度提升明显，而且在仅使用强度信息与相对坐标时的结果与最好的结果差异较小，这些与上一阶段提取建筑物结果的结论基本一致。

但是明显的问题是存在2期建筑物边界不完全重合的情况，即使在原始数据上也存在着边界的粗差，虽然对指标的计算影响较小，但是在实际应用时仍然有着一定问题。其主要原因在于：原始点云的差异，如图2所示的点云结构，使得2期点云表达的建筑物存在偏差。面对此种问题的处理可使用形态学的后处理方法，但本文为了表现实验过程中的真实性，并未进行过多的后处理。

4 结论与展望

为了同时实现建筑物的面积与高程定性定量的变化检测，使用机载LiDAR点云数据制作建筑物点云语义分割数据集，并基于深度学习方法RandLA-Net的点云语义分割网络提取建筑物，利用点云的语义分割结果投影为二维影像并进行分类后检测。本研究得出以下结论：

1)使用的RandLA-Net算法在建筑物提取与变化检测上的总体精度优于常用的软件与DSM分析的方法。

2)在对点云的数据预处理上，使用相对坐标要比使用绝对坐标结果好。

3)在对点云特征的取舍上，过多的特征会造成冗余，仅使用光谱或强度信息时获得的变化检测结果有时要好于两者结合的结果，结合成本分析，仅使用LiDAR点云特有的强度信息是最佳方案。

虽然使用的RandLA-Net算法获得了很好的建筑物提取与变化检测效果，但是仍然存在由点云差异而影响建筑物边界精度的问题。本文仅使用了较少的建筑物样本进行训练，且只使用了2017年的点云进行训练与验证，在之后的研究中会增加点云中目标的样本，通过上下采样增加点云结构化程度；同时优化算法与数据组成，提高模型在异源点云数据上的泛化能力，改善异源点云数据的变化检测精度；未来会加入点云法向量作为特征，进一步提高点云语义分割的性能。