卷积神经网络支持下的建筑物选取方法

2023-10-13安晓亚朱余德晏雄锋

测绘学报 2023年9期

安晓亚,朱余德,晏雄锋

1. 西安测绘研究所,陕西西安 710054; 2. 地理信息工程国家重点实验室,陕西西安 710054; 3. 广东国地规划科技股份有限公司,广东广州 510650; 4. 同济大学测绘与地理信息学院,上海 200092

地图综合是制图工艺的重要环节,旨在解决有限图幅空间与复杂表达内容之间的矛盾。建筑物作为地图表达内容的重要组成部分,一直是地图综合研究的重要对象。地图比例尺变小后,建筑物的符号图形可能出现拥挤、压盖等视觉冲突问题,从而破坏地图表达的清晰可读性[1]。针对这一问题,需要组合运用选取、合并、移位、化简等多种操作进行处理。其中,选取操作表现为保留部分具有代表性的建筑物目标,通过减少目标数量以缓解图形表达的冲突现象。著名的开方根定律[2]回答了选取过程中“保留多少”的问题,但是无法解决“保留哪些”的问题。对于后者,不仅需要考虑个体建筑物的重要性,还需要顾及群体的分布模式以及目标间的空间关系不被破坏,整个过程涉及复杂的上下文特征分析与决策,是建筑物综合中的关键难点问题。

早期研究提出了空间比率法、分布系数法、重力模型法、圆增长法等[3-4]居民地选取模型。这些方法主要面向中小比例尺的点状居民地目标,重点考察语义指标(如行政等级、人口规模),对目标间的空间关系考虑不够,应用到建筑物目标选取时容易破坏群体呈现的分布特征。针对该问题,计算几何方法被引入作为结构和关系控制以实施选取,例如文献[5]运用最小生成树对建筑物进行分组,针对不同分布模式的群组采用不同的处理策略;文献[6]采用Delaunay三角网建立建筑物的空间邻近关系,通过三角形网眼的渐进式合并重构实现建筑物选取;文献[7]利用Voronoi剖分图描述建筑物的分布范围、分布密度、分布中心与轴线特征,并提出动态选取方法;文献[8]考虑了将专题信息融入选取过程;在该基础上,文献[9]提出适宜网络环境的在线式选取方法。此外,相关学者针对直线型[10-11]、网格型[12]等不同模式的建筑物目标群,从保持局部分布特征的角度设计了不同选取策略。

机器学习技术也被引入以实现智能化建筑物选取方法。例如,文献[13—14]利用自组织神经网络的空间降维能力实现建筑物目标选取;文献[15—16]结合群目标选取的一般性原则与生物进化过程中的适者生存规律,设计了利用遗传算法的选取模型;文献[17]将建筑物目标表达为图结构,通过图节点之间的信息传递筛选出具备代表性的目标。总体而言,这些方法在提升建筑物选取的智能化水平上取得了一定进展,但是在选取规则及参数设置的合理性及模型的普适性方面仍然面临挑战。

建筑物选取质量评价也是关注的重点问题,现有研究主要从重要目标、典型特征、分布密度保持,以及与其他要素的关联关系[18]等方面,采用定性和定量的方法进行评价。例如,文献[13]通过比较选取前后建筑物分布密度变化情况来评价,其中每个建筑物的密度定义为对应Voronoi多边形面积的倒数;文献[16]从局部约束和上下文关系保持进行评价;文献[19]则考虑了建筑物的面积、数量、密度上的变化,其中密度通过落在建筑物中心的圆圈来计算。总体而言,虽然相关学者在选取质量评价方面开展了大量研究工作,但是针对分布密度等方面的计算方法和度量指标仍不统一,有待进一步探索。

近年来,图卷积神经网络(graph convolutional network,GCN)作为一种新兴的深度学习技术取得了快速发展[20]。GCN不但具备传统深度学习网络从样本数据中学习知识、捕获高层次特征的能力,更重要的是能处理节点邻域非规范化的图结构数据,极大地扩展了学习架构的应用范围。正因为良好的兼容性,相关学者也将GCN及其变体引入了地图目标特征分析任务,例如道路网络分析与特殊设施探测[21]、建筑物群模式识别和城市功能区划分[22-23]、建筑物形状编码与分类[24-26]等任务。本文提出一种基于GCN的建筑物综合选取方法,该方法一方面通过几何图结构来有效表达和集成选取过程中需要考虑的多种上下文因子,另一方面利用GCN的特征表征能力来分析建筑物之间的邻近关系及空间分布特征,形成具备综合选取决策的学习模型,克服传统方法在模型普适性方面的不足。其基本过程是:首先,利用Delaunay三角网在空间邻近关系建模方面的优势,构建以建筑物目标为节点、建筑物邻近关系为边的图结构;然后,提取建筑物目标的大小、方向、形状特征作为对应图节点的描述特征;最后,采用半监督学习方式训练GCN,使之具备决策单个建筑物保留与否的能力。

1 方法

本文方法的基本思想是将建筑物的选取问题转化为图神经网络中的节点分类问题,即节点选取或舍弃。总体框架如图1所示,包括以下主要步骤。

图1 基于图卷积神经网络的建筑物选取总体框架Fig.1 Framework of building selection using graph convolutional networks

(1) 图结构建立:利用Delaunay三角网将待选取的目标群构建为一个图,其中每个图节点代表单个建筑物,节点间的边(即三角网的边)表示建筑物之间的邻近关系。

(2) 图卷积特征计算:计算建筑物的形状、大小、方向、密度作为对应图节点的特征,利用基于图傅里叶变换的卷积运算处理图节点特征,提取图节点隐含的高阶特征。

(3) 半监督图节点分类:采用半监督学习方式训练GCN模型,即基于部分标注节点的学习判断每个图节点所代表的建筑物是选取或舍弃。

1.1 图的基本概念

图G=(V,E,A),是一种描述对象及其关系的数据结构,其中V={v0,v1,…,vn-1}是n个节点构成的集合;E是连接节点的边的集合;A是n×n的邻接矩阵,表示每对节点之间边的权重。每个节点可包含一个或多个特征,即图信号f。

1.2 建筑物图结构的生成

图2 建筑物的图构建Fig.2 Graph construction for buildings

注:SBR为最小外接矩形。图3 建筑物描述特征计算Fig.3 Feature computation for individual buildings

(1)

(2)

(3)

(4)

式中,N表示建筑物的节点数量;Ri表示建筑物第i个节点到建筑物中心点的距离;Ach表示建筑物凸壳的面积;Av表示建筑物目标所在Voronoi图多边形面积。

1.3 图卷积特征计算

本文采用基于图傅里叶运算的卷积运算来处理上述构建的图及其节点特征,以提取高层次特征用于后续节点分类决策。对于一个图信号f,即节点的某一个特征,其卷积运算表示为相对于拉普拉斯矩阵L的K阶切比雪夫多项式[22],计算为

(5)

上述卷积运算仅限于矩阵之间的运算,因此计算效率极高。同时,其通过L的K阶切比雪夫多项式可以实现每个节点K阶局部邻域的卷积运算,即节点的变量值不是与全局节点相关而只和它的K阶邻域内的节点相关,这个过程可以理解为对每个节点的K阶邻域内的节点变量值的加权求和,与常规卷积运算的过程相似。

1.4 半监督图学习模型

基于上述卷积运算可以构造半监督学习的GCN模型,从而处理输入的图信号并实施图节点的分类操作。GCN模型通过叠加多个卷积层形成,通过逐层传播提取图节点隐含的高层次特征[29]。其中,第l+1层隐藏层的第j个图的计算为

(6)

图4展示了一个示例的GCN架构,由输入层、图卷积层和输出层组成。输入的图结构由12个建筑物构建,每个节点提取7个特征后得到12×7维特征向量,即输入图信号。通过卷积层运算后,得到12×m维特征向量,其中m表示节点的特征维度,即该层中卷积核数量,其值可根据样本数量和计算量进行设置。最后一个卷积层采用2个卷积核,并利用Softmax函数输出12×2维预测概率向量,以表示每个节点分类(即保留或舍弃)的概率值。如果某一节点的保留概率较大(即大于0.5),则该节点对应的建筑物目标予以保留;否则,予以删除。确定选取的建筑物目标后,进一步依据地图综合规则对目标形状进行化简[30],面积较小的目标表示为小矩形,面积较大的目标则表示为简化后的形状轮廓,最终输出处理结果。

图4 建筑物选取的图卷积神经网络架构Fig.4 Graph convolutional network architecture for building selection

GCN模型采用半监督方式进行训练,即通过对少量有标签数据进行学习,来预测大量的无标签数据。与监督学习相比较,由于只需标注少量数据,降低了人工标注成本。每个节点的输出包括两个部分:节点预测概率值Z及标签值y,标签值y记录节点保留与否,保留则取[1,0],否则取[0,1]。模型的学习目标为最小化Z与y之间的差异,即损失值J,通过交叉熵计算

(7)

训练过程即根据损失值J相对于模型参数(即多项式系数θi,jk和偏置量bj)的偏导数,按照给定的学习率对其进行不断更新,直至稳定。半监督学习中,模型仅利用一部分节点的标注。具体来说,GCN将所有图节点作为输入,包含有标签数据(训练集)和无标签数据(测试集),但在计算损失值时,仅对比有标签数据的损失值,跳过无标签数据。由于每次利用有标签数据更新参数后,无标签数据的预测值也随之更新;最终,当有标签数据的损失值最小化后,无标签数据的预测值也更新完成,并作为模型输出实现节点分类预测。

2 试验分析与评价

试验数据如图5所示,区域范围约为2.7 km×1.6 km,包含907个建筑物。在选取过程中,少数具有重要意义的建筑物目标(如学校、医院等)需要优先保留,它们在形状上往往较为复杂、面积也相较于其他目标更大。在试验数据集中,通过综合考虑建筑物目标的面积是否大于1200 m2,视觉上形状是否相对复杂,或者语义上表达是否为酒店或学校等因素,最终人工标注出了33个重要建筑物,在图5中用红色符号表示。需要注意的是,目标是否具有重要性意义并不作为本文模型的输入特征参与选取决策,而是用于后续选取结果的评价。试验设置了两个不同的选取比例,分别是30%和60%。综合考虑学习性能和样本标注工作量,每个选取比例下都随机选择25%的建筑物人工标注保留或舍弃,并以此作为训练数据训练GCN。

图5 试验数据Fig.5 Experimental data

上述907个建筑物在提取特征得到907×7维特征向量,作为GCN输入。不同选取比例试验中,GCN均包含2个卷积层。根据前期预训练结果并考虑模型训练效率、精度等因素,学习率、dropout值和学习率衰减系数在选取比例为30%时,分别设置为0.000 1、0.1和0.001;在选取比例为60%时,分别设置为0.000 5、0.1和0.000 1。图6显示了训练过程中精度、损失值的变化,发现模型经过8000轮训练后逐渐收敛,测试精度达到70%以上。需要指出的是,受模型参数初始化、dropout机制等影响,模型存在一定随机性,即每次训练输出的结果存在极少数保留目标不一致的现象,但这对整体选取结果影响并不大。

图6 GCN方法训练过程中的精度与损失值变化Fig.6 Change in accuracy and loss value during training the GCN method

基于Mesh的选取方法[5]和基于SOM的选取方法[12]被用于验证GCN方法的有效性。Mesh方法是考虑目标邻近关系实施选取的代表性方法,其以建筑物为节点构建Delaunay三角网,不断寻找含有最短边的三角形网眼并将关联节点与邻近节点进行融合,直至剩余的节点满足预设选取数量条件。SOM方法则是传统神经网络实施建筑物综合的典型代表,其借助竞争型神经网络对输入建筑物进行空间分布上的拟合,其中每个输入神经元属性设置为建筑物中心点坐标,输出神经元数量设置为保留建筑物的个数。

图7展示了3种方法在不同选取比例下的输出结果。整体上,3种方法都能够依据预设的数量控制关系实施有效的选取操作,选取结果一定程度上保留了原始目标的空间分布特征。对比发现,GCN方法在一些局部区域具备一定优势,例如图7(b)、(d)、(f)矩形框所示区域选取30%的结果中,原始建筑物分布较邻近区域更为密集,本文的GCN方法在该区域保留的建筑物相对更多,而其他两种方法对该区域的建筑物则相对舍弃过多。

图7 采用不同方法产生的建筑物选取结果Fig.7 Results of building selection using different methods

表1对比了不同方法对于重要建筑物的保留情况。当选取比例为60%时,GCN方法输出结果中保留了93.9%的重要建筑物目标,而Mesh和SOM方法则分别保留了90.9%和87.9%;当选取比例为30%时,GCN方法保留了84.8%的重要目标,而Mesh和SOM方法仅保留了75.8%和66.7%。例如图8中,A和B两个相邻分布的建筑物均具有较大面积,相对周围其他目标具有重要性意义。Mesh和SOM方法都只保留了其中一个目标,而GCN方法中两个目标都得到保留。分析可能的原因是Mesh和SOM方法主要关注建筑物目标的位置信息及空间分布关系,未考虑建筑物目标的个体差异,导致部分具有重要性意义的目标被舍弃。GCN方法则将面积、形状等一定程度上能够反映建筑物目标重要性的指标作为图节点的特征,并通过卷积运算实现相邻目标间的分析比较,从而更好地考虑目标的重要性差异信息。

表1 不同方法对具有重要性意义建筑物的保留

图8 典型区域不同方法选取结果比较(选取比例为30%)Fig.8 Comparison of selection results using different methods in a typical area (30% selection ratio)

本文从选取前后建筑物分布密度的变化方面来评价选取结果。具体地,将建筑物分布区域均匀地划分为N×N个网格,定义每个网格区域的建筑物分布密度如下

(8)

式中,Di表示第i个格网内建筑物的数量。

图9展示了选取前后建筑物的分布密度图,其中N取值为10。可以发现,本文方法在两种选取比例条件下均较好地保持了原始建筑物的分布密度特征。对于Mesh方法,在选取比例为30%时,图9(g)矩形框内出现密度差异显著的现象(即部分格网相比较邻近网格密度显著升高);而在原始密度图中,该区域网格的密度差异并不显著。对于SOM方法,当选取比例为60%时,图9(d)矩形内的格网颜色较浅,表明该区域内建筑物数量保留较少,这与原始建筑物分布密度特点不相符合。

图9 不同方法选取结果的密度图比较Fig.9 Visual comparison of building densities before and after selection

进一步地,本文定义密度差指标(relative density difference index,RDDI)来定量化分析选取前后密度的变化,计算为

(9)

表2列出了2种不同选取比例下采用3种不同方法实施选取后的RDDI值。可以发现,本文方法产生的RDDI值均低于其他2种方法,表明本文方法能够从整体上更好地保持建筑物目标原有的空间分布特征。该结论也与定性化分析得出的结论一致。

表2 不同方法选取结果的密度变化情况

3 结论

本文提出了一种基于图卷积神经网络的建筑物选取方法。该方法借助Delaunay三角网构建建筑物目标的图结构,并提取建筑物目标的特征作为图节点的特征。在此基础上,将建立的图结构输入到GCN进行卷积特征计算,并采用半监督学习的方式训练网络,最终预测每个图节点对应建筑物目标的取舍。采用真实数据进行试验,结果显示:对比Mesh和SOM方法,GCN方法在保留重要建筑物目标的同时也能够较好地保持原有的空间分布特征。这表明GCN模型能够有效集成建筑物目标的多种上下文因子,通过卷积运算提取高层次特征,继而从标注样本中有效学习选取规则。

本文方法仍依赖较大规模的训练数据才可以取得比较好的表现,因此需进一步拓展模型结构设计和学习训练方法方面的研究,降低模型对样本的依赖性。后续研究方向包括:①考虑建筑物语义信息,构建更加完备的上下文特征体系,提升选取决策能力;②发展新型的网络学习模型,考虑跨层连接等设计方式,提升高层次特征的抽象提取与表达能力;③深入挖掘GCN对每个建筑物输出的概率值,该值一定程度上体现了建筑物目标的重要性排序,因此可以考虑以此为基础发展目标选取与其他综合算子协同或者集成的综合模型。