基于街道相交角统计分析的居民地模式识别
2023-11-22吴常辉
吴常辉
(佛山市测绘地理信息研究院 广东佛山 528000)
1 引言
当前,从以往研究成果积累的数据中提取信息越来越受到重视,挖掘隐含的模式,设计基于大数据的算法,去解决以往难以解决的复杂问题。居民地是城市地图的核心要素,居民地的主要组成部分是建筑物和街道网,而街道网是居民地结构的决定因素[1]。居民地综合的前提条件是对其模式进行识别,这样才能确保在综合后保持原来的模式。居民地的结构分类方法较多,本文将居民地分为格网模式和非格网模式两类进行研究。实际上,除了格网模式,其他模式的居民地都可以归纳为非格网模式[2]。格网模式居民地的街道网,街道间近似正交,以往的研究中都视为理想的直角去研究,设计特定的算法,算法较为复杂,如机器学习、图论、神经网络等,这些方法推广性不强[3]。本文从实际的城市地图上采集街道网数据进行统计分析,提取街道相交角的数值,进行统计分析,获取阈值范围,作为格网模式识别的条件,用层次聚类的方法进行识别实验。
2 居民地模式识别文献分析研究现状
居民地图形概括、化简和合并前,必须识别其原有的模式,该问题一直是居民地研究的难点和热点问题。维普、万方和知网数据库中,检索2012-2021期间有关居民地分布的文献共1456 篇,检索2012-2021 期间居民地识别的文献共687 篇。重点文献梳理如下:
焦洋洋研究了居民地几何匹配质量评估[4]。结合居民地匹配质量评估特点,改进一般矢量数据质量评估中的缺陷扣分模型,得到了居民地几何匹配质量评估缺陷扣分模型,从而建立了居民地几何匹配质量评分评级模型;沈映政研究了居民地自动综合技术[5]。分析了居民地要素制图综合的主要内容和特征,针对区域地理要素差异制定概括方案,采用人工智能中的产生式规则方法将综合知识与综合操作相结合,进行居民地专题地理要素制图综合的研究;杨育丽研究了基于属性的城市居民地综合方法[6]。提出了用模糊综合评判模型来评判居民地属性的邻近性,判断一个居民地的合并取舍,以及与周围哪个对象进行合并,在VB 环境下进行程序设计,实现居民地属性邻近程度等级评价和居民地取舍判断的自动化;杨植、王丹研究了利用农村地籍调查成果更新地理信息公共平台居民地方法[7]。基于自动综合更新技术模式,完成同期城乡数据的衔接及整合,实现行政区划单元范围1∶10000DLG 居民地要素快速更新,为以后省级地理信息公共服务平台数据的快速更新提供新思路;杜凤艳研究了ArcGIS 环境下居民地属性综合[8]。基于ArcGIS 的Simplify Buildings、Find Building Conflicts 以及Elimination 等综合功能和SQL 语言完成了建筑物的简化、冲突建筑物的搜寻和小面积居民地的消除;李安平、翟仁健等研究了顾及空间结构关系的居民地自动合并方法[9]。将邻近居民地之间的空间结构关系区分为6种,重点针对正桥接型,通过定义邻近居民地之间的投影重叠线,判别和筛选桥接三角形,并对桥接部分进行直角化处理,使构建的桥接面与空间结构关系相适应;巩现勇、方圆研究了居民地聚类分析算法适应性对比[10]。针对常见的居民地群组模式聚类算法,展开对比研究,以探究算法的适应性。模拟实验和真实数据实验分别考虑特定分布、不同密度、不同形状、群组邻近、“颈”问题等多重环境。
从以上检索到的居民地分布和居民地模式识别代表性文献可以看出,人工智能、图论、神经网络等新兴的技术方法是目前居民地模式识别最为常用的方法,这些方法,大多是从特定的几个居民地中提取格网模式。但是,从大量实测数据分析入手,定量研究居民地形态特征的文献不多见。这为本研究的创新提供了可能性,本文将基于大量实测数据定量研究,运用层次聚类方法识别居民地的模式,实验分析结果可以为居民地模式识别提供有效方法,同时也将为其他地理要素模式识别提供技术和理论参考。
3 街道相交角统计分析
居民地的街道网最主要的特点是街道交错纵横,构成街道相交角,如图1 所示。已有的研究成果中,以几个典型的居民地的街道网作为研究对象设计算法,从实测数据的角度进行研究不常见。本研究中,先从城市地图上选取90 个居民地,50 个居民地是格网模式的居民地,40 个是非格网模式的居民地。从中任意选取两个不同模式的居民地作为示例,表1 是典型格网模式居民地的街道相交角统计(共35 个街道相交角,仅列出10 个),表2 是非格网模式居民地的街道相交角数据(共26 个街道相交角,仅列出10个)。对50个格网模式的居民地,计算统计其街道相交角的最大值、最小值和标准差。
表1 格网模式居民地街道相交角统计示例(单位:度)
表2 非格网模式居民地街道相交角统计示例(单位:度)
图1 格网模式居民地示例
统计50 个格网模式居民地的街道相交角,最大值是98.56度,最小值为80.56度,平均值为86.53度,标准差为2.45度。统计所得的街道相交角的平均值和标准差可以作为居民地模式识别的阈值范围使用。
4 居民地模式识别实验
(1)数据准备
为了验证方法的可行性,从城市地图上,另外采集40 个居民地,其中20 个为格网模式居民地,20 个为非格网模式的居民地。是否为格网模式的居民地,用“1”和“0”进行标注,分别求出40 个居民地街道相交角的平均值和标准差,如表3所示:
表3 40个居民地街道相交角数据统计(部分数据)
表4 层次聚类过程
表5 聚类成员表(部分数据)
(2)聚类分析
本文研究中,将居民地分为格网模式和非格网模式进行研究。统计出每个居民地所有街道相交角的平均值和标准差进行识别,采用层次聚类的方法进行实验。
层次聚类的原理是,以某种相似度作为参数,计算节点之间的相似性程度数值,并根据相似性程度数值以降序进行排列,重复连接节点。层次聚类最重要的优势是,划分随时可以停止,其主要步骤如下:
1)删除网络中的所有边,使n个节点孤立并保持初始状态。
2)以欧氏距离计算节点间的相似度。
3)以相似度从强到弱为标准,连接相应节点对,得到树状图。
4)以实际需求为依据,切断树状图,得到层次聚类谱系图。
对40 个居民地的街道相交角进行层次聚类,其过程如图4所示,经过39个阶段的聚类计算,数据划分为2个谱系。
从聚类的成员表可以看出,40 个居民地分为两类,即格网模式的居民地为一类,非格网模式的居民地为一类。对照表3 中标注的各个居民地的模式,二者是一致的。最终,根据聚类的结果,在地图上面标注各个居民地相应的模式。
从以上聚类过程看,多个未知模式的居民地进行识别时,需要先求出各个居民地街道相交角的均值和标准差。计算的方法较为简单,可以采用角度函数进行计算或者在ArcGIS 用角度计算工具进行计算,最后统计出街道相交角的平均值和标准差。然后采用聚类分析或者其他方法,识别是否为格网模式的居民地。
5 结束语
格网模式的居民地是城市地图上最为常见的居民地模式,其模式识别受到众多研究者的关注。已有的很多方法,基于几个特定的居民地进行研究,实验中方法性能表现良好,用于工程
实践则结果不甚理想。主要是数据来源少,不具有代表性,适用性不好。本研究中,从城市地图上采集了130 个居民地进行研究,90 个居民地用于统计街道相交角的均值和标准差,40 个居民地用于检测方法的可行性,运用层次聚类分析方法,40个居民地明显划分为两个聚类,对比每个居民地的原有模式,完全一致。实验表明,本文方法在识别居民地格网模式中具有较高的识别率,且简单易行。