基于地名数据库的散列式居民地边界提取
2015-03-30胡斌斌姚君兰
胡斌斌,王 红,2,姚君兰
(1.湖北大学资源环境学院,湖北 武汉430062;2.区域规划与环境响应湖北省重点实验室,湖北 武汉430062)
我国正逐步在国家、省、地、县4级建立具有电子地图功能,包含地名、区划、界线矢量数据的基础地名数据库。国内已建成1∶50 000、1∶250 000和1∶1 000 000的地名数据库,湖北、山西等省份建立了1∶10 000的地名数据库,个别城市,如北京、上海、沈阳、贵阳等建立了市级的地名数据库[1]。根据地名管理的需求,省、市、区、县、乡、镇、街道、村等各级名称均包含在地名数据库中。但区划、界线信息仅覆盖到县一级,乡、镇、街道、村等仅有注记信息,并无空间范围信息。乡、镇、街道、村等多属于农村地区,包含大量散列式居民地。根据在政治、经济和文化等方面的意义,居民地可分为城市式和农村式两大类。农村式居民地相较于城市式居民地其居民地所占面积较小,通常不超过50%,分布密度低且分布相对分散[2]。农村式居民地根据不同的制图区域、地形特点,其图形结构可分为街区式居民地、散列式居民地、分散式居民地和特殊形式居民地等。散列式农村居民地未经规划,房屋大多依地形而建,相对集中,没有明确的街道,外围轮廓十分不明显[3]。为补充散列式居民地边界信息的不完备,本文结合散列式居民地的特点提出基于地名数据库的散列式居民地边界提取方法。
一、地名及边界提取现状
边界提取的首要问题在于要素提取,以往要素提取大多依赖查询属性信息的完成。当前中国正处于工业化、城镇化的快速发展时期,新生地名快速涌现,旧有地名变更频繁,地名数量多,更新速度快[4]。在旧有地名变更或新生地名产生时,地名数据库与基础地理信息数据库若无法同步更新,将出现地名数据库与基础地理信息数据库相应属性无法对应的情况,依据传统的属性选取方法可能无法提取变更后或新生地名所对应的基础地理信息数据库要素。为解决地名数据库与基础地理信息数据库因地名变更而导致的要素提取困难,本文通过空间位置信息对地名数据库与基础地理信息数据库进行关联,建立地名数据与DLG数据的对应关系,实现基于地名数据库的要素提取。
完成要素提取需进一步对所提取要素进行边界提取,通过建立凸壳形成凸多边形构成点群的外围轮廓线提取边界是相对简单的一种方法,应用也较普遍。计算平面点集的凸壳算法主要有:卷包裹法、格雷厄姆方法、分治算法、增量算法、实时算法、快速算法和周培德的Z3-8算法等[5]。居民地边界形状复杂多样,而凸壳方法仅能生成凸多边形,无法表达居民地整体形状轮廓。如图1所示,黑色边界通过格雷厄姆法建立凸壳形成,包含大量无居民地要素的空白区域,并且遗漏了重要转折点。为应对居民地边界形状复杂多样的特性,本文通过聚合面方法提取边界。聚合面是一种制图综合操作,将指定距离内的面要素合并成新的面要素,在居民地要素分布类型发生变化时通过改变聚合距离确保所提取边界正确表达居民地形状轮廓,适用性更强。
图1 凸壳法边界提取结果
二、基于地名数据库的居民地要素提取
本文以地名数据库为基础,首先通过地名检索获取地名注记相关属性项,并以此关联地名数据和DLG数据。完成数据关联后,以地名注记点建立泰森多边形,通过按位置选取判断地名注记、泰森多边形、居民地要素三者的位置关系,提取地名所含居民地要素,流程如图2所示。
图2 居民地要素提取流程
1.数据库概况
本文地名数据库依照国家地名数据库标准,属性项设置包括:标准地名、少数民族民族书写、罗马字母拼写、地名发音、别名、简称、类别名称、使用时间、地理位置、语种、密级、地名含义、来历、历史沿革等内容[6]。
基础地理信息数据库命名根据图上区域对应地图分幅编号给定,散列式居民地包含依比例尺、半依比例尺和不依比例尺各类建筑物,在基础地理信息数据库中分别存储为面状要素、线状要素和点状要素。面状要素对应于依比例尺的建筑物或街区建筑,线状要素对应半依比例尺独立房屋,点状要素对应普通不依比例尺房屋与窑洞等特殊不依比例尺房屋。
2.居民地要素提取方法
基于地名数据库的要素提取流程主要包括地名数据与DLG数据对应关系建立和建立泰森多边形进行要素提取。
(1)建立地名数据与DLG数据的对应关系
1)在地名数据库检索指定地名,获取指定地名属性项中类别名称信息和地理位置信息,如图3所示。
图3 地名检索
2)以地理位置信息计算图幅编号获取其对应的基础地理信息数据库名称。
3)通过将类别名称信息与基础地理信息数据库分层标准进行比对,获取地名注记在基础地理信息数据库中要素对应图层。
(2)基于泰森多边形选取要素
1)以居民地注记点图层生成泰森多边形如图4所示,每个泰森多边形内包含一个注记点,且泰森多边形内所包含的点到该注记点的距离最近[7]。
图4 创建泰森多边形
2)根据地名检索选定注记点,以按位置选取,提取出包含该注记点的泰森多边形,如图5所示。
图5 泰森多边提取
3)通过按位置选取,分别提取点、线、面居民地图层中被泰森多边形所包含的居民地要素。即可提取出指定注记点所含居民地要素,实现基于地名数据库的居民地要素提取,结果如图6所示。
图6 居民地要素提取结果
三、基于聚合面的边界提取
聚合面可将彼此紧密临近的面要素(包括相邻面在内)进行合并。该方法将矢量数据转换为栅格,然后查找指定距离内的要素将其连接,最后将结果重新转换为具有正确的新边界构造的矢量数据即为所提取结果,流程如图7所示。
图7 边界提取流程
1.要素转换
由于散列式居民地包含多类型要素,在基础地理信息数据库中按点、线、面3种类型存放在不同图层中。在对点、线居民地要素进行聚合面操作前需将不依比例尺的点、线居民地要素转换为面,并与依比例尺的面状居民地要素进行合并。
本文通过建立缓冲区的方法将点、线居民地要素转换为面。根据1∶50 000地形图图式中居民地要素符号尺寸的相关规定,不依比例尺的普通点状房屋在图上符号半径为0.4 mm,以20 m(0.4 mm×50 000)为半径建立缓冲区转换为面,特殊点状房屋窑洞在图上符号半径为0.8 mm,40 m(0.8 mm×50 000)为半径建立缓冲区转换为面;半依比例尺的线状独立房屋在图上宽度为0.4 mm,以20 m(0.4 mm×50 000)为半径建立缓冲区转换为面。
2.阈值判定
如图8所示,居民地注记所含要素可能密集分布或离散分布。为使本方法适用性更强,需针对居民地要素分布状况给定不同聚合距离,确保注记所含要素中存在离散要素时所提取边界能反映此特征,正确表达居民地分布状况。本文以迭代法判断独立阈值判定聚合距离,判定过程如下:
1)通过临近分析获取目标注记各个要素中心点与临近要素中心点之间的最近距离,可得有序数列(L1,L2,L3,…,Ln)。
2)以Ln为半径,以各个居民地要素中心点为圆心,扫描面要素数量,可得整型有序数列(N1,N2,N3,…,Nn),其中Nn=1。若N1、N2、N3、…、Nn-1均大于1,则说明Ln所对应居民地要素距离其他居民地要素最远,且相对独立,需单独提取,以Ln-1为聚合距离。
3)若Nn=1不唯一,则以Ln-1为半径,扫描面要素,到整型有序数列(N1,N2,N3,…,Nn-1,Nn),其中Nn=0,Nn-1=1。若Nn-1=1唯一,则以Ln-2为聚合距离。若Nn-1=1不唯一,则继续上述过程,直至Nn-a=1(0<a<n)唯一,以Ln-a-1为聚合距离。
图8 居民地分布图
以此方法所得阈值作为聚合距离进行聚合面,可在居民地存在离散分布要素时避免离散要素与密集区域连成整体,从而使所提取边界能正确反映居民地疏密状况和形状轮廓。
四、边界提取结果分析
为验证边界提取结果的合理性,本文以某地单幅1∶50 000地形图为数据源,依据所述数据标准制作地名数据库和基础地理信息数据库,图上包含点状窑洞、线状独立房屋及面状建筑在内的大量农村散列式居民地。以本文所述方法进行试验,分别输入居民地名称“仁里府”与“李家河”进行检索,最终边界提取结果如图9所示。
图9 聚合面法边界提取结果
图9(a)说明该地名注记所含居民地要素存在离散分布,最终结果分界显示;图9(b)说明该地名注记点同时包含面状依比例尺居民地要素(独立房屋)及点状不依比例尺居民地要素(窑洞),最终结果将所有要素包含在内。
以上结果说明:聚合面边界提取方法适用于多类型散列式居民地要素,能针对不同居民地的要素密集程度生成单个或多个边界,所提取边界能真实反映居民地轮廓形状。
五、结束语
散列式居民地作为居民地的重要组成部分,在农村广泛存在,但目前针对它的研究却相对较少。本文依据现有地名数据库和基础地理信息数据库标准建立数据库,综合考虑居民地要素的多类型和所得边界的合理性,以地名数据库为基础实现要素选取,以迭代法确定聚合面方法聚合距离完成边界提取,试验区域边界提取结果与数据源吻合较好。
本文所述方法存在以下问题有待进一步研究:地名形状特征各异,本文通过缓冲区将点状、线状居民地转换为面的方法有待进一步改进,以使转换结果能更准确覆盖各类地物;聚合面方法涉及栅矢转换过程,效率较低,算法效率有待加强改进;居民地类型及分布十分多样,本文并未考虑所有居民地类型和各种分布状况,边界提取过程如果能加入质量控制能有效发现质量问题,使方法适用性更强。
[1] 黄大宁,邬群勇,满旺,等.县级地名时空数据库的设计与实现[J].测绘科学,2014,39(11):121.
[2] 盛文斌.散列式居民地的自动选取研究[D].郑州:信息工程大学,2010.
[3] 祝国瑞,郭礼珍,尹贡白.地图设计与汇编[M].武汉:武汉大学出版社,2010.
[4] 中华人民共和国民政部.2005民政事业发展统计报告[Z].2006-04-03.
[5] 周培德.计算几何——算法分析与设计[M].北京:清华大学出版社,2005.
[6] 姬炜,胡小勇,王建春.中国国家地名数据库管理系统浅析[J].中国地名,2012(5):76-78.
[7] 陈春,泰森多边形的建立及其在计算机制图中的应用[J].测绘学报,1987,16(3):223-231.