产业用地数据整合研究与实现
2013-06-29斯庭勇高飞胡小华
斯庭勇,高飞,胡小华
(1.合肥工业大学土木与水利工程学院,安徽合肥 230009;2.合肥市国土资源局,安徽合肥230071)
1 引言
当前,随着改革开放的逐步深入,我国加快城镇化步伐的条件日益成熟,开始步入快速城市化进程。产业用地结构不合理、布局不优化、产业用地功能和利用效率低[1]等问题逐渐暴露出来。为此,相关单位开始着手研究“城市化地区产业用地集约化利用与调控技术研究与示范”这一课题,它是围绕解决国土资源管理与开发利用过程中存在的集约化程度不高与调控难等问题,为国家开展土地调控、为政府各部门调整产业布局和优化产业结构、促进国民经济协调发展提供数据支持和决策依据。“产业用地数据整合与建库关键技术”是其中一个子课题,通过研究土地调查与经济普查、土地利用规划、城市规划、城市建设、国民经济、社会发展、生态环境等多种与产业用地有关的数据整合与建库的关键技术,实现不同产业的社会经济数据与用地数据的合理对接和有效整合,制定产业用地综合数据库标准,建立示范区产业用地综合数据库,建设产业用地综合数据库管理系统,为相关其他研究工作提供数据库标准和数据基础支撑。其中,产业用地数据整合是首要解决的问题。本文结合该项目的实施,研究整合的大体思路、流程、技术方法以及相关的注意点。
2 源数据分析和整合内容
2.1 源数据分析
经过研究和分析,产业用地的结构、分布、面积、投入、产出、税收、就业、土地利用状况和动态变化等方面的信息是产业用地综合数据的主要内容。而这些产业用地信息目前从经济普查数据、城镇地籍数据、基础地理信息数据、土地利用现状数据、土地利用规划数据、城市规划数据和社会经济发展数据这7类数据中获取[2]。由于产业用地数据获取方式、表示和管理方面等不同,使得这些数据具有多源、多尺度、多时态等多源异构性,在进行数据整合时必须要对这些源数据归类整理及检查分析,便于数据整合到标准形式。
2.2 整合内容
产业用地数据具有明显的时空特性,需要对不同来源、不同时段的土地调查、经济普查、土地利用规划、城市规划、城市建设、国民经济、社会发展、生态环境等产业用地数据集成整合,并进行多层次的空间分析、数据提取、格式转换和汇总统计,创建产业用地数据整合技术体系。
3 产业用地数据整合实现
产业用地待整理数据库的数据量大,数据类型多样,数据来源广,相互关系复杂,所以在进行数据整合时,必须执行科学缜密的技术路线,以确保数据整理工作的顺利完成。
3.1 产业用地综合数据库标准的制定
数据整合前,必须要制定一个标准,只有统一的数据标准,才能保证整合后数据的系统性,有利于数据的维护、分析和更新[3]。本文研究制定标准,采用面向对象的分析建模技术,分析、研究产业用地要素的组成、分类体系、空间结构、属性特征和相互间的逻辑关系,整理、归纳与分析产业用地相关的数据模型、要素类、数据对象、表现形式和表示方法等内容,抽象、概括产业用地信息要素类和数据对象,研究要素类的包含关系和继承关系,空间数据对象的几何拓扑关系和属性逻辑关系,研究土地调查、经济普查、土地规划、城市规划、城市建设、生态环境、国民经济、社会发展数据间的关联度,进行产业用地各要素的合理分类和逻辑关联,构建统一、集成、高效的产业用地数据表达的标准化模型,提出《产业用地综合数据库标准》的框架结构和主要内容,制定产业用地综合数据库标准。标准中的产业用地数据库要素划分如表1,其中小类省略。
产业用地数据库要素分类 表1
3.2 技术路线
依据产业用地综合数据库标准和建设规范的要求,采用计算机和信息处理技术,利用地理信息系统技术、数据的抽取转换装载技术和数据库技术,根据设备配置、数据库情况,制定空间数据整合与非空间数据整合的技术路线,具体技术路线如图1与图2所示。
图1 空间数据整合技术路线
图2 非空间数据整合技术路线
数据整合流程:
(1)对已有的数据进行搜集、筛选、检查,对照整合成果要求,对每一类待整合数据情况进行登记,摸清现有数据情况。对于需要更新或补充调查的,制定相应的更新或调查方案。
(2)严格按照产业用地数据整合技术规范和成果要求,利用FME和ArcGIS相关软件完成数据转换、拓扑检查、属性检查、数据拼接等处理,然后按西安80坐标系统和高斯克吕格投影,规定组织方式和命名规则对数据进行整合。
(3)人机交互和计算机自动处理相结合。在数据库整合过程中充分利用计算机技术,对数据进行处理,提高工作效率。同时结合人机交互处理技术进行检查和修改,减低数据库整合过程中的错误率。
(4)建立多级质量检查机制。在数据整合的各个中间环节及最后成果阶段,均建立严格的检查机制,对空间数据的拓扑关系一致性、多边形是否闭合以及节点一致性等内容以及属性数据字段结构、属性内容、要素分类、代码是否完备等内容均进行检查。
3.3 关键技术实现方法
(1)ETL技术
ETL(Extraction.Transformation.Loading)主要用来实现异构多数据源的数据集成,是数据仓库、数据挖掘以及商业智能等技术的基石。ETL具有数据抽取、数据转换和数据装载功能,是数据整合的基础[4]。在产业用地数据库建设过程中,需要用到ETL技术对多源异构数据进行整合,实现产业数据的抽取、转换、清洗、加载等过程,其概念模型如图3所示。
图3中,ETL技术在产业用地数据库整合过程中实现:数据抽取需要符合一定结构和规则体系[5],通过分析提取建立规则,然后从经济普查数据、城镇地籍数据、基础地理信息数据、土地利用现状数据、土地利用规划数据、城市规划数据和社会经济发展数据这7类数据中提取符合规则的数据,并对提取的数据分类标识,把重复、关联度低、精度低的数据剔除。数据转换是根据产业用地综合数据库的需要,将数据格式统一、类型统一,保证数据的统一性和完整性;数据清洗要借助规则的驱动[6],将不符合要求的数据清洗掉。数据装载是将已经清洗好的数据批量加载到目标数据库里,然后,目标数据库可以被系统直接访问或通过数据文件方式访问的方式进行批量加载,实现产业用地数据的统一入库管理。
图3 产业用地数据整合中的ETL概念模型
(2)数据库技术
数据整合的最终形式是以ArcGIS的shape格式存储的,但是由于城镇地籍数据,基础地理信息数据和经济普查数据均是以不同的格式存储的,这就需要将这些数据整合加载到ArcGIS工具里。以经济普查数据为例说明,经济普查数据源数据是Excel格式的,将Excel格式数据按照标准要求,保留需要的属性。在ArcCatalog里新建表后,建立相关字段,将整理好的Excel数据加载进去。通过Access数据库完善信息。
(3)经济数据与空间数据的连接
图4 连接后的产业用地数据展示
整合好后的ArcCatalog里存储的经济普查数据要与相应产业单位空间位置数据高度保持关联,以产业单位的“组织机构代码”为主键,并以其为关键字段对这两种数据连接。本文以合肥市产业用地数据整合为例,将连接后的产业单位空间数据以及相应的其他类数据添加到ArcMap里,展示结果如图4所示,其中点表示产业单位。
4 数据质量控制
为了保证产业用地综合数据库成果的准确性、完整性,按照相关标准和要求,对数据成果建立多级多层次的质量检查机制。在数据整合的各个中间环节及最后成果阶段,均进行工作人员自检、工作小组互查、项目负责人抽查的多层次的检查。具体数据质量要求如下:
(1)数据入库前应对数据进行100%的数据质量检查。
(2)数据入库后要对计算机自动输出成果进行检查。
(3)数据运行过程中要对数据库整体安全性运行检查。
(4)坐标系使用国家西安1980坐标系,投影类型使用3°分带高斯-克吕格投影。
(5)宗地、房屋的要素完整。
(6)宗地、房屋等主要面状要素的拓扑关系正确。
(7)注记要素完整。
(8)数据的命名及存储格式符合要求,内容完整。
5 结语
随着产业用地相关领域的深入研究,本文的产业用地数据整合路线已经得到应用,笔者参与了整个课题建设的流程,从数据采集,源数据的分析,标准的制定到数据整合的路线及关键技术不断研究补充,取得了进展。产业用地数据由于其来源不同,格式不同,整合标准尚没有统一等原因,造成此类整合内容有一定的局限性,需要进一步探索研究及完善。
[1]李国平,薛领.产业与空间:北京市产业用地分析、评价与集约利用研究[M].北京:中国经济出版社,2008.
[2]胡刘鹏,高飞,胡小华.基于ARCGIS的产业用地数据库系统设计研究[J].测绘,2012,35(3):131~134.
[3]杨亚锋,王黎明.地理信息系统建设中的几个问题[J].测绘通报,2003(1):46~47.
[4]葛迪.ETL技术在交通信息资源整合工程中的应用研究[D].哈尔滨:哈尔滨工程大学,2010.
[5]张梅兰,肖桂荣.区域地理空间数据整合技术研究[J].计算机与数字工程,2011,39(1):48 ~52.
[6]舒飞跃.基于知识与规则驱动的国土资源空间数据整合方法研究[J].国土资源信息化,2007,(3):19~25.