GIS空间数据与属性数据的文件组织结构研究
2012-11-01潘俊辉相生昌
潘俊辉 相生昌
(1.东北石油大学,大庆 163318;2.同方知网技术有限公司,北京100084)
GIS空间数据与属性数据的文件组织结构研究
潘俊辉1相生昌2
(1.东北石油大学,大庆 163318;2.同方知网技术有限公司,北京100084)
针对传统GIS数据管理方法都是将空间数据与属性数据分隔开来分别进行管理的缺点,提出一种用于将空间数据和属性数据进行统一管理的文件组织方法。文中分别给出空间数据和属性数据的数据结构,然后采用层次性结构化文件系统结合文件索引和数据字典技术来对空间数据和属性数据进行统一管理。该方法能够对各实体信息表示尽量结构化,从而加快大数据量应用的存取速度。
GIS;空间数据;属性数据;数据字典;文件索引
地理信息系统(GIS)是集地理学、地图学、计算机科学、遥感等多种学科涉及空间数据采集、处理和分析等多种技术共同发展的结果,这些技术与学科有机地融合在一起,以地理空间数据库为基础,与不同数据源的空间与非空间数据相结合,通过操作和模型分析,提供对规划、管理和决策服务的计算机系统。数据存储是GIS系统中的关键步骤,它涉及到空间数据与属性数据的存储,空间数据结构的选择在一定程度上决定了系统所能执行的数据与分析功能。
传统GIS数据管理方法都是将空间数据与属性数据分隔开来分别进行管理,对于空间数据采用结构化的文件系统来管理,而对于属性数据则是借助于数据库管理系统来管理。近年来又大多采用空间数据库对空间数据进行管理[1];但对于空间数据与属性数据不能当作一个整体来管理,从而在执行基于空间数据和属性数据的综合空间查询和空间分析时有一定的局限性。同时由于GIS中各实体数据的非结构化问题使得很难选择统一的方法来处理不同的GIS实体,因而采用了一种层次性结构化文件系统结合文件索引和数据字典技术来对空间数据和属性数据进行统一管理,对于各实体信息尽量结构化表示,从而加快大数据量应用的存取速度。
1 空间数据结构和属性数据结构
数据存储是GIS系统中的关键步骤,它涉及到空间数据与属性数据的存储。而在GIS数据组织与管理中,最为关键的是如何将空间数据与属性数据融合为一体。目前大多数系统都是将二者分开存储,通过公共数据项来连接。这种组织方式的缺点是数据定义与数据操作相分离,无法有效地记录地理实体在时间域上的变化属性[2]。通过一个GIS实体类对空间数据和属性数据进行管理。
1.1 空间数据结构
GIS系统中的地理实体的几何形体各式各样,但是映射到计算机内部表示矢量数据的简单数据结构可抽象为点、线、面三种最基本的图元形式来描述,而对于复杂的地理实体可通过这三种基本图元的组合来描述[3]。另外为了方便绘制一些特殊图元的需要,也将矩形和圆形图元定义为基本图元。由于点、线、面三种基本图元之间又有共同的属性,因而可抽象一个基元类来描述它们三者的共性,三种基本图元都从它派生。基元类包括颜色、线型、线宽、图元类型等数据项。各种图元的结构定义如下:
1.2 属性数据结构
属性数据是空间实体的特征信息,各种不同的GIS实体的属性各异,难以用同一结构来表示,因而对同一类地理实体要素的非结构化的属性尽量抽象成结构化的数据表示。采用类模板和数据库中数据字典的思想对属性数据进行抽象和管理。
首先定义描述地理实体属性数据数据项的结构体,再定义地理实体属性数据的模板,此模板由各数据项结构体组成,有多少个属性数据便有多少个数据项结点。由于属性数据的类型是不确定的,所以对于每一种数据类型定义一个存储位置是对空间的严重浪费,因而定义了一个联合来共享内存的方式存储属性数据的值。属性数据的数据结构如下:
属性数据数据项结构体:ID 属性名 属性类型 pNext实体模板:ID 模板名称图元的类型属性数据项的头指针属性数据项个数 下一指针
1.3 空间数据与属性数据的统一
在GIS系统中空间数据与属性数据是一个有机的整体,只有空间数据与属性数据结合在一起才有实际的意义。通过定义一个GIS实体类对空间数据和属性数据进行管理,每个地理实体由实体ID(实体的唯一标识)、实体名、空间数据ID、属性数据链表四个数据项表示。通过空间数据图元ID可得到地理实体的空间几何信息,即空间数据;而通过对属性数据链表的遍历可得到GIS实体对象的各属性信息。
ID 实体名 数据图元ID(可多个)属性数据链表 下一实体(pNext)
2 文件组织结构
2.1 文件组织策略
由于GIS中各实体数据的非结构化问题使得很难选择统一的方法来处理不同的GIS实体。因而采用层次性结构化文件系统结合文件索引和数据字典技术来对空间数据和属性数据进行统一管理。对于各实体信息尽量结构化表示,从而加快大数据量应用的存取速度。文件分层次存储,最顶层是文件头,紧接着存储的是应用中所有的地理实体的模板信息,与其并列存放在同一层次上的还有各图层信息,在各图层信息层之下又分层次存放各地理实体及其空间数据和属性数据。
2.2 文件的结构
整个文件分五部分,分层分段存储。第一部分是文件头,主要存储和整个地图有关的信息,如版本号、缩放中心点、地图边界的最大和最小坐标值等信息,它的存储大小固定。第二部分是应用中所定义的所有实体模板信息,模板信息包括模板ID、类型、名称及属性个数,在这一层之下又存放着各模板的属性信息,这一类实体所包含的所有属性名称及ID。第三部分是图层索引信息,这一部分存储了各层的ID、名称及各图层存储的位置(开始位置)。第四部分是各图层的具体信息,包括图层个数、图层ID及图层名称。其下又分层存储了各层的GIS实体、以及此图层上的所有空间图元。GIS实体层下又存储着各GIS实体的实体模板、属性数据及空间数据的ID。第五部分是文件的结尾部分,是文件结束的标志。整个数据的存储结构如图1所示。
在组织文件时对于同一图层上的同一类实体都是存放在连续的地址空间上,因为它们都是属于同一类型的实体模板,因而可以按定长记录式文件进行读取,通过实体模板信息可以很明确地得到各类实体有多少属性及各属性的类型,进而可知道各属性所占的字节数,这样就可以知道每个实体的属性数据有多少项,对于各数据项可看作是数据库中的一个字段来看待,因而起到了一个数据字典的作用。同一图层上各实体的空间数据即各图元也是按其类型存放在连续的地址空间上,而各类图元数据其数据项是已知的,因而可直接按定长度记录文件来进行读取。通过各图层的索引可以很快地定位到各图层上,而通过各类实体的索引及图元索引可以很快地定位到属性数据和空间数据上。这样对于大数据量的GIS应用只需读入文件头信息、实体模板信息、图层索引、各类实体索引及空间数据索引即可,无需读入整个的地图文件,通过图层索引就可以找到图层数据的开始段,通过实体索引和空间数据索引可以访问空间数据和属性数据。
图1 文件层次结构
3 结 语
在GIS数据组织与管理中,最为关键的是如何将空间数据与属性数据融合为一体。最理想的存储管理方法是利用OODBS(面向对象的数据系统)的数据管理方法,这种存储管理方法能够对各GIS实体当作一个整体来存储和管理,具有更高的存取效率,但目前为止还没有一种成形的OODBS系统可供利用。针对此问题,给出了一种层次性结构化文件系统,结合文件索引和数据字典技术来对空间数据和属性数据进行统一管理的组织方法,可对各实体信息尽量结构化表示,以加快大数据量应用的存取速度。
[1]龚健雅.空间数据库管理系统的概念与发展趋势[J].测绘科学,2001(3):346-349.
[2]肖乐斌,钟耳顺,宋关福,等.GIS空间概念模型的研究[G].中国地理信息系统协会,2001.
[3]邬伦,刘瑜,张晶,等.地理信息系统原理方法和应用[M].北京:科学出版社,2001.
[4]胡雪莲,孙永军,程承旗.基于地理空间概念的地理元数据组织管理研究[J].地理与地理信息科学,2003,19(2):1-4.
Research on File Organization Structure of GIS Spatial Data and Attribute Data
PAN Junhui1XIANG Shengchang2
(1.Northeast Petroleum University,Daqing 163318;2.TTKN,Beijing 100084)
Aimed to the shortcoming that the spatial data and attribute data are managed separately by the data management method of traditional GIS,a kind of file organization method to manage the spatial data and attribute data integrately is put forward in this paper.The data structure of the spatial data and attribute data are given respectively,then the spatial data and attribute data are managed centralizedly by adopting the hierarchy structured file system which is combined with file index and data dictionary techniques,this method can express the various entity information to be structured,thus to accelerate the access speed of large amount of data applications.
GIS;spatial data;attribute data;data dictionary;file index
TP393
A
1673-1980(2012)01-0128-03
2011-09-26
国家自然科学基金项目(61170132)
潘俊辉(1979-),女,硕士,东北石油大学讲师,研究方向为WebGIS、数据挖掘。