APP下载

基于元数据的GIS中数据集成方法与技术研究

2011-07-13王杜娟陈雪龙

电子设计工程 2011年19期
关键词:数据格式空间数据软件

王杜娟,陈雪龙

(1.大连东软信息学院 计算机科学与技术系,辽宁 大连 116023;2.大连理工大学 信息与决策技术,辽宁 大连 116023)

数据是GIS系统建设的基础,各地方、各部门的现有数据是系统的信息源。我国数据库建设虽有20多年的历史,但成功的例子不多,利用率一直很低,主要是数据库质量不高,数据分散、不规范。个人的随意性影响了数据规范。不同部门之间、不同年份之间,甚至同类业务不同处理环节之间,数据口径不一致,可比性差,造成数据上的“历史问题”。

“十五”前,我国GIS系统建设规模多数属于较低的层次,面向的应用群体很小,同级之间的数据标准、系统结构、应用软件等都不具备共享能力,形成了众多的信息孤岛。“十五”末期,各种孤岛式GIS系统开始进入高层次集成阶段,数据集成、数据转换与数据共享的模型、方法与技术也就成为了研究的热点。文中笔者将元数据理论融入数据集成技术中,实现了基于元数据的GIS中数据集成。

1 元数据定义及其在信息系统中的作用

元数据作为一个专门的科学术语 ,已广泛地应用于各学科,尤其是在数据库领域,有关元数据的概念和使用存在诸多的认识:Bretherton[1]和Lillywhite[2]认为元数据是对数据的描述,以及对数据集中数据项的解释,它能提高数据的利用价值;国际地球科学信息网络协会(CIESIN)认为元数据包括数据用户指南、数据字典、数据分类目录等数据描述信息,以及任何定义它们之间关系所需要的附加性信息;Ashrafi[3]认为元数据是数据库管理领域的概念,是关于数据组织的数据;Epaminondas等人则认为元数据是数据与信息之间的某种东西,它可以沟通数据和信息[4];美国联邦地球空间数据委员会 (FGDC)[5]指出元数据是关于数据从形成到使用过程中数据空间属性和时间特征变化的描述和记录;国际标准化组织[6]认为元数据是关于数据内容、质量、条件状态和其他特征的描述。

但广义的理解,元数据不仅实现对数据的描述,而且描述并实现数据转换、操作、管理。简而言之,元数据是关于数据、操纵数据的过程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。

元数据主要有下列几个方面的作用:

1)描述数据的存在性及存在位置;

2)确定数据的适宜性及可用性;

3)描述获取数据的手段;

4)描述数据的转换方法及途径;

5)描述数据的存储与表达方式;

6)描述数据的使用方法;

7)描述数据的来源、完整性及安全性等信息。

2 多源与异构数据集成模式比较研究

由于GIS的图形数据格式各异,给信息共享带来了极大的不便,解决多格式数据源集成一直是近年来GIS应用系统开发中需要解决的重要问题。目前,实现多源数据集成的方式大致有3种,即:数据格式转换模式、数据互操作模式、直接数据访问模式。

2.1 数据格式转换模式

格式转换模式是传统GIS数据集成方法。在这种模式下,其他数据格式经专门的数据转换程序进行格式转换后,复制到当前系统中的数据库或文件中。这是目前GIS系统数据集成的主要办法。

数据转换模式主要存在的问题是:

首先,由于缺乏对空间对象统一的描述方法,从而使得不同数据格式描述空间对象时采用的数据模型不同,因而转换后不能完全准确表达源数据的信息。

其次,这种模式需要将数据统一起来,违背了数据分布和独立性的原则;如果数据来源是多个代理或企业单位,这种方法需要所有权的转让等问题。

2.2 数据互操作模式

数据互操作模式是OpenGIS consortium (OGC)制定的规范。GIS互操作是指在异构数据库和分布计算的情况下,GIS用户在相互理解的基础上,能透明地获取所需的信息。OGC为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据OGC颁布的规范,可以把提供数据源的软件称为数据服务器(Data Servers),把使用数据的软件称为数据客户(Data Clients),数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目的是使数据客户能读取任意数据服务器提供的空间数据。

数据互操作为多源数据集成提供了崭新的思路和规范。它将GIS带入了开放式的时代,从而为空间数据集中式管理和分布存储与共享提供了操作的依据。OGC标准将计算机软件领域的非空间数据处理标准成功地应用到空间数据上。但是OGC标准更多考虑到采用了OpenGIS协议的空间数据服务软件和空间数据客户软件,对于那些历史存在的大量非OpenGIS标准的空间数据格式的处理办法还缺乏标准的规范。而从目前来看,非OpenGIS标准的空间数据格式仍然占据已有数据的主体。

数据互操作规范为多源数据集成带来了新的模式,但这一模式在应用中存在一定局限性:首先,为真正实现各种格式数据之间的互操作,需要每个每种格式的宿主软件都按照着统一的规范实现数据访问接口,在一定时期内还不现实;其次,一个软件访问其他软件的数据格式时是通过数据服务器实现的,这个数据服务器实际上就是被访问数据格式的宿主软件,也就是说,用户必须同时拥有这两个GIS软件,并且同时运行,才能完成数据互操作过程。

2.3 直接数据访问模式

顾名思义,直接数据访问指在一个GIS软件中实现对其他软件数据格式的直接访问,用户可以使用单个GIS软件存取多种数据格式。直接数据访问不仅避免了繁琐的数据转换,而且在一个GIS软件中访问某种软件的数据格式不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。直接数据访问提供了一种更为经济实用的多源数据集成模式。

文中主要针对“数据格式转换模式”与“直接数据访问模式”两种模式探讨了GIS中数据集成的方法与技术。

3 多源与异构数据的集成技术研究

3.1 空间数据的集成

本系统的空间数据采用如图1所示的拓扑关系:

图1 空间数据的拓扑关系Fig.1 Topological relations of spatial data

这种空间数据的组织形式比较合理,数据修改灵活,数据冗余少。具体的数据结构简单示例如下:

其他地理信息系统中的空间数据可以通过“图形交换文件”(如.dxf文件等)转化为本系统中应用的数据结构。转化流程如图2所示。

图2 多源或异构数据集成流程图Fig.2 Flow chart of multi-source or heterogeneous data Integrated

当前市场上流行的地理信息系统软件平台一般都支持二次开发,也就是可以将本身的数据格式自动转化成通用的图形交换文件格式 (如 dxf文件、sdtf文件), 图2中的ArcInfo、MapInfo以及MapGIS等软件平台就具有这种功能。有了图形交换文件,我们就可以利用“基于元数据的数据转化接口”通过建立图形交换文件的格式与本系统数据结构的格式的映射关系,将图形交换文件格式的空间数据转化为本系统所需要的数据格式。这里的元数据也就是图形交换文件的描述以及本系统空间数据的数据格式描述。系统所实现的转换接口兼容dxf与sdtf两种图形交换文件格式。现将这两种文件格式简单列举如下:

1)dxf文件描述

一个完整的.DXF文件是由4个段和1个文件尾组成。其顺序如下:

①标题(HEADER)段;

②表(TABLES)段;

③块(BLOCKS)段;

④元素(ENTITIES)段;

⑤文件结束(EOF);

在所开发的转换接口中只用到了元素段描述,下面简要说明元素段的描述。

其他元素,如面体元素、点元素等于线体元素描数类同,这里不在累述。

2)sdtf文件描述

几何图形数据紧接着地物类型参数定义,分别用“PointBegin”、 “PointEnd”、 “LineBegin”、 “LineEnd”、“PolygonBegin”、 “PolygonEnd”、 “AnnotationBegin”、“AnnotationEnd”字符分开。一般情况下,点、线、面、注记相对集中地放在一起。点、线、面、注记的具体几何数据不再附加标志说明。它的说明在公布的空间数据交换文件格式的说明书中说明。

具体的元素描述以现状示体为例,其他类型元素类同,不再累述。

如果文件头中申明Topo=2,则有以上4项,否则没有。

3.2 属性数据的集成

具体的实现途径有以下几种:

1)编制数据转化的中间件,专门实现导库工作,在导库的过程中加入一些模型和算法,实现数据的标准化,按照本系统的要求自组织数据,使数据可以被本系统直接利用。这个中间件作为本系统的辅助工具,为数据准备服务。实现流程如图3所示:

首先,获取程序读取源系统数据表的结构,建立元数据描述信息,然后根据目标系统中元数据信息,建立源系统到目标系统之间的映射关系,以映射表或关系矩阵的方式存储,成为以后数据抽取的依据。

2)在系统中加入数据加载接口,使用户可以通过接口控制转化的数据类型,按照用户的要求组织数据。通过这种方式,用户可以实现数据的自定义。

图3 元数据自动抽取过程Fig.3 Automatic extraction process of metadata

图4 源系统元数据自动获取界面Fig.4 Automatic acquisition interface of source system metadata

图5 数据加载可视化窗口Fig.5 Visualization window of data Loading

通过编制人机交互环境,由用户根据实际需要,选择相关的选项,搜集相应的信息,通过语义和语法分析,抽取元数据的描述信息,实现数据的自动加载。

3)在系统中直接连接外部数据。比如一些专题数据,如果数据格式比较规范,可以不通过数据加载接口将数据载入本系统,而直接在外部使用。ODBC技术是开放式的数据连接接口,可以实现此要求。

4 结束语

笔者从系统开发实践的角度,讨论了基于元数据的多源与异构数据的集成方法与技术。所研究的数据集成技术仅仅是针对“数据格式转换模式”与“直接数据访问模式”两种模式,由于分布式地理信息系统是地理信息系统未来的发展方向,所以我们将在后面的工作里继续研究 “数据互操作模式”,为分布式地理信息系统与网络地理信息系统的数据集成打下坚实的基础。

[1]Bretherton F P.Reference model for metadata,A strawman[C]//IEEE Computer Society Technology Commission on MSS Metadata Workshop, Texas:University ofTexas Austin,1994.

[2]Lillywhite J.Identify available spatial metadata:the problem[C]//Medyckyj-scott D, Newman I, Ruggles C, et al, eds.Metadata in the geo-sciences, Loughborough UK:Group D Publications LTD,1995.3-12.

[3]Ashrafi N.The information repository:a tool for metadata management[J].Journal of Database Management, 1995,6(2):3-11.

[4]KapetaniosE, KramerR.A knowledge-based system approach for scientific data analysis and the Notion of metadata[C]//Proceeding of the Fourteenth IEEE Symposium on Mass Storage Systems,1995.

[5]Federal Geographic Data Committee (FGDC).The FGDC content standards for Digital Geospatial Metadata(CSDGM)[S].1994.

[6]ISO/TC211.Geographic information-metadata,ISO standard 15046-15 metadata[S].Version 2.0,1997.

[7]陈雪龙,王延章.WebGIS中的元数据研究[J].小型微型计算机系统, 2004,25(6):1028-1031.

CHEN Xue-long,WANG Yan-zhang.Research of metadata for webGIS[J].Mini-Micro Systems,2004,25(6):1028-1031.

猜你喜欢

数据格式空间数据软件
禅宗软件
软件对对碰
世界首个可记录物体内部结构等复杂信息的3D打印数据格式问世
元数据驱动的多中心空间数据同步方法研究
即时通讯软件WhatsApp
论子函数在C语言数据格式输出中的应用
基于文件系统的分布式海量空间数据高效存储与组织研究
基于ArcGIS的规划数据格式转换研究
丰富多彩的Android软件