APP下载

地质资料多元异构信息的统一化描述

2013-09-07伍锦程王占昌张红英石小亚

中国矿业 2013年9期
关键词:数据格式集群定义

伍锦程,王占昌,张红英,石小亚

(中国地质调查局西安地质调查中心,陕西 西安710054)

为深入贯彻“国土资发[2010]113号”《推进地质资料信息服务集群化产业化工作方案》文件精神,按照“集成集群、深度开发,实现资料信息化,服务社会化,发展产业化”[1]的方针,依托国土资源部“十二五”地调计划项目“地质资料信息服务集群化产业化试点研究”,以现代化的信息技术为手段,搭建面向公众服务的共享平台,逐步消除地质资料信息孤岛,形成有效的地质资料信息集群化产业化运行机制与服务模式。

地质资料信息服务集群化产业化共享平台,首先应解决地质资料多元异构数据的统一化描述问题,形成具有通用性和兼容性的数据格式。本文分析了现有地质资料的分类情况以及数据的存储格式,并参照开放式地理信息系统协会(Open GIS Consortium,OGC)[2]标准,采用 XML结构化文本语言对基于Web服务的地质资料数据进行了统一化描述。

1 地质资料分类及数据格式

1.1 地质资料分类

地质资料是指在长期地质调查工作中形成的文字、图表、音视频等形式的原始地质资料、成果地质资料和样品等实物地质资料,以及地质资料信息系统。地质资料数据具有多源、异构、多维、海量等特点,从地质专业[3]划分,包括区域地质调查资料、矿产勘查资料、海洋地质资料、工程地质资料、环境地质、灾害地质资料、物探、化探地质资料、石油、天然气、煤层地质资料,其他地质资料等。

1.2 数据存储格式

因不同类别的原始地质资料数字化过程中所使用的软件不同,造成现有地质资料数据格式的多样性。具有典型的多元异构特点,既有结构化的属性数据、空间数据,还包括大量非结构化数据;数据格式主要有 GIS数据(MapGIS、ArcGIS、AutoCAD等)、栅格数据(TIFF、BMP、JPG等)、表格(Excel)、文档(Word)、文本(Text)、数据库(Access、Visual Foxpro、SQL Server等)、元数据(XML)等等。

2 集群节点数据传输特点

地质资料信息服务集群化产业化平台,应以“节点群”为集结单元,通过构建集群节点体系等技术手段建立节点之间的高效服务和对等通道,实现地质资料信息共享发布与联动服务,向外界呈现无缝服务窗口。各集群节点之间需要通过网络实现跨区域协同服务,进行数据的对等与交互操作,而传统的地质资料数据(如MapGIS、ArcGIS等数据)为二进制文件,数据文件过大,且因浏览器、防火墙等安全策略限制,不适合用于跨区域网络、跨操作系统之间的数据传输。XML为轻量级结构化文本数据,传统地质数据可转换为XML格式,进行文件存储、网络传输和数据交换。从而提升集群节点之间数据传输过程中的安全性、高效性以及稳定性。

3 XML数据网络传输优势

XML结构化文本数据[4]用于网络传输的主要优点如下所示。

1)互操作性强:Xml为纯文本格式数据,纯文本文件可以方便的穿越网络防火墙,可在不同操作系统上的应用系统之间相互通信。

2)规范统一:XML具有统一的标准语法,任何操作系统都支持XML文档,使得XML具有了跨平台跨系统的特性。

3)内容和结构完全分离:基于该特点,系统可轻松实现内容管理和流程管理的彻底分离,系统研发人员可以只关注流程运转中各环节的接口定义,而用户则可以专注在内容发布和数据维护之上。

4)支持多种编码:相对普通文本文档而言,XML文档本身包含了所使用编码的记录,方便多语言系统对数据进行处理。

5)XML加密优势:对WEB中数据保护的常用技术有数据加密、数字签名和访问控制,而XML作为一种元语言,已经成为WEB异构环境下不同类型和不同领域数据交换的开放标准。XML文档的访问控制机制与一般的访问控制机制不同,传统的访问控制机制不能直接应用于对XML文档的访问控制中。这是因为XML查询语言(Xquery)的存在,能直接寻找到每一个XML语义元素。访问控制模型必须能以多种粒度级别对XML语义元素制定访问控制,一般的访问控制对此没有特殊要求。

4 地质资料多元异构数据统一化描述

为使集群节点间地质资料数据通过互联网进行快速存储、交换和解析,本文依据中国地质调查局颁发的各类地学空间数据库建设指南,并兼顾国际开放型OGC[5]标准、协议和表达方式,从多元异构地质资料空间信息中抽取共性描述特征,采用轻量型XML结构化文本格式数据对地质资料数据进行了统一化描述。经统一描述后的地质资料数据格式遵照XML架构标准进行规范化定义,使得地质资料信息能实现跨平台(如 Windows、Linux、Mac等)共享交换并可穿越异构网络(如以太网、令牌环网、无线网等)环境。该XML数据的表现形式及各节点元素定义如下所述。

4.1 XML数据表现形式

该XML数据格式将地质资料空间信息按“点、线、面、贴图”四类特征进行统一化描述和细粒度划分,并按照数据仓-数据集-数据库-数据层四级分类体系进行了有限划分和映射,形成金字塔状目录结构树,以便符合公众对地质资料信息的记录习惯和使用习惯。其中,一个数据仓可对应多个数据集(如地质资料按地域划分),一个数据集可对应多个数据库(如地质资料按专业分类),一个数据库可对应多个图层(如地质资料按比例尺分级),每个图层可同时容纳任意多个点、线、面和贴图要素,而每个图形要素可按独立的数据结构进行描述,从而摆脱了GIS传统观念的束缚,充分体现了多元异构思想。例如图1为经XML数据格式描述的地质资料目录数据库在WEB应用系统上的展示,左侧为具有四层分类体系的地质资料目录结构树,右侧为图层下某个点要素的属性窗口。

4.2 XML数据节点定义

数据格式中节点元素定义与OGC推荐的GML保持一致,并进行了功能性扩充,尤其体现在安全策略、几何范围、拓扑属性等方面。针对每份地质资料,XML格式定义提供了空间定位信息、可视化参数控制信息、资料描述或特征属性信息,在吸收OGC标准的基础上扩充了拓扑(如图元空间范围、几何中点、多边形内点、长度、周长、面积、行署区划等)信息,以便支持XPATH轴遍历和图形要素空间约束过滤技术,此外还支持各类多媒体超链接以便支持非结构化数据。XML数据格式中各节点定义如下所示。

1)数据仓定义:按XML规定及要求,数据仓应映射集群海量数据中心顶层架构。在XML中用<Dataware>节点描述数据仓,并定义两个节点元素<name>、<description>,分别用于表示数据仓的名称以及该数据仓的描述信息,最后设置可视化控制参数控制数据仓的表现形式(显示或隐藏、打开或关闭)。

2)数据集定义:数据集可用于映射专题资料包或按行政区划、形成年代等划分的资料种类。在XML中用<Dataset>节点描述数据集,并定义两个节点元素,分别用于表示数据集的名称以及该数据集的描述信息,最后设置可视化控制参数控制数据集的表现形式(显示或隐藏、打开或关闭)。

3)数据库定义:数据库可用于映射按专业类别或依不同比例尺划分的数据类型。在XML中用<Database>节点描述数据库,并定义两个节点元素,分别用于表示数据库的名称以及该数据库的描述信息,最后设置可视化控制参数控制数据库的表现形式(显示或隐藏、打开或关闭)。

4)数据层定义:数据层可用于映射图元要素逻辑类别如矿种、归属单位等。在XML中用<Layer>节点描述数据层,并定义两个节点元素,分别用于表示数据层的名称以及该数据层的描述信息,最后设置可视化控制参数控制数据层的表现形式(显示或隐藏、打开或关闭)。并增加权限控制参数,用于控制用户对该图层的读写权限。

5)点要素定义:首先抽取地质资料数据点文件的共性描述特征(如:点文件属性表中的字段号、字段名、经纬度坐标信息等),并制作点元素子图集,然后在XML数据中描述点要素节点。用节点元素<mane>描述点要素属性表中的字段号,<field>描述点要素属性表中字段名称,<Point>描述点要素的子图号,<coordinates>描述该点要素的十进制经纬度坐标,<LatLonBox>描述该点要素子图的位置和范围。并增加权限控制参数,用于控制用户对该点要素的操作权限。

6)线要素定义:首先抽取地质资料数据线文件的共性描述特征(如:线文件属性表中的字段序号、字段名、线中各点的经纬度坐标信息等),然后在XML数据中描述线要素节点。用节点元素<mane>描述线要素属性表中的字段序号以及线元素中点坐标信息,<field>描述线要素属性表中字段名称,<LineString>描述线的宽度、透明度以及颜色,<coordinates>描述该线要素各点的十进制经纬度坐标流,<LatLonBox>描述线的位置和范围。并增加权限控制参数,用于控制用户对该线要素的操作权限。

7)面要素定义:首先抽取面文件的共性描述特征(如:面文件属性表中的字段号、字段名、以及面文件边界点的经纬度坐标信息等,然后在XML数据中描述面要素节点。用节点元素<mane>描述面要素属性表中的字段序号以及面元素的最佳内点坐标信息,<field>描述面要素属性表中字段名称、<LinearRing>元素描述边界线宽、边界线透明度、边界线颜色、面透明度以及面的颜色,<coordinates>描述各边界线上点的十进制经纬度坐标信息,<LatLonBox>描述面要素位置和范围、并增加权限控制参数,用于控制用户对该面要素的操作权限。

8)贴图要素定义:贴图要素用于描述非结构化的图形要素,如GIF、JPG等格式图件。在XML数据中描述贴图要素,用<name>元素描述字段序号,<field>元素描述字段名称,<href>元素描述贴图要素的地址信息,<LatLonBox>元素描述贴图要素的位置和范围。

图1 地质资料目录结构树及点要素属性窗口

5 结束语

随着地质资料信息服务集群化产业化试点研究项目的深入,基于WEB的地质资料信息服务集群化产业化平台必将成为公益性地质资料服务的新模式,而传统的地质资料数据格式需进行统一化结构描述,转换成轻量级XML格式数据,以适应节点群之间网络数据的传输与交换。

[1]国土资源部.[2010]113号文《推进地质资料信息服务集群化产业化工作方案》[G].2010.

[2]钟广锐.基于OGC规范的WebGIS解决方案研究[J].微计算机信息,2007,23(31):4-8.

[3]辛继升.试论地质资料管理与社会化服务[J].国土资源情报,2008(11):26-30.

[4]李雯,谢辅雯,邹道明.XML数据交换技术的应用与研究[J].计算机与现代化,2008(1):30-34.

[5]李新通,何建邦.GIS互操作与OGC规范[J].地理信息世界,2003,1(5):15-18.

猜你喜欢

数据格式集群定义
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
MIT—BIH心率失常数据库的识读
Python与Spark集群在收费数据分析中的应用
基于RFID的户外广告监管系统的设计与实现
勤快又呆萌的集群机器人
一种融合多业务的信息化系统框架研究
成功的定义
修辞学的重大定义
山的定义