APP下载

国家基础地质数据库整合与集成基本技术框架

2016-07-05左群超牛海波梁国玲戴爱德李建国

中国矿业 2016年6期
关键词:空间数据数据仓库框架

宋 越,左群超,牛海波,梁国玲,戴爱德,李建国,周 萌

(1.中国地质大学(武汉)国家地理信息系统工程技术研究中心,湖北 武汉430074;2.中国地质调查局发展研究中心,北京 100037;3.国土资源部地质信息技术重点实验室,北京 100037;4.中国国土资源航空物探遥感中心,北京 100083;5.中国地质科学院水文地质环境地质研究所,河北 石家庄 050061;6.中国地质科学院,北京 100037;7.中国地质环境监测院,北京 100081)

国家基础地质数据库整合与集成基本技术框架

宋越1,2,3,左群超2,牛海波4,梁国玲5,戴爱德6,李建国4,周萌7

(1.中国地质大学(武汉)国家地理信息系统工程技术研究中心,湖北 武汉430074;2.中国地质调查局发展研究中心,北京 100037;3.国土资源部地质信息技术重点实验室,北京 100037;4.中国国土资源航空物探遥感中心,北京 100083;5.中国地质科学院水文地质环境地质研究所,河北 石家庄 050061;6.中国地质科学院,北京 100037;7.中国地质环境监测院,北京 100081)

摘要:国家基础地质数据包括区域地质、地球物理、地球化学、遥感影像、地质钻孔、区域海洋、水工环、矿产资源等数据,这些数据由于物理分散、建库标准不同、过于依赖业务系统等原因,难以满足社会大众、专业机构、管理人员等各类用户需求。为了提高国家基础地质数据的共享与服务,经过深入分析、实验、综合研究,提出了基于元数据、数据库、数据仓库、GIS、网络、Web等技术的、物理分布逻辑集中的国家基础地质数据库整合与集成技术框架。

关键词:地质数据库;整合集成;技术框架

国家基础地质数据是反映国家地质矿产资源、水文环境资源、航空物探遥感资源等的现状、利用、规划的主要载体,是地质调查信息化建设的基础,是地质调查业务的核心体现,包括区域地质、地球物理、地球化学、遥感影像、地质钻孔、区域海洋、水工环、矿产资源等数据,具有重要作用[1-2]。

通过多年的基础地质数据库建设工作,中国地质调查局系统及相关单位已积累了大量的全国规模的基础地质数据库资源,国家基础地质数据库体系已基本形成。如何让国家基础地质数据资源“看得见、可获取、用得起、可持续”、服务于拥有不同需求、多层次的用户群,是一个非常重要、异常困难、又必须亟待解决的问题。

为了提高国家基础地质数据的共享与服务,满足各类用户需求,笔者依托《国家基础地质数据库整合与集成》项目,组织中国地质调查局发展研究中心、中国地质环境监测院、中国地质科学院、中国地质科学院水文地质环境地质研究所、中国国土资源航空物探遥感中心等单位,分别对各自所建的部分基础地质数据库资源现状进行了系统地调研,在现状调研结果并总结存在问题的基础上,结合现实情况和应用需求,经过深入分析、实验、综合研究,提出了基于元数据、数据库、数据仓库、GIS、网络、Web等技术的、物理分布逻辑集中的国家基础地质数据库整合与集成技术框架。

1现状及问题

1.1数据异质异构情况为综合利用带来困难

数据异质异构情况主要表现为每个数据库都使用自己特定的数据库服务系统、数据结构或数据格式、数据语义、应用系统(含管理功能),造成综合使用多类数据库的数据时相当困难。

根据调研,这些数据库的形式采用“数据库”或“数据库+一般文件”的方式,空间数据的生产基本采用MapGIS或ArcGIS数据格式,属性数据管理包括如下一些软件:Oracle、SQLSevrer、Access MDB、Excel、Word、PDF等。另外,即使是相同的数据生产管理软件,由于数据生产时的人员不同,同一类数据在数据分层、属性表结构等方面也会有所不同。

1.2数据依赖于业务系统,不利于数据管理与利用

诸多基础数据库或数据资源处于一个数据库绑定一个数据应用系统(含管理功能)、自成体系封闭,不利于数据综合管理与应用、不利于提供数据共享服务。

数据库或数据资源管理与应用捆在一起,违反了数据库本身应相对独立于具体业务应用的基本原则,造成了数据库管理系统或应用系统功能定位、层次不清。如,一个特定的数据管理系统,从数据的录入建库到数据的专业和综合应用集于一身,追求软件系统大而全,不利于软件系统的维护、升级。

数据本身与数据展现之间的关系,没有处理好,导致数据本身及其相关数据产品,被某一软件厂商的软件系统“套牢”,直接影响数据库可持续维护、升级管理、数据交换。

1.3建库技术标准不统一,不同种类数据难以集成与共享

因若干已建设的数据库或数据资源,是各个历史时期的成果,执行各自的规范。为了共享需要重新整理,其工作量不仅巨大,也不是决问题之道。

没有统一的数据模型及编码体系,严重影响地质调查数据一体化组织管理、互操作、数据交换、数据共享。

各单位所建的数据库或数据资源,虽然能较好地服务于本单位、局部群体、或本行业,但从更广、更高的层面而言,基本上属于“信息孤岛”或“体内循环”,没有充分发挥已积累的数据资源或数据产品应有的共享价值。

1.4缺乏数据库应用与维护专业人员

不少基础数据库或数据资源属于项目数据库,项目工作一旦结束或项目组一旦解散,数据库维护工作即刻终止。若不再额外安排数据库维护项目,则项目数据库即成为“死”库。数据库建库必备的技术文档资料不完备,不利于持续维护更新。

诸多数据库或数据资源所建单位或部门,提供数据服务较单一,较多的服务是提供原始数据、专题数据,综合的、深加工的数据产品很少。

2技术框架

2.1目标定位

立足于需求并结合数据库资源现状与存在问题分析,在框架设计之初,确定了以下四方面基本目标要求。

基于满足不同用户群或不同层次用户的需求,进行功能设计。根据数据资源或数据产品使用权限及保密规定,面向社会大众:提供科普类的地质成果宣传资料;面向地质专业科研机构:提供各类地质专业数据的综合查询、统计分析等;面向地质专业管理人员:除提供数据查看、统计分析外,还提供数据采集、修改、维护等功能。

基于伸缩良好的元数据规范,对分散系统中的异构数据集进行整合,对集中的元数据信息进行统一管理,并为用户提供单一入口查询的整合方案。在保持数据一致性同时,提供良好的可扩展性[3-4]。

基于统一的平台框架,构建物理分布、逻辑集中的国家基础地质数据整合与集成数据库及系统。维持原基础数据库或数据资源的自治、分散、归属现状,遵循“谁建库谁维护谁服务”的原则,保持数据库或数据资源的采集、管理、维护、更新的专业性、权威性和真实性。

基于已存在的数据库或数据资源实际情况,研究制定整合与集成相关技术要求。明确甄别已存在数据库或数据资源是否需要整改的程度或状况,即:哪些数据资源必须通过完全改造、哪些数据资源必须通过部分的整理,哪些数据资源不需要作任何整理,哪些数据资源只是依据整合与集成相关技术要求完善现有数据库管理系统,方能逻辑集成到国家基础地质数据库内。有计划、分阶段开展国家基础地质数据库整合与集成工作。

2.2框架设计

依据基础数据资源集成整合总体目标和基本原则,通过深入综合研究提出了国家基础地质数据整合集成基本技术框架。该整合集成基本框架,总体上分四个层次:①地质数据资源层;②普通元数据层;③地质数据仓库及仓库元数据层;④地质数据及数据产品应用层。四个层次之间,除了依赖相关硬件、软件、网络、协议、接口建立联系之外,最重要的联系就是元数据标准和元数据本身[5-7]。见图1。

图1 国家基础地质数据库整合集成基本技术框架

2.2.1地质数据资源层

地质数据资源层,是由已存在的若干地质数据库资源集合组成,分别按所建地质数据库资源的单位或机构进行物理分布组织,即数据资源原来归属在哪个单位或机构,现在还应在哪个单位或机构,保持归属不变。在国家基础地质数据库整合集成基本框架中,地质数据资源层主要提供元数据(原始数据集元数据、专题数据产品元数据)和地质数据仓库所需的相关主题的、综合的、不同时段的数据。

2.2.2普通元数据层

物理分布的各单位或机构所建的数据库集及相关管理系统,应按国家基础地质数据库整合集成系统元数据规范和技术要求,提供所建的数据库集内所有原始数据集和数据产品的元数据目录及元数据本身,作为国家基础地质数据库整合集成基本框架的“地质数据仓库及仓库元数据层”中“仓库元数据”的数据元数据的引用部分,用以指示如何查询、浏览、获取、提取、或使用数据集或专题数据产品。普通元数据层由各单位或机构数据库资源元数据及元数据服务器构成。

2.2.3地质数据仓库及仓库元数据层

数据仓库不同于已经建好的操作型数据库,数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、随时间不断变化的数据集合。数据仓库从多个分布的、自治的、异质的数据源获取原始数据,经过加工处理,存放在数据仓库中,再通过数据仓库的访问工具,向数据仓库的用户提供统一、协调和集成的信息环境,支持决策过程和深入综合分析。

在国家基础地质数据整合集成基本技术框架中,地质数据资源层涵盖的各单位或机构所建的数据库集及相关管理系统属于操作型数据库系统,是国家基础地质数据整合集成基本框架中地质数据仓库的数据源。地质数据仓库的数据内容主要包括两部分,即:①按主题综合数据或综合程度较高的数据产品;②地质数据仓库元数据。

按主题综合数据或综合程度较高的数据产品之综合程度,是单个单位或机构所建的数据库集及相关管理系统无法做到的。它是面向主题的,是在较高层次上的数据归类、抽象与综合。它是集成的,是从原有的分散的数据库数据中抽取出来的,在进入数据仓库之前,经过加工与集成过的。它是稳定的,操作型数据库中数据保留较短的一段时间,主要用于日常的事务处理,在数据仓库中的数据反映的是一段相当长的时间内的历史数据内容,是稳定的、不可更新的,主要供决策人员分析之用。它是随时间变化的,数据仓库随时间变化不断增加新的数据,删去旧的数据,同时它包含大量的跟时间有关的综合数据,随时间的变化不断地进行重新综合。它是支持管理决策的,数据仓库中的数据用于高层领导或权威专家做决策之用。

地质数据仓库元数据,依据用途分为普通元数据和综合元数据两类。普通元数据是关于各单位或机构所建的数据库集及相关管理系统内原始数据集、单一专题数据产品的描述;综合元数据是关于地质数据仓库系统从各单位或机构所建的数据库集中抽取、归类与抽象、综合的数据产品的描述。

在国家基础地质数据整合集成基本技术框架中,地质数据仓库元数据具有要作用:第一,它指示地质数据仓库如何从多个单位或机构所建的数据库集(物理分布的)中提取出数据种类、数据标准、数学基础、数据格式等方面不同的地质空间数据;第二,它指示终端用户、客户端、或应用系统如何从地质数据仓库中提取出标准的集成的地质空间数据,为用户提供地质空间数字产品服务。

地质数据仓库及仓库元数据层,主要由地质数据仓库、地质数据仓库元数据库、地质数据及数据产品元数据管理系统、地质数据仓库应用服务系统、以及多源数据抽取、多源数据转换、数据产品服务、数据格式交换等相关服务模块构成。

2.2.4地质数据及数据产品应用层

在地质数据及数据产品应用层中,地质数据及数据产品有两个来源:①源于各单位或机构所建的、物理分布的数据库集及相关管理系统。主要是原始数据、单一专题数据产品;②源于地质数据仓库中从物理分布数据库集抽取的、按主题综合的数据产品。

地质数据及数据产品应用层,由终端用户(普通用户;一般专业用户;高级专业用户及管理者)、客户端(应用系统1、应用系统2、…、应用系统n)、WEB浏览器;分C/S、B/S两种技术架构;依据数据保密要求和相关规定,分内网或专网、外网服务模式。

终端用户,可以利用客户端或WEB浏览器,查询、浏览地质数据仓库中仓库元数据目录及元数据本身,利用元数据描述的地质数据集及数据产品(单一专题的、综合主题的)的内容、质量、状态等其他特性信息(地质空间元数据包括:①空间数据标识信息;②空间数据区域范围信息;③空间数据邻接信息;④空间数据表示信息;⑤空间数据数学基础信息;⑥空间数据集内容信息;⑦空间数据质量信息;⑧空间数据分发信息;⑨空间数据安全信息;⑩空间数据联系信息;10)空间数据时间信息),用户可以弄明白诸如:“需要的数据在哪里?”、“这些数据集质量如何?”以及数据覆盖范围、源空间数据地图的投影方式、数据生产日期、数据的变动、数据的精度等一系列问题,由此可确定该数据是否符合自己的需求。

客户端(应用系统)、WEB浏览器等软件,利用地质数据集及数据产品元数据信息,可以检索、获取、提出、转换、处理所需的地质数据集或数据产品,依据元数据类别(普通元数据或综合元数据),通过地质数据仓库系统,可以从指定某单位或机构所建的数据库集中访问原始数据集或单一专题数据产品或从地质数据仓库中访问高度综合的数据产品。

2.3关键技术

建立基础地质数据库整合集成基本框架,赖以实现的数据库、数据仓库、GIS、网络、WEB等相关技术已是成熟技术,真正需要突破的关键技术有如下几个方面。

2.3.1地质数据集及数据产品分类分级体系

为了便于对地质数据仓库元数据进行明确描述,须寻求粒度适应范围广、更形式化、领域共享强的分类分级体系,较合适的分类分级体系是采用地质领域本体成果,基于地质领域本体分类分级、语义以及编码体系,再结合元数据描述技术,对国家基础地质数据库整合集成系统内逻辑集成的各类地质数据集及数据产品进行描述,实现共享。

2.3.2地质数据仓库元数据框架

地质数据仓库元数据由十一类基本信息组成,见图2。

图2 地质数据仓库元数据框架

地质数据仓库元数据按层状结构进行组织,由元素和复合元素子集组成。元素是元数据最基本的信息单元,复合元素由多个不同的元素组合而成,一个信息单元内容包括元素编号、名称、定义、数据类型和域值,见图3。

图3 地质数据仓库元数据组织结构

2.3.3地质空间数据仓库数据模型及数据抽取技术

地质空间数据仓库主要内容包括按一定主题从多种数据源种抽取的综合数据、数据产品(综合的、单一的)元数据、数据元数据等,因此,地质空间数据仓库数据模型的相关内容,主要描述综合主题数据、数据产品(综合的、单一的)元数据、数据元数据等信息,物理分布的数据源按一定权限、程序、法规等许可向地质空间数据仓库提供相应数据等信息。

3实验结果

根据中国地质调查局总体安排,笔者依托《国家基础地质数据库整合与集成》项目,组织中国地质调查局发展研究中心、中国地质环境监测院、中国地质科学院、中国地质科学院水文地质环境地质研究所、中国国土资源航空物探遥感中心等单位,开展了11种地质调查数据库资源、11种环境地质数据库资源、12种地质科学数据库资源、9种水文地质数据库资源、10种航空物探遥感地质数据库资源,汇总了53种数据库资源现状调研成果。在此基础上,按照基础地质数据整合集成总体框架,各相关单位编制了地质调查、环境地质、地质科学、水文地质、航空物探遥感等各类数据资源整合集成研究报告。在此基础上,初步建立了基础地质数据库整合与集成子系统,各子系统互连形成物理分布逻辑集中的国家基础地质数据库整合与集成系统技术原型。

各单位所建的这些数据库集成及相关管理系统,除了服务于本单位或本部门外,需要向国家基础地质数据库整合集成基本框架提供元数据(包括原始数据集元数据、专题数据产品元数据)和地质数据仓库所需的相关专题的、综合的、不同时段的数据。另外,地质数据资源所属各单位或机构,仍按相关数据库集的采集、收集、整理、维护、加工等既定的技术要求和管理规定,继续更新、维护、管理本单位或机构拥有的地质数据库资源。

以环境地质数据整合与集成服务平台为例,见图4。地质环境信息服务平台是一个分布式跨专业、跨地域的集成平台,是以各个专业、各个地质环境工作机构为依托的规模各异的信息平台节点构成。平台框架是由中心平台和一系列专业平台及各地的平台节点构成。根据现有开展地质环境工作的机构设置(主要包括中国地质环境监测院、局属地质环境专业中心、各省级地质环境监测院或总站等),信息服务平台按照其职能、地域分布来部署,形成一个覆盖全国、跨专业的互相连接的信息网站服务节点群。平台以基于服务的管理、目录服务和框架系统等为核心,围绕基于地图和动态数据可视化等内容进行服务开发、封装和部署。形成一套紧密结合的节点系统。各个子结点通过服务管理功能进行任务分配、调度和协同工作,最终构成具有松散耦合特征的分布式部署的节点集合和服务群体。

图4 环境地质数据整合与集成服务平台体系结构

4结语

本文在调研相关单位地质基础数据建设现状的基础上,提出了基于元数据、数据库、数据仓库、GIS、网络、Web等技术的、物理分布逻辑集中的国家基础地质数据库整合与集成技术框架,研究并提出了关键方法技术。本文所提出的技术框架及关键方法技术只是一个初步,还有待于深化研究、有计划、分阶段开展相关工作。

笔者建议进一步调研国家地质数据资源积累与动态更新工作方法与机制,更新完善国家地质数据库标准规范,特别是在当前信息技术高速发展的情况下,研究大数据及云计算等相关技术在基础地质数据整合与集成中的应用,为整合集成工作提供新的思路和方法。

参考文献

[1]李胜强.国土资源基础数据库整合与集成建库模式与实现[J].国土资源信息化,2005(3):9-14.

[2]张翠光,冯艳芳,侯荣玖.关于制定国家基础地质数据采集、更新与发布管理办法的初步研究[J].国土资源情报,2009(2):14-17.

[3]顾巧祥,祁国宁,纪杨建,等.基于元数据的产品数据本体建模技术[J].浙江大学学报:工学版,2007,41(5):736-741.

[4]张宇,蒋东兴,刘启新.基于元数据的异构数据集整合方案[J].清华大学学报:自然科学版,2009,49(7):1037-1040.

[5]陈伟清,刘彦花.城市规划多源数据整合与数据库建设[J].广西大学学报:自然科学版,2009,34(1):106-110.

[6]张鸣之,王勇.国家级地质环境数据仓库的设计与实现[J].地球科学:中国地质大学学报,2013,38(6):1347-1355.

[7]刁明光,薛涛,李建存,等.基于地质信息元数据标准的多源空间数据管理系统[J].国土资源遥感,2013,25(1):165-170.

Basic technical framework of national basic geological database integration

SONG Yue1,2,3,ZUO Qun-chao2,NIU Hai-bo4,LIANG Guo-ling5,DAI Ai-de6,LI Jian-guo4,ZHOU Meng7

(1.National Engineering Research Center for Geographic Information System,China University of Geosciences(Wuhan),Wuhan 430074,China;2.Development & Research Center,China Geological Survey,Beijing 100037,China;3.Key Laboratory of Geological Information Technology,Ministry of Land and Resources,Beijing 100037,China;4.China Aero Geophysical Survey & Remote Sensing Center for Land and Resources,Beijing 100083,China;5.Institute of Hydrogeology and Environmental Geology,Chinese Academy of Geological Sciences,Shijiazhuang 050061,China;6.Chinese Academy of Geological Sciences,Beijing 100037,China;7.China Institute of Geological Environment Monitoring,Beijing 100081,China)

Abstract:National basic geological data,including all kinds of basic geological data,such as areal geology,geophysics,geochemistry,remote sensing image,geological drilling,regional ocean,hydrogeology,mineral resources.Due to the physical dispersion,different database standards,too dependent on the business system and other reasons,these data are difficult to meet the demand for public,professional organizations,and managers.In order to improve the national basic geological data sharing and service,during in-depth analysis,experiment,and synthesis,based on the technology of metadata,database,data warehouse,GIS,Internet and web technology,the paper proposed basic technical framework of national basic geological database integration with physical distribution and logical collection.

Key words:geological database;integration;technology framework

收稿日期:2016-01-07

基金项目:中国地质调查局“国家基础地质数据库整合与集成”项目资助(1212010815001)

作者简介:宋越(1984-),女,硕士,工程师,主要从事计算机软件、GIS应用等方面的研究。E-mail:syue@mail.cgs.gov.cn。 通讯作者:左群超(1964-),男,硕士,教授级高级工程师,研究方向为矿产资源潜力评价、地质空间数据整合与集成、计算机应用软件研发或平台设计。E-mail:zuoqc163@163.com。

中图分类号:TP311.52;P628.4

文献标识码:A

文章编号:1004-4051(2016)06-0154-06

猜你喜欢

空间数据数据仓库框架
有机框架材料的后合成交换
框架
K-框架和紧K-框架的算子扰动的稳定性
基于数据仓库的数据倾斜解决方案研究
GIS空间数据与地图制图融合技术
基于数据仓库的住房城乡建设信息系统整合研究
探析电力系统调度中数据仓库技术的应用
关于原点对称的不规则Gabor框架的构造
基于数据仓库的数据分析探索与实践
网格化存储的几项关键技术分析