APP下载

矿山系统空间数据仓库建设初探

2012-01-23赵红艳

山西焦煤科技 2012年7期
关键词:数据仓库空间数据海量

赵红艳

矿山系统空间数据仓库建设初探

赵红艳

(山西省煤炭资源地质局,山西 太原 030045)

分析了矿山系统传统数据存储特点,认为传统数据库已无法满足矿山管理应用需求,数字矿山的建设急需建立一个方便存储和提取的工具。矿山数据大多为空间数据,因此,空间数据仓库的建立能解决矿山数据的收集和存储问题,实现多源数据的管理和分享,为决策部门提供详实而准确的数据。

空间数据仓库;海量数据;元数据;源数据;数据转换工具建设

随着社会信息化的推进,以及“数字地球”、“数字城市”的提出,“数字矿山”应运而生,数字矿山于2008年末被列为国家“863”计划。我国的数字矿山建设刚刚起步,正处在快速发展阶段。山西省是矿山大省,特别是煤矿企业达数百个。山西省“数字矿山”建设迫在眉睫,任重而道远。数字矿山是以计算机及其网络为手段,把矿山的所有空间和有用属性数据实现数字化存储、传输、表述和深加工,应用于各个生产环节与管理和决策之中,以达到生产方案优化、管理高效和决策科学化的目的。而“数字矿山”终端一般由综合信息平台、信息应用与分析系统等组成,信息服务与管理是“数字矿山”建设的本质,因此,“数字矿山”建设的核心是基础数据的建设。如何收集与存储这些历史数据,是应该首先解决的问题。空间数据仓库理论、技术及产品已在许多领域取得较明显的经济效益,尤其在美国,空间数据仓库理论与技术已在许多领域取得实质性应用。将空间数据仓库理论与技术引入我国是在20世纪90年代末期,北京大学遥感与地理信息系统研究所在空间数据仓库学术方面做了不少工作,走在全国的前列。但是,山西省数字矿山正处在起步阶段,急需建立一个符合山西省地方经济特色的空间`数据仓库及其技术理论。

1 矿山系统传统数据特点分析

山西省许多矿山特别是煤矿系统还没有建立空间数据仓库,地理信息系统在煤矿系统的应用与研究大多局限于数据采集、维护、查询、综合管理与分析上,这些研究与应用大多基于物理上分散存储、数据格式多样的空间数据上,造成空间数据库存储的冗余量增大,而且无法对大量动态的、新的空间数据信息进行有效管理,无法满足矿山的空间决策分析。需要集成这些异质异构的海量数据,形成一个方便应用系统获取数据、统计分析的统一模式,满足用户对空间辅助决策分析任务的需求。传统数据特点主要表现在以下几个方面:

1.1 各种异构异质数据

多年来,各矿山企业积累了大量地质报告、图件等不同的地理信息系统或其他信息系统中的应用系统数据,目前,这些数据存贮在不同的平台和一般的数据库中或大多以文件形式存储于计算机上,这些历史数据、多源异质异构数据、不一致的数据具有数据量大、形式多样、来源丰富、结构复杂等特点,从而形成了各自的异质异构数据或数据库系统。

1)建国以来,国家对山西煤炭资源进行了全面的地质勘察,留下了大量的地质资料、测绘资料,这些资料是山西省国民经济建设的重要财富。这些宝贵资料自20世纪50年代以来均以纸张记载,这些纸质材料经过数字化后,留下很多相对零散的存放于计算机磁盘上的数据。2)多年来,大多单位各自生成的测绘数据库分别由不同商品化软件系统(如Mapinfo、Arc/Info、GeoMedia、MapGIS、GeoStar 等)进行管理,形成了异质异构的多源数据。3)由于缺乏数据规范,各单位对同种数据存在精度不一致、标准不统一的问题。因此,面对这些海量数据,需要建立一个能够为数字矿山服务的便于分析与决策的数据集,从而为高层决策提供全面的数据环境。

1.2 矿山基本资料、影像及空间三维数据

“数字矿山”是基于网络的三维交互式地理信息系统,功能丰富多样。三维场景由航空、卫星影像、地形高程数据及其他二维和三维信息融合而成。其功能主要有:三维地质模型、三维矿床模型、地测数据处理、矿石品位估算、自动采掘规划、地质数据快速测量分析、井下人员设备定位等,所涉及的数据主要有:煤矿基本信息、巷道信息、人员信息、各种地质报告、矢量/栅格图件、三维模型等。其中,三维模型建筑纹理复杂,形态各异,导致存储数据量较大。“数字矿山”不仅有地上数据,还有地下数据。地上数据要求不仅能够依据客户端的视角高度和速度提供不同分辨率的影像,还要求能在基础三维地形图上适时查询与分析。地下数据包括巷道信息及人员定位信息等,以达到适时查询与分析。

1.3 传统存储方法弊端

目前,对于图像数据的管理大都采用“表+实体”的方法,即图像数据以文件形式存放于指定的计算机目录下,在数据库表中只反映图像数据文件的存储路径;在网络空间数据库中,商用数据库的实体关系模型和GIS的空间实体模型之间的映射关系通过“空间数据库引擎”来完成。这种管理模式不仅给数据的维护增加了难度,给数据的安全带来一定的隐患,同时也难以反映空间数据的复杂性,在数据元素间维持复杂的联系。因此,要真正做到各类数据在数据库中的安全管理,急需一个集成的海量数据有效管理的平台。

2 空间数据仓库的概略设计

2.1 空间数据仓库具有空间数据的海量特性

空间数据仓库是在普通空间数据库的基础上发展起来的,具备空间数据库管理系统应有的特点—海量特性:1)海量数据的存储管理能力。矿山系统空间数据涉及领域较广,而且随着时间推移,各级空间数据中心所采集的各种类型空间数据呈海量增长的态势,海量空间数据的存储、管理是空间数据仓库首先要解决的问题。2)海量数据的分析处理能力。海量数据的应用大多是基于网络的,数据的网络传输、处理的速度很关键,同时要考虑多用户并发访问的调控等问题。因此,应充分利用B/S、C/S的各自优势,相互补充的同时,更要有强大的客户端分析工具。3)海量数据的安全性。随着用户的增多,来自各个方面的各种安全隐患也会随之而增加,WEBGIS需要有完备的网络安全防范机制,除了防止系统受到侵害以外,还应根据不同的用户设置不同的权限。4)良好的数据备份保护性能,矿山系统是一个面向多领域多用户的应用和管理系统,空间数据仓库是一个综合体,在不同领域的应用过程中(如数据裁切等),很可能造成共享数据丢失。因此,系统数据要有良好的存储备份机制,防止出现故障后系统修复困难。

2.2 空间数据仓库建设概念设计

现实世界的数据绝大多数都是具有空间性质的,空间数据具有空间性、抽象性、多尺度与多时态性,在数据仓库的基础上,引入空间维的概念,根据决策主题从不同的GIS应用系统中截取从瞬态、区段直到全球系统的不同规模的时空尺度上的信息来建立空间数据仓库(SpatialData Warehouse,SDW)。空间数据仓库的建立难度和复杂性要比以事务型数据库为主要内容的数据仓库更大,如何设计空间数据仓库的多维数据模型以容纳多源、多时态、不同比例尺的多尺度空间数据并满足日常的数据分析任务,分析工具和数据挖掘工具仍有待深入研究。

空间数据仓库是在数据仓库的基础上引入空间维数据,增加对空间数据的存储、管理和分析能力,根据矿山主题从不同的GIS(地理信息系统)中截取不同时空尺度上的信息,从而为生产及有关人员调动安排提供信息服务。因此,空间数据仓库不仅具有数据仓库所具有的面向主题化的集成、数据的安全稳定和随时间变化等特点,还具有海量数据存储、时空数据的动态性、多尺度等特点。是一种强大的网络数据服务器技术,能够实时传输三维地理地形数据集,其中流方式地形传输服务器能够同时向数以千计的客户传送三维地形数据集。这种服务器传送由ETL创建的测绘专业空间数据产品,如地形数据集或通过扩展模块传输原始格式的影像和高程数据并实时生成三维地形数据集,最终形成基于网络的地理参考应用程序。另外,基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析[1],提供综合的多维的面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。

空间数据仓库是存储、管理空间数据的一种组织形式,其物理实质仍是对数据的高效存储系统,由于使用目的不同,其存储的数据在量和质以及前端分析工具上与传统GIS应用系统有所不同。空间数据仓库按照功能划分为以下几部分:元数据、源数据、数据变换工具、空间数据仓库、客户端分析工具。其体系结构示意图见图1:

图1 空间数据仓库体系结构示意图

如图1所示,矿山系统留下的各种历史资料等处于空间数据仓库系统的最底层,应用系统处于空间数据仓库系统的最上层。它从基层各种数据库系统抽取数据,经过空间数据仓库的集成融合提交给应用系统使用。因此,空间数据仓库实际上就是一个多源数据的共享和处理机制。在该机制中,用户通过空间数据仓库这个统一的界面,访问多个数据源数据库系统,最终获取单个或集成的应用数字产品。

2.2.1 元数据

元数据主要用于描述基础地理数据库有关的基本信息、数据日志信息、空间数据表示信息、参照系统信息、数据质量信息、要素分层信息、发行信息和元数据参考信息等,元数据将对数据管理、空间数据建库起重要的作用,是空间数据仓库的重要组成部分。元数据的根本目的是描述源数据基本信息、空间数据仓库主要内容、数据变换及各种操作信息,促进数据的高效利用,另一个目的是解释数据,方便用户查询、了解空间数据仓库中的数据结构。通过元数据[2]可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理等。

2.2.2 源数据

自从山西省进行煤矿资源整合后,数字矿山项目面对的均为大型矿山,空间数据仓库为了支持高层决策分析生成的单个/集成数字产品需要大量的数据。这些数据除了是来源于不同单位使用不同时间开发出的软件或国际国内商品化软件生产的测绘数据外,另外还可以是高分辨率卫星影像、航空像片、数字高程模型以及按照统一坐标无缝拼接而成,可迅速建立基于真实影像的3维数字城市模型。总之,矿山数据的来源丰富,类型为多样式存储或分布式存储。这些异质异构的测绘数据及数字矿山新型数据为空间数据仓库提供数据源。

2.2.3 数据变换工具

为了充分利用空间数据仓库中的数据,源数据必须经过提炼、转换、空间变换将不同数据格式,不同分辨率,不同大小的数据融合以最适宜的方式进入空间数据仓库,实现异构数据源的相互操作及转换。数据提炼主要指数据的优化与抽取,如在保持数据的完整性和相容性的前提下,对数据项整理重构、去除冗余信息、同时补充不断涌出的新数据;数据转换是指在数据提炼整合的基础上,对新的动态数据根据统一数据编码和数据结构对数据集进行各种运算以及语义转换等;空间变换可以理解为对空间数据统一数据空间坐标和比例尺,数据转换工具对原始数据库和目标数据库中相对应的表里具有相同值域的同名数据字段能转换,不同的数据字段也能转换。对于某一具体的数据表,可以使用多个字段做任意组合的设定条件来转换数据,保证数据的一致性和完整性。例如,通过融合遥感影像、数字高程模型和地形数据,创建具有精确坐标的三维地形数据库。

2.2.4 空间数据仓库

数据共享是现代信息社会的一个基本的特点,GIS数据的规范化和标准化直接影响到信息的共享,但是目前空间数据的标准化仍然存在不少问题,还缺乏统一的标准和规范,缺乏地理信息的法规,各部门间缺乏必要的联系和协调,对于科学的分类和统计缺乏严格的定义,建立的系统数据杂乱,难以相互利用,信息得不到有效地交流和共享,将来源不同的各种异质异构数据按统一的标准和规范集成到一个数据库中,有利于空间数据的高效存储,使得在桌面应用程序中,用户可以浏览分析空间数据,并可以对其进行编辑。也可以在上面添加二维或者三维的物体、浏览路径、场景以及地理信息文件。也就是通过数字产品的融合使所创建的数据库相连接,并且可以在网络上发布。再通过服务器端软件,允许用户通过网络来访问地形数据库及其他数据库。

2.3 数字矿山空间数据仓库建设

数字矿山是当今采矿科学、信息科学、人工智能、计算机技术和3S技术发展高度结合的产物,它将深刻改变传统的采矿生产活动和人们的生活方式。数字矿山建设涵盖内容很多,基础信息数字化是数字矿山解决方案的特点之一。“数字矿山”基于地理信息系统而诞生,所涉及的数据必然是空间的,空间数据具有空间性、抽象性、多尺度与多时态性。它是一个基于网络的三维交互式矿山综合系统,所涉及的数据必然是多样的。不仅有矿山基础数据,还有大量地理空间数据。

数字矿山由于涉及权属单位广,数据多样繁杂,数据库和用户功能集成化,对数据库设计提出了更高的要求,许多早期的的空间数据库设计过程强调的是数据库的物理实现,注重于数据记录的存储和存取方法,设计人员往往只考虑各系统各单位独立功能的实现,从而只考虑了少数几个数据库文件的组织,然后选择适当的索引技术,以满足实现功能和性能的需要,空间数据仓库建设则对数据库设计提出了更高的要求。

2.3.1 数字矿山空间数据的变换

开发数据转换组件,能实现对各基层专业单位的格式进行转换、读取和无缝管理;对于短期内不会更新的数据,将 shape 文件、ArcSDE、Oracle Spatial、SQL Server2008、PostGIS等空间数据要素进行处理,生成静态缓存;对于业务系统数据每天都在发生变更的数据,将 ArcSDE、Oracle Spatial、SQL Server2008、PostGIS存储的空间数据要素动态更新,当原始矢量数据更新之后,缓存能够随之更新。

2.3.2 数字矿山空间数据仓库元数据管理

元数据通常用以记录矿山常用知识及图件等数据的形成规律等。系统的元数据管理[3]要点如下:参照国家现有的空间元数据标准,建立山西数字煤矿空间元数据的结构模式;设计实现空间元数据库采集器、空间元数据服务器,实现空间元数据的输入、发布、查询等功能;设计空间元数据网关,实现不同网络协议的转换、客户访问代理、服务器注册管理以及网络客户管理等功能。

要对各种测绘数据库实现数据变换以便按照统一标准对数据入库和从空间数据仓库中提取应用数据,就必须对来源广泛的源数据进行研究,建立空间数据仓库元数据标准体系。

2.3.3 数字矿山多维空间分析

在图1上层的应用系统中,将不同分辨率、不同大小的数据进行融合、投影变换,构成一个公共的参考投影,通过叠加融合航片、卫星影像、数字高程模型以及各种矢量地理数据(二维及三维信息),迅速方便地创建海量三维地形数据库。这些海量三维地形数据库加上时间信息,形成四维信息。用户可以实时创建自定义的虚拟三维可视化场景,并进行浏览、查询和分析。空间数据变换工具能够创建如同真实照片般的地理精准的三维地球模型。它可以对数据以其本身格式的方式进行融合来创建基于三维的地形模型,并提供给客户端进行数据层和其他内容的叠加。

3 总述

研究空间数据仓库的存储技术,集成多源异构测绘数据,实现数据的有效管理。应用层在一个空间数据仓库的平台上可单独访问任何一个数据库系统,并检索得到单个的测绘数字产品,也可同时访问若干个数据库系统得到集成的测绘数字产品。由此可见,空间数据仓库是个虚拟的数据仓库,库中并不存储数据实体,而是存储集成数据模型和元数据模型。总的来说,空间数据仓库可以解决传统数据库无法解决的问题,有效地实现空间数据的深层次分析和挖掘,提供更为实用的决策服务。当前随着经济的发展,空间数据仓库被应用到很多行业中并已有一定成果,它的发展可以有力地支持数字矿山的建设,其发展前景广阔,但存在的问题仍相当多,需进行进一步的完善和发展。

[1] 邹逸江.空间数据立方体分析操作原理[J].武汉大学学报:信息科学版,2004,29(9):822-825.

[2] 张 立,龚健雅.地理空间元数据管理的研究和实现[J].武汉测绘科技大学学报,2000,25(2):127-130.

[3] 吴金华.空间数据仓库的元数据研究[D].武汉:武汉大学,2004.

The Primary Exploration of Constructing the Spatial Data Warehouse in Mining System

Zhao Hong-yan

The storage characteristics of traditional data in the mining system is analyzed.Traditional database is considered unable to meet the mine management application.The construction of the digital mine needs to be established,which is a convenient storage and extraction tools.Mine data mostly are for the spatial data,therefore,the establishment of the spatial data warehouse can solve the mine data collection and storage problem,realize the source data management and sharing and provide detailed and accurate data to decision -making departments.

Spatial data warehouse;Massive data;Metadata;Source data;Data transfer tool construction

TD1

A

1672-0652(2012)07-0049-04

2012-05-21

赵红艳(1981—),女,山西五台人,2005年毕业于太原师范学院,助理工程师,主要从事数字矿山研究工作(E -mail)gis200102@163.com

猜你喜欢

数据仓库空间数据海量
一种傅里叶域海量数据高速谱聚类方法
海量快递垃圾正在“围城”——“绿色快递”势在必行
基于数据仓库的住房城乡建设信息系统整合研究
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一个图形所蕴含的“海量”巧题
元数据驱动的多中心空间数据同步方法研究
基于数据仓库的数据分析探索与实践
基于文件系统的分布式海量空间数据高效存储与组织研究
客户端空间数据缓存策略