基于数据仓库的4G 地学空间数据集成技术研究
2014-01-25魏红雨路来君郝琳琳
魏红雨,路来君,郝 满,郝琳琳
(1.吉林大学a.地球科学学院,长春 130061;b.计算机科学与技术学院,长春 130012;2.黄河水利职业技术学院水资源工程系,河南开封 475003)
基于数据仓库的4G 地学空间数据集成技术研究
魏红雨1a,路来君1a,郝 满2,郝琳琳1b
(1.吉林大学a.地球科学学院,长春 130061;b.计算机科学与技术学院,长春 130012;2.黄河水利职业技术学院水资源工程系,河南开封 475003)
针对多源、海量、异构分布的4G地学空间数据集成难题,在分析联邦数据库、中间件集成、数据仓库等常用数据集成方法优劣的基础上,提出基于数据仓库与中间件的地学数据集成管理模式;以JB地区2005年度矿区及所属矿山的10种矿产作为数据源,构建基于SQL(Structured Query Language)Server的面向服务的体系结构进行验证。结果表明,该模式既能满足4G地学空间数据异构分布、网络化传输的特点,又能满足数据更新快、实时一致性高的要求,便于在云平台上实现。
4G地学空间数据;数据集成技术;数据仓库
0 引 言
4 G地学空间数据是指地质学(Geology)、地理学(Geography)、地球化学(Geochemistry)、地球物理学(Geophysics)数据。4G地学空间数据集成是以分布式网络为传输手段和平台,以实现用户应用需求为集成目标,利用数据转换技术或工具,把多来源、多尺度、多格式、多性质和海量的4G数据,有机集成为用户可识别应用的数据格式,便于数据存储、共享和传输的动态处理。常用数据集成方法处理海量数据各有优缺点,难以满足用户网络共享、实时一致以及高质量、高安全等多层次需要。
1 常用数据集成方法比较
典型数据集成方法有模式集成方法和数据复制方法。模式集成方法基本思想是为异构数据提供一个全局模式的虚拟视图,使用户可以透明地访问各异构数据源的数据。模式集成过程关键步骤是将异构数据源数据做适当的转换,映射为全局模式,便于依据全局模式规则查询和读取数据。数据复制方法是在保持数据源数据整体一致性的基础上将各数据源数据复制到指定数据源上。数据复制方法保证了数据源的数据一致性,因此,该方法可提高信息共享利用的效率。
在实际应用中常见的方法有联邦数据库法、基于中间件的集成方法和数据仓库集成方法。
1.1 常用数据集成方法
1 )联邦数据库方法[1,2]属于模式集成方法,是由相互协作而又相互独立的源数据库组成的集合体。联邦数据库管理系统控制组成系统的各个源数据库协同操作,并对其进行管理,以提高系统整体操作性能,形成联邦模式(见图1)。
2 )按集成度大小可分为紧耦合集成系统和松耦合集成系统两类。紧耦合集成系统,使用统一的全局模式,用户参与少,集成度较高;但构建全局模式算法复杂,扩展性差。松耦合集成系统,不使用全局模式,数据源的自治性强,动态性能好,但数据的集成度不高,解决异构性问题的能力不强。
图1 典型联邦数据库系统Fig.1 Classical federated database system
3 )中间件集成方法[3]也是模式集成法,其相对于联邦数据库系统集成法在集成非数据库形式的数据源具有更明显的优势。中间件主要功能是为异构数据源提供高层次的检索服务,注重于全局查询的处理和优化,有很好的查询性能和较强的自治性,可以提高查询处理的并发性,减少响应时间(见图2)。但中间件集成法只能处理只读操作,在数据读写能力上稍有欠缺。
4 )数据仓库方法[4]是典型的数据复制方法,是包含大量来自各种不同数据源并且在数据类型、格式、精度和编码等方式存在很大差异的复杂数据集合体。应用数据仓库处理数据优势在于分析决策功能,可以帮助使用者更好更快地进行决策。典型数据仓库系统由数据源、数据源库和映射复制规则组成。数据源分别由其各自的事务性数据库管理,数据仓库将来自各事务性数据库的数据按照映射规则进行集成和存储,为用户提供无缝透明的数据操作服务;但由于在数据复制过程中存在延时,因此,难以保障数据源之间数据的实时一致性(见图3)。
图2 基于中间件的典型数据集成系统Fig.2 Classical data integration system based on middleware
图3 典型数据仓库系统Fig.3 Classical data warehouse system
1.2 模式集成与数据复制方法的适用范围
模式集成方法应用全局数据视图为用户提供数据访问和操作的统一接口,数据对用户透明度高,查询等操作简单,但数据源间的交互少,不适合网络化条件下的分布传输和查询。因此,模式集成法适用于被集成的系统规模大、数据更新频繁、数据实时一致性要求高或用户查询需求很难预测的情况。
数据复制方法是先将异构数据源数据通过一定的规则映射复制到数据仓库或数据容器中,用户通过数据仓库界面访问数据,提高数据访问效率,实现数据对用户的透明。主要适用于数据源相对稳定、用户查询模式已知或有限、数据分布性较广、网络延迟较大、需要很短的处理时间且数据需要备份的场合。
2 改进的数据仓库技术及4G地学空间数据仓库架构组成
根据4G地学空间数据的多源、异构和分布等特点,以及用户查询模式已知、数据需要备份等实际情况,比较3种集成方法的特点,融合数据仓库和中间件技术,做到长短互补,为用户提供更为高效可靠的数据管理(见图4)。
图4中,ETL(Extraction Transformation Loading)过程为数据的整理转换和映射复制过程[5,6]。用户通过数据仓库与中间件进行交互,中间件在全局模式基础上,通过ETL过程将用户指令交付给数据源,数据源将返回指令通过ETL过程交付给中间件。这种数据集成的方法设计既能满足数据更新频繁、数据实时一致性要求高的情况,又能满足数据异构分布,网络延迟较大,同时又需要快速处理和进行备份的场合。
基于改进数据仓库技术的4G地学空间数据仓库体系,包括数据转换层、数据仓库存储区、应用服务层、元数据层和监测管理层(见图5)。
图4 改进的数据仓库方法Fig.4 Improved data warehousemethod
图5 4G地学空间数据仓库结构体系Fig.5 4G geological spatial data warehouse operating system
数据转换层是将原始数据转换为数据仓库数据的决定性步骤,相当于中间件方法。数据在数据转换层的操作过程为:源数据从源数据库被抽取出来存于数据处理准备区。
数据仓库存储层是4G地学空间数据仓库系统的核心部分。数据转换层数据进行ETL操作后转换为标准数据装载到4G地学空间数据仓库中。其中ETL操作过程按照实体映射、域映射、格式转换等规则完成,以保证数据质量和标准。
应用服务层为数据用户提供应用服务,包括对数据的查询、搜索、浏览服务,对数据进行挖掘融合,以便做进一步决策,以及对数据进行可视化处理等服务。
元数据层为数据仓库提供元数据服务。数据仓库中不仅存储数据还存储各种转换算法、规则及标准等操作,元数据对数据仓库中的数据及操作进行描述。
监测管理层包括数据仓库的监测工具和管理工具。监控工具主要是对各个数据仓库、数据库及数据集的服务器运行状态进行监视、分析和管理。数据管理工具是管理空间数据仓库的数据ETL过程,数据的查询、服务和备份等操作为数据仓库服务。
3 基于数据仓库的4G地学空间数据集成设计与实现
3.1 构建需求
4 G地学空间数据仓库为4G地学空间数据存储、挖掘和分析决策提供了一种新的理念,通过对源数据的抽取、清理和转换等操作实现对分散、独立、多类的4G地学空间源数据库进行集成和管理[7,8]。构建4G地学空间数据仓库应满足下列条件:1)数据仓库中的数据与数据源无关,但集成数据中载有原始数据的全部数据特征;2)数据仓库中的数据具有逻辑规范,一致性强的特点;3)数据存储管理集中;4)数据处理过程和数据存储的关联性小;5)数据含义与数据表达没有必然相关性;6)应用扩展性和组件重用性好;7)数据存储能力强;8)数据对用户透明;9)数据质量有保障;10)与编程语言和应用平台无关;11)具有完整的、作用明显的元数据。
3.2 体系设计
4 G地学空间数据仓库总体结构如图6所示(其中实线框为4G地学空间数据仓库研究内容,虚线框为其他系统研究内容)。
图6中,构建4G地学空间数据仓库的重要步骤为数据仓库的ETL分步操作。
采用Java数据库连接技术(JDBC:Java Data Base Connectivity)针对多种异构数据源建立跨平台,便于网络数据访问的接口[9,10]。根据用户提出的需求将所需数据从相应源数据库抽取出来,转换为XML文件后导入SQL(Structured Query Language)Server数据库,实现了不同网络、不同操作平台和不同数据库之间异构数据的抽取转换[11]。
在数据集成构建数据仓库的各个环节设置相应的数据检查、清洗步骤和程序,对数据进行智能数据检查和清洗,以保证各环节数据质量。根据数据库内已有的数据记录和相应元数据的内容自动检查要录入的数据。检查内容包括域名、查询命令、记录重复、记录缺损、异常记录和数据质量等。对发现的数据错误能自动更正或提示用户进行检查修改,并给出修改参考意见。
异构数据集成入库后,首先将原数据表进行拆分,按照规定的形式存储在4G地学空间数据表中,再按照数据来源、时间、空间和属性等层次进行聚合,生成数据汇总统计信息。在此基础上,可依据数据的概念层次和抽取转换规则生成相应的维表,以满足数据用户对各种专题数据的需求(见图7)。
图6 4G地学空间数据仓库系统总体结构设计图Fig.6 4G geological spatial datawarehouse system framework design
图7 4G地学空间数据仓库中ETL过程Fig.7 ETL operation of4G geological spatial data warehouse
3.3 实例设计
以JB地区2005年铁、铜、锑、水泥灰岩、石膏、膨润土、镍、泥灰岩、耐火粘土、钼10种稀有矿产的年储量为源数据,选取时间特性为集成特性,建立JB地区年度矿产管理系统。
建立矿物表,设置序号,矿物名称,矿物类别,矿物储量,矿物产地(细分到具体地址)字段,实现对数据的抽象。数据库层次关系图如图8所示。
图8 JB矿区数据库层次关系图Fig.8 Hierarchical diagram of JB mining area data warehouse
4 结语
在比较模式集成法、数据复制集成法两种数据集成模式和联邦数据库、中间件、数据仓库3种数据集成方法优缺点的基础上,针对4G地学空间数据多源、多维、多属性、异构和分布性等特点,提出基于数据仓库与安全中间件的地学数据集成管理模式,并以JB地区2005年度矿区及所属矿山查明的10种矿产作为数据源构建基于SQL Server的数据仓库管理系统,进行实例验证。试验证明,利用改进的数据仓库方法,既能满足4G地学空间数据更新快、实时一致性高的要求,又适合数据异构分布、网络化传输的特点,确保了4G地学空间数据集成的完整性、准确性和一致性。
[1]程骄杰.联邦数据库系统的原理和实现研究[D].上海:上海交通大学航空航天学院,2004.
CHENG Jiaojie.Research on Principle and Implementation of Federated Database System [D].Shanghai:Institute of Aeronautics and Astronautics,Shanghai Jiaotong University,2004.
[2]周娜娜.基于联邦数据库的信息集成[D].重庆:重庆大学动力工程学院,2006:101-103.
ZHOU Nana.Information Integration Based on Federated Database [D].Chongqing:College of Power Engineering,Chongqing University,2006:101-103.
[3]王永志,高光大,杨毅恒,等.地学空间数据仓库的构建技术[J].地质通报,2001,27(5):713-718.
WANG Yongzhi,GAO Guangda,YANG Yiheng,et al.Construction Technology of Spatial Data Warehouse [J].Geological Bulletin of China,2001,27(5):713-718.
[4]袁长河,吴永明.基于数据仓库的决策支持系统研究与建设[J].计算机工程与应用,2001,27(14):101-103.
YUAN Changhe,WU Yongming.Research and Construction on Decision Support System Based on Data Warehouse[J].Computer Engineering and Applications,2001,27(14):101-103.
[5]田扬戈,边馥苓.空间数据仓库的ETL研究[J].武汉大学学报,2007,32(4):362-365.
TIAN Yangge,BIAN Fuling.Research on ETL of Spatial DataWarehouse[J].Journal ofWuhan University,2007,32(4):362-365.
[6]谷赫.电信业务数据仓库平台中借口的设计和ETL开发[J].吉林大学学报:信息科学版,2008,26(6):652-656.
HAO He.Interface Design and Developmentof ETL in Telecommunications Business DataWarehouse Paltform[J].Journalof Jilin University:Information Science Edition,2008,26(6):652-656.
[7]陈细谦.空间数据仓库关键技术的研究与实现[D].大连:大连理工大学计算机应用技术学院,2005.
CHEN Xiqian.Research and Implementation on Key Technology of Spatial DataWarehouse[D].Dalian:College of Computer Application Technology,Dalian University of Technology,2005.
[8]葛咏.地学数据集成及空间决策支持的方法与应用[J].地球信息科学,2006,8(1):16-20.
GE Yong.Application of Geological Data Integration and Spatial Decision Support Method[J].Journal of Geo-Information Science,2006,8(1):16-20.
[9]王永志,张道勇,潘懋.基于SOA和GIS的石油潜力数据库系统[J].吉林大学学报:信息科学版,2009,27(4):371-376.
WANG Yongzhi,ZHANG Daoyong,PAN Mao.Petroleum Potential Database System Based on SOA and GIS[J].Journal of Jilin University:Information Science Edition,2009,27(4):371-376.
[10]刘威,路来君,徐昊,等.基于云计算的G4ICCS系统结构设计[J].吉林大学学报:信息科学版,2013,31(2):187-190.
LIUWei,LU Laijun,WU Hao,et al.G4ICCS System Structure Design Based on Cloud Computing [J].Journal of Jilin University:Information Science Edition,2013,31(2):187-190.
[11]王梅,周娇玲,乐嘉锦.一种列存储数据仓库中的数据复用策略[J].计算机学报,2013,36(8):1626-1635.
WANG Mei,ZHOU Jiaoling,LE Jiajin.A Data Reusing Strategy in Column-Store Data Warehouse[J].Chinese Journal of Computers,2013,36(8):1626-1635.
Research on 4G Geological Spatial Data Integration Technology Based on Data Warehouse
WEIHongyu1a,LU Laijun1a,HAO Man2,HAO Linlin1b
(1a.College of Earth Sciences,Jilin University,Changchun 130061;1b.College of Computer Sciences and Technology,Jilin University,Changchun 130012,China;2.Department ofWater Resources Engineering,Yellow River Conservancy Technical Institute,Kaifeng 475003,China)
According to the integration difficulties of the multi-sources mass isomerism and distribution 4G geological spatial data,the merits of three commonly used technologies of federated-database middleware and data-warehouse is demenstrated,geoscience data integration and managementmodel based on data warehouse and middleware is proposed;with 10 minerals of baishan mining area in Jilin province in 2005 year as data sources,the SOA(Service-Oriented Architecture)is designed based on SQL(Structured Query Language)Server to verify.The results show that the architecture is suitable for heterogeneous distribution and network transmission condition,can satisfy the requirementof data update fastand real-time consistency condition,and is easy to implement on cloud platform.
4G geological spatial data;data integration technology;data warehouse
TP392
A
1671-5896(2014)03-0293-05
2014-03-13
国家自然科学基金资助项目(41272360)
魏红雨(1981— ),男,江苏徐州人,吉林大学博士研究生,主要从事地质大数据集成分析研究,(Tel)86-15107297768(E-mail)why4008@163.com;路来君(1956— ),男,吉林德惠人,吉林大学教授,博士生导师,主要从事数字地学地理信息系统和地学空间信息技术研究,(Tel)86-18604402821(E-mail)Lulj1956@163.com。
何桂华)