基于联邦数据库的数据集成体系研究
2009-09-21邹卫国郭建胜刘建军王毅
邹卫国 郭建胜 刘建军 王 毅
[收稿日期]2008-10-28
[作者简介]郭建胜,男,中国人民解放军空军工程大学工程学院教授。
[摘 要]数据集成可分为实际存储方式和虚拟方式两种。联邦技术属于虚拟方式,是进行数据集成的有效途径之一。本文对“信息孤岛”和“应用孤岛”的形成原因进行了探讨,阐述了数据集成概念和联邦技术基本原理,分析了联邦技术的优缺点,并提出了基于联邦数据库的数据集成体系结构模型。
[关键词]数据集成;联邦数据库;集成体系
doi:10.3969/j.issn.1673-0194.2009.13.029
[中图分类号]F270.7;TP393[文献标识码]A[文章编号]1673-0194(2009)13-0086-03
随着信息技术的不断发展,各类企事业单位内部都进行了一定规模的信息化建设,各部门独立开发了针对自己业务特点的业务管理系统。这些业务系统的数据资源和业务逻辑相互不能共享,形成了巨大的“信息孤岛”和“应用孤岛”,造成信息资源的极大浪费。对这些业务系统进行综合集成,以连接各业务部门间的“信息孤岛”和“应用孤岛”,实现信息的采集、管理和使用全过程的平滑、快速流动,已成为提高工作效率,增加竞争力的重要措施。
1 “信息孤岛”和“应用孤岛”形成的原因
“信息孤岛”和“应用孤岛”的形成,主要有以下几方面原因:
(1)信息化建设缺乏整体规划。
各应用系统的建设是由不同的应用开发单位分散进行的,只是满足局部需要而缺乏整体规划,使各应用系统之间的数据来源不同、用途各异,在数据结构、数据存储方式等方面存在异构性。
(2)人为采取分级或分离措施。
为增加可控性,在实施管理时,将管理对象人为地分级或强制分离,形成目前的组织机构。这些强制的分级和分离措施,反映到业务管理信息系统中,就呈现出数据和功能的分离。
(3)重视程度不同。
在企业内部,不同单位对信息化建设重视程度不同、经济投入不同,导致信息化建设水平不一致,数据采集和信息获取的能力不同。お
2 数据集成概念
数据集成是信息集成建设中最深层、最核心的工作,就是要在计算机网络环境中,运用数据集成技术,实现异构数据库之间完全透明的访问,并支持不同数据库系统之间的相互操作。数据集成主要是从数据底层解决异构数据的共享问题。目前,数据集成的技术方案主要有3种:一是建立联邦数据库系统;二是利用可协调数据层与应用层的中间件集成技术;三是建立数据仓库。按数据存储位置,即是否在本地存储数据,数据集成方法又可分为实际存储方式和虚拟方式两种。
实际存储方式包括普通的DBMS和数据仓库等。该方法把应用程序所需数据预先提取并存储到本地数据库,用户查询和使用时直接访问本地数据,适用于数据源数据结构固定,数据不常改变的情况。但该方法不可避免地面临着如何保证本地数据源中数据是最新的,以及如何更新本地数据的问题。
虚拟方式包括搜索引擎、联邦数据库、多数据库和基于包装器/中介器(Wrapper/Mediator)的信息集成系统。虚拟方式集成模式不在本地存储数据,其最大的特点是按照查询需求与数据源建立实时连接,直接提取结果数据。
3 联邦数据库技术
联邦数据库技术是在维持局部成员数据库自治的前提下,在数据集成层次对异构的成员数据库进行部分集成,提供对异构成员数据库的共享和透明访问。联邦技术能够统一地访问以任何模式(结构化和非结构化)存储的任何数字信息,具有透明性、异构性、底层联邦数据源的自治性、可扩展性和开放性等主要特征,是进行数据集成的有效方法,大多主流数据库厂商都提供对该集成机制的支持。
图1显示了联邦数据库的体系结构。
联邦数据库服务器通过包装器(Wrapper)与数据源进行通信。一个包装器对应一类数据源。对关系型数据库数据源而言,包装器通过安装在信息集成平台的该数据库的客户端与其进行交互。对非关系型数据源,包装器直接进行数据访问。包装器从信息集成服务器接受数据访问指令,进而转换为数据源所支持的数据访问指令,通过数据源的服务器提交执行,然后将结果返回给信息集成服务处理。
除了包装器之外,信息集成服务器还有3个核心的部分。信息集成服务器维护一个全局的数据字典,其中保存需在信息集成平台被访问的数据的相关描述,包括数据源的配置信息、数据源表的结构、字段数据类型、相应的索引,以及数据分布的统计信息。另外,全局数据字典还记录数据源的CPU、网络、I/O等系统资源情况。
但基于传统联邦数据库的数据集成解决方案也有技术上的固有缺陷,集成时需要在相关数据源间建立两两链接。所以当集成数据源数量众多时,加入新的数据源就需要建立大量的链接。因此,传统联邦数据库技术比较适用于集成目标较少,而且相对固定的或变化不大的数据集成需求。
4 基于联邦技术的数据集成体系结构
数据集成主要解决数据(信息)的共享问题。结合联邦数据库集成原理,本文针对传统联邦技术的不足,采用统一的全局数据集成模式,对基于联邦数据库的数据集成体系进行了设计,如图2所示。
基于联邦技术的数据集成体系为3层结构模式:用户接口层、集成处理层和数据库层。每层都包括一些相应的功能模块。
4.1 用户接口层
用户接口层是数据集成体系与用户的接口,负责实现集成成员数据库的注册、集成模式的建立,接收SQML(Structure Query and Manipulation Language,结构化查询、操纵语句)的输入、显示查询结果。成员数据库注册操作时,其注册信息保存在元数据库或数据字典中,并更新联邦数据库的系统目录和全局数据库视图。
在基于联邦技术的数据集成框架中,需要提供统一的数据库语言SQML。SQML是基于标准数据库语言SQL (Structure Query Language)的、面向集成模式下的数据库查询和操纵语言。SQML作为集成体系的数据库语言,可以实现用户对集成系统的操作,转换成对成员数据库的操作。如果各集成对象(数据源)的数据库平台基本都支持SQL,则可直接用SQL作为SQML,以简化数据集成工作量。对于部分不支持SQL的数据源,可在集成处理层再作查询语法的转换。
4.2 集成处理层
数据集成处理层是数据库集成框架的核心,包括元数据或数据字典、集成虚拟数据库、SQML语法检查模块、分析映射模块、优化处理模块、数据组装模块及使用分布式处理方法的DB通信接口等。
(1)元数据或数据字典:定义集成数据库的数据描述、数据结构和数据完整性规则,存储成员数据库的数据描述、数据结构与类型,存储各成员数据库数据模式与集成虚拟数据库数据模式的映射规则等,为数据模式转换提供依据。存储SQML语法规则,为SQML语法检查提供依据。
(2)集成虚拟数据库:是数据集成体系的数据交换平台,提供统一的全局数据库视图,存储系统目录,接收与处理用户的数据请求,接收各成员数据库返回的中间结果。集成虚拟数据库还包括SQML语法检查模块、分析映射模块、优化处理模块等,以完成对用户数据请求的分析、处理与优化。集成虚拟数据库作为数据集成体系的数据交换平台,提供各源数据模式与全局统一数据模式的转换机制,避免了传统联邦技术中数据模式两两转换,消除了传统联邦技术的不足。
(3)SQML语法检查模块:对输入的SQML命令的语法进行正确性和有效性检验,并进行SQML的语义分析。
(4)分析映射模块:对通过正确性和有效性检验的SQML语法进行分析、分解,根据数据模式映射规则,生成各成员数据库平台支持的数据库操作语言,将用户的数据请求下推(pushdown)到相关数据源。对于数据源不能处理的数据请求操作,分析映射模块还提供补偿功能。补偿功能可由两种方式来实现:一是请求数据源使用一个或多个操作来对应SQML中描述的功能。例如,假设某数据源不支持余切函数cot(玿),但支持正切函数tan(玿),则可请求数据源用1/tan(玿)来等同于cot(玿)。二是提取数据至联邦服务器,在本地进行处理。
(5)优化处理模块:优化处理往往和分析映射功能一起使用,主要是对一个数据请求进行分析,并根据资源耗费情况生成处理数据请求的最优计划。查询优化有基于代价、基于值等多种优化模型。
查询语句的优化处理流程如图3所示。
(6)数据组装模块:对查询结果进行结构等方面的处理,例如,进行数据类型转换、中间结果合并和数据排序等操作,并以用户希望的形式展现给用户。
(7)DB通信接口:支持ODBC、ADO等协议和技术,完成与成员数据库的联接与通信。
数据集成处理层就是利用这些功能模块,结合数据字典或元数据定义的模式转换规则,将用户的数据请求转换成对各个业务系统成员数据库的访问,并将返回结果组装至集成虚拟数据库以显示给用户。
4.3 数据库层
数据库层分布着各联邦成员数据库,通过DB通信接口可实现对这些自治的成员数据库进行数据访问和物理操作。同时,各成员数据库仍通过各自的业务系统,完成其原有功能,保持高度自治性。
5 结束语
随着信息化建设的不断深入,各种异构数据不断涌现,如何将这些异构的数据集成起来就成为一个迫切需要解决的问题。联邦技术就是进行数据集成的一种有效途径,它能最大限度地保持现有系统的独立性和自治性,对目标系统的数据库进行数据共享集成。但联邦技术的固有缺陷,使集成时在各目标系统之间需要建立大量的链接。本文提出的集成体系方案,用统一的集成处理层,对各自治成员数据库进行管理,有效地减少了集成工作量,在一定程度上弥补了联邦技术的缺陷。
系统集成是企业管理效率的倍增器。但企业信息综合集成涉及网络集成、数据集成和应用集成各个层面,每个层面的适用集成技术又各有优缺点。所以,企业信息综合集成在体系结构的设计、集成技术的运用与发展上仍需做进一步的研究,以达到真正的应用集成,实现各业务系统的无缝连接。
主要参考文献
[1] 刘晶炜,闫健卓,朱青.IBM信息集成技术原理及应用[M].北京:电子工业出版社,2004.
[2] 吴渝,王成良.基于EAI的企业数据集成技术的研究[J].微计算机信息,2006(53).
[3] 杨宏英,林长松.异构数据集成系统的应用模式与技术实现[J].微电子学与计算机,2006(8).
[4] 林建宇,张国俊.一种异构数据库集成的方法[J].南京理工大学学报,2002(10).
[5] 邓苏,张维明,等.信息系统集成技术[M].第2版.北京:电子工业出版社,2004.
[6] 张正明,佟俐鹃.异构数据库集成的研究与实现[J].航空计算技术,2004(6).
[7] 宋瀚涛.异构信息源集成技术[J].北京理工大学学报,2002(10).
[8] 王光源.数据集成体系架构及其实现框架研究[J].湖南工业职业技术学院学报,2006(12).