APP下载

基于XML的馆际异构数据集成系统分析与研究

2012-04-29寿先红

图书馆界 2012年3期

寿先红

[摘要]馆际异构数据集成系统是为了提高高校数字图书馆资源利用率、实现资源高度共享的一种方法。文章介绍了异构数据集成的基本方法,并根据XML技术的特点,重点分析和研究了基于XML的馆际异构数据集成系统的框架结构和系统实现的主要技术。

[关键词]异构数据;XML;请求处理;包装器

[中图分类号]G250.74[文献标志码]A[文章编号]1005-6041(2012)03-0036-04

随着各高校数字图书馆建设的深入,不同学校根据本身的专业特色和课程特点,分别设计和购置了大量的数字图书资源供学生和教师使用,由于各高校数字图书馆相对封闭,各馆建设的时期并不同步,而且技术上采用的操作系统、网络结构、数据库结构等均不相同,因此产生了各种不同类型的数字信息资源,我们把这些数字信息资源统称为异构数据信息。由于异构数据信息的存在,使各高校图书馆之间难以实现数据信息共享,图书馆的数据资源也就成为“信息孤岛”。为了实现资源的有效利用以及馆际信息的高度共享,使更多的资源能够被不同学校的广大师生使用,集成异构数据库就成为当前数字图书馆迫切需要建设的内容。

1、异构数据集成概述

由于应用系统的不同,因此各应用系统的数据源无论是数据结构、表示方式也各不相同。异构数据集成系统就是要把各种结构不同的数据,通过逻辑、物理等方式最终都转化为一种统一的、结构相同的全局数据模式,能够让用户透明的访问这些数据源,实现全面的数据共享。数据集成的关键技术是忽略数据源平台和结构等异构性,将不同的异构数据转化成可以被识别和使用的统一数据进行描述,实现数据的无缝整合集成。一般的异构数据集成模型如图1所示。

在处理异构数据集成问题上,有以下难点需要解决:1)解决数据的异构性问题:不同图书馆的数据资源各有不同,这些异构性是由应用系统所决定的,是异构数据集成应用需要解决的首要问题,异构性对集成应用的影响不仅是物理上的系统结构,更重要的是数据的结构模式和表现方式。2)解决数据源的自治性问题:每个图书馆所拥有的数据源均对应着不同的管理系统,我们需要在数据集成后依然保持数据源的相对独立性,而不能因为数据集成而改变它们的常规操作,同时也不能因为集成而影响将来的数据升级和更新。3)解决用户的透明性访问问题:集成后的数据访问,不能因为集成而变得更为复杂,而应该和集成前一样,使用户能安全、稳定、透明的访问数据。

2、常用的异构数据集成方案

具体的异构数据一般分为:结构异构、语法异构、系统异构和语义异构四种。目前,使用比较多的数据集成方案主要有以下两种:

2.1基于模式的集成方案

在基于模式的集成方法中,各数据源的数据位置保持不变,通过集成系统为用户提供一个虚拟的集成平台,并建立一套集成查询的访问处理机制。用户在访问数据时,可以直接在集成界面上提交请求,通过认证后由数据集成系统进行请求转换,将请求发送到本地数据库进行执行。

2.2基于数据复制的集成方案

在基于数据复制的集成方案中,需要将各个独立数据源的数据进行集中管理,建立统一的数据源,同时要求这些数据源在更新时保持一致,以此来提高资源的利用效率。最基本的数据复制方法就是建立统一的数据仓库。其原理是将原有分散的、不连续的数据从不同的数据库中抽取出来,通过对数据进行分类加工,清理出冗余数据,然后对数据进行汇总统计,并建立一致的数据仓库,当用户访问数据仓库时,就像访问普通数据库一样。

以上两种方式均有优缺点。模式集成方法为访问者提供了方便的集成访问界面,因此当各分散的应用系统数据量比较多,并且系统数据更新较为频繁时,用户可以通过集成系统很方便的访问各数据源。但该方法由于本身只是提供虚拟界面,自身并不保存数据,当用户访问量较大时,需要更高的网络通道来对其进行支持,否则会造成网络延堵。而数据复制方法是通过集成系统对各数据源进行集中管理,并建立统一的数据仓库,用户在访问数据仓库时,可以很方便的通过集成检索到数据仓库中得数据,从而可以快速的提高用户的响应时间。但该方法也存在缺点,比如当各数据源数据更新时,需要把数据同时传递到数据仓库中,因此存在着一定的数据延迟,并且有时会造成数据的不统一。

3、基于XML的馆际资源数据集成研究

3.1XML知识介绍

随着互联网技术的发展,基于Web的数字图书系统已经成为发展的趋势和主流,这些系统主要是由HTML来进行编写,由于HTML缺乏必要的结构和语义信息,给数据集成带来了很大的困难,因此在W3C(World Wide Web Consortium,万维网联盟)的组织和领导下,建立了统一的规范,即XML规范。XML是一种技术标准,它可以定义其他语言,同时XML还具有扩展性强、表现形式多样、与应用系统平台无关等优点,目前XML规范正在迅速成为不同数据交换的一种通用方法。采用XML不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。因此,XML已经成为解决新旧系统、不同应用系统之间或者不同数据源之间的数据共享与交互的主要技术规范。

XML包含的内容有很多,主要有3方面内容,分别是DTD(标记符规则,保证XML文档格式正确,是XML的布局语言),XSL(可扩展的样式语言,也就是XML的样式表语言)以及)XLL(可扩展链接语言)。

DTD的主要作用是用来规定文档的逻辑结构,定义各类页面的元素、属性以及元素和属性之间的关系等。随着XML的不断规范,目前描述XML文件的主要标准是XML Schema。主要是对文档的数据类型、数据结构、组织方式等进行定义和规定。XML Schema的定义准则规范和DTD相类似,功能更加强大。

XSL主要作用是规定数据文档的样式和格式。当用户在通过浏览器进行访问时,可以根据不同的需求改变文档的显示方式。

XLL主要作用是对已有的链接进行进一步的扩展,当用户访问链接无响应时,它可以结束无效的死链接,并且可以从服务器中仅查询某个元素的相关部分的连接符。

3.2系统设计的原则

馆际图书资源的集成系统总体设计原则为:将根据不同图书馆数据的实际应用需求,利用XML规范和JAVA技术建立一个中间件平台以及一组映射规则和映射工具,通过XML来对不同数据源进行格式转换,屏蔽数据源之间结构和表现形式差异。通过对底层异构数据源进行抽取和分类,集成整合到一个完整的集成数据平台之上,为用户提供一个标准、透明的访问接口和完整的数据视图,使得对不同图书馆分布式数据进行访问时,就如同访问本地服务器数据一样方便可靠。

系统利用XML规范来作为中间件技术集成异构数据库,并特别将其中数据处理的系统称为异构数据库集成中间件系统,使用XML Schema来建立异构数据公共模型。通过集成系统达到访问的稳定性、系统的易扩展性以及较好的可维护性,并且系统运行时对原有系统性能不造成明显影响。系统的拓扑结构如图2所示。

3.3集成系统的框架结构

本文结合XML技术,设计一个馆际异构数据集成系统。其体系结构如图3所示。

由上图我们可以看出,整个系统共分为三层:系统应用和表示层、数据集成中间层、数据源层。

系统应用和表示层主要作用为:为各图书馆应用系统和访问用户提供接口程序,通过数据操作引擎,为用户提供数据查询和数据浏览服务。

数据集成中间层主要作用为:从不同数据库中抽取出异构数据,并将抽取得到的数据转换成标准的XML文件,实现对异构数据源的封装。然后对用户的访问请求进行分解、解析,将访问结果向系统应用和表示层反馈。

数据源层的主要作用为:将分散的应用系统数据库抽象为各异构数据源,完成异构数据源的封装和连接的权限审核。

采用上述结构主要为了实现以下目标:1)数据访问的透明性。由于采用分层结构,因此,用户在访问集成数据时,无需考虑数据源的具体位置,只需知道数据服务中间件服务器(Middleware Server)即可,提高了系统访问的透明性。2)系统设计的灵活性。因为系统采用了分层结构,各层的功能相对独立又彼此联系,在进行数据交换和抽取过程中可以方便地进行设计,而集成系统设计方法也可以根据各图书馆的实际情况进行,因此提高了系统设计的灵活性。3)屏蔽了数据源的异构性。各图书馆数据源无论是分布性还是结构性均不相同,因此解决异构性是数据集成必须面临的首要问题。分层结构通过对数据的统一建模和利用XML Scheme的映射关系规则,实现了对异构数据的统一表示,屏蔽了数据的异构性。

3.4系统实现的关键技术

3.4.1处理请求模块的设计。在基于XML的馆际异构数字资源集成系统中,如何处理用户的访问请求是系统实现的关键技术之一。通常情况下,用户只需在透明模式下对数据源进行查询,不会对数据源的来源、格式进行干涉。处理请求模块就是根据一系列的数据映射规则将基于全局模式的查询转换为局部数据源导出模式的查询,针对用户的需求分别产生数据源的子查询,并循序执行子查询,从而确定目的数据源,并将查询结果返回给用户。而查询处理过程所需的方式、数据源映射规则及数据源相关信息都由XML语言描述表达,并将结果存储在集成系统的数据字典中。整个过程可分为3步:查询解析、查询分解、数据组装,如图4所示。

3.4.2包装器功能模块的设计。在查询处理过程中,为了完成各种类型数据源与集成系统之间的双向映射,在不改变元数据结构的前提下,需要对异构数据源加上一个包装器,利用XML接口引擎对各种数据库管理系统和其他数据源进行封装。其具体处理过程为:数据集成系统首先将用户的查询请求用XML查询语言XQuery表示出来,然后将查询请求不同的查询语句,这些查询语句能够被数据源所识别和执行,最后再将返回的结果转换成XML数据模型的形式,以便与来自其他数据源的数据集成。

包装器把各类不同数据源的数据结构定义以XML Schema的形式统一表现,也就是说,提供一个虚拟的系统Schema定义,它提供的底层数据类型和数据结构信息不仅在数据集成上提供了一种数据规格,同时也支持如果底层数据源结构发生改变后,能及时通知集成系统。

4、结语

一直以来,由于高校图书馆数字资源结构、存储方式等不同,使得对异构数据源的集成成为一个很难解决的问题,严重制约了数字资源的共享和使用。随着XML体系结构的发展,为异构数据的集成提供了一种有效的方法,使馆际图书资源共享成为可能。