面向分布式异构平台的信息资源整合方法研究
2016-10-10赵云华
赵云华
[摘要]介绍了分布式异构信息资源整合方法,分析了面向分布式异构平台的信息资源整合技术,最后给出了面向分布式异构平台的信息资源整合设计与实现,重点探讨了平台的体系结构、开发模式和实现方法等。
[关键词]分布式;异构平台;信息资源整合
[中图分类号]G250.74[文献标志码]B[文章编号]1005-6041(2016)04-0081-04
在分布式计算领域中,人们越来越重视异构数据的集成问题,随着日益普及的分布式系统和网络信息环境,在网络的各个节点中都分散有大量的相互之间独立存在的异构数据源系统。在这些相互孤立的数据中,为了更好地共享资源,需要构建一个集成环境,这个集成环境是统一的公共的,可以把相对透明地访问界面提供给用户。伴随科学技术的不断发展和进步,信息数据呈现了多样化的样式特征,不同的数据如文本、图像、视频、音频。遥感以及地理等具有不同的数据组织方式[1]。不同的信息来源数据库具有各不相同的构建方式、数据内容表现形式以及支持平台,进而凸显了不同数据库之间的异构性。从实现的目标上来看,数字信息资源进行整合就是要完全摒弃局部数据源之间的异构性,使数据源从自治的、分布式向一个整体集成,使访问界面统一化,便于用户的访问,可以快捷的从分布式数据源中完成信息的提取和合并。
自20世纪80年代起,就开始研究如何整合分布式异构信息资源,至今已将近30年,截至目前,整合分布式异构信息资源的研究方法包括联邦数据库法、联邦数据仓库法、电子数据交换法、虚拟数据库法、虚拟视图法、分布式组件集成法、直接数据库访问接口法、基于网格、本体、Web Service以及可扩展标记语言法等[2],其中后者是近年来刚引入使用的新方法。
1分布式异构信息资源整合方法
1.1 基于网格、XML、本体和Web Service方法
利用可扩展标记语言具有以下特点:跨语言、跨平台、可扩充、高效、显示和内容分离等。该方法在以上特点的基础上,在数据表述过程中以XML文档为媒介,通过一定的通信手段达到集成分布式异构数据的目的。其中,Web Service的功能包括包装、查找、绑定和注册XML文档,与数据源的动态变化相符合[3];网格法在对数据进行访问时使用的是网格数据服务,该服务是由网格中间件GT4开发的,提供的数据访问功能相当优越;本体法从实质上来说就是采用本体描述语言在具体的领域中对相关概念和概念间的关系进行显式描述,使建模能力和信息捕获能力都得到有效提升。基于网格、本体、Web Service以及可扩展标记语言法具有适于松散系统、跨平台能力强等优点,但同时也存在一定的缺点:无法等同于传统数据库技术,针对分布式异构信息,把其中的全局应用模式较好地提供给上层应用。
1.2 分布式组件集成法与直接数据库访问接口法
在实际应用过程中,多采用Java RMI技术对多个数据源的数据直接访问,这就是直接数据库访问接口法,技术较为简单是这种方法的优点[4]。分布式组件集成法是通过封装把数据访问转变为相互独立的分布对象,在数据访问者以及数据源之间把单个的或多个服务者设置为数据访问代理,完成存取数据源的操作,最终实现集成异构数据。分布式组件集成法是通过微软分布式组件技术的应用把集成分布式数据的中间件平台建立起来,这种方法的优点是具有较好的数据源自治性、能灵活地配置、提供实时的查询。
1.3 虚拟数据库法
从实质上来说,虚拟数据库技术就是表现外界的数据为扩展的关系数据库系统(前提是该关系数据库是可扩展的),通过映射器、包装器和提取器等部件采集、提取和转换异构信息源的信息,最终得到的信息具有完全统一的格式[5]。虚拟数据库也拥有自己独立的数据模式,但值得注意的是,虚拟数据库中并不能真实地存储有相应的数据,执行的数据库查询操作知识通过查询转换的方式在相应的数据源中执行查询。
虚拟数据库的核心为编写包装器,在虚拟数据库服务器以及外部数据源之间包装器是作为接口存在的,每一个外部数据源都与一个包装器相对应。从整体上来说VDB模型内部为集中式操作,而且应用程序代码的冗余量相当大,会带给用户使用上的不便利,不仅处理方式较为复杂,计算量在不可承受范围之内,而且跨平台能力较低,运算速度也不理想。
2面向分布式异构平台的信息资源整合技术
2.1 XML技术
伴随不断多样化和复杂化发展的Web文件,HTML日益表现出较差的扩展性、语义性及交互性,同时还显现出了单向超链接的问题。通过XML技术的使用,不仅可以使Web数据查询检索的速度得到提升,同时还能有效提升互联网的接入速度。XML技术在实际工作中的应用日益广泛,成为组织和交换Web数据的标准,为实现数据集成系统提供了新路径。
可扩展链接语言Xlink、可扩展的样式表XSL以及文档类型定义DTD共同组成了XML,其中XML的布局语言也是DTD,XML的样式表语言就是其样式表[6]。在XML中,其中的内容、处理和表示相互之间都是分离的,其中的任意一部分都可以进行相对独立的发展,没有必要折中在统一的框架中。所以相较于HTML,XML具有灵活性和伸缩性。在对文档数据的逻辑结构和存储形式进行描述时,XML使用的标记语言是嵌套的,与此同时,对于用户来说,XML还允许创建其自身结构,赋予属性和标记的定义,从理论上来说,通过文档类型的利用定义DTD可以对无穷无尽的元素进行定义。
图书馆信息资源是由Web信息资源以及本地信息资源组成的,其中前者的数据资源使传统数据集成技术无法完成集成的易购、半结构化的信息。XML技术可以有效描述不规则类型的数据,不仅能有效集成结构化的传统数据,还能对非结构化以及半结构化的数据进行集成。它能够在同一个XML文件中把不同应用程序生成的数据集成在一起,从而完成各种类型信息资源的集成,进而提取和查询数据,把处理完成的数据向用户传送。从用户端把XML表达信息数据解析出来之后的再利用有助于用户的本地化编辑。
2.2 CORBA技术
伴随逐渐兴起的面向对象技术,各个领域也开始应用客户/服务器模式,在此基础上,在20世纪90年代初期对象管理组织OMG为了更好地进行异构环境对象互操作提出了CORBA技术,该技术作为一种对象计算结构是分布式和开放式的[7]。CORBA技术充分结合了分布式处理技术以及面向对象技术,完全可以弥补传统处理系统的缺憾。通过较深入地利用标准通信模型,可以实现操作系统、硬件结构、服务器以及客户应用层间交互的目的。CORBA通过面向对象技术的采用,结合了面向对象和分布式计算的概念,对冗余度进行控制。CORBA技术规范提供的抽象集是切实可行的和灵活的,并且对一些服务进行了再明确,确保能在分布式环境下能成功地集成相关应用。CORBA技术具有可扩展性、语言无关性以及平台无关性,能有效保障在分布异构环境下基于对象的软件成员可以实现互操作、可移植及可重用等。CORBA技术规范把先进的技术发展成果纳入应用中,维持了在跨平台、IDL规范以及互操作方面的优势,表现在可以整合来自不同运行环境以及不同来源的分布信息资源。
3面向分布式异构平台的信息资源整合设计与实现
3.1 体系结构
在XML数据库和虚拟数据中心的基础上,图1给出了具体的信息资源整合模型。由图可知,该模型共分为整合层、数据源层以及应用层,主要内容包含了虚拟数据中心、元数据模型构造器、XML数据库以及信息连接适配器。其中针对分布式信息源虚拟数据中心给出了具体的全局虚拟视图,XML消息全局集合的提供方则为XML数据库。
共由信息整合、信息源连接以及数据集成三个部分构成了模型的基本工作过程。在信息资源整合的过程中,数据源层是整合的基础,通过元数据模型构造器以及XML数据库的利用可以实现局部信息资源的连接,把连接服务提供给上层。整个模型的核心是整合层,利用元数据模型构造器构造的元数据模型是全局通用的,把数据集成服务提供给应用层。应用层是把数据访问接口提供给应用程序或外部用户,支持应用程序更新和查询异构数据,并可以把结果返回至用户或应用中。
3.2 系统开发模式
在当今研究和应用过程中,使用较多的为三层B/S结构开发模式,具体的数据处理步骤如下:首先是客户端,负责用户或系统接口的提供;其次是中间层,主要提供服务程序;最后是数据服务器,用来对数据信息进行存储。中间层负责服务程序的运行,使客户端的负担得以降低,所以也可称为瘦客户结构。不管是服务程序,还是用户使用的具体界面,分别处在不同的平台,需要系统对其中的通信协议进行再定义。这种结构模式便于服务程序的分享与使用,便于对分布式计算提供支持,在WEB和分布式计算基础上开展的软件开发具有以下优势:易维护、可伸缩、高安全性、扩展性强以及高效性。
三层结构模式按照应用服务器和客户端层把业务逻辑部分分离开来,通过中间件和相应的应用程序完成客户端以及若干个服务器之间的通信。当数据库或者相关服务器的业务逻辑发生改变时,由于应用逻辑的分装方式不同,需要修改相应服务器中的应用程序,但是原有的客户端并不需要做任何改变。
3.3 实现方法
图2给出了在XML基础上构建的数据交换模型,其中虚线是远程数据转换格式模型。在图2示意的整个数据交换模型中,重中之重是XML转换器,把数据库中的数据向XML文档转换,同时将接收的XML文档向数据库中的数据转换,实现虚拟数据中心以及异构数据库之间的数据交换。当数据库对应不同的应用系统时,相应的数据表示方法也应有所不同。因此面对来自不同数据源的异构数据,必须要转换相应的数据格式。
XML不仅能对不规则数据进行描述,还能在同一个XML文件中纳入来自多个应用程序的数据,从而集成不同的来源数据。从属性值的字段名称和规格类型上来说,虚拟数据表与原始数据表中的数据存在差异,所以要按照净化规则把原始数据表中的数据进行规格化处理,再进入虚拟视图基表。
4结语
不同的异构数据源,其差异是相当显著的,所以很难进行异构信息的整合,尤其是在分布环境下,一直没有很理想的异构数据源整合方法。本文在分布环境下提出了整合异构信息资源的方法,这是一条有效的途径,通过互联网的应用,有助于更好地整合分布式异构信息资源。
[参考文献]
[1]林源,陈志泊.分布式异构数据库同步系统的研究与应用[J].计算机工程与设计,2010(24):5278—5281.
[2]刘瑜.当代图书馆信息资源整合的若干模式[J].图书馆杂志,2010(3):38—41.
[3]郑燃,唐义,戴艳清.基于关联数据的图书馆、档案馆和博物馆数字资源整合研究[J].图书与情报,2012,(1):71—75.
[4]崔伟,徐恺英,王宁.基于知识链的数字资源整合研究[J].图书馆学研究,2010,(8):32—35.
[5]马小军,李广建.基于本体的数字资源整合方法与技术[J].情报科学,2010(10):42—46.
[6]郝欣,刘英涛.基于本体集成的数字资源整合研究[J].图书馆学研究,2011(10):55—59.
[7]王操.一种解决分布式异构信息资源整合的方法研究[J].图书馆学研究,2011(3):108—112.