以元数据为核心实现区域数字图书馆数据资源整合
2012-08-15刘子辉陈强杨平
刘子辉,陈强,杨平
以元数据为核心实现区域数字图书馆数据资源整合
刘子辉,陈强,杨平
为避免重复建设造成浪费,促进资源共享,提高图书馆的个性化服务水平,同一区域的数字图书馆有必要进行数据资源整合。提出了基于数据仓库的同一区域不同图书馆的数字资源整合方案。
图书馆;资源整合;数据仓库;元数据
由于具有资源丰富、使用方便等特点,数字图书馆深受读者喜欢。在数字图书馆的发展过程中,各单位都构建了自己的信息平台,形成多个异构的系统,彼此之间无法实现信息交流;而在同一地区不同的单位都在建设数字图书馆,重复建设造成的浪费也十分严重。因此,如何将这些异构的数据资源进行整合,屏蔽系统之间的差异,实现一定区域数据资源的共享,已成为资源建设中的难点与热点[1]。
一、区域数字图书馆数据整合的意义
数据整合就是对异构资源系统中的异质、异类的数据资源实现逻辑上或物理上的集中,对资源实现去重、归类、排序,提供统一的表示和操作,以实现多种异构资源的互操作,实现资源共享。通过对同一区域不同数字图书馆的数据整合,可以消除日益严重的“信息孤岛”现象。在信息化建设中,各单位在各个阶段要满足的需求是不同的。在建设过程中,大多数系统并没有制定统一的标准,当然也很难实现标准的统一,从而出现彼此隔离的“信息孤岛”,系统之间无法互访。通过数据资源整合,可以在物理或者逻辑上消除异构性,用户通过一次检索,可以实现对多个数据库的时间操作。
实现数据资源整合也是提高服务质量的迫切需要。网络环境下,用户需求出现了多元化、便捷化、个性化、知识化等特点,这些都要求信息服务机构提供高质量的服务。数据整合是提供高质量服务的基础,没有数据整合也就没有高质量的服务。在数据整合的基础上,可以提供更为人性化、个性化的信息服务,可以做海量信息的数据挖掘,为用户做决策分析。所以,数据整合效果的好坏也直接影响信息服务的质量。
二、中心元数据选择
基于数据仓库方式的资源整合,核心是对元数据的聚合。通过对所有电子资源实现统一元数据仓储管理,将分散到各个异构数据库里的资源进行物理的集中,在集中过程中,对元数据进行清洗、去重等操作,通过对集中的元数据检索,实现对原文的定位。原文可以物理集中,也可以分散存储。这里以数据仓库技术为例,讨论以元数据为中心的区域数字图书馆的数据资源的整合。
各异构系统在建设时往往没有统筹规划,因各自的情况而采用不同的元数据标准。针对这种情况,中心元数据库想提供统一的服务,统一检索入口,就必须采用统一的元数据标准。
我们选择中心元数据采用DC元数据标准。DC元数据在电子文献资源描述方面具有自己的优点:第一是简单易用。DC元数据只有15个数据元素,比Mark格式简单很多,这对于描述电子文献资源非常便利。DC元数据的15个元素通俗易懂,不论是图情专家,还是一般的用户都能掌握。第二是它具有通用性。DC元数据描述的领域广泛,不是针对某一个学科或者领域,可根据实际情况制定本领域的DC元数据标准。DC元数据标准可描述的资源类型多样,可以对纸本图书描述,也可以对电子文献资源描述。第三是它具有可重复性。DC元数据的15个元素可以选择和重复。第四可根据需要引入修饰词。根据描述资源的要求不同,可以选择是否引进修饰词。如果要求高,可用修饰词对资源作进一步描述。第五是它具有很强的兼容性,目前已逐步被大家认可,得到国际上的广泛承认。
三、区域数字图书馆资源整合流程
(一)中心元数据仓储数据的获取
统一的元数据仓储的建立,对于数据仓库的成功运行具有非常重要的作用,可以说元数据仓储是整个系统的灵魂。我们将分散在各地的异构系统,通过位于中心的中心元数据仓储有机的联系起来。在这个模式中,由于中心元数据仓储很像计算机拓普图中的HUB,我们称之为DC HUB。只有将其它系统的元数据汇聚到DC HUB之后,才能为用户提供统一的、集成的服务。由于中心元数据库采用DC标准,而区域内的其它系统可能采用其它的标准,即使采用的标准一样,也会可能存在如下问题:(1)资源标识不一致,有的同名不同义,有的同义不同名;(2)资源描述详略不一;(3)资源描述格式不一致,有的采用的是格式化语言,有的采用的是半格式化语言。因此,DC HUB中的元数据可以通过数据源监视器从各数据源中提取,同时数据库监视器也生成元数据;还可以将其它方式获得的元数据通过元数据管理器录入到元数据仓储中。
OAI-PMH是OAI组织发布的一种基于元数据收获的互操作框架。通过OAI协议,可从异构分布的数据提供者中收获的元数据存储到本地数据库中。该协议框架由两部分组成:一是数据提供者,二是服务提供者。数据提供者是元数据的拥有者(发布方),按照OAI格式发布元数据。服务提供者按照OAI-PMH协议向数据提供者发出申请,得到许可后,可以收获数据提供者的元数据存入本地元数据仓库[2]。
(二)元数据的清洗及查重
从多个异构系统中抽取的和用其它方式获取的元数据,还不能直接存储到中心元数据仓储中。先将它们放入临时数据库中,实现各异构系统元数据的互操作,进行元数据逻辑或物理的集成。实现元数据语义互操作的方法:一是元数据模式衍化,即根据特定领域的应用需求,在原有的某种元数据系统基础之上,通过对元数据元素的增加、减少、改写、修正或扩展等方法,形成新的元数据系统。二是元数据映射,即对存在于不同系统的元数据格式进行转换,使在某一系统中存在描述某功能或属性的词,能和另一系统元数据中的描述词对应。这种对应可能是一对一,也可能是一对多,这取决于整合的系统中存在多少种元数据标准。通过这种一对一或一对多的对应,实现元数据的互操作[3]。
元数据在放入元数据仓储的时候,还要判断与入库的数据是否重复。元数据放入系统后,要经常对元数据进行维护,保证其可用性。元数据的维护方式,可以以自动方式或手动方式进行。应及时对元数据进行评审。
(三)全文获取
数据整合的最终目的是让用户能通过一站式检索获取异构数据库中的全文数据。数据仓库将利用专门的工具从源数据库中抽取数据加裁到目标数据库,而这个过程是数据仓库建设中最关键和最困难的部分。在数据的抽取和加载时,抽取和加载工具需要检验,排除数据中可能的错误,要对数据进行综合的整理、加工和重新组织。经过上述过程,数据才载入到目标数据库中。总之,(1)要将不同的数据格式转换为统一的数据格式;(2)要按照制定的更新规则,更新数据仓库中的数据;(3)要保证数据抽取的质量。
数据抽取与加载的方法有多种,如基于存储过程的数据抽取、基于脚本的数据抽取等。数据源监视器发现数据变化的过程为数据捕捉,可以用多种方法来实现,如增量文件、日志对比等。数据获取工具主要是使用元数据,元数据是它一切工作的基础。它主要由包装器和集成器组成。包装器负责将异构的数据源按照元数据的要求包装成统一格式的数据,并做好必要的转换。集成器负责按元数据的要求将来自多个数据源的经过包装的数据集成到一个数据仓库中[4]。
在整合过程中,中心的数据仓库存储着分别来自各异构数据库的海量数据。随着信息的指数增长,中心数据仓库不可能无限的增加存储,其承受能力是有限的,所以必需对中心数据仓库中的数据根据信息生命周期进行管理,重点保障热点资源,而对休眠数据作相应处理。通过数据仓库监视器,可以识别出哪些是重要且使用频繁的,哪些是不经常被使用的数据,哪些是休眠数据。然后根据具体情况制定相应的存储策略[5]。
四、结语
通过元数据实现区域内异构数据资源的整合后,(1)可以实现快速、便捷的“一站式服务”,通过一次检索而实现对资源的统一访问;(2)可以在整合后的平台上为用户提供更个性化的服务;(3)可以在整合的平台上对数据进行深加工,为用户提供优质服务;(4)促进信息共享,减少不必要的重复建设。
实现数据的整合是信息社会发展的必然,是实现信息共享的前提,是提供优质化服务的基础。当然,基于数据仓库的数据整合也存在弱点,如数据更新可能不及时等,但总的来说,几种数据整合方案里,以元数据为核心的数据仓库的数据整合是最优秀的整合方案。
[1]谢中会,徐捷.基于元数据的信息系统集成的设计[J].电脑知识与技术:学术交流,2007(3).
[2]徐立臻,刘安,董逸生.数据仓库系统中的元数据管理[J].计算机工程与应用,2002(24).
[3]毕强,朱亚玲.元数据标准及其互操作研究[J].情报理论与实践,2007(5).
[4]王宗杰,等.基于元数据的分布异构数据集成研究[J].微计算机信息,2007(27).
[5]郭和伟,等.数据仓库中的数据抽取分析及应用[J].微机发展,2003(1).
G250.73
A
1673-1999(2012)03-0153-02
刘子辉(1981-),男,硕士,重庆科技学院图书馆助理馆员。
2011-11-06