基于元数据的重庆地区电子文献资源整合研究
2013-04-29彭渝等
彭渝等
〔摘要〕通过调查重庆地区高校、公共图书馆、医院电子文献资源,发现各单位在资源种类、总量、平均拥有量,特别是外文资源,差距更大,整合与共享势在必行,通过对各单位元数据的抽取,构建本地区电子资源元数据仓储,使读者通过对元数据仓储的“一站式”检索,实现对资源的统一访问,从而达到整合目的。
〔关键词〕元数据;电子文献资源;整合;高校图书馆;公共图书馆;医院
DOI:10.3969/j.issn.1008-0821.2013.05.011
〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2013)05-0047-04
21本地镜像的商业数据库资源
由于知识产权的原因,数据厂商一般情况下是不愿意提供资源的元数据的,不过可以通过与数据厂商协商,获取一些数据库的元数据资源。对于可以获取元数据的商业数据库,可以实施基于数据层的资源整合。对于不能获取元数据的数据资源,数据厂商可以提供该资源所遵循的协议和访问许可方式,实现应用层的整合。
22本馆自建特色资源
由于这类资源由本馆自建,本馆拥有该资源的元数据和对象数据,通过元数据收割获取各馆自建资源的元数据。
23随书光盘资源
各馆自建的随书光盘数据库,各馆拥有元数据及对象数据,可以实施元数据整合。
总之,对于较容易获取元数据的电子文献资源都可以通过元数据实现数据整合。
3元数据整合模型分析
基于元数据的区域电子文献资源整合的中心思想是:通过建立区域内统一的元数据中心,系统通过OAI(Open Archive Initiative for Protocol Meta-data Harvesting)技术,将各校各类型资源收割到临时的元数据仓储中,然后通过对临时元数据仓储中的数据进行清洗、转换,将这些数据追加到中心元数据仓储中。用户只需要对中心元数据仓储进行检索,即可实现对区域内电子文献资源的统一检索。
在所调查的高校图书馆、公共图书馆、医院分别属于3个不同的系统,所以在模型图中我们分别设立高校图书馆DC元数据中心、公共图书馆DC元数据中心、医院DC元数据中心,通过OAI收割各个区域的元数据资源。所谓DC元数据中心,即采用DC元数据标准的元数据中心。3个分中心,分别对各系统内各单位的各类电子文献资源实施元数据收割,建立系统的元数据中心。
31分布集中系统思想
通过上面的分析,针对重庆地区种类多样的电子文献资源,本文提出了基于元数据的集中与分布相结合的区域电子文献资源整合与共享模型,所谓集中与分布相结合,即元数据的集中存储,对象数据的集中与分布存储相结合。在资源整合过程中,数据有两部分组成,即元数据和对象数据。元数据是描述对象数据的数据,本模型中资源整合与共享的实现主要依靠元数据,通过元数据揭示资源,为读者提供检索浏览的线索,最终定位对象数据。对象数据是知识的载体,如PDF格式的电子图书、光盘镜象文件、音视频文件等,是我们整合的最终对象。在本模型中,对于元数据采取集中的存储模式,不同类型数字资源的元数据经过规范化处理,被分别存储在相应的元数据仓储数据库中。而针对对象数据的存储,本模型采取分布与集中相结合的方式,即系统在整合资源时,对象数据仍保留在各院校的系统中,不会被抽取到中心。当某些院校没有能力存储某资源时,可以将这些资源存储到某资源中心,实现相对集中的存储[1]。
32整合流程
在模型中,整合系统被分为了3层,第一层:重庆地区DC元数据中心。第二层:高校图书馆DC元数据中心、公共图书馆DC元数据中心、医院DC元数据中心。第三层:每一个分中心下面的高校。所以系统运行的流程是:
(1)高校DC元数据中心、公共图书馆DC元数据中心、医院DC元数据中心分别将所属的图书馆的元数据收割到分中心,形成分中心的元数据仓储。
3个分中心分别构建自己的DC元数据仓储(电子图书DC元数据仓储、电子期刊DC元数据仓储、自建资源DC元数据仓储等),然后对所属的高校的元数据进行收割,将收割的元数据存储到临时元数据仓储中。
(2)元数据ETL(Extract-Transform-Load)
ETL,即数据抽取(Extraction)、数据转换(Transfonnation)、数据装载(Loading)。ETL是数据仓库体系结构当中的一个重要过程,也是数据仓库建设过程中最复杂、费时的环节,ETL开发通常会占整个数据仓库项目时间的60%~80%,ETL是实现异构资源集成的关键环节。
数据抽取:数据抽取是从异构数据源中采集原始数据,这些数据可以是元数据据,也可以是对象数据。在本模型中只采集元数据资源,对象数据仍保留在各系统中。
数据转换:数据转换包括数据的清洗和转换两部分功能。各系统中元数据的数据表现形式存在差异,所以必须消除这些差异,第一,数据标准化,数据的标准化主要表现在数据格式的规范化和数据表达方式的同一化。举例说明:对于“语种”字段,不同的系统著录方式是不一样的,如中文、CN、CHN、China等,面对这些差异,必需制定中心元数据标准,规定著录方式,系统依据该标准,对各个异构的元数据进行标准化。第二,数据解析,由于各系统元数据字段所概括的内容不一,某系统中其中一个元数据字段可能对应别的系统中的两个字段,数据存在不同的细节级别,称之为粒度。粒度越高,所表示的综合程度越高。在中心数据仓储中的查询涉及到不同的细节,不同的数据图1基于元数据的重庆地区电子文献资源整合模型
源对信息的描述可能具有不同的粒度,这使得对来自不同数据源的数据很难做相应的比较。所以本模块的任务就是消除各系统元数据粒度不一致的问题,对该拆分的字段进行拆分,该合并的字段进行合并。第三,数据增强,数据增强的任务是对原始数据进行补充,实现系统数据的完整性。数据中心所制定的元数据标准中,并非所有的系统都拥有标准中所拥有的元素或者修饰词,这时候就要增加字段,使被整合的系统的元数据信息更加完整。第四,重复记录归并,在中心元数据仓储中,每一条记录都对应一篇文献,不允许重复记录的存在,必须保证数据的惟一性。但从各系统抽取的元数据,不可避免的存在重复,所以记录的去重与归并成为必然。通过数据清洗,对各系统中采集的原始数据进行有效性检查,对不规范、重复的记录进行规范化处理,使采集的各系统的原始信息统一化,标准化,即完成元数据的标准化,将异构的元数据转换成为标准一致、著录规范的元数据,从而提高了数据的质量[2]。
数据装载:在数据清洗完毕之后,即可以将清洗后的标准元数据加载到中心元数据仓储中,数据装载的功能是将采集、清洗、转换过后的标准元数据加载到目标数据仓库中,该功能是对经过清洗和转换的数据进行汇总、保存,以达到数据级整合的目的[3]。
(3)收割高校图书馆、公共图书馆、医院三系统中心元数据,形成重庆地区总的DC元数据仓储。之所以会设立3个分中心,是三系统分别属于不同的系统,本系统内实施起来更加容易,系统较易管理,也具有较强的扩展性。但系统最终的目的是实现重庆地区电子文献资源共享,所以还要将3个分中心的元数据追加到重庆地区DC元数据仓储中,建立重庆地区总的DC元数据仓储[4]。
(4)反向收割重庆地区DC元数据仓储,高校图书馆、公共图书馆、医院三系统中心元数据反向收割重庆地区DC元数据仓储,三系统与中心系统实现元数据的同步,这样做的好处,第一,元数据的安全性。第二,系统性能提升,各系统只需要对本系统的元数据中心进行访问即可实现对资源的访问。
(5)通过OpenURL实现原文获取。
用户通过对重庆DC元数据仓储进行检索,系统通过OpenURL建立原文的链接。OpenURL规定链接源不直接指向链接对象,而是由第三方链接服务器作为用户与所需求资源之间的中介。链接服务器接收链接源传送到的OpenURL,通过惟一的标识符(如DOI)解析其内容,建立对上下文对象的描述,以动态选择合适的链接目标,从而使链接源和链接对象处于一个开放式互联框架内,不同资源系统中各类资源,只要符合OpenURL框架,均可很方便地实现多种资源的链接[5]。
4系统优点
本文提出的基于元数据的区域电子文献资源整合模型,与基于数据仓库,检索代理的整合技术相比,具有如下的优点:
(1)检索速度快。基于检索代理的资源整合,其整合的数据资源非常有限,当数据库较多时,其检索速度非常慢。与检索代理技术相比,由于用户是对实现了元数据的物理集中与规范的长株潭DC元数据仓储进行检索,所以速度非常快[6]。
(2)系统中心存储压力小。基于数据仓库技术的资源整合,在集成元数据的同时,还要集中各系统的对象数据,这样系统中心将面临非常大的存储压力。本模型中,系统中心仅仅存储元数据资源,对象数据仍保存在各馆中,所以系统中心没有存储压力。
(3)系统管理容易,具有扩展性。在本模型中,我们在重庆DC元数据中心下面,分设了高校图书馆DC元数据中心、公共图书馆DC元数据中心、医院DC元数据中心,实现了分层管理,不至于系统较大造成管理混乱。同时当新的区域加入整合与共享建设中时,只需要对新增加的区域的元数据进行收割与清洗,然后追加到重庆DC元数据仓储中去就可以了,系统具有较强的扩展性。
(4)实现了元数据的物理集中与对象数据的分布管理。通过对各系统元数据的清洗、转换,实现了各系统中元数据的一致,构建了区域内统一的元数据仓储,从而实现区域内各系统资源的整合。而对象数据仍保存在各馆原来的系统之中,这样在实现资源整合的同时,各馆仍可独立的开展各项服务。
(5)可以在统一的规范的元数据仓储的基础上开展各项服务。可以以重庆元数据中心为核心,提供统一检索、元数据的联合编目、数据挖掘、数据分析等个性化服务。这是其它整合模型无法实现的。
同时系统也有如下缺点:
(1)由于涉及知识产权问题,元数据的获取较为困难,对于中文数据库,可以通过与数据商协商解决。对于外文数据库,基本上无法获取元数据。
(2)由于各系统没有遵循统一的元数据标准,在构建统一元数据仓储时,必须对元数据进行清洗,这是构建统一元数据仓储的关键。而对元数据清洗是非常不容易的。
(3)系统中心必须对元数据仓储进行维护,保证系统正常运行。
5小结
电子文献资源整合及共享的目标是提高文献信息资源的可获知能力和可获得能力。构筑重庆地区的电子文献资源的整合与共享体系的根本目的,就是通过图书馆协作的规模效益来提高三地区开发和利用电子文献信息资源的综合能力,提高电子文献资源的可获知能力和可获得能力[7]。
参考文献
[1]张建中,陈松乔,方正.基于数据仓库与数据挖掘技术的信息检索体系[J].高校图书馆工作,2007,(5):1-3.
[2]王爱丽.高校图书馆数字资源整合及其实现[J].江西图书馆学刊,2007,(4):26-28.
[3]王颖霞.论数字图书馆的资源整合[J].现代图书情报技术,2004,(S1):106-107.
[4]熊拥军,欧鹏杰.图书相关文献资源发现与获取系统构建——基于预索引元数据仓储[J].图书情报知识,2011,(6):101-106.
[3]陈良.高校图书馆数字资源整合分析[J].河北科技图苑,2008,(1):81-83.
[6]袁小一,张建中.检索代理及其在资源整合中的应用[J].图书馆论坛,2007,(5):31-33.
[7]刘其云.基于数字信息资源整合的研究[J].现代情报,2008,(6):125-126.
(本文责任编辑:马卓)