国内OAI-PMH协议研究综述
2009-07-15徐方张静
徐 方 张 静
〔摘 要〕分布式资源的集成以及互操作是当前数字图书馆发展过程中亟待解决的重要问题,而OAI-PMH元数据获取协议的提出为实现分布式资源的互操作提供了一套良好的解决方案。本文通过对国内该协议的相关研究论文进行调研,总结了国内研究者在协议理论以及应用方面的相关进展情况。
〔关键词〕数字图书馆;互操作;元数据;OAI-PMH协议
〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2009)01-0089-06
Outline on Chinese Research of OAI-PMH
Xu Fang1 Zhang Jing2,3
(1.School of Management,Beijing Normal University,Beijing 100875,China;
2.National Science Library,Chinese Academy of Sciences,Beijing 100080,China;
3.Graduate School,Chinese Academy of Sciences,Beijing 100000,China)
〔Abstract〕With the rapid development of digital libraries,the integration and interoperability of distributed resources arise as a very important problem to be resolved.OAI-PMH is an good solution to solve this problem.By means of statistics on the articles about OAI-PMH,the passage summarizes the development of the protocol in theories and applications.
〔Key words〕digital library;DL;interoperability;metadata;open archive initiative protocol for metadata harvesting;OAI-PMH
随着计算机、网络和通讯技术的发展,数字图书馆成为人们获取信息的重要来源,然而面对网络上的众多分布式数字资源,人们更希望通过统一的检索途径获得所需的信息。但要实现数字资源间的互操作并不容易,早期的数字图书馆在建设时缺乏统一的标准,其内部数据资源的类型也有较大的差异,因而要制定一套能够描述这些资源的统一的元数据格式相当困难。
OAI(Open Archives Initiative)最初由Paul Ginsparg,Rick Luce,Herbert Van de Sompel等人在1999年10月于Santa Fe的Universal Preprint Service会议中促成,意图通过整合元数据来解决数据系统之间彼此不隶属、资源分散存储难以集成的问题。2001年4月,OAI组织发表了OAI-PMH元数据获取协议(Open Archive Initiative Protocol for Metadata Harvesting),该协议是一个在分布式网络化环境中获取元数据信息的标准化协议,它将OAI的思想扩展到数字图书馆领域,通过提供了一个元数据互操作框架,整合网络上不同结构的数字资源,并以统一的格式为用户提供增值服务。
OAI-PMH协议自发布以来得到了国内外图书情报工作者的广泛关注,并在其理论研究和实践应用方面都取得了较大的进展。本文主要基于中国期刊全文数据库、维普全文电子期刊数据库、万方数据知识服务平台等电子资源库以及Google Scholar、Cnki知识搜索等网络资源中搜集到的中文文献资料,对近年来国内OAI-PMH协议的研究进展进行了分析和综述。
1 文献分析
为了对2001年以来国内有关OAI-PMH协议的研究情况有一个较为全面的了解,笔者以“OAI”、“OAI-PMH”以及“元数据收割协议”为检索点,对上述电子资源库进行了关键词以及题名检索,得到近年来关于OAI-PMH协议的相关论文发表情况,如表1:
1.1 从论文数量上看
我国研究者对OAI-PMH协议的关注较早,发表于2002年的论文[1]是国内最早比较系统的介绍该协议的文章。该篇论文针对北京数字图书馆研究所的中文元数据标准项目中已经制定的拓片元数据标准,提出了基于OAI-PMH协议的元数据框架,为国内对于OAI-PMH协议的研究铺开了道路。此后,随着资源整合的呼声日益高涨,越来越多的研究人员开始加入了对OAI-PMH协议的研究行列,发表论文的数量也基本成逐年上升的趋势。从2004年开始,国内研究者对OAI-PMH协议的研究状况呈现稳定的趋势,每年论文发表数量大概在15篇左右。正如其创始人之一,Van de Sompel教授指出的:OAI-PMH协议提供的是一种简单的、低障碍(Low barrier)的互操作解决方案[2]。在解决当前数字图书馆元数据的互操作问题上,采用该协议的可实施性强、操作简单,因此也得到了越来越多研究者们的关注。
1.2 从研究主题上看
通过分析2002年至今有关OAI-PMH协议的研究论文,可以将其研究方向归纳为如下5个方面:OAI-PMH协议的基础研究、OAI-PMH协议与其他协议的比较研究、OAI-PMH协议的基础应用实践、OAI-PMH协议的新领域实践以及对OAI-PMH协议的扩展。具体论文主题分布情况如表2:
不难看出,目前国内对于OAI-PMH协议的研究状况呈现一种“三分天下”的局面,即当今科研人员对该协议的基础研究、基础应用实践以及新领域实践这3个方向给予了较多的关注。其中,对于OAI-PMH协议的基础研究起步较早,主要探讨了协议产生的背景、原理、运行机制以及发展中存在的问题。从2002年到2004年,该领域论文的研究方向主要集中在基础研究方面,并逐步向实践方面扩展。这说明基础研究对于OAI-PMH协议的实践具有指导性的作用,只有建立在一定理论研究的基础之上,实践项目才能顺利的进行。
由于该协议提出的元数据互操作框架是一种“低障碍”的框架,一经提出便被图书情报界公认为是解决当前数字图书馆互操作问题的有利方案,因此随着基础理论研究的逐渐深入,2003年研究者开始将该协议应用到数字图书馆的实践项目中。目前,采用OAI-PMH协议构建的实践项目有北京大学中文古籍数字图书馆项目[3]、民族音乐数字图书馆项目[4]、CALIS高等学校学位论文全文数据库[9]、科学数据库跨库搜索引擎[5]、知识仓库建库管理系统和知识网络管理系统(KDKW35)[6]、山西省科技文献资源平台联合目录[7]、台湾大学典藏数字化计划[6]、台湾知识门户网站[6]、台湾教育部教学资源交换平台[6],以及研究者们采用开源OAI客户端软件,如ARC、Kelper等构建的个人试验项目[14]。以CALIS高等学校学位论文全文数据库为例,该项目在国内高校图书馆的范围内,采用“各成员单位在本地建立自己的学位论文全文数据库、通过OAI-PMH协议集中元数据”的分布建库模式,构建了统一的高校学位论文数据库。各高校可自行开发本地系统,进行学位论文的提交和检索工作,作为OAI的数据提供方,本地系统必须遵循OAI协议以及项目所确定的元数据标准和相关技术规范。
从2005年开始,研究者对于OAI-PMH协议的研究便主要以实践为主,其研究内容也跳出了基础实践方向,转而研究该协议在新领域的实践活动。目前,该协议已经不仅仅提供一个供集成的元数据的框架,而是将侧重点放在构建个人图书馆、实现全文获取、处理复杂数字对象的元数据以及与结合其他网络基础设施以实现数字图书馆的互操作等方面,可见OAI-PMH协议具有广阔的发展研究空间。本文第4节将详细介绍这些有关该协议的研究热点。
另外,对于该协议与其他数字资源互操作协议的比较的研究也属于该协议的早期研究内容,随着基础研究的深入,OAI-PMH协议的优势已经无需更多的语言赘述,因而近年来研究的较少。但是对于该协议的扩展,结合其在新领域的实践目前还是一个较新的领域,论文的数量比较少。由于OAI-PMH协议本身存在的一些缺陷,将该协议进行扩展以满足其在实践中的应用是一种必然,值得深入的研究。
1.3 从作者专业、发表期刊看
就当前论文作者的专业看,对于OAI-PMH协议的研究基本上集中在图书情报界,各地的图书情报工作者对于该协议理论基础以及应用实践的研究都取得了较大的进展;其次,计算机以及软件专业的工作者对该协议也有一定的了解;另外还有来自其他领域的研究人员,例如文章[8]作者的专业方向为“摄影测量与遥感”,主要研究“地理信息系统”,该篇论文指出:数字图书馆的元数据与地理信息元数据存在很多相似性,将数字图书馆的元数据互操作协议应用于地理信息领域,有助于解决其空间元数据的互操作问题。
就期刊情况而言,国内论文大约有85%的来源于图书情报方向的期刊,例如情报学报、情报理论与实践、现代情报等;剩余15%来源于计算机方向的期刊,例如计算机工程、计算机工程与应用等。可见,OAI-PMH协议主要应用于图书情报以及计算机领域,还没有在其他领域内形成规模。
2 国内OAI-PMH协议研究进展
早在2002年,我国图书情报工作者便开始了较为系统的对OAI-PMH协议的研究。论文[1]提出了一套较为完善的基于OAI的元数据互操作框架,并详细说明了其中的各个组件以及每个组件包含的模块,在OAI已有规则的基础上,研究者还提出与Ontology结合的观点,即数据提供者可以根据Ontology提供的主题分类来组织元数据,而服务提供者可以建立不同的Ontology之间的映射关系,从而实现对元数据的分类。
到了2003年,在理论研究的基础上,国内研究者对OAI的关注深入到具体实践方面,并对协议中存在的问题提出了一系列的改进方案。当时关于该协议的实践项目有CALIS高校学位论文全文数据库、民族音乐数字图书馆、台湾大学典藏数字化计划等,在将OAI-PMH协议应用于具体数字图书馆建设的同时,协议在设计上存在的一些问题也得到了研究者的关注。比如OAI-PMH协议没有提供于删除记录有关的操作,其中的一种改进方案提出了采用“表单记录”方式处理删除记录,即数据提供者将最新的删除记录自动放在数据库的某个表中,服务提供者收集到这些删除记录信息后,会自动将这些记录从表单中清除,因此每次只留下最新的删除记录信息,这样的处理方式可以显著的提高系统运行时的效率[9]。研究者们还提出使用特定的管理模块定制个性化的元数据获取规则,用户可以通过预先设置来控制系统根据不同抓取条件定期向指定的数据提供方抓取元数据记录,更新本地元数据仓储。对于抓取过程的监控也是研究者们改进的方向,例如在元数据抓取过程中由于网络、数据提供方服务器故障等问题造成的抓取任务的失败,用户可以手动将这些未完成的进程重新开始或取消[11]。此外,由于OAI-PMH协议只能针对数据资源层次进行整合,而不能做到服务层次的集成,因此研究人员还提出了将该协议应用于Web Services环境下的设想。由于每个服务提供者都有各有所长,用户在享受这个服务提供者的长处的同时,不可避免地受到其短处的制约,如果能够让某一个服务提供者自动地选择其他服务提供者提供的服务,将多个服务提供者的功能集成在一起并透明的提供给用户,则可以让用户在不知不觉间享受到更加完善的服务,同时也完善了OAI协议的功能。但是这种想法 目前只是一个初步的设想,对于服务发现以及被发现的可靠性问题、分布式服务整合的效率问题、安全以及费用等问题都还需要进一步探讨[10]。
随着OAI-PMH协议应用越来越广泛,2004年的论文继续针对协议使用中存在的不足进行了补充和完善。在论文[11]中引入了ODL协议,该协议是一个基于OAI的扩展协议,既保持了对OAI的兼容,也弥补了OAI的不足,更好地适应DL复杂的应用和服务的需要。ODL主要引入了软件工程中组件化的设计思想,这与Web Services类似,它将DL的典型服务定义为多个与平台无关的符合ODL的组件,使相同组件在不同的DL项目中可以重用,有助于实现不同DL的相同服务之间的互操作。同年,数字图书馆标准与规范建设被纳入科技部科技基础条件平台工作重点项目,该项目针对OAI-PMH协议提供了应用指南,可以说是OAI-PMH协议的中文宝典。指南分别从简介、协议说明、技术结构、数据提供者的应用方式、协议的实现方式、与其他协议和规范的结合、相关资源、原型实现、案例分析、实现指南概要等10个方面对OAI-PMH协议进行了详细的说明,更加深化了人们对该协议的理解。
在此后的几年时间里,国内对于OAI-PMH协议的研究更加关注实用性,对于如何将协议更好的应用于数字图书馆的互操作中,进一步完善数据提供者、服务提供者以及各个组件的功能,如何收割不同格式的元数据、进行原文获取、实现跨库检索平台等方面提出了具体的解决方案。由于OAI协议只是一个关于元数据收割的协议,因此并没有提供获取原文的机制,即该协议没有提供元数据与其描述对象之间的关联,然而在实际应用中用户需要查看原文,建立全文索引也需要大量的原文。为了解决这个问题,论文[12]中采取的方法是在数据提供者中采用一个DC字段来记录原文的URL,并将其进行封装,服务提供者可以通过调用这个封装器从数据提供者那里获取原文URL,并下载存放到本地的全文库中。此外,OAI-PMH协议与网格技术的结合也是近几年的研究热点。网格技术通过提供一组协议保证了网络传输的安全性与通讯的实时性,更加合理的解决了资源与任务的分配和调度问题,与网格技术的结合能够更加高效的完成OAI-PMH协议的收割过程。
可以将OAI-PMH协议近几年的发展状况总结如表3:
3 OAI-PMH协议存在的问题及其解决方案
3.1 无法处理更新和删除元数据信息
正如上文提到的,由于OAI-PMH协议所提供的是一种增量查询机制,它只能获取数据提供者在某个时间段内中新增加的元数据,但没法获取其中被删除或修改的元数据信息,这种机制导致了资源库中的元数据信息与数据提供者间可能存在不一致。
3.2 DC元素集的精确度不够
为了元数据标准的统一和更广泛的适用性,OAI-PMH协议采用Dublin Core作为互操作的标准元数据,但是由于DC的核心元素集只有15个,精确度不够,因此不能很好满足不同类型的需求。另外,采用Dublin Core使得最终提供给用户的检索服务只能停留在DC的15个元素的范围内,这与人们期望的深度内容检索也有相当大的差距。
3.3 不提供原文获取功能
OAI-PMH协议只规定不同数字图书馆之间如何交换数字资源的“线索”,即资源的元数据信息,如果想要获取原始馆藏资源则还需要其它协议的配合。
为了解决上述问题,Edward Fox教授和他的学生Hussein Suleman首先提出了扩展的OAI-PMH协议。该协议扩展了OAI的Identify容器,在数据提供者对Identify的响应结果中增加了ODL协议和版本的描述;扩展了Response-Level容器,增加了对响应的记录总数的描述;扩展了时间粒度,规定时间粒度精确到秒;扩展了元数据格式,不再要求必须符合DC要求;增加了putRecord方法,该方法与getRecord方法类似,用来对知识资源库中的元数据记录进行增删改操作。
与此同时,国内的研究人员也开始研究扩展OAI-PMH协议的方法。论文[13]中提到通过“采用更加复杂的元数据格式”,如METS、MPEG-21 DIDL、OEBPS、SCORM等来克服DC等普通描述元数据在资源收割方面的不足,同时为了整合这些不同的元数据格式,研究者又提出了采用Warwick框架。Warwick框架提出了一个容器体系机构的概念模型,是一种能够容纳各种元数据的容器结构,在其中用户可以根据自身需要部署多个元数据集合,比如DC、METS等,当然这个框架的特定实现必须提供一个用于处理容器和它的元数据包的实际方法。这种结构的优势在于其具有模块化、可扩展性、分布式、递归性等特点,可以整合不同的元数据格式,较为容易的添加新的元数据类型,允许参考外部元数据对象,并且能够处理与已知格式相关联的元数据对象。
在解决原文获取问题上,Kelper客户端是一个成功的实例。Kelper是一个简单易用的个人数据提供者,它基于OAI-PMH协议,可以很容易的安装在客户端个人PC上,为研究者发布个人研究成果以及共享信息资源提供服务。Kelper提供的获取原文途径主要有两种,一是提供该资源所在的服务提供者的URL地址,服务提供者可以根据这个地址获取原文;二是缓存文档内容,即服务提供者自动保存最后一次正确访问该资源的原文内容,当授权用户进行二次访问时,服务提供者就可以直接从缓存中获取到所需的馆藏资源。
在对OAI-PMH协议进行扩展的同时我们也应该注意到,目前已经有大量基于该协议的应用和工具, 扩展工作可能会对它们造成一定的影响,因此扩展还需慎重。
3.4 没有提供安全认证以及访问控制的功能
在OAI-PMH协议中并没有集成诸如安全认证、访问控制等功能,而是将其交给OAI所依赖的HTTP来完成。例如,可以在注册的时候进行IP限制,只有具有指定IP地址的服务提供者才能够从某个数据提供者中获取元数据;也可以通过用户名/密码控制,服务提供者必须提交了正确的用户名和密码之后,才能从数据提供者中获得元数据。
3.5 不适用于小规模的资源库建设
OAI-PMH协议的提出较好的解决了Internet环境下数字图书馆之间彼此孤立的问题,正因为它是一种"低门槛"的协议,因此更适合应用在那些大规模、多节点、松耦合的数字图书館网络中,对于一些规模较小节点也比较少的网络,比如一个地区的有限几个图书馆或者一个图书馆的几个分部来说,采用该协议并不是最佳选择[14]。因此,在考虑构建数字图书馆网络的时候,应当具体问题具体分析,选择合适的协议标准,比如对于节点数较少的网络环境可以采用分布式搜索技术实现互操作[15]。
4 国内OAI-PMH协议的研究热点
4.1 构建个人数字图书馆
个人用户计算机是个内容丰富的个人数字图书馆,应用OAI-PMH协议可以有效管理这些内容,在满足用户个性化要求的前提下更方便地实现个人数字图书馆之间的互操作。文章[16]已经基于Kelper构建了个人数字图书馆,但是手工生成元数据、资源标引深度过浅以及将OAI协议应用到小型数据源是否“大材小用”的问题,还有待解决。
4.2 共享广泛的机构仓储资源
机构仓储是大学及研究团体等学术机构建立起来用来存储自己科研人员研究成果的资源库[17],仓储所收集的资源类型包括本机构的期刊论文、学位论文、会议论文、研究报告、预印本、专利等。如果所有的机构仓储都能支持OAI-PMH协议,服务提供者便可以通过收割元数据共享机构仓储资源,建立统一的检索平台,从而有效推动全球学术资源的广泛共享。文章[18]中提到的电子预印本资源共享即是机构仓储的一种类型。
4.3 整合不同类型的信息资源
OAI-PMH协议的服务提供者可以对OAI官方网站上注册的数据提供者进行元数据的分析采集,但除此之外,Internet上还分布着其他类型的信息资源,比如静态的网页、数据库以及Z39.50服务器等,研究者们希望能够通过OAI-PMH协议实现不同类型信息资源的整合。论文[19]中实践了对不同类型资源的元数据整合工作,OAI服务提供者需要从这些不同类型的信息资源中抽取元数据,并在此基础上生成供自己使用的本地OAI数据源。其中如何抽取元数据以及本地数据源的生成规则是其中的重点研究问题。
4.4 结合网格基础设施
为了在Internet上实现更加有效的元数据发现、收集以及索引服务,需要提供支持这些操作的良好的框架结构以及高性能的服务器。目前,对元数据的这些操作都集中在一台或者是几台服务器上,由于受到服务器性能以及网络环境限制,这种实现方式在性能、可靠性以及可扩展性方面都比较差,不能适应数字图书馆互操作规模持续扩大的要求。
网格是架构在互联网上的一组新兴技术,它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,可以为科研人员和普通用户提供更多的资源和功能以及更加良好的交互性。与互联网所提供的电子邮件、网页浏览等通信功能相比,网格的功能则要更多更强,力求让人们可以无障碍的使用网格架构中的计算、存储等多种资源。
将OAI-PMH协议架构与网格基础设施之上,其实质就是用网格所提供的高性能的计算节点来实现协议中的数据提供者以及服务提供者的功能。网格节点可以增强元数据收集和索引的动态性能,加快元数据的更新速度;网格所提供的标准的规范和通用的接口可以保证了资源访问的安全。采用网格基础设施实现OAI-PMH协议,能够降低元数据获取的费用、提高数字图书馆服务的质量,实现大规模的信息资源共享[20]。
5 结 语
OAI-PMH协议作为一种获取元数据信息的标准化协议,已经成为实现分布式数字图书馆互操作性的关键技术。它不仅可以应用于数字图书馆领域,也可以解决企业信息管理系统以及电子商务系统中的信息交互问题。随着该协议应用领域的拓宽以及协议内容的不断完善,OAI-PMH协议将进一步推动资源的广泛共享。
参考文献
[1]王爱华,张铭,杨冬青,等.基于OAI的数字图书馆中元数据互操作框架[J].计算机工程与应用,2002,(1):5-7,41.
[2]C.Lagoze,H.Van de Sompel.The Open Archives Initiative:Building a low-barrier interoperability framework[J].Proceedings of the 1st ACM/IEEE-CS joint conference on Digital libraries,2001:54-62.
[3]王蜀安,汪萌,张铭.支持OAI—PMH的元数据互操作体系结构设计与实现[J].计算机工程与应用,2003,(20):168-172.
[4]郑巧英,杨宗英.基于OAI协议的民族音乐数字图书馆互操作系统[J].高校图书馆工作,2003,(5):7-10.
[5]中国国家科学数字图书馆.http:∥www.csdl.ac.cn/ejournal/SPT—OAISearchInterface.php[EB/OL].2006-10-26.
[6]李勇文.OAI集成信息检索系统研究与设计[D].四川:四川大学,2004.
[7]刘军.基于OAI-PMH的山西省科技文献资源平台联合目录的实现[J].科技情报开发与经济,2007,(17):213-214.
[8]毛海霞.基于OAI-PMH的空间元数据互操作理论研究与实现[D].武汉:武汉大学,2004.
[9]赵阳,姜爱蓉.基于OAI 的“CALIS高校学位论文全文数据库”建设[J].上海交通大学学报,2003,(9):234-238.
[10]夏翠娟.Web Services與数字图书馆的互操作问题[J].图书馆杂志,2003,(9):46-50.
[11]赵阳.基于可扩展OAI的开放数字图书馆的服务协议——ODL协议研究[J].图书馆杂志,2004,(5):38-42.
[12]郭少友.OAI-PMH框架内的全文获取研究[J].情报理论与实践,2006,(3):353-354,379.
[13]曾婷,张成昱.基于OAI-PMH和复杂对象格式的资源收割机制探讨[J].现代图书情报技术,2005,(11):14-18,23.
[14]董慧,丁波涛.OAI-MHP协议初探[J].图书情报知识,2004,(6):70-73.
[15]郑志蕴,徐玮,牛振东,等.基于网格的数字图书馆互操作技术研究[J].计算机科学,2005,(8):245-248.
[16]王军,齐华伟,常政.MyOpenDL:一个基于OAI的个人数字图书馆[J].情报学报,2006,(4):399-406.
[17]王宇芳,黄镝,李晓玲,等.OAI-PMH协议及应用新趋势[J].现代情报,2006,(5):81-83.
[18]冯艳花.基于OAI的电子预印本资源共享[J].情报理论与实践,2005,(4):425-427.
[19]郭少友.基于OAI-PMH的信息资源整合[J].大学图书馆学报,2005,(3):16-18.
[20]郑志蕴,闭乐鹏,牛振东,等.数字图书馆网格互操作框架[J].计算机工程与应用,2005,(25):186-189.