APP下载

支持元数据和服务共享的三类互操作协议比较*

2017-01-24包海峰徐泺燚

档案与建设 2016年12期
关键词:档案馆检索数字

彭 桢 包海峰 徐泺燚

(南京大学档案馆,江苏南京,210046)

支持元数据和服务共享的三类互操作协议比较*

彭 桢 包海峰 徐泺燚

(南京大学档案馆,江苏南京,210046)

在信息技术进步的浪潮中,出现了各类广泛分布、异构、自治的检索系统和发布系统。随着用户数量和所要求的服务质量的提升,对使用统一检索接口而覆盖诸多信息发布系统的呼声日益高涨,互操作协议在此种背景下应运而生。根据作用机制的不同,互操作协议可以分为联邦、元数据收割、信息搜集三种类型。文章从互操作系统的实现到效果,包括联合服务能力、存储和维护开销、数据安全性和保密性几个方面,结合实际案例对互操作协议的实施和变更进行比较和评估,从而明确各类协议的优缺点及适用性,依据“适度代价获取充分功能”的原则,为广大服务提供商和用户提供参考。

互操作协议 元数据标准 数字档案馆 OAIster欧洲数字图书馆PERSIVAL

1 互操作协议及其应用

不同的领域中,“互操作性”(Interoperability)有着不同的定义。美国电气和电子工程师协会(Institute of Electrical and Electronics Engineers,US IEEE)将其定义为“两个或多个系统相互使用已被交换的信息的能力”。而在欧洲面向公众管理部门、企业及市民互操作性 电 子 服务 项 目(IDABC,Interoperable Delivery of European eGovernment Services to Public Administrations,Businesses and Citizens)中,互操作性是指信息和通信技术(Information and Communication Technology,ICT)系统的能力,以及系统对于所支持的业务流程中不同实体间交换数据,共享信息和知识的能力。就其本质而言,互操作性是在异质实体(包括异种体系结构、异种操作系统、异种网络和异种语言等)中获得资源透明调用的能力。延伸至数字档案馆领域,互操作性表现为在满足档案的保密性、安全性需求的基础上,实现数字档案馆间交换档案元数据、查询数字档案和提供增值服务的能力。它要求技术(软件体系结构和通信协议等)、内容(元数据及其语义等)和组织(数字档案馆性质所要求的认证和访问原则等)三方面的合作。

根据作用机制的不同,互操作协议可以分为以下三种类型:

1.1 元数据收割(Harvesting)

各系统之间建立松散联盟,从而实现一些基本功能的共享。在应用层面上,采用一致的公共互操作协议从各自馆藏中收割出元数据使其可以被服务提供方获取,并用来提供诸如数据挖掘及参考链接等增值服务。著名的OAI-PMH协议即属于此种类型,采用该协议及其变种的项目有NDLTD、OAIster及CALIS等,相关软件有Greenstone、ARC等。

1.2 联邦(Federated)

各系统之间建立紧密联盟,并采用统一的通信协议或软件系统。这是最早出现的解决不同数字档案馆间互操作需求的模式。服务器负责更新和处理查询,客户端则与最终用户连接,负责从中获取查询,发送至各个服务器,而后接收查询结果并将其整合,或者利用中间层,由中间层与各个服务器相联系,客户端只需要与中间层联系。属于这种模式的互操作协议有Z39.50、SRW/SRU等。采用这类模式实施的项目有NCSTRL、PERSIVAL及MOBIUS等,相关的软件有INNOPAC、YAZ等。

1.3 信息搜集(Gathering)

各系统利用各自公开访问途径搜集信息,通过一定的互操作手段进行整合,整合手段因实际情况各异。通常情况下,此种互操作模式会降低检索成果的查准率和查全率,低于直接通过查询各成员馆得到的结果。由于这项短板,该模式常见于商业引擎中。以谷歌学术为例,目前谷歌学术能作为字段进行差别检索的只有三个,分别为作者、出版物和出版时间,远低于专业的学术检索系统。

2 比较互操作协议的意义

在档案界,互操作协议被广泛使用,已涌现出一大批有参考价值的案例,如英国的档案利用项目(A2A,Acess to Archives)、澳大利亚的澳大利亚科学家历史资源集(Bright Sparcs,Scientist Present in Australia's History Resource Collection Strategy)、苏州工业园区档案馆项目,以及接下来本文详细介绍的OAIster、欧洲知识门户和PERSIVAL。William Arms根据互操作协议所提供的功能和实施代价这两个主要指标,给出了一种评价数字图书馆互操作的“功能—代价”曲线模型,而俞力则根据信息系统互操作的LISI评价模型对各项互操作策略进行了评估。本文在前人研究的基础上,对档案界的互操作系统,从实现到效果,包括联合服务和用户体验、存储和维护开销、数据安全性和保密性几个方面,结合实际案例对互操作协议的实施和变更进行比较和评估,从而明确各类协议的优缺点及适用性,依据“适度代价获取充分功能”的原则,为广大服务提供商和用户提供参考。

3 协议及代表项目简介

3.1 OAI及OAIster

OAI-PMH协议是OAI协议的一 部 分 。 OAI(Open Archives Initiative,开放文档先导元数据收割协议)是一项简单、灵活的元数据互操作协议,其目标是通过元数据收割模式实现在Web上发布信息的不同组织之间的互操作,形成一个与应用无关的互操作框架,同时支持选择性收割以完成系统间元数据的循环交换。

OAIster是密歇根大学2002年发起的联合目录项目,其整合对象为从开放存取数字资源集合所获取的数字资源。该项目以OAIPMH协议为蓝本,截止至2014年12月17日,覆盖了超过1500个成员馆 。2009年 OCLC(Online Computer Library Center,联机计算机图书馆中心)参与到这个项目的建设和维护中,目标是将OAIster建设成一个所有开放存取数字资源库的自助服务贡献模型,以确保其对丰富开放资源的存取能力具有可持续性。它目前是全球最大的开放档案资料数据库。

3.2 SRW/U及欧洲图书馆

SRW/U (the Search and RetrieveWeb Service/theSearch and Retrieve via URL)则是为了解决Z39.50基于OSI模型建立而无法直接与WEB连接及Z39.50协议过于复杂等问题而提出的Z39.50 ZING协议的一个组成部分。该协议的目标是在通用的框架结构下实现对各种网络资源的整合。

SRW/U由美国国会图书馆(LC,the Library of Congress)负责维护管理,2004年2月发布了SRU 1.1版本,目前已更新至2.0版本,是OASIS (Organization for the Advancement of Structured Information Standards,结构化信息标准促进组织)认可的标准之一。根据通信协议不同,SRW/U分为按参数传递的形式分为两类:基于SOAP协议的SRW与基于HTTP协议的SRU。

LC、OCLC、牛津大学等信息服务机构均发布了自己的SRU服务接口平台。欧洲图书馆:欧洲知识的门户(The European Library: Gateway to Europe's Knowledge)项目由芬兰、德国等多个国家参与,涉及不同的语种,而这些图书馆在本地查询中多数都利用了Z39.50,因此项目采用了SRU和CQL来实现互操作。

3.3 SDARTS及PERSIVAL计划

STARTS/SDLIP/SDARTS协议是由美国斯坦福大学、哥伦比亚大学等机构完成的一组搜索协议,各个协议功能如下:STARTS协议定义对数据源的查询请求、查询格式以及数据源提供的关于回复内容和格式;SDLIP协议定义两种信息资源之间的互操作行为,以及不同公共接口类型与相应的中间件LSP;SDARTS协议为针对常见数据集类型的封装器参考执行程序工具包。

PERSIVAL(Personalized Retrieval and Summarization of Image, Video,and Language Resources,个人图像视频及语言资源检索及概要计划)是由哥伦比亚大学计算机系发起的项目,旨在为分散的医疗档案提供统一的检索入口。

4 三种类型协议比较

Rong Shi在 设 计 LFDL(Lightweight Federated Digital Library,轻量级联合数字图书馆)互操作实现机制时,提出了优秀的互操作协议应该满足不需要改变原有数据体系结构、联合服务能力强、维护简单、安全性高等要求。本文根据档案的特点及档案管理的长期保存、定密分级的需求,覆盖互操作协议的实现及效果的整个运作周期,将比较的标准归结为三个方面,分别是联合服务能力、存储和维护开销、数据安全性和保密性。

4.1 联合服务能力

联合服务能力,即整合检索结果并在此基础上提供服务的能力。联合服务要求准确而且全面地整合数据以提供优化的检索,同时也要求在此基础上发展出更多样完备的增值服务。

表1 三个典型案例的检索服务及个性化设置

OAI-PMH协议的优势在于,每一个信息资源条目都有全球独一无二的OAI ID,理论上所有的OAI资源库可以整合到一起。但这也带来了问题,通用性要求数据提供方所提供的数据必须是DC标准,而DC标准的针对性较弱,对部分存在特殊专业要求信息资源的揭示不够深入、全面。该协议以元数据收割实现互操作,只有在服务提供者第一次为数据提供者收割时,会完整地收割整个资源库的历史数据,之后为定期收割新增或变动数据,导致收割到的数据和数据提供方的实时数据存在着时间差,因此这种实现方式能提供的检索服务并不是完全同步的。且该协议规定的数据提供方只向服务提供方提供元数据资源,无法为增值服务提供支持。

相应的,SRW/U可以根据需要使用任何元数据格式,预设的元数据标准有DC、Onix、MODS等。处于同一联邦内的数字档案馆必须采用同一种元数据格式。除元数据外,也能共享其他增值服务类型。欧洲数字图书馆中,还包括其他机构提供的开放关联数据,不仅包括传统的书目记录,还有用户标签与评论、社会网络活动及用户照片与视频等。以检索“Renaissance”为例,反馈的结果不但有与之相关的信息资源条目,还有对于这些条目按照时间、国家、格式等的分布统计及相关链接,支持进一步检索。

SDARTS协议并不支持某一种现有的元数据标准,而是在STARTS中规定了必须和可供选择的元数据属性。必须提供的元数据属性有数据源支持的字段(Fields Supported)、支持的修饰语(Modifiers Supported)、分值分布区间(Score Range)、排序算法ID(Ranking-algorithm Id)、样本检索结 果 地 址(Sample Data Base Results)、数据源链接(Linkage)等。

SRW/U和SDARTS协议都是分布式检索模式,分布式数据库能够在各自的存储位置上得到及时和专业的维护、更新,用户可即时查询最新数据。表1为三种案例个性化设置及检索功能的简要对比。

4.2 存储及维护开销

在数字档案馆领域,周丽霞将档案元数据概念分为档案信息内容元数据、档案对象元数据、资源集合元数据、管理与服务机制元数据、管理过程与系统元数据、档案元数据这六个层次。档案自其产日起,其第一及第二层元数据相对稳定、保持不变。第三及第四层元数据则会根据档案的组织、管理情况产生变化,变化产生的时间没有规律性,需要及时维护和更新。下文将从存储维护和处理查询两个方面进行论述。

OAI-PMH协议要求将元数据收割到服务提供方进行集中式目录存储,因此服务提供方必须及时对这部分数据进行再组织和更新。在更新过程中,数据提供方需要保证所提供元数据的质量以及运行的稳定性。按照更新条件的不同,具体的收割机制可以分为历史数据收割、新增或变动数据收割两类。收割协议通过收割规范化、结构化的元数据,得到完备且精确的结果集。综上所述,OAI-PMH协议将计算、存储的开销根据数据提供方和服务提供方的不同角色进行分配。因此可以根据相应的硬件条件和数据要求作出调整策略。检索方面,查询压力主要由服务提供方承担,并且随着记录的增多,开销会不断增长。

SRW/U使用模块化的整合方式,即将信息检索视为各个不同模块检索服务的集合。以欧洲数字图书馆为例,服务器响应检索要求的具体过程为:将用户提交的请求中所包含的URL参数转换为封装的SOAP包,再由后台的各个检索模块接收SOAP包后提交查询请求,获取初步检索结果;随后确认用户的身份权限,根据用户个人信息、上下文信息以及用户请求资源情况,将初步检索结果生成统一的XML文档提供给应用层。在整个过程中,查询经由网站统一入口被分散到各个单独的检索系统中,再进行综合,不产生额外的存储开销,查询压力由各个组成部分共同承担。

PERSIVAL项目中,利用了自然语言处理(NLP,Natural Language Processing)的研究成果。在身份及背景数据确定后,系统在数据库检索相关结果的同时,根据该用户的历史记录(如医疗记录)以及权限等信息,按检索者的适合程度,重新组织、整合、显现检索结果。通过自然语言处理,PERSIVAL为现有分散的多媒体信息提供了一个包含检索结果摘要、相关文件与影像全文、检索结果的解释说明、建议检索词汇以及检索历史记录的用户接口。相关信息的搜集、筛选、鉴别在完全通过客户端软件的自然语言处理机制来实现,因此PERSIVAL不产生额外的存储开销,需要安装客户端程序和配置相应的检索环境,检索过程也更为复杂。

4.3 数据安全性和保密性

下文从机制和具体实现方式两个方面论述数据的安全性和保密性。

对于OAI-PMH协议,内部运用的元数据标准DC的“dc rights”属性用以携带权限信息的以及服务提供方元数据等级映射机制,在此基础上可建构基于OAI的等级安全权限机制。在具体实现过程中,数据提供者元数据收割请求的发送和返回都是通过HTTP协议来完成的,协议中规定传递参数方式为GET或POST。如果采用前者则会带来安全问题,因为用户名和密码会出现在访问的URL上,如果页面被缓存或者其他人可以访问客户这台机器,就可以从历史记录获得该用户的账号和密码。相应的,此种方式的传输及计算成本较小,可根据实际情况选取参数传递方式。

SRU基于HTTP协议,也是通过GET和POST方式获取数据,其具体实现与上述OAI-PMH的描述相同。而SRW遵循SOAP通信协议,根据Web Service规范把查询请求封装成SOAP包,使用POST发送。从使用者的角度,Web Service是部署在web上的对象,具有对象的良好封装性和安全性。综上所述,SRU/SRW的安全性不同。由于这两种协议均不存在集中的元数据存储,因此保密性相对较高。

PERSIVAL出于数据版权以及医疗记录隐私权的考虑,必须对使用者权限有所控制,对数据隐秘性有所保护。在用户界面上,系统开始处理检索者输入的检索策略之前,首先要确定的是检索者的身份,包括其形态类别、医疗行为的提供者或是接受者、对于医疗信息的掌握程度、是否为预定医疗行为的接受者等信息。此外,由于数据通过客户端封装,本地也不保存相关信息,该系统的安全性也相对较高。

5 发展趋势

电子文件长期保存和利用已成为当代数字档案馆建设的重要课题。根据《文献管理长期保存的电子文档文件格式》(GB/T 23286.1-2009),“长期”被定义为“足够长的时间段,信息在该时间段内被存储,期间可能会发生一系列技术变迁,包括新的媒体和数据格式支持、用户群体的变更”。不同于传统档案,电子文件对软件和硬件有较强的依赖性,国内外均有管理不善导致大量电子档案记录无法被读取的教训。而在技术改革过程中,产生了各类广泛分布、异构、自治的检索系统和发布系统。这些分散的数据和分离的系统正面临着“比特腐化”的威胁。而统一的、支持多种文件类型和增值服务、覆盖诸多信息发布系统的检索接口是解决技术退化、读取依赖的方法之一,统一的入口能强化电子文件资源的利用和控制。

在以上案例中可以看出,现有的互操作协议及实现方式中并没有绝对的优势方。为了满足不同的用户需求,OAIster资源库建立了SRU模式的检索入口;除此之外,通过OAI-PMH所收割的元数据也可提供至SRW/U系统作为架构的基础,如Andy Powell所描述的JISC信息环境。而OCLC OAIcat通过对数据库引擎、数据存储格式映射机制进行抽象,可以为任意数据库系统建立OAI元数据接口,包括SRW/U。同时Thomas Habing也致力于研究OAI-PMH和Z39.50之间的互操作网关机制。扬长补短、彼此兼容是现有互操作实现方案的发展趋势。根据电子文件长期保存成熟度模型(Digital Preservation Capability Maturity Model,DPCMM),成熟的长期保存机制也包括了电子文件生命周期管理,上文所论述的互操作协议目前在统一管理电子文件本体方面能力较弱。此外,深化结合对特定领域的研究也是互操作协议的发展方向,主要体现在元数据标准的制定和发展。元数据标准应实现多层次和多功能的结合,这样元数据的选择和组合可以根据实际的需要细化到不同的层次,以满足实际应用需求。

*本文系国家社科基金项目“基于互操作协议的档案信息资源整合模式研究”(批准号:11CTQ030)的阶段性成果。

[1]What is interoperability for European eGovernment Services[EB/OL].

[2016-06-10]http://ec.europa.eu/idabc/en/document/5313/5883.html.

[2]吴育芳.数字图书馆互操作协议比较研究[J].图书馆界,2011(1):38-41.

[3]Mehdi Alipour Hafezi.Interoperability models in digital libraries:an overview[EB/OL].[2016-06-10].http://www.emeraldinsight.com/0264-0473.htm.

[4]OpenArchives Initiative Protocol for Metadata Harvesting[EB/OL].

[2016-06-10]http://www.openarchives.org/pmh/tools/tools.php.

[5]Gateway to Library Catalogs Z39.50.[EB/OL].[2016-06-10].http://www.loc. gov/z3950/.

[6]徐泺燚.互操作协议在档案信息资源整合中的应用探讨[J].档案与建设,2016(5):32-35.

[7]William Y.Arms Diane Hillmann.A Spectrum of Interoperability The Site for Science Prototype for the NSDL[EB/OL].[2016-06-10].http://www.dlib.org/dlib/january02/arms/01arms.html.

[8]俞力.数字图书馆互操作策略研究[J].图书馆学研究,2011(3):41-44.

[9]The OAIster database at a glance[EB/OL].2016[2016-06-10].http://www.oclc. org/oaister/about.en.html

[10]Projects-PERSIVAL[EB/OL].[2016-06-10].http://www.cs.columbia.edu/nlp/ projects.cgi#persival

[11]Rong Shi.LIGHTWEIGHT FEDERATION OF NON-COOPERATINGDIGITAL LIBRARIES[D].Norfolk:Old Dominion University,2004.

[12]周丽霞,朱德红.数字档案馆数字资源长期保存涉及的元数据内容[J].黑龙江档案,2013(3):13.

[13]包海峰、陈刚.基于OAI互操作协议的档案信息资源整合模式研究[J].档案与建设,2012(12):13-16.

[14]GB/T 23286.1-2009,文献管理长期保存的电子文档文件格式[S].北京:中国标准出版社,2009.

[15]钱毅.数字档案文件长久保存策略刍议[J].档案学通讯,2007(3):81-85.

[16]包海峰,彭桢,徐泺燚,陈刚.档案元数据标准比较研究[J].档案与建设,2014(2):19-23.

彭 桢,南京大学档案馆助理馆员,研究方向为数字化档案馆。

包海峰,南京大学档案馆副馆长,中国档案学会自动化委员会委员,研究方向为数字化档案馆。徐泺燚,南京大学档案馆助理馆员,研究方向为数字化档案馆。

Comparison of Metadata-sharing and Service-supported Interoperability Protocols

Peng Zhen,Bao Haifeng,Xu Luoyi
(Nanjing University Archives,Nanjing,Jiangsu,210046)

In the process of information technology development,there are all kinds of retrieval and distribution systems which are heterogeneous,autonomous and quite different from each other. The number of users has increased as well as the service required by them which covers a lot of information system only through a unified search interface.In this situation the interoperability protocol came into being.Due to different mechanisms,interoperability protocols can be divided into federal,metadata harvesting and collecting models.This article compare the realization and maintenance expense of all aspects concerned by the three models and give some suggestions on the principle of"moderate expense to derive full function".

Interoperability Protocol;Metadata Standards;Digital Archives;OAIster;The Euro⁃pean Digital Library;PERSIVAL

G270.7

猜你喜欢

档案馆检索数字
云南省档案局办公室关于表彰2018年度《云南档案》优秀通联组及发行先进单位的通报
答数字
全省部分档案馆新馆掠影
数字看G20
专利检索中“语义”的表现
when与while档案馆
成双成对
国际标准检索
国际标准检索
数字变变变