互操作协议在档案信息资源整合中的应用探讨*
2016-06-12徐泺燚南京大学档案馆江苏南京210023
徐泺燚(南京大学档案馆,江苏南京,210023)
互操作协议在档案信息资源整合中的应用探讨*
徐泺燚
(南京大学档案馆,江苏南京,210023)
[摘要]当代档案利用面临着改变传统档案利用方式的挑战。文章以对现有互操作协议标准的分析为基础,探讨了互操作在档案界的应用,并对如何搭建在线“大档案”平台进行了研究。
[关键词]互操作档案馆档案在线数据库档案信息资源[分类号]G271
1 引言
信息化时代,人们对检索、利用信息资源的需求不断增加。在这种趋势下,越来越多的传统档案馆意识到将“跨平台”概念运用到信息资源的保存和利用中,将分散保存在不同本地系统中的信息进行交换和共享,更有利于档案资源合理配置,提供更高水平的档案服务。当代档案馆面向的用户受信息化时代的影响更为鲜明和集中,接触并熟悉网络搜索引擎,这意味着他们往往不满足于单一的数据源,并追求简明高效的档案利用方式。如何加快数字化进程,将“互操作”概念运用到数字资源的管理中,是现代档案馆面临的挑战。
2 现有互操作协议标准
现有的互操作协议大致有DLIOP、SDLIP[1]、STARTS[2]、SDARTS[3]、SRW/U、Emerge、Z39.50[4]、ILL、Z39.83(NCIP)[5]、Dienst协议、OAI-Dienst协议、OAI协议、OpenURL[6]等。相对于传统的馆际互借协议,新的基于网页浏览器的协议使得服务变得更灵活多样,使得查询利用更人性化,并减少了各项成本。
较早的ANSI/NISO Z39. 50协议解决了不同数据库系统间的数据交流,克服了不同数据库之间的异构问题,扩大了网络检索范围,提高了检索效率[7],目前被广泛应用于图书馆和数据中心等。将Z39.50与现代技术结合,Eliot Christian提出采用XML对Z39.50的操作进行编码,以Web服务方式实现Z39.50的一些规范,由此产生了SRW/U协议。美国国家超级计算机应用中心NCSA利用Z39.50协议的语序,开发了实现异构、分布科学数据搜索和查询的中间件——Emerge,实现了XML和数据库协议之间的转换,向用户提供了用于在不同元数据视图之间搭建桥梁的工具,可自由定制以实现对多种数据源的检索,使跨领域的搜索服务具有互操作性[8]。
上世纪90年代开始,美国的一些大学(如斯坦福大学、哥伦比亚大学等)联合企业界,对如何有效检索和利用网络“隐藏”文档资源开展了研究工作,依次研究和开发了STARTS协议(斯坦福大学)、SDLIP协议(斯坦福大学等)和SDARTS协议(哥伦比亚大学)。
Dienst协议是一个面向文档检索服务的大型复杂协议,支持分布式搜索,通过采用相同的协议或软件结构实现互操作性,利用HTTP协议作为传输层,采用在HTTP请求中嵌入URL的形式表示协议请求。Dienst协议的一个子集——OAI-Dienst,实现了分布式数字图书馆服务之间通信,通过HTTP提供协议请求。
开放文档先导倡议OAI (Open Archives Initiative)在圣达菲协定的基础上进行扩充和修改,应用范围从最初的电子资料扩充到一般的学术数据。OAI包含两个子计划:元数据收割协议OAI-PMH (Protocol for Metadata Harvesting)和对象重用与交换协议OAI-ORE (Object Reuse and Exchange)。OAI实际上是通过在数据提供者和服务提供者之间提供一个简单的接口来实现互操作,没有对数据提供者和服务提供者进行规定。
OpenURL是美国国家标准(ANSI)Z39. 88为了规范对上下文对象内各实体的描述,以及建立统一的上下文对象传输方法而定义了一套完整的框架[9]。Z39. 88协议的核心是用于描述上下文环境的上下文对象及其传输机制[10]。通过构建一个与上下文相关的开放链接框架,使信息服务者与信息的提供者相分离,实现同时对不同来源的多个数据库或信息资源进行统一的检索[11]。
3 互操作协议在档案行业的应用
档案行业互操作的研究起步较晚,实践较少[12]。有部分数字档案馆在建设时研究和参考了OAI协议,如挪威数字档案馆结合OAIPMH与Google Sitemaps,将基于EAD/XML的目录发布到Google聚合器中,使网络用户能利用搜索引擎直接访问档案目录。国外真正运用OAI协议的档案馆项目主要有UIUC、伦敦的AIM25[13]、英国的档案利用项目A2A(Access to Archives)[14]与澳大利亚的Bright SPARCS项目[15]等。国内苏州工业园区档案馆率先引入OAI技术,不少档案馆在数字化校园的进程中也开始着手构建“大档案”平台。
3.1档案信息的网络聚合项目
此类项目基于信息共享,由多个组织共同参与,通过档案著录进行增值服务,原理上与OAI数据提供者相似[16]。如美国加利福尼亚在线档案馆OAC(Online Archive of California)[17]、德克萨斯档案馆资源在线TARO(Texas Archival Resources Online)[18]、伊利诺斯数字档案馆(Digital Archives of Illinois)[19]、美国的西北数字档案馆(Northwest Digital Archives)[20]等。
3.1.1美国加利福尼亚在线档案馆OAC——基于EAD档案编码检索工具的联合型数据库
加利福尼亚州在线档案馆(Online Archive of California),简称OAC,是加利福尼亚州数字图书馆工程的核心组成部分。OAC作为联合数据库,与OAI的数据提供者相似。经过近十年的发展,已经有了比较完善的功能,信息资源丰富、著录信息详细、用户界面友好、联系信息完备。但是OAC还有局限性:
(1)支持与整合的电子文件类型较少。目前只支持两种格式:MARC/EAD。
(2)信息资源来源狭窄。目前只接受来自机构的信息资源。
(3)无法进行主题检索。无法对针对某一特定主题的资源进行系统、全面地检索。
3.1.2德克萨斯档案馆资源在线TARO——私人收藏的联合查询
美国德克萨斯州的数字档案馆项目从2008年开始进行。TARO(德克萨斯档案资源在线)共有22所大学、7家档案馆(包括学校档案馆)、1家博物馆和8个其他组织参与,致力于向全州公众开发丰富的档案资源、手稿原件和博物馆库藏的描述信息。该网站提供的藏品描述信息——或者称之为“查询帮助”——是当地的档案馆、图书馆和博物馆创建的、用于帮助用户定位个人藏品的信息。由于涉及私人信息,在私人藏品库中还可以得到更详细的资源描述。在大多数情况下,藏品本身不提供在线服务。该项目的下一步计划是获得各种类型藏品的数字化代理权,将文件和实物的图像、声音文件和视频在网站上提供。
德克萨斯档案资源在线尚在起步阶段,它的优点在于服务目的明确、信息资源来源全面丰富、分层描述信息详细准确,现阶段的不足在于:
(1)该网站上的“查询帮助”不提供任何馆藏的全部描述信息。
(2)查询利用界面简单。
(3)提供信息单一。只提供题目、主题、责任者姓名或组织名称、馆藏地、格式。
(4)无主题检索。
与TERO相似的多组织参与、基于信息共享的数字档案馆还有美国伊利诺斯数字档案馆(Digital Archives of Illinois)、美国的西北数字档案馆(Northwest DigitalArchives),其功能也和OAI的数据提供者类似。
3.2荷兰历史数据档案馆The eXtensible Past
The eXtensible Past项目(下面简称X-past项目)由荷兰历史数据档案馆(NHDA)开展。该项目的主要目标一直是研究如何利用XML数据格式,促进历史数据集的长期保存和数据访问。X-past项目的研究重点是通过开放档案元数据收割协议(OAI-PMH)提供历史数据集访问。
“可扩展标记语言”(XML)的数据格式是这个项目数字化保存战略的一部分。选择标准化XML数据格式的原因在于这种数据格式的非专有的、自我描述的功能特性。将数字对象存储为XML文件被视为长期存储和访问它们代表数据的一种可行方案。同时标准化的XML格式提供了一种可能的途径,以防止文件变得不可阅读。
该项目研究指出,现阶段的“开放档案(Open Archives)”并不能保证数据集的长期保存,但是它为归档服务提供了便利。提供长期访问的途径是下一步研究的方向。
3.3 UIUC和AIM25
美国的UIUC项目从40个美国大学和研究图书馆收集著录元数据,汇集了60个档案馆和其他机构的档案资料,包括了从博物馆的艺术品到档案资料等多种类型,UIUC服务门户网站通过XPATH软件与服务端脚本进行索引和查询,为用户提供了档案的上下文关系及背景信息。
伦敦AIM25(Archives in London and the M25 area)是一个长期的网络访问数据库,超过一百所高等教育机构、学术团体、文化组织及其附属公司参与其中。该项目的在线数据库网站对收割的数字化藏品进行了分层描述和全文目录,同时包含了图像和Web 2.0的功能,如标签云和RSS feeds,向公众提供了全伦敦地区的档案收藏的定位信息,改进了检索的效率,为从前没有著录的收藏提供了访问途径。该项目包括了伦敦许多遵守OAI协议的档案库。AIM25著录简单,在一个数据库里存放著录数据,并且可以根据需要将它们输出为EAD或其他格式。[16]
3.4澳大利亚的Bright SPARCS
Bright SPARCS提供了有关澳大利亚人文、历史、科技等方面信息和资源的综合服务。澳大利亚科学百科全书(the Encyclopedia of Australian Science)将Bright SPARCS项目和澳大利亚工作科学项目(Australian Science at Work)结合起来,形成了记录澳大利亚人民和众多产业、企业、研究机构、科学团体和其他组织信息的大型数据库,通过提供澳大利亚历史文献的书目和档案材料,促进澳大利亚的科学、技术和医学遗产研究。
Bright SPARCS项目中数据采用EAC模型存储,每条EAC模型包含5个条目:
(1)标识。包含标识的首选名称和替换名称,以及时间、地点信息。
(2)描述。包含传记和历史信息。
(3)组织。描述职责和地位,以及活跃年代。
(4)框架。描述和其他组织、法人、个人和家庭的关系。
(5)关联。描述和其他有关资源的关系。
通过Bright SPARCS检索,不仅能得到该数据库中的直接关联资源,也可以得到从网络和其他图书馆、档案馆的馆藏档案和遗产资源中获取的搜索结果。Bright SPARCS数据库是以个人(或组织)为索引,提供的检索也是以个人(或组织)的名称为关键字检索,可以增加时间、地点等限制条件,但还未提供主题词检索服务[21]。
3.5应用情况分析
为了更好地理解互操作协议在档案行业应用的情况,结合上述的几个案例,就几个要点着手进行分析。
档案信息网络聚合项在原理上与OAI数据提供者相似,但由于大多数项目立足于本地资源,没有形成统一的链接,数据来源狭窄,从规模上看都不大,也只在目录著录信息级别开放,但是经过多年完善,著录详尽。这类项目普遍存在未能提供良好的应用,不能满足检索需求,缺少数字化藏品的在线查看功能等问题。
荷兰历史数据档案馆着眼于历史数据集的长期保存和可访问,通过开放档案元数据收割协议(OAI-PMH)的应用,得到了长期存储和访问历史数据的一种可行方案。该项目尚处在研究中,数据来源单一,开放程度不高。
UIUC和AIM25作为成熟的服务提供者,数据来源丰富,且具有一定的规模,用户友好程度高,开放程度高。AIM25添加了图像和Web 2.0的功能,如标签云(Tag Clouds)和RSS feeds,向公众提供了全伦敦地区档案收藏的定位信息,改进了检索的效率。
澳大利亚Bright SPARCS项目得到国家政府的支持,规模较大,涉及行业领域多,数据来源丰富,抓取项目内的数据库资源,也可以获取网络资源和其他图书馆、档案馆的馆藏档案和遗产资源。网站对公众提供检索服务平台,开放程度高。
表1 互操作协议在档案行业的应用
4 档案馆实现在线数据库互操作的目标
现代档案馆面向的用户受信息化时代的影响更为鲜明和集中。他们有以下几个特点:
(1)接触并熟悉网络搜索引擎。这意味着他们往往不满足于单一的数据源,习惯于海量数据的遴选与使用,并追求简明高效的档案利用方式。这就需要利用一定的技术方法来保证在线服务的可靠性与实用性。
(2)受过良好教育,视野开阔。随着用户自身信息素质的提高,个性化服务的需求也相应提高。只有整合分散在各处的档案资源,才有可能实现在统一平台提供定制,丰富在线服务的多样性。
(3)重视信息安全。用户对自身档案信息安全性的重视,增加了在线服务的复杂性。
同时,档案馆作为公共服务体系中的重要组成部分,具有公益性,因而提高资源使用效率,降低人力、物力成本十分重要。
5 档案馆实现在线数据库互操作的思路讨论
整合馆内数字化资源,异构系统间的互操作,已经成为电子文件保存和利用中的重要问题。
(1)将原有的档案资源数字化,实现全面信息化。包括实体档案的数字化,数字化馆藏的存储、维护、传输和提供利用,以及档案行业的各项业务工作,包括但不限于档案的征集、接收、整理、著录、鉴定、编研、保管、维护、迁移等的信息化[22]。这项工作是档案馆在信息化大潮流下,必须也必然要完成的事,各种数字化手段也为档案馆的服务数字化和档案馆其他业务职能的信息化提供了可行的办法。
(2)异构系统间的互操作。在实际应用中,特别是在档案互操作实践中,元数据的结构和系统的语义结构都存在着异构性,解决数据库之间异构问题的方法仍需进一步探索。
(3)互操作系统的识别和智能链接。通过搭建平台,不同的数据库系统上线后,自动发现和相似推荐,动态链接可以互操作的系统,以实现更大范围的互操作。
(4)文件的有效性。文件虽然能够通过互操作进行共享和查阅,但是检索得到的结果如何能够提供有效凭证,证明其真实性和完整性,是需要考虑的一个重要问题。
(5)文件的安全和保密。安全问题始终伴随着电子文件的生命周期,尤其是涉及密级的档案文件,在互操作过程中的安全和保密需要更多地考虑。档案门类众多,档案数据涉及面大。需在遵循《高等学校档案管理办法》的基础上,结合本校实际,把握开放性。
(6)互操作与国际接轨。随着全球范围内的文化深入交流,跨地域、跨文化的互操作是必然趋势。很多档案馆,因为历史原因以及历年的各方交流,为了向公众提供更好的服务,必须考虑不同文化差异和语言习惯。
6 总结
随着信息时代数据的海量增长,检索、利用数据的需求日益复杂化和专业化,这是档案行业面临的挑战,同时也是档案馆脱离传统框架,焕发新活力的契机。档案馆应寻求合理的资源配置方案,依托现代化技术,深刻挖掘档案资源价值,进一步发挥在公共服务中不可替代的作用。
*本文系国家社科基金项目“基于互操作协议的档案信息资源整合模式研究”(批准号:11CTQ030)的阶段性成果。
参考文献
[1]Panagiotis G. Ipeirotis,Tom Barry,Luis Gravano. Extending SDARTS﹕Extracting Metadata from Web Databases and Interfacing with the Open Archives Initiative.2002.
[2]Gravano,L. and Chang,C. and Garcia-Molina,H. and Paepcke,A.(1997)STARTS﹕Stanford Proposal for Internet Meta-Searching. In﹕ACM International Conference on Management of Data(SIGMOD 1997),May 13-15,1997,Tucson,Arizona.
[3]Noah Green,Panagiotis G. Ipeirotis,Luis Gravano. SDLIP + STARTS = SDARTS A Protocol and Toolkit for Metasearching. ACM/{IEEE}Joint Conference on Digital Libraries (2001),pp. 207-214.
[4]Lynch,Clifford A. The Z39.50 information retrieval protocol﹕an overview and status report. ACM SIGCOMM Computer Communication Review,Volume 21(1)Association for Computing Machinery. Jan 2,1991.
[5]ANSI/NISO Z39.83- 1- 2008 Circulation Interchange -Part 1﹕Protocol(NCIP).
[6]OpenURL﹕http﹕//www.niso.org/apps/group_public/project/details.php?project_id=82(Accessed Dec.29,2015).
[7]薛锋. Z39.50协议在信息检索应用中的研究与实现[D].上海:上海交通大学,2000.
[8]张付志,孔令富,刘明业.几种典型的数字图书馆互操作协议分析比较[J].情报学报2003(8):476-481.
[9]赵俭.论数字图书馆服务模式[C]. 2005.
[10]路莹.开放链接技术及其在数字图书馆中的应用[J].现代信息技术,2010(07).
[11]刘世影,杨雨师,吴戈.数字图书馆资源整合研究[J].现代情报,2007(02).
[12]包海峰,陈刚.基于OAI的档案信息资源整合模式研究[J].档案与建设,2012(02):13-16.
[13]AIM25﹕http﹕//www.aim25.ac.uk/(Accessed Dec.29,2015).
[14]A2A﹕http﹕//discovery.nationalarchives.gov.uk/(Acessed Dec.29,2015).
[15]Bright SPARCS﹕Encyclopedia of Australian Science﹕http﹕//www.eoas.info/(Accessed Dec.29,2015).
[16]王芳,王小丽.基于OAI协议的数字档案馆元数据互操作问题研究[J].现代图书情报技术,2007(3).
[17]OAC﹕http﹕//www.oac.cdlib.org/(Accessed Dec.29,2015).
[18]TERO﹕http﹕//www.lib.utexas.edu/taro/index.html(Accessed Dec.29,2015).
[19]Digital Archives of Illinois﹕http﹕//idaillinois.org/(Accessed Dec.29,2015).
[20]Archives West﹕http﹕//archiveswest.orbiscascade.org/index.shtml(Accessed Dec.29,2015).
[21]Annelies van Nispen,Rutger Kramer and René van Horik,The eXtensible Past-The Relevance of the XML Data Format for Access to Historical Datasets and a Strategy for Digital Preservation,D-Lib Magazine,February 2005,Volume 11 Number 2,ISSN 1082-9873.
[22]于丽娟.国外数字档案馆建设概况[J].中国档案,2003(03).
Discussion on the Application of Interoperability Protocols in the Integration of Archive Information Resources
Xu Luoyi
(Nanjing University Archives,Nanjing,Jiangsu,210023)
Abstract:The contemporary archives utilization is facing the challenge of changing the traditional way of archives utilization. Based on the analysis of the existing standard of interoperability protocols,this paper discusses the application of interoperability in the field of archives,and studies how to build the online "big archives" platform.
Keywords:Interoperability;Archives;Archive;Online Database;Archival Information
[作者简介]
徐泺燚,女,南京大学档案馆助理馆员,理学学士,主要研究方向为档案信息化。