APP下载

数字资源长期保存开源软件比较研究*

2014-02-09马宁宁周晨冯红娟

新世纪图书馆 2014年8期
关键词:知识库开源文档

马宁宁周晨冯红娟

数字资源长期保存开源软件比较研究*

马宁宁周晨冯红娟

论文介绍了8种数字资源长期保存开源软件:Invenio、DSpace、Eprints、Fedora、Drupal、i-Tor、MyCoRe和OPUS,阐述了它们的产生和发展过程,并从软件概况、技术规范、知识库及系统管理、系统性能及系统维护5个方面进行了比较分析,概括了这些软件的共同点和不同点,希望能够为各机构选择长期保存软件提供参考,并为国内从事数字图书馆系统设计和开发的同行提供参考。

数字资源长期保存开源软件数字图书馆技术规范知识库

0 引言

数字资源长期保存的概念自20世纪80年代提出以来,国内外一直在进行着大量的研究,并且涌现出一大批功能完善、各具特色的数字资源长期保存开源系统或软件,深得各国图书馆的青睐。构建数字资源长期保存系统的开源软件发展极为迅速,截止到目前,已有Archimede,ARNO,Invenio,DSpace,Eprints,Fedora,Drupal,I-Tor,MyCoRe和OPUS等10余种。本文重点介绍8种比较有代表性的数字资源长期保存开源软件,并从数字图书馆内容管理系统应具备的主要功能(资源的批量导入与导出、存档管理及系统维护、用户查询与浏览、访问控制)的角度,对这8个系统进行了详细的比较和分析。

1 系统功能和服务特性概览

1.1 DSpace

DSpace由美国麻省理工大学图书馆和惠普公司实验室联合开发,第一个版本于2002年12月发布,是一个收集、组织、存储、索引、发布任何格式和层次结构的数字对象的内容管理发布系统。DSpace遵循BSD协议,采用DC(Dublin Core)元数据来描述数字对象,支持OAI-PMH2.0协议,可以导出METS格式的数字对象,通过METS与其他系统交换资源。DSpace系统结构分为三层:应用层、事务逻辑层和存储层。应用层包含DSpace的用户应用界面、数据提供导入导出工具、统计工具等功能;事务逻辑层负责存档文件、电子用户、授权及工作流等内容的管理;存储层负责元数据及内容的物理存储,如PostgreSQL、Oracle数据库的访问管理、文件系统管理、维护内容索引等[1]。

DSpace可扩展性强、功能集成、界面友好,而且使用的第三方软件也均为开源软件,如PostgreSQL,JDK,Apache等,因而受到很多高校和研究机构的青睐。当然,DSpace也有不足之处,在实际应用中需要对其进行本土化处理,如:汉化系统的用户界面、邮件内容、提交作品的描述信息等内容,需根据实际情况设置系统的主题、提交策略和服务条款,从而对系统进行相应的优化改进。

1.2 Fedora

Fedora(Flexible Extensible Digital Object and Repository Architecture)系统始于1997年,在Andrew W.Mellon基金会的资助下,由弗吉尼亚大学和康奈尔大学联合开发,2001年发布其第一个版本。Fedora遵循Mozilla许可协议,采用CORBA和Java技术实现,是一个通用的数字对象管理和存储系统。Fedora系统由数字对象和仓储框架两大实体组成,数字对象是Fedora体系结构的核心,提供了一个集成内容(包括数据和元数据)和行为(对内容的操作)的框架;Fedora仓储是为数字对象服务的,提供了对数字对象的存储管理和访问接口,客户端通过管理和访问接口跟仓储进行交互。Fedora的体系结构分为web服务层、逻辑应用层和存储层三层[2]。

Fedora系统中的数字对象使用METS标准编码,以XML格式存储,方便了数据导入导出时的信息交换。Fedora实现了数字对象框架,扩展性强,适合存储和管理各种属性不同的复合数字对象;支持OAI协议,可以很方便地进行互操作,美国塔夫斯大学、维吉尼亚大学、英国赫尔大学等机构都是其忠实用户。但由于Fedora仅提供管理和访问数字对象的接口,没有用户界面,因此在实际应用中需要使用者进行二次开发,通过编码来调用这些接口,使用门槛较高。

1.3 EPrints

EPrints由英国的Southampton大学研发,目的是创建一个高度可配置的基于Web的知识库,2000年6月发布第一个版本,可存储研究论文、图像、科学数据、音视频等所有数字格式的文件。EPrints用Perl语言编写,使用Apache和MySQL作为其网络服务和存储软件;遵循OAI-PHM2.0协议,灵活性强,用户可以根据需求对其进行修改。EPrints还可以自动安装,可用一种或多种格式存储数字对象,支持多种元数据方案,自动检查数据完整性,基于web进行系统维护,可通过网页提交、订阅、点评资源等,因此拥有广泛的用户群,如:西班牙的E-LIS项目、荷兰Twente大学、澳大利亚昆士兰大学等。

EPrints系统内包含四个区域,分别为用户工作区、编辑/提交缓冲区、存储区、删除区。用户工作区用来存储未编辑完或未准备好提交的记录;编辑/提交缓冲区存储等待批准审核的记录;存储区存储已审核通过、允许发布、可被检索使用的记录;删除区用于存储被逻辑删除的记录,EPrints中的数据是被长久保存的[3]。所谓删除,只是从发布区域移走而已。

1.4 Drupal

Drupal是一套由63多万用户和开发人员共同维护与开发的开源内容管理系统,基于PHP开发,基本架构为PHP+Mysql,可以定制各种功能模块,具有典型的web2.0特征,以简洁的代码实现了强大的功能。Drupal是一个建设动态网站的开源平台和内容管理系统,允许用户轻松地组织、管理和发布各种内容,提供广泛而全面的功能和服务,包括:用户管理、发布工作流、讨论功能、新闻聚合、基于受控词表的元数据操作、用于内容共享的XML发布功能。由于功能模块和参数设置均可以自由搭配,Drupal可以支持从个人博客到大型社区驱动网站的各种网页项目[4]。

Drupal提供了一个超薄而功能强大的核心组件平台。它基于LAMP平台,并且支持多种语言,使用容易;模块化的体系结构使功能组织定制更加灵活,还提供了完善的管理和分析工具;庞大的开发团队推动着Drupal的不断发展和完善。

Drupal具有三层体系结构,即数据持久层、逻辑层和表现层。数据持久层负责持久保存各类数据对象,支持Mysql、PostgreSQL等关系型数据库,其它模块可以通过调用核心数据库的API来访问其中的数据;逻辑层是整个系统的核心,包括Drupal核心库和模块组两部分,通过各个功能模块对数据进行业务和逻辑处理;表现层负责存档数据的用户呈现,以用户为中心通过主题系统提供强大的内容表现机制。

1.5 Invenio

Invenio是一个帮助用户构建自己的数字图书馆或网络文档库的免费软件包。该软件提供的技术覆盖了数字图书馆管理的所有方面,从文件摄取,到分类、索引、策划和发布。Invenio符合OAI-OMH(Open Archives Initiative metadata harvesting protocol,开放文档计划元数据收割协议)之类的标准,并使用MARC 21作为其基础书目格式。Invenio具有灵活性和执行性,它是一个管理中等规模(几百万条记录)文档库的综合解决方案。

Invenio原本由CERN(欧洲核子研究中心)开发,运行CERN的文件服务器,管理着100多万条2002年以来高能物理方面的书目记录,涵盖了文章、图书、期刊、照片、视频等内容。目前,Invenio由一个国际合作组织共同开发,该组织包括:CERN、DESY、EPFL、FNAL和SLAC,全球有30多个科研机构正在使用Invenio。用户可以直接到Invenio官网上免费下载安装软件包。Invenio具有如下特点。

(1)资源导航树:文件被组织在集合中,常规和虚拟的集合树,每个集合个性化的入口,以及CERN中分装在700个集合中的100多万条文档。

(2)强大的搜索引擎:为实现对包含200多万条记录的知识库的快速检索而特别设计的索引,自定义的简单和高级检索界面,将元数据、全文、引文检索整合在一个检索框中,检索结果按照集合聚类。

(3)灵活的元数据方案:标准元数据格式(MARC),管理着文章、图书、论文、图片、视频、博物馆藏品等多种格式的文件,自定义显示和链接规则。

(4)用户个性化订制:用户定义的收藏夹和自动email通知提醒,与用户群分享收藏的文件,像亚马逊那样对知识库和收藏夹中的文件进行评论[5]。

1.6 I-Tor

I-Tor由荷兰科学信息服务研究所(简称NIWI)的创新技术应用(IT-A)部门开发。是一组基于Linux,Java,MySQL,Mirage和其它免费组件开发的、用于开放知识库的工具和技术。它收割OAI,并将数据库变成开放存档,包括相似性、链接、基于Lucene的检索。I-Tor的开发重点面向四个领域:电子出版物、知识库、内容管理系统、“合作实验室”。I-Tor是一个基于网络的技术,用户利用I-Tor可以通过Web界面展示各种类型的信息,而不用考虑数据存储在哪儿或存储格式是什么[6]。

I-Tor的目标是实现一个“独立于数据”的存储库,内容和用户界面功能作为该系统两个独立的部分。从本质上讲,I-Tor的角色既是一个OAI服务提供者(能够收割OAI兼容的存储库和其它数据库),又是一个OAI数据提供者。

由于I-Tor能够从各种关系数据库、文件系统和网站发布数据,所以该系统为机构组织构建知识库提供了相当大的余地。I-Tor可以为知识库创建新的数据库,也可以使用已有的关系数据库。此外,I-Tor还能从研究者的个人主页中直接收割数据。最终用户可以直接通过网页浏览器向系统添加内容,而无需软件开发者做中介。

由于这种设计,I-Tor不会执行一组或子组的特定工作流。相反,I-Tor为机构提供构建任何组织需要的工作流的工具(例如,细粒度安全、通知等),而无需将工作流整合到I-Tor系统中。利用I-Tor,机构可以在现有的一组完全不同的数字资源库的基础上构建一个新的知识库。

1.7MyCoRe

MyCoRe是德国埃森大学MILESS项目的成果。MyCoRe中的“CoRe”代表“Content Repository”(内容知识库)或“Core”(核心),“My”代表本地适应和使用。MyCoRe系统目前由一个大学联盟负责开发,它提供一个核心软件工具包,来支持数字图书馆和存档的解决方案。利用该软件包,无需本地编程,即可适应本地需求,并具有可配置性。

MyCoRe的数据模型是完全可配置的,此外,MyCoRe还基于“核心”功能提供了一个应用程序样例——“DocPortal”,向用户展示如何使用元数据配置文件构建自己的应用程序,DocPortal既是一个演示和测试环境,又可作为一个模型和应用程序框架,来构建自己的基于MyCoRe的应用程序。“核心”功能包含了知识库实施中需要的所有功能,包括:元数据管理、分布式检索地理上分散的MyCoRe知识库、OAI接口、图像查看器、集成的音频/视频流支持、文件管理及在线元数据编辑等。实际应用中,机构可以扩展或自定义核心模块来满足本机构的特殊需求。

MyCoRe并不向特定的底层数据库强制编码,而是提供一个持久层接口,以及不同数据库的实现程序。除了各种开源数据库系统的实现程序,MyCoRe还支持商业的、可用于大规模仓储的IBM内容管理系统。

MyCoRe不是一个完整的、可立即使用的仓储软件(像EPrints或OPUS那样),但它提供创建这些或类似应用软件的API。所以MyCoRe的优势在于提供强大的、全面的功能,具灵活性。例如,元数据模型、网络接口、搜索及登记表格等功能都可以自由配置。此外,DocPortal可以理解为一个框架,初学者可以用其建立自己的第一个MyCoRe服务器。目前在德国有23家机构使用该系统。

MyCoRe的特点:进行元数据管理、分类管理,以统一资源名称(URN)标准作为永久标识符,具备搜索、用户和权限管理,支持OAI/Z39.50/WebService等接口,适用于各种图片浏览器(可选)、集成的音频/视频流媒体服务器(可选),具有简单的用户工作流(可选)、简单的Web内容管理系统、机构知识库功能。

1.8OPUS

在大学的研究和教学过程中会产生大量质量相当不错的出版物,如硕士论文、学位论文、报告、会议论文、讲义等。这些科研成果很难被外界准确地检索到,所以这类出版物通常被业内称为“灰色”资源。为了改善这种状况,在德国研究网和德国联邦政府的高等教育部的资助下,斯图加特大学图书馆和计算机中心于1998年开发了OPUS(Online Publications of the University of Stuttgart,斯图加特大学网络出版物)系统。OPUS为大学教师、学生和工作人员提供了一个管理其电子出版物(发表和未发表的文章、论文和学位论文)的系统,使每位大学成员(职工和学生)都能通过万维网来发布、检索和使用电子文档[7-8]。

使用OPUS发布资源的方式是:将电子文档转换为PDF格式(可移植的文档格式),然后录入一些关于该文档的元数据,这些元数据将以DC格式存储在SQL数据库中。所以检索具有其他知名在线数据库的典型特征:不同的检索字段、分词选项、布尔运算符等。此外,DC使其能够加入不断发展的、基于Web的搜索引擎和机器人。为了更容易地访问斯图加特大学的电子文档,OPUS是康斯坦斯高级研究开放式图书馆网络(Constance Advanced Research Open Library Network,CAROLINE)的成员。这意味着通过西南德国(South-West Germany,SWB)统一编目可以检索到其中的资源,SWB中包含了该地区图书馆拥有的大约6百万条出版物的题名信息。

OPUS是可扩展的,这意味着其他大学或机构也可以安装该系统,从而使科学界可供获取更多的电子文档,目前有一百多家机构正使用OPUS系统来管理其电子出版物,可以同时检索这些成员机构的所有资源。大多OPUS的实施是由机构的大学图书馆来管理和运营的,但也有一些是由图书馆和大学的出版社和/或学术计算机中心合作努力来管理运营的。

OPUS项目于1998年10月结束,目前OPUS的后续开发由斯图加特大学资助,与巴登-符腾堡州图书馆服务中心(BSZ)合作开发,该机构拥有OPUS的开发平台。自2011年8月,斯图加特大学就部署了OPUS 3.2.1版本。未来的发展主要集中在标准互操作服务上,如一个网络认证知识库的使用统计和引文分析等。OPUS在以德语为主要语言的国家应用面非常广。

2 性能比较

面对众多的开源软件,用户在选择开源软件时,除了需要明确本机构的业务需求,还需要评估和考察很多指标,本文将从软件概况、技术规范等方面对上述8种主流数字资源长期保存开源软件进行比较和分析。

2.1 软件概况

比较开发机构、发布日期、注册用户数、版本号、最新版本等软件信息,有利于我们初步了解各个开源软件的整体状况。具体见表1。

表1 软件概况比较

表2 技术规范比较

2.2 技术规范

开源软件和商业软件的主要不同点在于技术规范和源代码的公开。因此,考察一个开源软件的重要指标就是其技术规范的优劣。技术规范的好坏一方面将影响到开源软件的质量,另一方面也将决定软件后期是否可以吸引更多的用户和志愿程序员进行后期的开发和维护。表2对8种开源软件所使用的开源许可协议、开发语言、操作系统、Web服务器、支持的数据库、搜索引擎等技术规范进行了详细的比较。

2.3 知识库及系统管理

知识库及系统管理部分从各个软件可接受的文档格式、是否可以提交包含多个文件的条目、是否可以上传压缩文件及是否支持批量导入及导出功能等方面对8种开源软件进行了深入比较,详见表3。

表3 内容导入/导出比较

2.4 系统性能

系统性能分可扩展性、易用性、模块化三部分进行了比较。可扩展性好的软件将为具有研发实力的机构使用系统提供更大的空间,可满足更多的需求;易用性决定着开源软件使用的技术“门槛”的高低;模块化的设计将有助于开源软件的爱好者和志愿者在软件后期可以自由操作功能模块。比较结果可见表4。

表4 系统性能比较

2.5 系统维护

开源软件的后期开发依靠的是广大的社区程序志愿者,虽然存在一定的组织,但都是松散的非商业化组织,所以在选择开源软件时还是需要选择系统维护策略相对完善的软件。对于是否有系统维护,详见表5。

表5 系统维护比较

2.6 小结

通过上文的比较和分析,可以看出这些软件都具有比较好的开放性、通用性和可扩展性。主要表现在:(1)这8个软件均遵循开放源代码许可协议,可以免费获取,并可自由修改、升级和重组;(2)均可以在时下主流的操作系统(如Linux/Unix/Solaris)上运行;(3)均支持OAI(Open Archives Initiative,开放文档计划)元数据收割协议,使每个用户都能加入全球互操作研究知识库的网络;(4)均支持国际上通用的底层数据库(如MySQL/PostgreSQL);(5)可以接受所有的文档格式;(6)可以批量导入元数据和对象数据,批量导出的数据和内容均具有可移植性;(7)均使用了模块化的设计理念;(8)均可以自动安装和更新脚本;(9)针对分布式环境下的数字资源设计了元数据管理方案,大都采用了国际上通用的元数据标准(如DC),并可以根据需求自主增删元数据字段,8个软件均可通过系统为存档资源分配标识符;(10)均提供系统使用的帮助文档或手册,并且大多数软件均提供对存档资源的检索和浏览功能。

从上面几个表格的比较中,我们还可以看出:(1)Dspace目前在全球的用户数目最多,其次是Eprints、Fedora、Drupal和OPUS,这5个软件占据了全球90%以上的用户;(2)Drupal和I-Tor在用户服务方面的功能最为完善,不但可以定制界面、提供系统讨论平台、支持全文检索,还提供丰富的资源检索和浏览功能;(3)Dspace、Fedora和Invenio不但制定了数字资源的长期保存策略,还支持元数据的长期保存;(4)Fedora、Drupal、MyCoRe和I-Tor提供了丰富的API接口,扩展容易,而Dspace、EPrints、Invenio和OPUS系统本身的功能就比较完善,密封性强,扩展难度相对较大;(5)Fedora和MyCoRe这两个软件不提供面向终端用户的数据操作和访问界面,不是一个完整的、可立即使用的仓储软件,均需要进行二次开发,对使用机构的研发能力有较高的要求,而其它6个软件的系统功能则比较完备,容易使用。

3 结语

本文介绍的8种数字资源长期保存开源软件没有绝对的优劣之分,它们在创建之初都是根据特定的运行环境和功能要求、按照一定的原则和目的来设计开发的,侧重点和优势也各不相同。这些软件各具特色,各有所长:Invenio能够处理包含不同类型资源的中等规模仓储;DSpace支持基于社区的内容政策和提交程序,并提供工具来长期保存提交的数字对象;Eprints提供了一个简单、有用的仓储系统,安装了一个庞大而活跃的用户社区;Fedora提供了一个功能全面的数字图书馆系统,是容纳非常庞大的资源库;I-Tor提供的工具包是构建一个访问并集成显示多种数据库内容的统一环境;MyCoRe强调灵活性,以及配置软件以支持完全不同的数字图书馆和仓储数据库的能力;OPUS则提供了一个庞大而多样的德国用户群。

总之,这8种软件各具特色又有丰富的功能,可满足大多图书馆保存和管理其数字资源的需求。各机构可根据自身的实际需求,选择最适合的软件作为其应用或开发平台。本文通过对这8种软件进行详细比较,希望能为国内从事数字资源长期保存系统设计与开发的同行提供参考,也为机构团体选用长期保存开源软件提供借鉴。

[1]DSpace website[EB/OL].[2013-10-03].http://www. dspace.org/.

[2]Fedora website[EB/OL].[2013-10-03].http://www. fedora-commons.org/about.

[3]EPrints website[EB/OL].[2013-10-15].http://www. EPrints.org/.

[4]Drupal Groups[EB/OL].[2013-10-15].http://groups. drupal.org/libraries.

[5]Invenio website[EB/OL].[2013-11-06].http://inveniosoftware.org/.

[6]i-Tor.[EB/OL].[2013-01-06].http://sourceforge.net/pr ojects/i-tor/.

[7]MyCoRe website[EB/OL].[2013-11-08].http://www. mycore.de/about.html.

[8]About OPUS[EB/OL].[2013-11-12].http://elib.unistuttgart.de/opus/doku/about.php?la=en.

[9]Invenio website[EB/OL].[2013-11-15].http://inveniosoftware.org/wiki/WikiStart?action=history.

[10]sourceforge[EB/OL].[2013-11-25].http://sourceforge. net/projects/i-tor/?source=directory.

[11]MyCoRe website[EB/OL].[2014-01-25].http://www. mycore.de/archive.html.

[12]DuraSpace website[EB/OL].[2014-02-05].http:// duraspace.org/about_dspace.

[13]Fedora Commons Registry[EB/OL].[2013-02-15]. https://docs.google.com/spreadsheet/ccc?key=0AnXL MjeiSH_KdElwYi11dGhQTURMZmR1eEdXbDFZMH c&hl=en_US#gid=0.

[14]Drupal Groups[EB/OL].[2014-02-15].http://groups. drupal.org/libraries/libraries#consortia.

[15]sourceforge[EB/OL].[2014-02-22].http://sourceforge. net/projects/fedora-commons/files/fedora/.

[16]sourceforge[EB/OL].[2014-02-27].http://sourceforge. net/projects/mycore/.

[17]MyCoRe website[EB/OL].[2014-01-05].http://sour ceforge.net/projects/dspace/files/?source=navbar.

[18]EPrints 3.3.11[EB/OL].[2013-12-03].http://files.eprints. org/827/.

[19]Drupal website[EB/OL].http://drupal.org/,[2013-12-17].

[20]Invenio website[EB/OL].[2014-03-23].http://invenio -software.org/wiki/Installation/Download

[21]MyCoRe website[EB/OL].[2014-03-29].http://www. mycore.de/download/index.html.

[22]OPUS Software[EB/OL].[2014-04-11].http://elib.unistuttgart.de/opus/doku/opus_sw.php.

马宁宁国家图书馆馆员。北京,100081。

周晨国家图书馆副研究馆员。北京,100081。

冯红娟国家图书馆馆员。北京,100081。

Comparison Research of Several Digital Preservation Open Source Software

Ma Ningning,Zhou Chen,Feng Hongjuan

This paper introduces 8 kinds of digital preservation open source software:Invenio,DSpace,Eprints,Fedora, Drupal,i-Tor,MyCoRe as well as OPUS,describes the emergence and development of them,carries out a comparison and analysis from 5 aspects:software overview,technical specifications,repository and system management,system performance, and system maintenance,summarizes the similarities and differences of these software,hoping to provide a reference for organizations to choose the best digital preservation software,and provide some help to the designer or developer of digital library software system in China.

Digital preservation.Open Source Software.Digital library.Technical specification.Repository.

G250.76

2014-04-17编校:方玮)

*本文系国家图书馆科研项目“网络资源采集策略与服务方式研究”(项目编号:NLC-KY-2014-32)的研究成果之一。

猜你喜欢

知识库开源文档
浅谈Matlab与Word文档的应用接口
校园武术“学、练、赛”一体化实践探索
有人一声不吭向你扔了个文档
轻松编辑PDF文档
五毛钱能买多少头牛
2019(第十四届)开源中国开源世界
2019开源杰出贡献奖
我国机构知识库内容质量服务探讨
Word文档 高效分合有高招
基于Lucene搜索引擎的研究