APP下载

数字资源长期保存联盟HathiTrust研究*

2018-11-14周秀霞杨雨师东北师范大学图书馆吉林长春130024

图书馆建设 2018年11期
关键词:理事会委员会成员

周秀霞 马 宁 杨雨师 ( 东北师范大学图书馆 吉林 长春 130024 )

信息化、智能化时代的到来,使得越来越多的资源以数字化的形式存在和存储。随之而来的是,如何实现海量数字资源的长期保存、组织、管理和便捷获取。事实上,早在21世纪初,各个国家就开始了数字资源长期保存的有关研究,并以联盟、项目等形式相继开展了数字资源长期保存的实践。其中,HathiTrust是比较典型的一个长期保存联盟,成员机构主要是研究机构和图书馆,通过成员机构的共同努力和对公益事业的坚定承诺,共同致力于支持院校教师、学生或研究人员的教学活动,广大公众的数字学术资源需求以及数字资源的长期保存和持续可用,可以称之为研究数字图书馆的国际社区[1]。

1 HathiTrust现况

HathiTrust始建于2008年,由美国中西部大学联盟的13所大学、加利福尼亚大学系统和弗吉尼亚大学联合发起,初始目的在于保存和分享成员机构的纸质资源数字化资源[2]。其后,随着HathiTrust成员逐渐扩大120余个,其将自己的宗旨重新定义为:通过合作收集、组织、保存、沟通和分享人类的知识记录,为学术研究、交流和人类共同利益做贡献。更具体地说,是要做到以下几个方面:(1)建立可靠的、日益全面的成员机构纸质资源的数字化档案,供成员机构共享;(2)首要改进数字化资源的获取途径,以满足成员机构尤其是阅读障碍者的需求;(3)致力于开发低成本、高质量的基础设施,保障学术研究人员的数字资源需要,包括各种格式的资源和原生数字资源;(4)发展合作伙伴关系和服务,以确保HathiTrust中纸质资源和数字学术资源的长期保存;(5)通过加倍努力协调图书馆间的共享存储策略,以减少长期保存和纸质资源存储的成本;(6)建设基础设施,提高成员机构成本效益和合作效率,降低获取校园知识资产的成本;(7)提供一系列服务支持使用HathiTrust语料库进行研究;(8)创建一个技术框架,支持各类工具和服务的集中或分布式创建;(9)维持HathiTrust的“公益性”,同时提供一系列有益于成员机构的服务[3]。

截至2018年5月,HathiTrust共收录了各类资源16 369 955件,其中图书7 977 135种,期刊439 659种;共计有5 729 484 250页,734TB字节,194英里长,13 301吨重(按平均每册图书350页、厚0.75英寸、包含47 MB信息、重26盎司计算)。在这些资源中,有6 174 889件(约占资源总量的38%)属于公共领域资源,可以为全球公众免费获取[4]。

HathiTrust整合的资源涵盖了所有学科,共计有464种语言文字。其中,英文资源占总资源的50.6%,德文资源占8.7%,法文资源占7%,西班牙文资源占6.6%,俄文资源占3.2%,中文资源排在第六位,占资源总量的3.1%[5],其余还有日文、意大利文、阿拉伯文、荷兰文等资源[5]。在这些数字资源中,1850前出版的资源占到了5%,1851年至1899年出版的资源占到了11.3%,1900年至1999年出版的资源占到了74.4%,2000年以后出版的资源占到了9.3%[6]。HathiTrust在努力实现对世界范围内数字资源的保存与长久服务。

2 HathiTrust的特点

为了全面反映HathiTrust的情况,笔者将从其管理的科学性、服务的全面性、数据的开放性、平台的安全性4个方面对HathiTrust进行探究。

2.1 管理科学性

2011年,HathiTrust推出了联盟的《章程》,依据《章程》,2012年4月选举产生了理事会,自此,遵循诚信、开放和负责任的管理原则,HathiTrust采用了理事会管理制。理事会管理制是国际图书馆界比较追捧的一种管理制度,这不仅是因为其有支撑图书馆法人治理结构成长的理论基础,更因为它解决了图书馆发展中存在的现实问题,尤其是对筹集资金有特殊功效。据统计,美国95%的图书馆都实行了理事会制[7]。

HathiTrust的理事会由12名成员组成,其中6个席位保留给HathiTrust创始机构,其余6个席位由成员机构投票选举产生。理事会的首席执行官没有投票权,理事会中有5位成员会被选举为执行委员会委员,1名成员成为规划指导委员会的主席。HathiTrust的中心管理办公室设在密歇根大学[8]。

理事会对HathiTrust的活动、职能和运营以及数字资源长期保存的完整性和可访问性承担最终责任。具体包括:(1)定义HathiTrust的使命、目标并帮助指导履行,确定HathiTrust的战略发展方向;(2)审查规划指导委员会的建议,并就政策、知识库开发和计划举措等做出最终决定;(3)管理HathiTrust的预算和财务,选举执行委员会委员,授权他们按照规定代表理事会行事;(4)选择首席执行官来监督HathiTrust的运营;(5)评估首席执行官的表现;(6)与首席执行官协调,设立委员会和工作组来执行HathiTrust的工作,推进发展战略和优先事项;(7)维护章程,监督HathiTrust研究中心和其他附属项目的开发、实施和持续管理等[9]。

理事会下还有执行委员会、提名委员会和规划指导委员会。执行委员会由5位成员组成,其有权在理事会会议之间的过渡期间内获得理事会的授权,代表理事会行事。提名委员会也由5位成员组成,主要是为理事会和规划指导委员会征集委员候选人。规划指导委员会由不少于8位但不超过12位被任命者组成,其主要负责为:审核HathiTrust的发展议程;向理事会提交报告,建议根据审查结果改变发展议程;根据审查结果,鼓励成员机构就特定问题进行辩论;制定理事会讨论和决策的举措和策略,并考虑这些举措对未来的影响;设立工作组,协助其工作;与理事会合作为HathiTrust及其成员制定政策等[9]。

根据需要,HathiTrust还设立了一些委员会和工作组,其中一些是常设职位,而另一些则可能随着任务的完成解散。一般而言,工作组由执行委员会或规划指导委员会设立。已经设立的委员会和工作组有:(1)执行委员会下设的用户支持工作组(2011年3月)和Zephir咨询小组(负责推荐与元数据管理相关的政策和程序,并建议实施新功能,增强服务功能等);(2)规划指导委员会下设的资源委员会(2016年7月),联邦文件咨询委员会(2016年8月),共享打印咨询委员会(2016年7月),元数据政策、战略、使用和分享咨询小组,质量保证和标准工作组,权利和获取工作组[10]。

HathiTrust的预算目前是单独维护的预算,在密歇根大学预算系统中,由执行委员会管理,但须经密歇根大学审计办公室审计。理事会有权对成员机构通过的经费预算进行细节调整;但未经成员机构同意,理事会不得更改成员机构的会费、服务费或其他费用。

HathiTrust的资源和服务由HathiTrust成员机构提供,基础设施由密歇根大学支持。成员机构可以永久性、非排他性地将数字资源存入HathiTrust中,所有权仍归自己所有。密歇根大学为HathiTrust购买的硬件、软件、服务以及由密歇根大学创建的数字资源由成员机构共同拥有,并承诺持续保持分享。如果密歇根大学图书馆的资金或组织发生变化,HathiTrus将制定继任计划,资助、支持向另一个机构过渡[8]。

2.2 服务全面性

HathiTrust是一个数字资源的整合社区,不仅面向成员机构、合作伙伴提供服务,也开放为社会公众服务,其将服务框架如表1所示。

从表1可以看出,HathiTrust综合考虑了联盟的发展需要、成员机构的发展需要、合作伙伴的发展需要、用户的需要等,对联盟的服务进行了整体设计。并且,其还根据联盟的宗旨和发展规划,具体将联盟的服务职能分为短期和长期两种,其中,短期服务功能包括:(1)翻页机制:一种支持用户在HathiTrust中读取、下载数字资源以及与数字资源交互(例如缩放和旋转)的应用程序。它类似于权限数据库、Shibboleth(一种机构间认证机制),为用户适当访问数字资源提供了接口。(2)品牌推广:包括整个HathiTrust的品牌推广和对成员机构的品牌推广。(3)格式验证、迁移和错误检查,HathiTrust将各种技术、数字资源保存元数据与每个数字资源对象一起存储,以便在需要时进行迁移。(4)API的开发应用。(5)阅读障碍用户的访问机制制定,包括对屏幕阅读器的优化、允许被认证为阅读障碍的用户访问HathiTrust公有领域数字资源的全文和版权卷等。(6)实现了一站式发现服务,能对HathiTrust中和成员机构的馆藏资源进行统一检索和一站式发现。(7)发布虚拟馆藏的能力:允许用户创建或共享个人馆藏。(8)非Google数字内容的直接采集机制。长期服务功能包括:(1)遵守可靠存储库审计和认证(TRAC)标准以及清单中的要求。(2)强大的发现机制,如全文本跨库检索等。(3)创建数量众多的API,为合作伙伴提供一个协作的开放环境,便于合作伙伴开发其他的安全访问机制和发现工具。(4)支持图书和期刊以外所有数字资源格式的存储和获取服务。(5)建立HathiTrust的研究中心(HTRC),进行先进软件工具和技术的开发,并广泛采用其他来源的分析工具,以为学者提供一个安全的计算和数据环境[12]。

表1 HathiTrust服务功能框架[11]

通过这两种维度的功能设计,兼顾考虑了各方的利益,不仅满足了各方的需求,而且促进了联盟的长期可持续发展。

2.3 数据开放性

HathiTrust是一个开放的数字资源存储、服务中心,其基于云平台提供服务的模式,方便了成员机构通过互联网托管、部署或接入联盟系统,在保证成员机构海量数字资源安全存储的同时,还支持成员机构贡献应用程序、分析工具等,并允许成员机构根据各自的需求进行一些平台的功能开发,进而为用户提供个性化的服务,如密歇根大学开发了一个新的全文检索模型;加州大学负责全文检索的拼写检查,以克服希伯来文无法识别的问题等[13]。

HathiTrust开放属于公共领域资源的数据集以支持学术研究。当前,公共领域的资源基本上分为非google数字化卷和google数字化卷两种,其中非google数字化卷资源,用户可以直接免费获取;而google数字化卷则必须由机构(用户所属机构)与google达成协议后方可获取使用。此外,机构或者是用户个人还可以自定义想获取的数字化资源,HathiTrust提供相关的技术支持[14]。

HathiTrust还提供了数据API和书目API,拓展了HathiTrust存储资源和元数据资源的应用范围,提高了对HathiTrust资源的高效、安全访问。HathiTrust的数据API可以检索图像、OCR文本、关联的元数据、权限信息以及有关存储库中数字对象的各种其他数据等,访问数据API的方式有两种:通过Web客户端访问,需要身份验证;编程方式。对于书目API,当用户使用各种标准标识符(如ISBN、LCCN、OCLC等)检索时,书目API会返回书目、版权和卷等信息(包括永久性URL),并且书目API能控制是返回简短书目元数据还是完整书目元数据[15]。

2.4 平台安全性

HathiTrust基本上采用了SaaS云服务模式,以数字资源知识库为中心,围绕数据包构建了一个云框架,其平台的功能如图1所示。

图1 HathiTrust云平台功能图[16]

用户通过复杂隐藏界面访问HathiTrust,获得数字资源,而这一简单的过程,可能需要HathiTrust应用文本挖掘工具对知识库中的资源进行分析,或根据用户的检索特征提取其他来源(BLUE WATERS)的数字资源,以满足用户的需求,这是一个高度互动的过程[16]。在这个过程中,可能涉及很多算法,所以平台引入了Mahout开源项目,以帮助程序人员更加便捷、高效地开发智能应用程序。

Hathitrust注意到不同的数字资源对象(数字文本、图像、视频、音频、多媒体、模拟等)在保存过程中是有明显差异的,为了保证这些数字资源对象在长期保存过程中的一致性和完整性,HathiTrust定义和保存了区分不同数字资源对象的特征信息,具体包括数字资源对象的内容、固定性、标识参考、信息来源和前后关联[17]。同时,HathiTrust平台的核心——知识库依据OAIS(Open Archival Information System,开放档案信息系统)框架构建,并且,HathiTrust遵守了可信数字仓储审核和认证(TRAC)标准以及审核表中的要求且通过了相关认证,等等,这些都保证了HathiTrust中数据的长期一致性和完整性。

为了保证数字资源的持久可用性,HathiTrust专为长期资源保存设计了存储架构。存储架构的核心是同步在密歇根州安娜堡和印第安纳波两个数据中心进行数据存储,并在第三个数据中心以加密磁带的方式备份了数字资源6个月前的数据版本。所有数据中心均符合国际权威机房认证机构Uptime Institute建立的机房建置等级Tier II要求,只有授权的IT人员才能进入。每3个月工作人员会对所有存档数字资源进行完整性检查,在存储内部执行数据完整性检查以及所有静态数据的定期完整性检查,并使用奇偶校验和冗余检验来修复遇到的任何错误,以保证数字资源与存档时相同,从而确保资源存储的可靠性。

在存储系统外部,HathiTrust完全遵循OAIS框架要求和可信度标准摄取数据,并定期验证数据,以确保数据被正确摄取并保持不变。同时,HathiTrust还将存储设备的使用寿命设定为3~4年,每年对已达到寿命的设备进行更换[18]。HathiTrust保存了完整齐备的日志文件,并以唯一的ID进行标识,以便于后期进行事件追溯或其他用途。

数据质量作为数据安全的一个方面也受到了HathiTrust的重视,考虑数据质量可能因多个数字化合作伙伴以及自动抓取内容的方法不同而有所不同等因素[19],HathiTrust专注于解决多层次、宏观上的数字对象及其元数据的质量问题,并直接与合作伙伴、规划指导委员会和相关团队合作,推出了一系列评估方法,持续地推进数据质量的提升[20]。

3 结 语

HathiTrust不仅是一个数字资源的长期保存联盟,它也是一个可以解决图书馆联盟中许多常见问题的典型组织,是其他图书馆联盟发展可以借鉴的实践案例。作为一个全球性的数字资源长期保存联盟组织,可以说,HathiTrust已经取得了阶段性的成功。但是它仍存在一些服务与应用程序不能很好地拓展,一些数字资源内容无法获取,原生数字资源收藏较少等缺陷,这些都需要HathiTrust在未来的发展中重点关注并予以解决,以实现更广范围、更大规模数字的长期保存和获取。

猜你喜欢

理事会委员会成员
主编及编委会成员简介
本刊理事会理事
主编及编委会成员简介
主编及编委会成员简介
主编及编委会成员简介
跟踪导练(五)(2)
编辑委员会
《职业》理事会理事
《职业》理事会理事
《职业》理事会理事