加拿大记忆机构数字保存能力与需求报告分析
2021-01-08谭定平
谭定平
(重庆图书馆 重庆 400000)
1 引言
数字资源是信息时代的核心资源,而数字保存是指对数字资源进行长期有效的存取,并实现其长期可获取性[1]。一个国家的数字资源保存能力代表着其保护人类科技文明记忆的水平,因此数字资源的长期保存问题日益受到各国政府的关注[2]。对于数字资源保存的实践研究既有利于提升数字资源的保存能力,同时也有助于记忆机构了解和学习其他区域和国家在数字保存方面面临的挑战和采取的解决策略。2019年11月29日,加拿大研究型图书馆协会(Canadian Association of Research Libraries,CARL)发布了《2017—2018年加拿大记忆机构数字保存能力与需求调查最终报告》(Final Report of the Survey on Digital Preservation Capacity and Needs at Canadian Memory Institutions, 2017-18)(以下简称为《报告》)[3]。这项调查研究旨在提供加拿大数字保存活动最新和最全面的进展信息,并确定加拿大记忆机构现存的差距和紧迫的需求。该调查研究分了两个阶段进行,第一阶段于2017年10月至12月面向CARL会员机构开展调查。第二阶段于2018年8月至9月面向更为广泛的加拿大记忆机构开展调查。调查共收到52份完整的答复,包括27个CARL会员和25个非CARL会员的加拿大存储机构,机构类型有研究型图书馆,国家及省市各级政府的档案馆、图书馆和博物馆,社区或非营利档案馆、图书馆和博物馆。报告详细介绍了加拿大记忆机构的各个职能领域(从组织认同感、策略和规程,到存储、访问和人员配置)的数字保存能力。CARL主席、CARL数字保存工作组前组长乔纳森·本特生(Jonathan Bengtson)表示,“这些数据对于规划我们未来的数字保存活动及相关投资将是非常宝贵的[4]。”针对国家数字保存能力的相关研究,笔者通过中国知网进行了查询后发现,国内学者有针对俄罗斯数字资源保存倡议[5]、美国印第安纳州与蒙大拿州数字资源长期保存实践[6]、英国数字保存奖[7]、美国数字资源保存国家工程项目[8]和基于美国保存机构数字资源存储和获取实践调查[9-10]的研究,但是关于加拿大数字保存方面的研究较少。本文介绍《报告》的主要内容,并分析其所反映的加拿大数字保存的特点,结合我国图书馆界的数字保存实践和现状,思考下一步的措施。
2 《报告》的主要内容
2.1 数字保存的范围和类型
2.1.1 概况
100%的受访者表示参与数字化活动,94%的受访者表示正在收集原生数字资料,资料两个主要来源为:机构记录和出版物等内部来源以及私人捐助者。3家没有收集原生数字资源的单位都来自于政府,原因是没有保存这些资料的能力。档案馆通常获得的材料最为丰富,包括照片、动态图像、音频以及个人文件和记录形式的文件,图书馆通常收集的资料包括购买的数字图书、期刊和数据集。
根据受访者的打分,数字化活动材料的优先级排序为照片、基于文本的文档、音频、图像、器物,而有3家受访单位指出其所在机构不根据内容类型确定数字化的优先次序,而由内部需要确定,如主题、收藏或客户请求。针对目前尚无法保存的数字资源类型,与网络内容有关的诉求最多,其中包括公共和内部网站以及学生组织网站;排名第二位的是组织数据,包括来自大学和政府的行政和业务数据;第三位的是研究数据、数字视听载体、电子邮件和三维图像,有2家受访单位分别提到了软件、软盘等传统媒体、数字化电影等。
受访者被要求使用成熟度等级从0分(表示无活动)到5分(表示过程成熟且不断改进),对其数字保存项目的状态进行打分,72%的受访者认为本机构得分为1或2,27%的受访者认为本机构得分为3或4,而5分的没有。2家受访单位认为本机构目前的数字保存能力足以保存其收藏的大部分数字资源,而有2家受访单位认为目前无法保存收藏中的任何数字内容;4家受访单位表示这不是一个与内容有关的问题,而是一个由组织或资源驱动的问题,另有3家受访单位认为其主要问题是如何评估和确定保存材料的优先次序,1家受访单位提到缺乏专门用于该领域的支持资源。
2.1.2 分析
加拿大记忆机构的数字保存能力差距较大,且普遍有待增强,只有一小部分受访者对自己的资源保存能力有信心;在数字保存方面对机构和个人记录资源非常关注,因此建立相关的支持工作流程是非常必要的;记忆机构已经开始重视特殊数字资源的保存,如基于网络的内容,以及研究数据、电子邮件和软盘等数字载体上的材料等,但这类数字资源在保存上技术难度相对较大。
2.2 组织承诺和参与程度
2.2.1 概况
一个组织对数字保护做出承诺体现在其战略计划、使命声明或任务中含有相应的语言表述。79%的受访者表示其拥有数字化保护承诺的文字表述,这些承诺或已经发表,或正在等待批准、起草、计划中,而 21%的受访者表示其没有相应的文字表述。
63%的受访者表示在其组织中从事数字保存活动的不止一个单位或部门,如数字保存的专门部门、技术部门等,但通常由高级管理人员、委员会或领导工作小组在整个组织内进行协调,协调工作主要为确定和起草政策,监督业务并确保其与战略计划保持一致,另外还有监测趋势、确定数字化的最佳做法、编写培训材料、确定保存材料的优先次序和清点资产等。75%的受访者表示参与或加入了与数字保存相关的外部组织、项目和倡议。
针对与组织承诺和参与程度,63%的受访者表示缺乏资源来推动组织变革,50%的受访者表示缺乏资源来参与合作,44%的受访者表示利益相关者之间缺乏沟通和协调,37%表示缺乏高层组织承诺或支持,另外还有对数字保护的认识尚未在整个组织内保持一致、发展技能不足或缺乏数字保存专业知识等问题。
2.2.2 分析
尽管加拿大的一些记忆机构已经通过战略计划或使命声明公开了数字保存的承诺,但是大部分机构还尚在摸索和建立其在数字保护方面的作用;加拿大的记忆机构与数字保护相关的外部组织、项目和倡议有很多接触,反映出该领域的各种活动与同行进行知识交流和资源共享的需要;在如何将机构资源从其他领域转移到数字保护活动方面存在不确定性,数字保存在加拿大记忆机构的组织活动内没有普遍明确的优先级。
2.3 政策、策略和标准规范
2.3.1 政策
所有受访者都表示已经或有兴趣在其组织内实施数字保护政策,其中17%的受访者表示机构有现行政策,19%的受访者表示机构正在审查或起草政策,63%的受访单位表示机构正在讨论制定政策或没有政策。
19家受访单位提供了政策的详细信息,有9个政策涉及数字保存活动的任务或管理框架,包括角色和责任、资源和长期保护承诺,其中2个涉及到可持续性和成本支出,2个涉及与外部组织的伙伴关系;5个政策提供了收集框架,如获取、访问和优先保存,其中2个涉及不同内容类型的保存级别,2个涉及组织保存活动的特定内容范围;2项政策包括传输数字档案材料、元数据和数字化、存储、安全和灾难规划的指导方针;1项政策包括一个广泛的框架,并附有针对组织内不同单位的内容行动计划;1项政策具体涉及数字存储库中的内容;还有1个机构的政策已完成,但已过时,尚未修订。
针对于政策相关的差距和挑战,79%的受访者认为缺乏制定政策的时间和资源,40%的受访者认为政策是临时性或特定于项目的,23%的受访者认为缺乏制定政策的知识,包括工作人员和政策制定者不了解或缺乏有关数字保护的知识,然后是政策没有得到审查、政策不好理解或不好遵循、对政策制定缺乏兴趣等。还有受访者反馈政策在各单位或内容类型之间的应用并不一致,并强调政策中所规定的程序和准则需要适用于通过不同技术管理的各种不同类型的集合和数据类型。
2.3.2 策略、工作规范及标准
(1)数字保存策略。35家受访单位表示其机构制定了数字保存计划或策略,其中25家受访单位表示这些计划或战略涉及文件格式的保存和访问标准,包括内容行动计划或文件格式注册表,通常列出的格式有文本、照片、音频和视频;6家提到了数字化策略,4家提到了存储和备份策略。
(2)工作规范流程。只有23%的受访者表示有记录在案并正在使用的工作规范流程,其他机构尚处于没有起草规范流程或没有记录在案的流程的状态。
(3)数字保存的相关标准。58%的受访者表示机构采用了特定的数字保存标准、最佳做法或准则,被提到较多的分别是OAIS、PREMIS/METS、TRAC/ISO 16363、Dublin Core、Archivematica的格式政策等。40%的受访者表示其采用了元数据标准来构建和管理数字保护元数据,被提到较多的分别是METS/PREMIS、Dublin Core、MODS、DDI。尚没有一个被调查者获得了ISO 16363可信数字存储库认证。
(4)数字保存工具的应用。具有文件格式识别、特征描述和标准化等功能的保存处理工具可以使数字保存工作流程中的方法更加全面,但只有48%受访者表示在测试或生产过程中至少使用了一种保存处理工具,开源软件Archivematica是其中最常被使用的。工具使用率低主要是由于缺乏资金和人员。
2.3.3 分析
虽然所有受访者都表示有兴趣制定与数字保存相关的政策,但大多数组织还未制定有效的政策,尚处于发展或讨论阶段;可以看到,加拿大越来越多的记忆机构正在使用正式的或草拟的工作程序来处理数字保存活动中涉及的实际需求;标准和评估工具的熟练使用通常表明数字保存的成熟度较高,而加拿大记忆机构的标准和评估工具的使用情况喜忧参半。最后,缺乏制定政策和流程的资源和专业知识是许多机构面临的关键挑战。
2.4 存储和访问
2.4.1 存储
可靠存储是数字保存项目的关键组成部分,94%的机构将本地网络存储作为其选项之一,只有一半的机构(几乎都是高校图书馆)使用网络存储基础设施如云网络、磁带备份和复制存储服务,但这些基础设施其实具有更高的可靠性。LOCKSS是使用最多的复制存储服务,私有/社区云是选择最多的云存储服务。平均来说,65%的资源存储在网络系统上,33%存储在外部媒体上,如外部硬盘和捐赠者的磁盘等。本地网络存储的成本较高仍是一半受访者面临的问题。
2.4.2 访问
96%的受访者表示提供了数字资料的访问途径,途径从多到少依次为网络平台/存储库、网络传输/共享文件夹、专用计算机终端、外部媒体(CD、USB等)等。可见,参与调查的绝大多数机构都提供基于网络的访问平台,但也有一部分机构使用网络传输方法,如共享文件夹。
2.4.3 分析
大部分参与调查的加拿大记忆机构会使用本地网络存储来保存一部分资源,但存储仍然较多地依赖外部介质和传统介质,这对数据保存来说是存在较大风险的。被广泛认为适合数字保存的存储方法(云、磁带和复制存储服务)在加拿大记忆机构的使用率不高。
2.5 人员和资金配置
2.5.1 人员配置
多数机构在数字保护方面的人员配置水平较低,虽然许多机构至少有一个或两个人在该领域负有某些责任,但平均数只相当于1.14名全职员工,所以实际责任是由多个员工分担的。62%的机构负责数字保存的全职员工数不到1人,因此许多机构打算通过招聘新员工和重新分配现有工作人员来扩大数字保存人员的编制。面临的主要挑战是缺乏职位资金支持和专业知识。
2.5.2 资金来源
85%的机构通过一般预算为数字保存活动提供资金。一般预算是一个关键的资金来源,但机构对短期资金如赠款和奖励的依赖也很高;大多数机构难以估计有多少资金用于数字保存工作,预计未来1—2年此项资金会增加,但增加的程度尚不清楚;大多数机构认为资金不足。
2.5.3 分析
在数字保存方面,加拿大的记忆机构普遍缺乏专项资金,人员方面不仅数量配置较少,且缺乏专业知识和相关技能,不利于数字保存活动的可持续性发展。
3 加拿大数字保存实践的发展特点
3.1 数字保存的实践较为丰富
加拿大的记忆机构在数字保存方面的涉猎较广,长期保存的资源类型相对丰富,且开始重视特殊数字资源的保存,对于未来的发展方向有一定的思考,对自身的能力条件也有相对客观的评估。总的来说,加拿大的数字保存活动的实践层面比较丰富,并有深入发展的趋势。
3.2 数字保存的挑战多元化
从以上介绍和分析可以看出,加拿大记忆机构的数字保存能力发展不均衡,且缺乏持续性的资金、人员以及政策方面的明确支持;工作人员一定程度上缺乏技能和专业知识,随着技术的变化,与数字保存有关的方法、流程和工具也在不断变化,对工作人员的挑战更大。
3.3 数字保存趋向于共享和合作
从调查结果可以看出,加拿大的许多记忆机构都面临着数字保存方面的共同的挑战。共同的挑战也就意味着类似的解决措施,技术和人员配置的交流、合作以及存储共享会对解决这些相似挑战有所助益。实际上,加拿大的这些机构确实与数字保存相关的外部组织、项目和倡议有着密切的接触。数字保存是一个需要大量持续性支持的工作,所以交流和共享是实现其可持续性发展的重要路径。
3.4 数字保存专业知识和技能培训的需求明显
加拿大记忆机构前期在数字保存方面已经有了相对普遍的实践,具有对数字保存相关要素的认知,因此调查结果也充分体现出了其对数字保存专业知识储备不足的担忧和对技能培训的需求,因此,为参加数字保存工作的人员提供具有针对性的专业培训,加强工作人员的数字保存理论知识和工具及平台的实际操作技能培训,提高其数字保存的理论和实践能力是加拿大记忆机构未来在数字保存方面的重要工作。
3.5 数字保存指导政策的制定还需加强
加拿大的大多数记忆机构的数字保存政策尚处于发展或讨论阶段,未来需要制定明确的政策声明并建立适合的组织模式,以确保有充分的资金、人力及科学的组织架构去开展数字保存活动。政策的内容应包括角色和责任、长期保护承诺、管理框架、资金来源及人员安排,活动在组织内的优先级以及不同内容类型的保存级别、保存方式等;组织模式方面应考虑根据内容类型制定相应的工作流程以及行动策略和规划等。
3.6 数字保存相关标准的选用较为多样化
数字资源标准化工作的目的在于确保不同系统间的互操作性和数字资源的共享与利用。现有数字资源长期保存的标准、规范、指南各有不同的功效,标准选择失误会对整个数字保存项目造成较大的影响,因此需要根据项目诉求、技术要求等选定合适的标准[11],没有任何一种标准是放之四海而皆准的灵丹妙药。加拿大记忆机构对数字保存相关标准的使用较为普遍,且遵循的种类较为多样化,这一方面说明了加拿大数字保存工作的开放性和标准化,另一方面也体现了机构对标准的了解较全面,会根据自身情况选择适合本机构数字保存工作的标准。
3.7 高校图书馆数字保存有自身的发展特点
加拿大记忆机构的存储模式总体来说相对保守,使用云存储、类似LOCKSS的复制存储服务的主要是高校图书馆,可以看出,高校图书馆在数字保存方面有自身的发展思路和特点,这些图书馆本身的学术性也使其对新事物的接受程度和能力表现较好。
4 对提升我国图书馆数字保存能力的启示
4.1 我国图书馆数字保存工作的发展现状
4.1.1 组织和倡议
数字文献资源已经成为我国教育科研机构的主流信息资源,数字文献资源在我国本土的长期保存已经成为国家自主创新能力的重要保证和国家信息安全的重要体现。2013年,国家科技部批准国家科技图书文献中心(National science and Technology Digital Library,NSTL)牵头组织国家数字科技文献资源长期保存体系( National Digital Preservation Program,NDPP)。
2015年9月,国家科技图书文献中心与中科院文献情报中心联合主办了《数字文献资源长期保存共同声明》发布会,中国科技信息研究所、国家图书馆、北京大学图书馆、清华大学图书馆等近一百个图书馆及文献信息机构共同签署了该声明。签署机构在声明中明确宣示,图书馆拥有对所采购的数字文献资源进行本土长期保存的权利,将委托国家长期保存系统长期保存自己所采购的数字文献资源;同时希望国家将数字文献资源长期保存系统作为重要的国家公共基础设施,予以长期稳定的支持和规范可靠的管理[12]。
4.1.2 代表性保存活动和实践
(1)国家图书馆。制订了《国家图书馆数字资源保存管理暂行条例(草案)》及具有可操作性的规范流程,阐述了数字资源保存的原则、保存级别、不同类型数字对象的保存格式等要求。另外,国家图书馆还启动了“中国记忆”“WICP和ODBN”等项目;加入了国际互联网信息保存联盟(International Internet Preservation Consortium,IIPC),该联盟致力于促进网络信息资源保存的工具、标准的研究和最佳实践,并积极应用在文化遗产的数字保存工作中[13]。在社交媒体的保存方面,国图启动了互联网信息战略保存项目,已与新浪签达成战略合作,对新浪新闻和微博博文进行长期保存[14]。
(2)北京大学图书馆。北京大学图书馆作为NDPP的参建节点和唯一的高校保存节点,与Emerald期刊数据库、ProQuest硕博士论文数据库签署了长期保存协议,开发Emerald数据插件一个,保存了300多篇文献[15]。其中,ProQuest硕博士论文数据库保存协议的签订是NDPP首次涉猎学位论文,在保存类型方面有了较大的突破。
(3)中国科学院文献情报中心。中国科学院文献情报中心自2004年开始持续开展数字科技文献资源长期保存的研究和实践,2009年成立了数字科技文献资源长期保存中心,保存了包括Springer、Wiley、IOP、Nature等十多家国外重要出版商的数字资源。同时,中国科学院文献情报中心还与NSTL共同承办了第4届iPRES(2007年)会议,并将在2020年9月再次共同承办第17届iPRES会议[16]。iPRES会议是国际数字资源长期保存领域的权威会议,是展示数字保存成果、寻求合作共享的专业平台,在我国举行此次会议将有利于我国更积极深入地参与国际间数字资源长期保存的共同努力。
4.2 思考
4.2.1 全面调研我国图书馆界数字保存能力的现状
由加拿大研究型图书馆协会开展的针对本国记忆机构的数字保存能力与需求的调查,从数字保存的各个方面进行了全面而细致的调研,并形成了报告,体现了加拿大相关组织对于数字保存工作的重视及对数字保存工作意义的认知。目前,我国图书馆界尚未有针对数字保存能力的官方调查,可以借鉴加拿大的调查要点和内容,考虑由NDPP和国家图书馆牵头开展针对我国图书馆的数字保存能力调查。以调查结果为基础,针对需要改变和完善的方面着重进行分析,明确现有能力、意愿及问题,查明症结,提出解决措施,继而制定能够指导全国图书馆数字保存活动的相关政策规划、指南和规范流程,选择和确定储存标准,以便增强已有机构的数字保存能力。
4.2.2 充分发挥联盟和国家组织的力量
高校图书馆数字资源采购联盟(Digital Resource Acquisition Alliance of Chinese Academic Libraries,DRAA)的宗旨是团结合作开展引进数字资源的采购工作,通过联盟的努力为成员馆谋求最优价格和最佳服务。根据研究[17],在DRAA发布的数据库采购方案中,同时提供存档权和永久使用权的数据库只占26.5%,成员馆作为保存主体的方案居多,集团存档次之,较少方案允许集团和成员馆共同存档。正如加拿大调查中所体现的,由于数字保存的难度和复杂性,合作和共享是非常必要的,任何一个机构都难以完全由自己对所需的所有资源进行长期保存,也无法由单一的力量去争取最大化的保存权益。因此,从图书馆目前最为迫切的采购资源的长期保存为起点,一方面要扩大在DRAA采购方案中提供存档权和永久使用权数据库的比例,同时争取将保存主体设置为集团存档或集团和成员馆共同存档;另一方面要充分发挥NDPP的作用,目前NDPP在集团存档方面已经有了初步的成效,未来要在指导单馆数字保存方面做更多的工作。制定相关数字保存规划和指南,指导机构自身的数字保存活动,从联盟和单馆两个方面双管齐下,保障资源采购的权益。
4.2.3 适当丰富数字保存的资源类型、确定采集标准
目前,我国图书馆界主要致力于学术信息资源和重点文化遗产(如国际敦煌项目)的长期保存,对社交媒体的保存刚刚起步,数字保存的类型相对单一。随着保存实践的增多,保存能力的提高,可以适当考虑丰富数字保存的资源类型。正如加拿大调研中发现,机构记录、网站信息以及个人数字资源的管理和保存颇受重视,又如美国国会图书馆会指导公众提高个人数字信息保存意识并提供多样化的保存途径[18],这些也值得我国图书馆界参考。在此过程中需要注意与内外部的合作,如档案馆和博物馆获得的资源类型会相对丰富,而图书馆界拥有较为丰富的经验和技术储备,可以强强联手,实现共赢。另外,不同类型的数字资源就会有相应的采集标准,包括采集频率、采集方式和特定的技术。确立数字资源长期保存采集标准是保存活动开展的指南,是保存活动得以有序进行的保障,因此,图书馆在扩展数字保存的资源类型时需要提前制定统一的采集标准,数字活动才能有的放矢,事半功倍。
数字保存是当代记忆和文化机构面临的最大挑战之一,必须要有匹配的组织、模式、政策和技术作为支持,才能实现数字内容保存在未来发展的可持续性。