大数据时代合作模式下的图书馆数字资源长期保存模型分析
2017-08-25董晓莉龙伟
董晓莉+龙伟
[摘要]本文在分析大数据环境下图书馆采用合作保存必要性的基础上,探讨了国际主流的数字资源保存合作模式,进而提出目前我国图书馆应采用的数字保存合作模式和资源存储方式,最后设计了图书馆基于OAIS的数字资源长期保存协作保存平台模型,并对该模型构成、运行模式以及主要功能进行了深入的描述和分析。相信本研究将对合作模式下图书馆数字资源长期保存系统的建设起到抛砖引玉的作用。
[关键词]图书馆;长期保存;数字资源;合作模式
大数据时代的到来,整个社会不可避免地被卷入数字洪流之中,如何保存人类社会的数字文明,图书馆的保存工作面临着越来越多的挑战和考验。一方面要面对数字保存对象的不断多元化和泛在化,另一方面要解决用户与日俱增的数字资源长期保存需求和资源共享需求。在这种情况下,国际上很多数字文化遗产收藏机构都开始积极采取合作的方式开展数字资源长期保存的研究与实践,国际上也相继出现多个跨地域、跨机构的数字保存联盟,如英国的数字保存联盟(digital preservation coalition,简称DPC)以及协同化的国际合作项目,如欧洲的NEDLIB项目。目前,各国学者对采用合作方式开展数字资源长期保存的发展方向已有普遍共识。我国虽然诸如国家图书馆等个别机构近年已着手采用独立保存方式对机构内所藏数字资源实施保存,但是尚未形成成熟的合作保存体系,未建立一套统一的支持机构间协作的合作保存网络,极易导致对重要资源内容保存的遗漏;且资源的利用率不高,无法满足大数据时代对图书馆数字资源收集、保存、维护、处理和利用的需求;特别是会由于重复存储导致大量人力资源和物理资源的浪费。因此,选择合理的数字资源长期合作保存模式,选用灵活且适应性强的数字保存合作策略,建设相对全面的数字资源长期保存协作平台是目前大数据环境下国内图书馆等文化资源保护机构亟需考虑和解决的问题。
1大数据环境下图书馆采用合作保存的必要性
大数据环境下,数字内容的体量飞速发展,用户需求呈现出多元化的态势。面对用户不断泛化的资源保存需求,图书馆对保存对象的定义也更加宽泛,数字对象的类型变得更加复杂,资源类型逐步由单一的图像、文本类型向包括音视频、网络资源等在内的结构化与非结构化多元类型拓展。同时,用户发现、利用、反馈图书馆资源的信息,即图书馆用户“大数据”也将作为一种重要的资源被纳入到图书馆的保存对象范围之中,保存对象的类型和结构将变得更加复杂多样,数字资源长期保存正经历着越来越严峻的挑战。
同时,随着社会数字化的不断发展,社会经济和文化的发展对数字资源的依赖性更强,各国保存机构对数字资源长期保存可信赖性提出了更高的要求。面对更加艰巨的保存任务和更为复杂的保存环境,仅依赖于单一机构已无法完成数字保存任务,采用合作方式开展数字保存不但可以避免单一机构实施保存所造成的单点故障,规避出现数字孤岛的风险,而且有利于集结多种类型的数字资源,实现不同内容、不同类型资源的有机关联,进而提高大规模数字资源保存的可增值性,改变原有保存机构基于本地、私有、封闭的保存模式,打破机构问资源保存与共享的诸多壁垒,实现资源保存与服务的有机结合。在此情况下,图书馆间合作构建数字资源长期保存协作平台形成数字资源协作保存网络已成为图书馆等文化遗产保存机构的必然选择。
2大数据环境下图书馆数字资源合作保存模式分析
近年,在大数据环境下欧美等发达国家的图书馆、博物馆、档案馆等数字文化遗产机构纷纷探索多种合作模式,以期提升其在公共文化机构中的地位,改善其现有的数字保存和服务现状,更好地满足越来越多的多样化用户需求。目前国际上主流合作模式主要包括集中分散、對等分散、高度整合等模式。其中,集中分散式即由一个机构主导,由其制定相关政策、方针、管理机制,并实施技术指导,协助其他机构解决长期保存中的实际问题,其他机构作为合作参与方,承担一定的保存责任并具有相应的权利,如美国的NDIIPP项目、澳大利亚的PANDORA项目、美国阿拉巴马州的ADPNet(the Alabama DigitalPreservation Network)等项目都属于集中分散式的合作保存模式。对等分散式指参与数字资源长期保存合作的成员机构在合作中所处的地位平等,且具有同等的责任和义务,主要通过协商来完成相应的保存任务,如欧洲的NEDLIB合作项目。高度整合模式,是近两年新兴的一种合作模式,其一般由国家主导,通过实施法令和制定政策,完成机构间运行机制和内部结构的重组,如挪威、新加坡、加拿大等国对图书馆、档案馆、博物馆等机构开展的机构整合。
由于我国目前的数字资源长期保存政策和策略尚不完善,且机构问在数字资源长期保存领域的研究与实践工作缺乏有效的沟通和协调,跨机构、行业、区域的合作关系松散,缺乏统一规范的合作模式和制度,特别是各图书馆长期保存的技术能力参差不齐,因此在现有状态下,图书馆长期保存合作模式可以考虑采用集中分散的模式,即由某一权威机构作为合作保存的中心机构,由其主导并协调指导其他机构共同完成保存任务,该合作模式下的资源存储方式可以考虑采用集中管理——分布存储——集中整合的构建模式。在该合作模式和存储方式下,中心机构负责完成保存政策、运行机制、合作机制、保存策略等方面的全局性指导,并通过共享基础设施、功能设计标准框架等方式完成机构问的共享与协作;在统一的资源采集政策下,各分支机构独立完成资源的收集、加工、审核、管理和存储;利用分布式的保存策略和多副本安全策略,保证种类各异的资源分布式存储于地理位置分散的各合作保存机构内部;通过规范的数据集中整合流程,保证资源保存形式的一致性,便于更新以及为用户集中揭示资源,实现保存资源的全方位揭示。该模式通过机构间的合作保存,有效规避了单机构保存所造成风险;通过共享基础设施,降低开发成本;通过共享功能设计标准框架,有效降低管理成本;通过资源的多副本保存可以有效提高资源的安全性和完整性,降低昂贵的备份成本,如图1所示。
图书馆数字资源的合作保存是以最终实现保存资源的长期存储、管理和长效利用为导向,采用该合作模式,可以有效实现对联盟内保存资源的统一存储、集中监控和动态管理,从而保障数字信息资源的真实性和永久可获得性;可以集结多种类型的资源,通过保存平台实现对资源的有效关联、整合、管理和利用,从而满足大数据环境下,对更加庞大的异构资源实现有效组织整合;通过将资源集中保存于数字保存合作平台中,可以有效打破原有资源保存和共享的诸多壁垒,消除资源保存机构的存储孤岛现象;通过跨系统、跨地域的合作保存,可以有效避免资源的重复存储,解决目前普遍存在的基于本地的、私有的、封闭的保存模式,有利于合作机构在指导机构的统一管理下,完成对保存的资源统一处理和整合,保证对保存资源的持续性、系统性的维护和开发利用,为最终实现知识发现、体现数字资源长期保存意义提供重要保障。
3基于OAIS的数字资源长期保存协作平台模型分析
基于以上合作模式,图书馆数字资源的合作保存可以通过建立基于OAIS的数字资源长期保存协作平台而实现,该协作平台可由跨地域或跨机构的多个机构或长期保存系统耦合形成,共同创造一个协同保存的工作环境,以实现机构或系统问的协同工作,完成对跨地域资源的统一协调、调度和管理,其不但可以有效节约资金、人力等物理资源,而且可以促进沟通和交流,确保大数据环境下我国数字文化遗产得到长期存储和有效保护,方便获取利用。
3.1大数据环境下图书馆合作保存对象需求
大数据背景下,数字资源总量呈指数级增长,资源构成变得更为复杂,从资源结构看,包括结构化数据、半结构化数据、非结构化数据,且数据与数据之间彼此交叉,彼此融合;从资源来源看,涉及同类型不同来源的资源、不同类型不同来源资源以及相同类型相同来源的资源,且资源的异构性、碎片化、多维性等特点越来越突显。同时,数据的保存环境变化加快,数据生命周期缩短、格式更新频率加快,人类对数字资源长期保存的要求不断提高,而保存环境却日益恶化,因此大数据环境下,图书馆的数字保存对象应达到以下要求:
真实性:数字对象文件应可以通过评估身份信息和操作记录的完整性进行验证,其验证过程应贯穿于系统的整个工作流程。在任何时候都能够确定数据的内容完整无缺、身份来源可靠、且未被非法更改,同时保证数据的创建时间、创建人员、创建模式等内容明确,数字对象所参与的行为或事件有明确标示,数字对象与其相关联对象的关联关系表达明确且相关附件信息完善。
位阶完整性:数字对象的位级存储可以确保提交的数据不发生任何变化,即每一位(bit)可保持原状,持续维持原始位流的完整性和可读性。
安全性:保证数字对象未被未经授权的用户访问或更改。
可用性:保证数字对象的封装、迁移、备份、交换、访问、传输都是容易的,不会随着保存环境的变化而产生改变。
要达到以上对数字保存对象的要求,协作平台不但需要配置一系列的审计、校验、身份认证、信息跟踪、格式监测、统计报告、迁移等保存功能和策略,还应支持灵活嵌入一系列的软件和工具以完成对数字对象的持续存储和管理,如为保证数字对象的真实性,在资源的摄入阶段需要持续监控整个摄入过程中数据内容、结构及其状态,因此需要嵌入AutoTODD等类别的摄取软件;为保证平台数据对象归档和保存阶段所保存数据对象的完整性和正确性,平台需要配备ACE(Audit Control Environment)等完整、系统的校验机制(如奇偶校验、指纹验证等);为保证信息包的有效传输需要配备BaTIt等包处理工具,以实现对信息包的创建、操纵和校验。同时还需要配备合理的数据处理软件,通过获取数字指纹、文件格式转换、元数据抽取等功能完成对数字对象的完整传输,确保数字对象按原有的层次结构复制和上载等,如Archive This!、WebIndexing Portal、E-PubsPortal等。此外,該平台还应支持灵活配置用于查询定位的软件如Lucene,用于病毒查验的软件等工具软件。
同时,为满足以上数据对象的保存需求,在进行系统模型设计时,不但要考虑整个平台的灵活扩展能力,以能够应对不断增加的资源类型和飞速增长的资源保存需求;同时要充分考虑到协作平台对不同类型资源对象的处理能力和节点问的协同工作能力,使其在中心节点的统筹规划下,充分利用每个分支机构的资源处理能力,依据数据资源的内容、结构特征、质量保证标准定制合理的保存工作策略和工作机制,有效保障资源的安全性、有效性,提高平台资源的服务能力。
3.2系统平台模型设计
OAIS模型作为数字资源长期保存领域的标准,其提供了对数字资源长期保存系统的外部环境、功能模块以及保存对象模型的定义。针对基于OAIS模型的分布式长期保存系统框架的讨论最早始于2010年,由MetaArchiveCooperative,、Chronopolis和the Library of Congress共同发起讨论。近两年,随着欧美等国家合作保存项目的发展,分布式长期保存体系框架逐渐受到各保存机构的重视,其中比较有代表性项目包括Archivematica,Chronopolis,Data-PASS,the Danish Bit Repository,DuraCloud,InternetArchive,LOCKSS,MetaArchive Cooperative,and UC3 Merritt等。上述各项目的系统的实现方式各不相同,如LOCKSS分布式保存项目,其资源被重复保存在多个站点中,网络中所有服务器在权利和职责方面都是对等;而Chronopolis项目采用了混合的协作模式,三个节点协同提供网格服务,同时又有不同的分工,三个节点问通过GridFTP进行网格中大规模的并行数据复制,每份资源都存在3个独立管理的副本。可以看出,上述每个项目都根据项目的实际保存需求和机构特点设计了不同的实现方式,且各有特色、各不相同。因此,图书馆基于OAIS的数字资源长期保存协作平台模型的设计应紧密结合集中分散的合作模式,充分利用现有的工具和成果,综合考虑合作机构所具有的不同职责、角色和能力,根据大数据环境下图书馆合作保存对象需求,以OAIS标准为基础,构建一个具备协同工作能力、支持灵活、扩展的协作、互联、分布式的数字资源长期保存体系架构,如图2所示。
该模型是一个包括协作、互联、分布式的数字保存模型,模型由一个中心机构和若干分支机构共同组成基于OAIS的数字资源长期保存协作平台,每个机构都是协作平台中的一个节点,各个节点都根据预先制定的分工协作策略进行协同工作,各节点均有分工,且彼此协作。模型中的中心节点和各个分支节点都遵循OAIS参考模型,且在中心节点的集中指导下独立组织开发、维护并确保数据的完整性和有效性,其主要包括摄入模块、保存计划模块、数据管理模块、归档存储模块以及资源利用模块。平台中的每个节点均可根据本机构所具有的不同职责、角色和能力进行自治,独立执行保存功能,维护保存系统,并提供服务。每个分支机构的节点对等,各分支节点的关闭、停止、增加,并不影响整个平台的正常运行,平台可以随着资源规模的扩大不断增加分支节点,有效保证了平台的灵活性。采用该种模式不但可以有效简化平台管理和开发的复杂性,增强协作平台的可扩展性,而且可以允许各分支机构根据自身需求,灵活配置存储策略和工作流程,增强了整个平台的包容性,有利于充分利用现有工作和研究成果。
该模型采用松耦合的工作模式,模型的中心节点负责对整个平台的日常管理和监控,各分支节点采用独立运行的管理机制,由于每个分支机构具有很高的自治性,因此每个机构可以在遵循一定的标准、政策的前提下,采用不同的系统、嵌入不同的保存工具,保存不同类型的数字对象,有效保证大数据环境下保存平台的扩展能力。在分布式架构下,中心节点通过执行日常管理和检测,协调各分支节点独立运行,使该平台可支持不同的保存功能,达到不同的保存目标。平台通过采用基于分布式的保存策略和多副本安全策略,将多个副本分布式地保存在地理位置分散的多个分支节点的归档存储中,可以使得各分支节点资源互为备份和补充,共同完成资源保存,保证保存资源的多地多副本,最大限度的保障资源的安全性,避免因恶意攻击、本地资源丢失等因素造成的资源受损。
中心节点负责平台的统筹规划和全局监管,通过相应的节点注册机制完成对各分支节点信息的管理,利用资源提交机制接收各分支节点的数据和资源,其主要功能模块包括系统管理(如各节点信息管理、备份管理、人员权限管理、各種报告管理等等)、长期保存(如保存规划、环境监测、策略评估等)、仓储管理(如数据库管理、唯一标识符管理等)、归档存储(如存储系统管理、介质管理、存储机制管理等)、资源摄取(如分支节点资源的接收、审核、AIP生成等)、资源利用(如DIP生成、资源呈现等)。中心节点的主要任务包括:①每个分支节点通过各自节点的资源利用模块向中心节点提供信息,中心节点通过其摄入模块完成资源的收集,并通过仓储管理和归档存储完成对平台内资源的组织和管理,平台内资源索引的整合与请求分发由仓储管理模块负责。②中心节点负责对所有分支节点内容信息和保存管理信息的收集、组织,并完成对已解决版权资源的融合分析和统一揭示,保证在低成本的条件下实现数据的高效存储和访问。③各分支节点问可以在中心节点的管理下,完成对保存资源的迁移和备份,中心节点负责协作平台内资源备份迁移实施情况的统计。④中心机构负责对分支机构进行检查和审计,管理协作平台内部各节点的名称、机构性质、保存资源的基本情况等信息。⑤中心节点负责完成对协作平台内保存资源的统计管理,汇集各分支节点的数据保存情况,各分支结构可以通过向中心节点提交请求,系统了解协作保存平台内资源的保存情况。⑥中心节点负责提供协作平台的保存规划管理,在汇集各分支节点制定的保存规划的基础上,制定协作平台的全局保存规划和策略,以指导各分支机构制定相应的保存实施策略。⑦中心节点负责提供服务注册机制,以灵活嵌入一系列的保存软件和工具,完成对数字对象的持续存储和管理,保证协作平台内部资源的安全性、完整性,各分支机构可以通过服务调用或服务嵌入的方式,完成对所需软件和工具的使用,保证机构内资源的有效性。
各分支节点可以通过向中心节点注册,自主加入整个协作平台中,其具备完整的保存功能,执行机构内的资源摄入、存储、管理、备份、利用等保存功能,是一个独立的保存功能节点。各分支节点主要完成对保存对象的管理,并对数据安全提供保障。分支节点的主要任务包括:①负责对机构内保存资源对象内容数据和元数据的监控和管理,可通过嵌入相应的校验工具实现对保存仓储中数字对象进行完整性校验。②负责机构内保存资源的安全性和可靠性,配备一定的安全保障机制,如数据存储状态的审计、数据状态的跟踪机制、存储介质的安全保障机制等。③负责机构内保存资源的不变性检查,定期检查数据内容是否未经任何改变。④负责机构内保存资源信息的统计,完成对保存资源处理过程的追踪和检查,并生成报告。⑤提供资源对象迁移功能,即在中心节点的统一调配下,支持将对象从一个分支节点迁移到另一个分支节点,或从一种媒介迁移到另一种媒介资源。⑥负责资源原始资源的摄入和清洗,即各分支节点的资源摄入模块要面向资源提交者提供对原始提交信息的管理,如数据完整性检查、数据内容和元数据格式检测、元数据抽取、格式转换、病毒检测、剔除噪声数据、数据提取、有用数据提取,以及图书馆相关资源整合等功能。⑦各分支节点的输出模块主要完成向中心节点推送资源的功能,可以根据中心节点的摄入策略,进行资源的主动推送,推送模式可采用实时、定时、触发性推送以及手工推送等方式。
各分支节点可与中心节点协商,共同制定符合各分支节点自身技术能力和资源规模的资源复制策略和保存规划,在最大限度保证资源安全性,确保数字对象长期可用的同时,有效平衡各分支机构节点的独立性,保障资源在协作平台中的共享与协调。协作保存平台中各节点都设置独立的技术检测机制作为其长期保存计划的一部分,如摄入文件的格式、文件的完整性、存储媒介的安全性等。各分支节点的保存计划侧重于对本中心内部保存文件的日常检测,而保存中心节点的保存规划除包括对中心节点内部文件的技术检测外,还要指导平台中各节点完成对其内部存储媒介的检测。由于各分支节点所依赖的存储单元不同,因此中心节点的保存计划应不但涵盖其自身的内部保存计划还应当包括各分支节点的保存计划,以指导各分支机构用自己的技术检测功能对他们使用的存储媒介进行检测。
该模型的设计参考了Chronopolis项目区分主控节点和分支节点的分工协作模式,参考了LOCKSS项目的基于策略的存档复制模式,使得整个模型既具有一定的独立性又具有资源共享和易于扩展的特点。模型设计的基本原则包括采用分布式架构,具有良好的可扩展性、灵活性和安全性,数字资源的副本和原始版本可以分布在不同的地理位置,可以由多个机构共同构成,且由不同的管理员完成对系统平台的分层管理和监控,内容可以进行实况查询,并定期检查资源内容的完整性及其他问题,通过这些原则的设定,可以保证大量副本分布在不同的地理位置上,最大程度地保障资源可以在大多数可预知的环境中保存下来。此外,由于该模型遵循节点自治原则,可以减少系统的维护和开发量,保证在不影响已运行节点的情况下,实现多个分支节点的统一管理,实现保存协作平台的可灵活扩展。
4结语
大数据环境下,仅依靠单一机构完成对形态各异资源的保存与保护,已难以满足图书馆数据服务对数据质量、价值密度、可用性和可控性的需求。因此,面对更加艰巨的保存任务和更为复杂的保存环境,采用合作方式开展数字保存,打破机构问资源保存与共享的诸多壁垒,实现资源保存与服务的有机结合,已成为目前众多文化遗产机构的必然选择。图书馆采用集中分散的合作保存模式,依托集中管理——分布存储——集中整合的资源存储方式,构建数字资源协作保存平台,有利于协调和调度社会资源,共同分担保存风险和责任;有利于充分利用现有研究和实践成果,发挥各保存机构的数据保存优势;有利于实现对数字资源长期保存的统筹规划、分工协作、分级管理的一体化运行;有利于实现对资源对象实施不同层级的保存管理,保障数字对象的安全性、易控性和可用性;有利于图书馆长期保存角色的转变,即从数据的被动存储与保存,转换到对资源的积极存储、共享和利用;有利于节约资金、存储资源以及人力资源;有利于实现对资源长期存储、管理和应用机制的不断完善和优化;有利于依据数据的类型、结构特点、使用方向和存储方式,通过在不同存储节点问合理规划存储策略,实现资源的选择性管理和存储,保证数据在物理特性上安全、正确、完整、可控和可用;有利于保存资源在不同机构的服务与应用中的共享,避免数据内容误存和误用。