数字资源长期保存可信性研究
2012-04-29董晓莉
董晓莉
〔摘 要〕数字资源长期保存的可信性是一个图书馆开展数字资源长期保存实践的核心和基础保障,目前的研究主要是基于数字仓储系统的可信性研究,尚未建立一套基于长期保存体系的可信保障机制,仍属于探索阶段。本文在介绍数字资源长期保存可信性基本概念的基础上, 从技术角度着重分析了数字资源长期保存可信性的流程和模型,并根据流程推出具体的实施方法。最后,对国内外研究现状和下一步需要做的工作进行了分析。相信,对于“数字资源长期保存可信性“的研究,将对数字图书馆长期保存工作的开展起到抛砖引玉的作用。
〔关键词〕长期保存;数字图书馆;数字信息资源;可信性
1 概 述
数字资源长期保存是指对数字资源长期保存期间的保存管理,管理期间需要保持数据的真实性、可获取性和可理解性[1]。在数字信息无处不在的今天,20年前的数据我们仍能有效读取吗?即使能够读取,我们是否可以判断该资源是否完整?是否被修改过?是否是赝品?毫无疑问,只有解决这些问题,才能在相当长的一段时间内,保证保存数字资源是安全、可信的,这也是数字资源长期保存的意义所在。长期保存的数字资源,在其保存生命周期内,必然会由于外部环境、用户需求等方面的变化导致数字信息的不可靠。特别是随着信息技术的不断变革,我们不可避免地会采用相应的长期保存策略,如迁移、封装等技术手段。因此,如何保证不稳定的数字资源的可靠性、可用性以及数字资源的完整性,确保各种数字资源能随时提取利用,以便为今后的数字信息提供保障,是国家数字图书馆当前亟待解决的问题。
2 数字资源长期保存可信性分析
数字资源长期的可信性,涉及保证数字资源的生存能力、可呈现能力和可理解能力。数字资源的生存能力是指保持完整的数字位流文件;可呈现能力是指具有将数字位流文件转换成人或机器可读取的记录资源;可理解能力是指保存的资源可以被用户群体所理解。
2.1 数字资源长期保存可信性研究中概念的界定
2.1.1 数字对象与表征信息
当数字信息作为一个整体时,它不可避免地需要采用不同的方法在不同的介质上进行呈现,也就是说,它总是以某种形式的数字对象来表现。比如,数字信息可以存储在光盘、磁盘等介质上,但是,显示这些信息会使用CRT或LCD等设备进行呈现;此外,数字信息通常以二进制的形式被计算机系统存储、传输和处理,人类通过某种编码格式将其组合并呈现。因此,在长期保存数字资源时,不但需要记录电子资源原始的基本特征,而且这些特征应能充分表征这些记录与其它记录的区别,数字对象与表征信息共同构成了信息对象的整体。划分表征信息与数字对象,可以有效地帮助长期保存工作者划分保存资源的内容和其相关描述信息,并通过信息封装等技术手段完成数字信息的保存。
2.1.2 归档信息的表现信息与利用信息的表现信息
为了达到长期保存的目的,需要维护信息资源的可用性,所以至少一个信息对象实体的特定版本中所涉及的所有文件均被标识、存储和维护。只有这样,该信息对象才能被聚合并呈现给用户。比如,一篇期刊文章可以由一个TIFF文件构成;这构成了一个信息对象的归档表现。另一篇文章可以由XML文件和一组图象构成,这3个文件共同构成了一个信息对象的利用表现。不同的归档表现信息与利用表现信息并非仅存在于不同的数字记录与数字文件中。一条归档信息可以通过不同形式,呈现出不同的表现信息加以利用。因此,归档信息对象的表现信息与利用信息的表现信息之间存在着一对一、一对多、多对一、多对多的情况。通常情况下,信息对象并非作为独立完整单元进行存储,它通常存储在多个数字文件中,因此,可以通过数字对象和不同表现信息的组合,根据需求,表现出信息对象的不同呈现形式。这里区分归档信息的表现信息与利用信息的表现信息,其意义在于对长期保存目标进一步的明确。比如,归档表现信息不对信息对象的排版、格式等利用表现信息的特征进行保存;但对资源利用而言,其表现形式是非常重要的。长期保存的任务是对知识内容进行保存,仅保存必要的表现形式,而并不关注内容的外在形式。
2.1.3 数字资源长期保存的可信性控制
数字信息在保存过程中要求保持信息的一致性和完整性,保证数字信息在其保存周期中的信息呈现形式不变,内部结构信息不变,元数据信息不变。也就是说,保存应通过一系列的监控技术手段,实现数字文献的内容、结构、背景等方面的信息与原始状况一致并无缺失,同时应保证保存信息资源的可识别、底层存储系统的可靠、载体完好并具有良好的兼容性。
当数字信息从一个应用环境迁移到另一个新的应用环境,或者从一种迁移到另一种格式时,要保证其内容没有改变,也就是保证数字信息的完整性和可识别性。影响长期保存数字资源真实性的技术因素可分为宏观层面和微观层面。宏观因素主要集中在系统间、子系统间或各应用系统间交换数据;微观层面主要集中在信息拆分、重新组合等方面。信息迁移将涉及宏观和微观两个层面。
保存控制是长期保存资源可信性的关键技术因素,它应贯穿于信息采集、信息存储、信息利用等多个环节,对保存的条件、相关约束信息等进行控制。长期保存控制,在信息资源的保存生命周期内,应当是有效的。因此,在执行保存控制时,不但要在宏观层面做好数字信息的认证工作,而且要在微观层面做好数字信息的审记等方面的工作。
2.2 数字资源可信性长期保存流程
2.2.1 数字资源保存通用模型
数字资源长期保存流程已由OAIS(Open Archival Information System)参考模型定义。在OAIS模型中,包含人员、系统等各类因素,其目标是保证长期保存资源在目标群体的可用性。
从宏观层面上,数字资源的长期保存涉及数字资源的生产者或拥有者(包括个人、机构或系统),同时也是数字资源长期保存提交方;管理者(包括最终保存机构、归属系统、法律法规制定机构等);用户(包括个人、机构或系统,同时也是数字资源的最终使用者),如图1所示。
从微观层面上,从微观技术层面上,电子出版物长期保存涉及到电子出版物内容存储和有效使用的数据格式,包括相关的元数据、数字格式与处理方式的信息,关于编码、格式、标记、结构、压缩、加密的数据,内容校验、版本演变、知识产权管理等数据[2]。同时,还涉及到保存的软件、硬件环境等诸多方面。
综上所述,数字资源的长期保存既涉及宏观管理层面,又涉及到具体技术层面。在数字环境下,传统的以载体保护或技术控制为主的技术手段显然已经过时,必须以贯穿保存系统内的系统控制为主。
2.2.2 长期保存可信性数字资源流程
(1)长期保存数字资源可信性通用模型
数字资源长期保存可信性模型主要用于长期保存系统中对保存资源的系统控制。该模型是一个通用概念模型而非功能模型,主要描述长期保存资源的过程,接收资源所需要的相关摄入过程、控制过程以及完成长期保存所必要的机制和每个过程的输出。该模型主要完成相关过程和实体的定义和数字资源长期保存系统的资源保存过程,如图2所示。
为保证长期保存数字资源的可信性,在总体策略方面,我们需要考虑两个方面,一方面我们需要考虑长期保存的目标和需求,这些需求包括长期保存的原理、相关标准规范、以及各机构的保存目标和流程等诸多方面。另一方面,由于长期保存数字资源需要依赖于外部系统环境因素,因此,受限于信息技术发展状态和系统的开放程度。在底层保障机制方面,我们需要考虑3个方面,一个是实际可信赖的信息技术和通信技术,主要包括数字资源长期保存过程中涉及的软件、硬件、物理介质等方面;数字资源的实际保存处理流程;以及相关机构/用户群体3个方面。在长期保存数字资源记录的过程中,有两个主要的输入,一个是对于长期保存数字资源的传输,一个是对于已保存数字资源元数据或对象数据的查询,此外,还需要考虑对于长期保存数字资源的相关环境信息的收集和保存,如设备信息、信息技术、相关设备等[3-4]。
(2)数字资源可信性管理
长期保存数字资源须遵循OAIS参考模型,在统一的概念、属性和框架下,进行规划和设计。在此基础上,按照数字资源长期保存信息生命周期的过程(即信息摄取、保存管理、信息管理、信息输出),为长期保存可信数字资源设计了主要的保存处理流程,如图3所示。
①信息摄取
信息摄取的主要工作是根据保存管理设定的资源保存策略,从信息资源提供者处接收并传输资源,按照资源的原有组织形式生成提交信息包。该部分涉及资源获取和合格信息包提交两部分的内容。此时,我们为了保证资源获取的可信性,需要根据保存管理的长期保存策略、方法等各类信息,对数字对象的获取权限、数字对象的来源、正确性、完整性以及充分性等方面进行控制。同时,应当充分记录数字对象获取过程的所有操作记录。
②保存管理
保存管理担负着长期保存数字资源的任务,因此,长期保存策略、方法和计划是数字资源能否得到有效、可靠保存的基础保障。在此,我们需要从保存方法是否可行、保存策略是否已经过严格测试、保存计划是否有严格的控制机制,并根据保存过程中的反馈信息及时进行调整等方面进行考察。
③信息管理
信息管理按照保存管理的要求,负责数据更新,并通过数据迁移、技术仿真等技术手段完成资源的存储、保存和维护。同时,负责完成对保存资源的提取,并传输给信息输出模块供外部使用。在此,我们不但需要完成对对象数据的管理,同时需要对与对象数据相关的元数据,如描述元数据、与保存政策相关的元数据等进行保存;对保存技术、程序、系统环境信息等进行保存和考察。
④信息输出
信息输出负责为用户或其它系统提供检索和索取保存资源的平台,它可以提供检索机制,同时承担身份认证和授权管理的功能。在此,我们需要对访问、输出等过程的策略是否合适、这些策略的使用情况、以及数字对象在传
递过程中的一致性等方面进行考察。
(3)基础设施及系统安全
可信的基础设施和系统安全是实现数字资源可信保存的基础和关键。以下我们主要从基础设施和相关技术、系统操作和运行的安全性两个方面进行考察。
①系统基础设施和相关技术
在此,我们主要考察系统的基础设施是否完善,是否有相应的安全机制进行保障,保存资源是否安全,并具有可操作、可信赖的管理机制。我们可以分别从操作系统、备份和保存条件、数据同步机制、差错校验机制等方面进行考察。此外,数字资源保存的目的是为用户群提供可信的数字资源服务,因此,所提供的服务应当是方便、快捷、实效的。在此,我们需要考察是否具有适当的软/硬件技术;是否对软/硬件技术进行定期评估并确定合适的迁移方案,以保证长期保存资源的持续性。
②运行的安全性
保存资源经常受到内外部不同风险的威胁,如自然灾害、人为因素、环境变换等,因此,维护系统的安全性是实施数字长期保存的根本保障。此处,我们需要从安全因素、安全措施、容灾、备份/恢复计划等方面进行考察。主要涉及系统、人员、物理环境的全方位风险分析,是否有安全的离线数据监管机制,以及是否有合理的备份和恢复计划。
3 数字资源长期保存可信性实现
可信数字资源的长期保存会在其保存生命周期内受到外部环境、用户需求变化等各种因素的影响[5]。如果系统的耦合度过高,会给系统内资源的审核、可信性验证等功能的优化和改善以及新技术的应用带来极大的不便。同时,数字资源长期保存往往面对的是不同类型资源的海量增长,不同资源类型需要不同的验证手段,为此,也同样需要系统具有良好的可扩展性。因此,我们考虑采用微服务的方式实现系统内保存资源可信性的验证。微服务是系统内承担简单任务且与其他微服务协作的独立功能组件,系统复杂功能的实现依赖于微服务之间的组配。微服务之间通过标准化的接口进行交互,这些接口采用中立的方式定义,独立于实现服务的硬件平台、操作系统和编程语言,它具有以下的特点:
(1)松散耦合,各个微服务之间的依赖关系较少;
(2)标准化接口,遵守相同的通信协议;
(3)独立性,每个微服务独立对逻辑处理过程进行封装;
(4)复用性,可以多次使用。
微服务架构的功能是在标准化接口的基础上提供松散耦合的服务,目标是通过各种服务的适当组合完成业务流程,提高系统的灵活性。我们可以根据需求,按照长期保存可信性资源流程,结合保存生命周期,将信息摄取、保存管理、信息管理和信息输出分别分成若干功能模块,根据功能模块划分出不同的功能组件。微服务定义是基于长期可信性数字资源流程的分析,将不同的工作流对应多个微服务。以下所述的微服务仅涉及可信性保障的相关服务。
我们可以定义如下的微服务:
(1)资源摄取的微服务构成:
①系统接受SIP(Submission Information Package)信息包,并将其存储到SIP临时存储区。该服务主要接收相关系统或人员递交的传送数据电子表单,按资源的不同分类,根据提交规则通过Web或专用提交接口完成SIP信息包的接收工作,并将其存入SIP临时存储区。
②扫描SIP中的所有文件。当发现病毒或其他恶意软件时,该服务将SIP放到隔离区,该SIP的所有处理过程停止。
③一旦摄入数据包,该服务为整个SIP信息包创建备份。完成对电子表单的检查核对,并根据预先制定的接收规则完成对应SIP信息包的初步接收工作。
④系统验证SIP信息包是否符合系统过程所需的结构。初步接收成功后,该服务完成对SIP信息包解包,并根据管理服务制定的SIP信息包的有效性和完整性规则完成对包内相关元数据(描述元数据、结构元数据、保存元数据、管理元数据)的抽取以及对象数据的审核校验(主要包括数据完整性、是否重复、是否符合规则、病毒检测、资源格式审核等方面)等工作。如发现与系统内预定规则不符,则完成对SIP信息包的回退工作,并将错误信息存储同时返回提交方。
⑤为SIP的每个文件分配一个全局惟一标识符和完整性校验码。该服务提取SIP信息包中的惟一标识符,并根据系统内部标识符生成规则生成系统内部标识符。
⑥为SIP的每个文件分配完整性校验码。如果摄入的文件已经包含一个校验文件,该微服务会检验并确认在传递到系统后,没有文件被删除或修改。
⑦抽取SIP包中的元数据,如果SIP包元数据不完整,该服务将添加XML模板。
⑧补充元数据,该服务可以让用户自己填写域,这些值会作为系统创建的SIP的一部分上载到系统中。
⑨识别验证文件格式,从文件中抽取技术元数据。在成功接收合格的SIP信息包后,该服务根据预先定制的规则和策略对提交资源的相关元数据进行抽取,并完成文件格式的验证。
⑩用户审定SIP包,用户可能会浏览SIP包,确定它是否符合提交协议,在这个服务中用户可以删除不需要的文件。与此同时,删除文件的日志会被添加到信息包中。
SIP包在预先设置的一段时间内会放在临时存储区。如果需要,该服务可以提前将SIP包从临时存储区中移出。
该服务为新的SIP包生产者建立相应的用户账号。
该服务将资源的表现信息、对象实体、以及元数据存储到系统中,并完成新的实体资源的注册。根据预先指定的策略,在忠实于原有信息包的情况下,将审核合格的资源表现信息、对象实体、以及元数据安全有效地更新到信息管理的存储区中。
该服务从SIP存储区中清除SIP包。
该服务为用户反馈接受信息。
(2)信息管理的微服务构成:
①该服务为每个摄入的文件编辑包含整套保存元数据的METS文件,该文件与AIP(Archival Information Package)中的原始文件一起打包。
②该服务为所有的AIP内容产生SHA-1验证码。
③通过技术分析服务,该服务为信息包中增加新的文件。
④通过技术分析服务,该服务为信息包中增加新的元数据。同时完成与AIP信息包相关的部分描述元数据、结构元数据以及管理元数据信息、状态信息以及保存元数据的入库、更新等工作。
⑤更新表现信息。该服务完成与AIP信息包相关的表现信息的更新工作。
⑥根据打包规则完成AIP信息包的生成。在资源摄取成功后,根据预先定制AIP信息包封装的规则和存储策略,该服务对提交数据进行重新组合打包。
⑦用户审查AIP并批准为档案存储,该服务将该AIP移到与存储系统同步的AIP存储区下。根据系统管理服务制定的存储策略,在忠实于原有信息包的情况下,将系统内部的AIP信息包安全有效地保存。
(3)信息输出的微服务构成:
①用户身份审计。该服务负责对用户或外部系统的角色的识别和认证等工作,有效地管理用户、访问权限等。
②该微服务将创建的获取备份放在DIP(Dissemination Information Packages)存储区中,同时元数据文件也添加到DIP中。
③对表现信息进行锁定和检测。在资源使用前,该服务要对资源的使用权限等信息进行确认,并检查对象数据等各类信息。
④该服务获取与对象数据相关的表现信息。
⑤该服务将审批通过的DIP上载到相应的服务系统中。
⑥该服务提供查询功能,包括元数据、对象数据和表现信息。
(4)保存管理的微服务构成:
①数据检测的功能分析与更新。该服务完成对存档环境和数据的有效性监控和数据流的维护,出现问题时能及时有效地进行处理。
②该服务完成对文件格式的分析。
③该服务更新文件格式注册信息。
④分析信息包及其相关文件的关联性。该服务根据已有的长期保存标准和信息包的迁移目标,制定信息包模板、管理策略等。
⑤用户管理服务,该服务完成如新用户生成、用户更新、用户删除等。
⑥长期保存规则管理,该服务完成如长期保存规则的更新、建立、删除等。
⑦建立长期保存工作任务。根据系统内反馈的策略执行结果,以及用户的保存需求,该服务制定保存方法和工作流程等。
⑧状态监控以及数据流的维护。根据保存策略,该服务完成对存档环境和数据的有效性监控和数据流的维护,出现问题时能及时有效地进行处理。
⑨信息包管理:根据已有的长期保存策略和信息包的迁移目标,该服务制定信息包模板、管理策略等。
⑩保存需求管理:该服务对外部系统或用户提出的保存需求进行分析,并提取相关参数等信息,形成新的保存目标。
保存策略管理:该服务完成对新制定的保存策略进行分析,提取相关参数等信息。
4 国内外研究现状
早在2000年,研究图书馆协会(Research Libraries Group,RLG)与联机计算机图书馆中心(Online Computer Library Center,OCLC)就在《可信赖数字仓储:属性与职责》的报告中对可信赖长期保存系统的定义和特点做了详细阐述,它指出可信赖长期保存系统(Trusted Digital Repositories,TDR)的目的在于为目标群体提供经过管理的数字资源的长期可靠的存取,包括现在的存取和未来的存取[6]。在此基础上,一些机构或组织开展了对长期保存系统与服务可信度的认证工作,并制定出具有普遍性或仅适合本机构具体环境的认证指标体系。其中比较有代表性的指标体系包括:RLG与美国国家档案管理局(National Archives and Records Administration,NARA)根据不同国家对长期保存系统加以审计或认证的实践,拟定了《可信赖仓储的审计及认证:指标与列表》(Trustworthy Repositories Audit & Certification:Criteria and Checklist,TRAC);德国网络信息计划(Deutsche Initiative für Netzwerkinformation,DINI)制定的《DINI文档与出版物服务认证》主要针对德国机构仓储的开放存取,旨在为各大学机构仓储间的标准化及基于互操作的信息服务与交流提供建议;由德国联邦教育科研部(Federal Ministry of Education and Research,BMBF)资助的“德国数字资源的长期存储与长期存取专业网络”(Network of Expertise for Long-term Storage and Long-Term Availability of Digital Resources in Germany,nestor)下属的可信赖仓储认证工作组制定的《可信赖数字仓储的指标体系》等。但是,目前的研究主要是基于数字仓储系统的可信性研究,尚未建立一套基于长期保存体系的可信保障机制。
5 下一步要做的工作
为了保障数据信息的完整性,需要不断审核保存资源。这说明在长期保存体系中,需要结合数字资源的长期保存生命周期,在其生命周期内,全方面地系统解决数据资源的可信性问题。具体来说,包括资源内容的可信性,如系统程序错误、误操作和设备机械故障等因素导致二进制数据的破坏,数字文件的质量受到参数设置改变的影响等;参考信息的可信性和完整性,如其他相关文件的关系,或与数字环境(软硬件环境)依赖性之间的关系,保存活动没有被完整记录,来源信息不完整或不精确等;功能的完整性和可信性3个主要方面。由此可见,关于如何保存好数字签名、保证数据资源内容的可信性、保存相对固定的资源版本、保存好文献的活性链接、保存好文献来源等方面都是需要进一步解决的技术问题。
未来,我们不但要建立一套适合中国国情的可信赖的数字资源长期保存体系,同时要对可信资源保存的技术细节进行进一步的研究。
参考文献
[1]Jones,M.and Beagrie,N.Preservation management of digital materials:a handbook.London,UK:British Library Publishing,2001.
[2]宛玲,张晓林.数字资源长期保存中的知识产权问题研究[J].中国图书馆学报,2005,(3):66-67.
[3]刘家真.标准化与数字信息的长期存取[J].图书馆杂志,2001,(9):6-9.
[4]张晓林.数字信息的长期保护问题[J].图书馆,2005,(1):7-10.
[5]李文.试论数字资源的长期保存问题[J].惠州学院学报:社会科学版,2005,(2):103-106.
[6]Research Libraries Group.RLG/OCLC Trusted Digital Repositories:Attributes and Responsibilities[EB/OL].2007-12-10.
(本文责任编辑:王 涓)