美国数字资源长期保存的研究进展及经验借鉴
2009-09-02毛义春
毛义春
随着信息技术的快速发展和互联网的日益普及,人们获得信息和知识的途径也发生了很大的变化。数字资源爆发式的增长给人们带来便利的同时,也对如何有效地长期保存这些数字资源带来了挑战。
1数字资源长期保存实施标准的制定
OAIS(Open Archival Information System)参考模型是美国国家航空和航天局(NASA)和太空数据系统咨询委员会(CCSDS)联合制定的一项标准。2003年,参考模型被采纳为ISO标准并颁发。OAIS参考模型本身并不是专门用来解决数字信息长期保存的特殊技术,而是着重论述了与数字信息保存相关的各种关系和框架概念,以及应对数字信息保存处理过程的策略。OAIS参考模型由六个功能模块组成,分别是摄入、长期存储、数据管理、系统管理、保存规划、存取。
2数字资源长期保存技术优化的实践
OAIS参考模型作为长期保护和维护数字信息可存取档案系统的一个基本概念框架,受到了对长期数字信息保护有兴趣的不同机构团体的欢迎。
2.1 NDIIPP项目
2000年12月,美国国会通过立法(PL-554号法案)在美国国会图书馆建立国家数字信息基础结构和保存项目NDIIPP(National Digital Information Infrastructure Preservation Program)。该项目是以美国国会图书馆为主导,联合全国许多大学图书馆、研究机构、商业组织对数字资源进行收集、保存的研究。NDIIPP赋予了国会图书馆一项新的职责,那就是领导制定全国性的数字信息长期保存计划以及捕获濒临消失危险的数字信息。该计划的目标就是要促使各界团体共担数字信息长期保存的责任以及寻找相关问题的全国性解决办法。
2.2 LOCKSS项目
LOCKSS(Lots of Copies Keep Stuff Safe)意为通过建立多个副本保证数据的安全。LOCKSS系统是一个开放性源码的分布式系统,它无需中心级管理就能运行在一些廉价的PC机上。此外,图书馆的电子信息收藏不会受到外界不良因素的影响,可以为读者提供持续的、永久的电子期刊信息内容存取服务。它通过建立出版商与图书馆、图书馆与图书馆之间的协作平台,提出电子资源出版、发布到永久性保存与利用等一整套解决方案。
2.3美国电子文件档案馆(ERA)项目
该项目针对政府电子档案数量的指数级增长、电子档案格式的多样化、电子档案载体不断更新、软硬件平台不断升级等情况,为应对电子档案管理、保存与利用诸多问题的挑战,为永久保护电子档案及其真实性建立一套基本的理论知识和方法,并在此基础上,为国际组织、国家或某些部门在长期保管电子档案的真实性方面制订方针政策和标准规范提供指南。
ERA的发展策略由四个部分构成。第一,它以正在发展的可支持电子政策、电子商务和科学研究的技术为基础,开发具有各种功能且具有很大独立性的应用软件,用于长期保护和访问电子文件。第二,以这些通用的技术为基础,ERA设想发展一个信息管理的架构,能够适用于未来的信息保护技术和数字信息迁移技术。第三,ERA的“框架”由一系列能够满足电子文件档案馆需求的解决方案构成,这些方案具有通用性、能够互相补充,同时适用于各种类型的档案。第四,该工程的最终目标,就是浓缩各种信息技术与解决方案,形成ERA系统。
3数字资源长期保存可靠性模型的开发
随着全球网络化的不断发展,数字信息面临的网络安全日益突出,可以说网络的不安全性,已成为限制其发展的最大障碍。基于此,美国开发了长期存储系统数据拷贝的可靠性模型,以应对存储系统的可见性故障和潜故障威胁。
3.1可靠性模型
此模型有助于指出采取何种策略最有可能增加长期保存的可靠性,有助于指出在真实的系统中该检测哪些数据从而协调利用策略,解决故障。
模型分为顶层和底层。顶层,探测到可见性故障时,恢复模块启动,故障数据立即开始恢复,错误得以成功更正;底层,在探测到潜故障之前,什么也不会发生。一旦探测到潜故障,就像处理可见性故障一样,恢复模块开始工作。
模型中将故障分为两类:可见性故障和潜故障。可见性故障是指在故障产生和检测到故障期间可忽略的故障。潜故障是指在故障产生和检测到故障期间很重要的故障,包括字符写错、字节损坏、扇区读不出和数据格式过时。
3.2策略
该简易模型揭示了许多策略,可用于减少不可恢复数据的丢失概率:
·增加可见性故障的时间段,使存储载体减少诸如磁头碰撞的灾难性数据丢失。
·增加潜故障的时间段,使存储载体减少数据损坏,或是减少数据格式过时。
·缩短故障产生和检测到故障期间的时间段,经常核查数据以检测潜在数据错误。
·缩短潜故障的修复时间段,自动修复潜在数据故障,而不是提示操作者实施修复行为。
·缩短可见性故障的修复时间段,假如采用热备份驱动器。那么一旦操作者更换了驱动器,数据恢复即刻可以进行。
·尽可能减少拷贝件的总量,以免同步数据错误。
·增加拷贝的独立性。尽可能使用多种硬件、软件、存储地点、管理,避开对第三方元件和单一结构的依赖性,就可以减少长期存储系统发生相关故障的概率。
4经验和借鉴
4.1充分考虑数字资源长期保存的标准化
标准化是推动数字图书馆发展的一个重要条件,数字资源要长期保存,就必须要考虑标准化的问题。
元数据标准一直以来是ISO组织和世界各国研究的主要内容,也是数字资源长期保存的重要课题。2003年OAIS被指定为国际标准,具有强大的生命力,而ER-A的成功将促使人们思考如何建立自己的元数据标准。
LOCKSS系统以OAIS标准建立模型,采取分布式保存策略,确保系统的稳固性。在系统开发时还充分考虑了系统的通用性、先进性、可扩展性和互操作性。
4.2加强数字资源管理和保护关系的研究
从ERA对电子文件保存的整个过程来看,数字资源的保护只在形式上独立,在内容上已与管理融为一体,二者截然不可分。因此,我们在设计信息系统时,应把管理和保护的要求有效、合理地结合起来,而不要让其各行其是。
4.3强化项目开发的合作参与
加强与有实力、有经验的国家或企业合作、共享资源。目前全球有80多个图书馆和50多个出版商参加了LOCKSS项目。出版商提供的数据内容目前已逐渐加入到系统中。香港理工大学、印度甘地原子能研究中心、新加坡国立大学等机构参加了LOCKSS项目的测试与研究。中科院国家科学数字图书馆也于2003年5月参加了该项目。
4.4加强数据库和检索系统的集中化建设
就档案数据库和检索系统而言,目前我国的档案数据库及检索系统呈分散状态,相对于美国的集中化形式有很多弊端,主要弊端有IT的工作效率低、支持及管理人员的增加、缺乏标准化、软件需要分散的重复投资、无法承受灾难备份的投资等几个方面。因此在我国建立一个大型的完善的数据库,实现电子文件档案的数据大集中以及灾难备份工程,将会大大提高我国的档案管理水平和电子文件档案的安全存储。
4.5重视信息系统的安全性和可靠性
美国非常重视数字资源长期保存中系统的安全性。以LOCKSS为例,系统在开发过程中就充分考虑了可能遇到的不安全因素,采取了存储与操作系统分离、权利分离等措施。美国斯坦福大学和哈佛大学开发了长期存储系统可见性故障和潜故障分析模型。利用该模型有助于对故障有效预警,并有助于协调利用最佳策略对故障数据实施自动又可靠地恢复。
5结论
数字资源长期保存是一项十分艰巨和复杂的工作,美国在这方面的研究和应用已经取得长足进步,积累了很多知识和经验。因此,我们一方面要学习美国先进经验,一方面又要理论联系我国实际,通过制定数字资源长期保存的国家政策、建立不同层次的合作机制和制定合理的保存策略,使我国形成一个数字资源长期保存与维护的技术环境与社会氛围。