解析《数字资源保存管理手册》的保存策略
2016-03-26天津科技大学图书馆
蔡 舜(天津科技大学图书馆)
解析《数字资源保存管理手册》的保存策略
蔡舜(天津科技大学图书馆)
摘要:《数字资源保存管理手册》是由英国的数字保存联盟编写的一部被广泛引用参考的数字资源保存与读取的重要指南之一。手册的第三大部分对于数字资源的保存策略进行了详细的介绍。从媒体的维护和内容保存两个方面说明了保存策略的操作指南,介绍了媒体的灾难恢复计划、存储环境、审核与安全和主要保存策略、次要保存策略。
关键词:数字资源保存;媒体;策略;迁移;仿真
1 引言
《数字资源保存管理手册》是由英国数字保存联盟(Digital Preservation Coalition,DPC)于2001年开始编写有关数字资料保存管理的指导手册,[1]这项工作一直延续至2008年。截至2008年底,DPC的研究者们紧跟数字保存领域的发展,已经先后对手册进行了数十次的修订,通过不断更新﹑丰富和完善,己经成为世界上数字资源长期保存与长效利用项目的重要参考指南之一,受到各界好评并被广泛引用。《数字资源保存管理手册》主要从数字保存(数字保存会涉及的问题和方面)﹑机构战略(机构开展数字保存的宏观管理)﹑机构活动(具体介绍了资源保存机构开展资源保存战略)﹑媒体和格式(数字保存过程中的载体和文件格式的选择)四个主题方面制定了操作指南。介于篇幅的关系,本文主要介绍“机构活动”中的关于存储维护和保存策略手册。
2 存储维护策略
2.1媒体的灾难恢复计划
灾难恢复计划是指自然或人为灾害后,重新启用信息系统的数据﹑硬件及软件设备,恢复正常商业运作过程的计划。[2]手册认为,尽管灾难恢复计划在大多数情况下是没有得到执行的(如同大多数消防设施并没有真正启用),但是灾难发生后恢复的效果往往取决于灾难前制定的规划。
(1)灾难恢复计划要求。要求包括在灾难前建立数字资源复本,复本包括在线和离线两种,且在线与离线复本不能保存在同一个地方,以免出现因人为或自然灾难导致的“一损俱损”的情况;保证存储数据的媒体执行通用产业标准;对于灾难恢复计划的具体流程,需要建立常规机制,保证所有相关人员都能得到关于灾难恢复程序的系统训练。
(2)灾难恢复计划案例。手册援引了英国埃塞克斯大学的数据存档(Data Achive)灾难处理策略,[3]而这个处理策略对于大多数的机构而言都具有一定的借鉴意义。数字存档系统是采用层级存档系统,数据集的每一个文件至少有四个复本。主要复本,这些复本由层级存储管理系统(HSM)文件系统的主要领域控制;隐藏复本,至少生成一个隐藏复本,当文件更新时它们被隐藏在主要系统的一个独立的区域内;CD-ROM复本,每个数据集早期都会创作一个CD-ROM复本,作为早期保存程序的一部分,CD-ROM复本允许工作人员存取一个可选的本地资源,当主要系统故障的时候并作为一个备选的长期存储媒体;离线或者近线复本:创建一个离线或近线复本,当埃塞克斯出现大的灾难时使用。表1为埃塞克斯大学不同复本的数据集出现损坏时对应采取的灾难恢复计划。
表1 埃塞克斯大学的灾难恢复计划
2.2媒体的存储环境
手册提出适宜的环境条件将提高数字存储媒体的寿命并能有效防止数字资源或它的文档受到意外的损坏,同时手册还指出温度和湿度大幅度的变动对数字资源的损害要远大于温度和相对温度稍高于理想状态所带来的损害。手册提出了对媒体存储环境的具体要求,通常情况下,媒体的存储温度一般要远低于正常室温,如果将其转移到常温下操作,需严格按照有关程序使其适应环境;对于存储环境应当建立严密的监测程序,及时掌握环境的温度﹑湿度等相关环境信息;由于存储媒体对于环境中的灰尘﹑颗粒非常敏感,一粒微小的尘土都有可能导致快速转动的磁头毁坏,所以在存储区域内严禁饮食,同时尽可能保持环境干净;由于存储媒体有些材料对光敏感,容易引起载体的质变,所以存储媒体应尽量避免阳光直射,可在媒体的外部加装附加的保护;对于媒体危害最大的莫过于毁灭性的水﹑火﹑磁场等自然灾害,媒体的存储环境应该远离水﹑火﹑磁场等危险。
2.3媒体的审核与安全
为保证数字资源在未来的可读性和完整性,在资源的更新或者迁移过程中不被有意或无意的更改,手册建议在资源完成操作任务后对其进行审核。为确保遵守法律法规的要求和内部的安全,手册建议实施一定的安全措施。具体的审核与安全措施:由于媒体状态的好坏也许光凭表面的现象无法完全判断,需要通过有关的指数分析才能准确得出答案,手册推荐由相关的操作人员设置好参数,自动周期性的检查媒体的可读性和通过校验码周期性的检查数据文件的完整性。为应对自动审核程序失效,管理层还应建立随机检查程序。对于媒体的存储区域采取严格的安全措施,设置独立的﹑锁定的区域,对于没有合理授权的访问,能准确辨识且完全拒绝。媒体的存储可能会涉及不同部门的众多管理人员,为确保存储设备的安全,相关的管理人员应当签定专门的职工责任书。
表2 数字存储媒体推荐环境条件[4]
3 保存策略
《数字资源保存管理手册》把数字资源的长期保存策略分为主要保存策略和次要保存策略。主要保存等略,通常是指那些对数字资源的中长期保存担负义务的机构如图书馆﹑档案馆等所采用的保存策略。次要保存策略,一般是指可能会被长期保存机构临时或中短期采用的﹑以及对数字材料暂时有利益关系的机构或个人(如作者﹑出版社等)临时采用的保存策略。在时间顺序上,次要保存策略可能会优先于主要保存策略应用,甚至某些次要保存策略的应用可能会在一定时间内延缓主要保存策略的应用或者起到大大加强主要保存策略的效果的作用。
3.1主要保存策略
目前,主要保存策略应用最为广泛的还是迁移和仿真。迁移是指随技术变化定期地转换数字资源的一种处理过程,它使数字资源从一个硬件﹑软件的配制向另一个硬件﹑软件配制转换,或是从旧的计算机技术向新一代的计算机技术转换,这一套定期的整体行为能使数字资源适应技术更新不断地被转移,使数字资源在将来也可以被存取。[4]就目前的实践情况来看,数字迁移主要有三种类型:物理迁移(存储介质迁移)﹑逻辑迁移(数字资源文件格式迁移)和按需迁移(迁移用户需要访问的资源)。[5]仿真,则是另一种为应对硬件和软件技术过时而采用新的技术模仿旧的系统在未来的计算机系统上使用的方式。所谓仿真就是制作一个仿真器,模仿数字信息生成时的软﹑硬件环境,使数字信息能够以原始状态得以重现。[6]仿真器的构建最重要的一点是需要有关数字文件运行必须的软﹑硬件环境的详细说明,以保证在未来未知平台上模拟出原始运行环境。仿真和迁移对维护数字信息的长期存取都有着不可忽略的作用。仿真有助于保护﹑辨认那些极大依赖专门硬件与软件而又无法在新﹑旧技术平台间进行迁移的数字对象等,如超文本﹑多媒体等复杂文件。迁移则适用于相对来说较为简单的数字对象,如线形文本文件等。作为维护数字信息长期存取最常使用的两种方法,仿真与迁移各有其适用范围,没有一种方法是完美无缺,能够适用于各种类型的数字信息的。因此,在我们选择维护数字信息长期存取策略的时候,不能简单地套用某一种保存模式,而应该在时间﹑成本允许的范围内,综合考虑数字信息保存的目的﹑数字对象本身的特点以及不同技术策略的优缺点。《数字资源保存管理手册》详细的列举了迁移和仿真两种策略的优势﹑劣势﹑相关的操作要求(见表3)。
表3 主要保存策略[3]
3.2次要保存策略
次要保存战略最大的特点莫过于其应用时限要短于主要保存策略,同时其相对于主要保存策略可能成本相对较低,对主要保存策略有很好的补充和辅助。
(1)技术保存。技术保存是一种通过保留读取数字资源的硬件和软件的方式来克服技术过时的问题。需要注意的是,这种策略当前要求保存硬件和软件创建的所有材料和关于文件格式说明书。如果具备这些条件,技术保存战略长期可为仿真和迁移战略提供有价值的辅助支持。技术保存要求保存硬件和软件材料的最原始状态,这对于复杂的数字资源的中短期保存具有很好的实践价值,但是作为长期的保存策略有点不太现实,因为随着时间的推移,技术保存的读取会变得越来越难,访问会变得越来越有问题。
(2)坚持标准。坚持标准是使用相对开放﹑被广泛支持或认可的标准和文件格式,因为它们可能具有更大的长期稳定性。在创建和存档数字资源的时候不拘泥于专门的硬件﹑软件,技术过时情况也许会推迟出现。坚持标准能减少长期保存的成本,简化迁移等保存策略,在实施迁移策略时有可能实现规模效应。但是是否采取标准,取决于资源初始创作的意愿,保存机构无法实际干涉,而且稳定的标准本身也面临升级,不可避免地向新的版本转化。
(3)向下兼容。向下兼容是指最新的软件能够读取前期用旧版本软件保存的数字资源。向下兼容策略可以延缓软件过期的时间,但是并不是所有的供应商都支持向下兼容,这种策略只能用于中短期保存,软件的兼容与否,取决于供应商及市场,而且任何一种软件,也不可能指望其能无限期的持续兼容下去。
(4)转化为稳定的模拟格式。将有一定价值的数字资源转化为稳定的模拟载体如永久的纸张﹑缩微胶片以及通过电子显微镜的可读镍盘。这种策略仅对某种小类别的数字材料比较合适,不推荐作为实用的中期策略。转化为模拟格式是基于缩微胶片和纸张是永久可用的,似乎可以实现一劳永逸,但是使用这种策略不啻于一种倒退,原始数字材料的功能丧失怠尽,数字技术的优势如使用的便利﹑空间的高利用率都得不到体现。转化为稳定的模拟格式仅适合不再利用或者不要求数字技术全部功能的特殊类别的数字资源。
(5)数字考古。数字考古是指从原始的字节流中恢复数字资源的原貌,并保证数字资源的可读性和可用性。[7]它本身算不上是完全意义上的保存策略,只是当有价值的资源不可读取且没有相应的保存策略的时候采取的一种措施。目前,有越来越多的专业科技公司提供数字考古的服务,从技术上可以实现恢复由于媒体过时而损坏的信息。但是这种技术往往成本过高且风险大,保存机构很少采用。
(6)封装。在对数字资源进行包装过程中,将该数字资源所需的运行环境(包括硬件和软件),如动态链接库等一起打包,从而实现在其他环境下运行该程序包。封装技术能确保所有必要的信息都保持一个整体,使后期的使用者能准确的知道哪些因素是读取需要的。然而通过复制会产生大量文件,使得封装包变得很大,而且封装软件也会出现技术过时的情况。
(7)永久标识符。当数字对象的位置改变,对其进行定位的一种方式,如统一资源名称(URN’s)﹑数字对象标识(DOI’s);永久统一资源定位(PURLs)等。采用这种方式可以实现当资源位置改变时对资源进行存取,但是没有一个被所有系统接受的永久标识符方式方法,更为关键的是,标识符的有效,取决于一个持续更新﹑永远得到有效维护的标识符系统。
4 启示
4.1论述详细,具有较强的可操作性
《数字资源保存管理手册》主要关注管理策略应用过程中可能会遇到的一系列问题。相对于其他数字资源保存指南,《数字资源保存管理手册》对各种情况的阐述更为细致具体,这对于完全没有数字资源长期保存与长效利用的概念及经验的人和组织,会有很大帮助。手册对每一种保存策略都进行优势和劣势的比较,让实际操作者都更能直观的操作和借鉴。对于媒体的保存环境,指南也给出了范围明确的温湿度。
4.2阐述技术的同时,强调操作人员的素质
数字资源的长期保存过程涉及高科技技术的同时,更需要日常的认真严格的维护。手册中多次提到对操作人员的职责要求和进行操作流程的培训,对于操作人员,不仅要求其具备较高的技术水平,同时还要求具有高度的责任心,认真仔细的工作态度。对于过程要求较严格的程序,工作人员稍有不慎就有可能造成前期的努力毁于一旦。
4.3强调多种保存策略的配合
从主要保存策略可以看出,数字资源长期保存策略往往不局限于采用一种策略,而是多种策略的配合才能实现某一资源长期保存。不光长期的主要保存策略如此,临时性的次要保存策略也是与其它的次要保存策略一起执行。两种或两种以上的保存策略互相配合往往能起到互为补充的效果。
4.4保存策略有限,没有及时更新
从上文可知,手册论述的保存策略有很多种。但是,随着技术的变迁﹑平台的更迭,新的保存技术会不断涌现,手册不可能囊括所有的保存策略。如更新(每隔几年就将信息转移到新的存储介质上,防止存储介质的不可用,保证数据内容的存在性)﹑虚拟(通过软件模拟的具有完整硬件系统功能的﹑运行在一个完全隔离环境中的完整计算机系统)一种利用率较高的数字资源保存策略﹑再现(re-enactment)(通过技术的运用实现一定层次的过程再现)[8]等,在手册中都没有被提及,无遗是件憾事。因此对于广大参考人员而言,这个手册也不是万能,需要操作者根据具体情况进行取舍。
[参考文献]
[1]数字保存领域相关标准指南[EB/OL].[2014-08-01].http://www.nlc.gov.cn/newtsgj/gtqk/tyck/2009nzml/103/szbc/201012/t20101201_23396.htm.
[2]灾难恢复[EB/OL].[2014-08-01].http://baike.baidu.com/view/1871239.htm?fr=aladdin.
[3]Preservation Managementof Digital Materials:The Handbook[EB/OL].[2014-08-01].http://www.dpconline.org/graphics/handbook/.
[4]洪娜.数字迁移的技术可行性分析[J].现代情报,2007(9):37-39.
[5]董晓莉.图书馆数字资源长期保存迁移技术分析[J].图书馆杂志,2012(7):63-69.
[6]肖英.仿真——数字信息长期存取理论与实践[J].档案管理,2002(3):19-20.
[7]孟广均,等.国外图书馆学情报学最新理论与实践研究[M].北京:科学出版社,2009:268.
[8]Preserving Virtual Worlds Final Report[EB/OL].[2014-08-18].https://www.ideals.illinois.edu/handle/2142/170 97.
Analysis on the Preservation Strategy in Digital Preservation Handbook
Cai Shun
Abstract:Digital Preservation Handbook, compiled by British DPC (Digital Preservation Coalition), is an important and highly referred handbook for preservation and reading of digital materials. The third part of the handbook introduces the preservation strategy in details and illustrates corresponding operation guidance from the aspects of media maintenance and contents preservation. Meanwhile, it introduces media disaster recovery planning, environmental conditions, audit and security,primary strategy and secondary strategy.
Keywords:Preservation of Digital Materials; Media; Strategy; Migration; Emulation
[收稿日期]2015-03-21[责任编辑]王岗
[作者简介]蔡舜(1979-),女,副研究馆员,研究方向:数字资源保存。
中图分类号:G251.3;G250.73
文献标志码:A
文章编号:1005-8214(2016)01-0091-04