浅析数字时代下档案管理数据迁移模式的规范化
2020-04-07刘倩
刘 倩
(安徽科技学院党委(校长)办公室 安徽滁州 233000)
数字档案数量呈急剧增长态势,如何鉴定,管理和存储这些海量的档案数据是档案学界的热点问题。数字档案馆作为新型的档案仓库和窗口,既具备传统档案馆的功能和性质,也承担着在信息时代更大程度的发挥档案价值的重任。然而,数字档案因自身的脆弱性,与载体的不可分离性等特点,保存期限较短,其长期安全保存较传统纸质档案更加困难。数据迁移是数字档案保存利用过程中常用的技术手段,是实现档案在分级存储设备中合理、高效调度的重要组成部分[1]。数字的档案馆存储压力随着数据量的爆炸性增长越来越大,数据迁移技术的应用能帮助实现存储资源合理、经济、高效的分配,数据迁移在数字档案的长期保存和方便利用中有不可忽视的作用。基于此,探究数字时代下档案管理数据迁移模式的规范化具有重要价值。
一、数字档案及数据迁移概述
(一)数字档案及数字档案馆。数字档案是在计算机环境中生成的,具有保存和利用价值,并按照电子文件管理规定正式归档的电子文件。电子文件类型非常丰富,远超传统观念中的档案。正如传统档案的主体是纸质文件一般,数字档案的主体是文本文件。随着信息技术的发展,更加生动、直观和形象的图像、音频、视频和多媒体文件也成为“社会记忆”必不可少的一部分。常见的电子文件包括文本文件,影像文件,声音文件,多媒体文件,数据库文件,超文本文件等等,其中部分文件可以打印出来,但有些文件只有在计算机环境中才有意义。电子文件不但类型丰富,同类型文件的格式也极具多样化,譬如文本文件常用的有wps,doc,pdf等格式,图像文件的常用格式有bmp,tiff,gif 等,影像文件的常用格式为avi,wma等常用格式,声音文件也有mp3,mid,wav等格式。如此纷繁的文件格式,使得文件管理者在面对海量的信息的同时,还要选择转化合适的文件格式。这不仅是数字档案管理的一大威胁,也是数据迁移时要考虑的重要因素。
目前,数字档案大多保存在数字档案馆中。通常来说数字档案馆至少会拥有档案目录数据库和全文数据库两个大型数据库。目录数据库存储的不是档案原文,而是在著录和标引的过程中产生的二次文献。它有助于检索功能的开发,并具有一定的学术研究价值。全文数据库存储的是所有数字档案的主体,包括传统档案资料数字化后形成的数字档案,以及直接移交进馆的档案数据。数字档案馆中几乎全部的数字档案都集中存储在这两个信息数据库中。信息爆炸的今天,数字档案的数量以极高的速度增长,数字档案馆的存储容量也随之不断增加。现在中国第一历史档案馆和第二历史档案馆的存储数量早已达到上千TB,即便是中小型的档案馆,其数据存储容量也已经突破了TB级[2]。如何降低数字档案的存储成本和管理难度,以及后续对数字档案资源进行针对性的开发和利用是数字档案馆亟需解决的问题。数据迁移是数字档案馆海量信息资源的来源手段之一,也是数字档案馆合理分配存储资源的重要方式。由此可见,档案管理中数据迁移的规范化发展尤为重要。
(二)档案管理内数据迁移。自然界中,迁移是由原来的地点前往新的地点的行为和活动过程。传统的档案迁移比较符合这种定义,迁移的方式相对单一,本质上是档案实体物理位置的变化。档案数字化也是数据迁移的一种,从实体档案到电子文件,档案的内容发生了复制和迁移,但数据迁移的重要性、多样性和复杂性更多的还是体现在计算机环境中的电子文件上。电子文件的迁移是指将源系统中的电子文件向目标系统进行转移存储的方法与过程。随着档案管理现代化的步伐,档案管理系统本身面临着不断的升级,同时不同全宗、不同系统保存的文件的集中化存储也是必然趋势。这个过程可能是软件的更新,系统的升级,或者硬件的转变,是一个从原来的计算机环境向目标环境转移的过程。利用数据迁移可以实现数字档案的备份、利用、共享,从而达到长期保存和发挥档案价值的目的。由于数字档案的非人工识读性,与载体不可分离性等自身特性,对迁移的技术和安全水平有较高的标准[3]。
二、档案管理数据迁移规范化探析
(一)数据迁移执行力度规范化。我国电子文件和数字档案的管理缺乏全盘的战略安排,在规范和标准滞后时又难以通过战略指明方向,发布的标准主要集中在格式,术语,归档等方面,对数据迁移并没有细致、深入的规定[4]。目前,我国的文件是分阶段保存的,文件生产者和档案管理者相互独立,互不干涉。因此同类型的文件,生成者可以有多种可以选择的格式,在归档时通常就要反复的压缩和解压缩将文件从原本的格式转换为规范的格式。有时由于文件体积过大,为了节约存储空间,在保管时进行必要的压缩,利用时则需要解压缩,后果是数字档案的格式、结构甚至内容有可能会在高频率的格式转换中受损。虽然文本文件可能没有直观的体现,但是经过转换的数字档案的真实性、完整性和可靠性都无法保证。对于音频、视频档案,信息的损失很容易造成画质、音质的下降。即使采用统一的格式也不能做到一劳永逸,如果选择了专有格式,可能面临技术陈旧,兼容性差,安全版权等方面的问题,甚至还会因为公司的消亡导致文件的不可解读从而丢失[3]。除此之外,技术过时,后继无力。比如根据十几年前发表的规范,很多现已淘汰的载体、格式还列在其中,现在主流的最新的技术却没有纳入规范。在实践中,各级各地区档案部门各自做主,既存在选择的档案格式不一的情况,也可能选择的格式不适合归档。如现在很多的文本文件以doc格式归档保存,但规范标准下推荐的归档格式其实是pdf格式。这对将来数字档案规范化迁移时的实际执行情况造成了障碍。
(二)数据迁移环节步骤规范化。与传统档案不同的是,数字档案必须依托兼容的系统环境中才可以正常使用。所以软件环境,系统环境的改变都可能影响数字档案的状态。系统的升级包括档案管理系统的升级,软件系统的更新升级、操作系统平台的升级等许多方面[5]。相对来说档案管理系统升级的周期较短,风险更大。操作系统更新发生的频率低,环境相对稳定,对档案的影响较小。系统升级时,档案数据迁移一般有三种方法:首先,系统切换前通过工具迁移。即在系统切换前利用工具将源系统中的档案数据提取,转换,然后加载到新的目标系统中。因为其方便快捷,是数据迁移最常用的方法。其次,系统切换前手工录入。手工录入一方面会消耗大量的人力、物力和时间成本,另一方面人工操作较高的出错率导致迁移过程的数据损失。最后,切换后由新系统生成。这种方法需要提前迁移所需的数据到新系统中,通过系统自带的功能和程序生成主要的档案数据。每次档案管理系统的升级,要对迁移数据进行大量格式上或存储位置上的迁移,在此过程中面临极大的成本上的风险和档案完整性、可读性的风险。目前,针对系统升级可能带来的风险,仅规范化了测试及备份步骤,对于数据迁移的具体环节步骤规范化较为模糊。
(三)数据迁移存储载体。数字档案不仅格式让人眼花缭乱,存储载体也一直更新换代,多种多样,从最初的软盘到如今常见的u盘,光盘,磁盘以及综合的磁盘阵列等等,功能各有千秋。但受使用寿命和技术寿命限制,档案管理者不得不采取数据迁移的方式来实现数据的长期保存。在迁移过程中,如果载体遇到风险,信息的安全性必然受到影响,所以必须慎重选择合适的迁移载体。
表1 常见迁移载体性能
通过分析表格中几种常用的迁移载体,就存储容量而言,硬盘拔得头筹,从保存期限和安全性的角度考虑,光盘、磁带特别是缩微胶片都远胜于它。一般磁带、光盘比较适合作为需要长期保存的,相对重要的档案迁移和备份载体。目前光盘是相对主流的档案存储载体,但磁带也有不可取代的优点,随着技术的更新发展,重回市场也未可知。硬盘虽然具有数据量大,存取速度快等优点,但使用寿命较短,随时可能失真,而且开放的修改权限不能保证文件的安全性,真实性和可靠性,适合作为大容量的档案暂存设备。缩微胶片是缩微版的档案原件,适合作为珍贵档案的备份,替代原件使用,起到保护和利用的作用。此外,云计算背后的云存储开始走入人们的视线并得到了广泛的运用。云存储作为新的存储手段,有明显的优势和劣势。优势在于其海量的存储空间,高效的存取效率,数据的高度共享性。但其劣势也不容忽视,如果云存储平台的保密性,稳定性,规范性不能得到保障,数字档案的云存储模式还任重道远,但也是未来可能的方向,值得长期关注[6]。综上,在数据迁移过程中,格式的转换,系统的升级和载体的选择都存在风险。为了保证档案信息的安全,完整和利用,在制定迁移策略时需根据存储系统规范化选择存储载体,分级存储系统及存储模式。
三、档案管理数据迁移的规范化路径
(一)规范数据迁移前提条件。首先,选择档案迁移的基本单位。在数字档案迁移过程中,实际对象是全文数据库中的电子文件[7]。如果每次迁移以文件为单位,容量太小,增加系统的负担。如果容量过大,迁移策略也失去了意义,所以确定合适的迁移单位是迁移策略一大要点。由此,结合档案本身的保存方式,和迁移触发的两个条件:访问频率和保存时间来确定基本单位。当访问频率高低的变化触发迁移时,档案全宗可以作为数据迁移的基本单位的,而时间上的定期迁移一般以年度文件夹为基本单位。其次,保证目标系统有足够的存储空间。一般正常的迁移顺序是由在线存储转变为近线存储甚至离线存储。但次级存储设备上的文件迁移到一级设备上的情况也会发生。因此,必须考虑在线存储的磁盘空间,在能保证随时迁入的新数据的存储空间的前提下,可以将次级存储设备的文件恢复在线存储。如果在线存储空间不足或者超过警告值,决不能从次级存储迁入数据,甚至需要酌情迁出在线文件来保证足够的剩余空间[8]。最后,根据指定的保管期限和访问频率迁移数据下,系统大多数采用定期迁移的方式,好处是以固定的时间做标准,定期执行迁移工作能减少系统的负担;缺点是过于死板,不能够及时根据访问率的变化情况来做调整。因此,增加人为控制数据迁移的前提。在特殊情况下,如预见政策的变化会带来某种档案数据利用率的增加,可以提前直接将相关档案由次级存储迁移至在线存储。
(二)规范数据迁移具体环节。数据迁移工作最主要的是实施阶段,常用方法可分为一次迁移、分次迁移、先录后迁和先迁后补。不同系统间的数据迁移在迁移方法上一般采用一次迁移,分次迁移和先迁后补。该模式下的每一次迁移工作理论上都需要经过制定迁移计划、准备工作、风险分析、实施工作、校验工作等完整的流程。在制定迁移计划时,首先确定迁移对象的数量、种类、和优先顺序。内容重要的优先,载体受损的优先,利用率高的优先。做迁移准备工作时,成立档案迁移小组,确定迁移时间、迁移方法和工具。在进行风险分析时,制定规避措施。对于可能的“内容稳定性风险、安全性风险、完整性风险、参考性风险、成本风险、功能风险、知识产权风险等”,要充分评测,做好应对[9]。在迁移实施工作时,此阶段应该根据制定的方案有序进行。为了保证档案的安全性,首先应该对源档案数据的进行异地备份,直到迁移后的电子档案正常运行一定期限后方可销毁。过程中应登记档案迁移过程表,保存详细的迁移记录,以备以后参考。在进行迁移校验工作时,数据迁移完成后有必要对电子档案内容的完整性、可用性进行校验测试,确保迁移工作质量。
(三)规范分级存储系统模式。面对数字档案爆发性的增长态势,数字档案馆的存储空间、扩容能力甚至资金成本将难以应付高速增长的数字档案数量,届时档案的在线检索利用效率也会随之降低。根据信息生命周期理论,数据归档之后,对档案用户而言是新的数据,会重新开始下一个生命周期循环[9]。在一个完整的周期中,信息的访问频率是变化的,所以数字档案馆可以采用分级存储,即通过分级存储管理软件实现存放在不同级别的存储设备中数据的自动迁移,达到存储设备和访问频率的匹配,在尽可能不影响访问性能的情况下,用更低的成本来存储档案[10]。在实践上这也符合存储的“二八原则”,即存储的档案中只有20%是常常被访问的,80%的档案出于无人问津的状态。
存储设备一般是按磁盘阵列—光盘库—磁带库分布,存储级别与载体相匹配的,根据分级存储的分类要求,不同档案按照利用需求、保密级别、档案价值等要素可以分为三种不同的存储模式,如表2所示。
表2 分级存储的各级载体特点
首先,第一级以在线(On-line)存储为主,采用传输效率高、性能好、价格昂贵的设备来实现存储数据的任意读取,满足使用者对数据访问的速度要求。其次,第二级为近线(Near-line)存储,近线存储设备的价格比在线存储低,相对数据访问速度也慢一些,一般存储的是那些需要定期访问,但对频率和响应速度要求不高的数据。近线存储的数据在总数据量中占很大的比重,所以足够的容量最重要。最后,离线(Off-line)存储,可以类比为实体的文件管理中心,保存备份的或即将销毁的数据,在需要获取离线数据时可以通过数据迁移技术回到在线存储状态。
四、结语
档案是人类在社会活动中真实记录和反映,是宝贵的社会财富,是意义深远的文化遗产,需要得到充分的保存和利用。数字档案是现今其中最夺目的一员,数字档案馆是档案馆的发展方向。数据迁移对档案尤其是数字档案的长期保存和有效利用具有重要作用,需要在模式上、技术上、规范上进行挖掘和提升。档案事业需要在国家的战略布置和规范指导下,在全社会的合作中,用科学管理的思想,不断迎接新的变化,成为重要的文化支柱,促进社会的进步与发展。