档案备份的方法和策略
2012-03-12蒋建峰张家港市档案局江苏张家港215600
蒋建峰(张家港市档案局,江苏张家港,215600)
近年来,全国各地数字档案室、数字档案馆建设如火如荼,档案信息化、数字化水平得到很大的提高。在经济相对发达地区,档案部门基本都建设了自己的档案数据库和资料库,这在平时的档案利用中,极大地提高了档案资料的查准率和查全率,给人们工作和生活带来极大的便利。但是,档案数据库一旦因各种原因损坏或丢失,也会给我们工作和生活带来不可估量的损失。档案备份是指为防止系统出现操作失误或系统故障导致档案数据丢失,而将全部或部分档案数据从应用主机的存储介质复制到其它的存储介质的过程。做好档案备份工作不是一项可有可无的工作,需要我们严格按照规程,不折不扣地完成。
一、档案备份方法
1.按照备份系统的准备程度,备份一般分为:冷备份、温备份和热备份。
(1)冷备份是指在备份系统里,没有安装或配置与现在所使用的系统相同或类似的系统运行环境,对应所使用的系统数据不能及时装入备份系统。一旦发生灾难,需要用户自己安装或配置所需要的运行环境,用备份设备(磁带、磁盘或光盘)恢复应用数据,手工逐笔或运用程序自动批量追补、修改对应数据,再将终端用户通过通讯线路切换到备份系统上运行,以恢复正常业务。冷备份的优点是设备投资较少,节省通信费用,通信环境要求不高,可以非常快速地备份,只需将文件再拷贝回去,即可容易地恢复到某个时间点上。缺点是有时恢复时间较长,单独使用时,只能提供到“某一时间点上”的恢复,数据完整性与一致性较差。
(2) 温备份是指备份系统事先已安装配置成与当前使用的系统相同或相似的系统和网络运行环境,配置使用了应用系统业务定期的备份数据。一旦发生灾难,直接使用定期备份数据,通过人工逐笔或运用程序自动批量追补、修改对应数据,再将终端用户通过通讯线路切换到备份系统,恢复相关业务正常运行。优点是设备投资较少,通信环境要求不高。缺点是恢复时间长,一般要几个小时至数天,数据完整性与一致性较差。
(3)热备份是指备份系统处于联机状态,当前应用系统通过高速通信线路将数据实时传送到备份系统,保持备份系统与当前所应用系统数据的实时同步;也可定时在备份系统上恢复应用系统的数据。一旦发生灾难,不用追补或只需追补很少的孤立数据,备份系统可快速接替生产系统运行,恢复运转。优点是恢复时间短,一般几十分钟到数小时,数据完整性与一致性最好,数据丢失可能性最小。缺点是设备投资大,通信费用高,通信环境要求高,平时运行管理较复杂。
2.按备份类型来分,主要有三种类型的备份方法:全备份、增量备份和差异备份。
(1)全备份
全备份是指对某一个时间点上的所有数据或应用进行的一个完全拷贝,实际应用中就是用备份设备对整个系统进行完全备份,包括其中的系统和所有数据。恢复所有系统数据时仅需要具备最新的备份数据副本。优点是易于查找文件,因为文件都位于当前备份媒体上,文件恢复只需要一种媒体或一组媒体,操作简单,便于管理。缺点是由于每次需要备份的数据量相当大,备份所需时间较长,如果数据不频繁改动,各个全备份媒体中的备份数据存在大量的重复信息,而花费的时间可能主要集中在未改变的数据上。全备份通常在首次创建备份时或数据长期不变的情况下进行。
(2)增量备份(又称差异增量备份)
增量备份仅备份上次备份(无论哪种备份,含增量备份)以来所有发生变化的数据,每次增量备份的数据都不同,恢复所有数据时必须具备最新的全备份和所有增量的备份数据。举例而言,如果周一执行了完全备份,周二的增量备份工作就是备份周一完全备份以后发生变化的文件。但是,周三的增量备份就是只备份周二增量备份以后发生变化的文件。增量备份的优点是需要存储的数据最少,备份速度最快。缺点是完全恢复系统需要的时间比全备份或差异备份长。
(3)差异备份(又称累积增量备份)
差异备份仅备份那些自上次全备份以来所有发生变化的文件,因此连续两次差异备份中可能会有重复文件,是增量备份的特例,恢复所有数据时仅仅需要最新的全备份的文件和最后一次差异备份的文件,可针对于文件经常发生变化的情况。举例而言,如果周一执行了完全备份,周二的差异备份工作就是备份周一完全备份以后发生变化的文件。周三的差异备份则是备份周一完全备份以后发生变化的文件,其中包括在周二发生变化的文件。差异备份的优点是恢复时仅需要最新全备份的媒体和差异备份的媒体,备份速度比全备份快。缺点是完全恢复系统需要的时间比全备份长。如果大量数据发生变化,备份所需的时间长于增量备份的时间。
3.常用备份模型
(1)周循环。循环周期开始于一个完全备份操作,在随后的每天进行增量备份。这样包含备份数据的磁带或设备相对较少,恢复相对简单。优点是便于理解使用,完全备份可以选择在周五晚上,如果需要可以延长至周末,当有特殊情况发生时(如假日、周末等)也容易进行调整。缺点是如果站点在循环的第六天发生灾难,恢复时间较长,而且如果这六天有磁带或设备发生错误,将可能丢失这六天所有数据。
(2)日循环。每天都使用不同的磁带进行完全备份。优点是减少灾难性的数据丢失,恢复简单快速。缺点是备份窗口过长,需要更多的管理时间,一般很少采用。
(3)月循环。每个月的开始或结束做一次完全备份,在这个月的其余时间里每天做增量备份或差量备份。采用月循环时,完全备份后的每天做差异备份,这样做数据恢复时,仅需要两个备份媒体,即每月的完全备份媒体和最后的每天的差异备份媒体。
(4)GFS循环。GFS(grandfather,father,son)循环是上述三种循环模型的组合。每个月的开始或最后一个周末进行完全备份,完全备份写入每月的备份媒体。每月中各个周末执行完全备份,完全备份写入每周的媒体。每周中各天执行增量或差异备份,写入每天的磁带或备份设备。每周的备份设备可以用一个月,每月的备份设备可以用任意时间,这样可以相对较快地恢复到任意一天,它很容易适合于各种不同的数据保护需求。
二、数字档案资源容灾备份策略
档案部门通常都很重视对本地的数据进行备份,而忽略了异地灾难备份,但灾难发生时,有时候本地的备份起不到任何灾备作用,一个真正的容灾系统必然要进行异地灾难备份。
从国际容灾标准SHARE 78来看,共分七个层次,Tier 0是数据没有异地备份,所有数据的恢复仅仅依靠本地的备份;Tier 1是数据有了异地备份;Tier 2应用系统有了备份;Tier 3则是可以通过网络进行备份;Tier 4则有了灾备中心,并且通过备份软件将本地关键数据通过网络定时备份到异地灾备中心;Tier 5增加了硬件的镜像技术和软件的数据复制技术,将本地灾备中心的数据同步备份到异地灾备中心,在灾难来临时,只有正在传输的部分数据会丢失;Tier 6数据是同时写到本地和异地,并且通讯线路采用专网,实现了数据零丢失;Tier 7则在Tier 6的基础上实现了本地灾备中心和异地灾备中心自动切换。
可以看出,0-2级的容灾策略是不能采用的,如果档案的容灾策略能做到Tier7级,毫无疑问是最理想的,但由于需要投入的资金巨大,且从长期维护的角度看,档案馆很难有资金支持,从档案馆工作的实际看,其实也并不需要做到系统的自动切换和数据零丢失,所以说最理想的容灾解决方案并不一定是最实际的容灾方案,因此需要综合考虑。从目前来看,档案部门不可能投入一大笔资金建立一个最理想的容灾解决方案,我们必须考虑一个比较实际的方案,使得投入和应用达到平衡。因此可考虑建立4-5级的容灾方案,就是通过网络将系统和数据备份到异地的容灾中心,同时将灾备系统的数据定时更新,基本和主系统保持一致,并制定相应的容灾应急预案。
我们必须根据档案馆的规模、所处地域、网络状况、数据量等因素,因地制宜地采取不同容灾策略以免造成不必要的成本消耗。下面从四个方面对异地容灾备份策略进行分析。
1.灾备对象的选择策略
从其对档案应用系统的保护程度来分,可以将容灾系统分为:数据容灾和应用容灾。数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。其采用的主要技术是数据备份和数据复制技术。应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地档案应用系统相当的备份应用系统(可以是互为备份),在灾难情况下,远程系统可迅速接管业务运行。数据容灾是抗御灾难的保障,而应用容灾则是容灾系统建设的目标。
两者比较如表1。
对于现况来说,档案部门并无应用灾备的需求,同时业务也并不需要实时提供服务。但灾难发生时可能会对一些无法预知的数据产生要求,因此可考虑应用灾备和数据灾备相结合的方式进行。建议可以在灾备之初进行数据灾备,待条件成熟后,有条件的档案馆可将数据灾备过渡到应用灾备。
表1 应用灾备和数据灾备比较
2.灾备技术
可采取基于智能磁盘阵列或虚拟磁带库复制的灾备技术。通常档案数据占用空间较大,需要备份的数据大多在TB级,目前最常用的存储介质是磁盘阵列和虚拟磁带库。磁盘阵列有两个或更多的磁盘驱动器及阵列管理硬件或软件组成,但对计算机而言是一个独立的单元,且采用了RAID保护技术,本身就具有一定的安全系数。存储容量大,方便管理,存取速度快,同时可在线维护是它的优点。虚拟磁带库,是近年来兴起的众多磁盘备份解决方案中,最受瞩目的一项,它本质上是磁盘阵列硬件设备,但是在软件功能上模拟磁带备份的形式,因此对于存储管理员来讲,它就是一个磁带库,对它的管理如同管理一个物理磁带库一模一样。虚拟磁带库采用基于RAID保护的磁盘阵列,从而将备份的可靠性较常规磁带备份提高了若干量级,虚拟磁带库不仅解决了传统磁带库维护负担重、备份失效率高以及备份恢复能力不佳的问题,而且也改变了磁盘备份容易被误删除或被病毒感染,以及不便于在SAN环境中统一管理和优化使用的劣势。因此不论在本地还是异地容灾中心,都建议采用磁盘阵列或虚拟磁带库进行日常存储、备份,而用磁带作为后备的离线脱机备份介质。
3.互为异地备份的权利与义务
由于全国各地档案馆条件各异,需备份的数据量也不同,且应用系统也存在差异,因此对软硬件的要求、系统的维护、数据的检查等方面要求不同,因此在进行互为异地备份时存在差异,对灾备的投入可能会有很大的差别,所以必须事先达成互为异地备份的协议,明确相关的权利与义务关系。一般来说,硬件系统交由所在地档案馆加以管理,而日常维护、数据检查等可由双方工作人员共同承担。
4.传送方法
在档案部门可用资金普遍不足的现况下,必须建立一套实用、可靠的数据传送的办法。可以考虑以下方式实现数据传送:
(1)首次可以采用交通工具将备份系统、数据和备份硬件设备运送到对方档案馆,建立起灾备系统。
(2)在增量备份数据量较大时,也可采用交通工具运送到对方馆,由本馆工作人员将数据恢复到托管的设备上。
(3)对于增量备份的档案数据较少,可以定期利用网络传送增量数据。条件较好的档案馆可以利用现代网络传送技术,如远程镜像技术、快照技术、互连技术等方式实现实时传送,以达到更理想的容灾效果。
5.数据恢复利用的方法
万一档案馆所在地发生毁灭性灾难(火灾、地震)情况,档案馆数据系统陷入瘫痪而无法工作时,可在通讯系统恢复的前提下,根据应急预案启用灾备系统,使系统迅速切换到异地备份数据中心,异地备份数据中心立即接管关键应用,继续运行,可正常进行远端数据搜索与获取,并将急需的数据从异地恢复到本地用于救灾,在本地档案数据系统恢复后,档案数据应用系统可以迅速切换回本地运行。
档案数据是档案工作者辛勤劳动的成果,是政府工作开展和群众利益维护的基础,我们必须切实行动起来,做好档案数据的备份工作,保护档案数据安全、可靠。
[1]杨义先,姚文斌,陈钊.信息系统灾备技术综论[J].北京邮电大学学报,2010,33(2):1-3。
[2]中国灾备网.容灾备份标准之二:国际Share78标准http://www.rongzai.com.cn/biaozhun/guifan/362.htm l。
[3]康潇文,杨英杰,王保云.面向容灾的强安全性虚拟文件系统[J].计算机工程,2009,35(7):161-163。