大数据环境下高校数字档案备份技术策略
2022-02-21陈伟斌张庆顺
陈伟斌 张庆顺
随着高校信息化校园和智慧校园建设的不断推进,高校教学、科研、财务、基建以及公文管理系统中的数据飞速增长。同时,高校档案馆根据“存量档案数字化,增量档案电子化”的工作要求,将各类系统的业务数据纳入学校归档范围,加强对业务系统数据的集中管理,出现了高校数字档案数据量急剧增加[1]。但是,数字档案存在不稳定、易更改和设备依赖性等特点,高校数字档案在面临自然灾害、硬件组件故障或老化、管理不善、软件不兼容等不确定因素威胁的情况下,容易出现数据损坏、丢失或者无法读取等问题。尤其是在“单套制”管理背景下,如果没有妥善的应对措施,会造成无法估量的损失。因此,高校档案馆亟须选择合理的存储备份技术,对高校数字档案进行有效存储和备份。
一、大数据环境下高校数字档案备份的重要意义
大数据时代的一个显著特征就是数据量大,大数据环境下高校数字档案数据量巨大,而且格式类型多样,给高校数字档案安全存储增加了许多风险。高校数字档案备份是指为了防止自然或人为因素出现系统故障,导致高校档案数据的丢失,而事先将全部或部分档案数据,从应用主机的存储介质上复制到其它存储介质的过程[2]。高校数字档案数据出现问题时,利用备份数据可以恢复损坏或被删除、篡改的高校数字档案资源,保障高校数字档案的完整和安全。
第一,可以保障高校档案源头数据安全。高校数字档案数据通常存储于高校档案馆的主机或者学校服务器中,由于主机在运行高校数字档案数据时,容易暴露其存放路径或者IP地址,从而遭到黑客的人为攻击或者破坏。此外,随着高校数字档案数据的增加,主机系统或者服务器容易出现容量不足的问题,随着运行时间的增长,不仅会使主机系统更容易老化,也会增加系统崩溃的风险。高校数字档案备份主要是在其他位置、其他介质上保存高校数字档案数据,这些介质与高校档案馆主机或者服务器既存在空间位置上的物理隔离,也存在网络隔离。因此,对高校数字档案进行数据备份,可以更好地保障高校数字档案源头数据的安全和完整。
第二,可以实现高校档案数据的灾难恢复。由于许多自然或人为灾害是无法预见甚至无法防范的,这些形式的灾害一旦发生,极有可能对档案资料或数据造成毁灭性的打击,从而直接影响高校档案馆对高校档案数据的正常管理与服务工作。对高校数字档案数据进行备份后,一旦高校档案馆的正常工作因自然或人为灾害无法继续,备份数据可以及时启用,对丢失或损坏数据进行数据灾难恢复和全面更新,确保高校数字档案数据在较短时间内恢复,保障高校档案馆正常的管理与服务工作。
第三,可以促进高校数字档案的安全共享。高校数字档案共享需要最大限度、最多渠道和最便捷地提供高校数字档案给教职员工、学生和各界人士共享利用。数字档案的共享利用,尤其是在网络开放环境下开展的共享利用,会给高校数字档案数据带来更多的安全隐患。对高校数字档案进行有效的备份,可以更好地应对高校数字档案共享过程中可能出现的人为破坏、系统崩溃问题,也可以及时恢复损坏或被篡改的高校数字档案数据,妥善应对数字档案共享中可能出现的高校档案数据安全隐患,从而促进高校数字档案的全方位和多途径共享。
二、传统高校数字档案备份存在的问题
大数据环境下高校数字档案安全面临更大的挑战,虽然高校档案馆都在不同程度上开展了数字档案数据的存储和备份工作,目前主要采用的备份方式是异地备份和异质备份,这样可以起到保护高校数字档案资源的作用,但还存在着一些尚待解决的问题。
第一,备份时间整体偏长。传统高校数字档案资源的备份方式多为离线备份,这种备份方式要求在备份时档案部门不能进行相关的档案管理工作,数据库中的文件数目的变化有可能影响到备份工作的顺利进行。同时,在大数据环境下,档案部门需要处理大量的文件,离线备份就需要花费更长的时间,难以实现对相关文件的及时保护。
第二,存储介质存在固有的缺陷。首先,大部分的存储介质扩展性较差,而且使用寿命会因自身材质老化、存储环境不适宜等因素而缩短,导致了备份介质不断更新,備份成本比较高,无论是介质本身还是读取介质的设备,甚至是存放介质的保存环境,都需要额外的资金投入。
第三,存储格式的可读性难以持续。高校数字档案存储时采用的格式多种多样,而且随着新兴技术的发展,许多存储格式或者运行环境都在不断更新,造成很多旧的存储格式难以被新设备读取,甚至由于读取或识别旧格式文件的设备、软件以及运行环境的升级,造成存储时间较久的档案数据文件无法读取或者没有设备可以读取。
第四,备份数据恢复过程较慢。高校数字档案数据备份恢复时,需要较长的时间。主要是由于:在进行备份时,若采用多次的完全备份,会造成存储备份数据库中存在大量的冗余数据,庞大的数据量会影响数据恢复的速度;当遇到灾难性破坏时,数据恢复并非单纯的恢复高校数字档案数据,还要对相应的操作系统、软件进行恢复,这些工具的配置过程也会影响数据恢复的进程和速度。
三、大数据环境下高校数字档案备份技术与策略
在复杂的大数据网络环境下,需要建立科学合理、可行高效的数字档案资源的备份方案。其中,备份策略和备份技术是备份方案的核心,它决定了高校数字档案数据以何种形式进行备份,才能产生良好的备份效果。
(一)增量方式的实时备份技术
增量方式的实时备份技术,主要通过文件监控机制,实现对高校数字档案数据库中的文件目录或文件的实时监控,当数据库中出现新增的数字档案文件时,这种文件监控机制会发生响应,并调用目前比较流行的用于数据增量备份的算法——Rsync算法,通过这种算法可以精准的识别出数字档案数据库中新增的数字档案文件,从而达到增量备份数字档案的目的[3]。
Rsync算法通过强和弱两种校验码,确定文件的唯一性,具体的实现形式如下:首先,在文件监控机制的调动下,由存储高校数字档案备份数据的服务器发出备份请求,对数据库中存储的所有文件数据,按固定大小进行分块划分,并计算每一个划分好的数据块的弱校验码和强校验码(弱校验码的计算速度快但存在误差,强校验码的计算慢但可靠性强),全部完成后将每个数据块的校验码以成对的形式,发送给存储有源数据的服务器。存储有源数据的服务器接收到成对的强、弱校验码序列后,对其构建哈希表以便于查找、匹配;同时,对高校数字档案的源数据,按照同样的固定大小进行分块和计算强、弱校验码,然后利用校验码验证是否有相同的数据块存在,从而筛选出备份数据库中不存在的数据块,将其传输给备份服务器,备份服务器根据传输来的数据块及其相关信息,将其重构为高校数字档案文件。
高校数字档案采用增量方式的实时备份技术,无需将源数据库中的高校数字档案文件完全传输给备份的数据库,只需要传输新增的高校数字档案文件,这样可以有效弥补离线备份方式在突发情况下不能及时对处理好的数据进行备份的缺陷,而且实时备份形式可以节省每隔一段时期进行备份时所需要花费的时间,达到更加快速备份的目的。
(二)基于快照的数据备份技术
快照是指一个对某个给定的数据集合完全有效的可用拷贝,这个拷贝的内容主要是该数据集合的相应数据在某个时间点——通常是指拷贝开始的时间的映像[4]。快照技术整体上可以分为两大类,一种是镜像快照技术,可以对某特定时刻的高校数字档案数据进行完整的复制;另一种是连续数据保护快照,可以跟踪目标数据库的任何操作,从而实现数据的实时快照备份。由于高校数字档案是一种对实时性要求不太高的数据,而且连续性的快照进行数据恢复时需要的时间较长,相比较之下,镜像快照更适用于高校数字档案数据的备份。镜像快照技术生成的快照数据占用的存储空间较小,而且其生成的区块型快照会对备份数据进行整理和建立索引,可以提高数据的存储效率和检索效率,从而可以实现档案数据的高效备份和快速恢复。但是,高校數字档案数据进行镜像快照备份,应当在档案管理人员对高校数字档案文件执行完一系列的管理操作,进行最后的保存时生成快照,并将其临时存储到备份缓存中,等到存储服务器和备份服务器的链接同步,再将高校数字档案的快照文件通过备份服务器上传到存储备份数据的空间中。
在数据恢复方面,镜像快照技术的数据恢复是基于完整镜像与多个增量镜像来实现,镜像的检索时间从很大程度上决定了数据的恢复时间,高效的快照索引,可以降低镜像查询的复杂程度、缩短数据恢复时间。快照是按照时间顺序存储的,同时提供索引信息,在进行恢复时可以根据索引信息访问快照区块,并按照顺序读取,可以极大提高数据恢复的效率。同时,由于数据镜像快照是只读不可写的,如果要对备份数据进行读取之外的操作,可以应用专门针对快照进行恢复的数据卷克隆技术,快照克隆出一份与其对应的数据集数据内容相同的、既可读又可写的数据卷,从而达到恢复数据并使数据可用的目的[5]。
(三)基于IPSAN的数据备份技术
SAN是指存储区域网络,其主流形式是基于光纤搭建的,而IPSAN则是基于IP的存储区域网络,它通过IP网络实现存储系统和服务器之间的相互连接,无需其他硬件设备,这里的存储设备通常由磁盘阵列构成,而且一般存储于远离档案工作部门的区域。IP网络主要有两种形式,各有优劣,专用IP网络方式不占用传统IP网络带宽,但成本高;共享IP网络方式成本低但会占用带宽[6]。IPSAN使用网络协议进行数据传输,当需要传输的数据量较大时,网络的带宽会影响到数据的传输速度。所以,在建设相应的IPSAN时,档案部门可以根据自身需要选择相应的IP网络形式。
利用IPSAN实现高校数字档案的备份,就是利用存储设备给存储高校数字档案的服务器和备用服务器各自划分一个专用的、独立的备份空间,而待备份的高校数字档案则通过档案部门所用的数据库、应用系统所附带的备份功能或备份脚本,存储到相应的备份空间内,该备份空间可以直接实现数据的恢复。当目前使用的服务器受到网络攻击、外力破坏或因自身故障导致无法支持档案管理和利用工作时,可将存储有备份高校数字档案数据的备份空间,分配给状态良好的备用服务器,在该服务器上读取备份的档案数据,从而快速实现档案管理和服务等工作的异机或异地恢复。这种恢复方式可以使档案部门在遭遇破坏性灾难时,继续开展高校数字档案共享服务。IPSAN相较于基于光纤的搭建形式,节省了布置硬件设施所需的成本,同时也解决了光纤等硬件设备在传输距离方面的限制,而且互联网协议技术在后续的整理和维护方面也更具有优势。虽然IPSAN在数据传输过程中的风险较高,但结合数字加密、数字签名等相应的数据安全技术,可以保证高校数字档案数据在备份过程中的安全。