大数据时代电子文件备份技术探析
2021-12-28赵晓慧
赵晓慧
当今世界网络、移动设备、通信等各类现代信息技术高度发达,在各行各业中的实际应用中也逐步普及,应该说我们已然进入大数据时代,随之而来的各类数据集合也爆炸式增长和高度复杂化。在此影响下,档案数字信息海量增长成为现实[1],因此档案管理全面实现信息化不仅是一种趋势,还是档案管理事业向信息化发展的一股强而有力的新动力。然而由于信息技术的自身弱点、安全威胁类型多、来源多,档案部门技术局限性等多种因素的影响,这些海量数字档案信息的真实性、完整性、可靠性及长期可读性正面临严重的安全威胁;虚拟化、大数据、云计算等发展趋势使得电子文件备份在模式、技术、产品选择等方面都将面临巨大难题和全新的挑战。
可靠的海量数据备份能力及技术方式是档案信息化管理的基础和保障,是确保档案绝对安全,不断提升档案功能的重要策略,并且能够深刻影响档案信息化发展进程[2]。就目前而言,档案界针对海量数据备份技术方面的研究尚在探索与实践过程中,本文将根据档案信息自身特点及信息技术发展趋势,探析大数据环境下档案信息数据备份技术的发展及应用前景。
一、档案数据云备份
云备份是云计算、大数据等最新信息技术的融合或延伸发展,是超融合存储架构,是通过整合虚拟化、集群应用、网络技术等各项现代信息技术,通过建立云平台将其集合起来协调工作,共同提供数据存储和访问功能的综合系统。
将云备份技术应用在档案数据存储与备份工作中,能够有效解决档案海量数据存储问题,云存储有储存容量大、资源存取方便、成本低等特点,随时随地可存储、可访问,打破了空间、时间、设备的限制,可为档案信息化管理提供稳定、可靠的存储空间,更好地保护数据安全、规避安全风险和提供快捷海量数据查询,并且能够使档案工作者打造高效的服务体系。云存储通过云端可快速部署、自由拓展的特点,便于档案界信息化适应信息技术发展,降低试错成本,同时也便于不同区域档案管理者通过私有云整合优势资源,建立统一备份及利用平台,实现档案信息资源实时共享和提升容灾备份能力。
二、档案数据备份智能化
传统档案数据备份模式重点关注数据的安全性、可恢复性、可用性,在现代信息技术发展趋势下,特别是智能化备份模式的出现,使我们在此基础上对海量数据备份的效率、方便性、自动化、自适应、兼容性、自治管理等方面有了更多期待,也正切合当前人工智能发展理念。智能化备份核心理念是:通过对系统数据资源及设备进行实时分析、监控和数据挖掘,根据数据应用特点结合使用者的行为模式,将备份数据进行动态智能化调整和配置,使备份模式达到最佳的运行状态。
在电子文件备份过程中,我们可以应用智能化存储数据挖掘技术,把档案数据的分类、整合、鉴定、编研等工作结合起来进行知识化管理;并且通过智能化备份的信息资源,在进行信息提取时将变得更为高效和准确,减少人工干预。在智能数据处理平台上也可以分析整理非结构化信息(如各类网络信息),有利于拓展档案信息资源库。
目前,存储智能化在档案及相关行业有所应用,例如档案信息自动存储分级(AST)在各种形式的磁盘存储之间移动数据,数据卷大小自动调整,文件系统自动设置数据块大小,数据自动复制,数据诊断与自动纠错等。但智能化在档案行业整体应用水平目前还很低,巨大容量、高性能、高可用性的存储系统实现和管理仍然非常艰巨和复杂。
三、备份虚拟化技术不断发展
虚拟化备份是将物理服务器中的信息资源进行虚拟化容灾备份的技术系统,它能够对物理服务器中的硬件配置、操作系统、数据库、应用软件及文档等数据通过VMware、Hyper-V、Hyper-V等虚拟化应用系统进行模拟,使原有数据资源脱离实际依存的软硬件系统能够原貌呈现或读取,从而实现备份保护数据的目的。该项技术可以根据需求虚拟多个系统环境,并且每个系统都可以独立运算、存储、提取,在执行备份操作时,根据设置的计划任务,可自动完成信息资源的比对、差异、增量或完整备份。对于用户来讲,无需关心后台存储环境,信息资源在前台与物理设备呈现的效果一样。
现在虚拟备份技术发展较快,也较为成熟,由于其在应用过程中操作简单、效率较高、兼容性好,能够避免因硬件、操作系统、软件或人为错误而造成的数据丢失,并且虚拟化技术还可以降低软硬件应用成本和系统维护的费用,因此当前在各行业、各领域应用十分流行。而这些特点,也正切合当下档案工作中对于高度异构化、复杂化电子文件存储及备份要求,既可以脱离原生系统平台,又能原貌形式保存这些电子文件,符合确保电子文件长期可用、可读性需求,是电子文件海量数据存储和备份的又一个重要发展方向。
四、备份介质不断更新迭代(Backup Medium)
档案数据备份介质随信息设备发展不断更新,从最初的软盘、光盘、蓝光光盘、光盘塔,到磁带库、磁盘阵列不断涌现,并在各个不同档案业务工作场景不同时期得到应用,一些介质,如软盘、磁带等,因其价格低廉、易用,在20世纪90年代十分普及,随着光介质的出现,与光介质相比,其支持机械元件的可靠性及读写速度有明显劣势,因此此类介质已经被淘汰;随着更新的存储技术发展,目前光介质在应用和发展过程中也出现被易用的磁介质逐步替代的趋势,但也不代表这些介质已然被淘汰,需要我们根据具体需求而定,根据未来技术发展来选择。就档案备份介质而言,档案工作者一般注重存储容量和长期可用性,但随着档案数字业务规模逐步拓展、数据量的迅速积累,对介质的存取效率、方便性有了更高的要求。目前,档案界应用较为广泛的介质是磁盘阵列、磁带库、虚拟磁带库等。
近年来,固态硬盘(SSD,Solid State Disk)因其在存储速度、抗摔性、传输速率、功耗等方面较传统机械硬盘(HDD,Hard Disk Drive)有很大优势,在系统应用和存储管理中得到快速的应用和发展,大有替代传统机械硬盘的趋势,但目前固态硬盘还存在多个缺点,如价格相对高、不易数据恢复、读写抖动性大等,而随着技术的提升,这些问题也都在不断改善和解决。就存储取性能和数据备份安全性来看,机械硬盘是通过磁头与盘片直接接触寻道来读取信息,在高速旋转或运输过程中容易造成盘片的受损或数据的丢失,机械组件多而复杂,受自然环境中灰尘、温湿度等影响极易受损;固态硬盘没有实体盘片而由集成电路和存储芯片制成,没有机械运动部件,无需寻址,读取速率快,体积小、重量轻,抗震性更好,对数据保护能力更强,能够适应更广的使用环境。因此,固态硬盘应用于电子文件海量数据备份领域可以预期,我们应该重点关注。
五、备份新技术不断细化发展
目前流行的备份技术有分布式存储、智能存储系统、数据网络等,这些技术在各综合档案馆备份存储管理工作中有所研究和应用。同时,随着虚拟化等新技术的快速普及、应用呈现出的新特征,备份产品在保留了传统的技术和新衍生云灾备等方案之外,又有一些技术已成为或者可能成为新的热点[3],对于解决虚拟化和大数据存储备份工作的数据管理难题有所帮助,在研究部署档案备份策略中可以借鉴。
1.重复数据删除。重复数据删除是通过算法针对备份数据进行压缩或缩减的技术。海量数据备份过程中总是充斥着大量的冗余数据,电子文件备份过程中也不例外,重复数据删除技术为我们提供了解决方案。当前主流重复数据删除技术基本方法通常是基于散列(hash)的方法,通过类似SHA-1、MD-5算法来判断数据是否已经被备份;或是基于内容识别记录的数据格式,用内嵌在备份数据中的元数据进行差异备份。同时,重复删除技术结合数据压缩技术,来简化或压缩大容量文件本身。我们对海量档案信息进行甄别筛选和对数据进行多次备份后,剔除大量重复数据非常需要这种技术。该项技术可以帮助我们降低数据存储量,提高存储备份效率,节省成本等。数据重复删除技术降低了备份所需的存储空间,并实现了更快和更频繁的备份,从而有利于电子文件长期安全存储。
2.即时恢复。即时恢复技术是指出现虚拟机宕机(丢失、不可用、灾害发生)时,可以在备份存储上即时恢复虚拟机运行,从而实现数据的安全和业务的实时连续性。随着越来越多重要的办公业务系统对实时服务提出更高效的在线服务需求,当灾害发生时需要实现数据的即时原貌恢复,能够有相同的虚拟机立即投入使用。当前已出现基于持续数据保护(CDP)和快照等基础备份功能的即时恢复方案,对于一些重要的业务系统中流转的电子文件,我们可以应用该项技术实现即时备份和恢复,从而提高电子文件备份的安全性和有效性。
3.细粒度恢复。该技术是通过虚拟化平台解析所备份的文件系统,精准恢复单个文件级的技术。通常在灾害发生时,很大概率的故障原因为软故障,即只有部分数据受到损坏,例如单个配置文件、部分文件等,如果已经备份好的海量数据整体恢复则需要大量人力、物力和时间,通过细粒度索引指针等技术方式,则无需恢复整个备份数据,即可快速地访问指定文件或者某个目录文件,精确恢复数据,能够极大提升数据恢复效率。当灾难发生时,我们可以高效地进行电子文件数据迁移和数据恢复,可减小恢复整个备份数据时对生产环境、备份环境的运行压力,同时节省数据恢复成本,缩短业务中断时间,尽快恢复业务运行。
总之,档案作为不可再生信息资源,是国家机构、社会组织或个人在社会生活中直接形成的、有价值的、各种形式的历史记录,是人类社会重要的文化遗产。确保电子文件信息在当前大数据环境下的可靠性和可用性,是当前工作重点和重要研究方向。同时,电子文件大数据备份是一项系统工程,要根据自身基础设施、网络系统、现有备份系统、电子文件处理系统、灾难恢复预案、运维管理能力、未来可扩展性、对效率要求以及技术支持能力等多方面综合考虑。