APP下载

磁光电一体化海量档案数字资源长久保存技术研究《基于磁、光、电多种载体的海量档案数字资源长久保存技术的研究和实践》项目课题组

2021-11-26

山东档案 2021年2期
关键词:海量光盘备份

近年来,国家发布了一系列电子文件、电子档案管理的政策规范,加之国家档案局持续加大档案信息化工作推进力度,致使各类电子档案、档案数字复制件等档案数字资源数量激增。这就使如何实现海量档案数字资源的安全保存和长期可用成为了各级档案部门亟需解决的问题[1]。

一、海量档案数字资源长久保存常见问题

(一)数据保存呈碎片化的状态

我国档案部门主要推广“一用两备”的数据存储和备份模式,由于缺少统一的大容量存储和备份设备,导致档案部门的数字档案资源往往分散保存在多台不同类型的存储和备份设备中,数据保存情况较为复杂,往往需要花大量时间和精力去管理。

(二)数据检测管理困难

由于海量数字档案资源分别保存在各类人工管理的离线存储载体之上,导致数据检测模式多样、程序复杂,难以及时判断离线载体上保存的数字档案资源是否有效。

(三)数据保存风险不易管控

常见的数字档案资源的存储设备缺少可视化的设备运行与数据存储情况监控装置,也不具备实时报警功能,导致数字档案资源在存储过程中存在的风险不易在第一时间发现。

二、课题研究综述

为解决上述问题,课题组通过互联网及相关论文期刊杂志广泛收集有关海量档案数字资源长久保存技术的资料,研究了磁存储、光存储和电存储等存储技术的优缺点和适用范围,从载体的耐久性、可靠性、通用性、容量、速度和成本等指标进行分析,设计了综合采用多种存储设备和存储载体的存储技术方案,以达到海量档案数字资源长久安全保存过程中安全性、经济性和访问速度的均衡。课题组对海量数字档案长久保存的需求进行了全面的分析,设计了磁光电一体化海量档案数字资源长久保存系统的技术方案,明确了系统的总体架构、关键技术及主要功能。基于上述技术方案,开发了综合运用多项关键技术和多种存储载体的磁光电一体化海量档案数字资源长久保存系统,实现了面向海量档案数字资源长久安全保存的数据管理、设备管理、载体管理、任务管理和监控预警等功能。课题组基于该系统开展了一系列的档案数字资源保存实验,通过实践应用研究和验证适合该系统的档案数字资源长久保存的数据存储备份机制、数据检测机制、载体检测机制、预警跟踪处理机制和数据应急恢复机制等多种管理机制,通过技术平台和管理机制的结合,有效保障了海量档案数字资源安全长久保存过程中的真实性、完整性、可用性和安全性。

三、技术路线

(一)存储载体和存储设备的分析和选择

1.存储载体分析选择

目前常见的主要存储载体可划分为磁(磁盘、磁带)、光(光盘)、电(SSD固态硬盘)等类型,衡量存储载体的基本指标包括载体的耐久性、可靠性、通用性、容量、速度和成本等。一般而言,各项指标不可能同时达到最优化,只能根据应用场景找到最合适的平衡点。课题组在分析选择档案数字资源长期存储载体时的主要关注点包括:

(1)存储载体的物理稳定性

档案数据重要性高,保存周期长,不宜使用对外界环境敏感,容易因存储环境、外力等因素影响而丢失数据的存储载体,也不宜使用物理寿命短暂的存储载体。

(2)存储载体的技术寿命[2]

档案数据保存周期长,需要采用技术稳定的存储载体,避免因载体的技术或市场不稳定而增加丢失数据的风险。

(3)离线存储能力[3]

为满足离线备份的要求,档案数据存储载体应可与存取设备分离,离线保存在档案馆库内或其他安全环境中。

(4)数据的防篡改能力[4]

原始记录性是档案的基本属性,档案必须保持其内容的真实和完整。为防止非法篡改档案数据,保证档案数据的真实和完整,一次写入防止更改数据的存储载体有更大的优势。

(5)存储载体使用成本[5]

档案馆的档案数字资源保存工作受预算的限制,选取存储载体时需要根据预算在价格和性能之间进行权衡。需要注意的是,存储载体的使用成本不仅仅是一次性采购的成本,也包括长期使用过程中载体维护和升级换代的成本。

2.存储设备分析选择

课题组结合海量档案数字资源长久保存场景以及存储载体和存储设备的关键特征属性,分析得出了各场景下所适用的存储设备类型及其载体的选择。

在档案数字资源的导入、检测、检索等数据频繁读写的场景,对设备和载体的响应速度和读写速度有较高的要求,因此适合以具有较高读写速度的高速磁盘或固态硬盘作为存储载体,以高速磁盘阵列或闪存阵列作为主要存储设备。

在档案数字资源入库长久保存场景下,数据的访问频率大大降低,但总体存储的数据量则会增加许多,此时从经济性的角度考虑,以低速大容量磁盘、磁带、光盘为存储载体的低速大容量磁盘阵列、磁带库、光盘库等设备成为了较好的选择。为避免单一存储载体带来的技术风险,应尽量使用两种以上的存储载体来进行档案数字资源的长久保存。

在档案数字资源离线备份、异地备份等场景下,以光盘载体和光盘库为首选设备,其具有较大的存储容量,稳定性好,维护和管理量较小,适合长久保存的数据,具有较高的性价比。

综上分析,课题组选择了以固态硬盘作为高速缓存处理区,以磁盘阵列和大容量光盘库作为数据长久保存区的磁光电一体化的海量档案数字资源存储方案,以实现安全性、存储容量、访问性能和成本的较好均衡。

(二)海量档案数字资源长久保存系统建设

课题组设计了海量档案数字资源长久保存系统技术方案,经过需求分析、系统设计、编码开发、系统测试、系统部署等阶段,开发建设了磁光电一体化海量档案数字资源长久保存系统。

1.系统架构

磁光电一体化海量档案数字资源长久保存系统采用软硬件一体化架构。硬件部分包括服务器设备、存储设备(磁盘阵列、光盘库、SSD固态硬盘)、网络设备(光纤交换机、智能网卡)、监控设备(ARM)等,软件部分包括基础软件(操作系统、数据库、中间件)、功能支撑平台(光盘管理平台、监控管理平台)以及核心管理软件系统(海量档案数字资源安全保存平台)等。

系统集大容量磁盘阵列、高密度光盘库、高性能固态硬盘于一身,充分发挥磁光电存储载体的各自优势。固态硬盘作为大批量数据高速I/O处理缓存,大容量磁盘阵列提供高可靠和高可用的在线存储服务,光盘库以归档级蓝光光盘为存储载体提供近线和离线存储服务。

2.系统功能

磁光电一体化海量档案数字资源长久保存系统可实现档案数字资源长久保存过程中的自动存储备份、数据和载体检测、数据智能恢复、预警故障追踪及处理等功能。系统核心管理平台的功能包括管理门户(控制台)、数据管理、资源管理、任务管理、预警管理和系统管理等部分。

控制台是整个海量档案数字资源长久保存系统的管理入口,直观展现系统内保存的档案数据量和系统剩余容量、数据和载体检测情况、系统各设备运行状态、各项任务执行进度信息等,还可以快速查看和处理各项预警信息;数据管理功能完成长久保存档案数字资源的接收入库、数据备份、智能恢复、检索出库等功能;资源管理功能完成系统设备管理、离线存储载体管理、载体组盘管理等功能;任务管理功能下可以查询当前任务执行状态和历史任务执行情况;预警管理功能可以进行各项预警信息的查看、处理和跟踪;系统管理功能完成数据保存备份设置、预警策略设置、用户权限管理、日志管理等各项基础设置和管理功能。

(三)海量档案数字资源保存管理实验

磁光电一体化海量档案数字资源长久保存系统开发完成后,课题组以该系统为平台,设置了档案数字资源保存备份机制、数据检测机制和载体检测机制,开展了海量档案数字资源长久保存管理实验。

1.保存备份机制设置

经过权衡档案数字资源的安全性、访问性能和保存成本,课题组对系统中的档案数字资源长久保存采用了“321保存策略”,即对同一份档案数字资源保存“3”套数据,分别保存在磁盘和光盘“2”种不同的存储载体之上,其中磁盘上保存1套,光盘上保存两套,1套光盘数据保存在光盘库中,“1”套光盘数据离线保存。这种策略下,每一套档案数据都可以独立的检测和使用,其中任意一套数据出现问题后,均可以使用另外两套数据来进行恢复,避免了数据恢复过程的单套数据风险,避免了单一存储载体的技术风险,满足档案离线备份的要求,有效保障了档案数字资源的安全性,总体存储成本也得到了较好的控制。

2.数据检测机制设置

系统使用数字摘要技术来保障档案数字资源的真实性。在档案数字资源进入系统时采用数字摘要算法进行运算,生成128位数字摘要。在档案数字资源定期检测、出库或数据恢复时,再次生成数字摘要,通过比对入库时生成的数字摘要是否一致,来判断档案数字资源的真实性,确保数据不被非法篡改。数据的定期检测设置为系统自动每月进行一次磁盘上保存的档案数据的完全扫描检测。检测时如果发现档案数据出现破坏或丢失等情况,则发出预警信息,同时可根据系统设置自动启动智能数据恢复。

3.载体检测机制设置

为对各类备份介质进行检测,系统集成了专用的蓝光检测光驱来检测存储光盘的有效性。系统设置为每月对光盘载体检测一次。光盘采用随机抽取少量光盘全检(检查光盘上所有的刻录点)和全部光盘点检(随机抽取检查光盘上的300个刻录点)结合的方式。本次研究中为充分测试系统和设备的承压能力,设置了较高的检测强度和频率,在实际的工作中,可以根据情况采用较低的检测强度,例如每年或每两年检测的形式。

4.数据保存实验活动

在“321保存策略”下,课题组选取了多种类型的档案数字资源进行保存实验,包括文书、照片、录音、录像等门类,覆盖了PDF/JPG/MP4/FLV/MP3等各种类型的文件格式。其中PDF/JPG文件格式,单个文件容量较小,MP4/FLV/MP3等录音、录像档案的文件格式,单个文件的容量较大,可用于检验系统对于多种类型的不同容量大小的文件格式的支持能力。通过实验验证,该技术方案可有效完成海量档案数字资源的接收、入库、备份、检测等操作任务,数据检索和数据出库效率符合预期,取得了稳定的实验效果。

四、研究总结

课题组通过分析和设计面向海量档案数字资源保存的磁光电一体存储技术方案,开发了具有数据管理、资源管理、任务管理和预警管理等各项功能的磁光电一体化海量档案数字资源长久保存应用系统,并基于该系统成功开展了海量档案数字资源的保存实验。课题组认为,上述技术方案和应用系统可在档案数字资源长久保存工作中得到有效应用,今后可以进一步从档案数字资源的异地备份和异质备份、新型存储载体运用于档案数字资源保存等方面对上述技术方案和应用系统进行提升和扩展,以提高海量档案数字资源长久安全保存管理的技术水平。

猜你喜欢

海量光盘备份
一种傅里叶域海量数据高速谱聚类方法
海量GNSS数据产品的一站式快速获取方法
利用云备份微信聊天记录
如何只备份有用数据而不备份垃圾数据
全方位备份,就用Acronis True Image
Windows10应用信息备份与恢复
海量快递垃圾正在“围城”——“绿色快递”势在必行
光盘小熊
一个图形所蕴含的“海量”巧题
保护CD