数字化档案存储与备份系统设计与实践
2012-08-29于英涛
于英涛
(华北计算技术研究所 中国 北京 100083)
1 项目背景
档案数字化是随着计算机技术、扫描技术、OCR 技术、数字摄影技术(录音、录像)、数据库技术、多媒体技术、存储技术的发展而产生的一种新型档案信息形态,它把各种载体的档案资源转化为数字化的档案信息, 以数字化的形式存储,网络化的形式互相连接,利用计算机系统进行管理,形成一个有序结构的档案信息库,及时提供利用,实现资源共享。
档案数字化是数字档案建设最基础的工作,传统栽体的档案经高科技技术加工成数字档案形式,通过局域网、政务网、互联网进行计算机检索、阅读电子档案,为迎接档案信息服务新环境的挑战,提高管理水平、提高效率,增强档案业务部门的服务水平,为档案内部管理及面向客户服务提供高效率的全面服务。 档案数字化流程图档案工作的数字化建设是顺应潮流、适应时代发展的新举措、新要求。 档案作为一种原生信息资源,其重要性正日益凸显出来,逐步掌握信息技术为档案工作服务,为社会主义经济建设服务,为社会主义精神文明建设服务。
随着档案信息化建设和数字化工作的开展,某档案馆在机读目录的管理以及档案数字化加工方面进行了大量的研究和工作,目前大约形成机读目录上百万条,档案数据容量约9TB,声像光盘几千余张。 另外随着档案接收进馆工作的进行,大量的档案信息数据也陆续接收进馆。 因此如何充分运用先进的网络、存储和数字化技术手段,将宝贵的馆藏档案数据进行有效的整理加工并转储到安全可靠的存储设备中,再通过网络环境实现对这些信息资源的高效率的检索和共享,充分发挥它们的价值,是档案馆信息化基础建设亟待解决的任务。
2 存储系统设计方案
2.1 存储系统架构
图1
针对档案馆目前数据分散、增长速度快,工作效率低及数据安全性差的现实, 设计了一套完整的存储系统解决方案,帮助档案馆实现业务目标。 该方案将档案馆存储系统的架构分为三级,分别为在线数据存储(On-Line)、近线数据存储(Near-Line)、离线数据存储(Off-Line)。 具体如图1 所示。
每个级别的功能简要描述如下:
1)在线数据存储(On-Line)
在线存储(On-Line)是工作级的存储,在线存储的最大特征是存储设备和所存储的数据时刻保持“在线”状态,可以随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求,其中最主要的在线存储是磁盘存储。 在线存储的性能是最高的,但成本也是最高的。
2)近线数据存储(Near-Line)
近线存储就是在原有的在线存储及离线存储之间引入的第二层存储,是在线和离线存储的中间点,是近似在线的存储。 其特点是数据访问的速度接近在线存储,但在价格上却接近离线海量存储,因此,在有效降低存储产品成本的同时,也保证了数据能够被及时访问。 由于存放的数据容量大、访问频度低,用近线存储设备来存储,比使用磁带库灵活,同时也避免了在线存储的昂贵投资。 传统定义的近线存储设备主要为NAS 系统与光盘库设备。
3)离线数据存储(Off-Line)
离线数据是对在线数据的备份,以防范可能发生的数据灾难,离线数据不常被调用,一般也远离系统应用。 离线存储的典型产品是磁带库,价格相对低廉,但离线存储介质上的数据在读写时是顺序进行的,当需要读取数据时,需要把磁带卷到头,再进行定位。 因此,离线存储的访问速度慢、效率低。
档案馆可根据应用系统的主要功能、业务类型、对数据访问要求等因素,将其数据部署在各级存储上,既能最大限度满足应用需求,又可使存储成本最小化。
2.2 备份系统方案
图2
某档案馆以前采用传统的LAN 结构和手工备份方式,人工手动备份数据库中的关键数据,SQL、Oracle 的数据备份需要占用较多的工作量,对核心业务数据信息备份的工作无法量化考核。针对这一情况,设计了采用SAN 存储架构和集中、高效的网络备份系统。 其目的在于一方面是采用最先进的存储技术,最大化的利用现有的存储设备,建立一个数据集中管理的存储系统;另一方面为系统和数据建立备份,从而对系统和数据进行有效保护,在系统遭遇意外损害时,能及时对系统和数据进行恢复。
该备份方案示意图如图2。
档案馆备份系统的组成如下:
1)备份主服务器:负责整个备份系统的管理,包括备份策略的制订、 备份数据库的保存。 该服务器同时也是一个Media Server 服务器, 负责将本机的数据和客户端的数据备份到磁带库中。
2)备份客户端程序:安装在所有需要通过SAN 备份的其他服务器上。 每个服务器均通过SAN 连接光纤交换机。 备份数据均通过光纤网络备份到磁带库中。
3)NAS 备份软件:使用网络数据管理协议(NDMP),为网络附属存储(NAS)主机提供在线数据备份和恢复。
4)数据库备份程序:安装在需要备份数据库的服务器。能够实现热备份,和快速恢复数据库。
5)光纤磁带库与光纤交换机连接。 采用LTO 磁带机,通过备份软件的控制,实现备份数据的高速、自动、存储。 当数据受到损害时,可以从磁带库中恢复数据。
6)由于主机及磁带库均接入SAN 结构,故未来可以平滑的升级到SAN 的方式备份一些重要的主机及数据库,以避免备份数据对现有局域网络的冲击。
3 运行效果
目前, 该存储备份系统已在某档案馆建成并投入运行。通过该系统,档案馆可使信息像其他业务资产一样有效地得到管理。 该系统不仅能帮助档案馆解决数据分散、效率低及安全性差的问题,并能满足未来业务增长的需求。 它还可以满足存储空间的需求,减少开销及资源浪费,同时减少在管理跨多种操作系统平台的企业系统和信息孤岛时的众多难题。 大大提高了档案馆档案信息化水平。
建成后的的存储系统的特点为:
3.1 足够的传输能力
档案馆存储系统的通道带宽、存储系统I/O 能力、服务器的网络性能和响应能力等重要指标,可以满足实时性要求很高的多节点客户端数据请求及大容量数据存储的需要,提高了业务运行效率。
3.2 海量存储能力
档案馆存储系统具备超大容量,同时也具备稳定性与安全性也达到了很高的要求。 同时由于其先进的架构,可使存储容量灵活扩展,提高了应用的可持续运行能力。
3.3 先进的存储架构
档案馆存储系统采用了业界领先的三级的架构,成熟先进而且为高端产品,适合未来几年内的技术发展方向。
3.4 数据的高可靠性
档案馆存储系统中的磁盘阵列均采取基于镜像的数据保护机制,确保数据的可靠性;同时通过建设备份系统,实现了文件系统数据、操作系统数据、多种应用及数据库数据的定期自动备份,在发生数据灾难时,可快速恢复数据,保证了数据的安全性和应用的持续运行。S