数字图书馆容灾系统建设研究
2011-03-14郑敬华周中意
郑敬华 周中意
1中国人民解放军61251部队 河北 066102
2广东省乳源县气象局 广东 512700
0 引言
随着信息技术的迅猛发展,图书资源逐步由传统的文本型向数字化、多媒体类型转变,人们越来越倾向于通过网络无拘无束地获取数字化资源,而近年来数字图书馆的建设,为人们提供了越来越便捷的读书服务。只须坐在办公室里,点击鼠标,输入关键词,各种所需期刊、论文、分类资料立即尽收眼底。
数字图书馆是虚拟的、没有围墙的图书馆,是基于网络环境下共建共享的可扩展的知识网络系统,是没有时空限制的、可以实现跨库无缝链接与智能检索的知识中心。但是,当图书馆信息系统遭受诸如火灾、水灾、地震、战争或人为破坏等灾难时,计算机系统的硬件、数据、系统和服务都会受到不同程度的破坏,而数据的损坏或者丢失必然会造成不可弥补的损失。因此,建立一个数字图书馆容灾系统防患于未来,确保图书文献数据在任何情况下均能完整一致,确保图书馆网络系统不间断服务,势在必行。
1 数据容灾的关键技术
目前容灾技术的种类较多,主要有基于平台设备和基于应用软件两种。具体来说又有:基于平台设备采用局域网延伸、SAN/NAS组网、容灾平台、数据复制和数据库复制的容灾技术等。其中 SAN组网技术的容灾技术是指中心和容灾中心之间采用光纤直接进行城域网交换机连接,利用城域网的管理功能实现远程数据复制功能或备份功能的技术。
另外在采用 SAN组网技术的同时还涉及到远程镜像技术、快照技术等。SAN或NAS技术主要用于数据网络存储中,远程镜像往往与快照技术结合起来实现远程备份,即通过镜像把数据备份到远程存储系统中,再用快照技术把远程存储系统中的信息备份到远程的磁带库、光盘库中。远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。快照是一种虚拟的“实时”的数据备份。虚拟是指这种技术的思想是迅速对某个时间点的数据进行备份,而不占用更多的物理空间。
NAS(网络连接存储)具有提供以太网络数据访问的传统。它的模型主要源于网络文件服务器的概念。SAN(存储区域网络)是一种新型存储连接拓扑结构,SAN代表了一种将数据由数据处理系统传输到数据存储系统的新方法。NAS一般没有内置服务器,受单台外置服务器直接控制,需要占据服务器大量的CPU时间来处理SCSI指令和数据块。SAN采用集中式存储策略,在服务器与存储设备之间通过交换设备进行连接,将多级存储器合并成一个集中管理的网络存储基础设施,由 SAN取代服务器实施对整个存储过程的控制和管理,而服务器只承担监督工作,服务器可以腾出更多的CPU时间去处理客户的服务请求,提高了服务器的吞吐能力。国内图书馆以往主要采用DAS和NAS技术来搭建存储架构,近年来,许多大型数字图书馆项目的核心都采用SAN技术。
2 设计方案
2.1 设计原则
从技术上看,衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量,而RTO则代表了系统恢复的时间。RPO与RTO越小,系统的可用性就越高,当然用户需要的投资也越大。数字图书馆容灾系统的设计应根据各个数字图书馆具体情况以及经费而定。总的来说,在设计的过程中应遵守以下原则。
(1) 经济性原则
设计方案不但要考虑采用技术的先进、可靠,还必须具备很高的性能价格比。一般来说, RPO与RTO越小,系统的可用性就越高,投资性就越大。
(2) 高可管理性与高可靠性
由于整个业务系统的数据采取集中式的存储策略,所以存储系统必须具备很高的可管理性。另外,计算机网络系统的外部环境是多变的,设计方案必须是强健的,能够很方便地进行调整,以满足外部环境的变化。
(3) 硬件的完全冗余
确保两台数据处理机互为集群,一旦处于活动状态的主机发生故障,另一台主机将自动接管其全部任务,在没有故障的状态下分别执行各自任务。
(4) 高可扩充性与升级能力
设计方案必须能够适应网络系统发展的需要,具备高可扩充性与升级能力。存储系统必须是可以扩充的,必须具备较高的扩展能力,而且随着计算机技术的发展可以对存储局域网络进行升级。
2.2 方案设计
(1) 存储系统设计
数据存储是容灾系统的重要部分。容灾系统中主数据中心与备份数据中心的存储系统采用先进的 SAN技术。SAN可以提供比传统网络存储模式更好的可扩展性、高可用性、容错性以及可管理性等品质,将成为多媒体信息流存储、大数据量的快速网络备份、数据仓库以及决策支持等应用领域中较理想的存储媒介。SAN的主流技术目前为FC SAN 与IP SAN两种模式,FC(Fiber Channe1)和iSCSI(Internet SCSI)是目前搭建 SAN 的两个主流协议,二者本质上都是在网络报文中传输 SCSI指令和业务数据来实现数据传输的功能,只是传输方式和介质不一样。在此方案中采用FC SAN模式,拓扑结构图如图1所示。其中存储层可以采用EMC CX600系列,应用服务层通过FC交换机与存储层进行连接,交换数据。
(2) 容灾系统组成
异地远程数据容灾方案的容灾地点选择在距离本地不小于20km的范围内,采用与本地磁盘阵列相同的配置,通过光纤以双冗余方式接入到刚才设计的 SAN网络中,实现本地关键应用数据的实时同步复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的镜像数据。该数据是本地生产数据的完全实时拷贝。也就是说,主数据中心与备份中心构成两个SAN,通过光纤环路实现两个信息孤岛的联通,完成了相互之间的通信和数据交换与备份,如图1所示。主数据中心系统使用集群技术,配置主机包括两台或多台服务器以及其他相关服务器,组成多机高可靠性环境。这样,当主数据中一台服务器受损,其他的服务器同样可以正常工作,使用集群技术进一步保障了系统安全。另外,在主数据中心,还可以配置磁带备份服务器,用来安装备份软件和磁带库。备份服务器直接连接到存储阵列和磁带库,控制系统的日常数据的磁带备份。
图1 FC SAN 拓扑结构
在正常情况下,主数据中心点完成本地的应用和业务,并在将数据存储到本地的磁盘阵列之中的同时,将数据副本通过SAN交换机到备份数据中心,保存在容灾中心SAN中的磁盘阵列中,实现数据和应用的备份;当灾难发生时,主数据中心的数据丢失,无法应用,此时,受到影响的数据会从备份数据中心 SAN中的磁盘阵列里恢复出来,并传给主数据中心,使得主数据中心可以继续完成对不间断应用的支持,从而使得整个容灾体系能够更好地发挥保护数据和解决灾难恢复的作用,当然这个容灾体系也需要宽带网络的支持,毕竟数据备份和恢复都是对实时性要求很高的应用,需要在短时间内完成。容灾系统部署如图2所示。
图2 容灾系统
(3) 方案分析
本方案是一种基于 SAN容灾系统解决方案,具有容灾和业务连续性等特性。它为数字图书馆系统提供了无缝的异地容灾备份解决方案,为其他企事业单位的容灾方案提供了参考与借鉴的作用。首先,本方案的投资不高,是在原有的设备得到合理利用的前提下,基于 SAN技术的数据存储服务性能得到明显提高。由于 SAN的多方面的存储优势,再加上存储设备价格的下降,SAN组网成本也随之下降。这使得此次采用 SAN技术的容灾方案具有较高的性价比。其次此方案具有扩展性好,投资保护性好的特点,此方案较简单实用,容易搭建。最后实现了存储系统支持数据集中式管理,相关业务系统或全部的应用系统存储系统合并为统一的存储系统。
3 结论
容灾技术多种多样,比如基于数据保护可以采用同步/异步复制、SAN等技术进行容灾保护;基于网络可以考虑IP网络或光纤等物理链路保护方式等。不管是采用哪种技术,核心是根据用户需求来具体设计,围绕整个容灾备份方案考虑的核心还是两个中心的数据一致性。容灾系统的建设,为数字图书馆构建了一套保护体系,在线资源的丰富与响应速度快,也使得读者越来越倾向于通过网络获取数字化资源,数字图书馆技术也会越来越成熟。
[1]Radha Telikepalli, and JamesYan: Storage Area Network EXtension Solutions and Their Performanee Assessment. IEEE Communieations Magazine. APril2004.
[2]StallingW.Operating Systems:Internals and Design prinCiples. [M].4thedition, NewIersey: Prentiee-Hall.2001.
[3]单桂军,容灾技术在校园网络信息中心安全中的应用与研究[J].太原师范学院学报(自然科学版).2006.
[4]王德军,王丽娜.容灾系统研究.计算机工程.2005.
[5]万瑾慧,李涛,胡晓勤,卢正添.一种应用级容灾系统的设计与实现[J].计算机安全.2008.
[6]李兆玉,韦世红,李鹑.容灾系统的建设方案研究[J].重庆邮电学院学报(自然科学版).2005.
[7]黑明磊,张延园,林伟,刘俊,叶斌.数据容灾系统的事件处理模型[J].微处理机.2008.
[8]刘晓洁.一种基于 Internet 的容灾系统关键技术[J].信息安全.2009.