APP下载

容灾的未来:面向灾备资源共享的容灾云技术

2012-04-29徐亦达余宏亮

中兴通讯技术 2012年4期
关键词:容灾

徐亦达 余宏亮

中图分类号:TN915.1文献标志码:A 文章编号:1009-6868 (2012) 04-0034-04

摘要: 文章提出建设好容灾中心所面临的关键挑战就是如何让容灾代价和容灾效率达到统一,而这需要利用灾备资源共享的基本思路。文章指出容灾未来的发展趋势就是彻底打破原有数据保护模式,发展面向灾备资源共享的容灾云技术体系。

关键词:容灾;结构无关;容灾云

Abstract: In this paper, we suggest that the key challenge in building a disaster recovery (DR) center is balancing cost with efficiency and resource sharing. A future trend of DR is to use structure irrelevance DR technology to form a hierarchy of DR cloud technologies.

Key words: disaster recovery; structure irrelevance; disaster recovery cloud

随着各行各业信息化建设步伐的加快,人们也越来越依赖各式各样的信息系统提供的数据和服务。这些数据和相应的服务非常重要,但因为它们本质上依赖的是架设在物理计算机上层层的逻辑环境,所以也相当脆弱,不但要面临物理层面上的各种威胁,比如火灾、地震、电力故障等,还要抵御来自逻辑层面的各种侵害,比如人为操作失误、软件出错、黑客攻击等等[1-3]。一旦因此而发生数据丢失或长时间服务中断,则会给信息系统的使用者带来巨大的损失[2-3]。据互联网数据中心(IDC)的统计数字表明,1990—2000年,在发生过此类灾难的美国公司中,有55%当即倒闭;因数据无法恢复,剩下29%公司也在两年之内倒闭;最终生存下来的公司仅占16%。因此,容灾已经成为当今信息化社会不可缺少的基础安全措施。

另一方面,容灾市场的需求也在急剧扩张之中。由于容灾备份和恢复的最主要对象是存储的数据,全球数据存储量从2008年的366万兆亿字节逐年增长到2011年的855万兆亿字节。如保持这样的增长速度,数据量则每5年就会扩大10倍,这对数据的容灾提出了更高的要求。从市场情况来看,全球容灾市场早在2008年就已经达到39亿美元的规模,而根据互联网数据中心(IDC)的相关市场预测。

中国政府近年来十分重视信息系统的容灾问题。中共中央和国务院有关部门分别在2003年8月、2004年9月、2005年4月连续下发了《国家信息化领导小组关于加强信息安全保障工作的意见》、《关于做好重要信息系统灾难备份工作的通知》、《重要信息系统灾难恢复指南》,体现了政府对容灾问题的重视和要求;2007年7月国家又正式出台灾备行业国家标准《信息系统灾难恢复规范》(GB/T20988-2007),规定了信息系统灾难恢复应遵循的基本要求[4]。

信息系统的容灾对于各行各业的重要性、容灾市场需求的扩大以及政府高度重视和强有力的支持,都已充分表明:信息系统容灾的发展现状、面临的挑战以及发展趋势已成为十分重要的问题。

1 容灾的发展现状

1.1 容灾的基本概念

信息系统的容灾(DR)是在某种自然或人为灾难所导致的信息系统损坏后,为了重新获得对数据、通信、作业空间以及其他业务流程的正常访问,以便重启和恢复关键业务的正常运行,需要完成的一系列步骤、过程和策略。

根据不同的应用需求,人们已经开发出各式各样的容灾机制。针对这些不同的方法,我们一般用恢复点目标(RPO)和恢复时间目标(RTO)这两个基本指标来衡量容灾机制的特性。RPO关注的是如何增加生产系统的备份点密度,RTO则关注缩减生产系统的灾后恢复时间。偏重RPO的系统,生产系统备份间隔更短,可恢复的状态更多,可能丢失的数据更新更少;偏重RTO的系统,生产系统灾后重建的速度更快,更有利于保持业务连续性。

根据不同的用途特点,容灾系统中使用不同的设备和系统:磁盘阵列是多个磁盘组成的存储设备,随机读写性能较好,但单位存储成本较高,适合做主存储设备;磁带库由大量磁带构成,单位存储成本低,适合做次级存储设备;高可用性集群是一组配置相似的服务器,它们的状态紧密同步,如果集群中的某些服务器出现故障时,整个集群就可以及时调整应对,对外服务则不会中断;远程备份站点通常在地理位置上远离生产系统,与生产系统通过网络连接,可抵御地域性灾难。

1.2 容灾的多种表现形式

容灾的整个过程分为灾前备份和灾后恢复两部分,并且这两部分都有着多样的表现形式。

灾前为应对不同的故障,不同的应用环境,有不同的容灾备份方式。冗余磁盘阵列(RAID)用于应对磁盘阵列中少数磁盘或数据块失效的故障;磁带库单位成本低,适合顺序读写数据,因此特别适合备份连续存放的大量数据;高可用性集群成本高,可用性也高,适合在对服务连续性要求很高的环境下应对服务器失效的故障;远程备份站点的备份介质可以是磁盘阵列,也可以是磁带库,它们都适合防止地域性灾难对信息系统的破坏。

灾后对故障的基本处理策略主要有故障转移与故障恢复两种类型。故障转移可以提前准备冗余的计算资源,当灾难来临之时将系统切换到冗余计算环境中去。其优点是:在RTO方面可以很快地恢复服务;其缺点是:在RPO方面它并不具备选择可恢复状态的能力,另外系统成本也较高。故障恢复则是提前生成和存放多个备份点,灾难来临之后按情况恢复到任一备份点状态。其优点是:在RPO方面可灵活选择多个备份点;其缺点是:在RTO方面通常没有很多优势。

在通常情况下,故障恢复方式需要串行执行从备份中心恢复数据、寻找和重建一致性数据卷、配置和重启应用服务等3个步骤。其中前两个步骤是十分耗时的,但前两步不完成第三步则无法实现。

根据不同的灾前备份模式和灾难的种类,针对灾后故障恢复,生产系统也可以有多种方式恢复。如果生产系统的本地备份并未受到影响,则可从本地备份介质备份,比如磁带库或备份磁盘阵列;否则可考虑从远程备份站点恢复,恢复源同样也可以是远程站点中的磁带库或备份磁盘阵列。

1.3 主流容灾关键技术与容灾方案

主流容灾关键技术包括:远程镜像技术、连续数据保护技术。

(1) 远程镜像技术是在异地(远程备份站点)保存一份与本地相同的数据拷贝,以保证生产系统在遭受地域相关灾难后的可用性。远程镜像的实现位置可位于文件系统、磁盘卷管理器、磁盘驱动、主机适配卡、磁盘控制器等任意一层,但它通常位于卷管理器和磁盘控制器。由于网络延迟,数据的同步和生产系统写性能是远程镜像技术需要仔细进行权衡的。因此该技术分为同步镜像和异步镜像两类,前者偏重数据的同步,后者则牺牲部分一致性和实时性换取生产系统写性能的提升,以及对网络带宽要求的降低。远程镜像技术偏重RTO指标,因为数据镜像使得数据恢复几乎不需要时间,因此灾后系统服务的恢复速度极快。

磁盘控制器极的同步镜像的解决方案主要有:IBM公司的点对点远程复制技术(PPRC)、EMC公司的对称远程数据设备(SRDF)同步模式以及Hitachi Data System公司的Remote Copy。磁盘控制器极的异步镜像的解决方案主要有:IBM公司的PPRC扩展模式(PPRC XD)、扩展远程复制(XRC),EMC公司的SRDF异步模式以及Hitachi Data System公司的NanoCopy,Veritas公司的Volume Replicator(基于磁盘存储卷实现的远程镜像解决方案),NetApp公司的SnapMirror(主机文件系统级的远程镜像解决方案)。

(2) 连续数据保护技术的原理是记录生产系统磁盘的每一次数据更新,从而能够在灾后恢复到磁盘的任一状态。理论上,应用该技术不会丢掉任何数据,因为备份的间隔区间被缩小到最小,RPO指标达到最优。然而使用它仍然需要注意的是:靠它恢复出来的磁盘状态并不一定是和数据一致的。事实上,恢复时寻找一致性状态是应用连续数据保护技术的一大关键技术问题。如果这一流程不加优化,则可能会造成恢复时间较长,这会能极大地影响容灾系统的RTO指标。

典型应用连续数据保护技术的容灾方案有美国飞康公司的CDP产品、Revivio公司的时间寻址存储系统(TAS)、XOsoft公司的XOsoft Engine等等。这些产品均需要在备份的时候对磁盘一致性状态进行截获,以便灾后恢复时方便地找到可恢复的一致性状态。

2 容灾中心建设面临的挑战

目前,容灾系统的建设正在如火如荼地进行。容灾的需求非常广泛,因此集中构建容灾中心可以提升资源利用率,方便各方面管理,并可以提供更为专业的容灾服务,从而实现效率的最大化。但是在容灾中心建设方面我们仍然面临着很大的一些挑战。

(1) 信息系统数量越来越多。信息系统数量的急剧增长,不仅导致容灾系统存储容量、计算能力、传输带宽等资源要求的直接提升,更是体现出容灾系统对不同类型生产系统的较强适应性。信息系统的应用模式千差万别,有以数据库应用为主的,高性能计算为主的,或以文件存取为主的等。

另外,同样应用模式的信息系统也会有不同的容灾需求,如同为数据库应用型信息系统,采用不同厂商的数据库可能会导致容灾方案的不兼容。除此以外,信息系统的规模、计算资源使用频率和方式也存在不同。这些因素都会对容灾方案的选择产生影响。究其原因,还在于现有的容灾技术大多是根据某类特定应用而设计,很难保证应用独立性。针对不同信息系统所采用的容灾技术也很难统一,这样就难以在容灾方案方面进行共享。

(2) 数据规模越来越大。数据规模增大后,首先对数据容量要求有所提升。另外,由于应用间在容灾方面的不兼容,资源无法共享,针对各种信息系统建设多个容灾系统则导致整体成本过高。

(3) 恢复效率要求越来越高。随着互联网等新兴业务模式的涌现,业务连续性要求也越来越高,用户希望尽快完成灾难恢复。而在以通用化为建设目标之一的容灾中心里,要对不同的生产系统、不同的应用环境提升灾后的恢复速度并不是一件容易的事。

容灾效率和容灾代价是需要仔细权衡的因素。对不同的系统,根据其特点采用特殊的容灾方案,会使容灾效率达到最优,但对大量不同的信息系统而言,总体成本过高,容灾代价非常巨大。因此,我们应当寻找能够尽量共享容灾设施的容灾技术和解决方案。以资源共享的思路解决容灾体系建设开销大,容灾设施共享难的问题,并降低容灾建设代价,同时要在这一过程中保证容灾效率,达到容灾效率与容灾代价的统一。这便是容灾中心建设方面面临的最核心的挑战。

3 容灾的未来

3.1 当前容灾技术的问题

当前容灾技术存在一些问题:

(1) 容灾设施共享困难。容灾方案的实施和硬件、软件、应用有关,并且一对一的容灾方案,可兼容的范围都很窄。因此只有做到共享设施才能降低容灾成本,这需要不依赖于具体设备和应用的新型容灾技术。

(2) 容灾恢复时间长。对于海量数据而言,通过增量备份可以提高数据备份的效率,但容灾恢复时间过长,可能会出现系统性灾难后服务难以恢复。

例如,一般的磁带备份如高速的磁带系统恢复速度约50 GB/h,恢复100T数据需要约2 000个小时;而磁盘备份如高端虚拟阵列,恢复速度可达500 MB/s,恢复100T数据需要56小时。针对该问题,可以依靠冗余数据删除技术对数据压缩,减小数据量。但是这样会带来大量的数据处理开销,并且最终效果也依赖于数据本身的具体特征。

3.2 容灾技术的未来发展

从前文可知容灾技术未来要想得到更普遍的应用,必须解决其中灾备资源共享的问题,只有灾备资源共享,才可以做到对大量信息系统提供高效率、易管理、界面友好的容灾服务。而只有提升兼容性,尽可能降低容灾系统的应用独立性,才能真正实现灾备资源共享。在这样的基础之上,面向灾备资源共享的容灾云技术则成为了未来容灾中心建设的核心技术。

为实现构造容灾云的目标,容灾系统需要做到与结构无关,而传统容灾方法却无法做到这一点。这一问题的根源在于应用一致性问题无法解决,因为应用的种类过于丰富,难以在应用层寻找到通用的办法。一个可能的解决办法是:完整备份整个系统,而非仅备份受保护服务程序相关的数据。

原有容灾方法在架构上无法实现统一的根源在于:备份进程与受保护的进程是兄弟关系,它们同属于同一个操作系统之下,这样则无法提供一个通用的备份手段。一个可能的解决办法是:使备份进程与受保护进程成为父子关系,以便有能力完整备份整个系统。

原有方法首先恢复所有数据,再恢复服务运行。也就是说服务的运行与数据的恢复是串行的。然而大量数据的恢复需要耗费大量时间,而且很多数据其实并不一定立即就在应用服务中用得到。一个可能的解决办法是:整个生产系统数据恢复与服务的运行并行进行,并且能做到某一个服务线程在进行细粒度的数据恢复的时候,不会影响其他线程的运行,这样以来便可以大大地提高恢复效率。

目前基于类似思路的系统包括VEEAM的容灾系统以及中国的Birds容灾备份恢复系统等。

如图1所示,Birds容灾备份恢复系统将Birds容灾监听程序植入操作系统层之内,形成新的Birds备份操作系统。在此之上,使用虚拟机技术可将各式各样不同类型的生产系统包裹进虚拟机,在Birds备份操作系统之上运行。除此之外,与其同时运行的还有Birds备份以及恢复代理程序。

Birds采用全系统状态备份,不仅备份生产系统的内存状态,还可以备份其磁盘状态,形成一致性备份点。恢复的时候也能直接通过一致性备份点直接恢复生产系统的运行状态。

Birds在架构上将备份程序独立于生产系统之外,成为生产系统应用程序进程的父进程,从而能全面完整地备份整个操作系统。

Birds在灾后恢复生产系统的时候,将恢复生产系统的运行和恢复生产系统磁盘的数据同时进行,以流水线方式将本来巨量的磁盘数据按生产系统运行的需要将数据优先恢复,从而快速恢复生产系统的服务,大大缩短了因灾难产生的应用服务中断时间。

以Birds为代表的容灾云技术使用了虚拟化技术和位于块设备层的磁盘备份恢复技术,大大提升对不同类型生产系统的兼容性。另外,在这一技术中,不仅仅是受保护系统的数据得到了完全的保护,其进程空间与块设备数据空间一起也得到备份,数据一致性得到保障;并且,在恢复的时候以流水线方式完成了恢复的过程,大大提高了灾后应用服务恢复的速度。

4 结束语

文章从容灾领域的发展现状谈起,描述了当今容灾方面的基本概念、表现形式、关键技术和解决方案。通过了解现状,我们总结出容灾中心建设面临的3点挑战:信息系统增多、数据规模增大、恢复效率要求提升,并揭示其核心是利用资源共享的基本思路寻求容灾效率与容灾代价的统一。针对这些问题,我们提出容灾的未来发展趋势之一即广泛应用与结构无关的容灾核心技术,并最终形成面向灾备资源共享的容灾云技术。

5 参考文献

[1] WEBBER L, WALLACE M. The disaster recoveryh handbook: A Step-by-Sep Plan to Ensure Business Continuity and Protect Vital Operations, Facilities, and Assets[M].New York,NY,USA: AMACOM Books, 2010.

[2] LANDRY B J L, KOGER M S.Dispelling 10 Common Disaster Recovery Myths: Lessons Learned from Hurricane Katrina and Other Disasters[J].ACM Journal on Educational Resources in Computing (JERIC), 2006,6(4).

[3] PATTERSON D A, BROWN A, PBROADWELL P, et al. Recovery-Oriented Computing (ROC): Motivation, definition, techniques, and case studies[R]. UUCB//CSD-02-1175. Berkeley, CA,USA: University of California,Berkeley, 2002.

[4] 向小佳. 数据保护若干关键技术的研究[D].北京: 清华大学,2009.

收稿日期:2012-06-18

作者简介

徐亦达,清华大学计算机系硕士研究生,主要从事存储及容灾技术方面的研究。

余宏亮,清华大学计算机系副教授、清华大学计算机专业博士,主要从事存储系统、容灾系统研究;在国内外期刊及会议发表文章30余篇。

猜你喜欢

容灾
云平台容灾技术研究与实现
高速公路收费中心容灾备份系统建设方案分析
关于建筑企业容灾备份系统方案的探讨
数据容灾备份的方法及实现
基于中兴软交换的电力通信网络容灾系统建设
浅谈服务器虚拟化的几种容灾恢复机制
基于数据容灾技术在企业信息系统中的应用研究
爱立信HDBSC容灾方案的研究
>> 中共山东省纪委办公厅、齐鲁石化赴山东省电子文件(档案)容灾备份中心开展电子档案容灾备份工作
实施存储虚拟化及应用容灾保障医院信息系统业务连续性