APP下载

量身定制业务连续性计划

2009-04-27张磊

中国计算机报 2009年27期
关键词:连续性停机灾难

张磊

赛门铁克公司7月6日发布的《全球IT灾难恢复年度调查》显示,各企业面临的灾难恢复压力持续攀升。虽然2009年的灾难恢复预算高于往年,但大多数企业希望今后几年内能有效控制预算,以更少的预算去做更多的事情。

IT部门不能包办

企业管理层介入的程度以及企业对数据恢复点目标(RPO)和数据恢复时间目标(RTO)的要求,决定了当灾难发生时,容灾系统能够在多大程度上恢复数据以及恢复的速度有多快。RPO表明用户可以容忍的数据丢失量,RTO则表明在丢失数据的情况下,系统可以持续运行多久。

“许多人认为,保持业务连续性是企业IT部门的职责,或者是企业内每个员工的职责。这是不正确的。”Burton集团公司分析师理查德·琼斯(Richard Jones)表示,“为了确保灾难恢复和业务连续性,企业必须把相关的组织机构和人员都纳入进来。如果企业的管理层不介入其中,并身先士卒,那么业务连续性计划很容易土崩瓦解。”

美国Gartner公司的分析师约翰·莫恩斯(John Morency)表示:“从理论上讲,企业应该长期保留业务连续性工作人员的岗位。但实际上,负责IT业务连续性计划的计划经理通常也会负责执行整个公司的业务连续性计划。由IT人员全权负责业务连续性计划在某些时候是可行的,但是有相当一部分的业务连续性和灾难恢复业务是IT部门不能控制的。此外,负责执行业务连续性计划的人员必须深入了解公司的业务运营情况及流程。”

企业如果要实施长久的业务连续性计划,就应该设立相应的专职人员。这些人员直接向企业的首席执行官和董事会汇报。如果企业有首席风险官,那么这些执行业务连续性计划的专职人员应该直接向首席风险官汇报,而不是向IT部门汇报。

RTO、RPO是衡量标准

如果想设定切实可行的RTO和RPO指标,企业的业务主管以及董事会的人员必须参与其中。

不同的行业和企业对RTO和RPO指标的要求差别很大。

“在制造业企业中,数据中心停止运作三天可能不算是一个大问题,因为生产设备还可以继续保持运行,并不会影响生产进度。但是三天以后,如果数据中心的运作仍不能恢复,将给企业造成损失。”理查德·琼斯举例说,“同样是数据中心停止运行三天,如果发生在金融服务企业身上,情况则完全不同。对于证券交易所来说,即使是某一个交易席位发生问题,哪怕只有一分钟,也可能给公司造成上百万美元的经济损失。”

此外,企业在制定RTO和RPO指标时,还必须考虑成本的问题。RTO和RPO数值越小,意味着企业为之付出的成本越高。理查德·琼斯举例说:“某银行并没有设定苛刻的RTO和RPO指标,而是让出纳保留所有的交易凭条。一旦数据中心出现停机等情况,出纳可以参照这些交易凭条来恢复数据,以保证业务的正常运行。”

企业的灾备系统防范的主要是小概率的灾难性事件。考虑到成本问题,企业如果参照上述银行的做法,就可以大大节省为数据中心做镜像所需的花费。尽管数据镜像系统可以实现主数据中心与灾备中心的数据同步,充分保证业务连续性,但所需的投入也会非常高。

约翰·莫恩斯表示:“对于大多数企业来说,设定单一的RPO和RTO指标是不切实际的,因为成本太高。”目前业界并没有关于RPO和RTO的标准。Gartner公司推荐用户使用一个四层级体系,但这也不是标准,只是给出一些指导性的意见。

很多企业将数据恢复任务划分成不同等级。第一级和第二级中包含那些对企业营收有重要影响的应用和系统。这两级的恢复时间要求在24小时以内,数据恢复点通常要求在4个小时以内甚至更短。有上述要求的企业,更喜欢采用磁盘到磁盘的复制技术,因为磁带的恢复速度太慢。

业务影响分析

企业在计算系统停机可能带来的损失时,首先要进行业务影响分析,包括硬损失和软损失两部分。硬损失很容易计算出来,比如在正常情况下,企业一天能够赚多少钱,如果不生产会损失多少钱,每天需要支付多少工资以及替换设备需要多少钱等。

相对来说,比较难计算的是系统停机对业务产生的间接影响,比如因为消费者满意度降低给企业造成的损失等。理查德·琼斯表示:“系统停机对业务产生的间接影响只是一种估算。企业还要把这些间接的影响进行量化。”

约翰·莫恩斯认为:“要想实施一个可行的RPO和RTO策略,定量分析是十分必要的。企业IT部门常犯的一个错误是,向业务部门询问需要多长的备份和恢复时间。业务部门给出的答案永远是需要保证系统不间断运行,或者最多只允许一个小时的停机时间。”

四个恢复等级

企业要根据业务处理、应用和数据的具体情况确定所需的恢复等级。

第一级 这部分业务主要是面向客户和合作伙伴的业务,对公司的营收非常重要。因此,这部分业务必须保证7×24小时不间断运行,系统的可用性达到99.9%(系统每月的停机时间少于45分钟)。RTO为2~8小时,RPO为0小时。

第二级 这部分业务对公司营收的影响程度相对较低。因此,系统的可用性只要达到99.5%(系统每月的停机时间少于3.5小时)即可。RTO为8~24小时,RPO为4小时。

第三级 企业的办公系统可以采用这一恢复等级,只要保证每周7天、每天18小时的运行即可,系统的可用性达到99%(系统每月的停机时间少于5.5小时)。RTO为1~3天,RPO为1天。

第四级 部门级的应用可以采用这一恢复等级,系统的可用性达98%(系统每月的停机时间少于13.5小时)。RTO可以超过3天,RPO为1天。

猜你喜欢

连续性停机灾难
雷击灾难
不可压缩Navier-Stokes方程解的非线性连续性
非连续性实用类文本阅读解题技巧例谈
灾难报道常见问题及反思
半动力系统中闭集的稳定性和极限集映射的连续性
连续性
雷克萨斯NX200t车停机和起动系统解析
欠费停机
灾难不是“假想敌”
发动机怠速-停机起动机的开发