APP下载

基于资源的灾难恢复能力指标体系及其度量

2013-09-29张国强杨英杰李俊锋

计算机工程 2013年1期
关键词:恢复能力数据备份度量

张国强,杨英杰,李俊锋

(解放军信息工程大学电子技术学院,郑州 450004)

1 概述

随着信息技术的发展与广泛应用,特别是以金融、政府、电力、铁路、民航等重点部门与行业为代表的一些关系国计民生的领域,其信息系统或电子政务系统已经成为国家的重要基础设施。据国际数据公司(International Data Corporation, IDC)对亚太市场的最新调查显示,近七成受访机构在发生灾难时只有不到一半的系统在运行[1]。灾难对信息系统的安全威胁已严重影响企业的生存与社会的发展。

灾难恢复是指将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态而设计的活动和流程[2]。其旨在降低灾难影响,及时恢复关键业务。

发生在美国的9·11事件,使世贸中心在其后一年过半的企业因关键数据丢失而消失,而金融巨头Morgan Stanley Co.由于重要数据得到灾难恢复系统的保护,使其在事后数小时即宣布次日正常营业[3]。

灾难恢复成为信息系统安全运行的最后防线,是各个行业或部门业务持续运作的重要保证。为指导提高灾难恢复建设水平,及时发现存在问题、对信息系统灾难恢复能力进行科学的评估具有较强的现实意义。

近年来,国外针对灾难恢复能力评估方面的研究以可用性评估、性能评估及效能评估为主[4]。国内相关研究尚在起步阶段,参照标准法规不一,且偏重管理与硬性条件评估,采用基于管理、技术或规划的划分方法[5-6]。

2007年,我国仅有的灾难恢复行业国标《信息安全技术信息系统灾难恢复规范》的出台对灾难恢复建设具有一定的指导作用,但仅依靠硬性基准要求与定性描述难以界定灾难恢复能力的真实情况,在实际实施过程中存在“落地难”问题。建立紧密贴合国标的灾难恢复能力指标体系势在必行,而相应的指标度量方法目前也缺乏系统的研究。

本文在灾难恢复国标的基础上,结合动态影响分析,提出基于资源的灾难恢复能力指标体系,并依据指标特性分类,设计系统的指标度量方法,以提高指标体系操作性,从而达到科学评估信息系统灾难恢复能力的目的。

2 基于资源的灾难恢复能力指标体系

灾难恢复能力是指在灾难发生后,利用灾难恢复资源和灾难恢复预案及时恢复和继续运作的能力[2]。

依据国标,提出基于资源的灾难恢复能力指标体系。国标定义的7种灾难恢复资源要素包括[2]:

(1)数据备份系统;

(2)备用数据处理系统;

(3)备用网络系统;

(4)备用基础设施;

(5)专业技术支持能力;

(6)运行维护管理能力;

(7)灾难恢复预案。

采用层次结构,逐层细化,并引入动态指标,得到灾难恢复能力指标体系架构,如图1所示。

图1 灾难恢复能力指标体系架构

在图1中,一级指标由国标灾难恢复资源组成,二级指标与三级指标主要依据国标规范性附录 A灾难恢复能力等级划分中对灾难恢复资源的要求提出,四级指标为细粒度指标,底层指标由性能指标组成。

2.1 各级指标建立过程

依据国标规范性附录对各能力等级灾难恢复资源要求,可进行归类,以数据备份系统与备用基础设施为例,分别如表1和表2所示。于是可建立其对应的二级指标,如图2所示。

表1 数据备份系统要求

表2 备用基础设施要求

图2 示例二级子指标示意图

根据国标对灾难恢复资源的要求描述[2],组织应根据灾难恢复目标,确定数据备份系统的以下内容:

(1)数据备份的范围;

(2)数据备份的时间间隔;

(3)数据备份的技术及介质;

(4)数据备份线路速率及通信设备规格要求。

确定备用基础设施的以下内容:

(1)与主中心的距离要求;

(2)场地和环境要求;

(3)运行维护和管理要求。

则可建立相应的三级指标,以备用基础设施子指标为例,如图3所示。

图3 示例三级子指标示意图

图4 示例四级子指标示意图

在图3中,工作时间与电力要求为动态指标,反映灾难恢复系统健康状态受日常变化因素影响的情况。

指标体系四级指标为细粒度指标,刻画技术细节,是指标与基础数据集的桥梁。依据相关标准对三级指标进行细化得到四级子指标。如对于数据备份系统,可依据国标要求,建立数据备份线路速率与数据备份线路与设备硬件2项四级子指标。对于备用基础设施,依据国标要求及《电子信息系统机房设计规范》[7],建立四级子指标如图4所示。

部分四级指标,如数据备份线路速率、数据备份线路与设备硬件等,其决定因素来自性能指标,包括磁盘性能、网络性能、硬件可靠性、处理性能等。由此,在指标体系底层建立性能指标,表3列举了部分典型的性能指标。

表3 部分典型性能指标

2.2 动态指标意义及分类

随着系统的运行,灾难恢复能力会产生明显变化,其原因包括:

(1)线路与设备逐渐老化,自然故障率上升。

(2)系统所在场地环境变化,如产生结露、电磁干扰等现象,威胁硬件稳定运行。

(3)系统安全漏洞、病毒感染、网络拥塞等导致关键业务受到威胁。

(4)灾难恢复建设初期,组织管理预案等的不完善及应急响应实施不熟练,影响灾难恢复的效果。

(5)企业频繁的人事变动或人才流失等,增大了数据灾难发生率,对灾难恢复工作产生影响。

综合以上,提出动态指标以刻画灾难恢复能力受外界因素的影响情况。

根据指标特性,将动态指标划分为以下4类:

(1)环境敏感指标。反映系统所处环境,主要指机房环境对系统的稳定运行及灾难恢复的顺利实施产生的影响。

(2)资源敏感指标。反映业务软件环境对业务连续运行的影响,主要由性能指标组成。

(3)时间敏感指标。反映硬件可靠度、失效率及平均寿命等,该类可靠性指标与时间相关,通过统计数据计算。

(4)管理敏感指标。反映组织管理变更对灾难恢复能力的影响,含组织结构调整及人力资源变动等。

3 灾难恢复能力指标度量方法研究

3.1 灾难恢复能力指标度量分析

依据动态指标分类情况选取适合的度量方法:对于环境敏感指标,各环境因素指标与其对系统影响程度存在一定关系,可采用模糊数学的方法,构建相应隶属函数将影响量化,存在环境因素组合影响情况时,还需采用逻辑树方法描述其间的逻辑运算关系;资源敏感指标系统性能指标对灾难恢复能力的影响程度度量可采用划分指标阈值区间,并构建逻辑规则库,以反映系统性能对灾难恢复能力的综合影响;资源敏感指标的网络性能指标对灾难恢复能力的影响程度度量,应主要从网络性能对灾难备份与恢复性能影响上分析,采用基于备份性能影响分析指标度量方法;对于时间敏感指标的度量,其对象为硬件等可靠度、失效率等,选取工业上较为成熟且已广泛应用的威布尔分析方法进行度量。

而对静态指标度量方法的选取较为直观,依据静态指标获得基础数据的类型不同,典型地,可将静态指标划分为符合性指标、行业性指标与模糊性指标。对于符合性指标,仅有符合与不符合2种结果,可直接指定赋值;对于行业性指标,即由于企业所属行业的不同,指标所参考的基准不同,应建立行业属性矩阵,通过计算绝对差或相对差的方法进行度量;模糊性指标,即指标参数与指标取值关系不明显的,采用模糊数学的方法进行度量。

本文主要针对动态指标度量方法进行研究。

3.2 基于阈值逻辑树影响分析的指标度量方法

阈值逻辑树影响分析指标度量方法即先对底层性能指标设定阈值,再通过构建逻辑树以建立逻辑规则库,从底层指标值计算得出综合动态指标。阈值逻辑树影响分析指标度量应用于环境敏感指标及资源敏感指标的系统性能指标度量。其步骤如下:

(1)设定性能阈值。如从内存不足角度设定内存可用字节数阈值为 5 MB,设定每秒内存分页数阈值20 Pages。

(2)构建逻辑树。当上述2个指标同时超过相应阈值时,可初步判断系统内存不足,2个事件间为“与”关系,如图5所示,则依据逻辑树可建立对应的逻辑规则库。

图5 逻辑树示意图

(3)影响分析计算。如造成内存不足的子事件有多个,依据其导致父事件发生概率的大小决定各自影响权重或子事件的影响值。设可能导致内存不足的子事件i导致内存不足的概率Pi,且Pi的最大值为内存字节数与每秒内存分页数均超过阈值的事件导致内存不足事件的概率P=0.73,则当上述2项子指标同时超过阈值时,内存性能值为:

3.3 基于网络性能影响分析的指标度量方法

网络性能指标用以度量网络性能对备份性能的影响程度。网络性能指标值可以通过度量其对灾难恢复能力的 2项重要性能指标恢复点目标(Recovery Point Objective, RPO)与恢复时间目标(Recovery Time Objective, RTO)的影响来计算。

数据在广域网传输过程中,网络性能瓶颈时有发生,由此导致的备份性能下降现象不容忽视。据Arsenal Digital估测,其成功的备份任务中有 94.5%需要达到3次连接尝试,且有超过6成的未成功备份任务的失败归因于网络瓶颈[8]。

如图6所示,设主站点到备用站点路径包含n段链路,第i段链路Li的带宽为Bi,承载的其他业务流总流量为 Fi,有瓶颈链路 Lbn带宽 Bbn、紧凑链路Lc带宽Bc、可用带宽Ba的关系如下:

图6 瓶颈链路示意图

假设主站点与备用站点的设备I/O对网络传输无影响,网络未拥塞,网络延时与备份时间相比忽略不计。设全备份周期Tb,第i次全备份总用时 tb(i),如图7所示,则信息系统的RPO上限Rmax= Tb+tb(i)。

图7 备份性能与RPO关系示意图

备份数据大小通常为线性增长或指数增长,通过线性拟合或指数拟合推断第 i次全备份的数据大小S(i),设备份时间区间的平均可用带宽为,于是得到第i次全备份总用时为:

设系统初始建立时的RPO最大值Rmax′,从而得到网络性能指标值W,且有:

当网络拥塞发生,导致网络延时。对于自适应心跳检测算法,会主动提高检测时间,从而造成 RTO下限提高,与往返时延(Round-trip Time, RTT)近似相等,即RTO下限Rmin≈RTT。

3.4 基于威布尔分析的指标度量方法

在目前所有适用的计算可靠性的分布中,威布尔分布是一种具有广泛适用性的统计分布函数。对于硬件系统可靠性分析,应用双参数威布尔分布较为常见,设备可靠度为R(t),有:

其中,β为状态参数,确定威布尔分布族中对于具体数据描述相关性最好的分布;η为比例参数或特征寿命,可以简单理解为63.2%的单元故障时的寿命。双参数均可从寿命数据中估计出。

平均故障时间(Mean Time To Failure, MTTF)和特征寿命η为Γ函数关系,其公式为[9]:

现在标准工程方法采用故障时间的中间值而非均值来划分寿命数据。根据中间等级寿命数据计算出β和 η。

威布尔分析分 4个步骤进行,并用 Matlab命令进行拟合:

(1)输入寿命数据将某路由器寿命数据输入data数组。

(2)估计威布尔参数

采用命令 parmhat=wblfit(data)估计威布尔双参数,默认取置信水平为95%。

(3)绘制威布尔概率图

采用命令 wblplot(data)绘制出威布尔概率,如图8所示。

图8 威布尔概率图

(4)拟合结果分析

采用Matlab拟合工具箱对拟合结果分析如下:

由此可得相关系数 r=0.986 2≈1,即线性相关性很好。决定系数r2=0.972 5,有97.25%的变量数据可由相关性解释。又有和方差SSE=0.045 69≈0,均方根RMSE=0.050 38≈0,表明拟合质量很好。

故采用威布尔分析设备可靠性的结果令人满意。

4 指标体系及其度量在评估中的应用

4.1 灾难恢复能力状态的评估

现有灾难恢复能力评估侧重于对硬性指标符合性的考察[10],所选取的指标体系也大多局限于有或无等粗粒度指标,对灾难恢复能力在灾难恢复系统运行的不同阶段所受到的变化因素影响细节缺乏考量,从而对系统灾难恢复能力状态细节难以准确把握。

本文提出的基于资源的灾难恢复能力指标体系,紧扣国标并围绕灾难恢复能力定义划分指标域,引入影响细节动态指标,加强了对灾难恢复能力细节的刻画能力,增强了评估的科学性与操作性。

4.2 灾难恢复能力性能的评估

灾难恢复能力性能主要受系统性能与网络性能影响,而灾难恢复任务的实施需要耗费一定的系统资源与网络资源。目前对于系统性能或网络性能对备份恢复性能影响的研究较少,本文对此进行了研究分析,并针对性地提出阈值逻辑树影响分析度量方法与网络性能影响分析度量方法。结合灾难恢复能力指标体系动态性能指标,有效刻画了性能因素对灾难恢复能力的影响,提高了灾难恢复能力评估的准确性。

5 结束语

为科学规范指导灾难恢复能力建设,本文提出基于资源的灾难恢复能力指标体系,并对其建立过程进行了阐述,该指标体系充分考虑到灾难恢复能力细节参量考察及各阶段动态因素的影响,解决了国标粒度粗与缺乏动态因素考察的问题。之后针对灾难恢复能力指标度量方法进行了系统的分析研究,并依据指标特性分类提出基于阈值逻辑树影响分析、基于网络性能影响分析及基于威布尔分析的指标度量方法,从而提供了指标与基础测量值之间的纽带,初步解决了国标“落地难”问题并提高了评估实施可操作性。最后,对提出的指标体系及其度量在评估中的应用进行了分析。

本文提出的指标体系及度量方法为科学规范的灾难恢复能力评估提供了基础,推动灾难恢复能力指标向更细粒度发展。然而,在灾难恢复能力评估中,评估算法模型及其权重的选择也是决定评估成功与否的关键因素,如何构建更加科学的评估体系和提高评估质量,还有待进一步研究。

[1]IDC Corp..IDC-Press Release[EB/OL].(2011-04-15).http://www.idc.com/getdoc.jsp?containerId=prHK22926311.

[2]中华人民共和国国家质监总局.GB/T20988-2007 信息安全技术 信息系统灾难恢复规范[S].2007.

[3]王胜航.IBM容灾白皮书[EB/OL].(2010-03-27).http://wenku.baidu.com/view/cdd6a0aad1f34693daef3e3d.html.

[4]Ueno Y, Miyaho N, Suzuki S, et al.Performance Evaluation of a Disaster Recovery System and Practical Network System Applications[C]//Proc.of the 5th International Conference on Systems and Networks Communications.Nice, France: [s.n.], 2010.

[5]赵 莹.信息系统灾难恢复能力评估与实证研究[D].北京: 对外经济贸易大学, 2009.

[6]陈敏刚, 董 军, 张丽亮, 等.AHP和模糊综合评判在灾难恢复能力评估中的应用[J].计算机工程, 2006,32(18): 135-137.

[7]中华人民共和国工业和信息化部.GB50174-2008 电子信息系统机房设计规范[S].2008.

[8]Calyam P, Arava P K, Butler C, et al.Network Tuning and Monitoring for Disaster Recovery Data Backup and Retrieval[EB/OL].(2005-05-08).https://www.osc.edu/files/staff_files/pcalyam/dr_tcp.pdf.

[9]金 星, 洪延姬.系统可靠性与可用性分析方法[M].北京: 国防工业出版社, 2006.

[10]王桠楠.信息系统灾难恢复能力评估方法研究[D].保定: 华北电力大学, 2006.

猜你喜欢

恢复能力数据备份度量
泉州高速公路收费系统远程数据备份研究
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
海洋数据备份平台的设计和实现
程控交换机的数据备份与恢复技术分析
No.4 IDC:2019年上半年数据备份与恢复市场同比增长10.0%
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
不同品种高粱幼苗在干旱复水过程中的生理生态响应
不同小麦品种苗期抗旱性的灰色关联度分析及评价
地质异常的奇异性度量与隐伏源致矿异常识别