APP下载

论银行业业务连续性计划IT保障

2009-01-06汤小苹

金融经济 2009年8期
关键词:容灾灾难演练

汤小苹

由于银行业在国民经济中的战略定位及其服务敏感性,其业务连续性计划(BCP)对于保证银行持续经营能力有着特殊重要的意义。本文结合国内银行业的实际情况,从IT管理者的角度出发,对银行业业务连续性计划的定位、制定、演练等做了一个初步的探讨

BCP计划的制定首先要明确本行面临的风险,包括自然风险、人为风险、硬件类型风险、应用类型风险;并对风险可能造成的损失进行评估,以指导后续应对计划的制定。

其次根据本行的实际情况,决策本行BCP计划的目标和指标;

然后根据目标和指标,通过技术手段和管理手段,明确整个BCP计划贯彻涉及到的组织结构、职责分工、技术体系、演练和维护环节等,保证整个计划的可落实性、可管理性、可维护性。

1、基本过程分析

1.1七级容灾和七级恢复

据国际标准SHARE78的定义,灾难恢复解决方案可根据以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。

0层-没有异地数据

1层-PTAI卡车运送访问方式

2层-PTAM卡车运送访问方武+热备份中心

3层-电子链接

4层-话动状态的备份中心

5层-两个活动的数据中心

6层-O数据丢失,自动系统故障切换

同样的,七级恢复包括:

O层:无异地备份数据

1层:有数据备份,无备用系统

2层:有数据备份,有备用系统

3层:电子链接

4层:使用快照技术拷贝数据

5层:交易的完整性

6层:少量或无数据丢失

7层:解决方案与具体业务相结合,实现自主管理

1.2业务连续规划基本方面

本业务连续性规划包括以下几个方面的主要部分:

灾难类型分析

业务冲击分析

当前业务环境及恢复能力分析

容灾策略制订

容灾方案设计

业务连续性流程设计

业务连续性流程及容灾方案管理和测试

其过程如下图所示,是一个周而复始的过程,随着银行内部环境的变化随时灵活变化

阶段一、灾难类型分析(风险分析)

在本阶段,需要进行详细而量化的风险分析,以确定当前IT环境之中存在哪些无法接受的物理威胁或者可能发生的灾难,并对灾难发生的可能性、目前可能的防护措施的有效性和该灾难所威胁的资产价值进行分析,最终得到带有优先级别的需要防护的灾难列表,并制订可能的处理方法,如接受该灾难发生的风险而不进行防护、自行制订该灾难的防护方法或者采取购买保险等风险转嫁策略。

阶段二、业务冲击分析

在本阶段,应该针对各种业务流程进行分析,通过走访各业务部门的相关人员,了解各种业务流程本身对该银行的重要程度。(例如在银行业里,储蓄和单据、网上支付、电话银行等业务就具有不同的优先等级。)同时根据一定的评判原则,得出在核心流程由于灾难的发生而无法正常进行时对银行本身的损失情况。这种损失可能是可以量化的,例如单据的丢失、计算的错误而导致的直接损失;也可以是无形的损失,例如客户满意度及竞争优势的丢失。通过对可量化和不可量化损失的综合考虑,得出各种核心业务流程由于灾难受损的可容忍程度及损失的决策依据。体现在IT系统上,是三个指标

数据恢复点目标(RECOVERY POINTOBJECTIVE):体现为该流程在灾难发生后,恢复运转时数据丢失的可容忍程度;

恢复时间目标(RECOVERY TIMEOBJECTIE):体现为该流程在灾难发生后,需要恢复的紧迫性也即多久能够得到恢复的问题;

网络恢复目标(NETWORK RECOV—ERY OBJECTIVE):即营业网点什么时候才能通过备份网络与数据中心重新恢复通信的指标;

阶段三、容灾环境分析

本阶段主要针对业务冲击分析的结果,对目前的内部环境进行评估,得出与恢复目标之间的差距。分析的对象为业务流程需要的资源,如IT环境等。通过本阶段的工作,得出各业务流程所牵涉的银行资产及资源(人力资源、IT架构、技术储备、技术使用程度、网络环境等),并分析得出目前的业务环境对客灾需求、冗余程度、可能造成的数据损失是否能够支持等方面的报告。

阶段四、容灾策略制订

在本阶段,结合以上各阶段的分析成果,以及银行本身在容灾上的投入能力,制订银行短期、长期范围内的容灾策略和目标,并有意识地将银行本身的人员组成和组织架构做出调整以适应策略要求。最重要的是制订出容灾实施步骤,优先解决最为重点的问题。

阶段五、容灾方案设计

容灾方案可供选择的范围很大,但所有的容灾方案都必须考虑的因素包括恢复时间、实施与维护容灾策略所需的投入等。容灾恢复时间的需求越短,所需的实施成本就越大,实施难度也就越高。

阶段六、业务连续性流程设计

有了IT系统的恢复方案,只能够保证在灾难环境下,IT系统的恢复能够保证业务冲击分析的目标,但是业务的连续性并不只是IT系统的恢复,还包括办公场地、办公设备、紧急流程、指挥架构、人员调度等等多方面、各部门的综合考虑。只有业务流程执行过程的每一个环节都达到容灾目标的要求,才能够认为业务冲击分析的目标得到了满足。一般来说,每个银行都应该设立一个由领导挂帅,各业务部门和IT部门联合组成的一个容灾指挥小组:由该小组指挥,IT部门和业务部门分别执行,IT恢复计划和业务连续性计划才能得到同步,从而达到容灾设计的目标。

阶段七、业务连续性流程及容灾方案管理和测试

任何制订的计划,都必须经过不断的测试和修正,才能满足银行不断发展的需求。同时,通过测试过程,也能够使银行内部各部门及人员熟悉自己在业务连续性计划中所扮演的角色,做到胸有成竹,才能够在灾难真正发生的时刻有条不紊地开展恢复的过程。

2、步骤一:危险评估和定义

2.1分类

危险评估的主要目的是从IT管理者角度出发,对于本行可能遇到的危险进行评估和分类,并提出应对方向和原则。

我们将危险划分为自然灾害类型危险、人为类型危险、硬件类型危险、应用软件类型危险。

对于每类危险应该明确其类别、危险程度、发生可能性、主要预防和预防措施。

例如针对应用软件类型,我们可以定义:

2.2业务影响分析

失效损害定义:业务分析影响主要是针对各类危险进行综合评估,对我行功能影响进行评估,从而指导BCP目标的制定。

首先,需要定义基本功能表。此表对IT系统进行全面整理,区分系统内交易和系统外交易,并且对其失效后可能造成的损害做一个评估。评估可以按照交易发生频率、交易失效后人替代交易或者人工交易是否可行、是否是关联外系统的交易等等方面综合考评,并精确定义失效损害。

其中对于特殊业务的渠道要特别注意,例如电话银行业务,其中的挂失业务作为非营业时间紧急口头挂失的唯一途径,其失效性质是非常严重的。

允许失效定义:在上述失效损害定义的基础上,结合本行的实际情况对允许失效的交易功能进行定义。

允许失效的功能可以划分为以下两类:(1)非基本必须业务。例如柜面通等业务。(2)可替代业务。通过其它途径可以达到同样目的的业务。例如借记卡行内交易可以通过柜面完成、行内资金管理业务可以通过手工传单办理等。

2.3新客户业务。银行在遭受巨大灾难的时候,首要目标是保持现有客户的基本服务功能,对于新客户业务可以暂时不办理。

2.4管理业务。主要是行内管理业务,可以通过手工方式予以办理。

最大可承受/允许失效建义:进一步的在上述基础上定义最大可承受/允许失效的功能。超出这个定义范围之外的功能是必须保证的。这个定义规则和允许失效定义形成了两层隔离,以便于针对不同情况作出不同安排,并确定BCP计划承受的失效底线。

3、步骤二:BCP目标制定

明确了系统功能范围,对可允许失效功能和最大失效功能进行定义后,需要对业务恢复进行定义。

首先要定义业务恢复所需要的资源:

其次要定义业务恢复的顺序和恢复,时II间等要求。

业务恢复资源定义

业务的恢复涉及到硬件资源、系统软件资源、应用软件资源、业务要素资源。我们针对每类必须恢复的业务分析其需要的上述备类资源,从而能明确在恢复时候的目标。

例如对于网上银行业务,其需要的硬件资源有网上银行WEB服务器、网银应用服务器、硬件防火墙、证书服务器、核心主机存储网络系统等;其需要软件资源有网上银行应用平台、证书服务软件、安全代理软件、系统软件等。这样就可以明确定义恢复时候的恢复序列及其操作步骤。

业务恢复等级和目标:针对我行定义四种功能恢复等级。分别是:

a)IT基础一这是所有功能恢复的前提。他的恢复时效我们定位于2小时。

b)关键功能——如果这类功能被中断或失效,就会彻底危及银行的业务并造成严重损失。我们定义其恢复的时效为4小时。

c)必要功能

银行可以继续运营,但这些功能的失效会在很大程度上限制银行的客户服务效率,我们定位其恢复失效为1天。

d)有利功能——这些功能对银行是有利的;它们的缺失不会影响银行的运营能力;对于运行效率有影响,我们定位其恢复失效为3天。

影响分析可以确定各类业务功能的优先顺序,换句话说,也就确定了各业务功能的优先恢复顺序。在一次灾难之后恢复业务运营时,首先恢复部分功能就足够了,比如说在24小时内先恢复日常业务的40%就够了。

除了确定恢复的时序、恢复最大允许的时间外,还需要精确定义每部恢复之间的相互依赖关系。例如核心应用的恢复依赖中心主机、中心存储、sAN网络、中心网络等IT基础的恢复。

4、步骤三:实施和维护

4.1组织机构

业务恢复所需要的组织机构和日常业务办理所需要的组织结构不同。其关键在于:

(1)决策机构。明确具体的决策机构,根据决策依据下达业务恢复指令。决策依据需要需要详细描述灾难类型、灾难表现、启动恢复的标准。

(2)在具体实施的时候,要将全行各人力资源进行重组,划分为BCP领导小组、BCP管理小组、EDP执行组三个层次。每个层次按照其具体职责决定其在业务恢复中的角色和权利。

上述关系如下图所示:

4.2操作和演练

定义恢复时序表:在上述危险评估和定义、BCP目标制定的基础上,精确定义业务恢复的时序表。其基本原则IT基础为第一环节;关键功能为第二阶段;必要功能为第三阶段;有利功能为第四阶段。每个阶段内在详细划分为不同的子目标,井明确顺序、并发、交错等时序关系。

定义操作手册:针对恢复是续表中的每步恢复日标,定义恢复操作手册,明确具体的操作方法。主要包括技术操作说明书、业务管理说明书、风险防范措施等。

定义演练手册:BCP计划制定后,必须通过演练来使得全行各职能部门熟悉和掌握整个业务恢复的过程,同时检验各技术条件是否完备。否则只有计划而没有演练,将可能导致各种不可预料的后果。

演练计划的制定要充分考虑的是和现有真实生产的关系。对于IT部门要仔细考虑演练技术环境和生产技术环境的关系;对于业务部门要仔细考虑演练账务环境、管理手段和生产之间的差异。

演练需要准备的预案和备案主要包括:

演练计划

各部门、岗位操作手册

主机环境表

存储环境表

网络环境表

用户环境表

特殊管理凭证清单等等。

猜你喜欢

容灾灾难演练
首次演练
雷击灾难
灾难报道常见问题及反思
关于建筑企业容灾备份系统方案的探讨
基于中兴软交换的电力通信网络容灾系统建设
未雨绸缪演练忙
基于数据容灾技术在企业信息系统中的应用研究
灾难不是“假想敌”
防范“抗生素灾难”
实施存储虚拟化及应用容灾保障医院信息系统业务连续性