APP下载

信息系统应急保障策略

2018-03-30吴健宝

电子技术与软件工程 2017年16期

吴健宝

摘要

随着科学技术的发展,电子化业务系统代替手工处理称为主流;信息系统作为业务应用的关键支撑,其面临的各种风险将对对业务连续性造成致命影响。本文结合电网企业实际情况,对信息系统面临的风险以及应急保障策略进行了分析和探讨。

【关键词】业务应急 风险梳理 保障策略

1前言

随着业务系统规模的不断扩大,信息系统面临的运维风险也越来越高,风险的范围越来越大,如:主被动系统故障、人为误操作、火灾、水灾、传输中断、等,同时日益激烈的市场竞争和不断提高的客户服务质量需求对信息系统支撑能力和可靠稳定运行提出了更高的要求,迫切需要建设一套完整的应急保障体系,来全方位保障业务应用的安全稳定运行。

经过数年的建设,信息化系统已逐步积累了应对处理各种风险的保障措施,如备份、高可用、应急系统、容灾系统等,同时结合日常维护工作中发现的问题,进行了细化归类,形成了全方位风险场景和应对措施,通过在此基础上进一步建立完善全网信息化系统的应急保障体系和相关指标要求,可更敏捷、高效的应对各类突发事件挑战,提高信息化系统的抗风险和业务连续性能力。

2 风险分析

电网企业信息化系统在运行过程中存在各种可能导致系统运行异常或中止,造成企业和客户无法进行正常业务操作,业务中断将导致客户和公司利益遭受重大损失。

系统风险管理首先对业务运营支撑系统进行风险评估和风险分析,然后将面临的各种风险进行分类,针对每种风险和常见场景制定相应的业务连续性保障措施,对于保障措施不能覆盖和应对的残余风险,需要制定改进计划,通过不断完善和持续改进,促进应急保障体系的健全和完善。风险梳理过程如图1所示。

2.1 系统面临的风险

现阶段电网企业信息系统主要面临的风险有计划外风险和计划内风险两种:

计划外风险:主要指不可预测的人为或自然的原因,造成业务系统运行严重故障或瘫痪的情况,这种风险不可避免,主要包括:自然灾害、人为误操作、恶意破坏、硬件故障:电源空调故障、应用软件故障、系统软件故障等。

计划内风险:主要指由于系统本身的变更需求,造成的可事先预知但不可避免的业务中断的情形。包括应用软件上线、系统软件升级及维护、硬件扩容及维护等。

为有效应对各种突发的、人为的、自然的可能威胁信息化系统业务连续性的风险,必须提前进行风险分析,分析各种风险发生的可能性,并定量或定性描述各种风险可能造成的影响。进而通过技术和管理手段,防范各种风险的再次发生。

2.2 系统风险分类

按照风险分析的要求,在信息化系统业务连续性保障的实际工作中,面临的风险可以分为以下几类:

2.2.1 接入层的风险

接入层一般都采用DNS技术、负载均衡技术、集群技术等,在出现单点故障时业务影响一般较小,风险相对较小,但是在特殊情况下,比如网络故障、负载均衡器双机同时故障、集群全部节点故障、应用逻辑混乱等情况下,仍会引起灾难事件发生。

2.2.2 中间件层的风险

中间件层一般也采用集群技术、高可用切换技术,但由于中间件层承担了核心应用逻辑功能,在软件版本逻辑混乱、数据异常、集群故障等情况下也可能引起灾难事件发生。

2.2.3 数据库层的风险

数据库层是数据的核心所在,一般都采取并行处理或主备模式,在单点故障下一般影响业务较小,但是存储故障、网络故障、数据库本身运行异常、数据逻辑错误等情况下如短时间无法恢复,则对客户感知影响较大,风险等级高。

2.2.4 后台应用的风险

后台应用承担如系统关键接口、计量等关键业务,一般采用双机或集群技术实现高可用,但是出现文件系统故障、网络故障、集群故障等情况下,风险较大。

2.2.5 动环设施的风险

电力、空调是设备正常运行最基础的设施,一般机房都配备双路供电、冗余空调等来确保环境安全。在单路电力故障、空调故障等情况下一般不会产生影响,但如出现严重电力、空调故障时,有可能会引起整个机房设备运行异常,从而大面积影响服务,风险等级很高。

3 应急保障策略梳理

如图2所示,为确保业务保障能力,各供电局信息中心应建立包括数据备份、本地高可用、应急系统乃至容灾系统在内的阶梯式应急保障体系。通过实施阶梯式应急保障体系,涵盖解决目前信息化系统主要面临的风险的各项措施,最终达到提高信息化系统的抗风险和业务连续性能力的目的。

3.1 数据备份保障

最基本的系统保障手段之一,通过定期或不定期的备份增加核心数据的安全性,备份介质可包括传统物理磁带或是虚拟磁带库设备。应建立涵盖关键业务数据库、关键主机操作系统、重要历史数据、核心应用程序等在内的备份恢复措施来保障系统数据安全。但由于数据量大磁带恢复时间较长,一般在小时级,其应用范围主要是提供最基礎的数据恢复手段。

3.2 本地高可用保障

主要针对生产中心内单点故障的应对措施,是应急保障体系下常用的一种保障措施,应针对关键业务和系统建立没有任何单点隐患的本地高可用系统,如采用双机热备应用自动接管、磁盘镜像、节点集群、双网卡绑定等相关技术。根据采用的技术不同,业务的影响时间也不同,例如采用集群技术、双网卡绑定等,发生故障时影响业务时间在秒级,而双机热备接管技术由于还需要进行应用接管影响业务时间一般在分钟级。

3.3 应急系统

主要为信息化系统提供最关键业务的迅速恢复能力,针对关键业务和关键渠道,在出现不同级别的系统故障或主动维护场景如系统升级、新业务上线等情况下,在不需要启动容灾的前提下,建立快速应急机制,让用户可以通过应急系统,在故障期内办理关键业务,从而降低用户的负面感知,保障关键业务连续性。根据采用的技术和手段的不同,应急系统一般需要分钟级别的业务恢复时间。

3.4 容灾系统

主要是应对各类重大系统风险,如系统重大故障、人为误操作、火灾、水灾、传输中断、电网停电等,造成生产完全中断且无法短时间恢复。为了应对这种灾难性的突发事件,可以通过容灾系统来满足业务连续性的要求。正常情况下容灾系统对核心生产系统的数据进行实时或准实时的复制,在灾难性的事件发生后,能够将核心业务切换到容灾系统,恢复关键系统运行。根据采用的技术和手段的不同,容灾系统一般需要小时级别的业务恢复时间。

根据对信息化系统面临的常见的风险进行分析,四层保障措施主要应用场景如表1所示。

4 结束语

通过对信息化系统风险分析和应急保障策略的梳理,以最大化降低服务的影响为核心,同时配备相关人员组织和资源保障措施,制定完善的流程,并采用合适的技术手段,达到在特定系统故障和风险情况下快速恢复系统和业务的目的;从而建立起一套完善的应急保障体系,以满足业务需求,确保更好的系统业务连续性。

参考文献

[1]徐海东,陈欣,刘楠,魏丽红.应对挑战建立完善的网络与信息安全保障体系[J].电信科学,2010(07).

[2]毕士金.加强商业银行业务系统应急保障机制建设[J].金融电子化,2010.

[3]程正刚,房鑫炎,俞国勤,包海龙.电力应急体系脆弱性评估指标体系的编制[J].华东电力,2010(02).

[4]许振宇,郭雪松.基于用户满意的应急管理信息系统评价研究[J].情报杂志,2011(03):161-165.