APP下载

信息系统应急预案编制及其演练

2015-02-11崔学毅

铁路计算机应用 2015年7期
关键词:预案演练信息系统

崔学毅

(北京铁路局 信息技术所,石家庄 050000)

方法与应用

信息系统应急预案编制及其演练

崔学毅

(北京铁路局 信息技术所,石家庄 050000)

信息系统应急预案在编制中应充分注意应急预案、专项应急预案和现场处置方案3者的关联关系;所形成的应急预案应充分考虑应用和设备的内在关系,同时需要通过不断地模拟和近似实战的演练加以完善和优化;特别指出,应急预案不是一本孤立的文案,更需要将其纳入日常运行维护工作的范围,注重应急处置的判断过程,重视技术升级优化和应急处置后的恢复工作。

应急预案;编制;演练

信息系统应急预案不但要针对某个信息系统及其数据本身,还应包括支撑其运行的操作系统、数据库系统、以及相关的中间件;也应包含涉及该信息系统可靠运行的所有计算设备、存储设备、网络设备、机房设备、以及容灾系统、通信系统、电力系统等支撑系统或设备;更应包含保障该信息系统应急预案实施的管理和组织行为。

1 信息系统应急预案的架构组织

信息技术所作为铁路信息系统运行维护生产的一个专业单位/部门,由于信息系统独有的网络应用特性,信息技术所应急预案体系必须要按照《生产经营单位生产安全事故应急预案编制导则》要求,建立《信息计算所应急预案》作为单位/部门级别应急状态下的纲领性组织文件,将影响全局的重要信息系统或设施合理地划分为若干个《信息系统专项应急预案》作为支撑预案,以遍及重要信息系统各个环节的《专业现场处置措施》作为专项应急预案的支撑。由此形成信息部门一套完整的信息系统应急预案体系。

1.1 信息技术所应急预案

《信息技术所应急预案》从属于综合应急预案级别,它是生产经营单位应急预案体系的总纲。其重点是解决应急处置期间生产经营单位的应急组织机构及职责、应急预案体系、事故风险描述、预警及信息报告、应急响应、保障措施、应急预案管理等工作。

鉴于信息技术所重大的安全生产问题均会影响铁路局整体的运输经营活动,且一旦信息系统或支撑该信息系统的某一个环节崩溃或者失效,相关专业的应急预案就需要启动。基于这一实际情况,信息技术所安全生产的重大问题必须通过信息技术所的行政管理行为进行干预,必须通过建立一套基于行政组织行为的综合性应急(组织)预案予以保证。在这个应急预案中,信息技术所应急组织机构和职责必须与铁路局应急预案有序衔接,专项应急预案必须纳入铁路局的应急预案体系,预警及信息报告和应急响应必须与铁路局相关体系形成闭环。

1.2 信息系统专项应急预案

信息技术所专项应急预案从属于对铁路运输和经营活动产生重大影响的应急预案级别。是对信息技术所重要生产设施、重要应用系统和重大危险源进行分类整合,由此所形成模块清晰、相互不相交叉的专项应急预案。主要包括事故风险分析、应急指挥机构及职责、处置程序和措施等内容。

信息技术所保障信息系统运行的重要生产设施可以大致分类为:机房保障设施、网络设备及其冗余设施、计算机/存储设备及其冗余设施、系统/数据库及其实时(备份及恢复)设施以及信息系统自身代码及其容错设施。信息系统最大的危险源主要有自然灾害、火灾危险、供配电停电危险。

就分类级别角度分析,自然灾害、火灾危险、电力停电危险将直接导致全部信息系统的崩溃,危及到铁路客货运业务的整体混乱,因此这些风险在应急预案中应列入最高级别(一级),涉及本级和上一级信息系统应用的中心网络及其冗余设施失效同样具有电力停电一样的危险度,故也应纳入最高级别。

信息系统自身代码及其容错设施失效将导致信息系统整体崩溃,危机到单个铁路业务停顿,这种风险相对所有信息系统崩溃影响范围较小,在信息技术所中和应急预案中应该列入次要级别(二级)。部分应用相关的核心网络设备及冗余设施同时故障、计算机/存储设备及其冗余设施同时故障以及系统/数据库及其实时(备份及恢复)设施同时故障,也会造成单个或多个信息系统停顿,在信息技术所和应急预案中也应该列入次要级别(二级)。

部分机房环境设施(如空调)故障、次要网络设备及冗余设施同时故障、集群部分设备同时故障,造成部分区域应用停顿,需要业务部门启动一定范围的应急预案,在信息技术所应急预案中应该列入次要级别(三级)。

1.3 信息系统现场处置方案

现场处置方案不同于应急方案,应急方案表征的是对信息系统故障延时所引发为事故的协调组织特性,现场处置方案则表征的是对信息系统故障排除的技术处理特性。

针对信息专业而言,应急处置措施不同于现场修复,是需要通过替代(故障系统或设备)、短接(跨接故障节点)、转移(应用系统或载体)、减少(负载或负荷)、缩减(应用规模)、整体或局部降级等方式的现场处置措施。

现场处置方案应主要包括事故风险分析、应急工作职责、应急处置和注意事项等内容。信息技术所需要对所辖的所有在线信息系统/设备以及连接到应用终端的网络径路进行全路径筛选,确定可能造成整体或局部瘫痪的关键项点,组织相关技术人员编制出可以通过替代、短路、转移、减少、缩减或降级等方式的现场处置方案。

现场处置方案的立足点应是缩短故障处置时长、其目的就是尽快恢复应用单位的现场运用或尽量减轻对运用单位的干扰时间。因此应急处置过程简单、有序是编制现场处置方案的核心。

综上所述,一个完整的信息系统专项应急预案是一个专项应急预案和若干个专业性现场处置方案的有序组合。对以往已经纳入到应急预案而其故障并不会影响安全生产的冗余系统或设备的处置措施,确需重新审定、斟酌并剔除。

2 信息系统应急预案的演练组织

应急预案演练是对应急预案编制结果的主动检测。而应急预案实际启动则是现场出现真实故障的被动应对。所以,应急预案的演练是应急预案体系中最为重要的日常性技术保障工作。

信息技术所信息系统应急预案演练具体体现在现场处置方案的演练。由于现场处置方案对专项应急预案的紧密关联,每一个专项应急预案的演练同时会波及到信息技术所的综合性应急预案,也会波及到相关专业的应急预案是否需要模拟或真实启动。

基于应急演练对运输生产具有影响的特性,信息系统不同类型的应急预案演练的形式、范围、频次、内容必须在有计划的前提下展开,要尽力选择对运输生产影响最小的时段内进行。应急演练结束后,必须组织对应急演练过程及结果进行评估、总结。

应急预案演练的形式应该是多样化的,信息技术所应急预案和专项应急预案在每一次现场处置方案演练时都会启动,考虑到线上应急处置演练对生产的实际影响,应将线上演练和线下测试相结合、模拟演练和验证性演练相结合,由此实现对现场处置预案自身的不断完善、补充和改进。

3 信息系统应急预案需要注意的若干问题

信息系统应急预案编制和演练过程中,除按照国家《生产经营单位生产安全事故应急预案编制导则》推荐的内容外,还有以下几点需要特别注意。

3.1 应急处置预案需要日常维护工作的有力支撑

目前,铁路重要的信息系统都采用了冗余系统,这些冗余系统主要分布在应急预案所涉及的关键部位,一旦冗余系统失效,将会对运输生产产生大范围的影响。因此冗余系统日常的维护工作则显得更加重要。冗余系统的线上和线下检测和测试,其频度要大于相关现场处置方案的演练。将冗余系统运行状态实时监测起来,一旦出现问题必须在最短的时间内给予修复。与此类同,除设备级别的冗余外,系统/应用/数据软件及其实时备份系统也必须实时监测起来,并及时处理任何异常状态。

确保应急系统及数据的一致性检查和冗余设备的可用性维护,既是避免应急预案被动启动的基本保证,也是确保应急处置预案能否正确切换、替代和转移的基本保证。

3.2 应急预案必须关注结合部的有组织判断

信息系统故障有其特有的复杂度。例如操作系统、应用系统、数据库系统以及中间件之间有着千丝万缕的关系,一个表象后面可能是多种问题的集合。再如计算机设备、存储设备和软件系统也有着极其密切的依赖关系,一个软性故障可能包含着硬件故障。还有网络故障包含着通信专业问题等。

当一次现场处置方案启动时,最关键的组织行为就是要在最短的时间内确定故障点,以便最快的速度启动相应现场处置方案。而其中最重要的是参与故障判断人员的专业技术水平和能力。因此,很有必要建立一个本单位/部门的专业技术专家组,实施有组织的故障诊断,其诊断结果和意见作为专项应急预案和信息技术所综合应急预案的专业决策依据。

3.3 现场处置方案需要新技术的不断引入

现场处置预案是根据不同故障类型,针对具体的场所、装置或设施所制定的应急处置措施。制定现场处置预案的根本原因是在目前使用的装置与设施中潜在着功能失效和崩溃的危险。

这些危险大致为:截至目前IT业暂时还没有较新的技术能够有效解决,或者已经有了解决方案,但由于投资过大,企业暂时无法给予投入,或者已经采用了最新技术但依然存在小概率失效风险。

为此,需要在制定应急预案的同时,对具有重大影响的装置和设施实行有计划的技术改进和投入,由此不断降低重要节点的危险系数。此外还需要对处置过程繁琐的现场处置方案进行筛选和优化,要通过新技术和新设备的引入去替代并简化应急处置措施,努力提高应急处置的时效性。

3.4 现场处置方案必须兼顾处置后的恢复和还原

现场处置方案重点是应急处置的实现过程,在编制现场处置方案时,还必须兼顾应急处置后的恢复和还原过程。应急处置快速有效而恢复时影响铁路运输生产的事件却远大于应急处置时间,这样的结果反映出现场处置方案的不完整性。

因此,一个好的现场处置方案不但应急处置快速有效,同时兼顾应急处置后恢复及还原工作的简单有序。这就需要在信息系统及其相关设施的设计和实施前,必须充分考虑到系统架构对应急处置的影响。对架构性问题,要在编制现场处置方案的同时或之后进行必须的改进。

4 结束语

信息技术所应急预案的编制和演练,只有密切结合信息技术自身的技术特性,才能编制出一套切实可行的应急预案及其体系;只有实施演练,才能确保应急预案的有效性;只有不断从技术和组织方面进行完善,信息系统的安全才有基本保证。

[1]中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T29639-2013生产经营单位生产安全事故应急预案编制导则[S]. 北京:中国国家标准出版社,2013.

责任编辑 方 圆

Formation of emergency plan for Information System and its drill

CUI Xueyi
( Institute of Information Technologies, Beijing Railway Administration, Shijiazhuang 050000, China )

Attention to the relationship among emergency plans, special emergency plans and site disposal program should be paid in the formation of emergency plan for Information System. The internal relation of application and equipment should be considered in the formed emergency plans. The plans should be improved and optimized by continuous simulation and actual drill. The paper pointed out that the emergency plan wasn’t a isolate copywriting, it should be brought into daily operation and maintenance work. The judge process, technological upgrading and recovery efforts after emergency disposal should be taken seriously.

emergency plan; formation; drill

U29∶TP39

A

1005-8451(2015)07-0035-03

2015-01-23

崔学毅,高级工程师。

猜你喜欢

预案演练信息系统
企业信息系统安全防护
黑龙江省人民政府办公厅关于印发黑龙江省防汛应急预案等3部应急预案的通知(上)
黑龙江省人民政府办公厅关于印发黑龙江省防汛应急预案等3部应急预案的通知(下)
基于区块链的通航维护信息系统研究
统计知识综合演练B卷
信息系统审计中计算机审计的应用
未雨绸缪演练忙
紧急预案
基于ADC法的指挥信息系统效能评估
应急预案的编制