APP下载

多云环境下容灾管理系统建设

2021-01-13陈世亮

计算机与网络 2021年21期
关键词:容灾预案演练

陈世亮

随着企业IT系统的建设,决策者已经意识到不能依赖单一的云环境,需要建设多云环境来承担技术的风险。多云建设带来容灾的挑战,如何建设完整的容灾管理系统,统一进行容灾调度,来提升企业抵御多云下防范风险的能力。本文在分析某公司现有环境下,基于业务连续性针对其业务和IT系统特点,提出了一种适应该类公司业务系统的容灾管理系统建设方法。

某运营中心承接集团各类营销渠道的规划、建设、日常运营以及推广拓展等工作。考虑到业务系统的健壮性,在北京、广州和上海建设了3个云资源池,分别部署不同的业务。随着业务的发展,3个云资源池陆续出现一些运营上的问题,主用系统出现故障后,无法快速地切换到备用系统,而且从故障出现到故障判断、决策,准备切换到真正切换耗时良久,导致业务长时间中断,对生产经营产生了严重的影响,造成了重大经济损失。为了解决快速切换问题,运营中心提出容灾管理系统的建设需求,目标是解决由于故障导致长时间业务中断问题,以实现快速切换业务,提升业务连续性。

对运营中心进行调研分析,IT系统现状如下:在上海云资源池部署互联网卡系统、自营支付系统、网厅系统以及实名系统等,在广州和北京部署了部分业务系统如订单查询、系统报竣等。在广州和北京部署了网厅、互联网卡以及自营支付和实名等系统的备用系统,部分查询功能在这2个节点实现。在资源池之间已经建立了数据同步机制,在上海和广州之间搭建了基于存储的复制体系,核心数据库可通过存储进行同步,在上海和北京之间搭建了基于OGG的数据库复制体系,核心数据库通过日志方式同步。应用系统之间尚未建立同步机制,采用同步部署的方式以及版本发布同时进行的方式保持数据一致。

基于上述IT现状,分析后可知3个资源池之间已经具备了应用切换的基础,但要实现快速切换还需要增加应用之间的同步,通过应用复制软件将上海的文件同步复制到广州和北京,满足三朵云之间的数据一致需求,考虑到广州网络条件更好,优先切换到广州。根据现状,制定容灾系统建设的思路:将部署在上海的自营支付系统、互联网卡系统和网厅系统纳入到容灾管理系统,通过容灾管理系统进行DNS管理和切换管理,配合灾难恢复预案、灾备演练方案以及容灾运营方案,实现上海出现故障后,能够自动快速地将业务切换到广州或者北京,RPO和RTO都达到30 min以内。运营中一旦上海出现灾难,则采用系统阈值判断或者通过人工干预方式启动切换系统,通过调用切换引擎驱动应用系统和数据库的切换,进行相应的配置更改和通报,实现业务系统的完全切换,达到业务连续的目的。

根据上述思路,构建容灾管理系统功能体系,包括预案管理、应急管理、切换管理及演练管理等主要功能以及关联关系管理、配置管理、日志管理及业务验证等辅助功能。其中预案管理用于灾难恢复预案的统一管理,用户采用拖拽方式将文本预案的各个环节录入到系统,形成电子预案。组织结构和流程等因素将绑定到流程中,充分降低预案管理的工作量、难度和复杂度。预案管理实现的功能包括预案控制、模板控制、流程关联以及报表关联等。

演练管理用于保證业务连续性计划和预案可以得到持续、全面的检验。通过演练,各部门熟悉紧急事件处理的过程和方法以及部门人员间的分工和协作机制,从而保证业务连续性计划可以长期有效的执行。根据演练的目的不同,有桌面演练、模拟演练及实战演练等不同的方式。演练管理实现功能包括演练流程管理、脚本管理、过程管理及大屏展示等。

切换管理则是以任务控制模块为核心,构建高度可伸缩的、具备容错性的切换管理自动化引擎。引擎构建后根据预先定制的场景和切换步骤对整个系统切换做自动处理,以不同用户在不同主机系统上执行切换指令来实现系统的自动化切换。切换自动化管理包括脚本管理、流程设计和部署、流程关联以及脚本关联等。

应急管理是对突发事件发生后所采取的措施和行动,是确定是否进行灾备切换的前期过程,包括事件上报、灾难预警、灾害评估和灾难宣告等步骤。当发生灾难事件时,在事件上报模块中上报,接着在灾难预警和灾害评估中对此事件进行分析,最终在灾难宣告中确定是否进行灾备切换。

运营中心在3个云资源池之间部署了容灾管理系统并根据业务系统和组织架构的特性,对容灾管理系统进行配置。首先,配置容灾管理的岗位、角色和权限,将主机、存储及网络等基础信息录入到系统。其次,在预案管理模块中配置了3个电子预案:自营支付系统切换预案、互联网卡系统切换预案以及网厅系统切换预案;随后,梳理3个业务系统的启动流程,把应用的启停、数据库的启停、数据库的连接、存储的挂载、网络的切换以及DNS域名解析的修改等各种脚本配置到切换管理的切换引擎中,通过切换引擎将脚本和各业务系统主机进行关联绑定,同时将组织、角色和切换步骤进行绑定。此外还有应急管理、日志管理以及报表管理的相关配置。

流程配置后,可以进行模拟演练和实战演练。模拟演练时将关联的脚本进行失效处理,主要检查流程是否正确。经过多次演练,可以确保规划的演练和切换流程符合预案。模拟演练成功后进行实战演练,实战演练中,首先模拟生产中心故障,停止生产系统服务。容灾管理系统检测到故障后自动启动广州的切换模块,进行整体切换并修改域名解析;然后通过业务验证模块进行自动验证,整个过程在指挥中心的大屏上展示。在实际演练中,整个切换步骤在10 min左右,加上应急评估和决策时间,基本控制RTO在30 min以内,达到了系统建设的目的。

实践证明,在多云环境下部署自动的容灾管理系统可以对业务系统进行统一管理,一旦某个节点发生故障后,可通过系统中一系列预置的流程和方法对业务系统进行自动处理,达到业务连续的目的。

猜你喜欢

容灾预案演练
Oracle MAA在汽车行业电子政务平台中的应用
校园一卡通服务端高可用性改造实施方案
紧急预案
推动应急预案科学好用
完形填空分级演练
应急预案的编制
完形填空分级演练
降低容灾门槛
应急预案岂能“纸上谈兵”
阅读理解实战演练