信创云环境的灾备体系建设
2022-04-29黄嘉伟
黄嘉伟
随着我国自我创新技术的不断发展,电子政务系统已率先开始将应用迁移至拥有自己核心技术的信创云上。当前信创云正处于云架构不断完善、云组件逐步丰富的过程。如何在信创云不断变革发展的过程中,为信创云上的应用系统建立保障有效的灾备体系已成为业界关注的问题。针对上述情况并基于信息系统灾难恢复规范-GBT20988-2007和相关标准,对信创云灾备体系建设所需的关键要素进行了重新定义,并对关键要素进行了建设分析。
信创云灾备建设能否成功实施,在应急情况发生时能否真正起到恢复业务应用系统、确保业务连续性的作用,关键点是要明确信创云灾备建设的一些基本要素。例如:有没有安全的、能抵抗生产环境物理资源突发故障的保护,有没有考虑为生产业务系统和数据存储系统配备容错机制,有没有应急情况下对资源系统的动态控制机制,有没有制定一套完善的应急决策预案和处置流程等。
如上这些因素是信创云灾备体系建设必不可少的组成部分,直接影响信创云灾备建设的成功与否。为了确保灾难体系的有效性,并且能够在成本可预期的范围内落地实现,需要对这些关键需求制定规则和标准,做到有依据、有衡量。当用户提出云上应用保护的不同需求時,可提供满足需要灾难保护等级。
信创云灾备体系与要素
结合信创云系统的体系框架,并总结具体实施的成功建设经验,把信息系统灾难恢复建设的关键要素分成4个层面和1个预案。4个层面分别是:信创容灾资源层、信创容灾数据层、信创容灾系统层、信创容灾控制层。1个预案就是:应急决策组织预案。
要素分析
信创容灾资源层
信创容灾资源层是提供满足信创云备份容灾所需的基础资源。容灾资源层按照功能作用可以划分为3类:
①以存放数据为目标的存储型云资源池;
②提供数据处理为主计算型云资源池;
③以及实现容灾备份功能的网络资源。
其中计算和数据存储可以合并兼顾,组成综合云资源池。当前,信创容灾资源层在基础硬软件层面已实现了自主研发,不存在恶意后门风险。而且后续改进升级或修补漏洞中,不受制于国外技术壁垒。信创容灾资源层很重要的一个作用就是从基础资源层面对各种国产化设备聚合协调。
信创容灾数据层
信创容灾数据层主要功能是实现对应用数据的备份。容灾数据层提供对云业务全方位数据保障能力,从数据层面保护用户系统和业务的安全。数据层向上支撑系统层,支撑集群容灾和业务的切换实现;向下对接资源层,确保数据备份的完整、零损失。同时,在数据的传输流转过程中,增加了迁移加密、传输加密等功能,有效地保护了用户数据和业务的安全。
容灾数据层对结构化数据的支撑对象主要包括:国内外主流数据库和开源数据库。目前国内自主的主流数据库有达梦、金仓、南大通用、神通等,主流的开源数据库有MySQL,MongoDB,PostgreSQL等。
当生产端和备份目标端采用不同厂商数据库产品时,适配调优是必不可少的首要环节。总结在多个项目中的经验并结合信创产品适配调优一般规律,建议按照“组合适配+压力适配+深度调优”的过程开展适配调优工作。
容灾数据层对非结构化数据的支撑建议采用分布式架构,这样可以不受到节点规模限制。对于海量小文件的备份和恢复,可采用重复数据删除算法、多通道并行备份等技术,确保海量小文件的高效备份和迅速反向恢复,解决了传统备份技术上的难题。
信创容灾系统层
信创容灾系统层通常建议采用松耦合架构,实现生产应用系统与灾备系统之间的消息传递、状态判断、决策处置等功能。当前信创技术还处于高速成长变化过程中,对生产与灾备系统的状态判断和决策处置环节,建议采用有人工干预的半自动或半智能决策方式。
依据响应时效和物理距离2个维度,系统层可实现3种模式的容灾:
①在同一资源池内的高可用容灾;
②在同城距离范围内的双活同城灾备;
③远程异地距离范围的异地灾备。
同城灾备在物理距离上通常定义为生产环境与灾备环境在100 km范围内,2点间数据传送在50 ms内。远程异地灾备是为了防范区域性的自然灾难,通常建议大于300 km。
高可用:容灾系统部署在同一资源池内的另外一个资源宿主机上,当业务系统所在的资源宿主机发生故障时,将业务切换到该容灾宿主机上。
双活/同城灾备:将容灾系统部署在距离相近的另外一个资源池中,当业务系统发生故障时,将业务切换到容灾系统上。此形式下,业务系统和容灾系统部署在不同的资源池中,可靠性更高。相比高可用模式,存在网络切换时延和数据同步方面的性能差距。
异地灾备:提供跨区域的灾备保障能力,能有效地应对超大规模地域级别灾害,提高数据的可靠性和业务的连续性。远程异地灾备的数据响应时延较长,数据复制或同步的方式通常选择异步模式。
信创容灾控制层
容灾控制层作为整个灾备体系的控制中心,实时对灾备资源监控进行配置变更和告警处理。提供多租户灾备资源管理、资源监控与计费、灾备策略配置管理、灾备作业管理、统计和报表管理、综合运维监控与告警等功能模块,为用户提供统一的身份认证、工作流审批管理功能,实现云管功能与灾备业务流程的对接,实现标准化、可视化、流程化的灾备服务要求。
在灾备体系的运转中,灾备环境与生产环境的基准核对是非常重要的一项日常工作。容灾控制层需要提供对生产与灾备环境配置的比对功能,同时为确保可支撑业务的动态变化,需要具有对基线管理的灵活扩展功能。可以随时将当前生产实际环境、应用配置等内容与灾备环境进行比对,实现生产与灾备配置的一致性管理。
应急决策组织预案
应急决策组织预案是指当灾难发生时,为确保业务系统能够持续运行,业务相关人员能够合理应对灾难,支撑整个业务恢复工作中所需的人员、任务、行动、和资源调度的文件(文案)。应急决策组织预案在编制的过程中要注意到以下4个方面:
①预案应具有针对性,针对可能发生事故,为迅速、有序地开展应急行动而预先制定的行动方案,因此预案应结合灾难导致的结果来分析。比如,针对可能发生的各类事故,在编制预案计划阶段就需要对经营活动中可能发生的事故进行分析和罗列,在此基础上编制预案,这样才能保证预案的广范围覆盖性。也可以从生产经营的薄弱环节来考虑,分析当前存在的应急能力缺陷或不足等方面来编制预案。
②应急是一项科学性很强的工作,编制预案需要以科学的态度,在全面调查研究的基础上,采用领导和专家结合的方式,开展科学分析和论证,制定出决策程序和处置方案,保证应急手段先进,具有科学性。
③预案应具有实用性和可操作性。当发生重大事故灾害时,组织可以按照应急预案的规定,迅速、有序地开展应急行动,降低事故损失。
④完整性,包括功能的完整、应急过程的完整和适用范围的完整。功能的完整是指预案中应说明有关部门应履行的应急准备、应急响应职能和灾后恢复职能,以及为确保执行预案应履行的的支持性职能。应急过程完整指预案应包括应急管理工作中的预防、准备、响应、恢复4个阶段。适用范围完整是指要阐明预案的使用范围,即针对不同灾难阶段可能使用预案的适用范围进行清晰定义。
实践中,可通过应急测试和演练等手段,暴露预案编制中的盲点,持续对应急决策组织预案进行完善。
通过上述5个关键要素的组合,可满足信创客户对数据级灾备、应用级灾备、业务级灾备的不同诉求。通过使用灾备资源,配置自身业务系统所需的灾备策略,组织模拟灾备演练以及应急开展业务恢复。基于上述要素组合建设的信创云灾备方案,已成功为全国多个省、市电子政务云平台提供容灾备份服务。通过这些实践的应用,进一步推动业界对信创云灾备体系的理解和对其流程与技术架构的进一步丰富。