APP下载

基于数据安全保护的容灾系统建设

2021-03-07刘育明

电子技术与软件工程 2021年19期
关键词:容灾数据保护备份

刘育明

(航空工业第一飞机设计研究院 陕西省西安市 710089)

xx院所的业务系统经过多年的改造、建设和不断完善,在科研和管理工作中发挥了重要的支撑作用,在流程、人员、技术等方面也有相应的储备。但是目前业务系统仍面临着来自各方面的风险,包括内部或外部的,可预知或不可预知的,仍对服务质量造成隐患和威胁,不断完善数据保护机制、系统安全机制和保障处理体系,不断提升系统合规性、故障处理能力、业务连续性是解决服务满意度的必由之路。

1 数据保护与风险分析

1.1 数据保护目标

按国家和行业的相关要求,现有业务系统所有数据均需进行数据保护和数据容灾,总的需求为:

(1)保护全覆盖:全覆盖应包含内外网所有应用平台、数据库平台、非结构化文件和操作系统;

(2)高性能备份:根据业务系统的实际使用需要和行业的要求,备份4小时以内完成,恢复应能在8小时以内完成;

(3)运维简单化:通过集中、统一的备份平台,应用统一新的备份设备,实现日常运维管理的简单化;

(4)报告支持:现有备份平台只提供简单的日志查询功能,在全面备份启动后,日常需要执行的备份任务会大幅度增加,传统的日志方式管理不便于对整体备份的监控,需要提供相应的备份实时报告用于备份平台运行状态的监控和备份系统运行状态的汇总。

1.2 系统面临风险

在现阶段,业务系统主要面临的风险有计划外风险和计划内风险两种。

计划外风险是指由于自然等不可抗力或不可预见等原因造成数据中心业务系统的瘫痪或故障。计划外风险具有不可避免的特点,主要包括战争、自然灾害、人为破坏或误操作、设备设施的故障以及系统或应用的故障等。

计划内风险是指数据中心业务系统自身发生改变,造成可预知事件但不可避免的情况。主要包括应用系统的代码升级或扩充、设备的维护和扩充等。

1.3 风险分析

基于上述分析,业务系统在运行的过程中存在各种各样导致系统故障或瘫痪的情况,因此,我们必须提前开展针对上述风险的分析,从而能针对不同的风险和场景制定相应的保护措施。例如通过技术手段改进和优化数据中心架构,从管理方面制定和优化流程,定期开展演练以防止各种风险的发生。通过不断完善和持续改进,促进保障体系的健全和完善。系统风险管理如图1所示。

图1:系统风险管理

1.4 系统面临风险

在现阶段,业务系统主要面临的风险有计划外风险和计划内风险两种:

计划外风险是指由于自然等不可抗力或不可预见等原因造成数据中心业务系统的瘫痪或故障。计划外风险具有不可避免的特点,主要包括战争,自然灾害,人为破坏或误操作、设备设施的故障、系统或应用的故障等。

计划内风险是指数据中心业务系统自身发生改变,造成可预知事件但不可避免的情况。主要包括应用系统的代码升级或扩充、设备的维护和扩充等。

因此,我们必须提前开展针对上述风险的分析,从而通过技术手段改进和优化数据中心架构,从管理方面制定和优化流程,定期开展演练以防止各种风险的发生。

2 数据保护方式

2.1 常用保护方式

一般来讲,数据保护可分为在线保护、进线保护和离线保护。目前较为流行的做法是根据数据中心和业务特点,采用多种方式来开展数据安全保护。

在线保护:在线保护适用于类似银行数据交易等对实时性要求较高的核心业务系统,它的RPO为0,RTO也接近或等于0,因此价格相对比较昂贵。在线数据保护技术包括跨阵列的数据镜像,双活系统等。

近线保护:近线保护是从近线存储发展而来的,主要定位于在线和离线之间,典型的就是CDP和数据库/卷/阵列复制,它采用的技术有数据库复制、数据克隆、卷复制、阵列复制等,近线保护技术分为实时同步和实时异步,都需要消耗生产端部分性能才能实现。

离线保护:离线保护就是我们大家常说的数据备份。它在优点实施中成本最低,保存份数不受限制,缺点是受到备份频率的限制从而无法对业务和数据提供实时的支持。

2.2 容灾保护

容灾保护是在线、近线和离线技术保护技术从一个数据中心向多个数据中心的延伸和应用,通过数据中心的延伸实现业务系统的持续运行。

在国内执行的《GB20988-2007-T 信息安全技术 信息系统灾难恢复规范》中,容灾技术涉及1-6级,其中1-4利用离线保护技术实现,5、6利用近线和在线保护技术实现。

数据容灾:所谓数据容灾,就是指建立一个容灾数据系统,该系统是本地关键应用数据的一个可用副本。当在线数据中心的应用系统出现问题或故障后,异地的数据中心也有该应用系统的副本,当然允许一定的时延。按照数据副本实现的技术方式来说,主要可以分为同步、异步和备份数据传输方式。但该数据必须是可用的。

应用容灾:我们通常意义上的应用容灾是先建立数据的容灾,然后在异地的数据中心再构建与生产(/在线)数据中心相同的应用系统。除数据的复制外,再网络、服务器、软件等多个层面都需考虑。其主要的技术包括负载均衡、集群技术和数据同步。

业务容灾:所谓业务容灾,是全业务系统的灾备,除了必要的IT相关技术,还要求具备全部的基础设施。当重大灾难发生后,原数据中心很有可能受到损坏,除应用系统外,还需备份的工作场地用来开展正常的业务。一般来说,业务容灾能提供不间断的业务服务,让业务系统能有效的运行下去,保证信息系统的完整、可靠和安全。

针对数据保护,主要通过三种数据保护技术实现,结合两地三中心的容灾架构,利用备份数据复制技术实现科研的多副本保护,当业务系统受到不可抗力时,利用在线保护技术实现科研数据和业务的安全。当业务系统受到人为错误或计划内风险时,离线保护技术将保证我们的业务和数据的安全性。

3 容灾系统设计与实现

3.1 容灾系统建设背景

业务系统容灾为生产系统提供风险预防机制和灾难恢复措施,可将业务损失降低到可接受的程度。当我们的关键的业务系统出现重大故障,或发生不可抗力时,可通过建立容灾系统来满足业务连续性和保证服务质量的要求。在灾备中心对关键业务进行实时或准实时的复制,一旦突发事件发生后,可迅速将业务切换到灾备系统中,以保证关键业务的运行。

3.2 容灾系统运营模式

在容灾建设时,根据生产中心和容灾中心承担的生产任务的程度进行分类,主要分为主备中心、双中心互备、读写分离双活,读写并行双活四类架构。

从表1可以看出,并行读写双活模式大幅提升了资源利用率,不但使应用层全部实现生产功能,而且使数据层实现了平时可以打开访问,结合应用部署改造,可实现灾难情况下自动切换,无需决策,实现无缝接管。容灾架构是跨中心实现,对应用平台的配置、中心之间链路质量、安全管理和运维响应能力都有更高的要求,同时,城/广域链路意外中断机率较高,需要考虑设置第三点仲裁机制防止脑裂故障的出现。

表1:容灾系统运营模式对比

容灾运营模式是根据业务系统的RTO/RPO规划进行选择,业务容灾在数据同步时大都采用实时同/异步方式,RPO整体水平比较高在建设时应结合业务系统的RTO具体要求选择合适的架构。

3.3 云架构下的容灾实现

云化后带来的变化是容灾的设计方式,传统架构是以业务系统的RTO/RPO为设计目标,而云化后,出现了IaaS、PaaS和SaaS等多种XaaS定制的服务架构,RTO/RPO成为服务的内部规范,无需单独定义。在产品化实现上,IaaS和PaaS相对更加标准化,主要基于虚拟化和容器化的底层,通过各自配套的云管平台,通过业务编排、SLA控制,利用切换、接管和资源弹性配给,实现容灾目标。

云架构容灾场景和技术主要有:

(1)利用复制和编排实现容灾:在每个中心部署独立的云平台,web类应用可通过接入层和负载均衡实现双活访问或主备运行,数据通过平台存储管理或应用自身进行同步,两个中心的云平台之间通过编排工具和作业调度,实现跨中心的业务双活或接管的容灾架构。

(2)虚拟中心实现:构建跨数据中心的统一云平台,基于分布式的Node方式,在多个数据中心,基于统一的Node管理机制,每个中心都有备用的管理服务器和运行业务的Node节点,管理服务器故障时在多个备用节点按定义进行切换,数据的可用性由存储的多副本方式实现,副本数量决定对业务无影响的故障Node数量。

基于虚拟化的统一管理,在多个中心之间构建一个虚拟化集群并进行统一管理,管理服务器在多中心冗余,数据底层通过镜像方式实现,虚拟中心架构不支持采用复制技术实现数据同步,业务可用性由虚拟化的内置集群机制实现。基于虚拟化平台数据中心双活架构图如图2所示。

图2:基于虚拟化平台数据中心双活架构图

4 日常维护

日常维护工作应制定相应的运行维护管理机制及流程,以保证系统的应用、软硬件平台持续可用,可以随时进行应用切换及业务接管。

数据检查与测试:为保证容灾系统在发生故障后能顺利的进行切换,维护人员应确保生产系统和容灾系统之间数据的一致性和完整性。建立两个系统之间的审查机制。定期开展系统的检查和测试,不断修订发现的问题。

运维监控:运维监控主要是通过人为、工具、自动化等手段对信息系统进线监测;对运维数据进线关联分析、预警;对产生的故障快速定位并进行及时处理。系统监控的对象是系统的IT元素,如网络设备、服务器、存储、备份设备、数据库、中间件、应用软件等,也包括基础设施如供电系统、空调系统、消防系统以及其它机房环境等。

软件版本管理:对生产系统及其容灾系统的软件版本进行管理,保证容灾系统能够顺利切换并接管业务。生产和容灾系统的软件应包括以下内容:软件的源代码、软件的可执行代码、软件配置文件、第三方软件、系统平台的配置文件等。

5 基于数据安全保护的建设思路

数据安全保护是一个持续的过程,数据保护和业务保护的力度与实施运维、投资是成正比的,阶梯式是科研系统持续性发展的必由之路。

结合国家《信息系统灾难恢复指引》和《网络安全等级保护2.0》的相关要求,按照阶梯式发展方式,将科研数据、科研业务的保护制定分步走,逐渐完善的原则。

5.1 数据保护

依据国家《信息系统灾难恢复指引》的要求,以备份技术为核心,对数据中心的所有业务数据进行本地备份,并建设容灾中心,将生产备份数据复制到容灾中心实现数据容灾。

国家发布的《网络安全等级保护2.0》对三级系统都有明确的备份、容灾和恢复验证要求,所以,在完成备份及备份容灾建设后,充分利用容灾环境,搭建自动化恢复验证平台,通过自动化恢复手段,对容灾数据进行有效性验证,在验证后生成验证报告,实现xx院所数据备份、容灾、验证和合规性建设。

5.2 业务保护

xx院所现有业务系统在建设之初,通过负载均衡、双机集群和RAC等方式进行冗余性建设,随着科研和生产工作的逐步展开,原有技术普遍存在以主机为冗余的现状,当服务器、网络和虚拟机发生故障时,冗余机制才会启用,而实际上,xx院所需求是通过冗余的设备来实现业务系统的各个组件如Web服务、中间件、数据库和网络的持续运行,进而保证科研和生产系统自身的健壮性。所以,将现有冗余机制改造为以保护业务系统各个组件持续运行为目标,但是改变冗余架构的判断条件是对现有业务系统的运行稳定性有比较大的影响,存在软硬件的更换和调整,所以需要充分的调研、分析、对比后,在具有完整的测试、实施、回退计划及技术手段后,在生产数据中心实现。

5.3 容灾保护

容灾是业务保护的终级手段,通过容灾,可以进一步有效的保护业务系统的运行,从容灾实现上,分为同城和异地两种模式,但从实际建设和运维方面分析,同城的建设条件更好,运维更容易实现。异地因为缺乏运维人员,链路质量更难保障,主要是用于数据保护的备份容灾场景。

同城容灾是将科研现有业务在同城机房按照1:1或非对称方式做基础设施准备,通过裸光纤+波分进行连接后,将业务保护技术在两个机房进行应用,从而达到应对中心级故障能力。

6 结束语

在新的互联网+业务模式下,结合新的云架构方向,应用系统的复杂度和安全性要求越来越高,在这种大环境下,xx院所数据保护应依托于两地三中心的容灾结构和在线、近线及离线的数据保护技术,实现从“有备无患”到“零停机零丢失”的数据保护和容灾目标。

数据备份保护、数据级容灾、应用级容灾和业务级容灾,根据业务系统的保护需要,选择相应适合的保护技术,配合自动化、流程化的管理手段和制度,利用有限的投资,最大化实现科研数据和科研业务的安全保护。

猜你喜欢

容灾数据保护备份
创建vSphere 备份任务
关于建筑企业容灾备份系统方案的探讨
基于中兴软交换的电力通信网络容灾系统建设
TPP生物药品数据保护条款研究
旧瓶装新酒天宫二号从备份变实验室
欧盟数据保护立法改革之发展趋势分析
欧盟《一般数据保护条例》新规则评析
药品试验数据保护对完善中药品种保护制度的启示
出版原图数据库迁移与备份恢复
实施存储虚拟化及应用容灾保障医院信息系统业务连续性