APP下载

大型企业在云网融合下的业务连续性保护研究与实现

2018-05-23刘辰李俊雷斌傅扬

世界有色金属 2018年6期
关键词:灾备数据备份容灾

刘辰,李俊,雷斌,傅扬

(中国黄金集团有限公司,北京 100011)

1 引言

1.1 研究背景

信息化浪潮席卷世界,今天的企业,特别是大型央企的运转越来越依赖体系内各类信息系统。一方面业务越来越繁忙,带来时间成本效率比越来越高,另一方面也带来了不可忽视的信息系统安全问题,这充分说明信息化建设是一把双刃剑。特别是,由于各种人为或意外导致的数据丢失造成系统崩溃、业务中断的问题屡见不鲜。保障数据安全和业务连续,已成为信息化工作的下一个重点,也是行业大势所趋。

中国黄金的每一个业务系统都为公司的生产经营发挥着积极作用,从管理提升、精细化管理等多个层面加快了业务流程的协调运行。为了应对信息系统可能存在的风险,保障核心业务系统的不间断运行,备份是数据安全保护的有效手段。只有进行了数据备份,才能够在灾难发生时快速地恢复系统和数据,将意外带来的损失降低到最小。但仅有数据备份是不够的。为确保关键数据、关键数据处理系统和关键业务在灾难发生后可以快速恢复,在数据备份的基础上,还需要进行灾备中心的建设。灾备中心在异地保存备份数据与应用,确保灾难发生后用户原有的数据不会丢失或遭到破坏,确保在主数据中心发生故障的情况下,异地灾备中心可及时接管业务,以满足业务连续性需求。

2 系统设计

2.1 设计思想

业务连续性的支撑是指通过对生产系统给予综合性、多层次的容灾保护,确保在任何情况下都能提供不间断的用户应用服务。其中非常重要的一个设计考虑就是:如果只有一套生产应用系统,即使自身的冗余性再高,但当面临区域性灾难时就会由于单点失败而使应用服务中断。所以通过在拉长一定距离的另外一个空间上建立与应用系统相同的备用系统,是实现业务连续性的必要保证。因此,要实现业务连续性支撑需要在一定距离上的远端,建立一套完整的、与本地系统相当的且可以互为备份的应用系统;其次,主备系统间通过数据备份和数据复制技术实现数据层面的容灾,进而为实现应用级容灾打下基础;最后,通过云计算的特征使得备用系统能接替主系统对外提供服务,保证服务不中断。

本系统应用级容灾采用数据库存储业务数据。在此基础上,可以避免上层应用及其处理流程的复杂性和多样性,不必为消除应用间的差异而改建原有的应用体系,而且能使用数据库现有的一些成熟技术。

2.2 系统结构

本系统的结构如图1所示:

图1 系统结构示意图

2.3 构成模块

(1)数据备份

在中国黄金集团本地机房部署一套实时数据备份系统,通过CDP实时保护技术,实现各业务系统的文件、数据库、操作系统以及虚拟化平台的数据在线保护。

(2)异地容灾

在中国黄金集团本地机房部署一套容灾系统,同时在异地灾备中心(IDC机房)部署一套容灾系统;通过CDP实时保护技术,实现应用容灾机制。

本地容灾接管:当关键生产服务器或存储发生故障时,服务能够自动及时切换到本地容灾平台上继续运行,并可持续对外提供业务服务;

异地容灾接管:异地灾备中心容灾平台,可提供异地容灾服务,当本地关键生产服务器发生故障时,服务能够自动及时切换到地容灾平台上继续运行,并可持续对外提供业务服务。从而确保各业务系统7×24小时不间断运行,保障核心业务连续服务。

最终可以实现如下的目标:各业务系统RTO≤2小时;A级数据库RPO≤1分钟;B级数据库RPO≤30分钟;C级数据库RPO≤24小时;应用RPO≤1周。

3 具体实现

3.1 数据备份实现

(1)在本地数据中心机房,在需要进行备份的各业务系统服务器上分别安装备份Agent代理,备份服务器将自动识别到已安装备份代理的业务系统服务器。

(2)A级:针对A级数据库(业务等级)关键业务系统RPO≤1分钟的数据保护需求,方案采用CDP实时数据保护技术,连续实时捕获所需备份数据变化,多版本备份,实现过去任意时间点的数据恢复,备份恢复颗粒度需要达到秒级;支持Oracle、SQLServer、MySQL等数据库数据的CDP实时保护。并且在恢复时可以选择单个文件或数据库进行任意一秒的恢复,实现业务数据零丢失,提高应急防护能力,满足中国黄金集团公司关键业务系统数据的保护要求。

(3)B级:针对B级数据库(业务等级)重要业务系统RPO≤30分钟的保护需求,方案采用CDP实时数据保护技术,连续实时捕获所需备份数据变化,多版本备份;支持Oracle、SQLServer、MySQL等数据库数据的CDP实时保护,提高应急防护能力,满足中国黄金集团公司重要业务系统数据的保护要求。

(4)C级:针对C级数据库(业务等级)重要业务系统RPO≤24小时的保护需求,采取定时备份措施,多版本备份,通过备份策略部署,可实现SQL、Oracle、Mysql、DB2等主流数据库、以及国产数据库的在线定时保护,满足RPO≤24小时的备份需求。

(5)应用:针对应用业务系统RPO≤1周的保护需求,采用定时备份措施,通过备份策略部署,多版本备份,可实现应用的数据保护(数据库、操作系统、文件等数据备份、以及虚拟化平台备份),满足RPO≤1周的备份需求。

(6)备份任务通过数据备份策略页面进行设定,即可完成数据备份策略设置。

本地数据备份策略设置完成后,可一步到位将目标服务器上的数据库、操作系统、虚拟机、文件等类型数据进行备份,数据将会通过备份系统中的CDP备份模块自动集中备份到备份服务器中。

通过在机房网络中部署数据实时备份与恢复系统,对各主机数据进行多版本历史数据的集中备份保护,可有效规避各类数据丢失或是逻辑错误问题。当发生诸如此类问题时,可从数据备份保护系统中按任意时间点,进行数据的细粒度应急恢复服务,确保数据的可用性,从而将灾难所导致的损失降到最低。

数据实时备份与恢复系统跨平台支持各类桌面PC、服务器、虚拟机及小型机等主机,且支持Windows、Linux、Unix等主流操作系统下Oracle、SQL等数据库,支持各类数据CDP备份,整个系统具有良好的兼容性和可扩展性。

策略设置完成后,可一步到位将数据库、操作系统、虚拟机、文件等类型数据,数据将会通过备份系统中的CDP备份模块自动集中备份到备份服务器中,进行加密存储。完善后的数据备份平台可提供档案业务系统的数据的应急恢复能力,将灾难所导致的损失降到最低。

3.2 应用容灾实现

在集团公司生产机房部署一套容灾系统,同时在灾备中心部署一套容灾系统,部署在虚拟机中,即可实现本地业务系统的容灾接管,以及异地容灾接管,详细如下:

3.2.1 建设要求

(1)RTO≤2小时;

(2)从整体虚拟化架构布局等因素考虑,电信灾备中心虚拟化采用VMware平台;

(3)集团公司本地机房与电信灾备中心之间的网络畅通,保障数据的传输;

3.2.2 容灾接管方案概述

(1)通过灾备客户端将捕获到本地OS与数据盘的差异数据同步到容灾系统所管理的存储介质上;

(2)通过数据传输方式将本地容灾系统备份数据同步到电信灾备中心异地容灾系统中,实现本/异地的双重容灾接管;

(3)在本地容灾系统和异地容灾系统实现自动快照演练功能,可自动诊断容灾的可用性、数据完整性以及可靠性;

(4)可以使用本地容灾系统实现本地单点故障容灾功能,实现容灾接管,保障业务不中断;

(5)可以使用异地容灾系统实现异地容灾功能,实现异地容灾接管,保障业务不中断;

3.2.3 容灾管理

容灾系统方案针对应急接管的需求而设计,实现数据中心的关键业务系统进行应急容灾接管保护,保障业务不中断。

采用CDP实时数据保护技术,完善后的容灾平台可提供应急恢复、应急接管、仿真演练等能力,从而将灾难所导致的损失降到最低,确保应用系统的连续性工作。

容灾管理的原理图如图2所示:

方案利用磁盘级CDP技术,可实现IO级别的细颗粒度实时捕获并定时备份,将备份窗口、数据丢失降到最低。并且可以实现任意快照时间点的数据恢复与演练,能够快速响应业务系统的接管需求,对应用实现连续保护。

3.3 数据库容灾实现

在本项目的建设中,财务数据库和操作系统比较特殊,需采用不同的同步容灾方式,数据库的复制采用英方的I2Active软件,应用层的备份由应用开发方通过脚本等方式实现,文件和系统的备份采用备份系统平台提供的统一备份方式。

3.3.1 数据库容灾保护

如图3所示,使用一台云主机部署I2Active,在主系统正常工作的同时将主系统产生归档日志文件(Archived Log)不断的传送到后备数据库系统,并且利用这些日志文件在后备数据库系统上连续进行恢复(Recover)操作,以保持后备系统与运行系统的一致。当主系统发生故障时,立即使用后备系统顶替主系统。

其优势是(如图4所示):

完全通过数据库机制来实现,完全不依赖于其它软件和底层存储平台;主备系统的硬件可以完全不同;可以实现一对多的数据复制,提供多重保护;支持数据库异构;后备数据库可以在很短的时间内提升到生产状态(因为数据库已经在打开运行);后备数据库也可以使用,可以用做查询、统计分析等用途;基于IP网络,没有距离限制。

图2 容灾管理原理图

图3 数据容灾保护结构

图4 数据备份流程示意

4 测试分析

在本项目试运行阶段,针对方案要点在实际环境中进行了长时间测试。经过测试分析,总结归纳,本方案设计有以下优点:

(1)高性能:整个系统是一套以保证信息系统持续运行为目的数据级容灾系统,可实现在对信息系统关键数据进行实时保护的同时,保证业务持续运行。能够全面覆盖信息系统常见故障及灾难,为数据中心提供最为全面的保护与快速恢复机制。

(2)高可靠性:本系统是为了进一步增强关键业务数据的抵御灾难能力,所以本系统的设计和建设都充分考虑了其自身的稳定性和安全性,从而确保关键数据能够持续、稳定地传送到备份存储器,以保证出现任何问题时都能够通过备份数据提供应急恢复。

(3)标准化:本系统严格执行《信息安全技术信息系统灾难恢复规范》等国内及国际相关标准和规范,充分考虑抗毁性与灾难恢复,从实际出发,保证不同品牌灾备解决方案之间的互操作性和系统的开放性,竭力做到资源共享、互为备份。

(4)可扩展性:系统的设计不但能满足当前需要,还充分考虑了业务的发展空间,同时便于向更新技术进行升级与衔接,保护现有投资。本系统所采用的技术路线和主要技术是目前主流技术,所采用的标准支持目前和将来可能出现的国家或行业标准。系统可保证在国内三到五年保持领先的水平,并具备良好的升级发展空间,保障数据和业务的持续运行,以充分适应未来灾备技术的发展。

(5)可维护性:整个系统的设计与建设充分考虑了易于管理维护的需求,可根据客户的个性化需求进行定制化维护,操作简单,易学易用,便于进行配置,便于发现故障、解决故障。

(6)安全性:本系统承载的是数据备份与容灾保护,所以在设计、研发和建设的过程中都严格遵循数据传输、存放和传输的安全性原则,确保数据在存储备份的过程中趋于且实现零损耗。

5 研究成果

对于大型企业,异地灾备中心建设对网络带宽、服务器、网络设备的性能、人员技术水平都有更高的要求。在建设方式决策时,如果考虑自采购机房、线路、设备、集成实施,将会有很大投入,且每年还需支付维护费用(含电费、网费、维修费、人员工资)。

本文为企业提供了一种安全、高效、面向云网新技术应用的业务连续性支撑系统。以购买服务的方式替代一次性采购,为集团型企业建设异地灾备中心,提供了新思路和新方法。

当然,企业要在灾难发生时能够更加从容面对,除了业务连续性支撑系统之外,还应该结合自身的资源,确定合理的应急方案和制定完备的业务连续性组织执行计划。特别是在业务连续性支撑系统立之后,还需要建立完善的管理机制,才能最大限度地发挥容灾系统的作用。

利用本次异地灾备中心建设契机,中国黄金业务信息系统进行了重新规划,利用先进的互联网技术,建立了跨域集团的软件大集中、数据大集中的财务系统框架。

建立了行业内第一个基于云架构的异地灾备中心。传统观念认为,勘探业、信息化程度较低的施工企业不适合建设异地灾备中心。因此,异地灾备中心一直是电信行业、金融行业、保险行业的专利,以ERP为代表信息化投资高达亿元以上。但通过实践,中国黄金在短短半年时间,用远低于其他行业的成本,建立了有色行业第一个基于云架构的异地灾备中心。

中国黄金的数据库结构非常复杂。业务数据大集中后,数据量的提升将远远超出普通企业的业务系统承载的范围。通过使用云计算、大数据、分布式、缓存处理等互联网技术对系统进行改造,建设了异地灾备中心,实现了集团的数据大集中,为下一步行政体系的大统一提供了有力的抓手。

猜你喜欢

灾备数据备份容灾
泉州高速公路收费系统远程数据备份研究
海洋数据备份平台的设计和实现
程控交换机的数据备份与恢复技术分析
No.4 IDC:2019年上半年数据备份与恢复市场同比增长10.0%
关于建筑企业容灾备份系统方案的探讨
基于中兴软交换的电力通信网络容灾系统建设
企业级信息系统应用级灾备建设与应用
轨道交通清分系统灾备升级方案研究
基于数据容灾技术在企业信息系统中的应用研究
深蓝云海“云灾备”正式上线