灾备架构研究与技术实现

2018-11-26郭福民

电脑知识与技术 2018年23期

关键词：灾备

郭福民

摘要：该文介绍了灾备的基本原理，包括基础架构、发展模式、位置选取。灾备技术是确保信息系统安全和业务连续性的重要因素。在该文中我们介绍一些重要的灾备技术，如结构化和非结构化数据复制、虚拟主机复制、存储复制、时钟同步以及网络切换等，以期更好地进行方案设计和技术选择。

关键词：灾备；业务连续性；灾备中心

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）23-0100-03

在信息技术迅猛发展和广泛普及的当代，各公司建设了为数众多的信息系统。大量业务数据在信息系统中被采集、传输、存储、处理和应用。虽然信息技术为公司发展起了极大的推动作用，但也带来了很大隐患。任何一个信息系统无论因自然因素或人为因素发生故障，都会对企业经营带来不可估量的损失。

金融、通信、互联网等信息技术依赖性极高的行业，如国内的四大国有银行和阿里、腾讯、百度等互联网公司，都建立了自己的灾备中心。其根本目的就是为了当灾难发生时，企业能够在最短的时间内恢复受损信息系统，并提供持续的运营服务。灾备中心可以确保信息系统的数据安全性及业务连续性，可为信息系统提供风险预防机制和灾难恢复措施。当灾难发生时，各信息系统仍然可以正常工作，向用户提供不间断的服务，因此灾备中心的建设是必须的。

1 研究内容与意义

1.1 灾备简述

国标《信息安全技术信息系统灾难恢复规范》（GB/T 20988-2007）中，灾难定义为：由于人为或自然的原因，造成信息系统运行严重故障或瘫痪，使信息系统支持的业务功能停顿或服务水平不可接受、达到特定时间的突发事件[1]。典型的灾难事件包括自然灾难、技术风险、人为因素等。

灾备通常指在距离相隔较远的两地，建立功能相同的信息系统，且系统之间可进行状态监控和功能切换。当某个或多个系统因灾难而停止运行时，可将其全部功能切换到另一地点，使该系统能够正常运行。灾备中心[1]在灾难发生且主数据中心无法工作后，能够接替主数据中心进行数据处理和支持关键业务运行，灾备中心提供节点级别的系统恢复功能。

1.2 灾备层级划分

灾备中心建设，依据相关理论及实践经验可分为数据级容灾、应用级容灾、业务级容灾三个层级[2]。

数据级容灾是灾备中心建设的基础，其对灾难恢复能力等级要求不高。主要功能是实现最基本的数据保护。应用级容灾以数据保护为基础，目的是实现信息系统的整体恢复，包括数据和应用系统提供的服务。业务级容灾是实现企业所有业务的恢复。即在发生意外或灾难事件，造成关键业务停顿时，通过业务级容灾的相关恢复策略和流程，使企业业务能够在要求的时间内迅速恢复，使企业客户的业务要求不受影响。

1.3 灾备中心位置选择

主数据中心与灾备中心的距离远近是影响灾备中心建設的重要因素。一般而言，两个中心距离越远，彼此的共同依存因素就越少，可预防的灾难种类就越多。当距离超过一定限度后，灾备中心建设所需要的IT技术、项目实施难度以及后期管理将有重大变化。依据两中心的距离远近，灾备中心主要有两种建设模式：几十公里或一百公里以内，主要是同城范围的容灾距离。也称为“同城灾备”；几百上千公里距离，主要是不同城市之间的远程容灾。也称为“远程灾备”或“异地灾备”。

目前很多企业综合“同城灾备”和“远程/异地灾备”的特点，在灾备系统建设上采用“两地三中心”的模式。两地三中心指在本地建立同城灾备中心，在异地建立异地灾备中心。既可以应对同城小范围灾难，更能够应对区域性大灾难。

1.4 总体分析与评估

灾备技术层面有两个主要指标，即RPO和RTO[3]。RPO（Recovery Point Object）反映数据恢复完整性指标，代表了当灾难发生时允许丢失的数据量。数据量越大，一般损失也越大。PTO（Recovery Time Object）反映业务恢复及时性指标，代表了系统恢复的时间。系统恢复的时间越长，一般损失也越大。

从成本上看，如果系统需要保证更高的业务连续性，即在灾难发生时，丢失数据最少，且恢复时间最短，需要投入极高的成本。但如果投入成本少，当灾难发生时，将丢失大量生产数据，或者需要很长时间进行业务恢复，企业将承受极大损失。

根据1.2节和1.3节的内容，结合行业成功经验，企业灾备中心建设可分三个阶段实施。

第一阶段，即数据级容灾阶段。建设内容包括本地备份、异地备份和数据恢复验证。以及采用离线数据传输或在线同步、异步的方式，实现数据中心与灾备中心的数据同步。

第二阶段，即应用级容灾阶段。建设内容包含硬件、操作系统、数据库、中间件和通信网络等多个方面。

第三阶段，即业务级容灾阶段。从IT和非IT层面保证业务运行连续性。

综上所述灾备中心建设可采取“两地三中心，以数据级为起点，逐步向应用级、业务级发展”的建设模式。

2 灾备建设技术策略分析与实现

根据公司基础设备涵盖小型机、X86服务器、中高端存储；数据库系统以Oracle Database为主；主机系统包括Unix、Linux、Windows等的实际情况。特别是已构建“小型机（物理池）、X86服务器（虚拟池）”的稳定应用运行平台。下面结合灾备建设三个层级及相应发展阶段，特别是数据级容灾的基础地位，对各领域灾备技术进行详细阐述。

2.1 数据复制设计

数据复制包括结构化数据复制和非结构化数据复制。

2.1.1 结构化数据复制

存储于数据库中的结构化数据，可采用“基于数据库软件”的数据复制技术。该技术不仅能够实现优异的RTO/RPO指标，且部署灵活，不受硬件资源限定。以Oracle 数据库为例，可采用DataGuard和GoldenGate两种工具。

Data Guard是Oracle公司推出的一种高可用数据库工具，主要目的是实现Oracle数据库层面的数据保护与容灾，源端数据库（主库）和目标端数据库（备库）间通过日志同步来保证数据一致。备库作为主库的备份可以实现快速切换与灾难恢复。Data Guard采用三种数据保护模式，分别是最大保护模式、最大性能模式和最大可用模式[4]。其配置方便、性能优越，在灾备建设中经常使用。

Oracle GoldenGate的实现原理是通过抽取源端数据库中的在线日志和归档日志，然后通过TCP/IP协议传输到目标端。目标端将这些日志文件解析还原到自身数据库中，以此来实现目标端和源端的数据同步。

GoldenGate的主要作用有：

1）满足亚秒级别的数据同步要求。

2）为用户提供可持续的数据高可用性。

3）支持跨操作系统和跨数据库版本的数据同步。

4）最小化数据库升级和数据迁移的停机时间[5]。

2.1.2 非结构化数据复制

对大多数信息系统而言，除结构化数据外还存在大量非结构化数据。非结构化数据的复制技术主要有两种：

1）数据迁移

首先，将系统中的非结构化数据从源端全部迁移到存储设备。然后，利用基于存储的数据复制技术完成非结构化数据从源端到目标端的同步。

2）基于实用程序的数据同步

实现数据同步的实用程序很多，rsync 是其中的代表。使用该程序可以通过网络传输、复制、同步数据。既可用于完整的目录比较和传输，也可用于增量式目录比较和传输。rsync支持大多数操作系统，基本特点如下：

可镜像保存整个目录结构和文件系统；

可保持原有文件、目录的操作权限、时间、软硬链接等；

无需特殊权限即可使用；

可便捷地使用rcp、ssh等方式来传输文件。

正因为rsync的诸多优点，所以在数据复制领域应用非常广泛。

2.2 虚拟化环境复制设计

针对Vmware软件构建的X86虚拟化池，可采用Vmware公司灾难恢复解决方案来实现虚拟化环境的复制。该方案包括vCenter Site Recovery Manager和vSphere Replication两部分。

Site Recovery Manager可以自动执行并简化故障发生时主数据中心切换至灾备中心的过程，从而简化灾难恢复计划的管理工作。其支持无中断的恢复计划测试，可确保恢复过程的安全可靠。

vSphere Replication是VMware的专有复制引擎，它仅会将发生变更的数据块复制到恢复站点，可确保实现更低的带宽利用率和更高的恢复点目标。无需采用基于存储阵列的本机复制，即可通过网络在vSphere主机之间复制处于开启状态的虚拟机。

2.3 存储级复制设计

基于存储的灾备技术其核心是利用存储自身盘阵之间的数据块复制技术来完成对生产数据的远程拷贝，从而实现生产数据的灾难保护。存储级复制包含同步复制和异步复制两种模式[3]。

同步复制模式：能够做到主/备中心存储同步地进行数据更新。应用系统I/O写入主存储后，会利用自身机制同时将I/O写入备用存储。当备用存储确认后，主存储才返回应用写操作的完成信息。

异步复制模式：主中心应用系统I/O写入主存储后，主存储会将应用写操作完成信息返回给主机，主机继续执行读写I/O操作。同时主存储通过自身机制将应用系统的写入信息发送给备用存储。

同步复制模式，复制数据在任何时间、任何复制节点上均保持一致，适用于近距离或同城灾备。异步复制所有复制节点的数据在一定时间内是不同步的，具体依赖于差异数据产生量、网络传输速率和傳输延时等。

2.4 时钟同步设计

主数据中心和灾备中心各由一套IT基础架构组成，这必然面临两中心之间相关设备的时钟同步问题。可在两中心系统内均部署一台NTP时间同步服务器，两台服务器分别与GPS标准时钟源或者企业内部标准时钟实现同步。两台NTP服务器之间也能够互相校对、同步时钟。同时，两中心所有IT设备，均指向这两台NTP服务器，达到全系统时钟同步的目的。

2.5 网络切换设计

灾备体系中有多种网络切换技术，归纳起来可分为以下两类：

1）基于DNS域名系统的网络切换模式：主数据中心和灾备中心的对外服务网络采用不同的IP地址规划。正常情况下，DNS将业务系统域名解析为主数据中心的IP地址。当两中心之间进行业务切换时，先临时改变DNS服务器相关记录，使同一个域名解析为灾备中心的IP地址。待客户端的DNS Cache刷新之后，原来转发到主数据中心的业务请求会重新流转到灾备中心，从而实现网络切换。

2）基于IP地址的网络切换模式：主数据中心和灾备中心的对外服务网络采用相同的IP地址。在正常情况下，异地灾备中心IP端口处于关闭状态。当两中心业务需要切换时，先关闭主数据中心IP端口，随后激活灾备中心IP地址。待网络路由正常收敛之后，原来转发到主数据中心的业务请求会重新流转到灾备中心，从而实现网络切换。

从对上层应用端的便捷性层面考虑，建议采用基于DNS域名系统的网络切换模式。

3 实践应用

3.1 实施背景

随着公司产品研制、生产速度加快，对系统可靠性、业务连续性要求大幅度提高，现有生产环境已难以满足业务发展需要。在综合各方要求，结合行业成熟经验，决定对A生产系统进行全方位改造。图1描述了A系统升级前后的各种差异。

本次系统升级既有操作系统、数据库版本的不同，又有集群模式、数据存放方式的不同，停机时间有严格限制。和过去实施的升级项目对比，难度有大幅度提升。

3.2 项目实施

针对源端与目标端的差异，在A系统数据库迁移中，采用Goldengate工具，在4小时内完成数据库数据迁移。针对文件仓库及文件目录数据量巨大的特点，通过rsync实用程序，将源端当前数据全部复制到目标端，随后执行实时数据复制，将差异数据和增量数据同步到目标端。系统升级完成后，针对新的RAC集群数据库，使用DataGuard方式部署本地灾备数据库。新系统平台已稳定运行半年，当中未发生任何问题。通过实践也验证了rsync和GataGuard工具在建设灾备系统中的有效性。

4 结束语

目前灾备中心建设以及围绕其产生的各种技术方法，已得到人们越来越多的关注。本文从灾备建设特点出发，从体系层面进行了有效规划。对数据、虚拟化主机、存储、时钟、网络等核心领域阐述了对应的灾备技术。用户应依据自身条件，结合数据安全性、系统高可用性、业务连续性、RPO指标、RTO指标等多方面因素，制定实施适合自身发展的灾备中心建设方案。

参考文献：

[1] GB/T 20988-2007.信息安全技术信息系统灾难恢复规范[S]. 北京：中华人民共和国国家质量监督检验检疫总局，中国国家标准化管理委员会， 2007.

[2] 邓晓晓. 基于金融行业的灾难备份与恢复研究[D]. 成都：成都电子科技大学， 2009.

[3] Somasundaram G， Shrivastava A.信息存储与管理-数字信息的存储、管理和保护[M]. 罗英伟，汪小林，译. 北京：人民邮电出版社， 2010： 233-235.

[4] 沈丽. X省电力公司基于Oracle DataGuard技术的容灾实例[J]. 数字化用户， 2013（6）： 46.

[5] 戴冠平. GoldenGate企业级运维实战[M]. 北京：清华大学出版社， 2012： 4-6.

【通联编辑：张薇】