基于CDP技术的应用级异地容灾方案研究
2016-01-14侯珏张博文
侯珏 张博文
摘要:如今我们正快步迈向“DT(Data Technology)时代”,大数据逐渐受到国家和企业的高度重视,数据安全的问题显得尤为重要。由此,企业逐步推进数据资源中心的异地容灾方案的设计与实施。该文介绍了基于CDP(Continuous Data Pro-tection,连续数据保护)技术的应用级容灾方案和灾难发生时CDP技术实施的具体情况。
关键词:数据安全;快照技术;CDP;数据备份;容灾
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)19-0015-02
1数据安全关乎企业的命脉
现在正值21世纪的第二个十年,各行各业中企业的数据以指数方式增长,我们正由“IT(Information Technology)时代”大步进入“DT(Data Technology)时代”。大数据中数据挖掘技术可以为企业创造价值,同时数据安全的问题则突显其关乎企业生存和发展的命脉。
2015年5月28日上午11时许,携程旅行官网网站突然陷入瘫痪,其部分服务器遭受不明攻击,直接遭受千万级经济损失,随后其数据库中某些数据被物理删除,连带的损失不可估量,再一次给企业的数据安全敲响了警钟。应用容灾技术可以避免类似灾难的重现,既能保证企业数据的安全,又能保证业务的连续性。
2容灾方案的基本要求和目标
以笔者所在的企业为例,该企业在北京拥有自主建立和运维的企业级数据中心机房,拥有上百台硬件设备。该数据中心机房同时接人了中国联通和中国电信各20M独享专线,经过F5链路负载均衡设备实现不同用户依据其所处网络的不同(联通或者电信)来自由地选择最佳的链路进行访问。网络系统则采用了全千兆以太网技术,配置了企业级交换机作为网络核心交换机,实现了网络动态管理和虚拟局域网的功能。而核心网络采用的是思科65系列交换机,负责全网数据的高速无阻塞交换、路由管理、网络管理、网络服务和核心数据处理等。网络安全方面配置思科防火墙,并按业务等级进行安全区域划分。机房所用服务器及存储全部选用国际领先的IBM、Oracle品牌,并根据功能需求部署UNIX和Windows Server系统架构。应用系统数据库采用当今世界上最主流的Oracle产品,现有数据量已超过20T,预计5年内数据容量可达50T,日增量至少有20G。该企业共有20多个生产系统,不同的生产系统分别运行在各自独立的服务器上,通过光纤交换机连接到独立的存储。
为进一步提高该企业数据中心的安全可靠运行,防止类似“美国911”等灾难性事故对核心业务产生致命影响,笔者设计在距离北京数据中心超过2000公里的广州建立异地容灾中心。北京数据中心作为生产中心提供日常对外业务访问,广州数据中心作为北京的异地容灾中心提供极端灾难情况下的应用接管和数据恢复。广州容灾中心可以解决生产中心出现硬件物理故障、人为误操作、病毒攻击等造成的数据丢失、损坏等问题。也可以防止发生地震、台风、火灾、暴力袭击等造成建筑物倒塌导致严重损坏机房设备。
本文所述异地容灾方案的主要目标有:(1)完善核心关键业务系统数据存储结构;(2)建设异地应用级灾备中心;(3)部署异地容灾备份系统网络架构、服务器系统;(4)实现本地的应急恢复系统和异地应用级容灾的双重保护。
3异地容灾技术概述
异地容灾,顾名思义就是在不同的地域,构建一套或者多套相同的应用或者数据库,起到灾难后立刻接管的作用。衡量容灾技术有两个指标,分别是RTO和RPO。灾难来临时抗击数据损失量的指标为RPO(Recovery Point Objective),以数据为出发点,业务系统所能容忍的数据丢失量。发生灾难后,启动容灾系统完成数据恢复。RPO值越小越好,理论上RPO可以做到为零。
以恢复数据的时间为出发点的评价指标为RTO(RecoveryTime Objective),假如灾难来临,从容灾发生到业务系统恢复服务功能所需要的最短时间,同样是RTO值越小越好。
目前,国际上通用的容灾系统的评审标准为SHARE 78,其M028报告中根据灾难恢复方案依据对于数据保护的程度定义为0至6共7个不同的容灾级别,最低级别是0级,最高级别是6级,数据可以实现零丢失。这些不同级别的系统建设,资金投入的差距是十分巨大的。
CDP(持续数据保护)是一种在不影响主要数据运行的前提下,可以实现持续捕捉或跟踪目标数据所发生的任何改变,并且能够恢复到此前任意时间点的方法。即在不影响主要数据运行的前提下,可以捕获或者跟踪数据的变化,并将其在生产中心数据之外独立存放,确保数据能够恢复至历史任何时间点。它是精度极细的数据块级别保护技术,不仅可以将各时间点数据在本地保存实现备份,也能够通过智能化的精简异地传输技术将数据传到异地备份。
4异地容灾方案设计
本方案的建设与实施本着实用性、可靠性、先进性、可扩展性和经济性这几个原则来主导。远程数据备份与系统恢复意义重大,技术细节复杂,投入的人力物力巨大,任何方面都不能有所疏忽。笔者为该企业设计的CDP容灾解决方案总体架构如图1所示:
详细结构说明如下:
1)北京生产中心部署以CDP容灾管理器为核心的持续数据保护系统。连接到FC SAN网络中,通过FC连接到生产存储网络进行数据保护,并通过以太网进行管理。
2)北京数据中心(生产中心)设置256份快照点,广州数据中心容灾管理器服务器同样可配置至少256份快照(Time-Mark),实现灾备中心多历史点的保护,使历史数据得到了双重保护。
3)远程复制采用TCP/IP协议,某一时刻的复制策略要根据生产系统每天具体的数据增量还有主次业务占用传输带宽率来灵活变化。本方案中的容灾管理器可以在低带宽情况下完成所有要求的灾备功能。
4)广州容灾中心构建一套支撑系统来实时备份北京生产中心的数据。广州容灾中心部署的主机系统与生产系统同构,数量和性能比生产中心稍低即可,灾难发生时的接管系统部署为X86服务器,采用虚拟化连接形式确保灾备中心能够快速重建数据中心应用系统环境,并实现备份业务系统对工作系统有效替代。
容灾中心与生产中心实时的快照卷能够保证发生灾难后,容灾中心可以直接挂起使用并保证数据库上一快照点的数据。对于在灾备中心上一快照点与生产卷的时间差产生的增量数据,可以在非繁忙区通过传统方式回滚等手段先恢复到生产卷到正常状态,并通过业务及应用手段抓取中间变化部分,并插入到作为生产应用的快照卷中,即完成的数据合并。这样的技术既解决了RPO、RTO在灾备中心接管的全要求,最大限度地减少拉起时间和数据损失。
5灾难发生时CDP装置的应对措施
5.1数据库表级别的丢失或损坏
由于误操作或病毒入侵等原因,数据库会出现表的记录丢失或损坏情况。面对这种灾难,需要在主机上挂载CDP提供的历史快照,该快照包含完整的记录条目。然后再使用数据库命令将丢失或损坏的记录导人到生产数据库中即可。
5.2数据库和应用系统的文件丢失或损坏
若是数据库文件丢失或损坏这类逻辑错误,可以采用提取历史快照的方法找回历史数据。找到没有丢失的时间点提取快照,并分配给主机,然后在主机上运行扫描命令新增磁盘,完成后启动数据库将需要的表或数据库导出,再导入到原来的数据库即可。如果情况十分紧急,CDP的快照是可读可写的,可以直接使用CDP快照磁盘接管业务。
1)数据库和应用系统无法正常启动
当数据库或应用系统出现问题无法启动时,可以先使用NSS中的快照进行接管。方法是将历史快照提取出来,然后分配给主机,主机上运行扫描命令新增磁盘,然后启动数据库或应用即可。
2)生产存储发生故障
当生产盘出现故障时,NSS镜像盘会自动接管业务,数据库系统根本感知不到中断和设备灾难,实现了RPO=0和RTO=0的理想。当硬盘恢复时数据会在阵列中自动同步。
3)灾备中心数据验证拉起
当发生自然灾害等站点级别的灾难导致北京生产中心瘫痪的情况下,启动广州灾备中心的容灾系统来恢复数据。广州灾备中心只需要启用灾备处理服务器,通过灾备中心的容灾管理器获取最新的生产数据,并立即启动数据库和应用系统进行业务运行,整个恢复过程可在短时间内完成。当生产中心修复后,灾备中心的容灾管理器能以增量的方式将数据同步回生产中心,轻松实现系统回退。
当然,灾备切换是一系列技术操作的过程组合,不是单一的技术动作。站点级灾难发生时,灾难宣告后原数据中心的业务流切换到灾备中心。接收业务流前,灾备的应用和数据库服务器需要挂起容灾管理器可用数据(经验证机校验过的可用数据)对外服务。而且,服务的启动顺序有严格的要求。数据库必须先启动,之后才能启动应用程序;应用服务器接管完成后,才能进行网络的切换。
总之,企业数据安全意义非凡、责任重大,应主动避免数据损毁会给企业带来致命损失的风险隐患。容灾技术尽管防范的仅仅是小概率事件,也需要未雨绸缪,防患于未然,让企业与用户得以放心地享受“DT时代”的科技成果,并借着数据时代的东风奋勇向前。