基于CDM技术的IT系统数据保护实践
2017-03-30林岳鑫
林岳鑫
【摘 要】为了解决传统备份与恢复时效低、大量占用备份资源的问题,通过采用业界最新的数据保护技术,分析了各种现有数据保护技术的优缺点,并提出了快速恢复的方案。经过实践验证了CDM技术的高效性,既提升了业务系统的保障水平,又降低了备份资源的使用,为IT系统特别是大规模生产系统的数据保护能力建设提供有益的借鉴。
【关键词】数据保护 CDM 快速恢复
IT System Data Protection Practice Based on Copy Data Management Technique
[Abstract] In order to tackle problems of the low real time and massive backup resource occupation of the traditional backup, the state-of-art data protection technique in the industry was used to analyze advantages and disadvantages of existing data protection techniques, as well as a fast recovery scheme was proposed. The high efficiency of copy data management (CDM) was validated by the practice. CDM technique not only enhances the guarantee level of the service system, but also reduces the utilization of the backup resource to provide a useful reference to the data protection capability construction of the IT system and the large-scale production system.
[Key words]data protection copy data management fast recovery
1 現状及问题
某运营商系统每套核心生产数据库均有10 TB数据量,采用传统的数据备份解决方案。基于传统的数据备份方案进行灾难恢复,配备与备份一致的基础环境下,数据恢复需要接近12 h。
某运营商的这套备份系统存在大量的冗余备份数据。这些数据在收集、存放、保管等环节都极大地消耗了系统维护的人力和物力,而备份和恢复的效果却远远达不到运营商对RTO(Recovery Time Objective,复原时间目标)和RPO(Recovery Point Objective,复原点目标)的要求。
2 建设目标
对于生产系统来说,RTO要求是半小时,即在任何停机情况下,维护人员需要在半小时内实现业务的恢复。IT系统面临着各种各样的停机风险,这些风险都可能造成业务系统非计划内停机,如各种灾难事件、各种人为错误、各种系统错误等。通过对这些事件进行分析,可大致分为小概率机房级故障和大概率机房内故障两类。
2.1 小概率机房级故障
小概率机房级故障如火灾、水灾等事件。这类事件发生的概率很小,但影响范围至少是机房级的,甚至是地区级的,即整个机房内运行的业务系统都会受影响。
2.2 大概率机房内故障
大概率机房内故障如各种逻辑错、物理损坏等。这类事件发生的概率较大,是各种业务系统非计划停机的主要因素,但影响范围主要是系统级的,即一般是单个业务受影响。
某运营商IT中心在业务连续性保护方面的建设主要包括容灾系统和备份系统。第一类事件由容灾系统进行业务系统的保护;第二类事件原规划是由预期容灾和备份的结合进行保护。但在实际中容易出现以下问题:
(1)容灾系统处理单个业务停机时非常困难。例如,一个数据库停机了,如果通过容灾技术在容灾端进行切换,那么应用服务器是否切换?如果不切换,则生产端的应用服务器和容灾端的数据库之间的网络延迟会造成很大业务影响;如果切换,则其他应用和这个应用之间的依赖关系会造成严重问题。
(2)容灾系统是基于数据实时复制实现的,所以它并不能处理各种逻辑错误。例如,生产端被误删除一张表,容灾端的数据也立即被删除。
(3)数据库的数据量都是TB级的。备份系统在进行恢复时耗时过长,一般需要几个小时甚至以天为单位才能完成恢复,与半小时的RTO要求差距较大。
基于上述现状,某运营商IT中心希望建设一个快速恢复系统,从而弥补容灾系统和备份系统的不足,如表1所示。
3 各种数据保护技术的研究和比较
为了解决上述问题,某运营商IT中心对市场上现有的各种技术进行了分析研究。
3.1 传统备份软件技术
传统备份软件是基于磁带技术为核心发展起来的,数据备份集格式采用的是适合流媒体介质的格式,适合批量的顺序写(备份)和读(恢复)。
传统备份技术的发展主要体现在两个方面:一是备份介质的发展;二是备份数据获取技术的发展。
(1)备份介质发展历程
物理磁带库:通过使用更多数量、更加高速的磁带驱动器,一个备份作业同时利用多个驱动器的技术,以解决业务系统数据量越来越大带来的备份窗口的挑战。
VTL(Virtual Tape Library,虚拟磁带库):VTL的出现解决了磁带较容易损坏的问题,同时由于重复数据删除技术的出现,极大地降低了VTL的总体成本。虽然VTL使用磁盘,但是其内部的数据格式、数据管理、对外接口等和物理磁带库是相似的,因此VTL在备份和恢复的速度上并不能超越物理磁带库。
备份一体机:传统备份软件进行安装时,需要配置管理服务器、介质服务器、备份客户端。备份架构、维护的复杂度较高。备份一体机将虚拟磁带库和备份软件整合在一起,组合成软硬件一体化的设备,简化了备份架构并降低了维护的复杂性。但备份一体机的优势主要在管理及运维上的简化,而没有在备份和恢复的速度方面有所改进。
(2)备份数据获取技术
备份数据获取技术可以概括为以下三类:
LAN(Local Area Network,局域网)备份:如图1所示,备份数据通过IP网络从生产服务器传输到备份设备。LAN备份方式一般用于数据量较小的应用。
LAN-Free备份:如图2所示,备份数据通过FC网络从生产服务器传输到备份设备。LAN-Free备份方式一般用于大数据量的应用。
Server-Free备份:如图3所示,采用上述备份方式均需要生产服务器长时间进行备份,导致大量的IO资源消耗,影响生产稳定。Server-Free备份基本不需要生产服务器参与整个备份过程,其实现方式是备份设备直接从生产存储获取数据(生产存储对应用数据做快照)后挂载快照,再将快照备份。这种方式能将备份的资源消耗从服务器转移到存储上,从而减少对生产的影响。Server-Free备份方式需要存储系统的支持。
虽然备份软件一直在优化进步,但远远跟不上数据量增长的速度以及业务对数据恢复的要求。以10 TB的数据库为例,如果备份设备硬件配置高,则可以达到2 TB/h,即需5 h实现全量备份。在这个速度下,生产服务器的资源消耗巨大,且10 TB数据的恢复时间至少要10 h以上。
3.2 CDP技术
从功能上看,CDP(Continual Data Protection,连续数据保护)比较适合解決前述备份软件的问题。它能提供数据备份,快速恢复数据。CDP的原理是通过截取生产应用的写操作并传输到CDP设备中,将写操作按次序保存下来。当需要恢复时,CDP可以根据这些写操作虚拟出一块磁盘,再挂载给服务器。CDP技术减少了传统备份在恢复时需要将数据从备份设备恢复到目标存储的过程,实现分钟级的恢复,恢复时间和数据量的大小没有关系,也不需要有专门的备份窗口。由于保存了写操作,所以它可以恢复到任意时间点。
但CDP技术在架构上有一个很重要的前提是:它必须集成到生产系统的IO链路中,并以同步方式截取写操作。它必须保存写操作的顺序,也不能有任何写操作的缺失,所以这个写入CDP的操作和生产系统的写操作必须是一个同步的关系。这样会极大地影响生产系统的IO性能,同时也要求CDP存储的性能必须要和生产存储的性能是等同的,对成本的要求极高,如图4所示:
由于客观条件的限制,CDP技术在推出多年之后仍然没有取代传统备份技术。它在中小企业IT系统中使用较广泛,但较少在大型企业的核心系统中使用。
3.3 Oracle零数据丢失一体机
Oracle零数据丢失一体机是Oracle于2015年推出的最新技术,它能实现数据库的永远增量方式备份,结合日志传输技术,数据丢失量可以达到秒级。Oracle零数据丢失一体机技术可极大地减少备份时间,有效解决了传统备份软件的备份时间窗口等问题,如图5所示:
但从数据恢复的角度来看,它仍然没有解决恢复时效问题,同样需要将数据从一体机内恢复到生产环境,如图6所示。并且它只支持Oracle数据库,不能支持其他数据库、文件系统和虚拟机等。
3.4 Oracle数据库复制技术
数据库复制技术(如Oracle的Data Guard)是通过实时传输数据库日志实现数据复制的。这种技术主要用于防止灾难事件发生,即生产数据库因灾难事件(如火灾、存储宕机等)发生停机,目标端的数据库可以快速接管业务。其原理如图7所示。
数据库复制技术需要在目标端数据库上不断请求日志,从而尽可能地使目标端生产库和生产数据库保持一致。因此,这种技术并不能应对逻辑错、人为错等需要恢复到历史时间点状态的错误。
3.5 CDM技术
如图8所示,CDM(Copy Data Management,复制数据管理)技术是一种创新型的备份技术。Gartner认为在两个场景中可以提供非常高效的解决方案:一是备份恢复的现代化;二是开发测试环境的快速搭建。
CDM的核心技术是备份出来的数据格式是原始格式,即备份数据可以直接挂载给目标服务器实现分钟级恢复,和数据量的大小无关,这是和传统备份软件最大的区别。由于备份数据是原始数据格式,并且存放在磁盘上,所以它可以根据新的增量数据和已有的全备数据,在备份系统内合成新的全量备份,从而实现永远增量备份。
由于CDM本身是备份技术,所以它可以应对各种宕机场景,包括逻辑错、人为错等大概率小事故。增量备份和增量合成功能可以极大地降低备份窗口以及备份时系统资源的消耗。并且它还可以实现分钟级的恢复时间,满足业务对恢复的时间要求。
3.6 小结
综上所述,当出现业务需求但生产系统出现问题时,可以快速实现恢复,包括逻辑错、人为错等大概率小事故。各技术对业务保护的满足程度具体如下:
(1)传统备份软件技术:在大数据量情况下,备份、恢复时间都过长。
(2)CDP技术:可以实现业务需求,但对生产系统影响大。
(3)Oracle零数据丢失一体机:永远增量备份功能可以解决备份窗口问题,但恢复时间过长。
(4)Oracle数据库复制技术:主要实现容灾功能,无法解决逻辑错、人为错等问题。
(5)CDM技术:可以实现业务需求、分钟级恢复、永远增量备份功能解决备份窗口问题。由于它是备份技术,因此对生产系统的影响小。
4 项目实践
某运营商IT中心通过对上述各种数据保护技术综合分析后,选择了CDM技术进行应用,在开展严谨的POC测试后才进行选型、建设。系统上线后,实现的效果符合预期。
4.1 CDM实践方案工作原理
如图9所示,在恢复过程中,当需要恢复某个时间点的备份时,CDM主机会在系统内部做一个指针式快照,然后把这个快照挂载给需要恢复的主机,恢复速度在分钟级别(当某份数据要恢复到多台主机时,CDM主机会做多份快照,多份快照可同时挂载)。在做归档时,若数据需要保存的时间长,CDM主机可以把近线备份以外的数据通过重删的方式备份进重删池。
4.2 CDM方案备份实践效果
備份系统第一次备份时需要进行全量备份,后续的备份每次只需要进行增量备份,系统内部再自动合成新的全量数据,这样既可以极大减少备份时间,又可以减少数据备份时对系统资源的消耗。项目负责人将备份频率增加到间隔4 h做一次全量备份,并对两个Oracle数据库进行了备份,实际的数据量分别为3.63 TB(A库)、
7.51 TB(B库)。
3.63 TB数据量的Oracle数据库备份效果如表2所示,增量备份和合成的平均时间为00:11:22。
7.51 TB数据量的Oracle数据库备份效果如表3所示,增量备份和合成的平均时间为00:20:44。
4.3 CDM方案恢复实践效果
所有合成后的备份数据都可以挂载给服务器,直接恢复成数据库,恢复效果达到规划要求。快速恢复系统实现架构如图10所示。
对A、B两个数据库进行全量数据的快速恢复测试,具体如表4所示。
对多个Oracle RAC数据库统一一个快速恢复系统实现保护,可配置一个恢复验证服务器,用于备份数据的验证。在业务停机或需恢复事件发生时,主要突发情况以及应对处理措施如下:
(1)整个机房出现问题:采用容灾系统进行切换。
(2)数据库停机(存储损坏、数据库Bug、逻辑错等):将备份数据挂载到生产服务器,实现快速恢复。故障解决后,将数据从快速恢复系统迁移到生产存储。
(3)数据库服务器停机(RAC或2节点服务器同时损坏等):将备份数据库挂载到恢复验证服务器,接管业务。故障恢复后,将数据库迁移到原生产数据库环境。
(4)数据库没停机,但出现逻辑错和人为错:把错误发生前一时间的备份数据Mount给恢复验证服务器,将所需数据export,在import到生产数据库。若故障时间点无法确定,可以通过多次Mount数据库的方式人为确定。由于每次Mount时间短,因此对故障时间点的确定非常有帮助。
以上分类覆盖了各种事件造成业务停机的情况,所有情况都可以在半小时内恢复业务。通过本次项目验证,CDM技术完全可以达到业务系统半小时的RTO要求。
5 结束语
IT系统的数据保护需要根据业务的需求和实际面临的风险进行设计。在这个项目中,某运营商IT中心根据业务系统的自身特点,综合分析对比各类备份技术,并结合新技术进行研究和验证,最终采用基于CDM的数据保护及恢复技术应用到生产系统中,有效地弥补了原有容灾备份技术的不足,将生产系统的容灾能力提升到一个新的水平。在现阶段,某运营商IT中心需要更加广泛地使用CDM技术保护业务系统,从而全面提升生产系统的容灾能力。
参考文献:
[1] 康春荣,苏武荣. 数据安全项目案例:存储与备份SAN与NAS容错与容灾[M]. 北京: 科学出版社, 2004.
[2] 韩松峰,常俊超. 数据恢复技术与应用[M]. 北京: 电子工业出版社, 2014.
[3] 卜海兵,徐明远,杨宏桥. 数据存储、恢复与安全应用实践[M]. 北京: 中国铁道出版社, 2012.
[4] Kelley Okolita. 构建企业级业务连续性规划[M]. 于天,等译. 北京: 机械工业出版社, 2015.
[5] GB/T 29765-2013. 信息安全技术 数据备份与恢复产品技术要求与测试评价方法[S]. 2013.
[6] 林伟松. 数据备份与容灾技术在电信计费系统中的应用[D]. 北京: 北京邮电大学, 2007.
[7] 王锐. 四川联通远程容灾备份系统的规划与建设[D]. 成都: 电子科技大学, 2007.
[8] 宫婷. 计算机数据库的备份与恢复技术研究[J]. 计算机光盘软件与应用, 2013(21): 155.
[9] 吴佳. 备份服务器的关键技术研究和实现[D]. 武汉: 华中科技大学, 2008.
[10] 张云帆. Oracle数据库备份与恢复策略[J]. 计算机工程, 2009(15): 85-87.