容灾技术在重庆烟草的应用
2012-08-06宋海燕
宋海燕
(重庆市烟草专卖局(公司),重庆 400023)
作为在烟草行业内IT领先的重庆烟草,重庆烟草的各项业务对信息化高度依赖,已实现了全业务囊括、全员普及的目标,有力地推动了重庆烟草“管理上水平”,塑造了先进的重庆烟草形象。目前,重庆烟草已开始逐步引入容灾技术解决数据备份、应用可持续性存在的问题。针对重庆烟草的实际情况论述了容灾技术在重庆烟草中的应用。
一、容灾概述
(一)容灾的定义
容灾系统,对于IT而言,就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难,以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾),甚至,一个更加完善的容灾系统,还能提供不间断的应用服务(应用容灾)[1]。
(二)容灾的实现方式[2]
目前常用的容灾方式有以下几种:
1)磁带或磁盘备份容灾
一般需要和备份系统配合。将数据在本地的数据中心备份到磁带后运送的异地的灾备中心存放,灾备中心负责对磁带进行管理。如果本地数据中心和灾备中心的网络相通,可以通过备份软件把数据定时传输到灾备中心。实现数据的异地灾备存放。
这种方式主要由备份软件来实现。其特点是投资少,但容灾时需要的恢复时间比较长,实时性比较低。
2)数据复制容灾
将数据中心的数据实时复制到灾备中心。目前可以在存储系统的多个层面实现数据复制:可以通过在两地的服务器上安装实时复制软件实现基于服务器的复制方式;可以使用一些带有数据复制功能的存储交换机实现远程交换机之间的数据复制;还可以基于存储系统实现存储系统之间的数据复制,这需要功能比较完善的存储系统。
这是目前比较常用的容灾方式,可选择性多。
3)应用远程容灾
实现远程实时的数据中心之间的应用切换。一般在服务器上安装相应的软件实现,需要和基于服务器的软件复制方案结合使用,由复制软件实现远程的数据复制。
这种容灾方式一般需要购买整体的软件解决方案保证数据复制和应用切换的完全兼容。其中要使用专门的卷管理系统和文件系统,需要对服务器端做较低层的设定,可能会对现有的系统进行停机,相对来说实现比较复杂。但自动化的功能更完善。
二、容灾技术比较
(一)远程数据复制技术
目前业内应用比较多。它是由智能存储系统自身实现数据的远程复制和同步,即智能存储系统将对本系统中的存储器I/O操作请求复制到远端的存储系统中并执行,保证数据的一致性。HP的 CA、IBM的 PPRC、EMC的SRDF,以及HDS的True Copy技术都用于实现基于智能存储系统的远程数据复制。由于这种方式下数据复制软件运行在存储系统内,因此较容易实现主中心和容灾备份中心的操作系统、数据库、系统库和目录的实时拷贝维护能力,且不会影响主中心主机系统的性能。如果在系统恢复场所具备了实时数据,那么就可以做到在灾难发生的同时及时开始应用处理过程的恢复。
但这种方案具有开放性差和恢复时间长的缺点,表现在不同厂家的存储设备系统一般不能配合使用、对于主备中心之间的网络条件如稳定性、带宽、链路空间距离要求较苛刻。生产中心数据故障时,生产中心主机无法访问容灾站点的存储。只有当生产中心恢复了,采用反向复制,通过数天的全量恢复数据才可恢复业务。很难实现容灾站点的数据评估测试。
(二)基于逻辑磁盘卷的远程数据复制技术和镜像技术
基于逻辑磁盘卷的远程数据复制是指根据需要将一个或多个卷进行远程同步(或者异步)复制。该方案通常通过软件来实现,基本配置包括卷管理软件和远程复制控制管理软件。远程复制控制管理软件将主用节点系统的卷上每次I/O的操作数据实时(或准实时或延时)复制到远程节点的相应卷上,从而实现远程两个卷之间的数据同步(或准同步),主、备节点之间通常需要配置相应带宽的IP通道。基于逻辑磁盘卷的远程数据复制会增加各节点主机的一些处理性能需求,且通信带宽保证时,远程复制效率和数据一致性可得到保证。
基于逻辑磁盘卷的远程数据复制因为是基于逻辑存储管理技术,一般可与主机系统、物理存储系统设备无关,对物理存储系统自身的管理功能要求不高,有较好的可管理性,也便于主、备系统的扩充和发展。也可方便做到多个节点对一个节点或一对多的远程数据复制。利用这种方式的典型解决方案是symantec的VxVM+VVR[3]。
(三)基于逻辑磁盘卷的镜像加快照技术[3]
随着光纤存储网络技术的成熟和在距离上的拓展,如今可以不再需要依赖复杂的数据复制技术,就可以实现系统容灾。这种容灾方案所利用的是最为传统的磁盘镜像技术,也就是说可以利用基于城域SAN存储网上的镜像技术,轻松实现数据容灾,然后在此基础上,利用快照数据的方式和先进的集群软件,构建应用级的容灾系统。当生产中心和容灾中心间出现故障的时候,可以实现0停机0数据丢失。
这种基于卷的容灾技术的优势:1)简单,可靠;2)容灾完全可以进行真实演练,而不影响生产;3)无单点故障;4)0停机0数据丢失。
除了以上三种常用技术外,还有一种技术叫虚拟化远程数据复制技术[2],技术核心思想就是双向复制,几乎不会丢失什么数据,但是由于其兼容性太差,性能消耗太多,近几年已很少使用。
三、重庆烟草容灾系统方案实现
(一)容灾的必要性
1.现状分析
在未考虑容灾之前,重庆烟草集中部署的20多个信息系统,除了其中几个三级信息系统如营销系统、财务系统、烟叶系统定期执行手工脚本方式对数据库进行备份外,未采取其他可靠的手段对数据进行有效保护。即使作了数据库备份也仅是备份到同一套存储设备的其他磁盘上而已。
当新建一套应用系统时,如果现有的存储系统空间不太充足,通常会再采购一套存储设备,这样就形成了多个应用系统共用一套或单个应用系统独享一套存储系统的网络布局,存储网络如图1所示。
图1 存储网络
2.存在的问题
根据国家、行业相关要求,结合重庆烟草实际情况,重庆烟草容灾备份存在较大安全隐患。
一是数据保护措施不足。首先是数据保护手段单一,仅靠手工脚本方式对数据进行备份,只能做到完全备份,不能做到增量备份和差分备份,导致耗时长,效率低。然后是数据备份不完整,脚本备份或手工备份只能做到对数据库进行备份,对UNIX操作系统及其下的程序文件无法进行备份,如果UNIX操作系统或者程序文件损坏时只能重新安装,导致恢复时间过长。
二是存储系统使用不当。首先是存在信息孤岛,由于应用系统逐渐上线,逐步形成了几套互相分隔的小型SAN网络,每一套SAN网络都具有各自独立的磁盘阵列、SAN交换机等设备,相互之间不能实现共享。其次是存在单点故障,由于每个存储都是单独使用,不能互为冗余,如果磁盘阵列出现问题将导致数据全部丢失的严重问题。然后是利用率不高,各个存储之间相互独立,各自为政,即使有的存储空间非常富余,也不能给其他业务使用,而需要扩展空间的业务又不能共享其他存储设备,导致存储利用率较低。
三是异地容灾手段欠缺。重庆烟草所有IT业务均集中部署在市局(公司)中心机房,实现集中管控和统一运维。相应中心机房风险和压力呈倍数级增加,一旦出现停电、雷击、火灾,甚至地震、水灾等灾难,所有业务将全部停止甚至毁损,如果没有异地容灾,造成的损失将无法估量,难以挽回。
(二)容灾方案设计
IT技术的发展为我们抵御灾难提供了强有力的技术手段,但一个科学的、可行的灾难/恢复解决方案却也是我们能在合理的容灾投资下确保企业业务可持续运行的一个关键因素。为了应对灾难所带来的严重威胁,我们需要的不仅仅是数据得到有效的容灾保护,更需要考虑业务的可持续开展,特别是关键核心业务的可持续性运行!
对于容灾系统而言,策略总是第一位的,不论采用何种容灾技术,我们总会面对两个问题:1)业务可恢复点在灾难前多远(Recovery Point Objective)?2)能使业务重新运行需要多久(Recovery Time Objective)?
我们的容灾方案就取决于我们的业务对上述两个方面的具体要求。
1.容灾规划
按照《国家信息系统灾难恢复规范》,根据重庆烟草各业务对RTP和RTO不同的需求,将其进行等级划分。鉴于投资规划和实施难度的考虑,方案设计如下。
这个整体的容灾解决方案包括四个部分:本地数据安全保护、异地数据安全保护、本地应用的高可用性和异地应用的连续性。这四个阶段是容灾系统建设渐进的过程,可分为两期完成。一期完成本地数据安全保护和异地数据安全保护。二期完成本地应用和异地应用的高可用性。
第一阶段为本地数据保护,是客户要对生产数据进行定时的备份,当系统发生故障和人为的错误时,可以通过恢复备份数据来保证生产。
第二阶段为异地数据保护,用户将本地备份的数据送到远离本地的地方保存抵御灾难。灾难发生后,按预订的数据恢复程序购置和安装备份硬件平台,恢复系统和数据即可。
第三阶段为本地应用的高可用性和存储虚拟化,高可用系统确保本地应用系统在多机环境下具有抗御任何单点故障地能力,一旦系统发生局部的意外(如操作系统故障、掉电、网络故障、存储故障等),高可用系统可以在最短的时间迅速确保系统的应用继续运行。
第四阶段为异地应用的连续性,在异地建立一个灾难备份中心(包括主机、网络、存储),通过数据复制技术将数据实施传输到异地备份,在灾难发生后能够自动切换,保证业务系统的连续性。
2.总体架构
生产中心和灾备中心都在重庆,但距离较远,考虑两地相距在150 km左右,这样既能保证两地不会同时遭受自然灾害,容灾中心选择在重庆范围内,又能适当降低投入,并且保证容灾效率较高。图2即容灾系统架构设计图。
图2 容灾系统架构
(三)容灾的实施
1.数据保护
1)实施步骤
首要任务是先对数据进行保护。由于重庆烟草机房环境较好,数据量不大,通过LAN备份方式对数据进行集中备份管控。
在各服务器上安装备份客户端,将文件、操作系统、数据库等数据在线备份到一体机上。该阶段实现了对本地数据的保护。
当生产中心的集中备份系统建设好后,将本地备份的数据送到远离本地的地方保存抵御灾难。只需要在与生产中心IP互通的地方放置一台备份一体机即可实现数据级的灾备,即异地数据保护。
2)应用技术
备份一体机的使用实现了最新的备份架构(即面向云平台的备份架构)。在该种备份架构下,客户端无须连接和管理备份设备,只需与备份一体机的SAN或LAN网络相通,即可部署成云备份架构的备份客户端,需要备份的数据直接通过SAN或者LAN网络备份到一体机中,实现了备份系统和生产系统的分离。
在异地数据保护中,实现了备份数据的异地存储,达到了远程灾备的第四个等级(异步电子复制)。备份一体机的异地复制使用了重复数据删除技术[4]。即使在窄带情况下,也能快速地将数据复制到异地,减少复制时占用通信链路带宽。
2.应用容灾
1)实施步骤
在对数据进行充分保护的基础上,接下来考虑应用容灾的问题。
在生产中心及灾备中心的主机上安装高可用软件,使所有主机的存储能够实现存储虚拟化,整合存储资源实现按需分配,提高存储使用效率。
最后一步将灾备中心的主机纳入集群管理系统,通过高可用实现应用级容灾和应用系统自动切换。保证应用系统的高可用。
2)应用技术
应用容灾包括实时数据复制技术和集群技术[4]。重庆烟草计划采用基于逻辑磁盘卷的镜像技术实现了数据镜像,解决存储单点故障问题,当某台存储坏掉时,数据0丢失,应用0停机。
使用集群技术将重要的应用主机组建集群。当集群中的某台机器或者资源发生故障导致应用不可用时,集群软件可以快速判断错误,并在很短的时间内将应用切换到另一台机器上,保证应用的高可用,实现了最高的6级容灾标准。
3.容灾管理
以上任务完成之后,系统具备了应用级容灾的功能及完善的基础架构。接下来需要建立一个完整的容灾管理程序,包括容灾演练计划、容灾切换流程和容灾恢复预案;在此管理程序完成之后,需要定期按计划做容灾演练,以使整个容灾系统能够正常地运行,达到此容灾备份方案建设的目的,做到真正的防患于未然。
四、结论
重庆烟草各项应用对信息化高度依赖,保护数据的安全和业务的连续性非常必要。
重庆烟草容灾系统的设计,兼顾了投入、效率和运维的要求。在对容灾中心的选址、产品的选择、实施步骤等方面无不体现了这三方面的需要。
重庆烟草容灾系统的建设遵循了“先急后缓,由易而难,由近及远”的原则。紧急任务先于实施,从简单处着手,先对数据进行安全防护,然后考虑建设异地容灾中心,保证业务系统可持续运行。
容灾系统建设是一项系统工程,需要通盘考虑,不仅在技术上,在管理上也需要持续跟进,才能有效保护企业的业务高效、持续运行。
[1]Lied.容灾备份轻松到位:中小企业存储虚拟化远程容灾解决方案[J].微型计算机,2010(12):2.
[2]陶安,王军武.利用虚拟磁带库技术实现异地数据容灾备份[J].软件导刊:教育技术,2011(12):4.
[3]范建华,赵文.容灾备份异地架构在“不可抗力因素”下的应用研究[J].陕西理工学院学报:自然科学版,2011(1):5.
[4]李晓义.Symantec数据中心容灾备份建设规划[J].计算机世界,2012(2):10.