浅谈灾备管理的新趋势
—以浙江省水利河口研究院为例
2016-02-04黄健辉葛瑛芳
黄健辉,葛瑛芳,金 蕾
(浙江省水利河口研究院,浙江 杭州 310020)
浅谈灾备管理的新趋势
—以浙江省水利河口研究院为例
黄健辉,葛瑛芳,金蕾
(浙江省水利河口研究院,浙江杭州310020)
摘要:近年来信息化建设的飞速发展与大数据时代的到来,催生了各种新的业务模式与研究方向。作为IT基础架构重要一环的灾备管理,也从过去单纯的数据备份转变为不仅注重数据和业务系统的备份,同时追求业务系统的连续性和高可靠性。以浙江省水利河口研究院灾备管理系统改造为例,探讨在新形势下灾备管理的发展方向与趋势。
关键词:灾备管理;连续性;可靠性;异地灾备
1问题的提出
灾备行业的起源可以追溯到20世纪70年代。1979年,SunGard在美国费城建立了全世界第一个灾备中心,当时的灾备重点主要集中于数据备份和系统备份。容灾备份真正被各行业广泛重视并大规模部署于IT基础架构之中是与2001年“911”事件有关。据统计,因此次事件的影响,如果2个星期内无法恢复信息系统,75%的公司业务将停顿,43%的公司将再也无法开业,没有实施灾难备份措施的公司60%将在灾难后2~3 a破产。“911”事件后,全球各行业认识到了灾备管理的重要性[1]。
随着信息化系统重要性的与日俱增,以及大数据、云计算时代的到来,灾备管理的重心也从单纯的数据备份转为对信息基础架构连续性的高要求上[2]。调研机构Qualix Group的报告指出,服务器宕机1 min,平均会使运输业损失15万美元、银行业损失27万美元、通信业损失35万美元、制造业损失42万美元、证券业损失45万美元。这也从直接经济效益的角度说明了关键业务平台对于稳定性和可靠性的要求。本文将以浙江省水利河口研究院灾备管理系统改造为例,探讨在新形势下灾备管理的发展方向与趋势。
2灾备管理体系的现状
近几年,浙江省水利河口研究院在信息化建设上发展迅速,电子办公和信息管理水平有了较大提升,信息共享和信息集成初见成效。同时,不断尝试新技术的使用,进行了办公自动化系统(OA)、门户网站、人力资源管理系统、财务管理系统等信息管理系统的一次更新换代、原有系统的集成整合、知识管理、流程到桌面(业务流与事务流协同)、风险防范管理系统、各式各样基于互联网的音频、视频技术、射频技术的利用和使用,推动着新一轮信息技术革新和企业管理变革创新。信息化已经深入到全院的各个管理领域和业务环节。然而,与快速发展的业务系统不同,近10 a来浙江省水利河口研究院的灾备管理仍然停留在过去既有的解决方案上,面临各种单点故障隐患、业务连续性较低等问题。在信息化系统重要性日益突显的今天,浙江省水利河口研究院原有的灾备管理体系显然已经跟不上整体信息化发展的步伐,主要体现在如下几个方面:
2.1存储设备缺乏冗余保护
浙江省水利河口研究院灾备系统在改造前的灾备管理方案中,在生产端服务器部署了双机集群,可以有效预防生产端的单点故障,然而,其所有的数据只存放在1台存储设备中,仅做了基本的RAID保护。虽然RAID保护可以在一定程度上对磁盘故障进行恢复,但依旧无法杜绝存储的单点故障问题。由于未发现硬盘坏道导致整个RAID无法恢复的例子比比皆是,寻找一个更为安全可靠的灾备方案来预防存储单点故障的隐患,是浙江省水利河口研究院灾备管理的一个重要课题。
2.2逻辑错误防护的缺失
浙江省水利河口研究院原来的灾备管理方案中并不包含对人为误删、系统软件或应用软件故障、病毒攻击等逻辑错误防护的预案。一旦发生逻辑错误系统将很难在短时间内恢复,对业务连续性造成极其严重的影响。
2.3传统备份系统的备份、恢复时间过长
传统的备份软件在备份过程中,由于需要经过压缩加密,既占用大量的主机资源又耗费大量时间。一旦需要从备份文件恢复系统和数据,需要等待冗长的解密解包过程,短则数天,长则数周。在数据量几何级暴增的时代,传统备份软件显然无法满足业务高连续性的要求。
2.4缺乏针对重大事故的灾备预案
由于没有对诸如火灾、地震等重大事故的灾备解决方案,一旦遇到上述的突发事件,将不可避免地造成生产资料或数据的永久性丢失,导致不可挽回的重大损失。
2.5分支机构间缺乏统筹的灾备管理规划和解决方案
浙江省水利河口研究院拥有凤起东路主办公区(院本部)、复兴南街测绘院办公区、杭海路六堡试验基地、萧山临江工业区农水试验基地、杭州三新大厦办公区、深圳分院等多处办公、试验场所。目前各业务系统分散部署在多个办公区域,院本部和分院的IT人员水平参差不齐,尤其是分院缺少IT管理人员以及合适的灾备解决方案。
显然,浙江省水利河口研究院原有的灾备管理体系已无法满足信息化建设高速发展所带来的高连续性、高可靠性的需求。寻找一套完备的全新灾备解决方案,将灾备管理系统的应急响应能力提升到一个新台阶,是浙江省水利河口研究院信息化建设过程中尤为重要的一个组成部分。
3灾备管理的新趋势
为应对爆发式增长的数据扩容、灾备统一部署、虚拟化平台等一系列信息化建设需求,当下灾备管理的主流发展方向和解决方案有以下几个方面:
3.1存储同步镜像
同步镜像技术,可以实现一对一或多对多存储系统之间的同步镜像,消除SAN环境中存储系统的单点故障隐患。在不同的物理存储中保存2份数据,以确保存储不存在任何单点故障,当其中一个存储设备发生故障时,网关系统将自动进行存储路径切换,杜绝存储设备的单点物理故障隐患。
3.2智能数据快照技术
数据快照功能,可对特定数据卷在极短时间内产生增量的历史时间生成副本。快照副本作为一种完整的数据拷贝,可应用于数据备份、应用测试、软件更新、数据验证、数据挖掘与分析等方面。一旦数据发生逻辑错误,管理员可以迅速依照既定的快照策略选取最近一次的正确可用数据快照,迅速恢复数据。
3.3持续数据保护
持续数据保护技术(CDP)是基于I/O连续捕获和保存数据的保护技术,可以实现过去任意一个时间点的数据恢复。数据的改变被连续的跟踪和捕获,实现微秒级I/O操作截取及恢复,恢复点目标是任意的,而且不需要在实际恢复之前事先定义。
3.4异地灾备管理
异地备份是通过互联网TCP/IP协议,可以将本地的数据实时备份到异地服务器中,也可以通过异地备份的数据进行远程恢复,快速对业务进行接管。异地灾备可以帮助灾备管理集中化,大大减少各网点IT运维人员的部署。
3.5虚拟化存储
虚拟化存储功能能够整合各种异构存储系统,容纳不同品牌、不同技术类型的存储产品,把不同的存储系统整合统一管理。可以与FC、iSCSI、FCoE、SAS、InfiniBand等存储协议轻松连接,彻底消除存储厂商的品牌限制,最大限度地利用既有的存储设备,杜绝数据孤岛问题。
4灾备系统的部署及成效
浙江省水利河口研究院结合自身实际情况,在全院范围内建立了一套全新的容灾备份系统,在院本部和六堡试验基地设立同城异地的2个容灾备份中心,将4大办公区的数据和应用备份于灾备中心,从而得到保护。新的灾备管理系统的拓扑图见图1。
(1)浙江省水利河口研究院在院本部部署了1套光纤交换机和柏科数据的DR一体化灾备保护设备,组成1个基于FC-SAN的高速光纤存储和容灾保护网络,集中对六堡试验基地、测绘院、江东农水试验基地的远程异地应用系统和数据进行灾备管理。柏科数据DR一体化灾备设备以旁路的方式直接接入到以太网交换机,整个项目的实施不改变原有网络架构。通过DR一体化灾备设备的备份、镜像、快照、微秒级CDP持续数据保护、远程容灾精简复制等技术,实现对所有业务系统及核心数据的实时容灾保护,避免由于各种软硬件故障导致数据丢失和业务中断风险。当业务或数据发生故障时,指定应用业务和数据都可以在1~5 min内一键接管,数据零丢失,所有应用业务和数据都可以在15 min内一键接管,数据零丢失;院本部可在1~5 min内一键接管指定的远程业务,在大大提升业务连续性的同时,保证数据零丢失。
(2)院本部的所有应用系统和数据全部实时复制到六堡试验基地的一体化灾备设备中,实现对院本部所有应用系统和数据的远程异地容灾保护。当院本部任何一个应用系统或数据出现故障时,首先院本部灾备中心进行业务接管。当出现较大灾难时(如机房火灾),六堡试验基地可以在1~5 min反向一键接管院本部的相应业务,院本部和六堡试验基地的2个灾备中心互为异地灾备。
(3)作为全院最大的数据中心,院本部集中了所有站点的业务和实时数据。为了使数据能够做到长期保留,实现数据生命周期的管理,浙江省水利河口研究院将其数据离线备份到VTL虚拟带库和磁带库设备中,实现数据的长期保存。柏科的DR一体化灾备保护设备可在无需额外配置备份软件的情况下,直接实现数据的归档处理,将数据自动地归档到VTL虚拟带库、物理磁带库或其他存储设备中。所有数据的归档工作都在后台处理,不影响前端的服务器、网络和业务的正常运行。
(4)除了院本部,六堡试验基地、测绘院、江东农水试验基地各配置1套柏科数据DR一体化灾备保护设备,与院本部的灾备设备一起共同构建成1套完整的异地容灾系统,形成本地、异地互为灾备的架构,实现统一的灾备管理。灾备系统由院本部统一运维,在大大减轻分支机构的运维压力和成本的同时,提升了整个灾备管理系统的运行效率。
5结语
近年来信息化建设的飞速发展与大数据时代的到来,催生了各种新的业务模式与研究方向。而作为IT基础架构重要一环的灾备管理,也应与时俱进,同步发展。本文以浙江省水利河口研究院灾备管理系统的改建为例,对新形势下灾备解决方案的主流发展方向作了简单概述。在多边的IT环境下保证业务系统的连续性与可靠性,始终是灾备管理发展过程中值得探讨的课题。
参考文献:
[1]王树鹏,云晓春,余翔湛,等.容灾的理论与关键技术分析[J].计算机工程与应用,2004,40(28):54-58.
[2]NOLLAU,BARBARA.Disaster Recovery and Business Continuity[J].Journal of GXP Compliance,2009,13(3):51.
(责任编辑郎忘忧)
Discussion on the New Trend of Disaster Recovery Management—Taking Zhejiang Institute of Hydraulics & Estuary for Example
HUANG Jian-hui,GE Ying-fang,JIN Lei
(Zhejiang Institute of Hydraulics & Estuary,Hangzhou 310020,Zhejiang,China)
Key words:disaster recovery management; continuity; reliability; remote disaster recovery
Abstract:In recent years, rapid development of information construction and arrival of big data era gave birth to a variety of new business models and research directions. Disaster management as an important part of IT infrastructure, it changed from simple data backup in the past ,into not only emphasize the backup of business systems and data, but also pursuing the continuity and high reliability of business system. This paper takes the improvement of disaster recovery management system of Zhejiang Institute of Hydraulics & Estuary as an example, explores the development direction and trend of disaster recovery management in new era.
收稿日期:2015-11-17
基金项目:浙江省省属科研院所专项(2014F10008)。
作者简介:黄健辉(1970-),男,高级工程师,硕士,主要从事水利信息化建设和管理、网络安全和灾备管理研究。 E-mail:kosan@qq.com
中图分类号:TP393.08
文献标识码:A
文章编号:1008-701X(2016)02-0089-03
DOI:10.13641/j.cnki.33-1162/tv.2016.02.026