APP下载

实施灾难恢复计划就像买保险

2009-02-24NelsonNahum

中国计算机报 2009年5期
关键词:宕机快照镜像

Nelson Nahum

您买保险了吗?如果考虑到人身安全和财产安全,您已经购买了保险,那为什么不给数据也上一份保险呢?

大多数企业认为,数据是企业的生命线。数据保护有点类似于保险,只有今天投资,未来在出现灾难的情况下才能够得到补偿。与保险一样,灾难恢复计划也是一项复杂而不断变化的工作。由于知识水平所限,许多企业在进行数据保护或灾难恢复系统建设时,难免会陷入一些误区。

灾难恢复计划不可少

人们都希望避免灾难的发生,但不幸的是,灾难还会经常发生。在当今信息化时代,没有几家公司能承受得起大量数据丢失或系统长期宕机。企业希望在系统或数据发生问题后能立即恢复服务。

研究显示,即使宕机时间很短,也会对企业造成不利影响,比如影响营收、引发客户不满、企业声誉受损等。如果宕机时间过长,有的企业可能会因此而倒闭。虽然不同行业有不同的情况,但宕机毕竟不是一件好事。

企业IT基础架构尤其是企业的数据对商务运作发挥着至关重要的作用。企业如果不制定灾难恢复计划,一次灾难对企业来说就可能是致命的。尽管每个企业的规模和应用需求有所不同,但大多数企业都必须制定一定形式的灾难恢复计划。

恢复计划各不相同

对不同企业而言,灾难恢复计划的复杂程度等会有很大不同。企业必须明确自身的目标,并制定可满足这些目标的计划。在建设灾难恢复系统前,企业必须考虑一下到底需要什么,而且愿意为此支付多少费用。

举例来说,企业必须考虑的一个关键因素是恢复点目标(RPO)。在简单的灾难恢复计划中,RPO一般不大于48小时。换言之,从故障中恢复之后丢失的数据不会超过此前 48 小时内新增的数据量。但是在有些情况下,丢失5分钟的数据量都不行。因此,企业必须明确自己的 RPO目标,这非常重要。

另一个需要考虑的问题是恢复时间目标(RTO),即恢复系统所需的时间。这是指企业能够承受多长的宕机时间。

明确了灾难恢复系统建设目标之后,就要考虑采用何种技术才能满足目标的要求。

明确重要性等级

在实际应用中,只有少数灾难恢复计划在实施时才需要在灾难恢复站点制作设备、网络、人员以及其他资源的完整物理镜像。

主站点上的应用并不都是关键任务。在故障发生后,有的不重要的应用不必立即恢复。也就是说,部分应用可以承受较长的RPO与RTO。举例来说,一些用于内部研发的应用程序就不属于关键任务,灾难恢复站点不必为这些应用预留存储空间、服务器资源等。

一旦明确了所有应用的重要性级别,企业就能确定如何分配灾难恢复站点的设备和资源。在大多数情况下,主站点的配置会比较高,不仅要为处理峰值时的负载提供足够的资源,还要留有一定余量。灾难恢复站点通常不需要根据极端负载条件进行配置。因此,灾难恢复站点的配置成本远远低于主站点。

灾难恢复站点的主要作用是,当灾难发生时,能够在短时间内快速恢复应用,让主站点重新开始运行。

几年前,用于主站点和灾难恢复站点的存储系统必须是相同的。这种相对封闭的解决方案成本十分高昂。如今,一些独立软件厂商可以为异构的存储设备提供镜像功能。这样一来,企业在构建灾难恢复站点时就可以选择更高性价比的存储系统,而不必受制于某一家厂商。此外,镜像解决方案的效率较高,可以将高性能设备中存储的内容镜像到较低性能的设备中。

大灾小难都能防

灾难恢复计划可以帮助企业从各种灾难中进行恢复。这些灾难既包括物理灾难,也包括因大规模病毒入侵或应用错误等造成的整体数据损坏。

研究显示,企业遇到的93% 以上的错误都是逻辑故障,而不是物理故障。部分错误不一定就是灾难,而有些错误(如病毒、数据损坏或意外文件删除等)可能造成与物理灾难一样严重的后果。物理故障也好,逻辑故障也罢,最终都可能造成系统宕机。

出色的数据保护计划不仅需要支持主站点的快速物理与逻辑故障恢复,而且要确保逻辑错误不会影响灾难恢复站点。

最常见而且是最高效的逻辑故障保护方法就是快照技术。很多厂商现在都能提供容量占用较低的快照技术,只要存储最近快照之后发生的数据更改即可。这种快照解决方案可在几秒钟之内完成系统恢复,而从传统的磁带(或磁盘)中恢复数据要花费数小时。

同步、异步各有所长

同步镜像与异步镜像各有优缺点,到底采用哪种技术,取决于企业需要实现什么样的目标。

如果采用同步镜像技术,灾难恢复站点上的数据肯定与主站点完全一致,但并不能确保使用该数据的应用一定能成功恢复。举例来说,数据库不能确保始终从数据的任何时间点快照上成功恢复运行。成功恢复运行通常要求数据完整性(数据一致性)。有些数据库应用采用内部机制,通过非完整性数据进行重启,不仅非常耗时,而且不可靠。

有些厂商提供基于低容量快照技术的异步镜像解决方案,能够根据预设的时间间隔产生快照,收集系统的更改信息,然后再将这些更改传输到灾难恢复站点。

低容量快照技术是服务器在主站点或灾难恢复站点上使用的标准快照,可以在发生逻辑故障时发挥保护作用。

有多远走多远

频发的自然灾害表明,灾难恢复站点的位置如果太靠近主站点是不好的。一旦发生地震、洪水这样的大灾难,可能整个地区都会受到影响。因此,确保系统成功恢复运行的一个办法是让灾难恢复站点远离主站点。

如果使用异步镜像技术,灾难恢复站点甚至可以建在地球的另一端。异步镜像解决方案的效率非常高,而且能够通过低带宽的IP线路工作。部分厂商甚至可以在不向现有系统添加任何额外硬件的情况下提供异步镜像解决方案。

同步镜像解决方案的应用范围通常是不超过10公里的光纤通道(FC)。有的厂商可以提供FC的扩展技术,能够适当扩大同步镜像解决方案的应用范围。

在实际应用中,用户最好选择既能提供同步镜像又能提供异步镜像技术的厂商,这样才能根据需要灵活地应用相关技术。

充分利用灾备资源

在执行镜像时,灾难恢复站点还能继续工作吗?当然可以。如果不能正常工作,灾难恢复站点会在大部分时间内造成大量资源的浪费。在应用实践中,企业的一个重要目标就是最大化资源回报率。如果让服务器、存储空间、网络和人力资源闲置,等到灾难发生时再发挥作用,那显然不是一种好的资源利用方式。另一方面,如果能够充分发挥灾备资源的作用,企业也愿意长期支付实施灾难恢复计划的高昂费用。

在进行远程备份时,备份用的磁带通常放在远程位置,许多情况下会位于灾难恢复站点。备份会消耗系统、存储、网络、SAN 以及LAN的资源。因为灾难恢复站点具备数据的更新版本,所以磁带备份可在远程位置完成,从而节约主站点的资源。

许多企业都拥有研发团队,负责应用程序的开发与测试。开发和测试工作常常需要用到更新版本的数据。因为灾难恢复站点已经拥有所需的设备和数据,因此开发和测试人员可以使用灾难恢复站点的资源进行开发和测试工作,而不必在主站点获取相关数据。

随着技术的发展,许多以前不能实现的数据保护的高级功能现在都能够轻而易举地实现,许多以前被视为不能解决(或者解决代价过于昂贵)的问题现在都已经有了低成本的解决方案。没有灾难恢复计划,企业也能运营,但是风险会非常大。构建完善的数据保护系统是市场的现实要求。

猜你喜欢

宕机快照镜像
EMC存储快照功能分析
岛内人口普查刚启动就遇“宕机”
创建磁盘组备份快照
艾默生网络能源发布《2016年数据中心宕机成本》
数据恢复的快照策略
一张“快照”搞定人体安检