做好灾难恢复计划
2018-03-03
宕机事件对公司的业务、信誉、客户体验以及信任等方面所造成的代价从未如此高昂。由于考虑到软件驱动业务的持续性和关联性,客户和用户们越来越不能容忍灾难和故障的发生。而某种服务的故障可能影响到其所有的用户。同时多用户平台发生故障的破坏力越来越大,因为它影响到在平台上运行其服务的所有服务供应商。
在难以预测的大事件与小宕机事件之间寻求平衡
随着对设计灾难恢复方案的重视,企业容易关注如何防止大的灾难和故障。这种难以预测的不寻常事件往往对服务的可用性带来极其巨大的几乎是灾难性的影响。这种影响的范围很广,换言之,这种影响可能延长服务发生灾难的持续时间,也可能增加数据丢失的数量。这种影响规模巨大,而那些较轻的不太常发生的宕机事件就可能被忽略。
企业需要注意判定、发现和防止那些发生频率越来越高的小故障。这些小的宕机事件可能会随着时间的推移而累积,并且会完全破坏服务可用性的目标。对于灾难恢复而言,可用的选择包括本地的灾难恢复解决方案,也可以是基于云的灾难恢复方案,后者利用的是一些大型的云运营商的基础架构和平台的功能。
小宕机事件的代价
小宕机事件的代价容易累积。频繁的宕机可能会增加大量用户受影响的可能性。此外,同样一个用户被故障或宕机时间重复影响的可能性也会增加。这种频繁的宕机会破坏对服务的信任。反复的宕机时间会令人经常感觉到不快。客户可能会不再增加业务的规模,甚至决定不再续约。依赖每月带来收入或每年带来收入的SaaS业务极易受到频繁的小型宕机事件的影响。
形成弹性的关键能力
如果企业谋求针对重大和小型的宕机事件形成弹性,不妨重视形成和维护如下方面的能力。
连续备份
提供通信服务的所有关键系统都应持续不断地备份。除了以一种REST的方式设计外,这些服务所生成、更新和维护的数据都应连续地备份到本地集中化的或是基于云的灾难恢复系统中。在不影响服务质量和系统的前提下,应尽可能地频繁备份。同时,备份应是递增的,基于快照的,以提供灵活性和在任何时间和任何宕机事件中恢复的能力。此外,备份应是多层级的,以确保备份系统不会受到影响主要系统的相同故障的影响。
持续监视
企业应当持续地监视提供通信服务的所有关键系统。这对于确保尽快地检测故障或灾难并立即实施灾难恢复至关重要。与备份类似,在实施监视时,如果同样的故障已影响了主要的服务,就不能在这种系统上实施。同样,客户的反馈系统也需要监视,以获得故障报告。在报告开始到达或在监视系统发出故障警告时,应确认故障并实施灾难恢复。
失效转移
在检测到灾难、生成报告并确认时,就应启动失效转移过程,启用新服务器从而继续提供通信服务。这种失效转移的完成是经由确保新服务器承担受宕机影响的服务器的角色而实现的。
管理员应当对失效转移服务器进行配置,使其能够访问通信服务状态和信息的备份。
自动恢复
在宕机时间结束并且主要服务环境中的底层问题被诊断、修复、确认修复后,自动恢复过程应当将所有的服务恢复到主要环境中。在确认自动恢复过程成功后,自动恢复服务器即可被回收再利用。
结论
很多管理员认为并未实现服务的可用性,并承认在过去的一年中经历过不少宕机事件。宕机的频发要求认真规划和设计,只有这样才能减轻其威胁,并且确保快速的恢复。企业面临很多选择,应当认真评估和选择最适合自己需要的方案,并确保检测不可预料的宕机事件的敏捷性和快捷恢复。