APP下载

应对托管数据中心风险

2018-03-03

网络安全和信息化 2018年7期
关键词:中断数据中心关键

机房托管数据中心遭遇停电、宕机和非计划性业务中断的后果是十分严重的,一般托管数据中心的停机运行会影响该托管数据中心的流量下降50%以上,我们尽管在设计和运行托管数据中心时会努力避免各种事故的发生,但现有托管IDC机房设施并不能完全避免出现事故问题,其短期和长期的意外中断都将是代价高昂的,另一方面如果我们因为事故风险选择中断放弃服务,企业可能会因为违反服务协议(SLA)而受到经济处罚,也将对企业的关键业务造成长期伤害,并使企业品牌形象蒙受极大损失。

从托管数据中心的角度来看,应该做什么或不应该做什么都无法完全避免潜在事故风险的发生,但这并不妨碍数据承接业务的日常运营,那么如果客户已经将主要数据运营放在托管中心,并和托管方进行了基本的事故模拟和风险预案,这样就真的能够面对所有最坏结果了吗?答案是否定的。如果客户发现自己已经处在这种未知的情况下该怎么办?如果发生未预料到的情况怎么办?如果故障恢复失败或耗时太长影响到了事故处理步骤和业务计划性的安排如何处理?这一切都将取决于管理者对托管数据事故风险分析和战略性的应对策略。

分散关键业务的集中度

以笔者单位为例,在制定关键业务应用战略时,应避免将所有数据放在一处。同样的道理,也避免将所有关键应用的服务程序放在同一区域,甚至同一托管方。同时要考虑在主要数据存放位置后,备份数据存放的位置以及和主要数据的物理关联,然后逐步扩大到每个场景,并确定任何级别的故障将产生怎么样的影响。当然在正常情况下,机房的数据动态是要记录按天按周按月的日志并进行内控处理或者外部审计的,然而有时候,这种审查可能是由不完全了解自身托管数据中心和自身业务流如何运营的人员来完成。

因此,企业需要安排了解托管数据中心如何可靠运营的第三方专业人士进行审核,这些第三方审核通常会比托管人员自己识别的风险要容易得多,并且可以提供的信息更加丰富,在大多数情况下,与发生中断事故的成本和运营成本相比,通过审查和验证措施减轻风险的成本通常是最小的。

制定完善的多方备份战略

企业一定要了解自己关键数据面临的风险,并为最坏的情况做好策略上的准备。大多数IDC机房都配备替代的镜像,可以处理最基本的灾难恢复,以确保他们的客户对运营几乎没有影响。同时大多数公司仍在追求在托管数据中心(托管数据中心,云计算或者内部部署)中部署双活数据库。虽然有些双活部署接近成功,但在尝试使用灾难恢复备份时,其长时间的关键业务应用中断却让人痛苦,最后的结果是数据库没有企业期望的那样完整,数据丢失或应用程序在故障转换期间受到不一致性的影响。

另一方面,如果是IDC托管提供商的计划内停电或者中断,在与IDC托管方签订合同时,必须提前承认双方同意在什么情况将造成中断。这一点至关重要,通常时候真正数据拥有者到时就会发现预想的协议往往并没有涵盖他们真实的想法。

制定危机模式下管理计划

在事故真正发生的时候,托管数据中心的各方都进入危机模式,危机模式要有分不同等级的便于操作的应急预案,比如在不同程度的损坏下,允许什么级别的人,采取什么样的步骤和顺序以及应对的策略。

比如,企业要关心的一个重要问题就是,在危机模式期间谁可以访问?谁来操作执行关键业务的恢复和一致性处理,企业需要准确了解其在此期间那些数据可以访问,可以更改,以及访问权限,以及在访问时允许执行的操作。此外,还要知道在修复期间将采取什么额外的安全措施来保护其数据,数据有没有外流,关键业务数据在危机模式之后和之前能不能保持一致性。

记录文档并进行评估和学习

记录文档不仅适用于发生事故的托管数据中心,而且适用于所有与数据业务有关联的公司。

笔者在调查中发现,许多客户没有记录他们的日常运营流程和程序。就算有记录,也没有规律性的进行更新。文档对于在发生灾难时做好准备至关重要,这其中包括:了解应用程序运行的位置,知道中断哪些受到影响最大,谁需要了解更改等。因为在事故的评估过程中,大多数托管数据中心商都会告诉企业,系统是如何安装的,以防止服务中断。他们还给为企业提供满意的客户的推荐和参考。但他们通常不会告诉他们失败的案例。要记录文档并了解过往的故障处理的失败案例,要了解事故的细节,从中学习如何纠正以及采取了哪些步骤来防止再次发生事故。

慎重对待托管数据中心签署的免责条款

如果企业对托管数据中心的故障恢复工作失去信心,请务必了解合约中的免责条款,这有助于企业顺利地中止合作。确保合同没有采用模糊的语言描述,避免被不合理的条款所限制。大多数托管数据中心的合同期限一般都为长期合同,托管数据中心市场的规模将扩大,新的厂商进入市场,虽然企业可能目前不会寻求采用新的托管数据中心,但应该不断评估其他提供商。如果发生失败,企业必须知道移动到新的解决方案的选择,如果托管数据中心的故障处理和恢复工作花费的时间太长,那么后果可能会迫使相关业务停止线上运营,让您所在的组织业务遭受巨大的损失,而又无法得到相关托管方对这部分关键业务的赔偿。

规模化地组建风险处理团队

如今规模化地组织运营托管数据业务,就必须规模化地建立预备团队,团队组织不但要熟知托管数据中心的知识,而且还要了解市场趋势。通过询问问题和阅读报告,可以了解托管数据中心解决方案的各个方面情况。最重要的是,知道潜在的失败点,了解什么情况可能导致中断,人们都希望中断或失败永远不会出现。

但是如果这样做,企业必须为此规模化地组建风险处理团队,最好的建议是在这些故障情况下制定计划,并组建工作组团队按部就班遵循这个计划,团队内部沟通对步骤实施准确和成功至关重要,因为人们在发生失败可能会不耐烦,但团队必须遵守严格执行,并通过定期检查这些重要领域,按团队计划性完成风险的分析和事故的预判,为管理者在中断事故中的资源战略调度提供有效性的建议。

猜你喜欢

中断数据中心关键
酒泉云计算大数据中心
硝酸甘油,用对是关键
新形势下深化改革开放的关键一招
高考考好是关键
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
基于FPGA的中断控制器设计*
Linux中断线程化分析及中断延时测试
跟踪导练(二)(5)
千里移防,卫勤保障不中断