以BC/DR应对灾难 海外保险公司各有其道
2009-02-24AnthonyO’Donnell
Anthony ODonnell
直面就是一种成长。
伴随飓风、海啸、地震,还有类似9•11事件等天灾人祸接连不断的出现,保险行业的BC/DR(业务连续性和灾难恢复)水平也在不断进步。在2008年9月13日Ike飓风袭击美国大陆之前,美国国家保险公司早已在应对业务中断方面做好了准备……
伴随飓风、海啸、地震等灾难的不断发生,保险公司需要不断加强业务连续性和容灾能力,来应对不断变化的外界环境。
2008年9月13日,Ike飓风袭击美国大陆。为了应付飓风,总部在德克萨斯州加尔维斯敦的美国国家保险公司在Ike飓风来袭之前就完成了一次大的迁移——它将部分职员由加尔维斯敦这个沿海城市搬到了圣安东尼的新办公地点,并加强了公司的业务连续性和容灾能力,从而减弱飓风的影响。
搬迁 防患于未然
“我们已经考虑了很长时间,要将一些部门搬离加尔维斯敦这个小岛。2007年我们最终选择了圣安东尼这个地方。”J.D. Johnson,美国国家保险公司的高级副总裁兼CIO说。2008年6月,圣安东尼这个办公地点成了美国国家保险公司健康、人身和年金等业务呼叫中心的主要办公地点,而且,它还被选定为公司现有达拉斯分部的最终替代者,那边的业务主要集中在公司投资和金融领域方面。
“我们现在在圣安东尼有大约80个职员,但办公楼最多可以容纳450人。”Johnson说,“为赶在6月份之前竣工并开始运作,我们的确做了很多努力。”
在这次办公地点搬迁之前,早在2000年他们就做出决定,将公司的数据中心搬到北边25英里的德克萨斯州League城。这个新办公地点在2003年开始修建。在2005年9月的Rita飓风到达加尔维斯敦之前一个月,这个数据中心开始投入使用。“它简直是艺术级的建筑,它的设计可以经受5级飓风并继续运行。”Johnson介绍说,“当然,那时它就成了一座孤岛,但是我们有水,有食物,有睡觉的地方,还有柴油发电机——几乎所有东西我们都有备份。”
League城的数据中心与圣安东尼和达拉斯的办公地点一样,在Ike飓风来袭期间发挥了重要作用,因为美国国家保险公司总部关闭的时间显然要比BC/DR计划原先制定的时间要长得多。Johnson介绍,这家具有上百年历史的公司还没有过总部大楼停工一周的经历。但是这次飓风让加尔维斯敦城市设施的毁坏程度相当严重,人们不得不重新制定更加长远的计划。最终,公司在加尔维斯敦的办公地点直到10月13日才重新开放,那时,Ike飓风都已经过去三周多了。
“当我们意识到显然无法在这类事故预期的时间内回到加尔维斯敦的时候,我们就继续修建我们的办公楼。”Johnson解释说,“我们开始加强我们的持续性计划,将越来越多的人员安排到League城和圣安东尼的办公地点上班。”
“我们的数据中心正在按照设计的步骤有条不紊地运行着,维护人员9月12日都留在大楼里,那天晚上我们连续工作,保证所有的在线系统在第二天早上都跟往常一样运行。”Johnson补充道,“达拉斯和圣安东尼的部门也都在线,所有的一切都和往常一样运转,只是我们上班的职员数量有所减少而已。”
资源和功能的取舍
必须在有限的资源内制定IT部门的BC/DR计划。总部在加利福尼亚州Palo Alto城,为金融服务行业提供服务的国际调查公司Celent公司的分析师Donald Light认为,考虑到金融危机的影响,这些限制将尤为严重。Light认为,保险公司面临着有限资源的分配问题,这可能导致在BC/DR计划方面的投入会被缩减,这其中既包括设备的投入,又包括评审的频率。Light宣称:“保险公司可能认为没有必要每个月、每个季度,甚至是每年评审他们应对可能性较小灾难的计划。但如果不这么做,这样的计划就会变得又陈旧又不合适,完全没有意义。”
除了资源问题,保险公司还必须在功能上做出取舍。例如,公司产品数据中心和灾备中心的距离的确定就既要考虑安全性,又要考虑关键人员转移的便捷性。Forrester的分析师Balaouras写道:“你需要两个地点足够远,以便减轻风险,同时也必须考虑各种限制的影响,包括人员安排和网络基础设施与带宽等与成本相关的因素。”
移动设备和应用程序可以让职员不受位置的限制,但提供区域性的通信网络依然是有必要的。“在Katrina飓风来袭的时候,电信网络都瘫痪了。”Light说道,“在这种情况下,你会意识到没有拨号音的电话和不能上网的笔记本电脑都毫无用处。”
但Light也指出,尽管有着种种问题,移动通信设施依然是一个“极其重要的资源”,甚至可以说它是很多保险公司赖以生存的工具。他指出,“如果理赔理算人员没有笔记本电脑,不管他家里的宽带多么有效,他们都已经失去了加强DR能力的机会。”
很大程度上是因为理赔业务,使得保险公司成为采用移动可持续性应用的领先者,但是他们在内部的BC能力方面却很少让关键工作人员使用移动应用,Pyxis Mobile公司的总裁兼CTO Todd Christy表示,该公司总部位于马萨诸塞州的Waltham,主要为金融服务业提供移动应用程序。他说:“对于那些已经使用黑莓和其他移动设备的公司而言,无线可持续性工具可以提高保险公司投资的利用率,让他们能够提供更高水平的服务,并且在遭遇中断时能够更快地恢复。”
使用正确的硬件、应用程序和接入方式,业务中断可能就会被阻止,而在其他更加严重的灾难来临时再启用新的办公地点。State Farm公司在2007年冬天就有过这样的一次经历,当时他们在Bloomington的三个分部都因为暴风雪而被关闭了。“我们的虚拟专用网可以容纳24000个连接,这使得人们在家或者其他地方办公成为可能。”State Farm公司负责系统技术及BC/DR方面事务的主管Todd Vincent介绍说。
Vincent说,VPN能够容纳的连接数接近Bloomington三个分部工作人员总数的2倍。然而,State Farm在全美国范围内的工作人员大约是75000名,人员的分散也保证了公司VPN容量不会承受太大的压力。Vincent介绍道:“之前最多有大约7000人同时使用,但我们在这方面预留了足够的空间。”
全面审视每一个业务环节
分散的原则也加强了State Farm的数据有效性。该公司策略性地将他们4个主要的产品数据中心分别放在了亚特兰大、达拉斯、菲尼克斯和伊利诺伊州的Lisle——所有这些地点都分别远离那些容易发生自然灾难的地方。Vincent说,公司将主站放在总部,通过Bloomington分发,为这4个地方的恢复中心提供IT服务。
目前,公司将大多数数据都备份到了磁带上。但Vincent表示,他们还计划转为使用数据镜像技术。“我们正在使用硬盘镜像,能够每10分钟刷新一次所有的重要数据,在Bloomington复制产品数据中心的数据。”他说。尽管现在该公司只是将这项技术用于大型主机的数据,但是他们已经有计划在2009年将这项技术推广到所有的系统中。
“这项技术的意义在于,万一我们的产品数据中心发生了意外,我们也不会失去数据,我们无需等待磁带的传输就可以马上恢复故障的站点。”Vincent解释道,“这能够减少我们的RTO(恢复时间目标),也能够减少我们的恢复点目标。”
Vincent承认,规模和分散在灾难响应方面也带来了挑战,但这些挑战都在公司详细的BC/DR计划中被化解了,这样的计划已经详细到了每一个职员的行为。“在整个企业中,我们有大约1700份业务连续性计划,”他介绍道,“我们使用Strohl Systems公司的实时灾难恢复计划系统按照一定的周期来更新、培训和测试这些计划。”
State Farm公司每3年会执行一次业务影响性分析,每年会执行4次测试,其范围包括前面提到的4个主要产品数据中心,以及在加拿大的一些小型数据中心。Vicent补充说:“我们用文档详细记录我们从练习中学到的经验,并起草实际计划来纠正我们遇到的任何问题。我们和硬件与网络技术供应商具有良好的关系,通过我们的测试,我们对真正遭遇灾难时的行动和反应充满了信心。”
为了确保在遭遇比暴风更严重的灾难时能够有正确地行动和反应,佛罗里达的Blue Cross and Blue Shield公司(BCBSFL)频繁地采取了场景计划。来自公司总部佛罗里达州负责业务风险解决方案的健康保险主任John Phelps介绍说:“我们的计划所考虑不只是单独环境因素的影响,我们没有专门针对洪水、停电或者暴风的单独计划,而是非常灵活,能够应付一系列的挑战范围。”
BCBSFL已经将BC/DR放在了其企业风险管理项目中,其中业务中断受到公司的风险评估委员会的重视。Phelps认为:“和其他大部分公司对BC/DR的策略不一样,这种方式提高了业务连续性的重要性和被重视程度。”
Phelps认为,为客户考虑是BCBSFL定位BC/DR计划最重要的因素。“一旦我们认定哪个业务功能从客户角度来看是最重要的,我们就知道应该首先加强哪个业务流程。”他说,“我们认为那些功能确实将影响到整个公司,并且建立策略来将恢复这些流程。
大容量的通信管道
作为一个健康保险公司,BCBSFL面临的最严峻的挑战之一就是客户需要公司处理的交易数量非常庞大。每天BCBSFL需要处理大约23万份理赔单,大约涉及4800万美元。Phelps介绍道:“通信管道的中断将带来一系列的问题,我们将无法响应客户需求。”
在公司应对这些挑战的策略中,将客户关系管理外包能够在需要时快速替代。公司还有能力将业务转移到佛罗里达州的其他办公地点,或者其他州的BCBSFL分部。Phelps表示,去年该公司的远程工作能力翻了一番。
公司负责IS和恢复的主管Chris Gay介绍,BCBSFL在其他州有一个与IBM公司合作的主站点。他说:“我们每年做两次80个小时的深度练习,在那个地方恢复我们的系统。”
Gay介绍,公司通过大量使用服务器虚拟化技术来加强恢复能力。“我们在Intel架构和Unix中都使用虚拟化技术,”他说,“因此,我们的恢复涉及的硬件会更少,能够缩短我们的RTO。”BCBSFL使用Dell MessageOne提供的通信能力,每年进行多次季度性演习。该公司的AlertFind紧急通知和其他增强型工具使得BCBSFL能够在事故发生之前、之中和之后方便地联系任何职员。它允许BCBSFL向在某特定区域内工作的职员,或者特定部门或团队发送紧急消息。这个程序能够循环查询不同的联系频道,根据当时的具体情况来确定最后的联系方式。公司还使用厂商类似EMS等电子邮件的持续性服务系统来备份其内部系统信息。BCBSFL的DR计划使用Coop System公司的myCoop外部主机工具。
“我们每年都审查这些计划,”Gay说,“我们尽量让每一件事情都尽可能自动化,并保证其有效性,以便我们不会单独依赖我们基础设施的某一些部分来开始我们的恢复。”