APP下载

如何防范及应对数据中心基础设施运维五大风险

2016-02-22

信息通信技术与政策 2016年10期
关键词:艾默生数据中心运维

如何防范及应对数据中心基础设施运维五大风险

作为数据中心的运维人员,最头痛的莫过于随着运行年限的增加,数据中心所面临的“成长的烦恼”,应付各种风险成为运维工作最重要的内容。长期以来,艾默生网络能源服务团队在协助全球客户进行数据中心运维工作的过程中,积累了丰富的实践经验,并据此归纳出了数据中心基础设施运维的五大典型风险。

●风险一:建设过程出现纰漏导致先天缺陷

数据中心的建设过程,实际上是在实现“所需即所建,所建即所得,所得即所用”的目标。“所需即所建,所建即所得”发生在数据中心投产前,“所得即所用”则主要表现在运维阶段。

数据中心在正常运行之前,通常经历规划、方案设计、设备选型、工程实施、调试验收几个重要环节。在这一过程中,任一环节如果出现纰漏,就可能直接导致最终交付的数据中心基础设施存在先天缺陷。因此,“所需即所建,所建即所得”需要多个部门、多个环节非常专业的协同才能实现。

艾默生网络能源认为,解决这类风险的关键在于早期规避,但是要能够有效指导客户去实现合理的早期规避,服务团队必须同时具备规划、设计、建设和运维几个阶段的丰富经验。在这方面,艾默生网络能源服务部门采取内部结构重组的方式,成立了数据中心机房服务业务部门,整合公司的机房规划、设计、集成项目工程实施(总包)、数据中心整体运维以及专家资源,重点为客户提供前期咨询、数据中心机房集成和第三方工程验收服务,全面参与和配合客户进行前期工作,合理规避风险。

●风险二:数据中心运行环境变化

随着用户业务的快速发展,IT设备规模会逐渐加大,这也导致数据中心承载能力超出前期规划水平,在供电、热管理等基础设施层面的容量及配置上,难以适应业务发展需求,并在可靠性上使得数据中心运行面临重大安全风险。

针对这一因素给数据中心运行环境带来的变化,艾默生网络能源指出,主要的解决方式是对数据中心资源持续、完善的监控,配备专业的资源管理系统,让运维人员对数据中心现有资源的使用情况有实时的、全面的掌控,通过科学手段及时发现和处理问题。艾默生网络能源在为满足不同规模数据中心监控管理需求提供Site Web监控系统、Trellis TM动态基础设施优化平台的同时,还能够为客户提供远程监控服务,对客户数据中心及核心设备运行进行7×24小时远程值守。

●风险三:数据中心设备性能老化

数据中心相关设备在长期运行后,基于磨损等原因会导致设备性能大幅下降,甚至突然终止运转,给数据中心运行带来很大隐患。从维护角度来看,数据中心设备和系统可以分为损耗件、维护件和免维件。损耗件通常包含各种机械活动件、电子器件,设计寿命短,需要定期进行老化更换,常见的损耗件如UPS的电容、空调室外机的风扇等。维护件尽管不容易出现老化和损坏,但是也需要定期保养和维护,而且日常维护不到位或不恰当时,也会加速老化,从而需要进行更换,典型的维护件如各种水阀、部分管路等。

艾默生网络能源指出,数据中心运维应该建立损耗件的管理档案,便于随时掌握超设计寿命运行的设备情况。同时,针对维护件和非定时更换的损耗件,除了进行必要的日常维护之外,还应该进行定期测试评估,以便及时发现设备老化隐患。艾默生网络能源围绕“保质”的核心目标,为客户提供设备大修、更换以及数据中心测试评估服务,同时对艾默生网络能源全线产品提供设备原厂维保服务。

●风险四:不恰当的操作和维护习惯

这一风险的最大原因来自于运维人员的专业水平不足。运维工作需要完整的体系和管理流程来支撑和规范,当运维体系的架构组织缺失或不合理时,运维工作就有可能处于一种失控状态,对运维工作的完整度、运维的质量和运维的合理性无法进行有效评估。这其中,有效提升运维人员的技术水平是决定运维效果的重要因素。

艾默生网络能源建议,用户需要从数据中心全生命周期的视角来看待运维工作,在第三方验收、建设与运维的衔接、运维流程、运维人员技术培训等几个关键环节做好工作。基于强大的技术实力和完善的服务体系,艾默生网络能源不仅能够为客户数据中心运维人员和管理人员提供职业发展和技术培训,而且可以提供第三方验收服务,协助客户做到“所建即所得”,同时通过全国性的服务站点、经验丰富的专业人员和强大的后台支撑体系,为客户提供数据中心代维服务。

●风险五:超出预期的意外事件

数据中心是基于一定的假设环境边界来进行规划、设计和建设的,而这些假设环境边界往往是依据国家的相关规范、当地过去的测量数据推测、其他区域建设和运行的经验等。但是,在数据中心漫长的生命周期里,有可能会发生超出预期的意外事件,给数据中心运行造成重大隐患。

基于意外事件可能影响的范围不同,数据中心用户应该预先采取相应的策略。例如,异地灾备设施、实时或异步备份机制、应急处理流程及演练、后备技术支持体系及相应规模的备件库。艾默生网络能源指出,防范和应对这一风险的关键在于紧急响应。在帮助客户应对数据中心突发事件方面,艾默生网络能源凭借自身丰富的实践经验、庞大的专业技术团队以及完善的组织体系,能够帮助客户制定完善的应急演练流程,建立多级备件库,并提供多级技术支持服务,帮助客户建立后备技术支持服务体系。

猜你喜欢

艾默生数据中心运维
酒泉云计算大数据中心
艾默生自动化解决方案
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
配电线路的运维管理探讨
基于云计算的交通运输数据中心实现与应用
艾默生:智能化软件需关注“人性化”