APP下载

数据中心基础设施运维风险管理技术

2017-06-13毛文杰

电信工程技术与标准化 2017年6期
关键词:数据中心运维基础设施

毛文杰

(中国联合网络通信有限公司上海市分公司,上海 200050)

数据中心基础设施运维风险管理技术

毛文杰

(中国联合网络通信有限公司上海市分公司,上海 200050)

本文对数据中心故障高发的基础设施运维进行分析总结,引入风险管理相关理论与方法,通过对基础设施进行风险识别、风险评估与风险应对,持续循环提高运维质量与技术,不断排除故障安全隐患,以降低事故发生的概率。

数据中心;风险识别;风险评估;风险应对;运营风险库

数据中心由于客户很多来自金融、政府、BAT等行业,其对数据中心安全可靠性要求非常高,这就对运维工作提出了更高的要求。本文引入项目管理(PM)中风险管理相关理论与技术工具,加入到日常实际运维工作中以提高数据中心风险识别能力,提前“排雷”规避风险,降低故障发生的概率,提高风险应对能力。同时引入质量控制(QC)中PDCA相关技术方法,以确保运维质量的持续改进与高效可靠。

1 数据中心基础设施运维管理现状

数据中心基础涉及供配电、空调、消防、安防、防雷接地、弱电监控等子系统,各系统之间相互关联、相互影响,对于这样一个复杂系统的运维管理,是一个多目标优化的决策过程,只有确保各系统整体最优,才能使得数据中心实现高可靠性。目前对于数据中心基础设施运维管理正在引入风险管理相关理论与技术工具进行定性分析,主要包括:根据已经制定完成的基础设施高危设备巡检清单与相关运维工具对各机房按季度开张一次类似“体检”的巡检,将现场采集来的设备运行数据及故障记录进行容量管理等分析研究,以确定哪些设备存在“生病”的征兆,即使联系设备厂家进行更换与保养;同时将现场隐患排查出来的风险按其严重性进行优先级分类,形成风险登记册,制定整改方案与计划及时进行闭环处理,以提高通信网络的安全可靠性。

根据已制定数据中心基础设施健康检查清单,确定运维关键指标,对选定机房进行全面体检。目前数据中心基础设施风险形成原因如图1所示。

2 数据中心基础设施风险管理

2.1 基础设施风险管理定义

根据高危设备巡检清单与设备安全运行关键性指标,采用热成像仪、万用表、接地电阻测试仪等仪器仪表,对数据中心基础设施(风、火、水、电)的运行情况:进行容量、温升、设备保养等方面数据进行采集与分析,并结合维护经验与工程实践,对数据中心高危设备进行风险识别与隐患排查,通过对高危设备系统性“体检”及指标分析,以提高数据中心的“免疫力”,降低事故发生的概率。

图1 数据中心基础设施风险因果分析图

2.2 开展数据中心基础设施风险管理意义

量化运维指标,提升巡检深度,提高设备安全运行可靠性;及时发现安全隐患,降低故障发生概率;提高竣工验收成效,减少前期工程的缺陷对后期运维安全的影响;加强外包运维团队的监督与管理,提高外包团队的运维能力与维护力度;形成数据中心运维规范标准的统一与模式化,为客户提供标准化运维服务,提高客户满意度;利用统一的巡检清单与运维指标,提升运维水平与部署能力。

2.3 数据中心基础设施风险管理方法

数据中心基础设施风险识别方法:高危设备巡检清单;数据中心运维指标;数据中心相关规范与标准;热成像对设备及线缆进行温升检测;万用表进行电源质量测试。

数据中心基础设施风险评估方法:风险分类:供配电、空调、安防、消防等;风险轻重缓急;制定风险登记册;风险形成原因及总结;制定风险应对方案及进度计划。

数据中心基础设施风险应对方法:风险规避:尽早闭环处理;风险预防:应急预案或应急演练;风险转移:设备厂家或合作方承诺。

综上所述,数据中心基础设施风险管理方法,可以按图2流程图所示实施。

图2 数据中心基础设施风险管理流程图

数据中心基础设施风险识别如表1所示。

表1 数据中心基础设施风险识别表

3 数据中心基础设施风险管理应用分析

根据海恩法则:任何不安全事故都是可以预防的。一件重大事故发生后,我们在处理事故本身的同时,还要及时对同类问题的“事故征兆与事故苗头”进行排查处理,以此防止类似问题的重复发生,及时解决再次发生重大事故的隐患,把问题解决在萌芽状态。所以在数据中心运维工作中开展风险管理可以有效降低事故发生的概率与影响面,积累运维经验,提高故障应对的能力。

通过应用上述风险管理方法,对数据中心基础设施进行风险管理,形成相关基础设施运营风险库,其主要问题如下。

(1)前期施工遗留问题:市电引入不到位;水系统不具备连续制冷及在线检修能力;走线架安装位置挡住空调出风口;设备接地线未布放;设备及线缆未做标签;管道存在漏水、漏油现象,密封性差;冷却水与冷冻水管道及阀门接反。

(2)设计考虑不周全:配电柜开关容量配置过小;空调配置数量不足;铜排及电缆过细,载流量无法满足应急要求;水系统不具有在线检修能力;电缆走线不合理;空调设备布置不合理。

(3)外包团队运维力度不够:UPS、开关电源、发电机及电池表面及其风扇积灰严重;电源设备及相关电缆标签缺失;各机房走线墙洞未做防火封堵;空调水系统水质污浊,管道腐蚀;门禁系统权限设置不正确且有损坏;消防灭火器超过规定使用年限;油机室存在漏油现象。

(4)外包团队运维水平不足:发电机启动电池浮充电压设置过低;空调取电设置不合理,均设置市电1路主用;高、低压配电柜及电池前未配置绝缘垫;动力及暖通设备现场未布置应急预案(EOP)与标准化操作步骤(SOP);未定期进行蓄电池核对性容量及全容量试验;未定期进行供电系统接地电阻测试。

(5)设备厂家维保力度不足:设备厂家对于其设备故障处理响应缓慢;未定期对UPS滤波电容进行检测;未定期对空调滤网进行清洗;设备厂家对其设备定期检测内容过于简单流于形式。

(6) 监控系统不完善:监控系统无法对设备进行遥测、遥控、遥信;监控系统无法满足自动化运维要求。

根据各数据中心进行风险管理后,对其基础设施子系统风险点统计后,如图3雷达图所示。

通过各数据中心基础设施风险点雷达图分析总结可得:数据中心E、B在供配电系统的风险点相对比较多,数据中心F、C在空调系统的风险点相对比较多,数据中心E在消防系统存在较大的安全隐患。该风险点雷达图可以对各数据中心基础设施运营及风险隐患情况的进行横向比较,确定哪些机房在哪个子系统运维情况较好,有何优点可以借鉴推广。哪些机房存在问题较多,为什么落后,使我们日常运维工作能更加精确管理,提高效率,降低运维成本,提升运维能力。

图3 各数据中心基础设施风险点雷达图

同时对数据中心基础设施运维进行风险管理:风险识别、风险评估、建立运营风险册、风险规避可以形成PDCA管理水平提升的4个循环模式,如图4所示,使得数据中心运维管理质量与水平得到持续优化。对风险管控效果显著的运维经验要继续坚持落实,对风险管控不显著的运维管理要分析原因,必要时调整相应的管理方法。

图4 运维能力PDCA循环阶梯式上升过程

4 总结及后续工作展望

通过定期对数据中心基础设施进行风险管理发现的问题,汇总整理成运营风险库,由机房经理及相关人员及时跟进问题整治进度,按期闭环,逐步减少安全隐患和及时采取预防性措施,降低事故发生的概率。当然目前运维工作的风险管理还是以定性分析为主,对于数据中心基础设施是个复杂系统,是一个多目标优化决策问题,后期将采用层次分析法(AHP)进行相关定量分析研究,以取得更优化运维管理模型。

[1] 张家春. 项目计划与控制[M]. 上海:上海交通大学出版社,2010.

[2] 朱方伟,宋金波. 项目管理[M]. 北京:清华大学出版社,2012.

[3] 钟景华,朱利伟,曹播, 等. 新一代绿色数据中心的规划与设计[M]. 北京: 电子工业出版社,2012.

[4] 杨宝玲,栾志强. 现代项目管理[M]. 北京:中国人民公安大学出版社,2009.

[5] 项目管理协会. 项目管理知识体系指南(第4版)[M]. 王勇,张斌, 译. 北京:电子工业出版社,2009.

[6] Harold Kerzner. 项目管理计划、进度和控制的系统方法(第7版) [M]. 杨爱华, 等, 译. 北京:电子工业出版社, 2002.

[7] 吉多,克莱门斯.成功的项目管理[M]. 张金成, 译. 北京:机械工业出版社,2007.

[8] 施瓦尔布. IT项目管理(英文版·第4版)[M]. 北京:机械工业出版社,2006.

[9] J.M·朱兰. 质量控制手册[M]. 上海:上海科技文献出版社,1980.

[10] 佟玉辉. 通信工程设计质量控制研究[D]. 吉林:吉林大学, 2010.

News

国家工业信息安全产业发展联盟在京成立

6月8日,国家工业信息安全产业发展联盟成立大会在北京举行,工业和信息化部部长苗圩、国务院国有资产监督管理委员会副主任徐福顺出席大会并作重要讲话。工业和信息化部副部长陈肇雄主持大会。工业和信息化部、中央网信办、公安部、国家认监委等部委相关司局和行业单位代表、业界专家和有关嘉宾出席会议。

国家工业信息安全产业发展联盟接受工业和信息化部业务指导,苗圩担任联盟指导委员会主任。中国工程院院士邬贺铨担任联盟专家咨询委员会主任,国家工业信息安全发展研究中心(工业和信息化部电子第一研究所)是首届理事长单位,所长尹丽波担任联盟理事长。目前联盟首批成员单位已达149家,包括神华集团、中车集团、航空工业、中国兵装、中国电子信息产业集团等18家副理事长单位,中核集团、中船重工、中石化、中钢集团、中国烟草等45家理事单位。

(来源:工业和信息化部官网)

Data center infrastructure maintenance risk management technology

MAO Wen-jie
(China United Network Communications Group Co., Ltd. Shanghai Branch, Shanghai 200050, China)

In this thesis, the infrastructure operation and maintenance of high fault data center are analyzed and summarized, the introduction of relevant theories and methods of risk management, the risk identification, risk assessment and risk response infrastructure, improve the maintenance quality of continuous circulation and technology, continue to troubleshoot security risks, to reduce the probability of the accident.

IDC; risk identif i cation; risk assessment; risk response; operational risk database

TN86

A

1008-5599(2017)06-0067-05

2016-12-26

猜你喜欢

数据中心运维基础设施
酒泉云计算大数据中心
农业基础设施建设有望加速
公募基础设施REITs与股票的比较
浅析数据中心空调节能发展趋势
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
振动搅拌,基础设施耐久性的保障
充分挖掘基础设施建设发展潜力
基于ITIL的运维管理创新实践浅析