APP下载

基于AI 技术的新一代DCIM 管理系统

2020-04-13吴旭光蔡俊彬

通信电源技术 2020年4期
关键词:机架数据中心运维

吴旭光,蔡俊彬,吴 楠

(1.中国移动通信集团广东有限公司汕头分公司,广东 汕头 515041;2.广东技术师范大学财经学院,广东 广州 510400)

1 项目背景

1.1 运维管理手段原始

随着数据中心在网络中的核心地位凸现,运营商对数据中的运维要求越来越高,现场运维人员的行为需要管理、运维表格的填写越来越多。在这种压力下,现场人员的技能、运营质量无法保证,质量、成本、效率上的平衡也越来越难。按照目前的运维管理手段,难以符合业务迅猛发展的要求。

1.2 绿色节能缺乏数据支撑

目前,数据中心的各类种运维数据分散于各个系统,而按照能源分析的策略,是需要结合多方数据,包括动力环境、温湿度、设备功率情况、日常使用峰谷等内容。现实情况是综合数据分析只能依靠人工结合,无法利用AI 等方式实现智能分析调节,缺乏数据基础。

2 项目简介

2.1 理论依据

数据中心基础设施综合管理平台,以“一中心、一个平台、三大模块”为整体架构,分别是以数据分析中心DCDB 为根基,将数据中心所有运维数据和设备运维数据统一存储和管理,围绕基础设施管理平台DCIM 为核心,将数据中心风火水电等基础设施进行统一管理和展示,在此之上根据日常运维管理、资源管理及服务管理需要,构建运维管理模块(DCOM)、资源管理模块(DCRM)、服务管理模块(DCSM),突破以往粗放式管理手段,形成数据中心的信息化、智能化、精细化的管理新平台,为AI 智能决策打造绿色数据中心、降低PUE 提供基础,如图1 所示。

该平台具备如下5 个特点。

(1)整体智能规划:统一数据资料,标准化数据格式,对节能运维智能决策提供数据基础。

(2)统一管控管理:以基础设施管理DCIM为基础,在实现基础设施统一管理之上构建服务管理、运维管理及资源管理,减轻维护压力,实现人员精细化管理、统一化管控,提升整体运维水平。

(3)资源可视化:降低运维难度,实现售前资源分配智能化、故障定位精准化、设备维护高效化的目的。

(4)服务多渠道:提供对外服务官网、微信公众号、语音通道等接入渠道,提升客户服务感知,做强云计算品牌。

(5)智能辅助节能调控:结合动环数据和运维数据,利用人工智能进行分析,由平台给出节能运维建议,前期实现人工调整,最终将节能运维操作反向推给DCIM,接入BA 系统,实现自动化调整机房温湿度,降低整体PUE 值,达到节能减排的目的。

2.2 系统关键技术

2.2.1 资产条精细化管理机架资源

本系统在机架上增加智能U 位条,通过采集器将机柜内的设备资产、U 位占用情况、湿度、温度等信息采集并传送到服务器,实现图形化界面维护资产信息,通过资产监测条对机房内机架设备及其所有U 位进行自动管理。对未经授权的资产迁移,系统可产生报警,不用担心服务器乱摆乱放。图2 为U 位连接管理原理图。

2.2.2 AI 算法实现PUE 调控

图1 各平台间数据交互情况

在运维达到一定的成熟度后,人力或者专家的经验已经无法满足能耗进一步降低的要求。例如,冷通道温度的较小提升都会导致制冷系统的很多变化:冷机、冷却塔、换热器、水泵等的功耗都将增减不定,且非线性变化,其结果很可能是冷通道温度提升而总功耗增加。制冷和电气系统之间的相互作用和各种复杂反馈回路,造成使用传统的工程公式难以准确推导数据中心的效率。

为进一步优化系统工作状态与能耗的关系,需实现两个优化,一个是设备工作状态与能耗的优化,另一个是设备组成的系统间的优化,进而才能实现AI 算法进行节能调控(见图3)。该算法基于5 大类数据、500+参数输入进行AI 计算优化,通过收集风火水电、IT 负载等多维数据,利用DNN 建模,精确预测PUE采用深度强化学习训练,对接控制系统,形成闭环,自动求解最优PUE下的参数调节,调节时长短,精度高。相关原理如图4 所示。

目前,广东移动所研发的基于AI 技术的新一代DCIM 管理系统已经在中国移动(广东、汕头)数据中心部署并应用,通过半年的试运行,预计可降低PUE1%~3%,年节约电费约120 万元。

2.3 部分系统实现功能

2.3.1 3D 可视化监控

3D 可视化监控对机房进行全方位建模,实现机房、配电、空调、机柜的建模,并对机柜内部服务器设备建模,可进行可视化监控管理。各模块均是组态配置,可根据用户需要进行个性化定制,也可以随着数据中心的改造和扩容而不断更新,保证监控系统与数据中心实际机房场景管理紧密结合,支持分域分权,展示中国移动通信集团数据中心运营管理的软实力。图5为3D 可视化监控截图。

2.3.2 容量管理

容量管理实现对数据中心的基础设施的容量进行实时监测、容量规划和容量分析等子功能,主要监控容量四要素(空间、电力、制冷、网络)。针对动力部分,通过监控衡量机架的功耗峰值,压榨机架能耗空间,使其尽可能上架更多设备,满足自身业务发展的需求。图6 为容量管理截图。

2.3.3 监控管理

监控管理包括了综合视图、动环、暖通、网络监控告警,视频的检测监控,实现对数据中心的全范围监控管理,并支持阈值设置和告警收敛,实现统一监控的功能。图7 为监控管理截图。

图2 U 位连接管理原理图

图3 AI 技术在节能管理的应用

2.3.4 U 位条自动管理

本系统通过在机架上增加智能U 位条+资产检测条方式实现对机房内机架设备及其所有U 位进行自动管理,使运维人员对数据中心U 位占用情况一目了然。图8 为上下架及U 位管理条管理截图。

2.3.5 风险管理

图4 系统降低PUE 值

图5 3D 可视化监控截图

图6 容量管理截图

本系统通过对设备全生命周期管理,将所有运维操作的风险进行分级管理,并通过运维经验库的更新管理,不断更新优化每个风险对应的应急解决方案,使得运维的风险级别越来越低,提升运维的质量。图10 为风险管理截图。

2.3.6 能效管理

本系统构建了用于预测数据中心PUE 的神经网络。系统通过海量历史数据对PUE 预测模型进行训练,使其具有精准的PUE 预测能力。基于该能力,智维平台一方面使数据中心运营人员可以洞察各个运行参数与PUE 的关系,进而有能力评估运行参数变化对PUE 的影响;另一方面,系统基于该预测模型,可以进行智能分析,自动寻找系统最优运行参数方案,提供节能优化策略。图10 为能效管理截图。

2.3.7 巡检管理

巡检管理通过NFC 标签,实现人员定点定位进行巡检作业,巡检内容可通过自定义方式定义异常范围,方便生成对应的事件故障情况,规划巡检路线,更好完成日常巡检作业内容,防范于未然。图11 为巡检管理截图。

3 创新之处

3.1 集中管理

工作台功能打造集中化工作管理新模式,集监控、告警处置、演练处置、事件处理、服务受理于一体,支持派发到下层节点进行工单处理,实现ITIL 标准化多层事件的闭环管理,支持多方面统计考核,有效提升故障监控处理效率。

3.2 主动防御

U 位条自动管理功能实现对机房内机架设备及其所有U 位进行自动管理。对未经授权的资产迁移,系统可产生报警,不用担心服务器乱摆乱放。系统实现对资产的全生命周期进行管理,包括出入库、上下架、维修、位置变动、报废回库等。

监控管理功能实现对基础设施、网络服务、资源容量信息等多层次多方面的监控,部分实现了告警智能收敛规则管理,有效在突发故障或将要故障前进行告警并提醒处置,主动出击,将故障扼杀在萌芽阶段。

3.3 智能营维

整体平台构建了智能巡检、智能排班、电子化演练、维护管理、上电管理等全数字化运维功能,结合实时监控、风险管理,实现全数据中心运维数字化、智能化,缩减人力,提升运维效率和整体运维质量。

3.4 业务驱动

图7 监控管理截图

图8 上下架及U 位管理条管理截图

客户管理功能对租户所租用的资源使用情况进行分析,基于客户的使用机架、带宽流量、设备用电量等,形成价值客户象限图,将客户价值量化,实现客户价值分析,助力业务发展;电力成本核算功能结合当前电价计费策略,核算出相应客户的单机架用电成本,并按月生成对应客户逇能耗成本核算报告,为数据中心的建设及销售营销拓展提供经营决策的数据支撑手段。

3.5 风险预防

本系统通过日常巡检、维保、告警等相关事件,对数据中心的风险项沉淀积累,实现风险分级管理,通过审核-处置-确认-入库的闭环管理模式,实现风险预防。

3.6 AI 能效调节

本系统通过人工智能算法构建了用于预测数据中心PUE 的神经网络。该神经网络使数据中心的PUE 得到不断降低,达到节能的最大效果。

4 应用及前景

4.1 项目应用情况

4.1.1 防控风险

2018 年底,粤东数据中心风险问题处置项共计21项,涉及动力、暖通、IT、消防等内容。通过平台巡检后将问题沉淀积累,截止2019 年,共计发现问题记录共计65 项,跟进闭环管理65 项,其中解决56 项,因现场原因挂起9 项,配备应急管理措施和临时解决方案,中高风险0 项,对数据中心整体风险隐患问题处置达到100%闭环跟进,确保数据中心的稳定运行。

图9 风险管理截图

图10 能效管理截图

4.1.2 提升机架利用率

截止2018 年底,粤东IDC 共计机架数N 个,已上架机架数N 个。通过U 位精细化管控和机架推荐,在散热允许的情况下,降低了U 位的碎片化情况,使原本人工分配机架位置通过机器分配建议来辅助分配决策,释放将近200 个机架资源,在自有配套项目和客户业务增加3 倍的情况下,提升了机架利用率约20.12%,提供出更多的机架资源满足业务拓展的需要。

4.1.3 节约人力

2018 年,驻点运维人员为30(动力维护人员)+23(IT 维护人员),月度运维人力成本约为60.09 万元。通过DCIM 平台,将专业经验固化为数据沉淀,通过定位演练、实地巡检,减少了抄表、对照等繁杂耗时操作,让人力投入到实际关注的容易出现风险的巡检点上。至2019 年底,运维人员缩减为15(动力维护人员)+20(IT维护人员),月度运维人力成本约为37.83 万元,缩减成本22.26 万,减少人数18 人,减少人力成本约37%。

4.1.4 降低PUE

粤东数据中心未上线系统前,投产共计N个机架,估计PUE 为1.8,即总能耗/IT 设备能耗为1.8,按照2018 年月用电量为165.46 万度,共计月电费175.91 万元。通过使用该系统降低PUE 达2%以上,即PUE 达到1.76,2019 年客户业务量是去年的1.56 倍,月均用电量为238.96 万度,月均电费为213.59 万元,以类比情况下,平均约减少了7.42%用电量,降低了机柜成本,提升利润空间。

4.2 应用范围

4.2.1 精细管理,各个环节质量可控

通过RFID 标签,利用工单系统,将巡检、故障、维护等处理进行全流程记录,掌控每个环节的时间,缩小一些懈怠人员的可乘之机,避免取证的麻烦,做到每个环节可监控,细化管理,提升整体人员的工作水平。

4.2.2 闭环服务,提升处理效率和服务水平

所有面向客户的工作,均面向客户进行满意度调查,形成闭环管控,客户对自己发起的任务均有迹可查,有效提升客户感知。同时满意度落到每个人的考核内,促进人员提升自己的工作效率和服务水平,预计提升客户满意度2~3 个百分点。

4.2.3 防控风险,保障业务平稳高速发展

网络配置通过流程式的管理,和定期差异比对反馈,从源头防控业务偷开的风险,对应信息通过RFID标签直观展现,精准定位问题,做到可控可防制,满足相关法规对业务规范上的管理要求。将业务风险控制到最低。

4.2.4 节约人力,拥抱智能运维

利用机器完成力所能及的作业,如报告统计生成,自动测试等,替代较机械性工作,预计每个数据中心可释放人力2~3 人,更好投入到其他运维工作中。

4.2.5 AI 决策,助力云计算业务拓展

融入人工智能和机器学习的方式,在推荐机架布局时利用特定算法,综合各类型数据进行分析,提供最佳决策,辅助售前支撑的条件评估;同时结合维护作业,分析相关设备维护度,提供维护建议,做到主动发现,主动监控,主动处理,防范于未然。

图11 巡检管理截图

4.3 推广及预期前景

计划于2020 年起,在中国移动“4+45”数据中心园区中试点应用。通过试点后,在集团范围内或向第三方推广。预期将会节省5~7 个人力/数据中心,降低PUE1~3%,降低年均用电费4~5%。

5 结 论

本文介绍的“基于AI 技术的新一代DCIM 管理系统”是2019 年中国移动通信集团广东公司在汕头部署的创新项目,项目通过在中国移动通信集团(广东、汕头)数据中心部署云存储网络,实现对广东移动多个数据中心风、火、水、电、网的集中监控,解决目前运维管理上存在烟囱运维模式的困局,后续将通过该系统实现整个广东移动所有数据中心的集中监控。

猜你喜欢

机架数据中心运维
小型带式输送机机架动态仿真分析
高速公路智能运维平台
浅析数据中心空调节能发展趋势
别忽略它的存在!“意大利新一代架皇”BAS Accordeon(雅歌顿)XL4 2.0发烧机架
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
最多支持36块显卡 德国水冷品牌AlphaCool推出矿机机架
2017第十届中国数据中心大会榜单
配电线路的运维管理探讨
基于一体化的变电标准运维模式