以数智化为驱动重构数据中心DCIM系统
2023-01-31张建雪侯晓雯张慧玲
张建雪,侯晓雯,王 青,张慧玲,夏 洁
(中国移动通信集团内蒙古有限公司,内蒙古 呼和浩特 010000)
0 引 言
随着云计算、大数据、人工智能等技术的发展,各大企业的数字化建设逐步向数智融合方向转型,数智化已经成为更高的转型发展要求。在此背景下,针对目前数据中心基础设施管理(Data Center Infrastructure Management,DCIM)系统存在的数据处理、分析、联动能力不足等突出问题,结合数据中心运维人员对DCIM系统最迫切的需求,如全景可视、自动运维、智能运营以及能效自动调优等,探索DCIM系统升级方案,依托智能化系统进一步提高数据中心的运维质量与效率,实现DCIM价值最大化[1]。
1 DCIM系统现状与问题
1.1 系统现状
DCIM系统主要对数据中心动环设备、互联网技术(Internet Technology,IT)设备、安防设备以及消防设备等专业关键设备的重要信息进行统一采集,实现集中监控和管理,其基础功能一般有告警管理、统一视图管理、报表管理、工单管理、能耗管理、容量管理以及资产管理等[2]。
DCIM系统通常被定位为数据中心的决策者和管理者,通过将数据中心各个子系统统一管理、综合规划,协调各子系统之间的相互联动关系,同时能够全局处理分析、资源共享,为数据中心提供有力的科学决策支持,有效提升数据中心的管理效率,控制运营成本[3]。数据中心DCIM系统架构如图1所示。
图1 数据中心DCIM系统架构
目前,随着数据中心建设数量、建设规模越来越大,各大数据中心基本均建有各自的DCIM系统。由于系统厂商、系统功能等水平参差不齐,导致DCIM系统与现场运维工作的融合度不高,除了数据和告警能够集中化监控外,大多数DCIM系统并没有达到运维人员预期的智能化监控和管理效果,DCIM系统并不完全适合业务需求。
1.2 系统问题
1.2.1 缺乏从全局视角考虑问题
目前,DCIM系统管控的基础设施主要是电源、制冷设备等,并没有纳管IT设备、安防设备、消防设备等专业设施,缺少从全局角度反映数据中心上下游整体的运行状况。例如,当发生业务中断故障时,要想确认是动环设备的问题还是IT设备的问题,只能依赖人工电话沟通IT中心确认[4]。此外,为了调取就近的摄像头查看故障现场实时画面,还要再登录安防监控系统。
1.2.2 数据挖掘能力不足
DCIM系统作为数据中心上层的综合系统,数据集中度较高,但是对海量数据缺乏足够的全局分析能力。一旦需要分析具体异常点或者数据变化的原因等,系统无法自动化、智能化输出分析结果和建议,数据挖掘能力严重不足,海量数据价值无法真正利用起来。
1.2.3 机柜资源使用及规划过度依赖人工
目前,大部分数据中心的机柜资源管理仍然处于依靠人工的粗放管理阶段,机柜资源浪费情况严重。DCIM系统现阶段仅针对变压器、通信电源等基础设施实现了资源及容量实时监控,对机柜资源的管理还没有较为成熟的功能模块普遍应用[5,6]。
2 DCIM系统数智化转型路径
基于上述情况,本文将数据中心DCIM系统转型重构路径分为辅助运维阶段(L1)、部分自动驾驶阶段(L2)、有条件自动驾驶阶段(L3)、高度自动驾驶阶段(L4)以及完全自动驾驶阶段(L5)共5个阶段。
2.1 辅助运维阶段(L1)
辅助运维阶段,系统能够实现部分电子化和数字化运维工作,能够减少人工巡检内容,同时实现能耗实时监控。
2.2 部分自动驾驶阶段(L2)
部分自动驾驶阶段的系统标准化流程比较成熟完备,系统能够实现部分自动化分析工作,并通过人工智能(Artificial Intelligence,AI)技术识别哑设备状态,基本能够取消大部分日常人工巡检工作。同时,系统能基于规则对电源使用效率(Power Usage Effectiveness,PUE)进行优化。
2.3 有条件自动驾驶阶段(L3)
有条件自动驾驶阶段的系统对标准化流程进行持续优化,系统具备通过AI主导部分重点运维工作的能力。利用AI技术能够对设备运行过程中出现的问题进行智能诊断,基本不需要人工分析,同时能实现能效自动优化。
2.4 高度自动驾驶阶段(L4)
高度自动驾驶阶段的系统实现了自动运维,使基础设施资源自动与IT及云业务实现协同,通过AI技术对设备健康状态进行预测并提前发现问题,具有较强的适应性。
2.5 完全自动驾驶阶段(L5)
完全自动驾驶阶段的系统能够自动感知、自动调整,帮助数据中心实现真正的无人值守。系统能够智能预测业务需求,实现智能协同,达到最优运行状态。
根据目前DCIM的发展,大部分数据中心DCIM系统处于辅助运维阶段(L1),个别数据中心DCIM系统已经达到部分自动驾驶阶段(L2)。DCIM系统数智化转型路径如图2所示。
图2 DCIM系统数智化转型路径
3 DCIM系统数智化转型方向研究
根据上述DCIM系统数智化转型路径,结合实际运维经验,提出以下5个DCIM系统转型方向。
3.1 构建智能化数字底座
3.1.1 全局可视
DCIM系统必须集中统一监控全专业基础设施,对接入指标统一标准化管理,实现数据中心全覆盖监控,同时通过建立数据中心楼宇、房间、设备、管线等3D仿真模型,全链路展示供电、制冷、网络等关键部件和系统的拓扑结构。系统支持自定义重要指标和展示形式,有效帮助运维人员缩短故障定位时间,全局掌控数据中心运维现状。
3.1.2 BIM数字孪生
将DCIM系统与建筑信息模型(Building Information Modeling,BIM)融合,实现运维与设计、交付环节的无缝对接,使得运维基础数据更加精准。同时,系统支持一键式生成3D运维模型,大幅缩短交付周期,帮助运维人员实现全生命周期的精细化管理。
3.2 告警智能分析
DCIM系统应具备告警智能分析能力,通过传感器、采集器、信号传输处理服务器整个链路的上下流关联关系,精准识别告警之间的相关性。基于故障关联树实时屏蔽无效的次生告警,自动分析出源头告警,快速定位各类设备的故障,评估故障影响范围,大幅缩短故障响应与修复时间,辅助运维人员进行决策。
以配电链路智能分析为例,通过配电链路分析可以智能分析出受影响的链路范围,了解到哪些设备会受到影响,并在配电图上直观呈现出来,实时显示近24 h的历史数据,便于用户评估故障严重程度。同时,根据设备关联关系自动屏蔽次生告警,仅显示设备的根因告警,便于用户快速识别并制订处理措施,缩短故障处理时长。
3.3 智能故障预测
针对数据中心基础设施,利用AI大数据分析与预测技术提前进行故障预测,降低故障率。目前,一般可以划分为设备级预测和链路级预测两种。
3.3.1 设备级预测
设备级预测主要对某些特定设备进行故障预判,例如配电柜温度、断路器健康度、落后单体蓄电池等。以配电柜温度故障预测为例,通过在配电柜安装温度传感器,检测配电柜母排温度、开关温度、端子温度等。预测模型如图3所示。
图3 配电柜温度故障预测模型
模型中的负载率(电流)、环境温度、端子温度以及插框温度之间呈正相关关系,将这些温度测点当作先验条件,采用机器学习的方法通过AI预测找出配电柜在正常工况下的温度。当测试运行时配电柜的某些支路实际温度超过正常预测温度,实际温度高出AI预测温度越多,那么隐形故障的风险越大。
3.3.2 链路级预测
根据全链路运行情况进行故障预判,以供电链路开关参数整定为例,开关层级多,整定过程人工分析费时、易错且无法实时匹配负载波动。DCIM系统支持在线整定,即开关链路系统自动生成,系统自动根据上下级开关整定值进行判断,能够有效避免参数设置不合理而导致的开关越级跳闸供配电故障。供电链路开关参数在线整定过程如图4所示。
图4 供电链路开关参数在线整定过程
3.4 能效优化
DCIM系统通过应用机器学习、人工智能、AI等较为先进的技术,实现对海量数据的分析和处理,得到对生产运维有利的信息或结果。运用AI及大数据分析节能新技术,根据负载、温度等信息调节冷机、水泵、冷塔,实现PUE智能优化,具体包括同频控制寻优、最佳水温建议寻优、制冷模式寻优、数量寻优、功率寻优以及蓄冷控制寻优等。
数据中心机房存在大量的机柜和IT设备,DCIM系统可以基于当前情况对机房进行三维建模分析,优化当前机房的气流组织,针对局部热点等问题给出合理的解决方案。基于三维模型仿真分析,对室内空调进行升温仿真预测,告知运维人员当前机房温度可提升的空间,以达到降低数据中心PUE和节能的目的。
空调设备运行数量优化的原则是使机房或微模块内运行的空调设备总制冷能力与实际需求基本匹配。结合数据中心机房内的IT能耗分布、空调设备布局及气流分布均匀性等实际情况,给出合理的空调设备运行优化方案。此外,DCIM系统支持实现数据中心统一的空调末端群控管理,根据机房的负荷变化自动控制空调的冷量输出,实现节能运行。系统按照群控功能规则,完成对空调群控机组的调度工作。
3.5 智能推荐策略
DCIM系统按设备型号进行最佳机位搜索,可以自动关联设备模型库中的设备型号、功率、U位高度以及承重信息等,在用户指定的区域内查找可用的机位信息,为需要上架的设备提供推荐方案。此外,DCIM系统还可以按预留容量、机柜进行最佳机位搜索,结合设备数量、客户类型、预留连续空间间隔等因素,为需要上架的设备提供推荐方案。对于推荐上架的机柜,需要给出具体理由;对于可以上架但是不推荐的机柜,需要提供是哪些因素造成了影响;对于不能上架的机柜,需要提供具体不能上架的原因,从制冷、配电、网络及物理容量等角度进行分析,确保用户知情决策。
4 结 论
结合数据中心实际运维经验,讨论了目前数据中心DCIM系统的发展现状及存在的问题,并给出了相应的DCIM系统重构发展路径与重点研究方向。DCIM系统未来发展中,利用大数据和AI等先进技术深入挖掘数据价值,开发更加强大、实用、高效的分析处理功能模块。只有基础功能和高级功能均完善,才能真正发挥出DCIM系统的最大价值,有效实现数据中心自动化转型。