中国移动IT云数据中心数智化运维的探索与实践
2022-03-27阮前刘虹滕滨张晨
阮前 刘虹 滕滨 张晨
【摘要】 中国移动IT云是中国移动内部私有云,承载着中国移动集团内各单位业务系统,是中国移动智慧中台的底座,目前已形成“一云多中心”格局,已建设十几万台服务器规模。中国移动IT云数据中心数智化运维是通过集成三维可视化、3D建模和视频监控等技术,将数据中心机房的三维高精度模型、设备属性、设备实时数据和生产运维数据融合,结合AI图像识别、机器人巡检和AR智能运维能力,实现数据中心机房的远程控制管理,提高数据中心运维管理效率,实现企业的智能化与精细化管理。本文从实际出发,探讨了数据中心数智化运维管理模式,通过“3D可视、监控大屏、AI能力、AR协助”等方面的实践与模式创新,有效提高数据中心精益运维管理水平,具有较高的推广价值。
【关键词】 数据中心 数字孪生 可视化 智能运维
引言:
随着中国移动IT云规模不断扩大,各区域中心资源池陆续建成投产,总部与各省公司两级协同运维管理机制建立并落地实施,各地数据中心机房与设备量持续增加,协同工作要求越来越高,对安全性、可用性和运维管理的要求也是越来越高,使得各地数据中心运维管理工作变得越来越重要。同时,随着数据中心机房智能化建设,各地数据中心缺乏统一规划,机房管理成本高、难度大、流程不统一等诸多问题与挑战,具体表现在以下方面:
(一)数据中心机房局址分散、远程协作困难等问题日益凸显,运维人员难以宏观、快速掌控机房机柜容量情况,借助设计图纸无法保证与实际数据相一致,现场勘察则需要耗费大量时间成本、效率低下,设备上架前期如何实现快速及准确的定位各种问题将是亟需解决的难题。
(二)IT云资源池设备数量庞大,且种类繁多,沿用传统人工方式进行如此大规模资产盘点,不仅人力成本高,且存在人为差错、难以保证数据准确性,日常巡检过程也难以及时掌握设备变化,进而影响运维工作的开展。
(三)传统数据中心安防手段只能做到“可见但不可管”,临时访客进入机房需要自有人员随行监管,在数据中心规模以几何基数增长的当下,人工维护方式已经无法适应快速迭代的业务需求。
现阶段数据中心运维能力大部分集中于传统动力环境管理或操作系统层以上管理,对于机房物理环境和机房人员的管理手段仍然是空白。为打造中国移动精品IT云,夯实智慧中台底座,助力中国移动智慧中台能力建设发展,赋能公司数智化转型,中国移动信息技术中心依托5G、AR、数字孪生、人工智能等关键技术构建数据中心数智化运维能力,提升大规模、多局址数据中心的统一管理,提高IT云资源池维护质量和效率,为各级运营运维人员提供集资产、告警、性能、监控等数据为一体的自动化、可视化、智能化数据中心精细管理能力支撑。
一、可视化运维平台建设
数据中心可视化能力,通过3D可视化能力,实现数据中心机房设备的可视化纳管。利用物联网技术、数字孪生技术、三维可视化技术,对机房静态信息、动态信息在数据中心可视化平台上进行物联感知操控和全要素数字化表达,有效解决了机房局址分散、远程协作困难和海量数据管理凌乱等问题,实现全景态势感知、业务分级告警、问题及时定位。
可视化运维平台统一集成现有的数据中心动环、视频监控、资源配置、告警、性能数据,通过3D技术实现基于三维空间对数据中心、机柜和各类设备的管理功能,实现所有资产对象的管理及相关监控信息整合展示,让相关管理人员清晰直观的掌握IT运营中的有效信息,实现透明化与可视化的管理,构建数据中心环境、设备和管理信息的一体化与可视化管理能力。
可视化平台平台还专门打造从一级IT云-数据中心-机房三级主题精益管理大屏,以Cloud Native 12 factor作为顶层设计准则,使用标准化流程自动配置開发,和操作系统之间尽可能的划清界限,具备强大的可移植性。精益管理大屏非常适合部署在现代云计算平台或可使用虚拟机实现系统功能,从而在服务器和系统管理方面节省资源,将开发环境和生产环境的差异降至最低,可以在工具、架构和开发流程不发生明显变化的前提下快速实现扩展。
二、机房智能化管理场景应用
依托数据中心可视化运维平台,实时对接全量性能、告警等生产数据,随时监控设备运行情况,通过软件模型实时更新,保证模拟数据和真实设备状态数据一致,实现机房设备真实运行情况的实时监控,实现生产监控的一体化、精细化管理,然后通过监控模块,设定监控属性预警阈值和告警等级,实现不同等级的告警展示,显示详细的预警信息;通过位置,实现视角定位,实现告警可视化管理与定位。
(一)智能监控:以业务数据的可读、可识、可展示为基础,配以专业可视化美学效果设计,提升大屏整体美感;业务数据可视化展示方面,通过多种可视化展现形式,支持视频、音频流接入等进行数据有效完善展示。
(二)自动巡检:通过智能机器人规划路线自动行走,按设计场景进行自动巡检,完成温度、湿度和告警等数据的收集,将采集图像与上次采集图像进行比对,判断相同U位是否增加、缺少或者更换设备,实现设备异常检测。通过红外摄像头采集机柜设备温度状态,对于温度异常位置发出告警,填补机房动环监控死角。
(三)资产盘点:通过智能机器人前端采集机柜设备图像,通过AI图像识别算法自动获取设备U位、设备类型、品牌型号等信息,并与自动扫描设备二维码标签获取的资产信息进行对比,判断机架设备是否与系统库存设备一致,以完成资产自动盘点检查。
(四)智能安防:采用深度学习的人脸特征分析算法提取出人脸特征向量,进行人脸识别;采用端到端的目标检测算法YOLO-v3结合机房实际数据进行优化训练,实现对机房内目标物品进行检测;使用Yolo算法检测人员位置,并使用DeepSort算法勾画人员运动轨迹,从而判断人员是否进入敏感区域,当进入到敏感区域后则进行告警,实现电子围栏功能;使用openpose肢体识别库对人体18个特征点进行提取,将提取出的特征点送入ST-GCN算法中进行动作识别,判断人员行为是否为危险动作,当发生危险动作则及时告警。
三、AR云智能运维能力研究
传统的设备巡检模式下企业面临高昂的人力资源成本和员工培训成本,原厂专家维护费用以及相应差旅成本高。基于AR增强现实能力,辅助专家远程连接运维现场,指导一线运维人员解决问题。
远程专家可基于该AR智能远程巡检平台获得故障现场视觉,通过比对现场和后端数据,在虚拟“故障机体”中精确标注出需要更换的配件位置,发至AR现场与真实故障机体重合从而指导完成处理故障。降低了对现场人员的技能要求,提升厂区巡检效率,节约了成本。
AR智能远程巡检提供完整的巡检方案,巡检工作人员带上专用AR眼镜+语音录入,AR扫到机器后会浮现操作栏,远程获取巡检任务、机柜信息、硬件信息等。现场巡检工作人员可以运用手势,进行现实与虚拟交互操作。采用语音设备,和后端技术专家进行交流和获得专家指导。基于音视频的前后方沟通,后方远程专家还可以基于AR眼镜与后台系统的信息交互获得故障现场视觉,还可以实现基于白板的图像共享操作。运维人员遇到技术问题时与后台远程专家实时协助交互,同时低时延可以大幅提升工人佩戴眼镜的舒适度,降低工人使用时的眩晕感。
中国移动IT云数据中心数智化运维能力,经过这几年的探索与实践,运维能力不断迭代完善,机房、设备、故障、性能、资源综合管理能力逐渐体系化,实现了设备运维管理流程化、动环监测数据标准化、维护作业工作自动化,借助AI实现机房的可管、可视和可控,达到精细化运维,借助其运用与推广,强化运维管理能力,支撑企业发展,是行业市场竞争的需要,更是企业自身发展的需要。
作者单位:阮前 刘虹 滕滨 张晨 中国移动通信集团信息技术中心
参 考 文 献
[1]刘高升.知识自动化助力产品全生命周期管理[J].清华管理评论,2020,(11).
[2]陈冬生.基于產品全寿命周期的航空制造企业质量知识管理初探[J].经济师,2021,(2):34.
[3]陶飞,张贺,戚庆,林张萌,刘蔚然,程江峰,马昕,张连超,薛瑞娟.数字孪生十问:分析与思考[J].计算机集成制造系统,2020(1):1-17
[4]吴险峰.开拓创新,砥砺前行,建设银行数据中心与时代共进[J].中国金融电脑,2020,(11).