数据中心智能运维系统的研究
2022-11-17胡贵龙
胡贵龙
中国移动通信集团江苏有限公司
0 引言
机房是信息处理、服务管理和通信联网综合的重要数据中心,伴随当前大数据处理、物联网技术和通信科技的高速发展,机房建设项目也日益增多。而机房的人工巡查、人工抄表等大量单纯重复性的工作方法,并不是人机协同的良好工作方法。人工日常巡查等管理方法虽然解决了机房事故发生时间的错报、漏报等诸多问题,但也引入了一些问题,比如巡查人手不足、数据处理准确度有限、工作环境恶劣、设备运行隐患难以靠肉眼发现、技术人员水平不足,以及人员责任心参差不齐等不利因素。网络软件诊断也面临着测试范围小、反应速度慢和易影响正常工作等诸多问题。伴随机房建筑越来越偏远化和社会老龄化的发展趋势,机房智能化管理与运维形成了共识。通过多传感器融合技术、深度学习的日常巡检管理运维机器人技术及其相应科技的示范运用,助力传统IDC运维服务向智慧无人化自主运维服务的发展,促进了智慧移动机器人技术与视觉认知科技的发展。如图1所示。
图1 数据中心智能云巡检机器人
1 数据中心智能化运维管理系统架构
数据中心智能化运维管理系统的整体架构设计,构建了云-边-端协同融合的能力体系,如图2所示。边端机器人巡检提供高效稳定的实体巡检能力和识别能力,云端数据平台提供高性能算力,并借助高性能算力提供开放式功能部署与可扩展能力构建,实现机器人巡检与上层云端能力结合,构建高效尖端的数据中心智能化运维管理体系。
图2 巡检机器人系统架构图
数据中心智能化运维管理系统的整体架构设计遵循云端能力和本地化执行力相融合、巡检和运维管理有机连接、软件和硬件能力同步构建的总体原则。
巡检机器人系统在机器人侧的运动和传感能力,围绕执行单元、底层机械和运动平台,并通过车规级执行单元设计,保证对底层机械和运动结构的高可靠性控制,实现上层应用的运动指令,通过IROS操作系统的数据汇集,经过软/硬两个高安全级别的独有协议加密和验证,最终输出到机器人运动控制器和传感器,实现线控级别的高精度运动。
在巡检能力构建方面,围绕自动导航、传感器数据采集、智能计算三个维度进行模块化功能设计。通过SLAM高精度融合定位地图、路径规划等智能算法,构建上层导航能力;通过融合激光雷达、毫米波雷达、机器视觉,构建机器人自动运动的实时自动驾驶功能;通过多摄像头传感器融合,对接操作系统上层开放式接口,将传感器数据转化为操作系统级别的参数数据。
计算平台的整体架构,以IROS操作系统为智算底层,上层围绕图像识别、深度学习、多传感器数据联通融合等多方面能力,进行模块化封装,实现统一高性能的计算平台。当数据中心化运维管理系统上层云端巡检任务下达后,即会通过IROS操作系统及系统平台中的任务执行单元,分解成运动、导航、识别等多个动作分解,并传达给巡检能力中自动导航、传感器数据采集、智能计算三个维度的模块化功能模块实现整体巡检任务的执行与反馈。
在系统架构的上层,支持DCIM平台接口数据联动和大屏数据展示,支持与已有DCIM系统的联调打通,现场提供的DCIM系统能通过开放式数据接口,读取到智能化运维管理平台的关键数据信息,实现数据联动。开放大屏数据展示接口,支持在数据中心现有大屏中显示机器人的实时巡检状态和对应巡检结果。
2 智能巡检机器人功能探讨
智能巡检机器人是一款面向数据机房、配电室、供电线路以及通信线路等场景的云巡检机器人,拥有指示灯精准识别、热传感检测、自动读数、气体检测、24小时巡检、远程管理等功能,能够降低运维成本、提升能效,助力打造高效数据运维和管理体系。
智能巡检机器人融合智能传感器、大数据、机器学习、人工智能等多种先进技术,实现对机房环境、设备、声音、气体、温度等多维度数据实时感知监控。通过大数据技术进行数据信息深度挖掘,并做出预测性计算分析和智能化告警,为精准决策提供科学依据,将机房运维人员从繁琐的工作中解放出来,提高整体运维效率,降低运维成本,为业务系统安全性可靠性保驾护航。
基于机器人的智能巡检系统,包含机器人本体及配套运维平台系统,以机房环境信息、物理设备信息、系统基础配置项为基础,采用SLAM自主导航的方式,实现对机房设备的指示灯及其他设备状态的故障巡检,配置资产管理,为调度指挥提供更直观的监控应用。
智能识别:丰富多样的巡检对象,能够快速进行指示灯、表计、开关、温湿度、气体、噪声等巡检对象的检测。
环境检测警:对于危险气体、环境异常等进行识别,安全隐患一经识别,实时自动进行异常预警;配套全向麦克风阵列和视频,实现远程全方位对讲和交互。
大数据分析:整合多元异构数据,实时提取进行预判和分析,并进行横向纵向多维度分析。
全面巡检:实现AI识别、红外测温、资产管理等巡检功能,可实现7×24小时不间断巡检。通过地图全覆盖与摄像头高清巡检,保障巡检效果与准确率。
智能管理:自主规划巡检路线,并可实现自由导航和固定路径切换,在机房管理方面可实现资产管理、随工管理、门禁管理、人员管理与防尾随跟踪等,强化管理效果。
数据协同:配套巡检管理平台,实现多机器人实时监控、多机调度、任务管理和报表生成。连通巡检机器人系统与其他监控系统,形成一体化运维管理体系,实现数据的全面协同。
3 基于智能巡检机器人的智能化运维优化研究
智能巡检机器人可以实现机房智能的数据汇集,智能分析告警等自动化运维功能,以协助机房巡检工作正常进行,提高系统隐患的发现率,降低系统故障率。如图3所示。
图3 机器人AI智能监测能力
采用人工智能、微服务、容器、自动导航等关键技术,基于5G/Wi-Fi网络,构建云-边-端高度协同的AI自动化运维能力,对外提供及时、高效、全面的AI自动化运维服务,实现机房运维的减员、提质、增效。
对于机房运维,建议通过如下方面实现智能化运维工作的优化。
3.1 机房AI智能监测
(1)AI智能导航
基于机器人等智能体的自动巡检系统具备在机房环境中导航定位能力,并实现全天候的自主移动巡检,从而支持无人化、全天候的设备巡检和故障报警,降低巡检工作和运维工作的成本投入,同时设备管理维护更加便捷,提高工作效率。具备自主移动,自主定位导航,自主充电等基本移动化检测能力。
(2)指示灯识别
通过高清摄像头及自身机器识别算法,对机房日常巡检指示灯进行识别,可进行设备电源指示灯识别模型训练、设备柜面板告警灯识别模型训练、空调故障指示灯识别模型训练、服务器故障指示灯识别模型训练,并在识别到指示灯报警信息时进行后台预警,并能对指示灯报警信息进行推送。
(3)温湿度监测
在巡检过程当中,温湿度监测功能不间断地收集带有房间信息、坐标点位信息、温度、湿度的数据,并将采集到的温湿度数据实时上传到后台服务器进行云端存储记录,同时在客户端平台展现相关数据。
(4)空气洁净度监测
空气洁净度监测功能通过传感器对机房洁净度进行监测,实时将采集到的空气洁净度数据上传到后台服务器进行云端存储记录,并在客户端平台展现相关数据。
(5)噪声监测
噪声监测功能可对特定位置或特定场景的环境声音进行采集并自主判断音量分贝,当音量超过阈值能及时预警后台,并能对噪声报警信息进行推送。
(6)红外测温
通过红外测温装置对各类设备进行拍照,判断对应温度,当设备温度超过阈值能及时预警后台,并能对高温报警信息进行推送,方便工作人员实时查看设备温度状态。
(7)显示屏识别
通过高清摄像头及自身识别算法,对空调、列头柜等设备的显示屏信息进行识别,读取空调的温湿度信息、列头柜的电压、电流信息等,可在识别到显示屏报警信息时进行后台预警,并对显示屏报警信息进行推送。
(8)表针识别
通过高清摄像头及自身识别算法,对表计信息进行识别,可进行表计读数识别模型训练,在识别到表计读数信息时进行后台预警,并对表计识别报警信息进行推送。
(9)机柜门开关状态识别功能
通过自身搭载的高清摄像头对机柜开关门状态进行识别,可进行机柜开关门状态、机柜门锁头落位状态识别模型训练,当开关门状态出现异常结果及时预警后台,并对开关门状态异常信息进行推送。
(10)语音报警
机器人可实现语音提示软硬件联调,播报自检及自诊断的异常项播报、巡检过程中的告警信息播报、机器人遇到紧急状况的播报(如急停、碰撞、跌落等)。
3.2 机房巡检管理
基于自动化运维管理后台系统,如图4所示,能实现对机房巡检机器人及巡检数据的管理分析,实现实时的自动化巡检任务计划管理、任务管理、任务告警管理、随工管理、远程遥控等管理功能,实现机房动态数据的智慧纳管。
图4 系统后台界面
(1)巡检任务管理
机器人后台系统能对机器人进行任务管理,主要支持新建巡检任务、任务调度管理。同时,用户通过管理后台可实时监控、远程控制机器人、查看巡检任务数据,对巡检任务进行分级管理。每巡检完成一次,系统可以自动生成巡检报告。
(2)随工管理
随工首先对各类运维人员进行鉴权,然后在其运维过程中进行全程跟随及视频录制。通过后台可实现随工运维过程的全面查看。
(3)资产管理
机器人能以二维码、RFID标签技术定位IT设备的物理位置,通过视觉检测技术和RFID技术获取设备资产信息并实时上报后台管理系统。后台管理系统可对接资产管理平台,实现实时监测并更新资产状态。
(4)人员管理
自动化巡检机器人可以通过导入人员信息、录入人员信息以及对接访客系统,实现人脸基础数据的录入。后台接口将人员授权的信息直接下发到机器人的本体人脸权限数据库。对于进入机房的人员权限的设定,机器人系统实现自动人脸识别功能。
(5)门控管理
能与配套的门禁系统联动,使巡检机器人能够控制配套系统以顺利进入各个待巡检区域。
(6)后台管理
视频采集:系统能实现采集、存储机器人传输的实时可见光视频。
自动报告:每巡检完成一次,机器人可以自动生成巡检报告。支持定制报告模板,并支持模板定制。
多台机器人协调管理:平台可实现管理调度多台机器人,实现机器人智能调度、路径规划和协同工作运行。
报表管理:支持报表管理、报表订阅、报表查询、报表自定义、事件日志报表、极值报表等。
报警事件管理:报警事件的统一设定与管理,内容包括:事故类型、事故发生时间、事件等级分类、报警阀值、报警方式设定、报警事件分组、事件目录定义、报警级别提升及事件日志管理等。
巡检视频管理:支持视频的播放、停止、抓图、录像、全屏显示等功能。
数据存储:巡检机器人的应用数据主要有三类:应用程序、巡检数据、视频数。系统应可对敏感数据进行加密或CRC校验;可实现备份管理,具备自动备份机制;具备双机容错功能,保证系统数据和服务的在线性。
(7)系统接口
后台管理系统支持与数据中心的运维系统、综合监控系统进行互联互通,形成一体化运维管理体系。通过北向接口对接,完成巡检机器人状态查看、任务下发、巡检数据自动回写、巡检异常自动转工单、巡检结果异常自动判定等功能。
4 机房智能巡检机器人系统应用前景
目前,巡检运维机器人技术已经在众多的应用领域中都有了广泛运用,尤其国家电网公司一直是日常巡查管理自动化机器人中最大和最早期的使用者。而除了变电所、高压线路等国家电网使用场景,使用面更广泛的智能机房运维机器人技术也有着巨大的行业市场和使用前景。
数据中心的智慧巡检机器人设备采用当前高速发展的新一代信息技术,融入完善的图像识别技术、多感应器和无线通信技术等,对数据中心设备工作状况实现采集和预处理,并采集机房的气温、湿度、清洁度、空气流速等环境数据,实现对机房健康状况的综合分析,为数据平台的运营维护管理提供了准确高效的大数据分析,实现无人值守的智能机房。如图5所示。
图5 智能机器人巡检现场画面
机房与智慧运维服务机器人之间确实是一个相互垂直的细分产业行业市场,不过其体量并不是人们想像的那样小。以北京一家机房为例,如果要实现二十四小时都有人的工作状态,最少要五个人,或者五班三倒。根据2020年的数据表明,中国国家电网公司一共有七百多个建筑面积在100~500平方米的机房,最少需要的工作人员数量为三千人,人力资源成本非常高。相比之下,用智能机器人取代人力实施巡查,一个100~500平方米机房仅需一台高配两台低配智能机器人,400~1000平方米的机房则需两台高配和两台低配智能机器人,即可做到二十四小时实时巡查。而随着电力网络的发展和能源数据的进一步增多,机房运维机器人的市场发展容量也会随之扩大。
智能巡检自动化机器人的使用大大提高了机房安全巡检维修作业的效能与准确度,本文通过对机房安全智能巡检自动化机器人技术和技术体系的研发,有效解决了目前对机房安全无人化、智能巡检运维管理工作的需要,有效克服了机房人工巡检业务工作效率低、成本费用高的实际问题,在数据中心实现了自动化运维、人机协同运维、云边端结合大数据融合,为建设数据中心自动化运维管理能力提供有力支撑,促进新基建大背景下数据中心运维快速转型,大幅度提高了机房安全巡检运维工作的工作效率与自动化、智能管理水平。利用移动机器人、多模式认知、机器学习和深度学习等技术手段,将极大地推动机房管理巡检运维智能化的产业提升。
5 结束语
通过构建智能化运维管理系统的整体架构,确保以数据中心为代表的信息系统运行的核心节点的安全稳定,落实持续健康的运行环境。数据中心作为资产密集场所,通过智能巡检自动化机器人的使用,使得运维人员自动高效地掌握机房内部环境、基础设施、网络、计算和存储单元等运行状态,从而保证对外提供数据服务的数据中心管理基本目标。
智能巡检自动化机器人技术有广泛的应用场景,经过设计的机器人融合了数据中心管理流程,巡检机器人能够通过传感器获取巡检对象的状态信息以及环境信息,检测出人工难以发现的线路发热、机器异响等故障,实现大范围、无死角的智能巡检,为下一代数据中心高效运营维护工作的稳定性和实时性提供保证。