基于5G和人工智能的新一代智慧机房中枢系统
2021-09-05邢彪丁东胡皓冯杭生
邢彪 丁东 胡皓 冯杭生
【摘要】机房作为支撑城市运行的大后台,已成为城市新的基础设施,掌控了城市的命脉。随着通讯、移动互联网、物联网业务的井喷式发展,机房的重要性日益凸显。而相比之下,机房现有的运维能力已经远远不能满足日益庞大的数据中心。为提高机房基础设施运维能力,实现人机协作,高效管理机房,本提案创新性提出构建基于AI和边缘计算的5G机房大脑,将AI处理放在边缘计算,利用5G低时延、大带宽并结合AR、VR、机器人等应用打造全流程样板智慧机房,颠覆传统机房运维方式、重新定义新一代机房运维。实现机房的绿色化和智能化。
【关键词】5G;AI;智慧机房
中图分类号:TN92 文献标识码:A DOI:10.12246/j.issn.1673-0348.2021.013..026
城市发展到今天,将会进入“算力时代”,计算能力将带给城市发展全新的革命性质变,而5G将给计算能力插上翅膀。机房作为支撑城市运行的大后台,已成为城市新的基础设施,掌控了城市的命脉。随着通讯、移动互联网、物联网业务的井喷式发展,机房的重要性日益凸显。而相比之下,机房现有的运维能力已经远远不能满足日益庞大的数据中心。
1. 机房现状
以中国移动数据中心为例,机房需要配备24小时专人值班来定时巡查机房场地设备,占用了大量的人员精力,生产效率难以提高,标准化程度相对较低。目前机房面临的问题主要有:
1)设备多样性--机房设备类型多、数量大,定期检查时需要管理安保人员具有相关的背景,对人员要求高;
2)监测手段不足--机房内环境监测测点安装数量有限,不能全方位掌握机房内的环境数据;
3)综合管控效率低--24小时值班及随工管理消耗大量人力;定期巡检,巡检执行情况难以评估;数据中心机房管理成本高,效率低。
现有智慧机房解决方案一般包括以下三大系统:动力监测系统、环境监测系统、安防监测系统,涵盖动力监控、环境监控、安全监控、IT业务、能耗监控于一体的智慧型机房体系。因此现有方案主要集中在机房监控手段的完善,但对于监控的数据缺少统一的智能分析和控制,对于机房人员的培训、机房智能巡检、设备故障识别、机房应急抢修等方面并无好的解决方案。而本方案利用5G和AI重新定义机房运维。
2. 新一代智慧机房中枢系统
为提高机房基础设施运维能力,实现人机协作,高效管理机房,本提案创新性提出构建基于AI和边缘计算的5G机房大脑,将AI处理放在边缘计算,利用5G低时延、大带宽并结合AR、VR、机器人等应用打造全流程样板智慧机房,颠覆传统机房运维方式、重新定义新一代机房运维。实现机房的绿色化和智能化。
项目总体框架如下:
利用5G+AI构建云、边、端协同,云上的生态可以兼容所有硬件,云上训练、云端下发、边缘推理,做到云边一体化,可迅速推广复制到其他数据中心和行业机房。本系统数据传输量大、实时性要求高,而5G全新的网络架构将提供至少十倍于4G的峰值速率、毫秒级的传输时延,恰恰可以满足本系统的需求。屬于5G增强移动带宽和低时延高可靠两种场景。5G对于机房不仅仅更快,更是真正的革命。5G大带宽、低时延连接能力与云端配合,将催生出未来机房“瘦终端、宽管道、云应用”的新业务模式,引发一场终端、云和应用革命。5G机房大脑将重新定义机房运维。
3. 系统功能
3.1 AR三维资管:
通过对接资管平台,将资管信息实时投射到AR三维机柜上,实现资产数据自动更新,解决了目前资产管理繁琐的问题。综合机房内设备众多,每个设备的正常运行都至关重要。利用AR设备,可通过条码的方式管理整个机房设备,定期巡查,保证设备无丢失错位情况。利用三维仿真技术,对机房内上千种型号设备逐一进行采集信息、模型建模;点击设备可查看型号、位置、系统应用、容量等资产配置信息,直观展现设备前后面板和端口使用情况。
3.2 VR远程全景巡检:
借助巡检机器人,在其上安装VR全景摄像头,实现远程巡检360度无死角,对故障设备进行图像识别。利用深度学习卷积神经网络识别设备面板告警、读取设备数据。卷积神经网络(convolutional autoencoder)在图片处理方面体现了较好的性能,卷积操作在数学上即过滤器和图片像素矩阵之间进行点乘运算。卷积的根本目的是从输入图片中提取特征。卷积用一个小方阵的数据学习图像特征,可以保留像素之间的空间关系。卷积神经网络由一系列卷积层以及全连接层和softmax分类器组成。
利用深度学习框架tensorflow来搭建Inception V3卷积神经网络并进行训练,通过实时获取VR全景摄像头捕获的设备图片,并将图片通过5G高速网络传输至边缘端神经网络模型,模型基于深度学习技术实时分析设备图片的状态灯,利用卷积神经网络在图像特征学习上的优势,识别状态灯指示为设备正常或异常。
3.3 AR远程维修和操作培训:
若巡检发现故障需要抢修,则由机房值守人员远程连线专家进行AR维修指导,可支持跨专业专家同时进行指导。专家实时在线,提升问题解决效率,节约差旅成本。可实现抢修路线规划导航、故障设备信息查阅等,并对故障信息进行实时互动,运用后台技术力量实时协商及时排除故障。
与其他产业一样,机房运维管理也面临资深专业技术劳工短缺的问题。如今可以让大量资浅缺乏经验的员工前往现场,戴着眼镜式增强现实设备,利用5G网络低延迟的特性,回传现场影像以及其他资讯,资深员工坐镇在总部,在自己的手机电脑前,利用其专业经验及相应拓扑图分析现场情况后,利用增强现实在现场资浅员工眼前显示指示与说明资讯,如此一来,资浅员工也可在现场处理复杂的系统和设备故障问题,还能借此快速学习实务经验,提升维修速度。
3.4 AR现场巡检:
AR辅助现场巡检人员进行设备例行巡检,包括巡检任务分发、告警实时呈现、故障设备导航、隐蔽管线呈现、红外热像呈现,防止巡检人员漏检。一个AR穿戴式设备相当于照相机、摄像机、对话机、红外测温仪、测距仪、手机、移动作业设备等一系列设备,未来通过AR设备开展设备检修,可以实现机房设备状态信息全景展示与运行维护操作动态交互,一方面通过可视化的路径规划,能提高检修维护的标准化操作水平,大幅降低安全生产的隐患;可实现运检作业引导,自动识别目标操作设备,将生产运行指令以可视化方式提示,并智能监督操作人按规程、按步骤完成工作。打造可视化的维修环境,提升巡检人员工作效率。
主要功能包含:
员工账号登陆:员工通过语音或账号登陆系统。用来获得记录整体操作以及获取每个人不同的任务清单。
整体运行情况说明:机房关键信息图文说明。环境说明,包括温湿度、空气清洁度、墙体漏水情况等。
员工巡检清单:员工本次工作列表展示,员工按照提示逐一巡检,避免遗漏。
机柜信息展示及流程化维修指导:单个机柜运行情况显示,利用AR SLAM技术,标签会贴在真实的机柜上。用户可以走进机柜开始巡检工作。用户打开机柜门,显示具体机柜信息,如机柜编码、硬件参数、当前支持服务等。
机柜导航:具体机柜导航,可通过AR的方式精准指引。
3.5 VR虚拟安全培训:
利用VR大空间技术,模拟极端、应急场景来培训机房人员的应急操作能力,可用于安全、消防培训,解决了应急场景难以模拟的问题;VR虚拟演练,还原或创造逼真的故障场景,开展大量多样化的模拟演练。虚拟演练环境是以现实培演练环境为基础进行搭建的,操作规则同样立足于现实中实际的操作规范,理想的虚拟环境甚至可以达到使受训者难辨真假的程度。虚拟演练打破了演练空间上的限制,受训者可以在任意的地理环境中进行集中演练,身处何地的人员,只要通过相关网络通信设备即可进入任意的虚拟演练场所进行实时的集中化演练。
与现实中的真实演练相比,虚拟演练的一大优势就是可以方便的模拟任何培训科目,借助虚拟现实技术,受训者可以将自身置于各种复杂、突发环境中去,从而进行针对性训练,提高自身的应变能力与相关处理技能。受训人员亦可以自发的进行多次重复演练,使受训人员始终处于培训的主导地位,掌握受训主动权,大大增加演练时间和演练效果。
3.6 AI绿色节能:
机房中的空调是目前主要的耗能之一,布设在机房的大量传感器通过5G网络上传至边缘端进行计算,利用AI模型自动学习机房环境的数据,从而自适应调节空调,以达到节能的目的;机房主要是存放服务器,设备对温、湿度等运行环境的要求非常严格,所以应加装温湿度传感器,以实时检测机房和重要设备区域内的温、湿度。
3.7 AI异常事件检测:
通信机房是通信网络设备运行的重要场所,承载了核心网、承载网等重要设备,通信机房的安全直接关系到通信业务的正常运行。目前对于通信机房的异常识别主要通过人工对机房视频监控进行值守、以及人工机房巡检等方式来实现。现有技术方案中通信机房视频监控主要存在以下问题:目前通信機房的视频监控基本实现了全覆盖,但很多视频监控形同虚设,一个通信机房内数十个监控摄像头,仅依靠一两名工作人员是无法毫无遗漏的发现所有监控摄像头的异常情况,当异常发生时,视频监控无法起到及时发现异常的作用。因此本功能实时采集机房4K摄像头数据,利用AI模型实时检测机房内是否发生异常事件。
但由于高清视频流传输数据量大,若上传至云端进行分析计算将会耗费大量时延,因此本项目利用边缘计算将算法模型部署在靠近用户侧的边缘端(MEC,Multi-access Edge Computing)上,从而节省了数据传输的时间、节约了连接网络的带宽。并利用5G网络大带宽(30Mb/s)将机房实时高清视频数据上传至MEC,并利用5G低时延(10ms)将检测结果下发。
4. 结论及未来工作
本方案规模化应用之后,将原先在AR、VR、机器人硬件上的计算处理挪到了边缘端和云端,大大降低了硬件成本,同时云端的能力可通过API的形式开放给多个机房复用,避免了传统烟囱式的建设,从而大幅度降低智慧机房的实现门槛,对于中小型企业来说也更加容易接受。同时硬件部分中AR、VR、机器人设备支持异构厂商,硬件通过调用云端和边缘端的API来实现。目前,AR、VR行业发展迅猛,但同样面临一些问题,比如终端未达到商业市场的期望,网络现状限制了AR内容的传输和体验等,而5G带来了助力,通过将AR、VR业务当中复杂的图像处理功能分散到网络的边缘,借助5G高速稳定的网络,和强大的边缘云处理能力,AR、VR的终端可以实现无绳化、更轻便、佩戴更方便。同时云端的解决方案对于数据的精准管理和发放,也有利于AR、VR内容的管控。
本方案利用5G和AI技术助力城市大后台-机房的安全生产,提高机房运维的效率,减少机房运维的成本,大幅降低安全生产的隐患,避免重大故障的发生。随着通讯、移动互联网、物联网等业务的井喷式发展,数据中心等核心机房的重要性日益凸显,机房已成为和水、电一样城市不可或缺的命脉,机房的安全运行直接决定了城市的健康稳定,未来,算力会变成城市不可分割的部分,5G将为算力插上翅膀,每座机房利用5G机房大脑,便能用今天1/10的资源去支撑现在这样一座机房的运行。
参考文献:
[1]中国移动通信集团设计院.设计院全力支撑中国移动数据中心标准化建设[J].电信工程技术与标准化,2016,29(3):88-88.
[2]董荣刚.智慧机房建设前瞻[C]//第三十二届中国(天津)2018IT、网络、信息技术、电子、仪器仪表创新学术会议.0.