APP下载

数字新基建背景下的数据中心“自·智”安全运维技术

2023-01-31朱智成

通信电源技术 2022年19期
关键词:网络设备制冷系统数据中心

朱智成

(中国移动通信集团安徽有限公司,安徽 合肥 230088)

0 引 言

数据中心作为一个高度集成化的信息枢纽,发挥着处理、存储、传输数据的重要作用。随着国家关于加快新基建建设政策方针的落地,以数据中心为代表的互联网相关领域快速发展,随之而来的是数据中心数量的快速增长和规模的不断扩大,各类安全事件频频发生[1]。

有关调查数据显示,截至2021年底,我国在用数据中心机架规模已达到520万架,而数据中心运维从业人员只有2.7万人,平均每个运维人员要对192个机架及其配套设备进行日常维护,安全运维压力巨大。同时,数据中心专业分工详细,包含供电、制冷、安防、传输、互联网等多个专业,涉及的安全生产问题多样化且相互关联,一旦某个点出现问题,则可能会造成无法挽回的重大影响。以伦敦东部Brick Lane的LON1数据中心2022年1月10日的由于运维人员疏忽引起的服务器宕机事故为例,该次事故导致伦敦金属交易所的电子交易无法正常进行,全球交易受到波及,持续了近5 h。据估算,该次故障每分钟造成的损失超过5.2万元,总计损失超1 560万元。由此可见,数据中心的安全生产已不光局限于数据中心本身的安全责任范畴,而是对信息化社会方方面面都有着难以估量的影响。

1 数据中心两大运维安全共性难题

(1)日常运维过程中人为疏忽和人为误操作造成安全风险。数据中心体量庞大,配套设备和信息设备都随着机架容量成倍增加,为了保证数据中心安全运行,对这些设备的日常巡检要进行24 h轮班制,以确保第一时间发现隐患、排除隐患。传统数据中心只能通过人海战术来应对重复、繁重的日常运维工作,即使如此也无法完全避免人为疏忽带来的安全隐患[2]。

(2)专业较多、日常运维任务复杂,无法有效发掘安全风险。数据中心作为一个高度集成化的信息枢纽,有着设备种类多、专业交叉点多、系统复杂的特点。运维人员日常工作中包含一些对复杂系统运行状态的分析、决策、执行过程,这对运维人员的知识面与技能水平提出了广度和深度的双重要求。传统数据中心的运维人员只能依据个人经验完成系统分析、决策和执行的运维任务。但是人工分析、决策难免会受到人员认知程度、思维模式、心理状态等不可控因素的影响,一旦由于错误的分析而产生错误的决策或错误的执行,就有可能导致系统出现故障甚至瘫痪[3]。

2 数据中心“自·智”安全运维技术

中国移动长三角(淮南)数据中心研发、应用的数据中心“自·智”安全运维技术包含自动化执行和智能化分析两大类技术方案,具体技术内容有数据中心智能巡检平台、网络设备运维管理平台、数据中心供电隐患自动化排查系统以及人工智能(Artificial Intelligence,AI)“智冷”空调节能系统,旨在解决数据中心行业所面临的两大安全运维共性难题。数据中心“自·智”安全运维技术方案构成如图1所示。

图1 数据中心“自·智”安全运维技术方案

2.1 自动化执行技术方案

数据中心设备多、监测数据多、巡检频率高,极易导致维护人员在日常运维过程出现人为疏忽和人为误操作的现象,这类任务多集中于日常巡检、资源统计等方面,共同特点是流程统一、重复,以记录现场参数为主。为了解决以上问题,数据中心“自·智”安全运维技术融合了机器人、模式识别、网络监测等先进自动化技术,引入数据中心智能巡检平台和网络设备运维管理平台,通过数据自动采集、机器人执行作业、自动化脚本等手段大幅提升日常运维质量,从重复、繁重的日常运维工作中释放出来的运维人员得以应对其他更加复杂的安全运维问题[4]。

2.1.1 数据中心智能巡检平台

(1)传统机房巡检存在的安全隐患。日常机房巡检是数据中心重要的运维工作之一,通过对机房的巡视及设备的检查能够及时发现并处理隐患,确保设备安全、稳定。传统数据中心通过人工方式进行机房巡检,巡检频率可达到平均4次/天。有时巡检任务还包括对机柜U位资源的统计,以一个包含10 000架47U标准机柜的数据中心为例,对470 000个U位统计需要约12个工作日才能完成。因此,人工巡检的弊端也很明显,即巡检频率高、可能存在错查和漏查、劳动强度高、作业效率低以及方式单一。随着设备的增多,巡检工作量成倍增长无法有效保证巡检到位率和及时性[5]。

(2)改进技术方案。为了解决以上难题,将宝贵的人力资源从单调、重复的巡检任务中解放出来,将数据中心“自·智”安全运维技术引入智能巡检平台。该平台包含智能巡检规划系统和巡检机器人。其中,巡检机器人使用自带的激光雷达为智能巡检规划系统提供机房相关数据,并通过同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)自主导航技术完成巡检机器人定位导航。SLAM自主导航技术包含感知、定位以及建图3个过程,具体步骤如下。感知是SLAM自主导航技术精准定位和建图的基础,机器人通过激光雷达获取机房环境信息;激光雷达对机房进行全方位测距扫描,并将采集信息转化为成组、具有角度和距离数据的点,称为云点,机器人通过对云点间的对比获取自身位置及视角信息。根据自身位置及传感器获取的信息,描述出当下所在环境的地图并完成建图。机器人通过上述过程完成巡检轨迹规划,并将规划后的数据上传、存储至智能巡检规划系统,以便后续巡检随时调用,减少重复运算。

巡检的最终目的在于发现机房内设备存在的隐患点,为了给巡检机器人赋予视觉功能,准确找出隐患点,巡检机器人加入了图像识别技术,采用业界成熟的YOLO算法作为智能算法,YOLO神经网络可以输出机械仪表在照片中的定位信息,辅助高清摄像头进行定点聚焦。在获得机械表盘高清图片后,使用OpenCV算法分析指针位置和表盘数字,完成表盘数据的读取,同时巡检机器人配备的红外摄像机可以用于检测设施关键部位温度,实现对配电柜、不间断电源(Uninterruptible Power System,UPS)设备、相关设备设施的仪表及指示灯、局部放电等情况进行自动巡检,自动预警的功能。除了视觉外,巡检机器人还被赋予了听觉,即机电设备声纹识别功能,通过机器人在机房中采集巡检点位的声纹信息,经过快速傅里叶变换后获得音频分量,对高频、中频、低频等部分进行阈值判断,从而发现是否存在设备故障异响,进行故障预警。与此同时,智能巡检平台通过网络隔离设备与其他系统进行巡检数据双向交互。由于数据中心仪表、线缆众多,因此该项自动化功能是减轻人工巡检工作量的重点[6]。机器人巡检界面如图2所示。

图2 机器人巡检界面

智能巡检平台实现了将人从巡检主体过渡到巡检辅助、从巡检执行人过渡到巡检管理人的无人化全自动巡检,减少了运维人员机械重复的工作量,提高了巡检到位率和及时性,提升了数据中心整体安全运维水平。

2.1.2 网络设备运维管理平台

(1)传统网络设备运维存在的安全隐患。传统数据中心网络日常巡检存在许多问题,如设备种类繁多,无法统一管理;不同厂商操作命令差异明显;日常巡检操作重复、效率低下,人工操作难免操作失误等。另外,由于数据中心网络设备硬件状态等信息无法实时监测,只有当后端业务出现问题时才对网络设备进行被动排查,因此为数据中心网络设备运维埋下了风险隐患,这种被动救火式的运维方式效率低、风险大。

(2)改进技术方案。网络设备运维管理平台用于监控网络设备硬件资源使用率、端口状态、流量等信息,以图形化的方式呈现核心业务系统及数据库的状态,并通过邮件、短信以及语音通知等方式进行设备异常状态告警。网络设备运维管理平台从日常网络巡检、备份检查、网络参数配置变更等运维工作出发,利用Web技术进行统一调度。为了解决不同类型网络设备统一管理的问题,实现了从现有系统的配置管理数据库(Configuration Management Database,CMDB)中导入或根据指定规则批量导入进行管理。同时,系统自带的指令模板减少了运维人员需要掌握的操作指令类型,避免了人为因素的指令错误,提高了网络运维的便捷度和安全性[7]。

网络设备运维管理平台还支持巡检管理、远程变更、定时脚本任务等,帮助运维人员自动完成巡检及网络参数变更任务,并且每次变更实施后自动对变更结果进行校验检查,及时解决校验过程中发现的问题。

网络设备运维管理平台实现了日常网络管理、网络运维监控、网络信息中心功能的一体化,是综合性的网络日常运维、监控和调度平台,为数据中心网络的安全运行提供了有力支撑,提高了运维效率。

2.2 智能化分析技术方案

数据中心各系统复杂、关联性强,往往一个系统就包含上千条路由和上百种设备,对某个设备参数的调整就可能造成牵一发而动全身的效果。传统数据中心的运维人员只能依据个人经验完成系统分析、决策的运维任务,但是人工分析、决策难免会受到人员认知程度、思维模式、心理状态等不可控因素的影响,增加了运维过程的不确定性,提高了发掘安全风险的难度。人工智能等智能化技术可以很好地解决这一难题[8]。

2.2.1 数据中心供电隐患自动化排查系统

(1)传统供电系统运维存在的安全隐患。由于数据中心电气设备的数量大、类型多,且数据中心每天都要完成大量的网络设备上下架、加电及退电流程。每增加一台服务器,其对应的机柜、列头柜、UPS、低压配电、变压器以及高压配电等一系列配电设备容量都会有相应变化,功率增减将穿越整个电源系统。相关网管系统互相独立,无法全面掌握不同专业间的业务关系,系统任何一点容量超限都将导致供电运行不稳定甚至崩溃。

(2)改进技术方案。数据中心“自·智”安全运维技术的数据中心供电隐患自动化排查系统(图3)建立了数据中心供电拓扑图,通过动环监控系统同步各级配电设备电压、电流、功率等关键数据,实时呈现各级配电负载率、三相不平衡度,针对不同风险等级发出不同级别预警。对比用电负荷与容量预警关系,通过智能化负荷分配机制,在配电仿真功能基础上完善业务加电模拟功能开发,实现能耗利用科学化管理及负荷容量预测、预警功能[9]。

图3 数据中心供电隐患自动化排查系统

供电系统某条路由的负荷超载还会导致该条路由电缆压差过大造成线缆温升异常,根据这一原理,数据中心供电隐患自动化排查系统通过数据中台收集电缆出线、进线端监测的电压值计算线路压差,依据IEC 60287标准结合神经网络算法推导出数据模型在具体电缆类型、长度和电流值情况下正常的温升区间并配置预警参数,待运行过程中监测到电缆两端电压差值异常达到预警范围时将预警信息推送到监控平台,从而实现故障超前预判功能。

2.2.2 AI“智冷”空调节能系统

(1)传统制冷系统运维存在的安全隐患。冷水机组、冷却塔、水泵以及末端制冷设备等60余种设备组成了数据中心水冷中央空调系统,作为数据中心冷源,起到保持机房温度、保障数通设备运行环境安全的重要作用。传统人工调节数据中心制冷系统参数存在着难度大、费时费力、安全性无法完全保证等弊端。

(2)改进技术方案。数据中心制冷系统这种非线性、多参数、强耦合的复杂系统非常适合选用AI算法进行处理。运用AI技术进行制冷系统的智能化调节控制,能够实现从设备级手工调节到系统级智能调优的跨越,是保证制冷系统运行安全,提升数据中心整体运行安全的重要环节。AI智冷空调节能系统如图4所示。

图4 AI智冷空调节能系统

数据中心“自·智”安全运维技术所采用的人工神经网络(Artificial Neural Network,ANN)是AI领域的热点技术,它模拟人类神经网络的工作方式,通过计算机搭建待解决问题的数学模型,从而对模型进行最优化求解。人工神经网络依次由输入层、隐藏层以及输出层组成,每一层包含不同数量的神经元,每一个神经元与相邻层的神经元全连接,每一个连接都有一个权重值,神经元自身有一个偏置值。将历史数据从输入层输入,根据历史输出与预期输出的偏差更新权重值,直至收敛,达到训练神经网络模型的目的。模型训练的精度很大程度上取决于数据采集的数量和准确性,数据中心“自·智”安全运维技术依托对制冷系统设置的600多个数据采集点,实时积累数据中心制冷系统运行数据,并将数据反馈给ANN,通过这种方法实现以数据驱动的方式,构建制冷系统能耗模型[10]。

经过上述建模过程后,数据中心“自·智”安全运维技术就可以通过寻优算法在模型上实现从系统层面对制冷系统海量控制参数的精确寻优,自动输出安全的最优控制执行参数设置值。当系统寻找到最优参数组合后,结合安全约束阈值及业务服务等级协议(Service Level Agreement,SLA)约束条件,由楼宇自动化(Building Automation,BA)系统自动下发执行,随温度及信息负载变化动态调优,保证系统处于最优工况。另外,传统的制冷系统运行模式是基于气候变化、负载变化等时间节点进行控制参数调节,平均每15天调节1次。嵌入AI“智冷”控制模式后已实现每2小时下发1次最优控制参数,BA系统自动执行,动态匹配温湿度及IT负载变化,保证系统处于最优节能工况[11]。

3 结 论

随着“十四五”规划提出建设泛在智联的数字基础设施体系,未来数据中心必定会在安全运维的基础上,从人海战术到少人化最终达到无人化目标。此外,“十四五”规划对“碳达峰”“碳中和”的要求也会加快数据中心节能管控措施的普及,完成这场互联网通信领域的绿色变革。随着更多新技术的成熟,在自动化、智能化运维的时代,技术人员能更好地解决新的数据中心安全运维挑战。

猜你喜欢

网络设备制冷系统数据中心
酒泉云计算大数据中心
网络设备的安装与调试课程思政整体设计
R290/R170单级压缩回热制冷系统模拟研究
R134a-DMF吸收式制冷系统性能仿真研究
浅析数据中心空调节能发展趋势
一种基于C# 的网络设备自动化登录工具的研制
关于建立“格萨尔文献数据中心”的初步构想
奥迪A6L车制冷系统工作异常
AMESim仿真技术在汽车空调制冷系统中的应用
基于云计算的交通运输数据中心实现与应用