基于AI的运营级IDC节能研究
2020-11-20曾宇ZENGYu袁祥枫YUANXiangfeng王海宁WANGHaining
曾宇/ZENG Yu,袁祥枫/YUAN Xiangfeng,王海宁/WANG Haining
(1.中国电信AI研发中心,中国北京102209;2.英特尔(中国)有限公司,中国北京100013)
(1.China Telecom Beijing Research Institute,Beijing 102209,China;2.Intel China Ltd,Beijing 100013,China)
随着5G时代的来临,海量数据生成,云计算需求急速增长,与之配套的互联网数据中心(IDC)在近几年得到了迅猛发展。2010—2017年,全球数据中心数量平稳增长。从2017年开始,全球数据中心朝着大型化、集约化的方向发展,单机架功率快速提升。中国数据中心发展进程相对较晚,但规模增速整体高于全球水平。2019年中国IDC的市场规模达到1 560.8亿元,同比增长率远超过全球平均水平,但IDC行业供需仍有较大的缺口。与此同时,迅速增长的IDC带来了巨大的能源开销,运营商电费成本进一步加大,节能降耗已迫在眉睫。
1 IDC能耗概况
IDC能耗主要集中在3个方面:IT设备能耗、制冷设备能耗与其他能耗。IT设备包括机架上的服务器、交换机等业务承载设备;制冷设备包括空调室内机、室外机、水冷机组等;其他包括办公用电、照明用电等。其中,制冷设备的能耗约占IDC总能耗的40%,其他能耗基本可以忽略不计。衡量机房是否节能一般用能源使用效率(PUE)指标,即数据中心总能耗与信息技术(IT)设备能耗的比值[1]来表示。为了克服现有传统节能手段的局限性,本文提出利用数据分析和人工智能(AI)模型的智能化运营级IDC节能方案。通过分析IDC机房的静态属性数据及历史数据,训练对应的AI模型,进而提出基于AI的机房节能策略。
主流运营商IDC机房按照空调类型一般分为两类:风冷和水冷。
(1)根据制冷原理,IDC机房可分为风冷类机房与水冷类机房。风冷类机房多为一些早期建设的机房。其原理为冷媒在室内机蒸发器蒸发吸热后,送到位于室外的室外机,通过室外机内压缩机将低温低压气体压缩为高温高压气体,再经过冷凝器进行散热,成为高温高压液体,循环到室内再次吸热。水冷类机房的制冷设备由水冷机组与室内末端空调组成。水冷类机房通过比热容较大的水在水冷主机与冷却塔、水冷主机与末端空调之间进行热交换。水冷类机房多见于集中建设的大型数据中心。水冷机房的制冷能耗主要由水冷主机的能耗、泵的能耗、冷却塔的能耗与末端空调的能耗4部分组成。
(2)根据送风IDC机房可分为下送风类机房与其他类机房。下送风指空调输出的冷风,通过机房架空地板下的静压箱,经出风地板导出,为机柜制冷。下送风的方式更符合物理规律,可以有效避免热气流回流。大部分IDC机房采用下送风的方式。下送风机房也分为两种:机柜下送风式、冷热通道封闭式。其他类机房指除下送风类机房以外其他送风方式的机房,比如上送风机房、背板空调等。
目前IDC机房节能切入点主要是制冷设备,节能手段通常是依据人工经验与暖通知识,优化机房温度与气流组织[2-4]。新建机房一般引入新型制冷技术,大大降低PUE;但运营商大部分已有机房存在无法进行制冷方式调整,改造成本较高,人工难以调节的情况。
IDC传统的节能手段主要有:气流组织优化(人工经验)、采用水冷空调机组、提高机房温度、关闭空闲设备、基于应用的策略优化(例如利用虚拟化管理软件优化空闲业务)。
由于运营商IDC通常为客户提供服务,因此传统的节能手段无法应对多样性的客户应用场景。同时,随着节能减排的要求逐渐纳入到运营商各级公司考核关键绩效指标法(KPI),传统的节能手段空间越来越小,而且也无法匹配未来面向5G的多样化业务生态对节能的需求。
基于AI及大数据的智能化节能体系,研究重点在IDC的核心数据层面,通过数据的分析,可以得到节能策略所需的调整依据。数据采集来源为动环系统数据、人工、机器人采集数据、水冷机组系统数据等。动环系统一般是在机房建设阶段就开发好的监控系统,通过机房内设置的传感器、列头柜、空调传感器,可以采集机房温湿度、IT设备功耗、空调运行参数、制冷功耗等信息。动环系统的数据基本可以描述一个机房内的运行情况,但由于早期机房建设未考虑数字化改造需求;因此数据缺失情况较严重,甚至未保存历史数据。此外,由于采集逻辑原因,动环系统数据采集粒度较大,且各维度数据很难在时间点上进行统一,为数据清洗与之后的AI建模带来很大困难。因为某些机房部分数据未记录,需要人工或使用自动化设备补采。补采数据一般在空间维度上比较丰富,包括:机柜级别的出/回风温湿度、机柜电流与机柜的出风量数据,但由于采集速度限制,数据在时间维度上的丰富性有所欠缺。
水冷机组的数据包括:水冷主机的运行参数(冷凝器进出水温度、蒸发器进出水温度、冷冻供水压力、主机电流等)、泵的运行参数(运行频率、电流等)、冷却塔的运行参数(运行频率、电流等)与其他参数(如室外温湿度、IT总负载等)。
风冷机组的数据包括:IT设备功耗、室内空调功耗、机房室外温湿度、机房尺寸、机房地板架空高度、机柜数、机房列头柜功耗、机柜送风风速、机柜进风温湿度、机柜出风风速、机柜出风温湿度、分区空调出风口温湿度、分区空调回风口温湿度、空调机组总能耗等。
目前,Google、阿里、华为等主流云服务企业已有将AI算法在水冷机组端应用的成功案例[5],但基本集中在一些建设较好、历史数据较久、数据维度较为齐全的IDC中,运营商主要依靠厂商解决方案。水冷机房的制冷功耗主要由水冷主机功耗、末端精密空调功耗、冷却/冷冻泵功耗与冷却塔功耗4部分组成。末端机房的精密空调的功耗占总制冷功耗的30%左右,调控策略与风冷机房基本类似,其他3部分可以称之为水冷机组。水冷机组系统复杂,运行参数众多,每一部分的功耗都受到多个参数的影响。
对于水冷机组,可以采集水冷机组的各运行参数历史数据进行建模,拟合水冷机组总功耗,寻找各参数与总功耗之间的映射关系。拟合完成后,可通过随机游走、遗传算法等算法,在保证输出制冷量满足末端机房负载的前提下,寻找水冷系统运行最优参数[6-7]。
2 AI算法与机房节能的应用
2.1 机柜出风温度预测
机柜上服务器数量与发热情况是不同的,相对应的出风地板的开度与出风温度也是不同的。机柜发热量对应一个最优的送风量,即一个最优的出风地板开度。同时,冷却效率也与送风温度相关[8-9]。因此,为了保证机柜的安全,并且不造成空调出风冷量的浪费,需要寻找机柜出风温度与出风地板开度、出风温度的映射关系。
我们将机柜负载、机柜进风温度、出风地板开度(风量)、机柜服务器数量、位置等信息输入模型,拟合该机柜的出风温度:
其中,Tout为机柜出风温度,Tfloor为地板出风温度,Hfloor为地板出风湿度,Qfloor为地板出风量,P为机柜功率,Nserver为机柜服务器数量,Tin为机柜进风温度。如图1所示,根据机房采集数据及历史数据,可以对机柜出风温度进行预测。图1采用了随机森林模型,对出风温度进行预测。由图1可以看出,通过模型预测的机柜出风温度,与实际的机房出风温度拟合程度较好,平均百分比误差值(MAPE)最好可以达到0.03%。
同时,通过该模型,可以指定理想机柜出风温度,为每个机柜寻找一个最优的出风地板开度,以达到整个机房的送风效率最优化。同时,还可以根据机架上服务器负载的变化,对出风地板进行动态调节。测量机柜风量,如图2所示。图2(a)中不同颜色代表不同的风量值,风量越小越颜色蓝,风量越大颜色越红。某试点机房通风地板总共149块,共测量145块通风地板出风量,通风地板风量最小值为241.92 m³/h,风量最大值为5 207.33 m³/h,通风地板平均送风量为2 425.04 m³/h。
图2(b)表示了机房出风地板的风量分布情况,图2(c)为机柜的底部出风板开度初始值及根据模型计算后推荐的调整值。可以看出,经过AI模型的分析,调整后的出风板配置可以为空调调整策略提供对应匹配,以保证在机柜热点不增加的情况下,通过关闭不必要开启的出风板,降低相应机柜对制冷功率的需求。
2.2 机房热平衡方程
空调回风温度体现了机房内设备的总体发热情况。由于机房内设备负载在动态变化,气流组织也在不停变化,空调的风扇转速也不是恒定的,每个空调的回风温度难以通过人工经验进行预测。
假设机柜耗电放出的热量和机柜的电流呈线性相关,空调输出的制冷量和空调的电流呈线性相关。机柜耗电放出的热量和空调输出制冷量之间的差值,造成了空调出风温度与回风温度之间的温度差。可建立如下热平衡方程:
▲图1 机柜出风温度预测模型
▲图2 试点IDC机柜出风气流分析及节能调整方案
其中,C为空气的比热容,M为空气质量,Δt为空调出风回风平均温度差,AC、wi为空调电流与其对应参数,CAB、ui为机柜电流与其对应参数,m为空调数量,n为机柜数量。通过机房的历史数据,对wi、ui进行参数估计,量化各空调对机房温度变化的影响,辅助空调节能调整策略的制定。通过对机房基础数据的分析,可以得到机房温度和制冷功耗之间的相关性分析,如图3所示。总体上,提高机房温度有助于降低制冷功耗,也进一步验证了提高机房温度降低机房耗能的理论依据。
2.3 机柜负载趋势预测
机房的发热量主要来自于机柜的负载。根据数据分析,大部分机柜负载比较稳定,在一个负载基线上小范围周期性波动,只有少部分机柜波动较大,如图4所示。
图4中,A、B、C、D、E、F、G、H、I代表不同机柜,横坐标为测量时间,纵坐标为归一化电流值。可以看出,不同机柜的电流各不相同,但是电流时间累积的趋势有相似度;因此可以看出不同机柜内业务呈周期变化。
总的来看,机房整体负载也具有日内的周期性。使用长短期记忆网络(LSTM)、自回归移动平均模型(ARIMA)等序列预测算法,建立机柜负载预测模型,根据前24 h的历史数据,对未来几个小时的机柜的负载情况进行预测,服务于未来时刻的节能策略制定。
2.4 基于深层Q网络神经算法(DQN)的空调实时控制
在空调的实时控制层面,空调既有的比例、积分、微分(PID)温度控制算法为保证通用性,并未对每个机房进行针对性优化,有很大的改进空间。基于强化学习的控制算法,可以在给定机房系统中进行训练,寻找当前状态下空调的最优调控决策。基于DQN的空调实时控制算法描述如图5所示[10-11]。
▲图3 机房温度与制冷功耗相关性
▲图4 机柜电流波动示例
根据图5,可以看出,状态和操作可以用强化训练模型来拟合,其中状态包括机房内部温湿度、室外温湿度、空调当前参数;操作包括空调开关、风扇转速加减、水阀开度加减等。
其中,Ti为测温点温度,Ttarget为理想温度,Noverheat为过热点数量,Ppower为空调功率(风扇转速),Aon/off为执行开关机操作。神经网络输入为状态,神经网络输出为操作。
3 基于规则的控制算法
基于强化学习算法,可以实现对于机房状态的最优寻找。通过基于规则的控制算法,可以实现对于空调设备参数的精确控制。在基于规则的控制算法中,模糊控制算法对于人工经验的捕捉,最为有效。模糊控制概念最早由Lotfi ZADEH[15]提出,主要包括4部分:模糊变量、隶属函数、规则、逻辑运算,如图6所示。
对于IDC机房节能场景,模糊变量是IDC机房的输入和输出参数,隶属函数是捕捉数据之间相互关系的数学表达,规则则是人工经验的集合,最终通过逻辑运算,实现控制方法。以下是IDC机房的控制规则:
(1)如果机房温度过高,则启动空调;
(2)如果机房温度过低,则停止空调;
(3)如果机房IT负载发热量高于空调制冷功率,则开启空调。
考虑到严重程度,上面的规则表达可以进行数学映射。例如图7所示,需要操作的规则按照重要程度,可以分为轻度(Minor)、中度(Moder⁃ate)、严重(Severe)。
通过更加细化规则构建,可以完整地表达在某种条件下,需要操作的节能策略,以及策略需要执行的频率和重要程度。同时,利用IDC历史数据,可以对机房预设的规则进行训练,从而可以预测出现相应条件下所需要的操作,预测的准确性可以和采集的数据作比较。预测所用到的训练数据,对于结果有较大影响,如图8所示。
由图8可以看出,图(a)是由大量的训练数据(超过1万组)数据训练的控制模型,可以很好地捕捉控制趋势;图(c)是由少量的训练数据(2 000组)完成的控制模型,和实际指标偏差较大。因此,控制模型的准确程度,取决于是否有大样本的输入数据作为模型训练依据。
4 机房自动化等级分类
▲图5 深层Q网络神经算法强化训练模型
▲图6 模糊控制系统架构
▲图7 规则需要执行的重要程度
▲图8 不同训练数据对应控制模型[16]
2017成立的欧洲电信标准化协会(ETSI)网络智能化(ENI)工作组发布的白皮书中,阐述了网络管理控制运维从人工走向自治的自动化、自优化、自治化三步愿景[12].
2019年发布的电信管理论坛(TMF)自治网络白皮书中,将网络从人工运维到完全自治网络进一步细分为五级,形成网络自动驾驶分级标准[13]。
参照网络自动驾驶分级分类,可以对IDC机房进行自动化控制的等级划分。类似地,从L0到L5,分别对应IDC节能自动化程度从人工、人工协助、半自动、有条件自动、高度自动化、完全自动化6个等级。中国电信在IDC智能化分级领域的探索,同时写入了ETSI ENI分级课题建议中,为后续运营级IDC智能化节能的部署提供了参考。
5 结束语
本文通过采集IDC机房数据、AI建模,对运营商IDC机房进行画像。同时,通过深度学习和控制算法,把人工调节经验和数据分析结果,通过预设规则,下发到机房的控制系统中。通过不断的学习,AI算法对于IDC节能的应用将不断完善。将AI算法应用在IDC机房节能,使得机房节能手段更加智能化、精细化,节能效果明显。同时,AI算法应用在IDC机房节能最大的障碍在于机房数据质量问题,需要通过数据采集逻辑、存储方式、加装传感器等方式,从源头进行改善。此外,在新建IDC机房中,需要注重机房历史数据的采集与存储,为后期算法优化提供良好数据基础。