APP下载

数据中心空调智能散热技术研究与落地实践

2021-07-09刘伟民张炳华肖羽佳余兴林

信息通信技术与政策 2021年6期
关键词:数据中心设备策略

刘伟民 张炳华 肖羽佳 余兴林

(百度公司,北京 100089)

0 引言

近年来,云计算和5G相关技术正在兴起,全球对计算、存储资源的需求逐步增加,数据中心作为技术载体,在新基建政策的扶持下,呈现热点增长趋势[1]。随着数据中心朝大型化、高密化方向发展,其面临的能耗问题愈发凸显。PUE作为综合考察数据中心的用能效率指标,成为事实上衡量数据中心能效的KPI。以IT负载8 MW、年均PUE 1.4、电价0.5元/度的数据中心为例,其年总用电量约为1亿度,其中基础设施消耗电量约为0.28亿度,折合电费约1400万元。PUE每降低1%,每年可节省电费约70万元。因此,降低数据中心PUE成为降低成本的关键。

由于制冷与设备散热、设备配置、机房环境,大气条件相互关联,在运维达到一定的成熟度后,如果单纯凭借硬件节能或者基于人工经验的简单调优,无法满足能耗进一步降低的要求。寻求一种新的控制算法,利用大数据、人工智能等高性能科技,以达到数据中心整体能效最优,成为了数据中心行业致力探索的问题。针对以上需求,近些年国内外企业都进行了相关技术产品的探索,尽管方式方法可能略有不用,但最终目标都是在保证制冷量的前提下,实现最优PUE下的制冷运行[2-8]。

本文主要对空调智能化的AI散热技术进行研究,先后实现了IT负载预测、湿球温度预测、PUE预测等基础的数据预测功能;构建了冷冻水系统中各制冷设备的 AI 模型,实现系统冷源部分AI调优。后期联动空调系统末端,实测整体AI 调优,并实际验证策略可用性达到90%+。经过不断测试,打通了AI策略下发至底层制冷设备的控制链路,全自动实时下发调优策略,AI直接控制冷水机组、风机、水泵、阀门等底层设备运行。

1 整体框架

数据中心空调AI智能化产品基于数据中心智能大数据监控平台打造,模型策略基于深度学习平台PaddlePaddle进行打磨。整体框架上包括3层:N1数据层、N2模型层、N3应用层(见图1)。其中,N1数据层进行数据相关的采集、清洗、标准化、存储等工作。N2模型层基于深度学习平台进行大数据学习处理,输出满足末端制冷下制冷功率最小的各设备运行状态,下发相对应的AO/DO命令参数;单纯的深度学习策略无法满足数据中心对运行稳定性的要求,因此IDC工程师讨论输出相关的模型边界条件及调优逻辑,并汇总形成专家策略对输出的AO/DO参数进行边界校验,只有满足条件的策略才能够被执行,当策略不达标时,会进行关联标记,自动触发专家库进行计算,提供次优解进行输出。N3应用层主要实现相关的历史运行数据查询、命令的手自动遥控交互、以及相应的运行状态展示等。

图1 智能散热产品整体框架图

整体来看,数据中心AI智能化系统是AI物联网技术在数据中心场景下的典型应用[9-10]。目前物联网从数据到远端多采用MQQT协议下的扁平化结构[11],而IDC行业由于其历史原因,行业内多为IDC本地动环/BA监控+远端平台的架构,因此在数据源的选择上,行业内习惯根据机房的监控架构来确定从本地平台的南北向接口或从末端设备上进行上传;N1数据层的架构充分考虑行业现状,数据源选自本地电力/暖通监控平台的北向上传接口,通过独立采集Agent设计、智能清洗、全解耦的标准化资产规范、以及完整的CMDB和TSDB,实现了对当前IDC多代监控架构的兼容。在模型上,算法部分基于深度学习平台进行二次开发,实现了AI策略的快速构建和模型普适。专家策略部分主要通过对IDC运维技术经验进行总结形成;近些年,随着第三方监控厂商技术产品的不断成熟,多数产品已经支持了基于专家经验的全自动运行模式,需要说明的是,运行的安全性和节能效果较强依赖于厂商技术人员的能力和甲方IDC运维工程师的经验。N3应用层相对成熟,主要考量产品的设计能力,架构上采用的是常规的Web+APP双端模式。

2 数据处理

数据处理按照采集、消费、存储顺序执行。目前,数据中心数据采集主要面临中断和缺失两大问题,其根本原因是数据中心电力、制冷、监控设备在整个市场上没有形成统一标准,从而出现了多版本类型、多协议类型的现象[12],目前行业内主要针对上述问题进行解决[13]。

如图2所示,在采集Agent的设计中,针对当前IDC的实际情况,构建了以统一协议栈为主体的多协议转换模型,针对常用的Socket、C、BACnet等十几种协议,统一转换成带有模型特征的自有协议,这样可以在进行数据采集时,最大程度做到协议兼容性,将整个采集过程进行产品化处理。另一方面,在数据的采集过程中,稳定性也是重要考量指标,目前常规的做法是通过主备冗余设计提升系统可靠能力,但在实际应用中发现,高频、大数据量的采集模式对软硬件的要求极高,因此通过采集分级的形式降低数据的采集频率,通过按需采集的方式降低数据总量;包括调优、预测、告警等在内的要求低延时的L1级数据,通常将采集周期设定到最小,目前AI智能散热所需要的采集周期支持到5 s级;而类似用电量等对采集周期要求不高的L2数据,可以采用适当降频的方式进行处理,甚至部分用不到的数据直接放弃采集。除上述方法,对历史数据的采集也做到了Agent中断重启失败后的数据保存,在恢复正常后依然可以补齐数据。

图2 数据处理总体架构图

针对数据缺失、不规范等问题,主要在数据消费层Kafka完成;通过建立标准的量纲、标准化的数据规范模型来解决数据不规范的问题,要求在落仓前做到统一。而针对数据缺失的问题,以专家经验为主体的虚拟计算模型可以很好地处理,通过模板化的配置,对同类型设备进行批量数据清洗处理、虚拟计算实现了落仓前的标准化。

3 模型算法

3.1 深度学习优化模型

数据中心整体的暖通系统(Heating Ventilation and Air Conditioning, HVAC)结构复杂,按设备划分, 有空调末端、泵组、冷冻设备、冷塔等;按季节和供冷方式划分,有纯板式换热模式、纯冷机换热模式、混合换热模式等;按换热方向划分,有冷冻侧、冷却侧、一次侧、二次侧等。当考虑如此庞大的系统时, 一般有部件级建模和整体建模两种方式。基于部件属性的单组件机理建模与控制方式可解释性强,但易导致模型过多,且模型间的串并联关系使得策略求解过程复杂。而整体建模将暖通系统架构与寻优策略耦合在一起,易于智能算法的应用与强非线性关系的捕捉,但易导致策略算法的适应能力和可迁移能力下降。本文中的AI优化算法基于PaddlePaddle模型, 对关键组件进行部件建模, 对暖通系统进行整体策略寻优, 实现了制冷模式下冷源控制策略的优化[13-14]。

AI建模与寻优的过程,主要包括5个过程:一是根据IT功耗,计算所需的冷冻水侧水流量和冷冻侧出水温度,建立散热需求模型;二是根据室外干湿球温度、湿度等环境参数,建立冷却侧模型;三是按照约束进行剪枝,根据冷冻侧和冷却侧换热约束,建立板换散热性能模型和负载均衡模型,并对所有策略剪枝处理;四是建立功耗模型,根据策略生成模型对泵组和风扇等用电设备建立功耗模型;五是选择满足约束条件的最优功耗下的执行策略。

以板换运行模式为例,在纯板式换热模式中, 板换作为主要的换热模块, 通过热交换方式, 可降低热端侧(冷冻侧)的水温, 并供给空调末端设备(机房)低温水, 以降低空调末端温度。图3为板换模式的热交换原理,Tc_in为冷端入水温度,Tc_out为冷端出水温度,Qc为冷端流量,Th_in为热端入水温度,Th_out为热端出水温度,Qh为热端流量。热端与冷端通过换热盘管进行热交换。根据热力学原理,可得如下关系。

图3 板换模式热交换

热端出水温度模型: 从冷端到热端, 以Th_out为预测值,有

Th_out= f1(Tc_in,Tc_out,Th_in,Qc,Qh)

(1)

换热守恒模型: 即冷端提供的冷量大于等于热段散掉的热量,将Qc作为预测值, 有

Qc= f2(Tc_in,Tc_out,Th_in,Th_out,Qh)

(2)

对数温差模型:即当自然换热发生时,会满足一定的约束,如相同温度的冷热水不能发生换热:

LMTD = f3(Tc_in,Tc_out,Th_in,Qc,Qh)

(3)

利用PaddlePaddle构建以上板换模型的非线性子模型, 其中模型(1)为策略生成模型,模型(2)、(3)为约束模型,使用最近一年的数据进行训练测试,模型实际运行中的准确率达到95%以上。

3.2 基于专家逻辑的策略优化

维持机房温度恒定是数据中心机房运维的重要工作之一,它要求暖通系统的最终供水温度只有极小的变化空间,通常同一季节内不超过5℃,这对智能化系统的精确性提出了非常高的要求。智能化模型虽然已有很高的准确率,但由于AI无法保证100%的准确性,系统还需要有AI之外的策略来保障整体安全,在本系统中此策略为专家逻辑。

本系统中生成策略的模块有两个:AI模型和专家策略。相较于准确推送的AI策略,专家策略节能效果处于次优水平,但能够保障系统的安全稳定运行。策略切换模块是中心管理模块,其目标是在保证系统安全的状态下,根据系统当前状态从专家策略和AI策略当中选择最优策略进行推送执行。

策略切换的逻辑要点一是指定专家优先模式切换为AI优先模式的边界条件,要求AI策略生成、能耗处于最优,同时AI模块保持状态可用;二是指定AI优先模式切换为专家优先模式的边界条件,要求专家策略满足运行条件,当AI优先运行时,触发报警。

4 落地实践

4.1 节能效果说明

空调AI智能化技术产品通过3年左右的整体测试运行,经历了人工调控、AI半自动调控、AI全自动调控的历程,实现了全年数据中心基础设施能耗降低25%,年均PUE由1.17降至1.13。从AI智能散热技术应用前后的效果对比(见图4)可以看出,当执行AI模型推荐调优参数时,制冷功率降低;当取消AI模型转推专家策略时,制冷功率有明显的升高。

图4 AI智能散热技术应用前后效果对比

4.2 技术普适性说明

当AI调控方案实际落地时, 其面临的首要问题是适应能力。在落地AI策略时, 本文融合了快速构建部署思路:一是解耦了HVAC架构与设备数量,二是解耦了优化过程与HVAC架构(见图5)。

图5 AI模型解耦说明

HVAC系统由不同数量、不同类型的设备构成,包括板换、冷机、冷塔等。但无论多么复杂的暖通系统,其最终目的都是将数据中心的热量传递出去,将自然中的冷量传输进来,该过程需要换热设备、动力设备和连接设备。换热设备完成热量交换,动力设备推动能量在连接设备中移动,连接设备负责换热设备的连接(连接设备一般指管路),实现能量以热媒介为载体的流转。本文将HVAC的设备分成3种,分别构建模型对它们进行描述,同时构建了一个设备模型库,方便后续复用。

在传统的调优策略中, 优化过程强依赖HVAC系统结构,没有对优化逻辑进行抽象提取。本文将HVAC系统抽象成热量流图,由若干设备构成,将换热和多通设备作为图的顶点,将连接设备中的管路作为图的有向边,将冷源节点和热源节点作为整张图的输入,其中冷源负责图的冷量输入,热源负责图的热量输入。将图的优化描述为:当给定冷源和热源相关的环境参数时,寻找系统的最小能耗平衡态。

5 结束语

本文关于空调AI智能化技术的研究,针对性地解决了当前整个行业内存在的数据质量差、模型准确度低、存在安全隐患等问题。同时,考虑技术产品的推广能力,对行业内关注的普适性问题做了深入研究。后续将通过不断落地进行模型精确度的进一步提升,为行业提供成熟的高效智能散热技术产品。

猜你喜欢

数据中心设备策略
谐响应分析在设备减振中的应用
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
调试新设备
例谈未知角三角函数值的求解策略
我说你做讲策略
关于建立“格萨尔文献数据中心”的初步构想
基于MPU6050简单控制设备
高中数学复习的具体策略
基于云计算的交通运输数据中心实现与应用