数据驱动的数据中心气流组织预测综述

2023-04-13苗益川朱兵岳天亮吕丽乔盘

计算机时代 2023年4期

苗益川朱兵岳天亮吕丽乔盘

摘要：在构建基于动态优化的数据中心能效实时控制系统的过程中，数据中心气流组织分布的实时预测至关重要。传统的计算流体动力学方法求解时间较长，无法满足这一需求。随着数据驱动建模技术的发展，很多学者开始将其应用在数据中心参数预测领域，该方法使数据中心气流组织的实时预测成为可能。本文总结了基于数据驱动的稳态工况和瞬态工况的气流组织研究，并对技术路线进行梳理，可为气流组织预测模型的选择提供参考。

关键词：实时预测；气流组织；数据驱动；计算流体动力学

中图分类号：TP311.1 文献标识码：A 文章编号：1006-8228（2023）04-96-05

Abstract： In the process of building a data center energy efficiency real-time control system based on dynamic optimization， real-time prediction of airflow organization in data center is very important. Traditional computational fluid dynamics method cannot meet this requirement because of its long solution time. With the development of data-driven modeling technology， many scholars begin to apply it in the field of data center parameter prediction. This method makes it possible to predict the airflow organization in data center in real time. In this paper， the study of airflow organization based on data-driven steady and transient conditions is summarized， and the technical route is sorted out， which can provide a reference for the selection of airflow organization prediction models.

Key words： real-time prediction; airflow organization; data-driven; computational fluid dynamics

0 引言

数据中心是信息技术发展的关键基础设施，随着新一轮技术变革的推进，近十年我国数据中心数量保持高速增长[1]。数据中心消耗的能源中约20%～45%的能耗用于冷却系统，并占运行成本的大部分[2]。制冷系统节能潜力大，开发动态优化的数据中心能效实时控制系统是目前行业的迫切需要。氣流分布实时预测是开发控制系统的必要条件。

CFD是预测数据中心气流分布的最常用工具，但预测过程中需要消耗大量的计算资源，求解时间较长，求解时间与模型的网格数量正相关，为了得到更准确的预测结果建模过程中通常需要根据机房实际大小划分几十万到几千万的网格，求解过程通常需要几十分钟以上，使用CFD工具难以对数据中心的温度进行实时预测。但数据驱动预测方式的出现使数据中心气流组织的实时预测成为可能，很多学者开始将数据驱动模型应用于数据中心气流组织预测领域。数据驱动分为基于机器学习或统计学两种方式，采用统计学框架的方法为POD（Proper Orthogonal Decomposition）该方法应用已较为成熟，其插值预测精度较高但外推预测精度差，添加新的预测点时，需要重新计算POD系数，复杂且耗时长，因此本文涉及较少；基于机器学习框架的预测方法非线性拟合能力强，近期研究成果较多，主要是文章的总结内容。本文总结了近年数据驱动方式在数据中心气流预测领域的研究成果及不同的研究方法，比较了不同模型的预测性能，分别针对稳态预测和瞬态预测进行概括，为选择合适的预测方法提供参考。

1 稳态预测

1.1 高架地板入口气流预测

SONG Zhihang[3]创建了基于CFD数据的数据中心高架地板入口气流速度预测神经网络和温度预测神经网络，取得了与CFD数据一致的结果。为了尽可能减少模拟次数且保证数据集不塌陷，采用拉丁超立方抽样构建样本后通过CFD模拟建立数据集，采用LM算法对神经网络进行迭代训练。

速度预测神经网络结构为（2-8-15），两个输入变量为静压箱深度和高架地板开孔率，输出层15个神经元分别对应服务器编号1～15前方穿过高架地板气流的平均速率，分别使用85组和16组CFD数据对流速预测神经网络进行训练和验证，训练后的神经网络平均相对误差为0.5%。

温度预测神经网络结构为（9-20-15），九个输入变量分别为：六块高架地板开孔率、送风温度、CRAC的流量和静压室高度，输出层为15个神经元，分别对应服务器编号1～15前方穿过高架地板气流的平均温度。通过调整训练集与验证集组合检查该神经网络的稳定性，不同比例数据集的误差如表1所示，当验证集增加到80组时相对误差升高，出现过拟合现象。采用误差最小的数据集组合方案四对神经网络进行优化。通过增大或减少不同输入变量，评估各个变量的敏感性，四个开孔率变量因灵敏度较低而被删除，优化后的神经网络结构为5-9-15，表2显示了该神经网络的相对误差随数据集的变化，简化后的网格具有更好的精度和稳定性。在神经网络优化过程中，减少低敏感度变量的个数是非常有必要的。

1.2 机柜进出口气流预测

Athavale等[4]比较了人工神经网络（ANN）、支持向量回归（SVR）、高斯过程回归（GPR）三种机器学习方法在预测数据中心机架入口温度稳态分布时的性能。采用拉丁超立方抽样从空调风机转速、空调回风温度、A行机柜负载率、B行机柜负载率四个变量中抽取300组输入参数组合，使用CFD工具建立训练集，预测变量为36个，包含九个机架共36个测温点。使用LM算法对神经网络进行训练，神经网络结构为（4-27-36）。SVR模型和GPR两种模型均为单输出，为了获得温度剖面分别训练了36个SVR模型和GPR模型，将预测结果分别进行组合。如图1所示，三种预测模型中GPR模型的平均绝对误差最小约为0.6℃，ANN与SVR均为0.7℃，误差均在较小范围内。值得注意的是在三种预测模型中靠近机柜顶部的位置预测误差均较大。这主要是由于三种预测模型无法捕捉机柜顶部位置的气流再循环效应。机架顶部的服务器风扇可以从机架后面吸入热空气，以弥补冷却风量的不足，引起热空气发生再循环，从而导致热点。

此外，数据集数量对模型误差的影响不可忽视，图2显示了样本数量从50增加到500时，对三种模型预测误差的影响。样本数量从50增加到300时，三种模型温度预测的误差呈现出单调递减的趋势，当从300增加到500时没有观测到误差的明显下降。值得注意的是GPR建模的随机性使其在面对小噪声数据时集表现出较强的处理能力，即使样本数为50仍可以保持小于1℃的预测误差。

Tsukamoto等[5]人开发了基于CFD数据的深度神经网络（DNN）回归预测模型，与其他研究不同的是该模型可根据低网格数模型计算出的机柜出口风速对高网格数下的机柜出口风速做出预测，通过神经网络对CFD计算的结果进行优化，在确保计算精度的同时避免求解时间增加。该模型如图3所示，以低网格数模拟结果为输入数据，高网格数模拟结果为参考值。

为了尽可能多的涵盖不同工况，选取了五个影响气流分布的操作参数进行多工况模拟，五个操作参数分别为：高级地板穿孔率、机柜格栅穿孔率、三部空调送风速度。该深度神经网络共有八层，512个节点，使用Optuna工具进行调参，预测效果如图4所示，低网格数模型预测精度显著提高，23750网格数的预测精度接近50万网格模型CFD模拟精度，预测时间从600s减少到20s。

FangQiu等[6]提出了使用神经网络的快速温度预测模型（FTEM， Fast-Temperature Evaluation Model），该模型考虑了流量、机架功率分布、空调送风温度三个关键因素对机柜进出口温度的影响，并且对比了BP（Back Propagation）、RBF（Radial Basis Function）、ELM（Extreme Learning Machine）三种增强型神经网络在该模型中的表现。具体流程如图5所示。

在建模的过程中，将数据中心传热模型抽象为热网络，机架和空调抽象为热网络中的热节点，节点的入口值即为机柜入口温度，出口值为机柜出口温度。热网络中的连线表示不同节点间的热交换，数据中心内部的空气再循环可以视为节点之间的交叉干扰。节点进出的温度关系则可以表示为：

其中，[Tin]为节点入口溫度向量，[Tout]为节点出口向量，[Φ]为交叉干涉系数矩阵。通常需要进行多组CFD模拟，获得多组[Tin]和[Tout]计算出交叉干涉系数矩阵[Φ]。使用神经网络模拟流量向量F与[Φ]之间的非线性关系。该模型有N个输入分别对应[F]中的各个元素，输出则分别对应[Φ]中的各个元素。为了验证不同神经网络的预测性能，基于FTEM模型对比了BP、RBF、ELM三种增强型神经网络的MAE（Mean Absolute Error）、MAPE（Mean AbsolutePercentage Error）、RMSE（Root Mean Square Error），结果见表3。其中RBF精度为最佳，ELM精度与RBF精度接近，在三种神经网络中学习时间最短，BP精度最差，但其MAE最大值为0.29℃、RMSE最大值为0.32℃，小于0.5℃的温度测量不确定度，可满足预测需求。由于物理模型的简化，FTEM模型可以实现毫秒级的温度分布预测。

2 瞬态预测

2.1 常规工况变化

Saiyad等[7]使用神经网络对常规工况下机架级温度分布和设施级温度分布变化进行预测，并对比了各个神经网络的相关系数R和均方误差，具体内容见表4。机架级温度预测神经网络模型均为单输入多输出结构，输入变量分别为服务器负荷、高架地板入口流速，输出变量为16个（每个机架进口温度分布测点八个，出口温度分布测点八个）。设施温度分布预测的神经网络为多输入多输出结构，输出变量分别为64个和48个，对应于不同行机柜。所有案例的R值均在0.99以上，表明预测值与实际值有很强的相关性，均方误差均在可接受范围内。可在30s内实现未来300～500min内的工况预测，解决了CFD工具无法实现的快速预测。

2.2 空调失效工况预测

Athavale等[4]比较了ANN、POD、SVR和GPR模型在数据中心空调失效后500s内机架入口温度的绝对预测误差和变化，其结果如图6所示。空调失效后的前200s内的数据用于训练模型和测试插值精度，后300s的数据用于测试外推精度。在200s内所有模型的插值预测误差均远远小于0.5℃的不确定度，但在200s～500s区间的外推预测中所有模型的误差都开始增加，其中GPR和SVR模型预测温度单调递减，与实际温度变化情况相反，ANN模型预测温度在200s-250s区间迅速上升随后保持不变，只有POD模型温度变化趋势与实际相符。SVR模型与GPR模型外推结果受所选核函数的影响，在预测过程中这些模型会在训练数据集中寻找距离输入值最近的训练输入值，随着输入值与训练输入值的增加，预测值逐渐接近训练数据集的平均值。

3 总结

综上所述，用数据驱动方法可以实现气流组织的快速准确预测，计算效率满足实时控制系统的需要。神经网络是目前应用最多的模型，其多输出、非线性的特点满足了数据中心气流组织往往需要进行多点预测的需求，SVR和GPR模型单输出的特性增加了工作量；在模型建立之前对机房内传热模型进行简化，可以减少预测时间。此外，影响数据中心气流分布的因素较多且影响强度无法确定，使用分析函数对输入变量进行降维，可以提高预测精度和稳定性；在瞬态工况预测中，神经网络、POD、SVR和GPR的插值预测精度均较高，但SVR和GPR模型受核函数的影响，外推误差较大，并且无法预测温度变化趋势。接下来，需要针对提高模型的瞬态外推预测精度进行研究，并在气流组织预测基础上开发出实时最优操作条件预测模型，为数据中心提供有效的实时热管理工具。

參考文献（References）：

[1] 丁肇豪，曹雨洁，张素芳，等.能源互联网背景下数据中心与电力系统协同优化（一）：数据中心能耗模型[J/OL].中国电机工程学报，2022（1）：1-18

[2] 张海南，邵双全，田长青，等.数据中心自然冷却技术研究进展[J].制冷学报，2016，37（4）：46-57

[3] Song Z， Murray B T， Sammakia B. Airflow and temperature distribution optimization in data centers using artificial neural networks[J]. International Journal of Heat and Mass Transfer，2013，64：80-90

[4] Athavale J， Yoda M， Joshi Y. Comparison of data driven modeling approaches for temperature prediction in data centers[J]. International Journal of Heat and Mass Transfer，2019，135：1039-1052

[5] Tsukamoto H， Sogawa Y， Matsuda K， et al. High-speed Search for Optimal Operation Parameters of Air Conditioning System in Data Center by Using Regression Prediction and Deep Reinforcement Learning on CFD Simulation[C]//2021 60th Annual Conference of the Society of Instrument and Control Engineers of Japan （SICE）. IEEE，2021：105-112

[6] Fang Q， Li Z， Wang Y， et al. A neural-network enhanced modeling method for real-time evaluation of the temperature distribution in a data center[J]. Neural Computing and Applications，2019，31（12）：8379-8391

[7] Saiyad A， Patel A， Fulpagare Y， et al. Predictive modeling of thermal parameters inside the raised floor plenum data center using Artificial Neural Networks[J]. Journal of Building engineering，2021，42：102397

*基金项目：贵州省科技支撑计划项目（No.2017YFB0902100）

作者简介：苗益川（1996-），男，河北石家庄人，硕士研究生，主要研究方向：数据中心气流组织。

通信作者：朱兵（1967-），女，贵州贵阳人，硕士，高级工程师，主要研究方向：分布式能源系统、数据中心节能技术。