数据中心服务器功耗模型研究进展

2023-09-21岳天亮苗益川

智能计算机与应用 2023年9期

岳天亮，朱兵，苗益川，吕丽

（贵州大学电气工程学院，贵阳 550025）

0 引言

数据中心不仅是实现多种数字化技术的重要基石，更是推动国家经济转型升级的重要动力。伴随全球数据中心产业的快速发展，中国数据中心产业发展也在不断提升，同时数据中心能源和运营损耗也日渐增加。 2019 年，中国云计算整体市场规模达1 334亿元，增速38.6%［1］；2019 年中国大数据产业规模为5 397 亿元，预计到2022 年大数据产业规模将突破万亿，未来将成为世界第一数据资源大国和全球数据中心［2］；2018 年数据中心总用电量为1 608.89 亿千瓦时，预计到2023 年数据中心总用电量将增长到2 667.92 亿千瓦时时，数据中心的电费占数据中心运维总成本60%以上［3］。

数据中心由4 大部分组成：电源设备、冷却设备、IT 设备和其他辅助组件。 IT 设备和冷却设备是两个主要组成部分，约占数据中心总能耗的90%［4］。典型数据中心的热流和能流图如图1 所示，服务器消耗电力并向热环境散热，决定了制冷系统的制冷负荷，进而影响制冷设备的用电量。而改变冷却系统运行参数会影响服务器的进气温度和气流，影响服务器的能耗。因此，服务器是数据中心热流和能流的基本单元，IT 设备和冷却设备因热环境耦合。由于设备效率的不断提高，IT 设备和制冷设备的节能将获得最大化，能源转换潜力体现在能源和热管理上。数据中心执行这两个管理功能的必要条件是准确的服务器功耗模型。功耗模型有助于识别优化机会和预测决策的后果，并益于更有效的管理／控制，可最大程度地节约能源。此外，服务器功耗模型在数据中心冷却系统设计和电力趋势预测中发挥着重要作用。

图1 典型数据中心的热流和能流图Fig. 1 Heat and energy flow diagram of a typical data center

1 服务器介绍

服务器是在网络环境中提供计算能力并运行软件应用程序的特定IT 设备。服务器主要构件有：CPU、内存、芯片组、I／O 设备、存储器、外围设备、稳压器、电源和冷却系统。

1.1 服务器分类

根据服务器的配置和结构，分为机架式、刀片式和塔式。机架式服务器在数据中心应用最为广泛，安装在标准的19 英寸机柜内，有1U（1U ＝1.75 英寸）、2U、4U 等规格；刀片服务器拥有可插入标准机架机箱的“刀片”单元，每个“刀片”均有一块带有处理器、内存和I／O 设备的板；塔式服务器外形与结构和普通电脑主机类似。根据应用场景，服务器可以分为数据库、文件、邮件、打印、网络、游戏和应用等服务器。

1.2 服务器工作负载

基于工作负载，可将服务器分为科学研究、数据分析、业务处理、云数据、可视化和音频、通信和存储7 大类［5］。各类服务器的工作负载类型见表1，各工作负载类型下的IT 设备硬件利用率见表2。

表1 服务器常见工作负载类型Tab. 1 Common types of server workloads

表2 常见工作负载类型下IT 硬件的利用率Tab. 2 Utilization of IT hardware for common workload types

常见工作负载机架功耗趋势如图2 所示，可知科学研究、数据分析工作负载机架功耗增长较快，这两种负载对服务器CPU 的利用率高，且随着CPU多核、超频、超线程的发展，机架功耗增加较快。通信及存储工作负载对服务器硬盘和I／O 利用率高，而硬盘和I／O 的功耗增长缓慢，所以机架功耗增长缓慢。不同类型的工作负载，其功耗趋势不同，对服务器各硬件的利用程度不同，故可根据服务器工作负载的类型预测服务器的功耗。

图2 常见工作负载机架功耗趋势Fig. 2 Common workload rack power trend

2 服务器功耗模型

建立服务器功耗模型的目的：

（1）估计电源管理的潜力；

（2）预测服务器或数据中心的能耗；

（3）平衡数据中心的需求：即降低能耗和提供高可靠性。现有功耗模型涵盖了物理机和虚拟机，可分为相加模型、动态模型和其他模型。

2.1 相加模型

服务器的功耗组成及占比如图3 所示，其中CPU 在服务器功耗中的占比最大，其次是外围设备、电源、内存、主板、硬盘／存储以及冷却风扇。可将各部分功耗直接相加来建立服务器功耗模型，如式（1）所示。

图3 服务器功耗构成Fig. 3 Server power consumption composition

其中，PCPU、Pmemory、Pdisk和PI／O分别代表CPU、内存、存储和I／O 设备功耗。

各元件均有其自身的功耗模型，不同服务器的配置不同，其主要耗能元件及其占比会略有不同，如图4 所示。

图4 不同服务器配置下各组件的功耗占比Fig. 4 Power consumption ratio of components in different server configurations

相加模型将数据中心服务器在运行过程中产生的功耗总量表示为各子系统的能耗总和。一些学者认为CPU、内存、硬盘、网络和风扇是服务器功耗模型的主要组成部分［6-7］，其它元件的功耗与CPU 和内存相比较小，或与CPU 功耗关联性较好，即CPU和内存是主要组成部分；所以服务器功耗模型是CPU、内存和其他设备的函数［8］

2.2 动态模型

服务器并不总是处于活动状态，因此服务器功耗分为：

（1）静态功耗（Pbase），即空闲功耗，包括CPU、内存、I／O 等部件在空闲状态下的功耗，取固定值；

（2）动态功耗（Pactive），即服务器功耗取决于工作负载，服务器功耗与服务器运行状态下的负载处理量、CPU 利用率、任务处理时间和类型等变量相关。

相加模型表示为静态功耗和动态功耗之和［9-10］，如式（2）所示。

其中，PΔ是修正系数（固定值或表达式）。

将Pbase视为常数，并将Pactive表示为函数（线性函数、幂函数、高次多项式等）。动态模型可分为回归模型、幂函数模型和多项式模型。

从发热和散热角度出发，服务器包括IT 组件和散热组件，服务器功耗模型转换为IT 组件和散热组件总和［11-12］。

2.2.1 回归模型

服务器功耗回归模型考虑了服务器的功能单元的功耗和性能计数器之间的相关性，捕获了固定或空闲功耗以及随着服务器功能单元活动的变化而变化的动态功耗。因此，基于回归的服务器功耗模型也被称为“幂律模型”。由于回归模型的简单和可解释，研究中大多采用回归模型，但服务器工作负载的波动频繁，这些模型不适合跟踪云计算中的服务器功耗［13］。 Fan 等［14］分析了回归模型的精度，认为回归模型可以很好地预测动态功耗，误差低于5%。然而，非线性模型的误差在1%左右，具体取决于应用对象。本文将回归模型分为：简单回归模型、多元回归模型和非线性回归模型。

2.2.1.1 简单回归模型

功耗和捕捉CPU 活动性能计数器之间的相关性于2000 年首次提出。基于此，Fan 等［14］认为服务器的整体功耗位于空闲功耗与峰值功耗区间内时，其值与CPU 利用率成一元线性关系，服务器功耗Pserver如式（3）所示，且该模型得到了实验验证。考虑进风温度对服务器功耗的影响，Wang［15］等人用进风温度的二阶多项式对功耗模型进行了修正。

其中，Pidle为服务器的静态功耗（W）；Pactive为服务器的峰值功耗（W）；u 为服务器利用率。

Kavanagh 等［16］提出一个类似基于云系统与虚拟机的模型，针对不同应用场景使用不同的自变量，能源用户总功耗Px，如式（4）所示：

其中，Hidle和Hactive分别为主机测量的静态功耗与动态功耗；为指定的能源用户的CPU利用率；与分别为主机上能源用户的计数和指定主机上能源用户集成员的CPU 利用率。

Rezaei-Mayahi 等［17］采用简单回归模型，考虑CPU 温度和进气温度的差异，研究环境温度对功耗的负面影响，假设CPU 温度与服务器利用率呈线性相关，并分析了入口温度与功率增量之间的关系，并反映在公式（2）的增量中。

2.2.1.2 多元回归模型

公式（2）和公式（3）所示简单回归模型基于CPU 利用率，而处理角度不同，简单回归模型能够对CPU 密集型工作负载产生的能耗进行合理的预测，但面对I／O 和内存密集型应用程序引起的功耗力不从心。一些研究在服务器能耗回归模型中考虑两个及以上影响因素作为自变量，对多元回归模型进行研究。

Alan 等［18］提出CPU 利用率、内存读取速度、磁盘和网络利用率函数的功耗模型，其拟合结果证明误差不超过6%，服务器的功耗Pserver（W）如式（5）所示：

其中，ucpu、umem、udisk、unet分别为CPU、内存、磁盘以及网络的利用率。

Lent［19］假设CPU、磁盘和I／O 端口等子系统在各自的利用率方面呈现线性功耗。 Witkowski 等［20］则将CPU 温度添加到功耗模型中。

（3）非线性模型

Fan 等［14］提出了一个包括校准参数r的非线性模型，该参数使平方误差最小，如式（6）所示：

其中，r是需要通过实验获得的平方误差最小的校准参数，且r取决于服务器类型；Pmax为服务器的峰值功耗；Pu为服务器功耗。

在预测服务器功耗方面，式（6）中的模型比回归模型执行得更好。

2.2.2 幂函数模型

幂函数模型基于服务器动态电压频率缩放（Dynamic Voltage Frequency Scaling，DVFS）技术，考虑CPU 运行频率（f）、工作电压（V）对服务器能耗影响而建立的模型。借助DVFS 技术，根据处理的工作负载强度对CPU 工作电压和工作频率灵活调节。对于某些型号，CPU 是能耗模型的主要部分，在频率f下工作，动态功耗与V2×f 成比例，当电压降低时，频率也降低。所有其他组件（CPU 除外）的功耗是独立的，因此，服务器的功耗可以表示为与工作频率的立方关系［21］。此外，在云计算中，考虑能源成本和性能之间的权衡，将服务器利用率和服务率视为模型的主要组成部分。然而，一些研究将服务器利用率作为表征功率模型的变量，且服务器功耗与CPU 利用率之间存在幂函数关系［22］。

2.2.3 多项式模型

针对一元线性回归模型和幂函数模型在预测非CPU 密集型工作负载的服务器功耗时的不准确性问题，Zhang 等［23］使用高次多项式模型来拟合服务器功耗，发现三次多项式具有最佳拟合度。 Lin 等人［24］提出了服务器能耗与服务器利用率二阶多项式之间的数学模型。

2.3 其他模型

相加模型、动态模型是广泛使用的功耗模型，其他模型也得到了发展。 BAI 等［25］使用服务器利用率和芯片温度的乘积来表示功耗。有学者还提出了考虑多核CPU、活动虚拟机数量、服务器相关变量以及CPU 利用率或CPU 平均温度与进风温度的功耗模型［26-27］。

数据中心IT 设备功耗与服务器处理的工作负载密切相关。负载处理量增加，服务器功耗增加，散热量上升，制冷系统出力增加，数据中心整体能耗增加。量化地研究工作负载灵活调度潜力为数据中心带来用电调节空间，有助于实现数据中心电力负荷的精准调控，关键环节建立工作负载处理过程与服务器能耗之间的映射模型，映射模型主要考虑了工作负载的到达时间、处理速率和数量等影响因素［28-29］。

近年来，云计算技术为优化和控制数据中心的能耗提供了新的方法手段，不少学者对“云数据中心”能耗进行研究。许多学者利用计算机领域传统的负载均衡和调度、资源分配等基础或改进算法，嵌入各类能耗模型，并结合相关云计算平台调度系统对算法效果进行评估［30-31］。此外，机器学习方法广泛用于云数据中心的功耗模型［32］。

2.4 功耗模型对比

现有功耗模型中主要变量统计结果如图5 所示。可知模型建立考虑最多的因素是CPU，其次是服务器、温度、内存和负载，网络和时钟频率关注较少。一些研究已经验证了模型的准确性。据统计，相加模型、动态模型的误差分别小于9%和11%；对于相加模型，大多数研究的误差小于5%，最坏情况下的错误率为10%；对于动态模型，简单回归模型、多元回归模型、幂函数和多项式等模型的误差一般分别小于4.6%、7%、6%和4%［33］。 Zhang 等［23］比较了线性、二次和三次模型，线性模型的平均误差大部分在8%以下，平均误差为2.74%；二次模型平均误差2.04%；三次多项式平均误差都在3%以下，大多数平均误差低于1.5%；发现三次模型可以很好地拟合测量数据。 Lin 等［24］分析了6 种功耗模型之间的误差，得出多项式模型的平均误差最小（1.615%），其次是幂函数模型（2.794%）和二次模型（2.974%）；系数固定时，线性和幂函数模型的误差分别增加到5.918%和8.222%；仅对线性、幂函数和多项式三者比较发现，线性模型最大和最小误差分别为1.41%和0.07%，幂函数模型（最大1.29%、最小0.04%），多项式模型（最大1.29%、最小0.05%），这表明3 种模型都能准确的反映服务器性能特征。因此，多项式模型最适合服务器的功耗。

图5 服务器功耗模型主要变量统计结果Fig. 5 Statistical results of major variables in the server power model

2.5 功耗模型应用

随着信息通信技术的发展，IT 设备的功率密度和能耗不断增加，促使冷却需求和冷却系统能耗不断提高。因此，数据中心热管理和能源管理需要进一步加强，服务器作为能流和热流的基本单元，将功耗模型应用于能量预测和管理，以减少服务器和冷却系统能耗。

2.5.1 数据中心（服务器）能源管理

数据中心各部件的功耗模型用于预测各负载段功耗，优化数据中心整体能耗。利用数据中心负载部分的功耗模型，应用不同的功耗优化方法，以确保数据中心的能源效率和成本效益［34］。为了减少服务器能耗，研究人员通过考虑最佳热环境，提出基于服务器电源模型的节能控制策略。 Berezovskaya等［35］提出了一个用于任意数据中心建模的模块化工具箱，并用该工具箱搭建SICS ICE 数据中心模块1 的模型，对比了模块1 中所有SEE 冷却器在两种策略下的能耗发现，当前策略消耗2.5 kWh，而新策略消耗0.785 7 kWh，节省1.717 7 kWh，12 h 节能率为68.6%；Zapater 等［36］分析了计算能力、温度、泄漏和冷却功率之间的关系，并提出了一种冷却管理策略，通过设置运行期间的最佳风扇速度来最小化服务器能耗。整个集群在泄漏和风扇功率方面的节能将随着环境温度的升高而增加，在32 ℃时最大可节省10.3%。

服务器功耗模型可在操作期间指导服务器电源开／关、工作负载分配和虚拟化。服务器的“空闲”在实践中意味：

（1）服务器必须对新工作的请求立即做出反应；

（2）服务器允许短暂暂停；

（3）服务器有足够的时间唤醒［37］。

虚拟化技术允许共享服务器、存储和网络设备，以提高资源利用率［38］；在虚拟化中，应用程序能很容易地从一个物理服务器迁移到另一个。管理人员将工作负载分配到指定服务器，其他服务器通过任务需求来关闭电源或进入睡眠模式。 Noguchi 和Nishi［39］比较了服务器容量和传入请求总和容量，以确定是否启动服务器；Li 等［40］为了改进传统的性能-能源模型，最大限度地减少云数据中心的能源消耗，提出了一种节能和QoS 感知（EEQoS）的虚拟资源整合模型，并将EEQoS 模型与粒子群优化算法相结合，通过设置每个QoS 值功耗为目标函数来整合数据中心的虚拟资源，与传统模型相比，该模型平均减少了27.2%响应时间、31.4%成本和40.5%SLA 违例率，并平均提高了13.5%吞吐量和增加了不到3.8%能耗；Arshad［41］等提出一个基于虚拟机功耗模型整合概念的能效启发式新算法，使用虚拟机整合来最小化云中高能耗，在虚拟机迁移、迁移导致的性能下降、服务水平协议违规和执行时间方面与最先进的技术相比有了显著改进。对数据中心（服务器）的电源／能量管理进行了一些尝试，但随着节能要求的不断提高，基于功耗模型的精细化控制／管理技术成为未来研究的重要方向。

2.5.2 冷却系统负荷计算

制冷供需匹配是制冷系统节能的关键。在制冷系统设计中，制冷量取决于数据中心机房的制冷需求，并通过各种参数来计算总冷却负荷，其中IT 设备散热是主要部分，设计人员经常将IT 设备的铭牌功率作为其散热量。根据SPEC 公司提供的数据，服务器平均充分利用功率仅占铭牌功率的50%，且服务器并非始终以峰值功率运行，数据中心的热负荷被显著高估，冷却设备被设计为超大尺寸，电力系统冗余过多。 Cheung 等［42］使用简单回归模型对数据中心功耗建模，并利用2007 年至2017 年间各个制造商提交给SPECpower2008 数据库的491 个数据点，通过线性回归估计服务器的最大和空闲功耗，同时将模型与一个常用的建筑模拟程序进行联合模拟，以亚热带地区一个典型的地下室设有数据中心的大型办公室为对象进行能耗模拟，结果表明该模型能够合理估算服务器、网络和配电负荷，显示了数据中心的运行状态对其运行效率的影响，包括冷却系统的效率。

此外，服务器功耗模型还用于冷却控制或气流管理，以实现节能。 Turk 等［43］提出了冷却控制策略，通过设置每个机架的入口温度和气流，以基于动态模型以及组合冷却和工作负载管理来最小化数据中心的功率，该策略在冬季节电1.2%，夏季节电14.4%；Noguchi 和Nishi［44］提出一种主动控制器快门，防止当服务器温度低于40 ℃时冷空气通过空闲或关闭的服务器泄漏；Ham［11］等应用模型，考虑热特性以模拟每小时的冷却能耗，发现当送风温度高于19℃时，风扇能耗增加，冷却能耗也增加；Athavale［45］等开发了基于遗传算法的静态和动态框架，用于优化数据中心消耗的冷却能量，在IT 负载分布粒度的3 个级别（机房、机架和行）中，机架级分布消耗的冷却功率最小，7.5 h 的动态优化测试案例表明，冷却能耗降低了21%～50%。

2.5.3 讨论

功耗模型的应用中，准确和简单是主要要求，但两者不兼容，对功耗模型的应用有负面作用。若模型要求准确性，则需要尽可能多的考虑影响服务器功耗的因素，但只考虑服务器主要部件（如CPU 和内存）的功耗，模型的准确度较差。例如，使用服务器的简单回归功耗模型来获得IT 负载的功耗，用于进一步评估数据中心内部电源调节系统（IPCS）中的可靠性。 Zhang 等［23］使用服务器功耗的复杂高阶回归模型，通过在云界面中调度任务来提高服务器的电源效率，除了简单之外，还专注于模型的准确性，在使用现有模型预测或评估服务器或数据中心的功耗／能耗时，考察适用性并验证准确性。

3 结束语

服务器功耗模型在数据中心热管理和能源管理中起着至关重要的作用。本文回顾了服务器的分类和负载类型，并对现有的服务器功耗模型进行了总结和分类。此外，作者研究了这些模型的应用场景，经分析得出以下结论：

（1）数据中心常用的是机架式服务器，不同的服务器组件配置和工作负载意味着工作重心的差异，会导致不一样的能耗变化。现有模型的应用和新模型的开发，需要考虑这些变化和服务器的工作负载。

（2）现有的功耗模型可分为相加模型、动态模型和其他模型；而动态模型可进一步分为回归模型、幂函数模型和多项式模型。 CPU 是功耗模型中考虑最多的变量，其次是服务器、温度、内存和工作负载。但这些模型都是针对固定环境下的服务器，大部分都适用于单核系统。考虑到简单性、便利性和准确性，无论是在服务器、系统还是房间级别，线性回归和多项式模型都是最佳选择，误差分别小于7%和4%。此外，建立模型需考虑节能技术和进气温度，并应使用分段函数。

（3）建立功耗模型是为了估计能源管理的潜力，预测服务器或数据中心的功耗，平衡能源消耗和可靠性。这些模型已经在IT 领域和制冷领域的一些方案中得到应用，但还需要更多的努力。服务器功耗模型可进行准确的冷却负荷计算并避免过多的冗余，但基于模型的能源和热感知管理可实现最佳的整体节能效果。