APP下载

中小型数据中心PUE值与可用性平衡方法的研究

2021-02-27田辉田峻超穆钊

网络安全技术与应用 2021年2期
关键词:可用性供配电数据中心

◆田辉 田峻超 穆钊

中小型数据中心PUE值与可用性平衡方法的研究

◆田辉 田峻超 穆钊

(中国石油集团东方地球物理勘探有限责任公司信息技术中心 北京 100007)

数据中心的PUE值与可用性是一对矛盾体,由于计算复杂、难以量化等原因,其平衡方法相关的研究工作一直未能深入展开,但该项研究对数据中心运行的稳定性和节能方面都具有重要的意义。本文以多个企业中小型数据中心的测试数据为基础,深入探讨了PUE值与可用性之间的关系,以及维持PUE值与可用性平衡的主要计算方法,并在中小型数据中心进行了实际验证,验证了方法的有效性,为该项研究的继续展开提供了一定的依据。

数据中心;节能;PUE;可用性

1 前言

随着我国信息化进程的高速推进,各种不同级别的数据中心被陆续建立起来并投入到使用中,特别是一些企事业单位的中小型数据中心,其数量占据到数据中心总量的70%-80%,能耗体量巨大。而这些中小型数据中心往往受到成本或其他条件约束,并非完全按照国家规定的标准来建设,因此中小型数据中心在能源效率和可用性维持上并不尽如人意。面对这样的问题,能否从数据中心PUE值与可用性相互关系上入手来寻找某种节能方法,即:保持一定可用性的前提下,尽可能降低数据中心PUE值,从而达到中小型数据中心节能的目标。

2 数据中心PUE值与可用性的关系

2.1 数据中心PUE

数据中心PUE(Power Usage Effectiveness)是目前衡量数据中心或机房能源效率的通用指标,其计算公式为:

在数据中心能耗结构中,制冷设备能耗是除IT设备能耗以外最大的能耗,相对于供配电系统与辅助系统的运行能耗来说,制冷设备运行能耗变化范围最大。一些较为著名的绿色数据中心PUE值可达到1.2左右,其制冷设备、供配电系统以及辅助系统的能耗合计只占数据中心的总能耗的20%左右,但此类绿色数据中心在制冷设备、供配电系统、辅助系统、场地建设、动环控制系统的成本投入远高于普通数据中心,对为数众多的中心型数据中心和机房来说,根本无法达到,因此许多机房节能方法的研究重点集中在如何降低制冷设备能耗的方面,如:采用精密制冷设备、改善气流组织、机房保温措施等。

2.2 数据中心可用性

数据中心的可用性构成比较复杂,由于数据中心是多种不同系统的综合体,其可用性是:网络可用性、IT设备可用性、制冷设备可用性、供配电以及其他辅助设备可用性共同组成,内部既有冗余子系统的并行,也有不同子系统的串行。就基础设备可用性而言可通过平均无故障时间MTBF(Mean Time Between Failures)与平均修复时间MTTR(Mean Time to Repair)等指标计算完成,具体公式为:

从公式可以看出:数据中心基础设备可用性的提高方法在于提高平均无故障时间MTBF或降低平均修复时间MTTR,降低MTTR与人员、技术、管理等因素的相关度较高,而延长MTBF与设备自身的可靠性和运行环境的相关度较高。

2.3 PUE值与可用性相互关系

通过研究发现,在一定条件下数据中心PUE值与可用性存在一定的相关性,数据中心的服务器、网络、UPS、监控等基础设备的可用性受到温湿度环境因素影响较大,而制冷设备的工作状态又直接影响了数据中心的PUE值,当维持较低的环境温度时,制冷设备能耗的提升则导致PUE值的升高,反之亦然。据统计:环境温度每高于器件工作温度10摄氏度,设备元器件寿命就会缩短30%-50%,可靠性MTBF下降25%左右。已知一个线路输出30kW企业级小型数据中心,在其能耗结构中IT设备耗电占44%、制冷设备占38%、供配电设备占15%、其他辅助设备占3%,PUE值为2.27,可用性为99.99%,工作全年最多允许中断(1-99.99%)*365天*24小时=0.876小时。当制冷设备温度上调10摄氏度时,该数据中心基础设备可靠性MTBF下降25%,假定平均修复时间MTTR取最大允许停机时长0.876小时,则根据公式2可推算出:数据中心当前可用性下降为99.96%,温度上调后,制冷设备功耗降低为原来的50%-60%,根据公式1可计算出该数据中心PUE值为1.84,比原可用性状态下的PUE值下降了18.9%。通过对多个中小型数据中心的PUE值与可用性数据分析发现:数据中心基础设备的可用性与PUE值在一定范围内呈现正比关系,每个数据中心可用性与PUE对应关系并非完全一样,但在关系曲线的某一段取值范围内呈现局部线性关系,正好可以利用这种线性关系,通过调整数据中心基础设备的可用性来降低数据中心的PUE值,从而达到节能的目标。如图1所示:在A点与C点之间的区域内,可用性与PUE值关系曲线为局部线性递增关系,A点的可用性为0.9,PUE为1.4,C点的可用性为0.999,PUE为2.2,对中小型数据中心来说可用性分布在0.9-0.999之间较为合理,PUE值可在1.4-2.2范围之内调节,因此A点与C点之间的区域为平衡区域。平衡区域的实际物理意义在于,数据中心基础设备的可用性过低或过高都是不可取的,特别对于中小型数据中心来说,维持0.999以上的可用性极大地增加了数据中心制冷设备能耗,而单纯为追求制冷设备极低功耗,把可用性下降到0.9以下,将引发数据中心严重的热岛效应,可能造成大面积的设备损坏。依照国际数据中心等级标准所规定的Tier 1的可用性为99.67%,恰好位于A点与C点PUE的均值点B附近,因此,B点为能耗与可用性平衡的最优位置。

图1 中小型数据中心可用性与PUE值关系曲线

3 维持PUE值与可用性平衡的方法

为维持数据中心PUE值与可用性的平衡关系,需要分别计算当前PUE与可用性的具体数值,数据中心PUE值可以通过监控系统的数值直接计算,而可用性的计算相对来说较为复杂,公式2所给出的只是针对单个系统或单一设备的计算公式,整体计算需要考虑到不同子系统之间的耦合关系,通常使用RBD(Reliability Block Diagram)模型和Markov模型进行计算,这里不做赘述,本文的重点是论证可用性与能耗之间的关系,为简化可用性的计算方法,可采用如下方法:(1)把中小型数据中心看作一个单一的基础设备来计算其可用性;(2)采用黑盒测试的方法,采集环境温湿度、制冷设备能耗等作为输入数据,采集数据中心基础设备平均无故障运行时间MTBF和平均修复时间MTTR作为输出数据,模拟可靠性与制冷设备能耗、温湿度关系曲线;(3)确定最佳平衡点,即可靠性在0.99附近对应的环境温度与制冷设备能耗的数值,即是制冷设备所调控的目标。需要说明的是:可靠性与制冷设备能耗之间并完全非线性关系,可通过建立二次或三次多项式进行拟合,并采用最小二乘法求解最优参数值:

Y=AX2+BX+C

这里Y为基础设备可用性,X为制冷设备即时能耗,A、B、C为求解参数。除了多项式的拟合方法外,其他基于机器学习的方法也可以使用,如神经网络、遗传算法等模型方法,如果数据中心有完整的日志数据与测试数据,则对数据模型的训练更有帮助。

4 结语

本文对国内某企业的中小型数据中心进行长期测试实验和日志数据的收集与整理,并利用文中所介绍的方法建立了基础设备可靠性与制冷设备功耗的关系曲线,进而求解出PUE与可用性的平衡点,并以此来控制制冷设备的工作状态,使得数据中心在保持0.99可用性的前提下,PUE值得到明显改善。当然每个数据中心的情况也不尽相同,并非都存在相同的关系曲线与平衡点,文中的方法是否具有普适性,还需进一步的研究与探讨。

[1]黄赟. 数据中心合规设计中PUE值范围选择与分析[J]. 电信技术,2016(12):56-59.

[2]戴新强. 数据中心空调系统能耗与节能应用研究[J].中国设备工程,2020(2):12-13.

[3]沈海华.基于马尔可夫过程模型的服务器集群数据可用性分析[J].小型微型计算机系统,2006,27(7):1276-1278.

[4]黄守鹏.国内外高端服务器可用性测试方法研究[J].网络安全与技术应用,2011(3):54-57.

[5]刘元展. 数据中心供配电系统可用性设计[D]. 哈尔滨工业大学,2015,6.

[6]吴亚奇. 数据中心机房节能方法研究[D]. 苏州科技大学,2015,6.

猜你喜欢

可用性供配电数据中心
酒泉云计算大数据中心
高层建筑电气工程供配电系统设计
在高层建筑电气工程中供配电系统的设计探讨
浅析数据中心空调节能发展趋势
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
高速公路隧道照明及供配电节能思考
关于建立“格萨尔文献数据中心”的初步构想
从可用性角度分析精密空调的配电形式
探究供配电变压器的推广运行
医疗器械的可用性工程浅析