数据中心制冷系统中断期间温升控制策略
2016-09-03王磊林密天津市人民检察院技术处施耐德电气数据中心科研中心
王磊,林密天津市人民检察院技术处;施耐德电气数据中心科研中心
数据中心制冷系统中断期间温升控制策略
王磊1,林密2
1天津市人民检察院技术处;2施耐德电气数据中心科研中心
在数据中心制冷系统中断后,数据中心架构及其IT负载对IT设备能够获得的持续运行时间有重大影响。数据中心的一些技术趋势,比如:提高功率密度,提高送风温度,选用“合理配置”的制冷设备,以及采用气流遏制系统,在实际上,都可能会加快数据中心的温升速率。然而,为关键制冷设备配置后备电源,选择具有快速重启功能的设备,保持充足的储备制冷容量,以及部署蓄冷装置都可以有效地应对突发的断电情况。该研究内容包括探讨影响瞬时温升的主要因素,并提供切实可行的策略来确保断电期间的制冷问题。
数据中心;制冷系统中断;温升;控制策略
引言
IT设备通常都以不间断电源(UPS)作为后备供电,UPS将在断电后为IT设备提供电力直至发电机启动。但是,制冷系统组件如CRAC(机房精密空调)或CRAH(机房空气处理装置)的风机、冷冻水泵和冷水机(以及连带的冷却塔或干式冷却器)通常都不接UPS,但通常都接备用发电机。其结果就是,数据中心的送风温度可能在停电后迅速升高。
虽然数据中心制冷系统的设计备受重视,但大多数时候所关注的重点是提高它在正常供电状态下运行的效率和可靠性,而对紧急情况下的运行状态缺乏关注。导致这种情况的部分原因是数据中心设计人员和管理人员缺乏简单的工具来帮助他们预测在这些紧急情况下的制冷性能情况。然而,一个最近开发出来的建模工具可以轻松估算数据中心在制冷系统中断后的温升情况。所预测的数据中心可以采用各种不同的设施架构、后备电源的配置,以及冷冻水(蓄冷)的储备。
同时,由于数据中心专业人员按照业内的技术趋势选用“合理配置”的制冷容量、提高机柜的功率密度、采用气流遏制系统以及提高送风温度,使为断电情况做好应急准备变得更加重要。在ASHRAE最近修订的热指南中,其允许的数据中心送风温度比以前的允许值要高,这也是造成送风温度提高趋势的一部分原因。如果不设计其它的补偿方式,所有这些业内趋势都会导致断电后安全、可靠运行时间的缩短。
1 对紧急制冷性能造成负面影响的技术趋势
一些用于提高数据中心正常运行条件下性能、效率和可管理性的趋势和最佳实践可能对断电后的系统运行产生负面影响。
1.1合理配置制冷容量
合理配置(比如,使制冷容量与实际IT负载一致)的系统总体制冷量可以带来多种好处,包括提高能效和降低投资成本。然而,当面对断电后出现不可接受的高温状况时,过量的制冷容量是必要的。事实上,如果总的制冷容量恰好与热负荷完全一致,理论上可以说设施是不可能被冷却到其原始状态的,因为在断电后,热量总是会高于IT负载。就如同多台空调比单台空调能更快地为卧室制冷一样,额外的CRAH或CRAC制冷容量可以帮助数据中心更快地恢复到断电前的状态。需要注意的是,无论是哪种架构的数据中心,冷量分配(气流分配)必须合理,即CRAH或CRAC的冷量可被实际利用(通过使用盲板,毛刷,冷/热通道等)。
1.2提高功率密度和实施虚拟化
紧凑的IT设备设计使数据中心机柜功率密度不断攀升。刀片服务器的出现以及某些类型的通信设备可以使机柜功率密度高达40kW/机柜。
另一项技术趋势—“虚拟化”,也极大提高了我们利用和扩展计算功率的能力。比如,相比传统非虚拟化的服务器,虚拟化的服务器可以使CPU利用率从5%-10%提高到50%,甚至更高。
提高机柜功率密度和实施虚拟化都有可能在固定空间内释放更多的热量,这会导致数据中心操作人员在断电后IT进风温度达到临界值前可以利用的响应时间减少。
1.3提高IT设备进风温度和冷冻水设定点温度
ASHRAE技术委员会9.9(关键任务设施,技术空间和电子设备)制定并放宽了推荐用于数据中心的热运行范围。提高IT设备进风温度和冷冻水设定点的温度可以让制冷系统在节能冷却模式下额外运行更多的小时数。
根据估算,冷水机设定点温度每升高1°C,就可以节省大约3.5%的冷水机功耗。换言之,设定点温度降到固定环境温度以下越多,冷却冷冻水所需要的成本将大幅增加。(这直接适用于冷冻水系统,这种趋势也同样适用于风冷式DX系统。)这一事实迫使数据中心经理让数据中心在正常工作条件下尽可能保持较高的温度。结果就是,较高的IT设备进风温度导致数据中心操作人员在断电后可以利用的响应时间缩短。
1.4为机柜和机柜行部署气流遏制系统
气流遏制系统可以提高传统数据中心制冷系统的可预见性和效率,比如配置高架地板或硬地板的周边制冷系统(例如:洪灌送风)。然而,气流遏制系统可以阻止气流与数据中心其它区域气流的混合,这会影响断电期间的温升。不同类型的气流遏制系统对温升的影响各有不同,取决于制冷设备与后备电源的连接方式。
对于采用行级冷冻水冷却器的热通道气流遏制系统,假设冷却器没有接UPS并且气流遏制系统的门在制冷中断时保持关闭,那么会有大量的热风从各种位置泄漏再次循环到IT设备进风口,这将导致IT设备的进风温度迅速上升。如果冷却器接了UPS,但是冷冻水水泵没有接UPS,那么冷却器只会把风输送到冷通道,而不会提供主动制冷。这时,只有冷却器的热容量(冷却盘管,盘管内的冷冻水等)可以被利用。如果冷却器和冷却水泵都接了UPS,那么温升情况将视冷水机组的配置而定(比如:蓄冷罐的配置、冷水机的启动时间等)。
对于采用行级冷冻水冷却器的冷通道气流遏制系统,如果冷却器没有接UPS,那么气流遏制系统里的负压将会从机柜和气流遏制系统泄漏位置吸入热风,从而导致IT设备进风温度升高。如果行级冷却器接了UPS,那么温升情况将取决于冷水机组的配置(比如:蓄冷罐的配置、冷水机的启动时间等)。
对于机柜气流遏制系统,情况基本上与配置行级冷却器的冷通道和热通道气流遏制系统类似。
然而,对于采用周边部署的冷冻水冷却器及吊顶的热通道气流遏制系统,或者采用周边部署的冷冻水冷却器及穿孔地板的冷通道气流遏制系统,无论空气冷却器和冷冻水泵是否接UPS,通道气流遏制系统在制冷系统中断后对温升都有缓解作用,这是因为通道遏制系统可以通过在开放的空间区域(冷通道)或者通过高架地板通道内的水泥板,冷冻水管等提供冷热容。这是由于冷热气流的分离阻止了冷热气流的混合,至少在制冷系统中断初期是这样的。
2 空气完全混合模型建立
空气完全混合模型是将数据中心理想化成一个气流完美混合的单一CRAH或CRAC以及单一的IT负载。因此,在任何给定的时间,它都拥有唯一均匀的数据中心温度,唯一通道内温度以及唯一冷却器的送风温度等。该模型从整体来看是严格正确的—对于某个特殊的位置并不精确-但足以满足本研究对IT设备进风温度的研究。简单的空气完全混合模型的设计参数包括冷冻水的蓄冷量,CRAH风机、冷却水泵和制冷设备与UPS和发电机的连接情况。该模型的构建速度和简易性使我们可以非常容易并且迅速的检讨各种假定场景下的结果。因为我们现在的主要目的是了解一般情况下断电时与温升相关的机理以及如何制定相应的设计策略(而不是针对某一特定的数据中心),空气完全混合模型正是我们的首选工具。参考文献[9]对该模型建模进行了详细的论述。
表1 假想数据中心参数的假设
图1 数据中心断电后一系列空气温度的变化
3 数据中心断电后的温升分析
表1为一假想数据中心参数的假设,利用该表中参数,采用空气完全混合模型进行数据中心制冷系统中断后温升的研究。图1为数据中心断电后一系列温升的变化。从图中可以看出,在断电后,室温迅速上升,而地板通道内的空气温度保持恒定,这是因为此时CRAH机组处于“关闭”状态。1分钟后发电机启动,向CRAH风机和冷冻水水泵供电。这时室温先下降然后再次升高-送风温度和地板通道内的温度也与室温一起上升—这是因为管道系统里冷冻水逐渐变热。11分钟后,冷水机组开始冷却冷冻水,并且所有温度开始朝着正常值的方向进行恢复。在这个示例中,室温在断电后在稍微超过允许值的状态维持了约3分钟,然后一直保持在不可接受的高温区域直到17分钟后。
4 温升控制的策略
尽管最近数据中心的技术发展趋势带来了挑战,但是我们还是有可能通过改善设施制冷系统的设计来实现应急情况下较长的运行时间。根据设施所承担的任务,在长时间断电的情况下,更为实际的做法是在现有架构的基础上尽量延长运行时间,同时,做好最终关闭IT设备电源的准备。
4.1保持充足的储备制冷容量
正如我们前文所讨论的,“合理配置”制冷容量的行业技术趋势在正常运行条件下是可行的,但是即使只稍微比负载大一点的制冷容量都可以大幅延长可以用来冷却过热设施的时间。提高制冷系统效率的关键在于随着IT负载的增加应相应扩大制冷机组(比如:冷水机)和制冷分配装置(比如:CRAH)。这样既能提高数据中心的效率,又能保持充足的储备制冷容量。比如,一个设计最大IT负载为1MW的数据中心,在最开始的时候可能只有100kW的IT负载。当冷冻水系统管网按照数据中心最大负载设计规划时,安装的冷水机组可能仅支持250kW总热负荷,或者大约140kW的IT负载。实际的“过度规划”视冗余要求和组件效率而定。
4.2为制冷设备配置后备电源
从图1中可以看到,第一个温度峰值的发生是因为CRAH的风机和冷冻水水泵不能正常运行,并一直持续到发电机在断电一分钟后启动为负载供电时。这次温升的最大驱动因素是IT功耗和风量的比例。在制冷系统发生故障后,在设施热容量(比如:墙体、通道、服务器等)能够有效吸收热量前,所有的IT功耗都将用来加热空气。温升速率很容易立即达到5°C/分钟,根据功率密度和房内布局的不同,甚至可能更高。除非CRAH风机和冷冻水水泵接了UPS和/或数据中心的负载非常小,否则,这次温升几乎都会超过磁带供应商所规定的温度梯度变化值或者ASHRAE热指南中的相关要求。
在低负载设施中(比如:20%负载),在发电机启动前,仅将CRAH或CRAC连接到UPS,可以帮助维持适当的制冷气流,防止IT设备热排风直接循环回到IT设备进风口,并且可以帮助将热量转移到设施内具有预冷热容量的物体内。除此之外,如果再将冷冻水水泵连接到UPS,可以在发电机启动前更有效地减缓初次温升的峰值,特别是采用冷冻水式CRAH机组的系统。这时,仅靠冷冻水和管道系统的热容量就能较大程度上延长断电后可用的运行时间。如果是未配置自然冷却盘管的乙二醇DX系统,那么将冷却水泵连接到UPS一般不会发挥作用,因为需要使用发电机电源来重启CRAC。
如果制冷机房离数据中心较远,或者冷冻水管网使用双环路系统(用于冗余配置和实现高可用性),管道内会储存大量的冷冻水。如果数据中心位于大型多用途建筑内,数据中心很可能与建筑共用冷水机组,这也可以提供庞大的制冷容量。值得注意的是,数据中心设计者和运营者应当与设施管理人员进行沟通,以确保在紧急情况下数据中心具有最优先权来使用储存的冷冻水。
对于以上两种情况,应视风机、冷冻水水泵和后备情况,它们可能需要配置独立的UPS以避免干扰IT设备。如果风机、冷冻水水泵和IT设备使用同一个UPS系统,则应为机械负载配置隔离变压器。
4.3使用具有快速重启功能的设备
冷水机控制系统一般能够撑过时间短于四分之一周期的断电(50Hz系统为5毫秒,60Hz系统为4毫秒)。如果断电时间更长,那么在电源恢复时(市电或发电机电源)则需要重启。重启时间一般为10-15分钟。随着冷水机组技术的进步,一些冷水机组的重启时间可以降低到4-5分钟,缩短了60%。冷水机快速重启功能不仅对初期的断电至关重要,当ATS(自动转换开关)将电源从发电机切回市电过程中瞬时掉电(100毫秒至1秒)时也非常关键。
让我们再回到图1,第二个温度峰值的发生是因为冷水机需要10分钟的时间进行重启来承担制冷负载。但是,如果重启时间为5分钟,数据中心的温度将只会稍微高出可接受的限值32°C而不是超过41°C。
高成本的带快速启动功能的冷水机可能不足以在高密度数据中心里防止不可接受温升的出现。然而,在低密度数据中心,该机组在所有情况下都是非常有用的,它可能在断电期间将温度完全控制在可接受的限值内。此外,它还可以实现在正常运行条件下采用更高的冷冻水和IT温度,同时降低在紧急情况下温度超过可接受限值的风险。通过分析冷水机机组的类型和紧急情况操作功能的重要性,我们需要在投资成本和运营成本之间找到一个平衡点。
4.4使用蓄冷装置度过冷水机重启这段时间
对于冷冻水系统来说,可以利用附加的冷冻水储备制冷直到冷水机重新启动。如果冷冻水系统的冷冻水水泵和CRAH风机接了UPS,以及蓄冷罐选择的足够大,可以将温度在紧急情况下控制在偏离正常运行状况很小的范围内。
用于制冷系统的低压蓄冷装置比将冷水机接到UPS的初始成本低得多,甚至可以采用塑料材质的蓄冷装置。蓄冷装置的体积和类型取决于多种因素,包括空间的限制和承重的能力(如果安装在屋顶或抬高的地板上)。尤其建议用于高密度的数据中心,因为即使非常短暂的制冷中断都会造成很大麻烦。
蓄冷装置应该考虑内部的温度分层。对于直径较大的蓄冷罐,混合层的高度可以通过利用布水器来控制热回水进入罐内的速度来降低。此外,还应该设置旁通管以便可以在冷水机重启后将蓄冷罐旁通。这样做可以立即将最冷的冷冻水输送到数据中心而不是用于重新冷却蓄冷罐内的水。
5 温升控制策略效果分析
接下来将讨论利用“空气完全混合”模型来考虑在市电中断后各种缓解温升策略的相对优缺点。在图2中,“基准线”表示的是与图1相同的房间空气曲线,即假定CRAH风机和冷冻水水泵只接发电机。如果将CRAH风机连接到UPS,在发电机启动前的初始阶段会有一定的温升缓解,因为地板通道内预冷的冷热容可以提供额外的热容量。(需要注意的是空气完全混合模型可能会低估将CRAH或CRAC连接到UPS所起到的作用,因为它没有考虑恰当的气流管理所提供的额外优势,即避免热风容易地再循环到机柜的进风口。)
如果将CRAH风机和冷冻水水泵都连接到UPS,则可以消除初始的温度峰值,因为管道系统的热容量可以立即发挥作用。如果冷水机的重启时间从10分钟(从系统中断算起为11分钟)缩短到5分钟(从系统中断算起为6分钟),可以更快的恢复到可接受的温度范围,最高室温也将从41°C降至37°C。只单独增加蓄冷装置不会对发电机启动前的初始阶段产生任何作用,因为CRAH风机和冷冻水水泵都没有连接到UPS上。但是,一旦发电机启动,冷冻水的储备可以有效地将数据中心的温度控制在接近可接受限值左右直到(标准的)冷水机能够重启。最后,如果采用以上所有策略,只会在(具有快速启动功能)冷水机重启之前出现少许的温度升高,但不会超过可接受的限值。
图2 数据中心断电时执行各种温升减缓策略后的室温变化状况
表2为以上各种四种策略的比较。使用该表,可以方便快速的为数据中心选择最佳的温升控制策略。
表2 控制温升策略的比较
6 结论
对于冷冻水CRAH系统,最好的选择是首先确保CRAH风机和冷冻水水泵连接到发电机(如图2中的“基准线”所示),然后增加蓄冷装置来控制冷水机重启期间的温升。对于高密度机房(初始温升峰值较大),则可能有必要将CRAH风机和冷冻水水泵连接到UPS以避免在发电机启动前出现不可接受的高温。对于新建数据中心,采用带快速启动功能的冷水机组可能是上策,但对于改善已有数据中心在紧急情况下的响应,其他策略更为经济。
对于DX CRAC系统,第一步也是将所有组件连接到发电机。对于风冷式,乙二醇冷却式和水冷式机组,将CRAC风机连接到UPS,在发电机启动前的初始阶段发挥作用也有可能是可行的。(需要注意的是,对于部分CRAC机组,将风机连接到UPS反而可能会在电源恢复时影响DX系统的启动时间)。对于不配置自然冷却盘管的乙二醇冷却式或水冷式DX机组,将水泵连接到UPS不会带来额外的好处,因为冷却液直到CRAC重启后才能被使用。但对于配置了单独的自然冷却盘管的乙二醇冷却式或水冷式DX机组,将水泵和风机连接到UPS则可以带来好处。当然,也可以利用UPS为整个DX CRAC供电;但需要加大机组型号,而且价格昂贵,并导致正常运行条件下的效率低下。
对于带有“多重制冷”功能的DX CRAC系统,通过增加冷冻水盘管来提供制冷量的冗余。制冷量可以来自内部压缩机(通过DX盘管)和外部冷水机(通过冷冻水盘管)。对于这样的系统,将CRAC风机和冷冻水水泵连接到UPS更为有效。因为CRAC能够比冷水机更快的重启,蓄冷也可以发挥作用。
[1]K.G.Brill.Moore’s law economic meltdown.Forbes.com; 2008.
[2]J.Niemann,K.Brown,V.Avelar.第135号白皮书,热通道与冷通道气流遏制对数据中心的影响.施耐德电气数据中心科研中心,2011.
[3]J.Niemann,J.Bean,V.Avelar.第132号白皮书,数据中心制冷系统的节能冷却模式.施耐德电气数据中心科研中心,2011.
[4]J.G.Koomey.Growth in data center electricity use 2005–2010.Oakland,CA:Analytics Press;2011.
[5]R.Schmidt,R.Chu,M.Ellsworth,M.Iyengar,D.Porter,V. Kamath,B.Lehman.Maintaining datacom rack inlet temperatures with water cooled heat exchangers,The Pacific Rim/ASME Interna⁃tional Electronics Packaging Technical Conference and Exhibition, 2005,IPACK2005e73468.
[6]K.C.Karli,S.V.Patankar.Airflow distribution through perfo⁃rated tiles in raised-floor data centers.Building and Environment 41 (2006)734-744.
[7]R.F.Sullivan,K.G.Brill.Cooling Techniques that meet“24 by Forever”demands of your data center.The Uptime Institute,Inc. 2005-2006.
[8]ASHRAE,2005,Design Considerations for Datacom Equip⁃ment Centers.Atlanta:American Society of Heating,Refrigerating and Air-Conditioning Engineers,Inc.
[9]M.Lin,S.S.Shao,X.H.Zhang.Strategies for data center tem⁃perature control during a cooling system outage.Energy and Buildings 73(2014)146-152.