为下一代数据中心设计自适应冷却系统
2009-04-27刘琦
刘 琦
在企业级数据中心内,设计师面临的挑战是,在他们并不确定未来3~5年的技术发展趋势之时,就要搭建起生命周期为20年的基础设施。在关键的制冷环节,自适应冷却方法已成为他们关注的焦点。
高密度计算与存储设备、对业务连续性的深刻认识、语音与数据融合、灾备技术的最新进展等,促使传统数据中心变革的关键因素有很多。在企业级数据中心,设计师面临的挑战是,在并不确定未来3~5年科技发展趋势时,就要搭建起生命周期为20年的基础设施。此外,在服务器平均每3~4年的更换周期中,如何处理数据中心内热负荷多样性的问题,有效地对不同的环境进行冷却,也是对数据中心建设的重大挑战,同时,这种挑战还伴随着急剧增加的能源成本。
高密度困境
从某种程度上说,传统的冷却方法是唯一可行而且高效的方法,但是这种方法缺乏可扩展性、适应性和精确性,而这些都是对高密度刀片服务器机架进行有效冷却所必备的特性。由此我们可以看到,传统的冷却方法已经不能完全满足当前的要求了,更不用说那些未来的需求了。
数据中心经理正在努力调试并配备整套设施,以优化现有的冷却方式,并为当前系统补充一套新的基于区域和位置的冷却系统。这种自适应、混合的冷却方式,为当前系统的需求提供了一套低成本且节能的解决方案,也增强了系统的灵活性。
对于将来及现有设施,自适应冷却的原理在热密度的不均衡以及难预测等问题上提供了良好的解决方案,在以最低成本运行的同时,能最大化系统的灵活性及可扩展性,保持并提高系统整体的可用性。
新的高性能设备,比如双核服务器和高速通信设备,将提升机架密度,最终功率将远超30kW。服务器对电能的需求超出预期的情况不断出现,冷却策略必须以快于预期的速度进行调整,从而避免宕机和设备故障。随着降低数据中心运营成本的压力持续增加,许多组织试图在单位空间内尽可能地增加设备密度。而由此产生的结果就是,单位空间的热量越来越高,目前,许多数据中心已经需要超过100W/平方英尺的功率。
新一代的刀片服务器的功耗和热量水平更高。配置4台IBM BladeCenter 的机架,功耗为5.8kW。这样,数据中心内7平方英尺的空间就增加了近24kW的负荷。这与2000年平均每台机架消耗1kW电力的情形形成了鲜明对比。通信设备的情形也是一致的,如思科CRS-1路由器的热负荷为每机架15~16.6kW。
使得整个挑战更为复杂化的因素还包括:在服务器平均3~4年的更换周期中,整个数据中心内的不同机架各自的散热量是不同的。如果使用对整个房间进行冷却从而处理热点的方法,就要估计一个传统精确空调系统的规模,这意味着会过高估算整个系统的规模,从而导致能源浪费,而且热区还可能潜在可用性威胁。如果机架中的热量没有被有效消除,将大大降低设备的性能、可用性及寿命。
在越来越多地将最新的服务器技术整合到数据中心的同时,严重问题也暴露出来。目前通过活动地板的冷气平均冷却功率不足以冷却整个环境,可以有效传递到机架顶端设备的冷气量也不足。尤其是在机架顶端1/3的部分。当冷气从活动地板进入房间后,它会完全被机架底部的高密度设备消耗,因此位于顶端的机架就得不到它所需的冷气。更糟糕的是,高密度设备产生的热风仍会被循环至机架顶端。Uptime Institute研究表明, 位于机架顶端1/3的设备的宕机概率是同一机架上其余设备的两倍。该组织还估计,在70℃的基础上每增加18℃,设备的长期可靠性就会下降50%。
验证有效的手段
设备热密度上升速度高出许多人预期,并且热负荷的形式在数据中心内日益多样化,数据中心的管理者不得不考虑新办法来解决数据中心的冷却问题,这也包括了几个已经尝试过的手段:
增加间距
一些数据中心管理者认为,使高密度机架之间有足够空间,就可以使热量在更大空间内散布。但这是以消耗宝贵的地面空间及能源为代价的。
数据中心经理正在部署功率密度超过20kW/每机架的机架。基于在不同地点的实地测量,活动地板中的实际平均气流可以驱散大约2kW的热量。通过增加设备间距的方式,利用现有的气流,需要增加16英尺的宽度才可以驱散20kW的热量。
通过扩大机架间距来解决冷却能力,大大地降低了数据中心可以容纳的机架数量。如果平均机架密度为10kW,使用传统的地冷系统以及扩大在热通道/冷通道中机架距离的方法,1万平方英尺的数据中心只能放置50台机架。Turner Construction最近分析了以适应4000kW的负荷的散热成本,并对数据中心中这三种不同配置的总费用(建造费用、安全费用、散热费用、电源费用及UPS费用 )做出了估算。
设计支持50W/SF的冷却系统,需要80000SF的空间来容纳4000kW的负荷,设施对于1kW负荷的花费约为6250美元。通过将散热能力增加到400W/SF,同样的负载可以压缩在1万平方英尺的空间中,其费用约为1kW负荷花费4750美元。显然,设施整体的费用大大地超过了为冷却高密度负荷而产生的溢价。选择设计新的冷却系统,在本例中可节省24%的费用开支。
添加抽气扇
另一种较常见的改进方法是为机架添加抽气扇。但是,抽气扇不会消除热量,而是将热气吹至四周。事实上,风扇增加了房间对电源的需求、热负荷及噪音等级。例如,如果每台功率为200W~500W的风扇被加在有500台机架的房间内,就需要增加1~3台30吨级的空调机组,来消除风扇所产生的热量。
以自适应应对不确定
面对爆炸性的散热需求,我们所要做的并非使用有限的、传统的方法来解决,而是要转换方法。数据中心内的热负荷变化迅速且不可预测,一种新的、自适应的冷却方法取代传统冷却措施成为最佳实践。
一份对100名数据中心用户的调查表明,数据中心经理最关注的三个因素分别是:热量及能耗密度(83%)、可用性(52%)和空间限制(45%)。解决这些问题,需要有一个方法,在最低运营成本下,提供所需的可靠性和灵活性。这意味着要有有效解决高密度区的方案,有灵活可轻松扩展的选择,有提高能源效率的技术,以及易于维护及支持的系统。通过优化冷却的基础结构,以及精心安排自适应冷却的两个部分——传统地冷及补充冷却,就可以满足以上要求。
在优化冷却基础结构的同时,还要对下列区域进行评价:
活动地板
今天的数据中心通常建立在18~36英寸的活动地板之上。活动地板越高,地板下面均匀分布的空气量越大,冷却系统的潜在能力也就越高。
但是,在现有的数据中心里,地板高度的增加也产生了矛盾,这也提高了热密度,会对数据中心正常运行带来影响。即使数据中心可以应付这种挑战,对于天花板的高度和地板的高度也应该有所限制。例如,地板高度为5英尺时,就要为它提供400W/SF的冷却能力,而这么高的冷却能力,并非所有数据中心都可以应付。
热通道/冷通道配置
现今大多数设备制造厂商的设计,都是从设备前端进气而从后端排气,这就可以通过调整机架的摆放位置,形成热通道和冷通道。如ASHRAE TC99(美国供热制冷空调工程师协会)在《数据处理环境的散热指导》中推荐的方法,以面对面的方式排列机架,这样从冷通道上升的冷却空气可以从机架前端——也就是冷通道的两侧被抽走,并且在机架后端——也就是热通道排出,此时要求冷通道铺设多孔地板,落地式冷却系统置于热通道的远端,不与机架平行。平行放置可能会导致热通道内的空气通过机架顶层,与冷气混合,最终降低机架顶部设备的制冷效果。
电缆管理
无论是在机架内还是在地板下,利用热通道/冷通道方法增强对电缆的管理都可以带来效率提升。电缆管理应该被限制在热通道活动地板下方的空间,使电缆不阻碍冷气进入机架通道。
同时,机架功能也得到了扩展——增强的电缆管理功能和促进高密度机架余热排出功能。在某些情况下,现有机架可以利用这些功能扩展进行重组。为了减少地板下电缆数量,可以将电缆置于机架之上或穿过机架,一些数据中心在机架层使用高级电源插座,在很大程度上也减少了进入机架的电缆数量。
汽封
因为设备密度不断增加, 可以使受控区域内的环境和普通建筑环境分开的屏障——水汽壁垒就显得越发重要了。没有良好的汽封,在炎热的夏季里,数据中心内部的湿度会增加,而在寒冷的冬天,内部湿度则会下降。一个有效的汽封,可以使加湿和除湿过程对能源的需求降到最低。
优化传统冷却方法
对于数据中心冷却,传统的地冷系统采用的利用地板下方的冷气向上传送的方式,会继续发挥重要作用。为了应对数据中心热负荷,传统的冷却系统需要100~150W/SF的冷却能耗,从而满足房间内全部加湿和过滤需求。随着落地式冷却系统逐渐优化,适应性冷却的下一个因素就是补充制冷,这会冲破传统冷却方式需要的150W/SF(3kW~5kW/机架)的能耗限制,达到30kW/机架以上。我们应当首先优化传统冷却法,从而确保它可以成为高效、灵活且可靠的自适应冷却的基础。
优化传统地冷
随着需求增加,落地式冷却系统正在被优化以更好地满足新的需要。将会提供高可靠性、高效率以及低成本的系统特征包括:
1.可变能力:制冷与空调工程师协会已确定,最大冷负荷出现的时间不到5%。因此,冷却系统应可以在不同负荷下运行。机组的压缩机应该可以逐渐降低功率,或实现完全可调控功能,以提供理想的散热需求,从而无需反复开关压缩机。除此之外,新的可变能力系统会提供更多精确的控制能力。通过减少压缩机重复开关,可变能力系统可减少由设备启动和停止(开/关)所导致的压缩机磨损。
2.单元(机架)间通信:单元间通信,组成一整套系统同样可以增强整体冷却效率,这对于存在高密度负载的房间更为关键,因为房间内区域的工作温度可能要比其他地方的温度高很多。单元通信成为系统后,可以确保单元间不会存在反向状态,比如保证在该单元除湿时,其他单元不会正在加湿,并且提供了针对高热区直接制冷的功能,这些都可以提高数据中心的能源效率。
3.保证服务可用性:冷却系统的误差幅度变得越来越重要了,这需要由受过专业训练的工作人员进行24小时本地服务监控及定期预防性维护,以消除机械磨损。此外,新技术可以改善通信功能,从而为应用维护提供更多支持,包括诊断和支持工具、维护通知触发、维护事件的内部日志、预测诊断等。
添加后备冷却系统
为了使传统冷却更有效,并保证高密度区域的集中处理,冷却必须更加接近热源。当要确定实施何种技术以处理高密度冷却时,有三个常用方法:液冷、系统基础架构以及面向未来的能力。
液冷:水还是制冷剂
水在地冷中经常被用到,但当冷却源向敏感电气设备靠近时安全就变为一个很关键的问题,这就是为什么R134a制冷剂在高密度设备中是一个理想的选择的原因。由于该制冷剂在空气中会发生气化,所以即使泄漏,也不会损坏IT设备或导致安全隐患。基于对每千瓦热负荷的冷却能力,冷剂泵方案同样可以节能25%~35%。
冷却基础架构:开放还是封闭
无论是开放还是封闭的冷却系统架构,都可以在热负荷的集中区进行冷却。在封闭结构中,电子设备和冷却设备一同位于密闭空间内,该方法可提供高性能的冷却,但如果没有预置失效模式警告,则是以牺牲灵活性及容错性为代价的。封闭式方法在数据中心环境中适合于小型实现。在数据中心内,封闭式冷却为有限的机架组合提供了灵活性,但没有备援紧急冷却功能。如果冷却系统失效,机架失去冷却保障,密封空间内的温度可以在15秒以内达到服务器的温度上限。在室内环境中,这是一个没必要承担的风险。
在开放的体系结构中,模块位于机架上或机架附近,但却不是围栏中的一部分。在许多情况下,室内空气在冷却功能失效时可作为缓冲器,从而成为一种安全的替代选择。此外,开放架构允许有更大的灵活性对需求变动及额外的冷却能力进行配置。
未来的能力:可扩展的冷却
由于对电力需求和热负荷持续大幅度增加,选择一个可以满足未来的扩展需要的技术平台,是选择一种解决方案的关键点。
大多数知名的服务器制造商目前正在努力推出解决方案,将基于制冷剂的冷却模块置于机架中,来满足将来超过30kW热密度的冷却需求,使基于制冷剂的系统可以兼容下一代冷却。其中最有名的方法之一就是顶层补充冷却法——使用制冷剂R134a作为制冷介质,用于解决高密度制冷的开放式架构方法。按需补充冷却单元提供了最高的灵活性、可靠性及效率。而顶层补充单元是适应性冷却的最后一步。
顶层冷却解决方案与传统的地下冷却系统相结合,可以在地冷系统停止运行后,为现有及新型数据中心提供有效的冷却。
关注可靠性
高可靠性,是通过把补充单元移至高密度源、天花板、机架上或靠近机架的地方实现的。此配置为机架顶端提供其所必需的冷气,同时作为地冷系统的补充。使用R134a制冷剂而非水,同样提高了可靠性并且消除了引入水造成的风险。
另外,因为冷却模块不可以直接与热负荷实现“紧耦合”,一旦冷却系统断电,房间内的空气就可以被用作缓冲,在备援电源启动之前提供必要的过渡。为了验证性能,自适应性冷却法以高于30kW/机架的功率,利用计算流体动力学进行模拟。
提高能源效率
当前市场中的顶端补充系统冷却1kW热量所使用的电力相比传统的落地式精确空调减少了近32%。实现这种节能效果的一个原因就是,电扇所需的功率少了64%,因为它必须将3英尺以内的空气移开以避免零静压。
这些散热模块提供100%的冷却,没有在控制湿度方面浪费能源。此外, 由于使用制冷剂降低了对制冷功耗的需求,不仅减少了能源消耗,在很大程度上,也可以在不添加额外冷却设备,甚至减少冷却设备数量的同时,发挥更多的冷却能力。
提供最大的灵活性
顶端补充冷却为用户提供最大的灵活性,可以增加及调整数据中心内的设备。由于宝贵的活动地板空间没有被占用,用户对设备摆放的安排不受严格限制。此外,现今的补充冷却系统符合任一个机架厂商的设备安装要求。在预置管道可用的情况下,设施可以在天花板上配备必要管道,允许用户以即插即用的方式添加或移除16kW模块,从而实现在其他冷却模块运行的同时,添加或删除任意模块的功能。
弗吉尼亚理工大学在解决其超级计算机在空间、热密度和能量需求等方面的问题时,就利用了这种自适应冷却方法。起初其冷却能力高于200W/SF。但是更加灵活的是,虚拟化技术重新配置了数据中心,使其所占空间只有之前的一半,并且在最终的小空间内,重新分配了制冷模块,以适应超过350W/SF功率,这样还保证了在升级的同时,不浪费他们最初的投资。
另一个使用补充冷却而获益的例子发生在位于美国加州的Pomona Valley医院医学中心。虽然6英寸的活动地板提供了冷却能力,但却限制了采用新技术的能力,于是该组织的负责人决定添加机架补充冷却单元。之后,数据中心的温度骤降,被控制在安全运行温度范围以内,与热相关的失效问题也迎刃而解。该中心估计由此节省的、与热量相关的成本已达30万美元。