数据中心节能致冷技术研究与试验*
2014-02-28林湧双丘文博
林湧双,丘文博
(中国移动通信集团南方基地 广州510640)
1 引言
IDC(internet data center,互联网数据中心)作为互联网的信息处理中枢,是信息社会和大数据时代不可或缺的基础性公众设施。当前,随着移动互联、电子商务、云计算与云存储等互联网业务的广泛兴起,IDC需求量激增,全球范围内掀起了大规模建设IDC的浪潮,并且新建的IDC也越来越趋于大型化。然而,由于传统模式的IDC在节能方面考虑不周,其需要消耗巨量的电力,这严峻地考验着各地区的能源供给能力。据估计,到2015年,我国的IDC年均消耗电量将达到1000亿千瓦时,等同于三峡电站的年发电量[1]。因此,革新IDC设计模式、降低IDC能耗和运营成本,已经成为数据中心业界一个相当现实和迫切的课题[2,3]。
在传统模式的IDC中,致冷系统(由冷水机组、精密空调、水泵、风机、冷却塔等组成)(笔者注:此为“致冷”非“制冷”,为表明本文所提新方案中CPU散热采用自然冷源而非冷水制备,以示差异)消耗了一半左右的能量[4],是最耗费能量的辅助系统。为了减少其能耗,业内研究团队一直尝试的突破方向有两种:一种是将供冷的颗粒度不断细化,从传统的“房间级致冷”转换到“行级致冷”乃至“机柜级致冷”[5],其基本技术思路均在于如何提升供冷精确度、隔离冷热通道、减少冷量泄漏进而减少浪费;另一种是引入自然冷源,机房内外的冷热空气在转轮或热管的作用下隔离传递冷量,甚至将机房外的冷空气清洁后直接对服务器进行致冷。然而,这两种方向均属于“非接触式”单一通道致冷模式,改变不了空气换热能力差、致冷通道热阻高、致冷系统工作温度低的缺陷,前者摆脱不了压缩机,后者适用的区域及时间段少,故而节能效果有限。
本文从传热学的傅里叶定律出发,基于服务器内部的集中式热源和分散式热源(具体定义见第3.2节)的不同特性,首次提出了由“接触式”和“非接触式”两个具有显著热阻差异的通道组成的“双通道”数据中心致冷模式。其中,“接触式”致冷通道针对CPU建立了“热管水冷模块+冷却塔”的高效直排式致冷通道,全程去除压缩机,可充分利用自然冷源。同时,通过研制“热管水冷服务器”样机并开展系统测试工作,初步验证了“双通道”致冷模式的可行性、可靠性和经济性,同时得出了“可利用自然冷源对服务器CPU进行‘接触式’致冷”的关键结论。
2 “非接触式”单一通道致冷模式的不足
对于传统的“非接触式”单一通道致冷模式,其基本原理可以由图1表示。
这些类型致冷模式的不足之处如下。
(1)服务器端散热效率低
由于空气比热容小、换热能力差,所以IDC机房内需要使用大量的空气来完成服务器端的散热;在开放式送风的条件下,需要配置大功率风机和风扇来驱动空气快速循环。
(2)要求较低的环境温度
图1(a)代表的系统中,由于要求机房内的环境温度保持在22℃左右(若提高环境温度,则风机和风扇需要消耗更多能量以输出足够风量),需要使用7℃的中温冷冻水来冷却循环空气,所以IDC机房需配置中温冷水机组,其中的压缩机处于深度压缩循环状态,从而需要消耗大量的能量。
(3)存在“热岛”现象
服务器内部发热不均匀、CPU发热密度高,造成局部区域供冷不足,在高负载率条件下CPU温度甚至可能高至引发系统瘫痪。同时,若长期处于高温工作状态,将降低CPU乃至服务器整机的性能和寿命(业内经验认为每提高10℃的温度将导致服务器寿命减少一半)。
(4)适用范围窄和附属系统体积庞大
图1(b)代表的系统中,其正常运行所需要的条件是大气温度为20℃以下,这决定了其只适用较少的区域和时间段。同时,由于利用空气作为机房内外的传热介质,要求IDC配备大体积的管道、转轮、热管系统和除酸、除尘等附属设施,机房面积利用率低。
3 “双通道”数据中心致冷模式
3.1 热流与温差、热阻的关系
数据中心的致冷过程遵循传热学基本原理。由傅里叶定律可知[6],一维宏观条件下热流与温差、热阻的关系为:
即:若热通道的热阻为R(单位为℃/W),为了排走热流Q(单位为W),则热通道两端须加以ΔT(单位为℃)的温差。在数据中心致冷系统中,要么提高致冷通道温差(一般是降低系统工作温度),要么降低致冷通道的热阻,才能高效地排出热流。
不同换热方式的热阻具有数量级的差别。在同样的换热面积条件下,假设“空气—固体”之间的换热热阻为归一量“1”,则“水—固体”之间的换热热阻可低至0.01,“固体—固体”之间的接触换热热阻可低至0.001[7],而“水相变—固体”之间的换热热阻可更进一步低至0.001~0.000 1。可见,在数据中心致冷系统设计中,从提高致冷效率的角度考虑,采用传统的空气导热方式进行致冷是不经济的。
图1 “非接触式”致冷模式的两种原理
需要指出的是,上述热阻R与流体(空气、水等)的流速有着密切的关系:流体的流速越高,则流体内部就能够越快地形成均温,越有利于将热端的热流高效地吸收过来,进而宏观表现为热阻越低。然而,由于驱动流体流动需要消耗电机能量,故数据中心也不能无限提高流体的流速。
3.2 服务器内部的两种热源
服务器是数据中心的核心负载和业务枢纽,同时也是数据中心的主要热量散发源。在服务器内部,可将所有发热源划分为两类。
·集中式热源,指CPU,其特点是热流密度高,发热量大,占服务器发热量的65%左右。
·分布式热源,指除CPU以外的服务器组件,其特点是热流密度低,发热量占服务器发热量的35%左右。
对于这两类热源,传统的“非接触式”单一通道致冷模式未能区别对待,而是统一使用冷空气来将发热量带走,导致了对机房环境温度要求苛刻并且效率低下:对于集中式热源,由于发热量大并且“空气—芯片”换热模式热阻大,空气与芯片之间需要建立巨大的温差(温差为30℃~50℃,一般环境温度为22℃左右)以维持服务器的有效散热和正常工作。
3.3 “接触式”致冷通道
针对集中式热源,建立“接触式”高效致冷通道,采用“热管水冷模块”直接将热量导出至循环水流中,其原理如图2所示。
在图2中,集中式热源的发热量就在由“芯片→热管水冷模块→水流”组成的“接触式”致冷通道中高效地传输。其中,热管是当前广泛应用于导热、均温等场景的功能部件,其依靠内部液体相变导热,导热能力非常高[8]。由于“接触式”致冷通道全程弃用空气介质,仅有“水—固体”、“固体—固体”和“水相变—固体”等换热方式,整体热阻比单一“非接触式”致冷通道可低2个数量级,故而芯片与循环水流之间只需较小温差即可传导较大的热流量。
图2 利用“热管水冷模块”带走集中式热源的发热量
3.4 “双通道”致冷模式
从原理上讲,服务器的致冷可以采用单一的“接触式”模式,以实现完全的低热阻、高效致冷通道。但由于服务器的布局限制、元器件的尺寸限制等原因,采用单一的“接触式”致冷模式工艺复杂、成本过高,因此本文提出“双通道”致冷模式。
“双通道”致冷模式区别对待服务器内部的两类发热源,在IDC致冷系统的设计中安排了两个对应的致冷通道,其逻辑如图3所示。
图3 “双通道”致冷模式逻辑示意
(1)“接触式”致冷通道
利用“热管水冷模块+冷却塔”的方式直接排出集中式热源发热量,全程只有少量水泵和冷却塔等能耗设备。由于集中式热源一般可承受较高的工作温度(CPU的安全工作温度上限为80℃),同时“接触式”致冷通道全程热阻低,故而该通道中的循环水可以工作在较高温度,并可采用冷却塔直排的方式进行散热,可去掉压缩机和风机能耗。另外,由于“接触式”致冷通道处理了服务器65%的发热量,这决定了采用“双通道”模式的致冷系统整体上具有较高的能效比。
(2)“非接触式”致冷通道
利用传统空气冷却的方式排出分散式热源发热量。由于集中式热源的发热量被高效导出,服务器的“CPU热岛问题”被消除,故而服务器对入风温度的要求大大放宽,进而可以提高机房的环境温度至30℃左右。在这个条件下,“非接触式”致冷通道可以采用高温冷冻水机组对机房循环空气进行致冷,进而达到更高的能效比(高温冷水机组能效比高达10)。
3.5 效益分析
“双通道”致冷模式可为数据中心的节能效果、机房利用率和服务器性能等方面带来丰富效益。
3.5.1 节能效果
传统方式中,所有的热量均需要使用冷水机组来冷却,并且必须采用能效比为6的中温冷水机组,则其功耗为100%/6;采用“双通道”致冷模式之后,仅有35%的热量(来自“非接触式”致冷通道)需要使用冷水机组来搬运,且可以采用能效比为10的高温冷水机组,则冷水机组能耗降低占传统方式的比例为:
至于水泵、风机等设备,也会有能耗上的节省;但由于这部分设备功耗的占比相对较小,计算时可忽略,不在本文呈现。根据研究分析,致冷系统整体能耗可降低至传统方式的1/5左右。
3.5.2 机房利用率
由于解决了服务器内部的CPU热岛问题,仅剩35%的热量需要通过“非接触式”致冷通道带走,使得高功率密度机架成为可能,在同等条件下可以将服务器单机架功率密度提升至10 kW。
3.5.3 服务器性能
由于“接触式”致冷通道的热阻低、通道温差小,一般情况下服务器CPU的温度可比传统模式低10℃~20℃(根据测试结果,新方案与传统方案在100%负载率的条件下的CPU温度差可达20℃以上,详见表1)。由于电子元器件的寿命与工作温度负相关[9],则采用“双通道”致冷模式可使服务器整机性能获得提升,并能降低故障率、提高可靠性、提高寿命。
4 “热管水冷服务器”的研制与验证工作
通过以上分析可知,要验证“双通道”致冷模式的可行性和经济性,其重要前提是在服务器上进行“热管水冷”定制化改造,即研制“热管水冷服务器”。为此,本节介绍中国移动通信集团南方基地(以下简称中国移动南方基地)的相关研发、测试工作进展。
4.1 中国移动南方基地在IDC致冷节能方面的研究历程
自2012年10月起,中国移动南方基地启动了数据中心“双通道”致冷模式的理论论证工作,并联合曙光信息产业股份有限公司(以下简称曙光)、华为技术有限公司(以下简称华为)、广东新创意科技有限公司、华南理工大学等国内知名企业和院所组建研发团队,实施了“热管水冷服务器”的样机研制工作,取得了核心技术突破。
4.2 “热管水冷服务器”的研制进展
2013年11月,中国移动南方基地完成“热管水冷服务器”的样机研制工作,分为以下两类。
·曙光x86服务器:每台服务器双CPU,每个CPU的TDP(thermal design power,散热设计功耗)为130 W。
·华为x86服务器:每台服务器双CPU,每个CPU的TDP为135 W。
同时,本项工作建立了完善的配套软件、硬件测试平台系统,可对环境参数、服务器运行参数、循环水系统参数等进行调节,实现全方位的验证性测试。
图4为“热管水冷服务器”实物。
需要指出的是,为了确保测量准确性,在本测试平台中,对于温度的测量均采用外接传感器的方式,而不是采用服务器管理口读数的方式。
4.3 系统测试验证关键结论
为了验证“双通道”致冷模式的可行性,本文分别调整测试平台的环境温度、入水温度、水流量等参数,开展了大量的试验。表1为环境温度30℃、CPU负载率100%的条件下,各服务器的CPU温度的测试值。
图4 “热管水冷服务器”实物
表1 水流参数变化情况下的CPU温度(环境温度30℃)
从表1中可以看出:CPU与冷却水入水之间的温差为14℃~18℃。并且,从表1中可看到的一个重要结论为:在环境温度30℃、水流量0.5 L/min的条件下,即使采用45℃的水流作为冷却水,仍能保证CPU温度控制在60℃左右的安全温度上。由于在全球绝大多数地区、绝大多数时段均能够轻易获取45℃的水流,故而本方案具有高度普适性。
另外,考虑到实际服务器在绝大多数情况下运行于部分负荷状态,本文组织测试了不同CPU负载率下“热管水冷服务器”的性能表现。实验中,本文使用SPECpower软件,由其中两台服务器为另外两台进行负载加压,CPU负载率设置为5%、33%、50%、75%、100%,每个负载率水平上分别运行30 min,所得测试曲线如图5所示(环境温度30℃、水温45℃、水流量0.5 L/min)。
由图5可见,在部分负载率条件下,“热管水冷服务器”能进一步降低CPU的工作温度。故而,可以根据业务负载率动态地调节各服务器的供水量,实现更高精度的按需供冷,以进一步减少致冷系统能耗。
5 “双通道”致冷模式的发展前景
由于“双通道”致冷模式能够利用自然冷源对服务器CPU进行“接触式”致冷,故而其在全球绝大多数地区、绝大多数时段具有高度普适性,能大幅降低全球IDC的能耗。同时,由于“双通道”致冷模式的工艺实现较简单,再加上“热管水冷模块”具有安全可靠、投资少的优点,可以预见,“双通道”致冷模式未来极有可能成为数据中心致冷系统节能设计的主流技术。
本团队在“双通道”致冷模式的研究上取得了关键的突破,完成了核心系统环节的验证工作。下一步,要推动“双通道”致冷模式的产品化工作,需要解决诸如服务器内部工艺调整、整机柜集成、致冷管路设计等问题,同时需要研究致冷管路泄漏防控、运行变量监控、运维管理模式等后期维护的可管、可控问题;另外,面向大规模应用还需要解决建设、运营的标准问题。故而,“双通道”致冷模式的研究需要产业界共同努力去推动,才能最终成为一个实用化的数据中心节能致冷解决方案。
图5 部分负载率条件下曙光、华为定制化服务器的性能表现
1 周伏秋,谷立静,孟辉.数据中心节能和优化布局研究.电力需求管理,2011(13)
2 赵锋.数据中心节能减排技术.电信网技术,2011(1)
3 成彬,王涛,武红光等.中国电信数据中心节能减排的策略及其应用.节能,2012(1)
4 钱晓栋,李震.数据中心空调系统节能研究.暖通空调,2012(3)
5 Dunlap K,Rasmussen N.数据中心行级和机柜级致冷架构的优势.施耐德电气白皮书 第130号
6 杨世铭,陶文铨.传热学.北京:高等教育出版社,2006
7 朱德才.固体界面接触换热系数的实验研究.大连理工大学硕士学位论文,2007
8 Dunn P D,Reay D A.热管.周海云译.北京:国防工业出版社,1982
9 刘婧,吕长治,李志国等.电子元器件加速寿命试验方法的比较.半导体技术,2006(9)