APP下载

数据中心液冷技术研究

2024-01-17柯媛华杨瑛洁中国建设银行北京生产园区管理办公室北京000环球电信资本合伙控股有限公司香港999077中讯邮电咨询设计院有限公司北京00048

邮电设计技术 2023年12期
关键词:冷板液冷功率密度

柯媛华,成 军,杨瑛洁,闫 健(.中国建设银行北京生产园区管理办公室,北京 000;.环球电信资本合伙控股有限公司,香港 999077;.中讯邮电咨询设计院有限公司,北京 00048)

0 引言

随着信息通信技术的发展,数据中心的单柜功耗在逐渐攀升。面对数据中心的能耗压力及“双碳”目标对行业节能降碳的要求,工业和信息化部、国家发展和改革委员会等有关部门近年来发布了一系列关于数据中心节能、建设的规划和指导意见,其中明确了数据中心电能利用效率(PUE)指标要求。目前空调系统能耗约占数据中心总能耗的35%,因此降低数据中心空调系统能耗对实现低PUE 具有重要意义。与现有风冷式空调先冷环境再冷设备的低效制冷方式相比,液冷技术是通过直接与信息通信设备发热器件(CPU、GPU、DIMM 等)进行换热,减少路径冷损耗,是一种更精准的制冷方式,液冷系统相对较高的供回液温度设计,可充分利用自然冷源进行散热,实现高效、绿色制冷,逐渐在数据中心领域得到应用和推广。

1 数据中心热特性

对数据中心而言,热流密度在不同空间维度上的差异很大。传统风冷式空调只能对机房整体或局部环境温度进行调节,但机柜内部的服务器设备中不同发热器件存在较大的发热功率梯度,例如,CPU芯片的发热功率远高于其他发热元件,而内存、PSU等仅占服务器整体功耗的20%~30%。因此,传统风冷式空调会导致不同发热器件出现“过冷”或“过热”的现象,这种无法实现发热器件精确制冷的方式只能通过加大机房空调制冷量或降低送风温度等方式来降低“过热”器件的温度,但这样会引起过多的能源浪费。

随着CPU 芯片算力及封装技术的不断发展,CPU的发热功率逐年增长。当前高性能CPU 芯片的表面热流密度为30~50 W/cm2,但芯片自身结构尺寸不断缩小,芯片表面的热流密度将持续增大,预测5年后将达到100~150 W/cm2。高性能封装CPU 芯片的性能预测(IEEE/IDRS Roadmap2017)如表1所示。

表1 高性能封装CPU芯片的性能预测

从数据中心横向及空间维度分析(具体见图1),数据中心功率密度大约比机柜功率密度低1 个数量级,而机柜的功率密度又比服务器CPU 芯片功率密度低约1 个数量级,机房功率密度与CPU 芯片功率密度相差2 个数量级,因此数据中心主要的发热源集中在CPU芯片。

图1 数据中心器件热特性

2 液冷技术及应用

2.1 液冷技术分类

通过对数据中心发热器件热特性进行分析,并结合液冷技术的优势,可以发现针对高功率密度散热场景,液冷技术更加适用和高效。相关研究表明,当CPU 芯片的热设计功耗(Thermal Design Power,TDP)不大于50 W 时,宜采用自然散热方式,当TDP 在50~100 W 时,宜采用风冷散热方式;当TDP 在100~200 W 时,宜采用精密风冷空调,而当TDP 超过200 W 时,建议采用液冷散热方式。液冷技术按照冷却液是否与发热器件(含散热器)接触分为直接式液冷技术和间接式液冷技术。

2.1.1 直接式液冷技术

直接式液冷技术是指通过冷却液与发热器件(含散热器)接触式换热,将发热器件的热量传递给冷却液,最终通过冷却液的循环将热量释放到大气环境中。根据冷却液物性参数的不同,直接液冷技术分为单相液冷和相变液冷。单相液冷是指冷却液在与发热器件(含散热器)换热过程中不发生相态变化,而相变液冷是指冷却液在与发热器件(含散热器)换热过程中发生相态变化。

2.1.2 间接式液冷技术

间接式液冷技术是指通过冷却液与发热器件(含散热器)非接触式换热,主要是以热传导的方式进行热量传递。由于冷却液与发热器件非接触式换热,因此对冷却液的要求与直接液冷技术有所不同。

2.2 液冷技术优势

2.2.1 高效能

直接式液冷或间接式液冷技术,其末端或冷却液更靠近发热源,能够直接把热量进行转移,实现精准制冷,减少沿程冷损耗。相比于水冷系统,液冷系统可以进一步提高供回液温度设计值,在部分区域可实现无压缩机配置,全年实现自然冷,液冷数据中心全年PUE可低至1.05。

2.2.2 高可靠

美国空军航空电子整体研究项目(US Air Force Avionics Integrity Program)认为,温度、振动、湿度和粉尘是导致电子设备故障的主要因素,其中,温度引发的故障率占55%,灰尘引发的故障率占6%,湿度引发的故障率占19%,振动引发的故障率占20%。液冷尤其是直接式液冷技术,将发热设备完全浸没在不导电冷却液中,使发热设备完全脱离空气,避免了风机震动及空气灰尘的影响,从而使系统具有更高的可靠性。

2.2.3 超静音

目前,在应用液冷技术时,需要对服务器进行改造和适配。对于直接式液冷服务器,需要拆除风扇组件,使系统运行时,无气流及风扇震动噪声;而间接式液冷则通过冷板解决了主要发热器件的散热问题,其他热量通过风扇组件进行气流循环换热。在这种方式下,风扇的转速更低,从而极大地降低了气流及震动噪声。

2.2.4 节约空间

液冷系统适用于AI等高算力场景,采用液冷技术在同等的空间内可部署更高的算力,从而减少物理设备数量。液冷系统可采用无压缩机配置,全年利用自然冷源进行散热,无需专用动力机房配置,从而降低整体空调系统的占地面积。

2.3 液冷技术应用

2.3.1 冷板式液冷

冷板式液冷属于间接式液冷,在应用时需对服务器进行相应的改造,其主要解决了高功率密度发热器件的散热问题,对服务器内存、PSU等低功率密度器件仍旧采用风冷散热。对于冷板式液冷数据中心而言,根据功率密度的不同采用液冷技术和风冷技术实现了“分区”温控,使数据中心空调系统更加高效、节能。冷板式液冷按照热传递过程的不同分为温水式冷板液冷和热管式冷板液冷2种。目前常用的冷板式液冷服务器有1U单节点服务器、2U 4节点服务器等。

温水式冷板液冷(见图2 和图3)存在多个发热器件连路的单节点服务器,发热器件连通管路可采用硬接和软接2 种方式,硬接方式可采用紫铜或无氧铜进行焊接,但对安装尺寸及结构要求高,安装时难度较大。软管方式可采用波纹管、橡胶管(如FEP/PTFE/EPDM 等材质)等进行连通,对安装尺寸及结构要求低,但PCB板需具备软管固定所需空间。

图2 温水式冷板液冷服务器(硬接)

图3 温水式冷板液冷服务器(软接)

根据服务器算力性能要求及耐温性,温水式冷板液冷的供回液设计温度可采用40 ℃/45 ℃,或更大散热温差,供回液设计温度采用40 ℃/50 ℃,因此相比于水冷机房空调,液冷较高的供回液温度,在大部分区域可实现全年自然冷,进一步降低数据中心能耗,实现低PUE运行。

热管式冷板液冷(见图4、图5 和图6)主要通过热管实现发热器件与水环路之间的热传导,热管的吸热端通过固定装置与发热器件贴邻敷设,热管的放热端通过水冷基板把热量释放至水环路中,热管内部液体介质一般为相变介质,可实现周期性的相变循环。相比于温水式冷板液冷,水环路不进服务器,从而避免了因水渗漏所带来的PCB板短路风险。

图4 热管式冷板液冷服务器

图5 热管

图6 热管传热原理

冷板(见图7 和图8)与发热器件之间通过热传导的方式实现热量传递。冷板一般是由基板(底座)、上盖或固定架等组成,基板(底座)一般采用ADC10(压铸铝合金)制成,基板(底座)与上盖或固定架之间形成密闭的流道腔体,腔体内设有翅片用于强化换热。根据腔体内强化换热方式的不同,冷板可分为埋管式、铣槽道式、扰流片式、微通道式。冷板与发热器件之间通常填充导热硅脂或金属垫片以加强导热。相对于直接式液冷技术(如浸没式液冷、喷淋式液冷等),冷板式液冷技术对服务器改造的工程量较少且更易实施。

图7 上盖或固定架示例

图8 基板(底座)及流道示例

2.3.2 浸没式液冷

浸没式液冷属于直接式液冷,服务器所有低功率密度发热器件和高功率密度发热器件完全浸没在冷却液中。对于单相浸没式液冷(见图9),冷却液环路实现液冷机柜与冷量分配单元之间的连通,而相变浸没式液冷通过在液冷柜内设置冷凝器,管内为冷却水,气化的冷却液遇冷液化滴落至液冷柜实现循环。相变浸没式液冷原理如图10 所示,Tank 液冷柜如图11所示。

图9 单相浸没式液冷

图10 相变浸没式液冷

图11 Tank浸没舱

由于服务器完全浸没在冷却液中,包括服务器本身的结构设计及特殊的器件如光模块、机械硬盘等均需要特殊处理,图12所示为浸没液冷PCB 板对光模块进行封装处理,图13所示为浸没液冷柜对线缆进行密封处理。不同于风冷式机架服务器,在对服务器设备进行维护操作时,浸没式液冷柜宜采用专用吊臂车对服务器进行取出或存放(见图14)。

图13 密封线缆

图14 服务器吊臂车维护操作示例

2.3.3 喷淋式液冷

喷淋式液冷(见图15、图16)属于直接式液冷,由于其自上而下采用喷淋式结构设计,目前被广泛应用于机架式服务器。喷淋液体能够完全覆盖服务器发热器件,同时根据不同发热器件的功率密度,可以对喷淋板上的液孔进行精准化开孔设计,以满足不同功率发热器件的散热需求。相比于浸没式液冷,喷淋式液冷的每台服务器独立化液冷设计,不需要改变现有的机架式服务器部署形态。喷淋式液冷所需的冷却液总量较少,降低了对建筑承重的要求,目前喷淋式液冷采用较多的冷却液是硅油、矿物油或植物油等,相比于浸没式液冷用电子氟化液成本较低。

图15 喷淋式液冷原理

图16 喷淋式液冷服务器

2.3.4 雾化喷射式液冷

雾化喷射式液冷是目前学术研究的重要方向,相比于现有的液冷技术,雾化喷射液冷是更为高效的CPU散热技术,但目前仍处于研究阶段,尚未有成品应用,其原理是通过雾化喷管借助高压气体(气助喷射)或依赖液体本身的压力(压力喷射)使液体雾化,将其强制喷射到发热物体表面,从而实现对物体的有效冷却。这种冷却方式换热强烈,具有很高的临界热流密度值(CHF),且冷却均匀,适用于一些对温度要求很严格的领域(如在微电子、激光技术、国防、航天技术等),并显出独特的优势和重要性。研究表明,当液流喷射速度达到47 m/s 时,其散热能力高达1 700 W/cm2,雾化喷射式液冷原理如图17所示。

图17 雾化喷射式液冷原理

3 冷却介质

3.1 冷却用水

温水冷板式液冷用冷却用水一般采用去离子水、甲醇、乙二醇、丙三醇、氨等,其主要物性参数如表2所示。

表2 冷板式液冷冷却用水部分物性参数

从表2 可以看出,去离子水是比较理想的冷却液材料,但若能在去离子水中添加少许乙二醇、丙三醇等黏度较大的液体,可改善其性能,提高其比热容、导热系数,降低挥发性,从而改善冷却效果,使水冷散热器的散热效果更加显著,提高其开发和应用价值。

3.2 单相冷却液

目前,3M 和Shell 等企业都在生产单相冷却液。其中,3M 的冷却液为氟化液,而Shell 的冷却液是由天然气制成的合成油,属于碳氢化合物。部分电子氟化液(单相)主要物性参数如表3所示。

表3 电子氟化液(单相)部分物性参数

单相冷却液通常沸点较高,以确保冷却液在循环散热过程中始终保持液态。氟碳化合物和碳氢化合物(如矿物油、硅油、植物油等)均可用于单相冷却液。

3.3 相变冷却液

目前相变冷却液较多采用了3M 公司的电子氟化液,电子氟化液部分型号的物性参数见表4。

相变冷却液充分利用了冷却液的蒸发潜热,可以满足高功率密度发热器件对散热的极端要求,使信息通信设备可以保持满功率运行。但相变的存在也使得相变液冷系统必须保持密闭,以防止蒸汽外溢流失,同时必须考虑相变过程导致的气压变化,以及系统维护时维护人员吸入气体的健康风险。

4 液冷技术应用建议

直接式液冷技术冷却液与服务器内部发热器件直接接触,因此服务器内部器件及所使用的材质需要进行改造和适配,以满足冷却液与材质的兼容性。目前,直接式液冷技术所使用的服务器都是通过常规服务器进行改造而成的,如对PSU、SUB、VGA 等线路接口进行改造等。对于机械硬盘及光模块等性能受冷却液影响的器件,需要进行独立的封装设计或更换。

与直接式液冷技术不同,间接式液冷技术仅解决了CPU、GPU 等高功率密度发热器件的散热问题,而对服务器内存、PSU 等低功率密度发热器件仍旧采用风冷散热。因此对于间接式液冷数据中心,需要同时配置风冷精密空调和液冷空调系统,以满足数据中心“分区”温控需求,通常建议液冷占比达60%以上。

液冷占比是指液冷系统中直接通过液体带走的热量(功耗)与设备总功耗的比值。液冷占比体现液冷系统直接利用液体冷却带走热量的效率,液冷占比越高,冷却效率越高,推荐采用高液冷占比的系统,以提升能源利用效率。

式中,LPE 为液冷性能效率,简称液冷占比;PL 为直接液冷功耗(是直接由液冷带走的冷却功耗);P0为系统总功耗,包含直接液冷功耗和风冷功耗2部分。

5 结束语

目前液冷技术应用主要集中在超算中心、AI 等高算力场景,在数据中心领域尚处于推广应用阶段,但随着能耗管控压力及PUE 限令的执行,液冷将逐渐成为一种绿色、低碳、高效的数据中心制冷解决方案。目前液冷技术应用较多的方式是采用“风液配比”策略,既在风冷式数据中心采用部分液冷技术,既可以降低数据中心整体PUE 以满足建设或运行要求,又可以控制建设投资。

由于液冷技术高效的散热方式,液冷系统设计供液温度普遍在40 ℃以上,供回液温差为3~10 ℃,相比于水冷系统(供水温度12 ℃或18 ℃)提高了供液温度,减少了中间环节的温差换热损失,提高了系统自然冷源的时间利用。

与传统的风冷空调不同,应用液冷技术时,必须充分考虑液冷系统运行的安全性、操作和维护的方便性以及防止泄漏的措施。此外,在数据中心应用液冷技术时,应充分考虑设备的散热功率和成本投资等因素,或者结合现有数据中心的制冷空调方式,选择适合的液冷应用(如冷板式、浸没式、喷淋式等)及“风液配比”,以提高或满足数据中心最大化的节能效益。

猜你喜欢

冷板液冷功率密度
厌氧胶在液冷板缺陷修复中的工艺技术
制动器液冷控制系统模糊控制策略
航天服的液冷服有什么用?
航天服的液冷服有什么用?
福特phve冷板检测定位pin自动分拣机控制系统的研究
某组合型冷板的结构设计与优化
机载大长宽比风冷均温冷板优化设计
高效高功率密度低噪声电机研究
PrimePACKTM结合最新IGBT5和.XT模块工艺延长产品寿命,提高功率密度
微小通道液冷冷板散热性能分析∗