已建成数据中心的温控散热痛点分析及改造策略
2022-11-08金烂聚刘晨阳何劲池叶荣珂徐洪涛
金烂聚,刘晨阳,何劲池,叶荣珂,徐洪涛,方 远
(1.国网浙江省电力有限公司信息通信分公司,浙江 杭州 310000;2.上海理工大学 能源与动力工程学院,上海 200093)
0 引言
伴随全球信息化的发展,数据中心作为数据存储和交互的基础设施,其发展备受瞩目。当前,在能源、环境与经济问题严峻的国际背景下,数据中心被称为“能源黑洞”。根据工业和信息化部电信研究院调研统计数据,2015年我国数据中心耗电量已达到1 000亿kWh,相当于全社会总用电量的1.5%,且比例还在不断快速上涨。其中空调系统电耗约占数据中心总电耗的40%[1]。在数据中心的生命周期中,其用电成本可能会超过IT设备的总成本。随着中国在2020年9月向全世界作出“二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和”的重大宣誓,如何降低数据中心的能耗也顺理成章的成为了“双碳”政策下不可忽视的一环。评价数据中心能耗水平的权威指标是电能使用效率(Power Usage Effectiveness,PUE)。根据绿色网格组织(The Green Grid,TGG)的定义[2],PUE指的是数据中心的总能耗与IT设备能耗的比值。PUE越接近1,则说明除IT设备之外(如照明、冷却设备)的能源消耗越少,数据中心能源效率越高。根据《“十三五”国家信息化规划》的相关内容,到2020年,我国新建大型云计算数据中心的PUE值不高于1.4。然而,我国目前已有各类数据中心超64万个[3],其中约有80%以上的数据中心PUE大于2.0[4],既有数据中心的高能耗问题不可忽视。这是由于在规划初期,仅仅重视了数据中心机房的功能性,忽视了冷却设备、冷却方案与IT设备之间的匹配,导致了既有机房冷量分配不合理、局部过热点较难消除等问题。合适的机房热环境难以保障,不仅会导致机房投资和运行费用的大幅提高,造成空调资源的巨大浪费,还会导致IT设备工作环境恶化,带来不必要的生产安全隐患。此外,随着业务量的增长,部分长期服役的数据中心面临着设备的更新与扩容,随之而来的则是机房总功耗的上涨。当机房现有的冷却措施无法满足功耗增长的需求时,单纯地增加制冷设备功率只会加剧能源的浪费。因此,需要对已建成机房进行改造,通过制定更合理的冷却方案,降低其对制冷功耗的需求。
1 现有机房散热问题成因
对于大多数机房而言,冷却效果不佳,制冷功耗虚高主要体现在:机房温度分布不均匀,有局部的高温或低温区域;设备进风温度较高,冷却效果差;回风温度低,输入冷量难以得到有效利用;冷、热气流掺混,导致冷量提前损失。造成上述情形的主要原因在于气流组织混乱[5],具体可分为以下几个方面。
1.1 送风损失
房间级的空调系统,不论采用上送风或是下送风的方式,均属于洪灌风形式,冷却过程一般为“先冷环境,后冷设备”[6]。以下送风方式为例,如图1所示,初级冷空气由空调末端设备输入地板的下部空间,随后与室内空气混合形成次级冷空气,降低室内环境温度,进而再通过自然对流或强制对流的方式,将设备附近的次级冷空气输送至热源处,对服务器进行冷却降温。在这一过程中,当冷空气到达设备时,温度不可避免的上升,为了弥补这部分冷量损失以保证冷却效果,需要设置较低的送风温度,从而导致了制冷功耗不必要的增高。尤其是采用上送风方式的机房,冷空气对整个机房空间进行了冷却。事实上,在IT设备以外的区域,如机房上部空间、过道等地点,对空气温度的高低并无特别要求,无需低温环境,因此冷量被浪费在了非必要的区域。此外,对于采用上送风方式的机房,由于热岛效应[7],在自然对流条件下,冷空气无法有效地输送至发热设备内部,从而使设备发热问题愈加恶化,如图2所示。
1.2 气流短路
在早期的机房建设过程中,由于未能认识到合理规划送风路径的重要性,极易导致机房空调系统的“气流短路”问题[8]。气流短路指的是,由空调出风口送出的冷空气流未经发热设备而直接到达空调回风口的行为,在采用上送风或下送风的机房中均可发生,如图3所示。其原因在于机房内部并未划分冷热气流通道或冷热气流通道封闭措施不到位。气流短路造成了机房空调系统的冷量损失,提高了机房的能耗水平。
简弃非等[9]采用商用软件Fluent对某上送风通信机房的气流组织进行了模拟分析。分析结果表明,在接近回风通道的送风口处,冷空气仅有小部分参与了机柜换热,剩余大部分气流则随着回风气流直接到达回风口,导致了冷量浪费。秦冰月等[10]对某下送风的某数据中心开展了研究,采用了Sigmaroom软件在冷热通道未封闭和封闭冷通道这两种条件下对机房内部的气流组织进行了数值模拟。研究结果发现,在冷热通道未封闭时,部分冷空气经高架地板流入室内空间后,并未进入机柜,而是散逸至机柜上方与大空间内的高温气流掺混,机房内气流短路的现象较为明显,冷量无法得到充分利用。谢静等[11]在对某通信机房进行分析后同样发现,不合理的架空地板出风百叶设置导致了“漏风”情况的发生,冷量无法完全送入机柜内部。吕超等[12]通过CFD模拟的方法对小型机房的气流组织进行了研究,发现在敞开式的冷热通道中同样存在着“漏风”现象,导致了气流短路的发生。
1.3 机房布局不合理
对于某些坐落于办公楼、写字楼内部的机房而言,其用房为普通房间改造而成,受到大楼结构及空间限制,空调系统多布置于机房内部的边缘区域,从而造成了送风距离过长,气流分布不均的问题[13]。随着送风距离的延长,冷量逐级减小,远离空调系统的设备往往无法获得足够的冷却气流,从而导致设备回风温度逐级升高,如图4所示。此外,出于设备排列的规整性、一致性考虑,在传统机房的布局设计中,机柜多为顺向排列,即朝向一致,如图5所示。由于冷空气进入机柜内部进行换热后,形成的高温气流大多被机柜内部的散热风扇从机柜后方排出,因此上游机柜排出的部分高温气流不可避免地被下游机柜吸入,导致下游机柜进风温度升高,冷却效果下降,加重了设备的运行负载与室内温度场的非均匀度。
陈岩松[14]对采用上送风顺排机柜的数据机房进行了数值模拟研究,发现仅有靠近出风口处的机柜运行在安全温度范围内,其他机柜周围的气流温度普遍偏高。同时,前端机柜所排出的高温气流也直接流入了后端机柜,加剧了后端机柜热环境的恶化。可以认为,机柜顺向排列的布局具有极大的弊端,冷空气的冷却效果无法充分发挥。如果机房中存在机柜功率密度分配不合理的问题,在上述两点原因的作用下,机房内极易出现局部高温热区,影响设备的稳定运行。在顿喆等人[15]对某数据机房进行模拟研究时发现,墙角附近的若干服务器处易形成涡旋气流,同时该处设备发热量最大,且远离送、回风口,局部热环境恶劣。在邓科等[16]对某机房的模拟研究中,机房内部同样存在着高功率设备过于集中,局部热点温度较高的现象。
2 改造策略
考虑到已建成机房需要连续稳定运行,各网络设备难以长时间断电离线,因此在机房改造时应避免对其主体结构进行重大更改,且既有机房往往存在着物理空间不足、功率冗余有限等客观限制,无法简单地提高空调系统的制冷功率以满足设备的温控需求。因此,既有机房的改造方案可基于以下思路。
2.1 优化机房布局
机房设备的陈列方式,如机柜朝向、摆放方向、空调的机位选取等因素对气流组织有着直接的影响。通过对机房内部的流场形态、热点分布进行研判分析,结合不同功率设备的散热功率需求,对设备布局进行合理化调整,能够在不提高冷却能耗的前提下,有效降低冷却气流的流动阻力,提高温控效果。该方法简单易行,几乎不存在额外投入,但调整效果难以预期,通常需要借助数值模拟的手段进行评估。魏蕤[17]研究了机房内空调布局对于室内热环境的影响,发现将两台空调成对角线放置时,具有最好的冷却效果。此时,空气流动阻力最小,有效地消除了室内的局部热点,且具有进一步提高送风温度的潜力,有利于机房能耗的降低。王丹华等[18]则对机房内空调分别呈并排、正对及斜对角放置时的流场进行了分析,得到了与魏蕤等相同的结论,即空调对角放置具有最佳的冷却效果和最低能耗水平。吕超等[12]将空调出风方向与机柜走向呈平行布置后发现,冷却气流的流动阻力显著降低,空调冷量能够得到更充分的利用。
当机柜呈顺向排列时,如前文所述,上游设备排出的高温气流与冷却气流混合后进入下游设备,导致下游设备进风温度升高,不利于设备的稳定运行。因此,将相邻的两排机柜调整为相对排列,有利于形成分离的冷热通道(如图6所示)[19],能够有效避免冷热气流掺混,有利于设备冷却,同时降低空调的能耗水平。陈岩松[14]对比了机柜分别呈对向排列和顺向排列时的流场和温度场情况,发现当对向排列的室内最高温度与顺向排列时相比降低了8℃左右,同时机柜进风温度和冷热气流掺混程度均有所降低。韦新东等[20]通过设置冷热通道分离式的数据中心,改善了机房内的气流短路,解决了出风口远端机柜的过热问题。此外,根据设备功耗水平,将高功耗设备靠近出风口放置,对空调系统冷量进行阶梯利用,同样有利于改善局部过热,提高室内温度均匀性[16]。
2.2 采用精确送风技术
上送风形式的机房具有建设周期短、投资少的特点,在早期被大量采用且至今仍有较大的保有量[21]。其气流组织形式为敞开式,受机房设备陈列影响,气流组织较为混乱且存在送风损失,部分设备无法获得充足的冷量[22]。通过对送风设备进行改造,利用改装风道、加装全封闭风管的方式,对每台机柜进行独立送风,可将冷气流直接输送至机柜内部,减小冷量损失,如图7所示。这一技术称为精确送风技术。若对各分支风管加装调节阀,还可独立控制各设备的风量[8]。因此该方法可以避免将冷量消耗在对温度并不敏感的区域,例如远离机柜的空间及过道内。但该方法的实施受到了机房物理空间的限制。研究表明,采用精确送风技术后可以有效改善上送风空调系统的各项短板[23]。张贺新等[24]对某通信机房进行精确送风改造后发现,不同机柜的排风温度的降幅均在2℃以上,说明该技术能够显著改善机房的局部热点问题,降低空调系统的制冷负荷,具有良好的节能效益。但是采用风管进行精确送风时,可能遇到流动阻力增大,风量不稳定的情况,因此在进行管路设计时需要特别留意[25]。对于采用下送风方式的机房,可在易产生局部热点的机柜附近加装智能送风地板[26],当空调系统默认运行模式无法满足散热需求时,独立开启并根据设备温度高低智能进行风量调节,从而实现动态调控的效果。
2.3 冷通道封闭技术
对于机柜对向布置的下送风机房,机柜面对面、背对背的排列方式使得冷热气流形成了天然的隔离通道。但由于气体散逸、流场扰动等因素,冷热气流仍会发生一定程度的掺混,从而导致冷量浪费、局部温度过高等后果[27]。通过使用通道门、顶棚、机柜盲板等部件将冷通道封闭,将冷空气与热空气进行物理隔离,可使冷空气均匀进入机柜内部,消除局部热点,同时降低空调能耗水平[28]。这一手段称为冷通道封闭技术,其原理如图8所示。由于冷通道封闭技术手段成熟,且机房内设备尺寸和间距统一,可采用模块化安装方式降低施工复杂度,因此得到了广泛应用[29-30]。此外,该技术可与监控、消防及制冷等系统进行联动控制[31],进一步增加了机房运行的稳定性。陈杰[32]对某自建机房的改造项目中提出了冷通道封闭的实施方案,并对其效果进行了数值模拟研究。结果表明,冷通道封闭后,有效抑制了气流短路的现象,进入机柜内部的空气流量增大,且机柜内部各服务器温度一致性得到了明显提升。同时,进风温度和排风温度均有所下降,说明空调系统负荷可进一步降低。高月芬等[33]在对采取了冷通道封闭措施的北京某数据中心进行分析时发现,在保证基本温控要求的条件下,空调送风温度可提高4℃,同时将年自然冷源利用天数延长约40 d,等效节省电能10 000 kWh/y,经济效益明显。
3 结论
随着网络设备的更新扩容,已建成机房的空调系统逐渐无法满足因功耗上涨而提高的散热需求,从而导致室内局部温度过高,设备运行不稳定等后果。影响机房温控散热效果的主要因素包括:冷热气流掺混导致进风温度提高的送风损失,空调系统的制冷量在送风过程中已被损耗;冷气流未经散热设备而直接进入空调回风口的气流短路,空调冷量被直接浪费;以及室内设备布局不合理由,导致流动阻力过大,发热功率分布不均等一系列问题。为了不影响现有设备的连续稳定运行状态,保障生产生活,可以通过调整优化设备布局,添加风管、智能送风地板等精确送风装置以及冷通道封闭技术等手段,提高空调系统的冷量利用率,减少局部热点的产生,改善室内热环境。
4 展望
经过数十年的发展演变,数据机房正朝着现代化的方向不断进步,例如采用模块化设备降低施工复杂度,采用自然冷源、精准化控温等手段减少冷却系统能耗,动态化智能化的任务分配以平衡各设备的负载。采用绿色、低碳甚至冷排放的理念进行数据中心的规划建设固然是未来的发展趋势,然而各行各业仍有相当数量的老旧机房尚在服役且发挥着不可替代的作用。如何在保障机房平稳运行的前提下,采用合理化手段对机房进行改造,降低机房能耗水平、改善热环境,并在服役末期实现新旧机房的平稳过渡,对“双碳”政策背景下的社会发展有着重要意义。