高功率密度数据机房无连续制冷的风险分析
2014-02-09
(中国移动国际信息港建设中心,北京 102206)
高功率密度数据机房无连续制冷的风险分析
吕珂,李明江,李智刚
(中国移动国际信息港建设中心,北京 102206)
随着高功率密度数据中心的发展,空调系统的持续制冷能力已成为决定高功率密度数据中心能否安全、稳定运行的重要因素之一。本文通过实验对高功率密度数据机房无连续制冷的风险进行了分析,并结合实验结果对高功率密度数据中心的建设提出了一些建议。
高功率密度;数据中心;持续制冷;
1 引言
近年来随着云计算技术的快速发展,全球数据中心开始向着大体量、巨型化的方向发展,单机柜功率密度不断提高,国内新建的数据中心中5 kW/机柜、7 kW/机柜甚至更高功率密度的机房不断出现。高功率密度机房对空调系统提出了更高要求,空调系统短时间停止工作即会造成IT设备过热宕机,从而引起业务中断。数据中心空调系统的持续制冷能力已成为决定高功率密度数据中心能否安全、稳定运行的重要因素之一。
为模拟高功率密度数据机房无持续制冷条件下空调系统发生断电故障后机房的温升情况及存在的风险,笔者曾利用假负载对数据中心机房进行大规模温升测试。本文结合实验结果及笔者自身工作经验对高功率密度数据中心的温升、空调系统持续制冷、机柜的功率密度及气流组织优化措施之间相互影响进行分析和探讨。
2 高功率密度数据中心特点
数据机房内的热量主要由IT设备的功率决定,随着数据中心的服务器、交换机、存储器等IT设备集成度、精密性越来越高,使得数据中心的热负荷明显表现为:热负荷大、湿负荷小、单位体积发热量越来越大的特点。而IT设备功率密度的不断提高,机房的热量进一步集中,由功率密度不均造成的热点不均、局部过热成为新的维护管理难点[1];机房空间利用率提高使空间冷量相对减少,对不间断制冷提出了更高要求[2],空调系统短时间停止运行都将造成机房内热量的快速堆积,并引发设备高温宕机,因此空调系统已成为决定数据安全稳定运行的重要因素之一。
3 测试依据
根据ASHARE(美国采暖、制冷与空调工程师学会)的建议,服务器运行时工作环境的推荐进风温度为18℃~27℃,进风允许的最高温度为32℃,超过最高运行温度服务器性能开始下降,故障率升高并存在发生宕机的风险[3]。目前市场主流服务器进出风温差一般在10℃左右,温差过大则表明服务器进风风量不足,设备散热不佳,发生高温宕机风险较高。本次假负载模拟测试以服务器进风口温度达到32℃和出风口温度达到42℃两个指标作为测试关键点。
4 数据机房温升测试及分析
针对不同功率密度数据中心机房温升情况,目前业界多采用流体力学计算(Computational Fluid Dynamics,CFD)软件对机房内的温度场进行模拟和仿真评估,仿真结果与机房实际运行情况往往存在一定的差距。笔者工作中主要负责数据中心运维管理,为了准确掌握高功率密度数据中心机房无持续制冷条件下机房的温升情况,曾利用假负载分别对3 kW、5 kW功率密度机房进行模拟测试,以下将对测试结果进行分析。
4.1 测试环境搭建
选择IT设备安装面积约350 m2(35 m×10 m)的数据机房一个,机房内安装有前门封闭的42 U机柜158个,分14列安装,单机柜功率密度5kW。机房制冷采用冷水型空调双侧下送风上回风,地板高度650 mm,机房层高4.8 m。空调系统冷冻水温度设定值:供水10℃、回水15℃。为更接近服务器实际运行状态,机房中间位置3个机柜(图1中黑框位置)均采用2 kW、1.5 kW、1.5 kW假负载组合方式安装,并选择最中间一个机柜作为试验监测点;机房内其他机柜均安装机架式6 kW可调假负载1个,假负载详细布局见图1所示。
受条件所限机柜内未安装盲板对冷热通道进行隔离,假负载在机柜内基本集中在中间位置,与服务器实际安装情况也会有所不同。虽然本实验与机房机房后实际运行情况有所差别,但对研究高功率密度机房的散热及进行空调系统设计仍具有一定的指导意义。
本次测试在样本柜上设置12个采温点,如图2所示,其中机柜正面4个,背面8个(测点布局如图2所示,1 U=4.445 cm),采集周期5秒/次。采用具备多路温度采集的温度测试仪对目标机柜进行温度监测。
4.2 5 kW机柜温升测试
图1 假负载安装示意图
图2 测温点位置
按照5 kW设计功率密度对机房温升情况进行测试,模拟末端空调、冷冻水泵均未配置不间断电源条件下空调断电后机房、机柜温升。测试前将所有机柜假负载调整为5kW,机房空调回风温度设置23℃,机房外环境温度23℃。通过一段时间运行使机房进风口温度稳定在20℃左右,此时出风温度采集值稳定在18℃~30℃之间,出风口温度与进风口温度差值基本保持10℃左右。此时分断机房双侧空调供电,模拟空调系统断电。测试数据如图3所示。
从温度曲线图可以发现,双侧末端空调电源中断后进出风口温度均出现快速上升。末端空调停电125 s时出风温度已达到42℃,而此时进风温度约22.5℃,温差达19.5℃,已偏离10℃的建议值。13 min时进风温度达到32℃,此时出风温度已达约56.4℃,温差达24.4℃。由于笔者所选测试机房采用的机柜封闭了冷通道,当末端空调断电后冷通道阻断了机房内气流循环,造成IT设备进风不足、散热不佳。恢复供电后因冷冻水泵和冷水机组均正常运行,温度迅速下降。
根据测试结果,末端空调断电125 s,出风最高温度即达到42℃,即可能导致IT设备运行异常。一旦发生双路市电停电事故,在如此短的时间内维护人员根本来不及采取供电恢复措施。
4.3 3 kW机柜温升测试
为对比不同装机功率密度对机房温升的影响,笔者对3 kW功率密度机房的温升情况进行测试,模拟末端空调、冷冻水泵均未配置不间断电源条件下空调断电后机房、机柜温升。测试前将机房所有机柜的假负载调整为3 kW,机房空调回风温度设置23℃,机房外环境温度23℃。通过一段时间运行使机房进风口温度稳定在20℃左右,此时出风温度采集值稳定在18℃~30℃之间,与进风温度差值基本保持10℃左右。此时分断机房双侧空调供电,模拟空调系统断电。测试数据如图4所示。
从测试温升曲线看,末端空调断电后机柜进出风口温度均出现明显上升,但上升速度较5 kW机柜明显放缓。末端空调停机状况下3 kW机柜出风温度达到42℃的时长为10 min,而5 kW机柜仅为125 s,进风约28.2℃,进出风口温差14.2℃,温差偏离不大;停机1 095 s时进风温度达32℃,出风约47.8℃,进出风口温差约15℃。
图3 5 kW/机柜末端空调、冷冻水泵均无后备电源时机柜温升曲线
图4 3 kW/机柜末端空调、冷冻水泵均无后备电源时机柜温升曲线
上述两个模拟测试结果表明,不同功率密度机柜对空调系统制冷能力要求不同。在笔者实验机房环境下,功率密度为5 kW/机柜时若末端空调和冷冻水泵不配置不间断电源,发生空调系统断电时,125 s出风温度就达到42℃,已有出现IT设备热保护宕机的风险;功率密度为3 kW/机柜时,若末端空调和冷冻水泵同样不配置不间断电源,发生空调系统断电后服务器出风温度达到42℃的时长为10 min,留给维护人员处理时间相应增长。由此可见,设计高功率密度数据机房的空调系统时必须考虑空调系统的不间断制冷问题,为末端空调、冷冻水泵等空调系统关键设备配置不间断电源,以保证供电中断情况下空调系统可以为机房的IT设备提供持续的供冷能力。
4.4 气流组织优化措施对机房制冷影响测试
分析上述两个实验结果可以发现,位于机柜进风侧靠近机柜下方进风口的两个采温点在整个测试过程中温升幅度很小,笔者认为造成这一结果的原因是本次测试所选的机房采取了封闭冷通道的气流组织优化措施。
机房安装的机柜为封闭前门的机柜,封闭冷风的前门组成了一个小容量的冷通道,在末端空调断电停机的情况下封闭的前门阻断了机房内空气流通。当末端空调断电停机后静压箱内因末端空调风机停转造成无气流补充,IT设备的风扇仍在抽取地板下的冷风,静压箱内气压降低造成IT设备进风量不足,IT设备风扇负荷加大、散热条件进一步恶化。IT设备进、出风口温差严重偏离10℃的标准,增加了IT设备宕机的风险。因此在设计高功率密度机房的空调系统时应同步考虑机房内是否采取了气流组织优化措施,并对优化措施在失去供冷时机房、机柜的温升情况进行充分评估。
基于以上分析,为了验证机房气流组织优化措施对机房、机柜温升的影响,针对测试机房所采用的前门封闭机柜对制冷的影响笔者也进行了相应实验。在功率密度同样为5 kW/机柜条件下,模拟为机房末端空调配置不间断电源,使机房无气流阻断情况下发生双路市电故障时机房、机柜温升情况如图5所示。
市电中断前进风口温度在20℃~22℃之间,出风口温度在28℃~ 37℃之间。从切断冷冻水源开始计时,末端空调继续运行。测试15 min时,出风口温度达到42℃,此时进风温度25℃。
模拟测试验证了在封闭冷通道情况下若末端空调无不间断电源供电将进一步导致IT设备散热恶化,加剧高温宕机风险。因此在对机房采取气流组织优化措施时应同步考虑优化措施对机房制冷造成的影响。
图5 5 kW/机柜末端空调配置后备电源时机柜温升曲线
5 结论
数据机房内安装的IT设备能长期、安全、可靠运行的前提条件之一是:必须长期、连续、稳定地确保这些设备的环境温度和湿度被控制在合适的范围内。笔者的测试结果虽然因条件限制无法完全模拟机房装机后运行情况,但也尽可能真实地展示了高功率密度数据中心机房内不同状态下机柜环境温度上升情况,进一步证明了数据中心空调制冷与电力系统同等重要。
因此在进行高功率密度数据机房规划设计时应充分考虑空调系统的不间断供冷能力。尤其是机房末端空调不具备不间断供电能力且配置了高压发电机作为备用电源的数据中心,必须考虑当地供电部门对高压油机自动投切的限制。目前许多地方电力部门不允许高压油机向高压母线自动投切,高压油机并机后必须依靠维护人员通过手动方式将发电机供电投入高压母线段。此状态下外市电中断后发电机供电尚未投入,机房内的IT设备通过UPS供电正常运行,但由于冷却系统无后备电源需等待发电机恢复供电后重新启动,而依靠维护人员的手动操作将很难在极短的时间内完成。此段时间内IT设备的温度在较短的时间内将因散热能力不足而快速累积并超过限值,从而引起高温宕机和业务中断。
[1] 张广明,陈冰,张彦和. 数据中心基础设施设计与建设[M].北京:电子工业出版社. 2012.
[2] 钟景华,朱利伟,曹播等. 新一代绿色数据中心的规划与设计[M]. 北京:电子工业出版社. 2010.
[3] ASHRAE TC 9.9.数据处理环境热指南[M]. USA, 2010.
Risk analysis of high power density data room which without continuous cooling system
LV Ke, LI Ming-jiang, LI Zhi-gang
(Center of International Port Construction, China Mobile Communications Corporation, Beijing, 102206, China)
As the development of high power density data center, the continuous cooling capability has became the most important factor of whether the data center can safe and steady operation. In order to analyze the temperature increase when the cooling system lost power in 'high power density data center, the author has used dummy load to simulate. This article analyses the result of the test, and give some suggests for the design of high power density data center.
high power density; data center; continuous cooling
TN919.5
B
1008-5599(2014)07-0041-05
2014-06-10