整机柜服务器在数据中心的应用与研究
2022-06-24孙淳晔李红双高彦平
[孙淳晔 李红双 高彦平]
1 引言
随着云计算、大数据、物联网和移动互联网的蓬勃发展,运营商云资源池需求急剧增长,导致底层支撑的各类数据中心也在快速增加,在缩短建设周期、降低复杂性及成本等一系列要求下,数据中心基础设施采用模块化、标准化的建设方式已经成为一种趋势或标准。整机柜服务器作为一种一体化的集成交付模式,具有较高的管理效率和快速的交付速度,将成为数据中心部署方式的一个新方向。
2 行业分析
整机柜服务器的方案最初由Facebook 公司于2011年提出,并基于此发起成立了国际最大IT 平台开放组织“Open Compute Project(OCP)”,旨在通过定制化的模式,实现与数据中心、网络架构以及应用软件技术的匹配,降低硬件成本。
国内整机柜的研究最早可追溯至2011 年的第一届云计算大会,BAT、华为等巨头企业联合成立天蝎联盟[1]。2014 年,天蝎联盟升级为国内IT 平台开放组织“开放数据中心委员会(ODCC)”,引入了网络、服务器、硬盘、数据中心等更多的工作组,并陆续发布了天蝎整机柜规范族系列,随后近些年陆续制定和升级了技术标准。
其中以京东、阿里、华为整机柜项目发展最为迅猛,典型代表为阿里巴巴的方升整机柜项目,京东的京东智能云整机柜项目,华为的FusionPoD 整机柜项目等。截止至2020 年底华为云在公有云市场已完成近十万台服务器整机柜交付规模,其余如12306、教育、公安行业也存在大量应用,整机柜的业内认可度可见一斑。
3 整体构成及优势
源于模块化的思想,整机柜服务器是将电源、制冷、管理以及基本的计算、存储、网络设备模块集成在一个机柜内,从而形成一个整体平台。整机柜服务器出厂前即完成软硬件预安装和预集成,能够实现IT 基础设施的整体交付、业务快速部署和IT 环境的简易高效运维。
整体分为机柜子系统、网络子系统、供电子系统、服务器节点子系统、集中散热子系统、集中管理子系统共六大部分[2]。其中网络子系统、服务器节点子系统是整机柜的核心组件,集中散热子系统、集中管理子系统、供电子系统为可选部分,即可以使用数据中心提供的配套设施。
机柜子系统主要采用主流标准机架的外形尺寸,通用高度为2 200 mm、宽度600 mm、深度1 200 mm,机柜可用空间46U,机柜前后立柱支持可调整,满足深度较大的大型网络设备安装,机柜内配置若干副L 型托架,满足部分无滑轨的小型设备安装固定。
集中电源子系统采用模块化设计方案。配电单元既可以输出220 V 交流电,也可通过内置电源模块,输出12 V直流电源,提供双路UPS 输出,满足各类IT 设备供电需求,单路支持5~10 kW 的供电容量。电源可选择支持220 VAC、380 VAC、240 VDC、336 VDC 等多种输入规格,PDU 为智能PDU 设备,可提供欧标、国标10/16 A 两种输出规格,支持本地查看电压、总电流、分电流、告警状态等参数信息。
整机柜服务器与传统机柜服务器相比主要有以下特点:
(1)集中散热:可定制机柜为后部集成方式,即机柜后部出厂时集成了由若干个风扇窗组成的风扇墙,为机柜内所有服务器提供散热;
(2)集中管理:机柜内配置机柜管理模块,负责整机柜的散热、供电、监控等管理功能;
(3)一体化交付:在工厂完成组装、测试及线缆布放,实现一体化交付使用,有效提高交付效率;
(4)集中管理:机柜内配置机柜管理模块,负责整机柜的散热、供电、监控等管理功能。
4 应用场景分析
随着整机柜的发展,整机柜产品已发展具备了多种形态,除46U 整机柜,还有24U、12U 甚至更微型的形态,满足了越来越丰富的业务需求,形成了面向多种业务场景,覆盖不同规模数据中心的产品系列。
(1)数据中心大规模部署场景
大型数据中心主要应用46U 标准整机柜产品,传统机房高密部署主要受限于机房的空间及供电,以机柜为整体单元将供电单元、散热单元池化,减少辅助模块的空间占用,可布置更多节点。与传统服务器相比可实现部署密度提高1~2 倍,大幅提高空间利用率。集中供电和散热的设计使电源负载率可提高到40~50%,电源效率可以达到90~94%(传统机架式服务器的电源效率仅为80~85%)。整机柜可提供独立的工作空间和维护空间,解决机房局部热点问题,实现机房节能改造。
整机柜服务器能够支持水泥地面安装和架空地板安装。组建快速灵活,可按需部署,建设周期比传统服务器机房大大缩短。
该类设备主要适用于运营商私有云、专有云/混合云、大数据等大规模业务需求场景,实现大规模快速交付,本地高性能要求,对于机房环境有一定要求。
(2)边缘计算型场景
整机柜服务器具备工厂预制、整机交付的部署能力,特别是在远离大城市的地区,把大部分组装工作转移到工厂预先完成,再通过整机柜进行现场快速部署,与传统的机架式服务器相比,日交付量可以得到极大提高。
边缘场景主要以中型24U 为主,大型46U 整机柜为辅,适用于中小型数据中心机房的快速建设,边缘云视频监控、AI 训练/推理等场景,为单机柜数据中心,不依赖机房环境,可独立配电、备电、散热、降噪,对安装部署环境要求低。
(3)轻量化部署场景
主要尺寸有24U、12U,更多适配办公桌面、智慧课堂、客服座席等,实现办公协同一体,对部署环境无要求,上电即可实现业务快速上线,显著提升业务部署效率。
5 实际案例分析
基于整机柜服务器的优势,运营商也在积极进行应用尝试,积累经验。目前运营商领域主要以数据中心型为主,本节以某节点云资源池新建POD 为例,探索使用整机柜集成交付方式,验证交付流程及机房环境整体要求。
该POD 整体规模约千台服务器,单独采购了整机柜服务器产品,使用7kW 整机柜,配件包括一级集采服务器、一级集采TOR 交换机、PDU,不包括散热、电源及管理模块,整机柜在发货前统一做好了柜内网络布线预集成,目标机房分配数据中心标准机房模块,机房内配置冷热通道、列间空调及其他基础设施建设。机房在整机柜服务器使用前先进行了适配改造。
目标机房为架空地板,入门处为双层台阶导致机柜进入机房受限,考虑整机柜重量较大,可倾斜度小,对台阶及门内部分面积进行了加装斜坡优化改造,保证机柜顺利进入机房。
图1 机房斜坡
由于机柜重量较大,单机柜质量约为500~700 kg,考虑到安全性,单个整机柜搬运由多名实施人员共同完成,同时为防止地板损坏,机房内未拆除地板的运输通道铺设防刮垫及承重钢板。
图2 机房承重板
该机房为列间空调制冷,机房交付时空调末端已安装加固完毕,紧凑的空间也给机柜部署带来了一定困难,最终通过微调空调末端保证了机柜的顺利入位部署及加固。
通过本工程实施结果得出,整机柜节省了柜内设备上架、柜内布线、柜内线缆测试、配置调测等集成费,交付时间相较于传统交付有30%以上的提升,节省了近百万投资规模。
6 机房配套建议
采用整机柜后节省了柜内若干工作量,显著提高了整体交付进程,但由于整机柜质量重、体积大的特点会造成运输困难,对机房的整体配套环境存在特定性要求,因此在进行整体机房规划时,建议提前按整机房模块规划并预留整机柜机房,普通标准机房后续再改造为整机柜专用机房会额外增加工作量。通过本期工程实际施工,进行了经验总结。
(1)卸货平台和货梯
进行机房建设时建议尽量考虑未来可能进入的大型设备、整机柜等大设备,一层卸货平台尽量做大,提升拆包和转运效率。
卸货平台后是货梯,需要保证两部以上电梯,并尽可能提高电梯轿厢体积及承重,便于大型设备能够进入且能尽量多的进行转运。楼道地面与电梯轿厢之间缝隙尽量小、紧密,防止缝隙卡住脚轮。
(2)地面及入户
机房内外地面在同一水平面无落差可直接将整机柜推进机房,需入门高度大于机柜高度,此种方式最为简单、快捷。
若机房为架空防静电地板,需要有保证机柜能够顺利进入机房的措施,保证机柜在搬运过程中最大倾斜不超过7 度,同时做好地面防护,防止地板刮擦及承重不均造成损坏及塌陷意外。
(3)供电及散热
随着数据业务高速发展,对服务器密度和算力的要求会越来越高,CPU 性能会越来越强,相应的功耗也会越来越高,对机房有更高的供电要求和散热要求。
数据中心机房一般在机房配套项目中建设了电力系统,冷热通道制冷系统等,若采用此类机房,空调末端在未进行整机柜入位前需暂不进行固定,封闭通道不进行封闭,待依次将机柜按序推至指定安装位置后再整列调整加固及封道封闭。
对于小规模机房或局部过热机柜也可使用整机柜集成制冷散热模块方式,机房内不建设制冷设备,整机柜可以直接进入安装位置加固,避免了制冷设备与整机柜的错位冲突问题,此类方式势必增加机柜成本,要结合规模需求和单机柜成本统筹考虑。
(4)主设备选型
当前主设备集采模式为多厂家品牌采购,同样配置下各厂商性能、外观以及功耗均存在差异性,且整机柜中包含设备种类较多,各类服务器、交换机设备均为集采设备,建议采用同一厂家的服务器与机柜集成为同一厂家,一方面避免后续的异构服务器设备上架,一方面保证达到最佳节点密度和布局效果。
整机柜按照标准化POD 方式整体交付,即POD 内各典配模型服务器均以整机柜方式交付,目前在集采服务器中各典配模型分标段进行采购,同一厂家同时中标各标段的概率较小,且也无法保障中标厂家具备整机柜集成交付能力。
(5)自动化运维
云资源池建设模式下,每期的建设规模都在千台以上,海量的设备建设带来海量的设备运维,运维人员极可能面临陷入被设备告警淹没的困境,需要将人工智能算法与生产运维数据相结合,逐步向IT 云资源池智能运维、运营延伸,打造基于人工智能的数据中心全场景可视化、自动化、智能化的运维运营能力。
7 发展规划展望
整机柜服务器作为一种技术框架和交付模式的创新,能够显著提高部署密度,适用于规模化场景化的快速部署,后续将基于试点基础,对计算模型整机柜进行配置收敛,输出贴合业务场景需求整机柜产品,建立行业标准,推动生态发展。
在存储领域结合数据分级存储创新理念,将热数据、温数据、冷数据进行产品化融合,对应部署高密存储整机柜,以整机柜形式进行模块化交付,提升存储场景交付效率和数据交换效率。
在AI 领域,配合公司中台建设,结合液冷等相关绿色节能技术,进一步进行算力提升和部署密度,输出GPU液冷整机柜,解决GPU 现网部署痛点外,为集团“碳达峰”战略进行液冷技术储备。
8 总结
本文抛砖引玉,详细介绍了整机柜服务器的组成及前景应用,以某实际案例进行了定性及定量分析。整体而言,运营商在整机柜引入方面仍处于试点阶段,有着极为广阔的应用前景,后续将结合公司战略及需求,打造普适性通用产品,形成运营商自主可控的定制化整机柜方案,推动整机柜生态成熟,为后续整机柜规模化集中采购提供经验积累。