ARM架构高性能计算机系统部署测试分析与应用
2023-12-28张恩红周钦强麦博儒王楠田群
张恩红,周钦强,麦博儒,王楠,田群
(1.广东省气象数据中心,广东广州 510080;2.中国气象局广州热带海洋气象研究所,广东广州 510640)
数值预报在天气预报的分析与制作中具有不可或缺的地位,很多学者在数值预报的展示、应用等方面做了众多研究,为天气预报准度和精度的提升做了很大贡献[1-3]。高性能计算机(High Performance Computing,HPC)在气象行业的数值预报发展中起到重要作用[4-5],随着HPC性能的提高,数值预报精度逐年在提升[6-8]。中国气象局在“十四五”规划中指出,要建设足够大算力资源以满足国产化的数值预报的需求,同时,还强调算力支撑平台全面国产化替代策略,提升气象业务应用支撑环境自主可控水平[9]。当前HPC大部分是国外芯片。受到国外核心技术输出的约束,无论是天河Ⅱ号,还是自建的IBM HPC系统,其维护成本高、难度大、周期长,对业务影响与日俱增。广东省气象局使用的HPC算力主要来自租赁天河Ⅱ号的资源,受到气象模式对巨大数据的需求量影响,仅仅能支撑基础业务,模式的发展受到严重的制约,无法得到满足。深圳超算中心,受到网络带宽成本的约束,暂时无法支持异地气象业务的应用。
近几年,很多国家和厂家开始提供ARM(Advanced RISC Machine,一款微处理器)芯片,生产和建设ARM 架构的高性能计算机。截至2022年5月,世界排名第2的日本富岳高性能计算机就是ARM架构,并且当前ARM架构服务器的市场增长率超过31%,而其他产品的市场增长率只有7%。近2年,很多行业开始建设基于ARM架构的HPC[10-11],华为HPC在交通、制造、科学计算、风电等行业得到很大应用。但是,在气象行业还没有成功的案例。为了达到自主可控,节能环保,广东省气象局首次结合气象行业应用的需求,建设了一套基于鲲鹏芯片的ARM架构HPC系统,实现HPC计算资源自主可控、绿色环保目的,达到碳源汇、环境气象和CMA-TRAMS等数值预报模式运算需求,为气象高质量发展保驾护航。随后,浙江省气象局、中国气象局也逐渐开始建设ARM的HPC系统,而且规模也越来越大。
1 ARM架构HPC系统设计
纯国产HPC是指整个系统的核心设备均为国产化设备,包括管理节点、计算节点、网络、存储等设备。为了实现HPC的高可用、快速计算的特性,并且达到低能耗的需求,服务器采用ARM架构的芯片,无疑是最好的选择,网络设备采用千兆以太网、万兆接入网和10万兆RoCE网络混合模式,既高效又节约。图1是系统网络逻辑架构示意图。
图1 HPC逻辑架构示意图
在管理节点设计上,采用2+2的方式,即2个系统管理节点,设计为双机互为备份功能。2个用户登入管理节点,设计为并列结构,两个节点的功能一致,但可以对用户进行分流管理,同时也可以互相备份功能,可以避免单点故障问题。该设计支持横向扩展,即当集群节点增加,用户数量增加,系统管理节点可以轻松的横向增加,用户登入节点也可以横向扩容。
在网络部署上,整个系统分为3个部分,包括带外管理、业务管理和快速计算网络。根据网络的功能特点,按需设计,既保证业务需求,又节约环保。带外管理业务用于对硬件系统的检查、监控与维护,对带宽需求不高,采用千兆网络;业务管理网络,需要跟HPC以外的业务系统有数据交换业务,对带宽和性能有较高的需求,采用万兆网络,即可保证业务及时传输;快速计算网络,采用100 G的RoCE网络,该网络是专门为HPC并行文件系统服务,用于实现并行计算时数据的快速交换。
在系统安全设计上,全网设备均配置了两条链路,实现一主一备配置,可以实时动态切换,以防出现网络层面的单点故障,导致系统性崩溃。
在存储资源上,配置了高性能的并行文件系统和大容量的NAS数据共享存储,并行文件系统用于数据并行计算和过程文件的存放,而NAS系统作为加工产品的存储与归档服务。
2 性能指标测试分析
HPC对整体性能要求较高,在基础建设完成之后,首先需要做全面的性能测试。采用4个管理节点,72个计算节点,1套并行文件系统、1套大容量的NAS存储和3层网络设备组成HPC。采用centos 7.6的操作系统,已安装毕昇编译器、Hyper MPI的软件环境。魏敏等[12]和孙婧等[13]、赵春燕等[14]对高性能计算系统性能测试提出了各自的方法,取得很好的评估效果。采用OSU、STREAM、IOR、HPL等专业测试工具对系统各个性能指标进行测试。
2.1 RoCE网络的带宽和延时测试
在HPC设计时,要求使用8850交换机单跳最低时延大概在1.8~2μs。带宽100 G网卡的带宽一般在95 GB/s(或12 GB/s左右),在测试时,时延判定以小数据包传输速率为准,带宽大小的判定以大数据包传输为准。
使用OSU对并行文件系统的测试,在传输文件内容大小超过4 MB时,网络传输带宽基本在12 GB/s以上,与设备设计参数相符。
在交换数据包小于128字节时,延迟均小于2μs,在小于1 kB的前提下,延迟测试基本小于3μs,满足高性能计算的数据交换速度要求,满足设计的指标要求。
2.2 STREAM测试计算节点内存读写性能
在HPC设计时,要求当前配置下的集群服务器内存访问速度大于230 GB/s。
该测试环境为对一个长度为10亿的数组进行测试,获得内存带宽的性能,主要有4种数组的运算,分别是数组的复制(Copy)、数组的尺度变换(Scale)、数组的矢量求和(Add)、数组的复合矢量求和(Triad),每次操作都需要2次以上的内存读写,从测试结果看都超过了230 GB/s。
2.3 IOR测试存储的读写性能
在HPC设计时,要求使用的内存单节点1 MB带宽读写,文件系统读带宽≥2.3 GB/s,写带宽≥3.6 GB/s。
在对HPC并行文件系统的读写性能测试时,测得读的速度在3.1 GB/s以上,写的速度为4.2 GB/s以上,两个指标都大于设计指标值。
2.4 HPL测试计算节点的计算性能
算力指标衡量计算系统的双精度浮点计算性能,经验值一般在85%以上(实测计算能力÷理论计算能力×100%)。
使用算力测试工具HPL分别对集群中1~72个节点做不同数量节点算力进行测试,测试结果表明,不同的节点数的算力测试都超过理论值的89%,超过了系统设计的指标值(表1)。
表1 不同节点数算力值实测结果1)
从以上测试结果表明,该系统的整体架构和设备性能基本达到各种设备的设计理论值,说明系统的连通性、协调性、一致性均已到达预期,可以投入业务使用。表2汇总了上述指标测试结果,从测试结果与设计指标的对比可以看出,所有指标均满足设计要求。
表2 各种性能测试汇总
3 系统业务试用
业务试用时部署了几个典型的数值预报模式,包括碳源汇、环境气象和GRAPES模式的CMA-TRAMS等模式。对每个模式进行功能调试和性能对比测试。
3.1 碳源汇模式
碳源汇模式使用WRF-GHG驱动,100×92格点,每个周期积分120 h,每1 h输出。使用4月份的输入数据,共运行9个周期。通过对Hybrid算法和数学库优化,编译使用鲲鹏数学库,能明显减低数学函数热点,总体性能约提升3%。选取一个周期在自建系统平台主程序拓展性的运行时长和线性度,如图2所示,从图2可以看出,模式运算并不是节点数越多,计算性能越高,结果表明双碳模式在8个节点时,性能就达到最优。利用该方案,共耗时1 190min完成9个周期的计算。编译选项优化后与初始配置相比,性能提升20%左右。
图2 碳源汇模式性能测试
3.2 GRAPES模式的测试
基于国产GRAPES模式的CMA-TRAMS软件9 km模式使用ECM驱动,1 001×601格点,积分168 h,每6 h输出。天河平台上使用20节点,用时202 min。自建系统平台使用20节点,用时73.6 min。同等节点数下自建系统平台性能约是原有天河平台的2.74倍。在同等算力下,自建系统平台采用6个节点,耗时195 min,功耗2 700 W;天河平台的20个节点,耗时202 min,功耗6 000W。在效率上,两者相当;在能耗上,自建系统有明显的优势,节能55%,充分体现出ARM架构绿色的特征。
分别计算自建系统和天河平台的预报结果与EC分析场数据的平均绝对误差(MAE),然后比较两个平台MAE的大小,数值越小说明与EC分析场数据越接近。
相对误差计算方法
在图3和图4中,0.01表示自建系统误差比天河高1%,-0.01则为自建系统误差比天河低1%。通过对比相对误差可以发现,方案调优之前,无论是位势高度,还是风速的预报,在6 000 m以下的低空范围,自建系统的误差远比天河的大;6 000 m以上,互有偏差。使用CU调整方案后,再分别对比自建系统平台、天河平台的MAE,发现天河跟自建系统平台结果非常接近,自建系统平台的计算精度满足要求。
图3 调整前(a)和调整后(b)的24 h位势高度预报的MAE
图4 调整前(a)和调整后(b)的24 h风速预报的MAE
3.3 环境气象模式的测试
环境气象模式使用CMAQ驱动,两层嵌套的区域格点数分别为283×184、250×190,预报168 h。自建系统平台上使用4节点,完整业务流程用时145 h。
通过对Hybrid算法和数学库优化,编译选项优化后与初始配置相比,性能提升5%左右。在编译时候,使用自建系统数学库,能明显减低数学函数热点,提升总体性能约1%。
开展了多CPU并行运算的计算效率评估。分别开展了60个CPU与120个CPU的模拟实验,得出在使用相同CPU的情况下,自建系统的计算效率高于天河二号。对比结果见表3。
表3 天河二号和自建系统运行耗时对比评估
从表3可以看出,60个CPU和120个CPU的测试场景,自建系统的耗时均小于天河Ⅱ号,效率提升24%以上。
经过对服务器、存储和网络等设备的综合选型和评估,再结合HPC的特征,采用ARM架构的服务器、3层不同级别的网络配置和高速与大容量存储的混合设计,构建了一套既节能又性价比高的超算系统。通过应用测试,完成碳源汇、环境和GRAPES模式的迁移,解决了X86架构到ARM架构的技术差异性问题,解决了ARM运行环境的生态支撑库不足的问题。对比自建的HPC系统与天河Ⅱ号系统,模式的输出结果及运行性能均达到或超过现在的业务需求。