APP下载

南京大学大型高性能计算集群平台建设研究

2018-07-26游伟倩盛乐标张予倩

科技创新导报 2018年4期

游伟倩 盛乐标 张予倩

摘 要:2016年,南京大学高性能计算中心新建了一套大规模高性能计算集群系统。本文详细阐述了该套大型高性能计算集群系统的搭建过程。该套集群的各项存储以及Linpack测试结果,皆表明南京大学高性能集群系统的优良性能。

关键词:高性能计算 集群建设 Linpack测试 系统测试

中图分类号:G642 文献标识码:A 文章编号:1674-098X(2018)02(a)-0126-02

高性能计算(High Performance Computing, HPC)主要致力于开发超级计算机,提高并行计算效率。高性能计算集群主要用于处理复杂的科学计算问题。近些年,高性能计算发展非常迅速[1-6],高性能计算涉及的领域越来越宽广,由此各地的高性能计算机群也应运而生[7-10]。南京大学高性能计算中心[11]自2010年成立以来,先后搭建两套高性能计算机群。第一套IBM刀片集群于2009年建成,集群总的计算节点有402个,总计3216个核。由于这套设备不足以满足校内科研用户的计算需求。

1 Flex集群硬件配置

由南京大學Flex集群系统拓扑图见图1,该系统包含:

(1)管理节点配置:1台管理节点,负责系统的软硬件管理和系统部署,所配的型号为x3650 M5。

(2)作业调度节点配置:三台x3650 M5的作业调度节点,作业调度节点运行Platform LSF作业调度系统,其中一个节点运行Platform LSF的主调度程序,另外两个节点运行LSF从调度进程,三个节点组合保证了调度系统的高可用。

(3)登陆节点配置:4个联想Flex x240 M5登录节点,负责所有用户登录集群,进行源文件的编辑、编译以及提交作业使用。

(4)计算节点配置:总计910台Lenovo System Flex X240 M5刀片节点,共21840个CPU核,总CPU计算能力达873Tflops。可以满足大规模科学计算需求。

(5)其他硬件配置:KVM系统,本系统通过一套LCM8 KVM系统作为系统安装调试的显示。因为所有节点IMM管理接口都接入到硬件管理网络,所有刀片节点和机架节点通过IP管理和访问。显示系统,本系统配置1台笔记本电脑,作为系统管理的显示端。还配置大屏幕显示器2台,型号为于Sony KDL-75W850C,壁挂安装。机柜,本系统配置满足系统使用的42U机柜和相对应的PDU模块及相关线缆。

2 Flex集群软件配置

本中心接入校园万兆光纤至交换机,2条万兆线路接入登录刀片中心交换机。通过登录节点登录集群,集群软件配置如下。

(1)操作系统:本系统操作系统为Red Hat V6.7 。

(2)并行文件系统:本系统配置的并行文件系统为GPFS,GPFS是一种专门为群集环境设计的高性能、可扩展的并行文件系统。GPFS可以在群集中的多个节点间实现快速存取,为HPC系统在多节点实现单一的文件名空间和文件系统之间实现性能扩展和故障恢复。

(3)作业管理系统:IBM Spectrum LSF作业调度软件10.1.0.0。采用LSF作业调度系统进行调度管理,可以合理分布资源,除了一般的作业管理特性外,它还在负载平衡、系统容错、系统监视等方面发挥重要的作用。

(4)编译软件:目前Flex集群系统上已经安装的编译软件有Intel C version 17.0.1.132、Intel Fortran version 17.0.1.132、gcc version 4.4.7、gcc version 4.9.4、gcc version 5.4.0、openmpi version 1.10.1、openmpi version 2.0.1(intel编译器编译)。

(5)IBM Spectrum LSF RTM系统,该系统是面向IBM Spectrum LSF的一个管理系统,可以全面监控、报告和管理工作负载。

(6)LICO集群管理监控软件:可以利LICO 监控界面查看整个集群的状态显示。

(7)LDAP用户管理软件:可以通过ldap admin图形化工具及openldap命令两种方式进行管理。

3 Flex集群性能测试结果

3.1 ESS存储iozone性能测试

iozone是一个文件系统的benchmark工具,可以测试不同的操作系统中文件系统的读写性能。Flex集群ESS存储聚合带宽性能测试结果如表1:单位:(GB/s)

3.2 SSD存储iozone性能测试

同SSD性能测试一样,ssd存储存储聚合带宽性能测试结果如表2,15台IO server测试结果如下:单位:(GB/s)

3.3 Flex集群系统Linpack测试报告

硬件环境:计算节点,共有910台IBM Flex System x240服务器,每台服务器配置两路E5 2680v3 2.5GHz 12核处理器,128GB内存,使用FDR Infiniband互连。测试时采用899台节点测试结果最优。

软件环境:Intel Parallel Studio 2017。

测试结果:集群理论浮点计算峰值为

2.5×16×24×899=863040GFlops。

实测结果:687147GFlops。

效率:687147/863040*100%=79.62%。

由上述测试结果可见:ESS存储系统IO读写速度大于等于18GB/s,SSD并行存储IO读写速度大于等于80GB/s,Linpack测试结果为79.62%。众所周知,由于在超大规模集群系统中,存储的IO性能是整个计算系统的最大瓶颈, 而我们这两套存储系统不论在存储容量上和IO读写带宽上都达到了很高的标准,为整个系统安全、可靠、高效的运行提供了强有力的保障。

4 结语

南京大学高性能计算中心一直走在高校高性能计算的前沿,本文以“中心”新建的Flex集群系统为对象,详细阐述了整个系统的构架以及各个硬件系统配置。最后给出该套系统的测试结果,这些测试指标证明该套系统的性能优越性。Flex集群系统共计包括两万多个核数,目前规模在国内高校位列第一,由于其规模巨大且性能高,势必将为南京大学乃至全国的从事高性能计算的科研人员或企事业单位作出更好的计算服务,也为国内的高性能计算发展起到一个良好的带头作用。

参考文献

[1] 黄建忠,张沪寅,程媛.开放式高性能计算平台的建设与研究[J].计算机教育,2012(22):55-59.

[2] 迟学斌,赵毅.高性能计算技术及其应用[J].学科发展,2007,22(4):306-313.

[3] 周兴铭.高性能计算技术发展[J].自然杂志,2011,33(5):249-254.

[4] 李红梅.Linux高性能计算集群的设计与实现[J].计算机工程应用技术,2008(14):971-973.

[5] 李波,曹福毅,王祥凤.高性能计算机技术发展概述[J].沈阳工程学院学报,2012,8(3):252-254.