APP下载

LICO管理软件在南大高性能计算集群中的应用

2018-02-28游伟倩张予倩盛乐标

电子技术与软件工程 2018年13期

游伟倩 张予倩 盛乐标

摘要 大型高性能计算集群的管理与维护是每个高性能计算中心的重要任务。本文以南京大学新搭建的一套大规模集群为案例,详细阐述了LICO管理软件在集群管理与维护中起到的作用。管理软件不仅方便了系统管理员,也为用户更好的使用高性能计算集群起到效果。

【关键词】高性能计算 系统管理软件 集群管理

高性能计算(High PerformanceComputing, HPC)主要研究开发超级计算机,提高集群并行计算效率。近些年,高性能计算发展非常迅速,高性能计算涉及的领域越来越宽广,由此各地的高性能计算机群也应运而生。南京大学高性能计算中心于2015年12月投资了5000万,建设了一套联想Flex集群(由于该套集群的刀片服务器型号为联想Flexx240 M5,因此该套系统后面均简写为Flex集群),这套系统910个CPU计算节点,共计21840个CPU核;有两套存储设备:一套用作家目录存储系统(存储容量:2PB;其读写带宽>15GB/s),另一套为高速并行存储系统(裸容量:1.2PB;其读写带宽>75GB/s),Flex集群系统的CPU理论峰值达到870万亿次浮点运算/秒。目前该套系统在高校高性能计算集群中规模排第一,该套計算集群己于2017年5月正式投入使用,为南京大学校内外科研计算提供了良好的服务。随着大规模计算集群的应运而生,很多人对于高性能计算集群的管理与运维也投入大量的研究,我们也不例外。为了使整个庞大的计算集群可以安全的运行与管理,本套集群中安装了各种管理软件,如LICO集群管理监控软件和LDAP用户管理软件,另外还安装了Paramon和Paratune应用运行特征收集软件和分析软件。下面将以该套高性能计算集群为研究对象,详细阐述一下LICO管理软件在整套集群系统中各自所起的作用。

1 LICO登陆界面

这里首先介绍一下,南京大学Flex集群安装了Platform LSF作业调度系统,集群总计三个作业调度节点,分别为job01、job02、job03,其中一个节点运行Platform LSF的主调度程序,另外两个节点运行LSF从调度进程,三个节点组合保证了调度系统的高可用。LICO安装在job03节点,系统管理员可以从网页直接登录界面,LICO首页登陆界面如图1。

用户名登陆类别分为两类:系统管理员和普通操作员。管理员可以看到整个计算机集群和所有用户的信息,而操作员只能看到自己有权限访问的资源和自己的用户信息。作为Flex集群系统管理员,在输入用户名和密码后,即可登陆看到管理员界面如图2。

在左侧,我们可以看到主页:首页,显示集群基本信息。用户:界面显示普通用户管理页,Flex集群系统管理员可以对用户或者组,做一些简单的基本操作。监控选项:监控Flex集群系统。集群管理:可以对Flex集群做一些管理设置。集群比较常用的是监控、报告以及设置三个窗口,后面会详细讲解。

2 查看集群基本状态

在管理员主页上如图2所示,可以查看整个Flex集群的基本状态,这里可以看到以下信息:

2.1 hpc.com

集群名字。

2.2 集群CPU

服务器集群CPU的利用率,包括已经被占用的CPU核数和整个集群总共具有的CPU核数。目前Flex集群被占用核数为14560个,集群总开机核数18 600个,CPU利用率为78%。

2.3 集群内存

整个服务器集群系统的内存的利用率,包括集群总共具有的内存大小和已经被占用的内存大小。图2显示Flex集群内存使用率为15.91%,说明目前集群内存资源充足。

2.4 集群存储

表示整个集群存储系统的利用率,包括集群总共具有的存储空间大小和已经被占用存储空间大小。这里仅显示Flex集群家目录总存储容量为1.3 9PB,已经使用80.56TB。

2.5 作业

显示作业的历史信息,包括运行中的作业数,正在等待中的作业数和已经结束的作业数。管理员可以选择显示全部队列的作业数,也可以指定显示某个队列的作业数。时间上可以选择分别显示:过去一小时或者一天或者七天或者三十天的作业数。作业类型上可以设置分别显示己完成和的未完成作业数。从图中,系统管理员可以根据自己的需求设置各种选项,查看当前的集群上运行的作业情况。对于了解集群作业运行情况有一个比较全面的了解。

2.6 节点占用情况

显示整个计算集群中的节点占用情况:包括忙碌,占用,空闲和关机。判断这些节点占用情况的主要依据是各个节点的平均每分钟的进程负载量。节点占用情况可以让系统管理员详细了解集群的负载情况。

2.7 网络吞吐

表示整个集群服务器网络的吞吐量,包括写速率和读速率。从图中可以看到当前集群系统读速度和写速度。系统管理员可以通过这个大概了解一下集群系统的网络是否有异常。

由上述集群的基本状态参数,系统管理员就能对整个集群做出一个初步判断。如果发现哪方面有异常,再去找到问题所在,进而解决问题。需要指出的是,Flex集群系统共具有两套存储系统,但是由于LICO系统只能显示一个存储系统,所以SSD并行存储系统无法在此显示。这也是LICO管理集群目前存在的一个缺点。

3 LICO监控界面

点开图2左侧的监控选项,就会出现如图3所示页面,可以看到列表视图、物理视图、分组视图、GPU视图、作业列表、报警列表、以及操作列表选项。这里Flex集群比较常用的主要包括列表试图和分组视图以及作业列表界面。

3.1 列表视图

从列表视图中可以看到Flex集群所有节点的状态,具体包括:开关机状态、分组、ip地址以及其硬件配置。也可以在此界面上对某些节点做开关机处理。当系统管理员远程监控集群时,这就显得非常方便且直观。

3.2 分组视图

分组视图与列表视图的区别在于,系统管理员可以输入组名,然后查看指定组内的机器状态,如图4所示,图中仅显示compute组内的所有节点状态。

3.3 作业列表

系统管理员最常关心的是当前集群的作业运行情况,是否出现排队现象。若想了解这些情况,可以点击作业列表选项,如图5所示。从这里系统管理员可以看到所有Flex集群上的作业,包括运行中、等待以及己完成的作业。每个作业的详细信息也都有显示,可以看到Flex集群的某个作业id是136424,作业名字为DSM Ol.sh,提交作业的用户为twang,作业提交到了MPI队列,还包括作业的提交时间及运行了多长时间。非常详细且直观,对于系统管理员远程掌握当前集群中作业运行情况,有很大的帮助。

4 LICO用户界面

点开图2的右侧蓝色按钮就进入Flex集群LICO用户界面,用户界面首页和管理员首页界面一样,可以看到集群的cpu使用、存储、网络等状态。用户界面如图6所示,最常用的就是作业提交选项,下面主要就提交作业作一详细介绍,其他如作业列表、专家模式等选项不再一一叙述。

点开Flex集群作业提交界面如图6所示。用户可以看到四个选项,包括提交作业、作业列表、专家模式和管理。用户最常用的就是作业提交。LICO作业提交界面有多种提交作业的方式,Flex集群用户可以根据自己使用的应用软件来进行选择提交模式。如点击MPI,就进入如图7所示的提交作业界面,在提交作业时,用户可以输入自己的作业名称,选定设置参数,可以设定工作目录、选择MPI程序以及相应的MPI环境配置文件等。另外可以设定作业所需要的资源,如:需要多少个节点数,需要多少核数,是否需要提交到大内存队列等。界面式作业提交方式对于很多不习惯用命令行提交作业的用户非常方便,也可以扩大集群使用范围,对于许多不太熟悉高性能计算的计算用户非常有帮助。

5 結束语

本文以南京大学大型Flex集群系统为研究对象,详细阐明了LICO管理软件在该套集群管理过程中所起的作用。它方便系统管理员远程管理整个Flex集群系统,同时也给整个集群用户提交作业带来了方便。总之,一套好的管理软件不仅可以服务于系统管理员,同时也可以让用户更加方便地使用集群,进而使高性能计算集群系统资源充分被使用。

参考文献

[1]迟学斌,赵毅,高性能计算技术及其应用[J].学科发展,2007,22 (04): 306-313.

[2]周兴铭,高性能计算技术发展[J].自然杂志,2011,33 (05): 249-254.

[3]盛乐标,游伟倩,周庆林,南京大学高性能计算中心建设的探索与实践[J].实验技术与管理,2013,20 (11):144-146.

[4]关伟豪,吴汝明,郭清顺等.中山大学高性能计算服务平台的建设[J].实验技术与管理,2011(04): 303-306.

[5]沈军,满家巨,聂作.高性能集群管理与优化[J].计算机与现代化,2007,138 (02): 84-88.

[6]邓宾,高性能计算集群的建立及管理[J].自动化与仪器仪表,2014,2:149-151.

[7]孟玲玲,高性能计算集群系统建设与运营管理研究[J],软件导刊,2017,16 (03):138-140.