APP下载

企业构建仿真高性能计算集群的探索与实践

2020-02-10汪宣晟何小红

中国管理信息化 2020年1期
关键词:仿真集群

汪宣晟 何小红

[摘    要] 信息化时代,面向海量信息或数据,信息的处理能力或数据的计算速率显得尤为重要。为提高信息处理能力或数据计算速率,高性能计算应运而生,目前,高性能计算集群已被广泛应用于各应用领域当中。本文主要以企业研发产品仿真计算领域为例,探索企业如何构建仿真高性能计算集群,并应用于结构、流体、电磁等多物理领域,从而提高企业仿真分析计算能力,提升企业核心竞争力。

[關键词] 高性能计算;集群;仿真

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 01. 041

[中图分类号] F270.7    [文献标识码]  A      [文章编号]  1673 - 0194(2020)01- 0098- 02

0      引    言

高性能计算(High Performance Computing,HPC),是指利用聚集起来的计算能力来处理标准工作站无法完成的数据密集型计算任务,包括仿真、建模和渲染等。目前,在信息技术飞速发展的时代,处理信息的能力尤为重要。而在未应用HPC之前,人们在处理各种计算问题时常常遇到这样的情况:由于需要大量的运算,一台通用的计算机无法在合理的时间内完成工作,或者由于所需的数据量过大而可用的资源有限,导致根本无法执行计算。HPC通过使用专门或高端的硬件,或是将多个单元的计算能力进行整合,能够有效地克服这些限制。因此,HPC被广泛应用于各行各业。

聚焦公司产品研发领域仿真计算,当前,公司研发人员在做仿真计算时,基本上使用自己本地电脑做仿真计算,条件稍好的研发部门会使用离散分布的服务器做仿真计算,由于单个计算机或离散服务器的硬件资源相对有限,导致在做一些规模大且任务重的计算时,往往会出现计算资源不够、计算时间过长、影响自己其他日常办公的情况,且无法对仿真数据资源进行集中统一管理。

上述问题或不足,对于研发仿真分析人员而言,尤其是经常需要做大规模计算或仿真任务中的人员,是极为不便的。

1      仿真高性能计算集群建设目标及原则

根据公司所处行业特点及产品研发人员实际需求,在探索并构建仿真高性能计算集群时,主要有以下四个方面的建设目标:一是,建成可扩展、稳定可靠、高效节能的高性能计算集群系统;二是,实现仿真计算资源的统一管理;三是,实现仿真计算作业及结果文件的统一管理;最后,保障仿真数据的安全。

同时,根据企业构建仿真高性能集群的实际情况,通常在构建仿真高性能计算集群时,主要遵循以下原则:第一,先进性原则,即选择代表先进水平和全球主流趋势的软硬件平台产品;第二,高管理性原则,即对所有计算机系统资源进行统一监控与管理;第三,开放性原则,即采用开放标准,开放结构,开放系统组件和用户接口;第四,高能效原则,即采用绿色节能设备和技术,使系统整体耗能较低。

2      仿真高性能计算集群总体架构设计

仿真高性能计算集群,主要是由硬件和软件两部分构成,其中,硬件主要包含管理节点、计算节点、存储系统及网络等;软件主要包含集群管理系统、作业调度系统、WEB门户、文件系统等。要具备可靠性、可用性、可扩展性和安全性等通用要求。集群总体架构图如图1所示。

2.1   仿真高性能计算集群硬件

高性能仿真计算集群硬件主要由管理节点、存储节点、刀片计算节点构成,其中:管理节点有2个(主要用于做集群系统的管理、用户访问接口等管理功能),其中1个为备份冗余;存储节点有4台(总共54TB,用于向服务器提供数据存取访问服务);计算节点有4个刀片,共144核,主要用于仿真计算,包含CAE仿真计算类应用软件(如Ansys,Fluent等)的仿真计算;网络系统(连接存储系统、计算节点和管理节点,主要用于通用计算模块作业进程间通信和其他分系统的数据访问)。具体硬件架构如图2所示。

2.2   仿真高性能计算集群软件

高性能仿真计算集群软件基于B/S架构,主要由集群管理系统、作业调度系统、WEB门户、文件系统、可视化工具等构成,其中:

(1)WEB门户。主要用于用户访问集群,提交作业至计算节点,管理应用程序、用户、资源和数据,并集成Ansys、Fluent等CAE软件。

(2)集群管理系统。主要实现集群部署和配置、集群管理、系统监控、集群预警、系统管理、统计分析等功能。

(3)作业调度系统。主要用于CPU、内存等计算资源的调度,支持自定义并行计算作业的分布运行方式(如指定节点、跨节点),且支持多种调度算法(如优先级)。

(4)文件系统。主要用于在集群中的多个节点间实现对共享文件系统中文件的快速存取操作。

(5)可视化工具。通过VNC或XManager等图形界面对仿真计算软件进行模型参数设置、提交作业并查看作业运行结果,并支持用户模型数据文件的上传和下载。

仿真高性能计算集群的软件架构如图3所示。

3      仿真高性能计算集群建设效果

3.1   支持多物理领域仿真

根据上述总体架构搭建的仿真高性能计算集群平台,主要支持结构(Ansys)、流体(Fluent)、电磁(Maxwell)等物理领域的仿真计算,且支持其他物理仿真领域的横向灵活扩展,如ABAQUS、HFSS(高频结构仿真)等。

3.2   多种仿真作业提交方式

(1)WEB提交。仿真人员可通过WEB界面的作业调度平台,提交仿真作业,即通过WEB页面先将仿真计算前处理文件上传至文件系统,然后选择相应的软件,在界面中输入前处理文件,并设置好节点数、计算核数、计算时长、队列、工作目录等参数,提交至仿真高性能计算集群上进行计算,并能查看作业的状态,且计算完成后,可以下载结果文件进行验证。此外,还可以借助可视化工具查看计算过程。

(2)PBS脚本提交。除了通过WEB页面提交仿真作业,还支持PBS脚本的方式提交计算作业,即通过编写作业脚本,将其提交至服务器,服务器根据各节点状态进行调度,并在服务器端执行。此外,用户也可以通过命令查询作业状态及结果。

3.3   集群使用效果

(1)集群注冊用户。自仿真高新能计算集群搭建完成并投入使用以来,已注册用户数量达130,主要涉及永磁电机、牵引电机、技术研究等研发业务。

(2)仿真计算作业。自仿真高新能计算集群搭建完成并投入使用以来,已通过集群提交的仿真计算任务数量达3 000,涉及结构、流体和电磁三类物理仿真,作业主要包含作业ID、作业名、所有者、所属队列、入队时间、结束时间以及运行节点等信息。

3.4   集群性能数据

为集中反映仿真高性能计算集群的性能,特选取集群计算峰值能力、CPU利用率、内存利用率、计算核数使用率和共享存储利用率等指标,用以反映集群的性能,实际运行数据如下:

(1)集群计算峰值:9.06TFLOPS(每秒万亿次的浮点运算);

(2)CPU利用率:55%(平均值);

(3)内存利用率:58%(平均值);

(4)计算核数使用率:100%(高峰值)、75%(低峰值);

(5)共享存储利用率:42%。

4      结    语

后续随着公司研发人员对仿真计算能力需求的日益增长,企业也将基于构建的可灵活扩展的高性能计算集群,横向扩展计算节点、存储节点、管理节点以及其他物理领域的仿真计算软件,以保障仿真高性能计算集群所提供的软硬件资源能满足研发人员的需求,从而提高公司仿真分析计算能力。

主要参考文献

[1]张云泉.2018年中国高性能计算机发展现状分析与展望[J].计算机科学,2019,46(1):1-5.

[2]袁国兴,张云泉,袁良.2018年中国高性能计算机发展现状分析[J].计算机工程与科学,2018,40(12):2097-2102.

[3]聂含伊,杨希,张文喆.面向多领域的高性能计算机应用综述[J].计算机工程与科学,2018,40(z1):145-153.

[4]陈红梅,郭伟,赖重远.小型通用高性能计算平台的设计与实现[J].计算机技术与发展,2019(10):1-6.

猜你喜欢

仿真集群
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
一种帮助幼儿车内脱险应急装置的仿真分析
Buck开关变换器的基本参数设计及仿真分析
试析PLC控制下的自动化立体仓库仿真情况分析
基于MADYMO的航空座椅约束系统优化设计
中国体态假人模型与FAA Hybrid Ⅲ 型假人模型冲击差异性分析
对构建智慧产业集群的几点思考
机械加工仿真技术研究