航空工业某高性能计算中心管理技术优化
2020-02-04白香君马征宋万强
白香君 马征 宋万强
摘要:航空工业某高性能计算中心对于支撑各接入单位的数字化建模、仿真及优化等大规模复杂系统任务,缩短项目研制周期,节约项目经费起到了重要作用。通过应用软件集成优化、调度系统优化及资源监控和统计分析优化,有效解决了该计算中心运行管理过程中命令行作业提交及管理方式限制用户群、固定的资源调度及分配原则限制计算效率及计算资源使用率的提升、资源监控及统计分析结果难以可视化等问题,为航空领域高性能计算中心的管理提供参考。
关键词:高性能计算;集成;调度;统计分析;优化
中图分类号:V211文献标识码:ADOI:10.19452/j.issn1007-5453.2020.08.010
高性能计算是利用超级计算机强大的计算能力来解决现实复杂问题的工具。美国能源部、国防部和美国航空航天局等国家机构、企业和大学都在开展为数众多的高性能计算项目。欧盟专门成立了战略研究委员会来研究高性能计算基础设施的发展战略。日本从1977年就已经开始了超级计算机的研制以及应用。英国在国家层面上就设有高性能计算战略规划委员会,负责规划英国高性能计算的发展[1]。2019年,我国全部使用自主知识产权芯片的神威“太湖之光”超级计算机更是在全球超级计算机排行榜Top500中位居第三。可见高性能计算的重要性已经被提升到了国家战略层面。从Top500排名的统计来看,学术界、政府部门、产业界、科研界作为高性能计算应用的主体,其应用领域在不断扩大[1-2]。
伴随着高性能计算在飞行器设计领域的广泛应用,利用数值分析和建模技术,进行快速设计、优化和仿真验证,再进行地面物理试验和飞行试验的新型迭代过程,逐渐成为标准的现代飞行器设计方法。高精度、多学科的数值模拟和设计优化技术作为区别于传统理论分析与物理试验的第三种手段,正在变革着飞机设计的流程和理念[3-4]。高性能计算可以更快地获得更复杂问题的解决方案、更精确的数值结果以改进飞行器性能,缩短新产品开发周期、降低先进技术的应用和新产品开发的总体成本[5]。
部署在航空工业专网上的某高性能计算集成平台,集成了航空领域主要的通用软件和自研软件,按照分布模式,共享软硬件资源和公共数据库,为专网内接入该计算中心的各航空厂所提供了专用的、安全可靠的异地协同创新平台[6]。计算平台涉及诸多的软硬件解决方案,系统架构设计复杂,同时与用户的应用系统和行业专网紧密集成,由此给高性能计算中心的运行管理带来诸多技术难题。本文主要通过应用软件集成优化、调度系统优化及资源监控和统计分析优化来解决单一复杂的命令行作业提交及管理方式限制用户群、固定的资源调度及分配原则限制计算效率及计算资源使用率的提升、资源监控及统计分析结果难以可视化[7]等问题,为航空领域高性能计算中心的管理提供参考。
1航空工业某高性能计算中心整体架构
航空工业某高性能计算中心基于行业专网建设,以提高航空工业综合创新能力和促进航空科学技术进步为宗旨,面向先进航空产品研发和技术研究,专门为飞机、直升机、发动机和机载系统等领域设计中的数字化建模、多学科仿真及综合优化等大型复杂任务提供高性能计算服务;提供多学科数值模拟方法的数值工具、技术支持和业务咨询;支持开展空气动力学、计算流体力学、计算结构力学等方面的計算研发、应用和验证[8];通过基于数值方法的飞行器新概念设计、性能分析及验证服务,为各单位解决综合性设计和优化问题。计算中心整体架构分为应用软件、基础软件、基础硬件和物理环境4个层面,如图1所示。
2应用软件集成优化
传统的高性能计算中心用户采用命令行的方式提交和管理作业,这不仅要求用户具备本专业领域软件的操作能力,还需具备熟练的计算机专业技能,很大程度上限制了用户群。为了优化作业提交和管理模式,开发了航空工业数值模拟与应用系统AVICNAS,为集群用户和管理员提供灵活的、以应用程序为中心且易于使用和管理的界面,使得用户通过AVICNAS方便地提交作业,然后通过作业调度管理器LSF对作业进行调度、管理和排队,从而实现对软件的灵活控制,对整个集群节点的整体管理和调度。AVICNAS包含软件体系模块和作业及数据模块,组织架构如图2所示。用户通过AVICNAS系统实现作业提交、作业管理、数据管理及图形管理等功能。
除此之外,为了满足航空领域用户对结构力学相关软件、流体力学相关软件、空气动力学相关软件,以及自研软件等的不同使用需求,AVICNAS提供了一套基于XML二次开发接口模板,支持集成应用程序接口以及软件操作界面的灵活定制。以某流体动力学计算程序为例,集成软件和定制界面需遵循如下操作流程:
(1)在管理节点上编写XML文件来设计软件的显示界面,或者直接通过Web portal来定制Web界面,为用户提供“所见即所得”的软件操作界面定制模式。
(2)配置LSF队列文件lsf.queues,根据优先级分配需要设计的计算程序队列组,以确保用户提交的计算作业能够进入资源调度排队,正常或者优先使用计算资源。
(3)在LSF应用程序配置文件lsb. applications中增加对该应用程序的定义,使得作业调度管理器能够正确识别计算软件并且合理调度作业,然后重新配置系统,使得该操作生效。
(4)配置LSF与AVICNAS的接口程序,这样用户在Web界面的操作就能通过接口程序传递给作业调度管理器,并实现数据上传、作业提交、作业排队、资源调度、应用程序运行计算以及结果数据处理等一系列操作。在管理节点上配置接口程序,接收AVICNAS传递的环境变量,并根据这些变量设置LSF作业提交和应用程序运行选项及参数,最终生成实际的作业提交命令。
(5)创建针对该应用程序的作业装载程序,在该程序中需根据LSF传递来的节点分配信息、应用程序运行选项及参数,为并行计算程序制定程序启动的全部配置,完成作业运行环境的设置。软件集成定制流程如图3所示。
3调度系统优化
航空工业某高性能计算中心采用LSF作为作业管理调度系统。随着计算中心用户以及任务作业数量的不断增加,计算任务的种类也变得更加多样化,根据各个计算任务的紧迫程度以及种类进行优先级别的划分、资源的限制和分配变得很有必要。
(1)优先级别的划分
根据航空工业某高性能计算中心用户使用计算资源进行计算的规律,遵循资源利用率最大化以及用户等待时间最小化的原则,按照优先级别,在lsb.users中对用户进行了分组,分别为普通级用户组、优先级用户组和独占资源用户组。在lsb.queues中为不同优先级别的用户组定义相应的队列,并针对用户分组进行访问控制,独占资源用户组的资源在lsb.hosts中进行单独定义。
普通级用户计算的优先等次为普通,作业提交到普通级队列,优先级别低于优先级用户,同级别用户先到先算,保证了普通用户能够根据工作需要,有序使用计算资源。
优先级用户计算的优先等次为优先,作业提交到优先级队列,优先级别是高于普通级用户的,同属该级别的用户先到先算,这样既能保证比较紧迫的计算任务优先占用计算资源进行计算,也能使得优先级用户能够优先且有序地使用计算资源。
独占资源用户区别于普通级用户和优先级用户,不需要排队使用计算资源,而是独自占用一部分计算资源进行计算,这有效保障了特殊紧迫任务能够及时使用计算中心资源进行计算,获得计算结果。
(2)资源的限制
为解决计算中心用户作业多、相互等待时间长,某用户长期大量占用计算资源及存储资源不释放,导致计算及存储资源短缺的问题,采取限制单个用户使用资源的方式来均衡各单位用户计算作业的有序进行。在lsb.resources文件中的多个Limit段可以配置资源分配限制,Limit段设置不同类型的作业指定的可用资源参数和该限制应用于哪些消费者参数,例如:
除此之外,由于在不同的文件中可以对相同的参数进行限制,从而出现限制冲突。常见的限制冲突有两种,对于配置在lsb.resources/lsb.users/lsb.hosts/lsb.queues的类似限制,将采用最严格的限制。例如,在lsb.resources中为所有用户配置slot限制为3,在lsb.users中配置的MAX_JOBS为2,两个限制类似,但不等价,则以lsb.users中配置的限制较为严格的参数为准。对于在lsb.resources中的新限制和已有的在lsb.users/lsb.hosts/lsb.queue中的限制等价,但值不同,新的限制将覆盖已有的限制,在lsb.users/lsb.hosts/lsb. queues等价的限制被忽略,采用在lsb.resources中的新限制。
4資源监控和统计分析优化
高性能计算中心通过shell脚本从AVICNAS和LSF中获取用户作业使用资源的数据,并根据用户的统一身份认证及软件的种类来对用户和软件使用的计算资源进行监控和统计分析,但监控和统计的结果数据难以可视化。为了以友好界面的方式向用户呈现计算中心使用资源的情况,并且对统计的结果数据进行有效的验证与分析,开发了一套资源监控与统计分析系统。该系统包含系统监控和分析模块、系统统计模块、消息推送和报警模块、系统运行报告模块。
系统监控和分析模块主要针对高性能计算集群运行的作业及节点状态进行监控,从作业调度系统及系统负载,性能数据采集软件获取信息并以HTTPAPI提供集群状态信息,方便进行二次开发。该系统模块定期从作业调度系统获取作业信息更新作业状态,将作业信息存储到数据库中。Web界面从数据库获得作业信息数据,所有人都可以通过网页查看高性能计算集群的作业运行状态。
该模块还能以图表形式显示集群整体利用率,集群是否可用、是否有故障,以及节点负载状态等信息。
根据门户分系统中对作业信息和计算资源信息的统计分析要求,系统统计模块提供对作业来源信息、作业使用资源信息、作业运行及历史信息、资源池实时负载信息、资源池运行信息和资源池历史负载信息的统计分析。该模块主要包括作业信息统计分析子功能和计算资源信息统计分析子功能。
消息推送和报警模块确保在系统各项负载达到管理员设定的阈值时通过邮件或是网页消息的方式发送报警信息给管理员,以便及时处理。
系统运行报告模块可以根据用户需求进行定制,自动生成系统使用报告,如图4所示。
5结论
航空工业某高性能计算中心的运行管理中主要存在命令行提交及管理作业方式限制用户群,不合理的调度策略导致计算效率低下、资源监控和统计分析结果无法可视化等难点。通过应用软件集成优化,使得用户在不经过专业培训的情况下就能够快速入门并且直观简便地实现对计算中心各种软件的使用和控制,极大保障了各类用户群的使用需求;通过调度系统优化,使计算中心的资源得到合理配置和调度,确保用户都有较好的使用体验,提高了计算效率及计算资源使用率;通过资源监控和统计分析优化,管理团队能够通过报表直观全面掌握整个计算中心的使用情况,并根据统计数据分析做出科学的决策,提升高性能计算机使用效率,同时接入用户可以清楚掌握各自作业的运行状况,并对作业进行优化配置,提高运行效率。
參考文献
[1]唐川,姜禾,张勐,等.高性能计算国家发展态势分析[R].中国科学院国家科学图书馆,2008. Tang Chuan,Jiang He,Zhang Meng,et al.Analysis of national development trend of high performance computing[R].National Library of Science, Chinese Academy of Science, 2008. (in Chinese)
[2]顾蓓蓓,顾虹,迟学斌,等.国内外高性能计算应用发展概况分析[J].科研信息化技术与应用,2014,5(4):82-91. Gu Beibei,Gu Hong,Chi Xuebin,et al. Analysis on the development of high performance computing application at home and abroad[J]. Research Information Technology and Application,2014,5(4):82-91. (in Chinese)
[3]李思昆,蔡勋,王文珂,等.大规模流场科学计算可视化[M].北京:国防工业出版社,2013. Li Sikun, Cai Xun, Wang Wenke,et al. Visualization of largescale flow field scientific calculation[M]. Beijing: National Defense Industry Press, 2013. (in Chinese)
[4]陈国良.并行计算-结构?算法?编程[M].北京:高等教育出版社,2012. ChenGuoliang.Parallelcomputing-structure?algorithm? programing [M]. Beijing: Higher Education Press, 2012. (in Chinese)
[5]刘巍,张理论,王勇献,等.计算空气动力学并行编程基础[M].北京:国防工业出版社,2013. Liu Wei,Zhang Lilun,Wang Yongxian,et al. Computational aerodynamicsparallelprogrammingbasics[M]. Beijing: National Defense Industry Press, 2013. (in Chinese)
[6]魏金钟,白文,田志民,等.航空工业高性能计算和网格应用系统[J].航空科学技术,2011(2):40-43. Wei Jinzhong,Bai Wen,Tian Zhimin,et al.High performance computing and grid[J]. Aeronautical Science & Technology,2011(2):40-43. (in Chinese)
[7]宋万强,徐悦,徐琳.CFD软件可视化交互技术在航空领域应用研究[J].航空科学技术,2017(5):63-66. Song Wanqiang,Xu Yue,Xu Lin.Application study of visual interactiontechniquesinaeronauticalCFDsoftware[J]. Aeronautical Science & Technology,2017(5):63-66. (in Chinese)
[8]钟敏,华俊,孙侠生,等.空气动力学验证模型与CFD-风洞数据相关性[J].航空科学技术,2020,31(1):1-16. Zhong Min,Hua Jun,Sun Xiasheng, et al. The correlation between aerodynamics verification model and CFD-wind tunnel data [J].Aeronautical Science & Technology,2020,31(1):1-16. (in Chinese)(责任编辑王为)
作者简介
白香君(1989-)女,硕士,工程师。主要研究方向:高性能计算。
Tel:18811432330E-mail:baixiangjun@cae.ac.cn
Optimization of Management Technology of a High Performance Computing Center in Aviation Industry
Bai Xiangjun*,Ma Zheng,Song Wanqiang
Chinese Aeronautical Establishment,Beijing 100012,China
Abstract: The HPC center in the aviation industry plays an important role in supporting large-scale and complex system tasks such as digital modeling, simulation and optimization of each access unit,shortening the development period of the project and saving project funds. By means of application software integration optimization,scheduling system optimization,job management technology optimization,resource monitoring and statistical analysis optimization, we can effectively solve the problems in the process of operation and management of the computing center such as single and complex command line job submission and management mode limiting the user group, fixed resource scheduling and allocation principle limiting the calculation efficiency and the improvement of the utilization rate of computing resources,resource monitoring and statistical analysis results which are difficult to be visualized,and provide reference for the management of HPC in the aviation field.
Key Words: HPC; integrate; schedule; statistical analysis; optimize