中国农大高性能计算平台建设与思考
2023-11-03劳凤丹
文/劳凤丹
当前,高性能计算(简称“高算”)与大数据、人工智能等新兴技术融合加深,应用场景不断丰富,不再限于专业计算领域,还延伸至商业领域及日常生活,影响日益深远。作为科学研究和人才培养重地,高校对高算的需求尤为迫切。2021年,工业和信息化部印发的《新型数据中心发展三年行动计划(2021—2023 年)》,明确提出要加快高性能、智能计算中心部署,推动新型数据中心算力供应多元化。在此背景下,高校投资建设校级高算平台的趋势愈发明显。然而,高算所需技术与高校信息化部门已有技能储备存在较大差异,团队上手参与建设存在一定门槛。
校级高算平台的定位和目标是让科研工作与高算平台建设相辅相成,让科研团队专注于科研创新,让算力服务充分支撑教学和科研,支持学科交叉,支持大团队、大项目产出大成果,满足各学科领域对于大规模数据处理和大规模科学计算的需求。
中国农业大学校级高算平台经过大半年时间的建设摸索及试运行,于2022 年6 月正式上线,目前已初步达成预期建设效果,资源利用率介于70%~95%,部分大课题组已将全部计算转至校内平台,师生总体满意度高。
校级高性能计算平台运行成果
满足师生科研计算需求,助力成果产出
围绕“创建高价值、实现低成本、提供优服务”的建设理念,中国农业大学校级高算平台一期总建设经费为400 万,规模很小,但在架构设计、设备组合选型、软件功能设计和作业调度管理等方面成效明显。如图1~2 所示,截至目前,平台已累计为15 所学院、141 个账号提供服务,完成327679 项作业、7990369CPU 核时、179138GPU 卡时的计算任务。平台CPU资源在工作日的平均利用率超过70%,高峰期高达95%,高算成为校内最繁忙的科研公共服务平台。
高算平台成为师生科研工作的重要支撑。据不完全数据统计,自平台上线以来,依托平台已产出《自然》《细胞》《科学》子刊论文4篇,SCI论文11篇(不完全统计),数十个国家级科研项目正在其上运行计算任务。
平台采用先进设计理念,使用具备一定优势
目前,农大校级高算平台是国内最先采用Intel Ice Lake CPU 构建的平台,一期共计部署35 台计算节点,总算力每秒251 TFlops(万亿次浮点数运算),在运算速度、网络速度、横向纵向扩展能力、统一调度节能等方面具备一定优势。同时,平台还支持人工智能算力,采用AI 人工深度学习算法框架,使计算模型不受传统架构局限,能够应对众多来自人工智能的复杂挑战。
平台自上线以来,一直处于供不应求状态。为解决算力不足问题,平台正在进行二期建设(图3~4),预计在2023 年下半年建设完成,计算能力有望提升至1178 TFlops,整体增长3.5 倍,能够服务师生更大范围的科研工作。
图3 校级高算平台发展时间轴
图4 校级高算平台算力规模
校级高性能计算平台建设经验
建设前期充分调研
在建设前期,项目组调研校内师生高算需求、兄弟高校高算建设,并与高算、存储、GPU 等厂家积极进行技术交流,在此基础上分析归纳学校高性能计算平台总体建设思路。此外,考虑到信息技术发展较快,项目组对关键设备系统选型进行充分调研,确保建设方案具备一定的先进性和兼容性。
校内调研。首次建设校级高算平台,应对校内高算需求有较为充分的了解。调研侧重包括:校内主要有哪些课题组需要用到算力,其所需支撑软件、所属计算领域、算力和存储需求量是多少;CPU 计算、GPU 计算、胖节点需求情况;课题组解决计算的途径及每年大概的计算费用;院系和课题组已自建高算集群情况摸查;等等。调研可通过网络问卷,或定向发邮件、打电话、学院走访交谈等多种方式组合开展并汇总数据,这些数据对于后期规划、应用安装和定向精细化服务均有较大帮助。
校外高校调研。向先进高校借鉴其成功的建设和管理经验通常会事半功倍,可在招标机构网站上搜索并下载校级高算平台的招标技术需求,或直接打电话请教相关老师。基于如上两种方式,项目组在2021 年先后获取到了来自北京大学、清华大学、复旦大学、中国科学技术大学、北京航空航天大学、北京交通大学、香港中文大学(深圳)等高校的高算项目需求文档。通过通读、理解多份文档,迅速和较为深入地了解并把握了高算平台架构、核心技术、各模块类别、彼此关联、相关主流厂家等关键信息。
厂家调研。分别与主流的高算服务器厂商、CPU 和GPU 厂商、存储厂商、高速网络厂商、软件厂商等进行技术沟通交流,再结合产品官网介绍,横向比较同类产品、分析案例和优劣势后,形成自己的知识体系,择优选择适合学校应用场景的产品。例如,在CPU 通用芯片选型调研中,Intel 和AMD 尤为关键,调研主要确定生态环境、使用场景,适合高算的芯片型号、芯片性能、芯片价格,等等。
高速网络设计
数据传输是高性能计算场景中的重要环节。为解决高性能计算场景中高带宽、高并发、低时延的数据传输要求,项目组专门采购RDMA 技术(远程直接内存访问),而非TCP/IP 以太网技术来构建计算和存储网络,主要目的是以此释放CPU去执行运行程序和处理数据的工作。在高算领域,大致有两类RDMA 网络,分别是Infiniband(简称IB)、RoCE。IB 是从硬件级别保证RDMA 的可靠传输,技术先进但成本贵。RoCE 是在以太网上封装的RDMA 技术,稳定性稍弱于IB,配置和管理相对复杂,但具备一定的价格优势。目前采用IB 专用网络的集群比重大,但也有部分高校集群开始采用RoCE 网络,可根据自身情况选择IB 或RoCE。
存储架构设计
磁盘读写速度远落后于CPU、GPU的运算速度,故文件储存系统的性能是影响整个高算集群性能的重要因素,如下几点是农大采购存储的相关思考:
存储架构通用。尽量选择普适性的存储系统,架构能够支持多厂家硬件平台,确保后续扩容不局限于一个厂家。在规划中明确计算节点访问存储采用基于RDMA网络的POSIX 通讯协议,而非效率较低的NFS 通讯协议。
存储系统容量按需采购。电子产品有寿命期,最稳定的运行周期是3~5 年,存储系统规划的总容量以应用场景和用户数据增长的历史数据作为依据。并行存储都具备很强的横向扩展能力,建议根据阶段性的性能和容量的预估,分批次购买,无缝横向扩容。
明确存储性能要求。存储系统中,须定义其数据容错方式、可用容量(客户端df -h 可见容量),以及定义整套存储系统单线程读/写带宽、多客户端实测聚合读/写带宽。以上三项数据能够最终决定存储容量和性能参数,也与最终的实际价格密切相关。同时,存储系统也应该明确裸容量的配套最小元数据数量和元数据检索的性能(例如每秒文件最大创建数量、每秒文件定位数量等)。
明确采购SAS 硬盘。SAS 硬盘比SATA 有着更高的稳定性、可靠性,绝大多数存储厂商提供的高性能存储系统均采用企业级SAS 硬盘。
国产化思考
目前,信创平台能够适用于部分教学场景和特定精度的计算场景。科学计算和研究有时效性要求,通用的计算能力仍是目前校级高算公共平台的首位需求,大部分学生会选择高效的通用计算平台,适配性和生态问题是阻碍国产系统大面积使用的另一主要原因。师生在通用平台上适用的程序如果移植到国产平台,就需要花费额外时间和精力重新编译,且对部分闭源的专业商业计算软件仍无法适用。所以,首次建设校级高性能计算平台时建议以通用架构为主,在有经费支持的情况下也建议分批次搭配采购一定比例的国产产品。
实用方案设计
关系到高算平台是否实用、好用的几点参考:
CPU 和GPU 比例。不同学校的HPC和AI 计算有较大差异,前期需在调研数据基础上设计合适比例。例如:北航既有基础学科的HPC 计算,也有大量的计算机和航空类AI 智算,或许1:1 做设计是合理的;北邮和传媒的需求比较集中,例如AI 计算和动漫专业的图形渲染,故基本上偏向于GPU 需求;而农大生命科学、化学等学科的CPU 计算远高于计算机学科的GPU 计算需求,故按照4:1 来设计会较为合理。
软件易用性。除了以传统命令提交作业的模式外,还应考虑以互联网思维、站在用户视角梳理并优化使用体验,最终实现图形化的任务提交和自动化的性能监测,降低普通师生的使用难度,实现高算平台的快速推广并提高作业效率。
高算平台架构具备先进性。在同一平台对异构的HPC 和AI 进行作业的统一调度和资源分配,管理调度更为高效。方案设计应能实现CPU、GPU、并行存储、高速网络之间的全线速转发,这是影响平台高效运行的先决条件。
机房设施部署
根据方案的算力规模估算高算集群的总功率,结合现有机房条件判断是否需要配套改建机房环境。每个学校的机房条件不同,所采购的机器形态也就不尽相同。液冷模式的机房能效水平高于风冷机房,但其前期投入成本、后期维护成本也相对要高,故适用于规模大的机房;风冷机房适用于规模较小的机房或不便于部署水冷设施的机房。液冷机房单个机柜的功率可达到65KW,风冷机房则可设计单机柜25KW~35KW。对于行级空调制冷量,要结合回风温度进行综合考量,确保人员进行维护调试的舒适度。此外,用电量、UPS 后备时间、消防灭火系统、配线间安全、机房环控、电池安全均需要综合考量设计,一般来说,学校机房可按照B 级标准进行相关设计。
管理体系搭建
高算平台上线前,学校要结合自身实际配套制定校级高性能计算平台运行管理办法,以加强平台规范管理,明确职责分工,保持可持续运行与发展,确保其对教学、科研的支撑和公用性的发挥。管理办法一般应包括组织机构及职责分工、资源分配和使用、培训交流、奖励与惩罚、收费细则等。农大出台校级高算平台的管理办法、收费政策、奖励政策初稿后,第一时间邀请高算用户代表讨论,在充分听取修订意见的基础上,再提交校长办公会审议。
充分免费试用
为方便师生熟悉高性能计算平台,建议高校将新建好的高算集群对校内师生免费试用。免费试用有几点好处,一是让师生尽快熟悉平台的使用,并根据师生的使用情况和反馈问题有针对性地提供使用培训、改善系统功能;二是可以挖掘潜在的重点用户,为其提供精细服务的同时,也借助其口头宣传提升平台的知名度;三是为平台正式上线提供好的宣传素材,并获得师生的支持。
上线宣传培训
农大高算在历经4 个月的充分免费试运行后再正式上线。平台老师亲自制作了一个“凝心聚力,智算赋能,服务双一流建设”的5 分钟宣传小视频,分为建设历程、高算资源、高算试运行代表成果、用户代表寄语等内容,宣传达到预期效果。此外,管理员通过腾讯视频会议精心开展了多期专题培训,并于培训前发布公告及图文并茂的微信推文;建立校级高性能计算微信服务群,第一时间发布各类通知公告;通过服务到学院活动,在学院进行高算宣传。通过以上多种方式,较为快速地发展了一批高算用户。
团队管理心得
高算任务的运行是一项复杂的调度工程。高算需要专业的团队,不仅需要懂网络、懂安全、懂机房、懂系统、懂脚本的计算机相关专业背景管理员,还需要计算科学专业背景的人才来充当应用学科与计算机学科之间的“翻译官”。对于普通高校而言,最好是设置专门岗位,并给予管理员相关培训机会。对于农大而言,目前仍有网络技术中心的老师兼职管理,为了让老师能尽快独立解决问题,会邀请厂商开展管理培训。此外,农大通过“走出去”“请进来”等方式学习兄弟高校超算中心的先进管理经验,借鉴成功经验和帮助文档,提升自身管理能力。