国外高校如何推进算力服务？

2023-08-15

中国教育网络 2023年4期

随着研究领域的日趋扩展，海量数据成为学术研究中的底层支柱，提供更优化的算力服务也成为高校的关键任务。与此同时，不同高校具有不同特性，对于算力服务的需求也呈多元特征，推进算力服务的方法也应因需而变、因校而变。从校企合作到借助国家力量，从集中式设施到分布式部署，在不同客观条件下，国外高校也都因地制宜、因势利导，呈现出算力服务建设的多样图谱。

校企资源互融共建AI超级计算机

出于资金或技术上的需求，国外高校往往选择与企业合作进行超算建设，分担建设成本。例如，人工智能超级计算机HiPerGator便由美国佛罗里达大学与英伟达公司合作建设。

该超级计算机共有1120个A100 GPU和2.5 PB全闪存高性能存储系统，共有70000个核心，其中30000个核心各具备4GB内存，而最新的40000个则有8GB内存。测试高性能计算集群系统浮点性能的基准程序HPL结果显示，HiPerGator的英特尔和AMD核心共提供约2 Petaflops（1 Petaflop等于每秒钟进行1千万亿次的数学运算）的计算速度。总的来说，HiPerGator人工智能系统的HPL评级超过16 Petaflops，而理论上，人工智能性能的峰值为700 Petaflops。

HiPerGator超级计算机机房设置

一切都起源于佛罗里达大学与英伟达公司的合作计划。2020年7月21日，双方表示将合作打造全球学术界速度最快的AI超级计算机。该计划得到了英伟达公司5000万美元的资金援助，其中毕业于佛罗里达大学的英伟达联合创始人克里斯·马拉乔夫斯基个人捐赠了2500万美元，公司则提供了价值2500万美元的硬件、软件、培训和其他服务。佛罗里达大学则投入2000万美元，创建一个以AI为核心的超级计算和数据中心。

马拉乔夫斯基在一次由佛罗里达大学和公司高层共同参加的活动中表示：“为造福所有人，我们创立了一个强大的、具有借鉴意义的公私合作模式。”

更重要的是，这项合作并不仅限于创造一台擅于计算的机器。

英伟达公司还计划持续为佛罗里达大学贡献其AI专业知识，并达成以下合作：第一，英伟达深度学习学院将与佛罗里达大学合作，为学生开发新的课程，包括调整项目满足年轻人和青少年的需求，激发他们对理工类课程和AI的兴趣，为未来的教育和就业做更充分的准备；第二，佛罗里达大学将成为最新的英伟达 AI技术中心基地，佛罗里达大学研究生院和英伟达员工将共同推动AI的发展；第三，英伟达方案架构师和产品工程师将与佛罗里达大学合作，在校园内安装、运行和优化包括最新AI软件应用在内的英伟达超级计算资源。

技术合作创造可持续计算集群

除资金、资源与人员合作外，校企间的创新性技术合作也为更高效、可持续的高性能计算集群创造了可能。例如，联想公司的水冷和“热通道”定向通风技术使纽约大学高性能计算集群Greene不仅成为高等教育领域中最强大的十大超级计算机之一，也使其成为世界上最绿色的100台超级计算机之一。

纽约大学Greene高性能计算集群由665台服务器和32000个CPU核心组成，它配备了332个GPU卡。该集群的总内存为145TB，并配有9 PetaBytes的GPFS数据存储。该计算集群性能优越，经HPL基准测试后，Greene的整体性能超过了4 Petaflops，意味着它每秒可以进行四千万亿次（4 x 1015）计算——比其前身高性能计算Prince集群强大十倍，比纽约大学2005年的超级计算机快1000倍。

Greene超级计算机机房设置

与此同时，Greene是一个高效的、环保的HPC集群，它既满足了对下一代计算和存储能力的需求，又减少了对化石燃料的依赖。基于以下创新，Greene将消耗更少的电力，产生更低的使用成本，并更加环保可持续。

首先，Greene的电力使用效率（简称PUE，是评价数据中心能源效率的指标，等于数据中心消耗的所有能源与IT设备使用的能源之比，PUE基准为2，越接近1表明能效水平越好）为1.35或更低。其次，Greene采用了联想的Neptune温水冷却技术对CPU节点进行水冷，使部分计算机的PUE达到1.08。对于30000个CPU核心，水将去除95%的热量且不需要任何空调。第三，Greene具有更有效的数据中心设备安排，白色机架将减少15%～20%的热量消耗，“热通道”（计算机背靠背排列）将进行更有效的热捕获并通过屋顶通风。因此，高电力使用效率和低能耗的结合将有效降低Greene的计算成本。

纽约大学校长安德鲁·汉密尔顿表示：“高性能计算、大数据和人工智能在整个高等教育的许多研究领域都是至关重要的，特别是在纽约大学。最重要的是，我们要继续为各学科领域的研究人员提供他们所需的资源，以拓展知识边界，超越我们可能还无法想象的东西。但是，为了我们的地球，我们也必须想方设法在保持计算速度的同时摆脱对化石燃料的依赖。Greene是一个很好的例子，说明我们可以同时实现这两个目标。”

首席数字官兼研究技术副校长大卫·阿克曼则表示：“纽约大学与联想公司和EYP设计公司在Greene的设计和安装方面进行了非常密切的合作，各方面的成果都非常出色，我们拥有全国最强大的、由大学投资建设的超级计算机，运行成本只有其前身的三分之一。像水冷和‘热通道’定向通风这样的创新技术，确保我们可以在不断提升研究能力的同时实现更宏大的目标，即在2050年达到碳中和。”

国家级超算中心满足科研需求

不管是技术合作还是资源合作，都为高校最终建成自身所有的超算中心所服务，然而，并非所有高校有能力或有必要建设专属超算中心，因此，对于中小型高校来说，借助国家机构力量进行超算研究便成为最佳选择。

例如，在今年2月28日举行的亚洲超级计算大会上，新加坡国家超级计算中心（NSCC）、新加坡工艺教育学院、新加坡共和理工学院、新加坡理工学院、新加坡科技学院、AI新加坡和新加坡工程师学会签署谅解备忘录（memorandum of understanding，用于双方或多方之间达成一致的重要事项），希望探索新的培训方法、课程设置和教学大纲，充分利用超级计算机的力量。

谅解备忘录以 “通过AI与HPC赋能新加坡的教育和人才发展 ”为主题。新加坡国家超级计算中心与各新加坡高校以及新加坡工程师学会将建立合作关系，并在高性能计算、AI、数据科学和分析及高级仿真和建模等领域创办新的培训课程、研讨会和学生竞赛，共同培养高性能计算人才。

为了支持新的合作，新加坡国家超级计算中心还宣布，该国的下一代国家超级计算机——用于千万亿次量级创新研究的超级计算机ASPIRE 2A将提供给新加坡学界使用。

ASPIRE 2A具体配置

ASPIRE 2A也利用了温水冷却技术，将提供总计高达10 Petaflops的计算能力，比目前的ASPIRE 1超级计算机强大七倍。第一代ASPIRE 1超级计算机于2016年投入使用，长时间近乎满负荷运行。ASPIRE 2A的第一次正式项目征集已于今年第二季度启动，此次征集邀请新加坡研究人员申请新机器上的计算资源。ASPIRE 2A将支持大学、研究机构、政府机构或企业在气候变化、生物医学和智能国家活动等一系列科学领域内的研究。

国家超级计算中心指导委员会主席Quek Gim Pew表示：“ASPIRE 2A系统是新加坡长期投资战略的一部分，以确保新加坡的研究人员能够熟练掌握必要的HPC资源，从而快速推进研究。我们设想，新的超级计算资源将帮助科学家在气候变化、基因组学、医疗保健、人工智能和机器学习及先进制造业等研究领域进一步发展。”

分布式部署的二级计算系统

与新加坡高校借助国家力量相似，英国高校的高性能计算集群也由政府部门出资建设，然而，与前者集中式的国家级超算中心相比，英国高校具备更小型的、分布式部署的高性能计算集群——二级超级计算服务，其设施遍布各大高校，不同集群也往往承担着不同主题的研究。

二级超级计算服务指一组中小规模的分布式超级计算机系统, 位于国家一级系统（如英国国家级超算中心ARCHER）和校园三级系统之间，用于填补这两个级别之间的能力差距。此类二级超算服务将对英国工程与自然科学研究理事会（以下简称EPSRC）社群内的所有研究人员开放，提供便利的本地访问，同时与整个英国的超算生态系统相结合，纵向深入一级和三级系统，横向则整合其他二级中心。英国国内的二级超算项目主要有Isambard、Kelvin-2、JADE、Cirrus、NICE、CSD3、Baskerville等。

二级超算服务具有以下特征：

1.中型规模：二级超级计算机的算力规模介于小型工作站和大型超级计算机之间,通常峰值运算能力在每秒几十万亿次到几百万亿次之间。

2.分布式部署：二级超级计算机部署在英国多所

Baskerville是EPSRC的二级高性能计算中心，由伯明翰大学、罗莎琳·富兰克林研究所、艾伦·图灵研究所和英国国家同步辐射器基地合作建立。Baskerville 项目在官网提供了使用指南Baskerville Basics，借此，无论用户来自于哪一学科、是否使用过超算服务，都可以快速了解Baskerville的能力，学习有效使用其资源。高校、研究机构和超级计算中心，其分布在不同的地理位置。

3.针对中小规模计算需求：相比大型超级计算机，二级超级计算机主要满足中小规模的科研计算需求,适合于个人研究者和小组使用。

4.提供存储和辅助服务：除CPU计算资源外，二级超级计算机还提供相关的数据存储、网络传输、可视化、软件环境等服务。

5.资源共享：不同部署地点的二级超级计算资源可以通过高速网络连接，实现资源的协同和共享，用户可以访问多个位置的计算资源。

6.支持大数据分析：二级超级计算机具有强大的存储和网络能力,可支持大规模科研数据的存储、管理和分析计算。

在二级系统中，有部分超算中心由英国高校领导，如伯明翰大学领导的Baskerville中心、伦敦大学学院领导的MMM中心和由贝尔法斯特女王大学和阿尔斯特大学共同管理的NI-HPC中心。

材料理论和模拟是现代科学研究中最繁荣和最有活力的领域之一。MMM中心（材料和分子模拟中心）正是为材料和分子建模领域所设计的二级超级计算设施，供英国各地的用户使用。MMM中心由伦敦大学学院代表其余八个合作者领导，合作者包括帝国理工大学、伦敦国王学院、伦敦玛丽女王大学、牛津大学、南安普敦大学、肯特大学、贝尔法斯特大学和剑桥大学。

NI-HPC中心是英国二级国家高性能计算设施之一，由EPSRC资助，并由贝尔法斯特女王大学和阿尔斯特大学共同管理。其特点是将高性能计算模型引入神经技术和计算神经科学、创新药物输送、精准医学、代谢组学及氢安全等方向。