2020年中国高性能计算机发展现状分析*
2021-01-06袁国兴张云泉
袁国兴,张云泉,袁 良
(1.北京应用物理与计算数学研究所,北京 100088;2.中国科学院计算技术研究所计算机体系结构国家重点实验室,北京 100191)
1 引言
在国际上,自1993年起每年都会按Linpack的测试性能公布在世界范围内已安装的前500套高性能计算机排行[1],这已成为高性能计算机研制生产、市场发展、应用交流和趋势分析预测的重要参考。2002年,中国软件行业协会数学软件分会首次发布中国高性能计算机性能排行榜,并在随后每一年的10月末或11月初公布当年度中国高性能计算机性能TOP100排行榜[2 - 11]。在过去的十余年间,已由中国软件行业协会数学软件分会联合中国计算机学会高性能计算专业委员会与国家863高性能计算机评测中心发布的中国HPC TOP100排行榜为我国高性能计算机的研制及在众多领域的应用推广作出了显著的贡献。2018年TOP100排行榜发布单位变更为中国计算机学会高性能计算专业委员会与中国工业与应用数学学会高性能计算与数学软件专业委员会,发布单位于2018年8月修定了“中国高性能计算机性能TOP100排行榜工作条例”,进一步细化明确了排行榜规则等细节。
2020年11月15日,最新一期中国HPC TOP100排行榜在北京召开的第二届中国超级算力大会上发布。本文基于最新排行榜数据,对我国高性能计算机的性能、制造厂商、体系结构、应用领域和部署机构等进行了讨论分析。
2 性能分析
与去年类似,本年度中国HPC TOP100排行榜对同一用户、同一厂商、同一地区安装的相似结构的计算机,在榜单中列出Linpack较高的一套。改进的规则使得更多的系统或高性能计算用户得以进入榜单,能更好地反映我国高性能计算现状。2020年联想、浪潮、联泰集群、同方和DELL集团分别提交了32,38,1,1和1套新系统。联想提交的32套系统合并了10套,合并后是22套,其中上榜21套;浪潮提交的38套系统合并了14套,合并后是24套,其中上榜23套;联泰集群、同方和DELL集团提交的3套系统均上榜。合计新增73套,排除并列后新增49套,其中上榜47套。去年榜单留存系统53套。今年全部榜单中100个性能位置共有154套高性能计算系统。
2020年,由国家并行计算机工程技术研究中心研制、部署于国家超级计算无锡中心的神威·太湖之光超级计算机继续占据榜首,它是当前中国最高性能的超级计算机系统,同时也是全球性能第4的系统。神威·太湖之光由40个机柜、总共160个超级结点组成,每个超级结点含256个计算结点,每个计算结点配备1颗1.45 GHz、260核的申威26010处理器,全系统总峰值性能为125.435 9 PFlops,Linpack实测性能值为93.014 6 PFlops,是排名第2的天河二号系统Linpack测试值的1.51倍。
2020年排行榜中第2名依旧是由国防科技大学研制的部署于国家超级计算广州中心的天河二号超级计算机。2018年天河二号系统使用国产加速卡Matrix 2000进行了升级,系统峰值性能达到100 PFlops,排名前2名的系统峰值性能均达到了100 PFlops。
排名第3的系统是2020年由DELL集团研制、部署在北京超级云计算中心的北京超级云计算中心A分区超级计算机,该超算系统安装在中国西北地区,包含3 000个计算结点共6 000个AMD EPYC 7452 32C 2.350 GHz处理器,总核数为192 000,网络配置为FDR。Linpack实测性能为3.74 PFlops,系统峰值为7.03 PFlops,Linpack效率为53.20%。
排名第4的系统是2020年由同方公司研制、部署在内蒙古自治区和林格尔新区的内蒙古高性能计算公共服务平台(青城之光),包含1 600个计算结点,共3 200个Intel Xeon Gold 6254 18C 3.1 GHz处理器,总核数为57 600,网络配置为EDR。Linpack实测性能为3.18 PFlops,系统峰值为5.34 PFlops,Linpack效率为59.60%。第3名和第4名系统的部署也增加了我国超算系统的安装地点的多样性。
排名第5~第10的是联想公司的5套系统,均为深腾8800超级计算机,其中新增系统3套,2019年榜单系统2套。峰值性能在5.82~6.08 PFlops,Linpack测试性能在2.96~3.08 PFlops。值得一提的是,根据TOP100规则,对联想公司提交的系统进行了合并,其中新增的第6名和第10名的系统各并列了4套和3套,这7套系统均部署在网络公司。
完整的前10名榜单如表1所示。
2019年榜单中第9名和第10名由国防科技大学研制、部署于国家超级计算天津中心的天河一号A超级计算机和部署在国家超算济南中心的神威E级原型系统,今年下降到了第29和第30名。位居于其上的系统中,除去第3名和第4名,新增的18套系统中有16套是联想公司的深腾8800超级计算机,2套是浪潮公司的TS10000 HPC 集群,大部分也部署于网络公司,这充分说明了互联网和视频大数据处理在我国大陆的强劲发展势头。
联泰集群新增的4800IG集群排名第72,由1 680个Intel Xeon 6146 12C 3.2 GHz处理器和560个NVIDIA Tesla V100 32G GPU构成,网络配置为 FDR,部署在科技公司,其主要应用领域是人工智能,Linpack实测性能为2.06 PFlops,系统峰值为4.36 PFlops,Linpack效率为41.6%。
2020年上榜系统的Linpack性能全部超过了1.5 PFlops,P级系统已经基本成为高端计算的主流,其中Linpack性能值超过2 PFlops的系统达到81套。
2020年,作为入榜门槛的第100名系统是曙光公司的TC 6000系统,部署于政府信息中心,其Linpack性能值为1 869 TFlops,和2019年第100名的1 556 TFlops相比,性能提升了1.20倍(参见图1)。这一入门性能值与2019年估计的1.8~2.0 PFlops相符。
2020年所有100套入榜系统的Linpack平均性能为3 842 TFlops,这是2019年平均性能3 471 TFlops的1.10倍。平均性能增速与2019年的1.13相近,主要是因为没有增加峰值性能百P以上的大系统,并且新增系统的Linpack数值并没有太大提高,导致今年仅有47套新增系统,与去年的55套接近,而2015年~2017年每年都有超过70套新系统,2018年更是新增了83套系统达到历年最大值。
Table 1 Top 10 systems of China HPC TOP100 in 2020表1 2020中国HPC TOP100前10名系统
Figure 1 System performance comparison for China HPC TOP100 between 2019 and 2020图1 2020年中国HPC TOP100系统与2019年系统性能对照
3 制造商分析
2020年,性能排名前100的共154套上榜系统由浪潮、联想、曙光等9家厂商研制,排除并列系统数后,联想以35套排名厂商份额第1,浪潮32套排名第2,曙光22套排名第3,华为、国防科技大学和国家并行计算机工程技术研究中心以2,4,2的装机数量分列第4~6名,清华同方、联泰集群和DELL各上榜1套并列第7。图2给出了中国HPC TOP100计算机制造商的前100套系统统计。
Figure 2 Vendors system share图2 制造商系统份额(前100套系统)
Figure 3 Performance share图3 性能份额(前100套系统)
以联想、曙光、浪潮为代表的国内厂商是我国HPC系统的主要研制单位,占据了绝大部分市场份额,2018年国外厂商的系统全部退出TOP100榜单,为历史首次,2019年的榜单再次为全国产机器,DELL公司提交一套安装在武汉大学超算中心的异构系统,但是Linpack性能为1 403 TFlops,未能上榜。今年DELL公司新增的系统上榜,为我国超算领域的多元化发展提供了动力。2020年榜单国产系统依然达到了99套,这再次佐证了我国高性能计算机研制能力的提升和市场份额的持续扩大。
如图3所示,从系统的性能份额来看,国家并行计算机工程技术研究中心依然以25%领先,联想占据23%系统性能紧随其后,超过了浪潮公司和国防科技大学的18%。国家并行计算机工程技术研究中心和国防科技大学2家单位的6套系统占据了全部系统总性能的43%。以国防科技大学、国家并行计算机工程研究中心为代表的国家队专注于数量少但世界领先的超大规模计算系统,而以曙光、联想和浪潮等为代表的商业化公司致力于HPC系统的市场化和普及化,这种两条腿走路的模式已经是并将依旧是相当长一段时间内我国HPC系统研制的常态。
4 体系结构分析
共享内存(SMP)、分布式共享内存(DSM)和大规模并行处理(MPP)等多种体系架构百花争艳的时代已经过去,分布式集群计算系统(Cluster)成为当前高性能计算机的绝对主流,近6年来进入TOP100榜单的系统绝大部分都是采用集群架构。但需要注意的是,基于自主众核高性能处理器并采用专有架构的神威·太湖之光系统更接近于传统的MPP架构,结合当前世界排名前10的系统中有5套采用MPP架构的事实,可见在高端系统中,MPP仍是重要的体系架构。
除神威·太湖之光采用国产申威处理器,国防科技大学采用国产Matrix 2000加速卡,以及今年新增的一套DELL系统使用AMD处理器外,其余系统均采用了Intel Xeon系列处理器,IBM Power处理器依然未出现在榜单中。
专用加速计算部件首次出现在TOP100榜单中是2009年,由国防科技大学研制部署于国家超级计算天津中心的天河一号系统配备了2 560块ATI Radeon加速卡,并以此获得了563.1 TFlops的计算性能,成为该年最高性能的HPC系统。自2010年起,基于NVIDIA公司的Tesla系列GPU的HPC系统登上榜单并逐渐成为加速计算的主流。基于Intel Xeon Phi加速卡的系统出现于2013年,并在TOP100榜单中占据少量但稳定的份额。除去国防科技大学天河二号升级系统采用了Matrix 2000作为加速部件外,2020年有39套系统采用NVIDIA Tesla GPU或Intel Xeon Phi等进行性能加速,这一数据较去年的24大幅增加(如图4所示),其主要原因是今年新增的47套上榜系统中有15套系统配置了加速器。今年共有38套系统采用NVIDIA Tesla GPU,其中绝大部分用于与深度学习相关的计算。需要指出的是,Intel已宣布停产Xeon Phi。
Figure 4 Variations of accelerator and network from 2010 to 2020图4 2010~2020年加速计算部件及系统网络变化
关于专用加速计算设备的应用,特别需要指出的是,无论是NVIDIA/AMD GPU,还是Intel Xeon Phi,在上榜系统中最先都是由国防科技大学、中国科学院等科研类机构研制采用,且主要应用于基础科学研究;随后才被浪潮、曙光、联想等商业化公司采用,并在众多领域得到大规模应用。这无疑是一种良好的模式。
体系结构上变化最为明显的是系统互连网络,千兆以太网5年前占据了100套系统中的70%,而自2017年以来连续3年不再在榜单中出现,已经彻底退出历史舞台;相对应地,万兆以太网从6年前的16%到去年的65%再至今年的71%,仍然是高性能计算系统的绝对主流互连网络。需要注意的是,这里的万兆网包括了100 GbE,40 GbE,25 GbE和最低性能的10 GbE共4类,而在今年占据主流的是10 GbE和25 GbE。
InfiniBand网络继续保持较高占比,尽管相比去年的29%,今年降低为23%,这一占比主要与榜单中用于科学计算的机器数目相当。从需求和用户的角度,我们期望这两者能保持良好的竞争态势,以提供性能更佳、价格更优的互连网络环境。
5 应用领域分析
图5给出了2020年中国HPC TOP100中的行业应用领域的系统数量统计。今年细化了互联网这一大领域,包括云计算(17%)、互联网(7%)、人工智能(1%)和电子商务(1%),合计达到54%;传统大规模科学和工程计算领域:科学计算(10%)、教育科研(2%)和工业制造(2%),其他主要包括金融(7%)和电信(5%)等。
Figure 5 Application area share图5 TOP100系统在不同应用领域的分布
依据应用模式的不同,上述应用可进一步大致归并为3大类:
(1)数据分析挖掘类。Map Reduce、深度学习计算模型等基于数据的(非数值类)应用。
(2)科学与工程计算类。主要指传统的数值计算类应用,通常是计算密集型(也有数据密集型)。
(3)信息服务类。频繁交互的互联网服务类应用。
2020年度,数据分析挖掘类应用系统占据了所有系统的54%,较2019年的53%有所提升,接近2017年的56%;传统的科学与工程计算系统由去年的36%降低到30%,与2018年持平,信息服务类系统比2018年有所增加,从11%提升到了15%。
6 部署机构分析
2020年中国HPC TOP100系统部署机构统计如图6所示,互联网企业以45%占最大份额,相比2019年的33%大幅增加,其他企业(金融、制造业等)占17%,两者合计为62%,这一数据与2019年的65%持平。科研院所和超算中心各占13%和12%,这表明科学计算的系统数量继续维持稳定,也充分说明了高性能计算机、高性能计算技术的主要应用还是在科学计算领域,并在多个领域尤其是互联网领域发挥着不可替代的作用。今年的系统中有13%用于视频公司,因此将其单独列出,充分反映当前以短视频为代表的多种新兴应用的蓬勃发展。
Figure 6 System sites share图6 TOP100系统部署机构类别
Figure 7 China HPC TOP100 from 2002 to 2020图7 2002~2020 年TOP100数据
7 小结和展望
2020年中国高性能计算机继续呈现快速发展态势,无论是性能、应用领域还是应用规模均有着长足发展。图7 给出了2002~2020年共19年来TOP100数据变化。可以看到,近十年来,第1名系统受国家相关科研计划影响,其性能呈跳跃式发展,在神威·太湖之光之后,下一台E级系统可望在2021年后出现;最后1名性能则呈规律性指数增长,但是幅度逐步减缓,2021年入榜性能预计在2.2~2.3 PFlops。