APP下载

超算国际竞逐赛

2018-11-29周倩

中国工业和信息化 2018年8期
关键词:神威天河算力

周倩

超算领域的国际竞逐并非只有一个维度,而是运算速度、体系规模、产业应用的协同共进。中国超算研发的全面崛起,是建立在强悍的计算个体芯片、先进的运算管理技术、可靠的操作系统支持基础之上的。

2018国际超算大会发布最新一期《Top500全球超算排行榜》,不出意外,美国橡树岭国家实验室的超级计算机Summit(顶点),以峰值计算性能每秒20亿亿次(200 PFlops)的速度登顶全球最快超级计算机,中国的神威·太湖之光和天河二号退居第2位和第4位。

现今,超算领域的最强争夺已是中国、美国、日本和欧洲的竞争,几乎没有哪一方能长久保持超算速度之冠。不过,中国超算的研发实力已经跻身世界第一阵营。2016年,美国国家安全局和能源部在一份有关高性能计算的报告中指出:中国超算已经和美国接近并跑(near-peer),如果不加大投资,寻求改变,中国将取代美国在超算领域的领导地位。超算强国并不仅仅赢在速度,速度永远在刷新。超算领域的全球竞逐远远没有外界看到的那么简单。

超算竞逐的三个维度

超级计算(Supercomputing)这一概念最早出现在1929年《纽约世界报》的一则报道中,当时计算机还没有发明出来,新闻背景是IBM给哥伦比亚大学建造大型报表机(tabulator)。随着20世纪后半段IT技术的持续突破,超级计算机的完整定义是“由超过百个处理器组成的、能够完成普通PC机和服务器不能完成的大型复杂课题的计算机。”1976年,中国第一台超级计算机的运算峰值速度只有每秒1.6亿次;2016年,神威·太湖之光的运算峰值速度超过10亿亿次,运算能力相当于200多万台普通个人电脑。

有人认为,人类未来的最大痛点是“日益增长的数据处理与有限算力之间的矛盾”。诸如苹果、谷歌、亚马逊、阿里巴巴、腾讯、百度等这些公众熟知的IT产业巨头,对算力尽管都有着无穷无尽的紧迫需求,然而,这些公司都不是超级计算机的主要用户。那些与民生相关的天气预报、地震海啸预测、桥梁结构分析,或者与国家相关的导弹模拟、风洞实验、核聚变模型检测等,才是超级计算机的高频应用领域。

速度,当然是超算的核心,运算速度更快意味着一切繁复的运算、模拟将能做到更快、更准确,相应的,设计、制造周期将大幅缩短,这在军事和民用上都将获得无可比拟的领先优势。不过,超算领域的国际竞逐并非只有一个维度,而是运算速度、体系规模、产业应用的协同共进。

速度节点

最近十几年来,超级计算机主要迈过了三个速度节点:

千万亿次:2010年以前,美国IBM“蓝色基因”超级计算机曾连续五年雄踞世界第一,峰值速度达到每秒367万亿次。2010年11月,中国“天河一号”首次成为世界上最快的超级计算机,实测运算速度可以达到每秒2570万亿次。2011年10月,落户济南的“神威蓝光”,全部采用国产处理器和系统软硬件,峰值速度也超过千万亿次。

一亿亿次:2011年,日本K-computer超越了天河一号成为世界第一,而且成为人类历史上第一次突破每秒一亿亿次计算能力的超级计算机。2013年,由国防科技大学研制的“天河二号” 以每秒5.49亿亿次的峰值计算速度,成为“全球最快”。

十亿亿次:2016年,由国家并行计算机工程技术研究中心研制的“神威·太湖之光”,峰值计算速度达到每秒12.5亿亿次,性能也更加稳定,成为世界上第一台运算速度超过十亿亿次的超级计算机。直到两年之后,“神威·太湖之光”创造的世界记录才被美国IBM“顶点”超级计算机完成超越。

体系规模

美国“顶点”尽管拿回超算速度之冠,但世界超算大会(ISC)发布的2018年《Top500全球超算排行榜》当中,中国体系规模上增加到206台,美国下跌到124台。而且在制造商方面,联想成为第一个在榜单上排名第一的中国供应商,从惠普分拆出去的慧与科技排名第二,其后则是中国企业浪潮、美国企业Cray和中国企业中科曙光。世界五大超级计算机供应商,中国占了三个。

中国超算的研发布局也更具有体系优势,目前来看,中国超级计算机的研发机构主要有四个,其中三个在北京,一个在长沙。在长沙的是国防科技大学计算机研究所,主要从事计算机系统结构、高可信系统结构、工程工艺、操作系统、编译系统及应用软件的研究与开发,两次问鼎世界超算冠军的天河一号、天河二号以及未来的天河三号都是这个研究所研制的。

北京的三个超算研发机构分别是国家并行计算机工程技术中心、中科院计算技术研究所、联想数据中心集团。其中,2016年登顶世界的“神威·太湖之光”即由国家并行计算机工程技术中心研制。中科院计算机技术研究所的超算品牌为“曙光”系列,联想数据中心集团的超算品牌为“深腾”系列。

产业应用

制造最快的超级计算机固然很了不起,能否真正推进产业应用才是关键,这就必须知道超算到底要用来解决什么问题。日本在设计一个超级计算机的时候,如果想做地球系统的模拟,那么它的名字就叫地球模拟器。设计完了之后马上就做这个事情。

在企业级超算应用方面,国内还有不小的缺失。美国较大的汽车、石油企业有10个大型超算系统,此外还有一堆小的超算机器。在中国汽车产业,超算主要用来算部件,而美國算的是整车。如果拿中美同等规模的公司作对比,美国公司的超算系统规模是中国公司的10倍多。这才是不可忽视的差距。

另外,超级计算机也不能不考虑性价比,消耗少、干活多,才更有商用化价值。“每瓦电能算力”就是评价超算性价比的指标,Green500(绿色500)就是按照这一指标对超级计算机进行排名。日本有几个超级计算机型号能排进Green500的前30名,但在峰值速度榜单上甚至排不进前300名。

“模块化”思维

中国超算研发实力的突飞猛进始于一篇论文,在2007年“国际计算机体系结构年会”上,“天河一号”总设计师杨学军教授的一篇论文《64位流处理器体系结构研究》,引起各方专家高度关注,他们从中看到突破更高性能计算机的方法——采用“异构协同计算技术”。其实,“异构协同计算技术”就是一套很好的体系结构,将很多芯片连接起来。

经过一段时间的实验验证,“异构协同计算技术”应用于“天河一号”的工程研制中,国防科技大学的科研人员在国际上首创CPU(中央处理器)和GPU(图形加速处理)相结合的异构融合计算体系结构。在理论探索和工程实现上的全面突破,缔造了此后“天河二号”“神威·太湖之光”的登顶世界。

计算机研发有一个重要思维方式:任何极其复杂的事情,都能被拆分成为若干个小问题去解决,用少数简单的模块,可以搭建出各种复杂功能。简而言之,这就是计算机研发的“模块化”思维。

美国有一个天体物理学家,用16台索尼PS3游戏机、一个千兆以太网交换机和Linux操作系统(全球顶尖的500台超级计算机中有60%安装了Linux操作系统),搭建了一个超级计算机,用于模拟“两个黑洞碰撞时所产生的重力波的特性”。为什么用索尼PS3游戏机可以搭建超级计算机?答案是PS3游戏机所用的Cell处理器(由IBM研发),正是针对高密度计算和大规模并行计算网格所设计的,是非常理想的“算力积木”。

模块化其实就是“搭积木”,你要设计一个功能非常强大的程控交换机,里面基本的模块是非常简单的。你要设计一个超级计算机,用大量相同的模块搭建就可以了。有学者讲,超算产品其实在计算机科学方面水平并不高,更多是工程成就。在IT产品中,常常是大量相同模块的复制,这也是IT产业能够发展很快,摩尔定律能够成立的重要原因。这不像一辆内燃机汽车或者一臺钢琴,里面有几千几万个零部件,形状各异,功能各不相同,要依靠长期技术积累才能做好。

“天河一号”连接了1.4万多颗英特尔“至强”CPU、7000多颗英伟达GPU和2000多颗国产飞腾FT-1000 CPU。“神威·太湖之光”连接了超过4万块处理器,几乎都是国产的,有40个运算机柜、8个网络机柜,每个运算机柜比家用双门冰箱都要大。

当然,超级计算机并不像大部分外行人想象的那样容易,并不只是将很多芯片连接起来那么简单,如果系统体系结构设计不好,将它们连接起来的性能是非常差的。所以,获得很高计算性能的前提,是设计一套很好的系统体系结构将很多芯片搭建在一起。

E级超算

中国在2001年几乎没有世界级的超算产品,构建一整套全球顶级的超算系统,也并非堆砌处理器这么简单。中国超算研发的全面崛起,是建立在强悍的计算个体芯片、先进的运算管理技术、可靠的操作系统支持基础之上的。

核心硬件

芯片无疑是超级计算机的核心部分,一台超算产品至少装有几千枚甚至数万枚CPU和GPU芯片,同时配备特殊的操作系统,负责管理这些芯片之间如何合作,进行一系列复杂的运算,才能真正使之拥有十分可靠的强大算力。

国防科技大学分别在2010和2013年建造的“天河一号”和“天河二号”超级电脑,都曾登顶世界超算TOP500榜单,两者都主要使用Intel和AMD提供的芯片。2015年4月,美国政府宣布制裁中国四家超算中心,禁止向中国超算中心出售Intel的Xeon Phi超算芯片。天河二号就因为美国的制裁,耽搁了升级计划,不得已调整技术路线,并且采用国产矩阵2000替换Intel的Xeon Phi。但这无法阻止中国超算研发的强势崛起。2017年,广州超算中心宣布使用国产矩阵-2000芯片,升级了天河二号超算系统,并成功实现算力翻倍。而神威·太湖之光超级计算机起初就安装了40960个中国自主研发的“申威26010”众核处理器,而且性能不俗。

多年以来,计算机CPU芯片一直遵循摩尔定律进行升级迭代。但摩尔定律也是有极限的,集成电路上的元器件已经足够小,已经逼近“原子尺度”了,很难再延续过往路径进行升级迭代。这个时候,就要想办法挖掘计算机的系统潜力。

系统潜力

在挖掘计算机系统潜力方面,有两个思维路径:一个是阿里方案,一个是联想方案。

阿里方案其实就是“大规模并行化处理非结构化数据”,即“云计算”。计算机科学的精髓在于自顶向下的递归,先在最顶层将一个大任务分解成为几千个、几万个小任务,然后将每一个小任务分配到每一个服务器上。最后,再将每一个服务器上的结果综合起来,得到原来大任务的最后结果。国内主要互联网公司包括阿里巴巴、百度、京东商城等,都是用大量廉价的服务器取代一台超级计算机。前者的价格不到后者的1/5,大大降低了运营成本。

这就像一个公司CEO,如果事无巨细、什么都管,那就是中心化的“control模式”,也就是一个超级计算机,control是“控制”的意思。而互联网公司普遍采用去中心化的“context模式”,context是“上下文语境”的意思,就是CEO将任务和资源分解,让更多人根据上下文语境做出决策,充分发掘系统中每一个环节的潜力。

而联想作为商业公司,在帮助用户“挖掘算力潜力”上是做得比较好的。在2018全球最强500台超级电脑中,联想独占117台,中国制造商还是第一次抢下这个世界第一。一般使用的服务器包括台式机、笔记本,CPU和整机性能的负载不超过50%,即使是现在技术非常领先的互联网用户的服务器负载也不超过70%。但在高性能场景下,联想可以把一台机器能压榨出来的性能压榨到了极限。联想超算产品在全世界最好的25所大学中有广泛应用,尤其是北京大学的水冷超算机型,理论峰值是100%,最后联想释放出来的算力达到了92.7%。同时,应用层面的持续反馈,也是在给超算产品的研发方向探路。

超级计算机就算是速度再快、算力再强,目的仍是要解决问题,如何用好才是关键。仅有超算技术的突破是不够的,更重要是,能够对超算背后的诸多产业形成一个正面反馈,不断实现对产业的辐射和支撑,也就是扩大各个产业应用超级计算机的“朋友圈”。

E级超算被视为超级计算机前沿竞争的下一个战略高地——“E级”意味着每秒能够达到百亿亿次的运算速度,相当于目前最快超级计算能力(美国Summit)的5倍左右。按照中国的时间表,中国最早有望在2020年发布E级超算。目前中国同时启动了三大E级超算原型系统的研发,分别是国防科技大学和天津超算中心的“天河三号”、中科曙光的E级超算,以及江南所和济南超算中心的“神威”E级超算。

2018年8月5日,国产超算研制向着皇冠又迈进了一步:神威E级超算原型机在国家超级计算济南中心完成部署,并正式启用。可以预期,中国超算未来可以赢得很多世界第一,但这并不表示可以赢得未来。

长期以来,国内更关注升级技术、做好产品,很少去想如何提出一个好的问题。很多基础的概念都是别人提出来的,别人设立这个跑道,我们在上面跟着跑。也许我们速度更快,但从超级计算机最初的体系架构,到人工智能的测试,我们都是在里面做跟进。我们很少找出问题和逻辑的源头,所以,哪怕中国超算的研发实力已经十分强大,但未能提出更多真正有价值的问题,也就不能真正掌握未来。因为,伟大的创新往往源于一个绝佳的问题。

猜你喜欢

神威天河算力
杭州“算力小镇”
智能计算浪潮迭起
边缘计算与算力网络专题导读
对天河览胜
破解定值有妙法,极点极线显神威
计算万物 算力之下要有坚实的地基
一条天河走运来
我国新一代百亿亿次超级计算机 “天河三号”原型机首次亮相
天河二号仍是世界最强大计算机