从银河到天河,湖南领跑世界超算
2021-10-09本刊综合
党史上的湖南之最
“银河-I”:中国第一台亿次巨型计算机在湖南诞生
1983年底,我国第一台命名为“银河-I”的亿次巨型计算机通过国家技术鉴定。它的研制成功,向全世界宣告:中国成为继美、日之后,第三个能独立设计和制造巨型机的国家。
每1秒钟,识别火车上2800多个零部件,并能判断出是否有裂缝等故障;
每12分钟,准确预报每平方千米内6小时的天气情况,哪怕只隔着一座桥,也能算出“东边日出西边雨”;
每3个小时,完成500人规模的全基因组信息关联性分析,而以前用传统计算机需要耗费1年时间;
每6天,利用超级计算机模拟仿真研制一架大飞机,而过去做全机风洞试验需耗费两年时间……
在“银河”“天河”超算之乡湖南长沙,超级计算机应用的“速度”“精度”和“深度”,几乎每隔一段时间,就会刷新纪录。
伴随着信息技术的快速演进及广泛应用,“计算力就是生产力”早已成为全球发展共识。作为计算力的载体,计算机“无所不在、无时不在、无所不及”,逐步成为新型基础设施,为全球科技和经济发展提供强大推动力。
从“银河”实现我国巨型机零的突破,到“天河”超级计算机多次登上世界超算之巅;从每秒1亿次,到10亿次,再到现在的百亿亿次,科研人员充分发扬“银河精神”,实现了高性能计算从“跟跑”到“领跑”的历史跨越,在中国科技发展史上书写了一个又一个的辉煌。
“銀河”诞生:
中国巨型机研制实现零的突破
今天的辉煌,源于昨天的屈辱。
20世纪70年代,高性能计算成为推动科技创新和经济社会发展的战略高技术。然而,由于没有自己的巨型计算机,我国在经济社会发展中常常受制于人。勘探出来的矿藏、石油数据资料,得送到国外去处理,不但花费昂贵,而且数据首先要被外国专家掌握。
“中国要搞四个现代化,不能没有巨型机。”1978年,在中央召开的一次重要会议上,邓小平同志将研制亿次巨型计算机的任务郑重交给国防科技大学。
时任该校计算机研究所所长的慈云桂教授听到这个消息,当即向上级立下军令状:每秒1亿次一次不少,6年时间一天不拖,预算经费一分不超。“就算是豁出这条老命,也要把中国的巨型机搞出来!”
研制巨型计算机,谈何容易?改革开放之初,我国技术力量落后。国防科技大学虽是国内最早研制计算机的单位之一,但此前研制的“151”计算机运算速度只有每秒100万次,如今要研制每秒运算1亿次的巨型机,意味着运算速度要提高100倍,技术难度可想而知。
国防科技大学教授李思昆回忆道:“比如做计算机硬件的电路设计,当时纯靠一个一个地在纸上画出来,画错了又得重新再来。一个小规模的集成电路设计,光画图就得半个月。”
“困难没有吓倒我们!”国防科技大学教授胡守仁回忆说,大家只有一个信念,无论如何也要造出中国自己的巨型机,不让外国人再卡我们的脖子,所以大家把它叫“争气机”。
经过5年没日没夜的顽强拼搏,科研人员闯过了一个个理论、技术和工艺难关,创造性地提出了“双向量阵列”结构,大大提高了机器的运算速度,提前1年完成研制任务,且经费只用了原计划的1/5。
1983年底,我国首台每秒运算1亿次的巨型计算机顺利通过国家技术鉴定,标志着中国在巨型机研制领域实现了零的突破,成为当时继美、日之后,能独立设计和制造巨型机的国家。
时任国家科工委主任张爱萍为巨型机挥笔命名为“银河”,并题诗一首:“亿万星辰汇银河,世人难知有几多。神机妙算巧安排,笑向繁星任高歌。”
此后,科研人员继续凭借自主创新,相继研制出“银河-Ⅱ”“银河-III”等一系列巨型机,一步步将我国高性能计算机研制技术推向国际前沿,经济社会发展中一系列迫在眉睫的问题也逐渐解决。
1997年6月,当运算速度为每秒130亿次的“银河-III”研制成功后,国家气象局以此来做中长期数值预报系统,对天气的预报由以前提前两三天推进到提前7天左右。
“天河”超算:
登上世界之巅的“中国速度”
当今世界,高性能计算已成为理论与试验之外的第三种科学研究手段。随着我国现代化快速发展,解决经济、科技、国防等领域面临的一系列大型复杂“挑战性”问题,必须要有速度更快、容量更大的超级计算机。
像当年的慈云桂们一样,“银河人”再次站在了高性能计算攻关的排头,吹响了向千万亿次级超级计算机进军的冲锋号,向着计算机领域的“珠峰”攀登。
世界超级计算机的发展表明,计算能力每提高一个量级,都需要体系结构的创新和一系列关键技术的新突破。彼时,国防科技大学虽然具有较为雄厚的技术积累和丰富的工程实践经验,但要实现从百万亿次到千万亿次的技术跨越,同样困难重重。
“天河”超级计算机之所以拥有全球最快的运算性能,其奥秘就在于它首创的“CPU+GPU异构体系结构”。然而,这一全新的异构体系在创建过程中,遇到了一系列重大技术瓶颈。
“天河”超级计算机副总设计师杨灿群教授回忆说,GPU的特点是进行图形和视频处理,要将它和擅长运算的CPU组合在一起进行计算,不仅编程很难,计算效率也很低,国际上公认的计算效率最高只有20%。
创新的关键,就在于怎样把“不可能”变为“可能”,在没有路的地方走出一条路。经过4个月的封闭攻关,科研团队历经数万次实验,终于发现了CPU和GPU高效协同计算的内在规律,找到了性能优化突破口,使计算效率由20%提高到70%,创造了一个世界奇迹。
超级计算机系统要实现每秒运算千万亿次,还必须有一个快捷通畅的网络系统,让各种信息“跑得快”。科研人员为此设计了一种新型交换机的方案,但美国的芯片制造商不肯支持,要求按照美国人的方案设计。国防科技大学的研究团队不信邪,坚持走自己的设计路线,从头探索,努力攻关。仅用10个月时间,一款新型交换机研制完成,实测技术指标大大超过同类系统,而成本仅是同类同规模产品的80%。
随着一系列关键技术的突破,2009年10月29日,我国首台千万亿次超级计算机“天河一号”研制成功,实现了我国自主研制超级计算机能力从百万亿次到千万亿次的跨越,成为继美国之后世界上第二个能研制千万亿次超级计算机系统的国家。一年后,“天河一号”以优异的运算速度在世界超算500强排名中位居第一。
然而,仅仅过了不到8个月,“天河一号”就被挤下冠军臺,两年之后排名滑落至第八名。但凭着雄厚的技术积累和预先研究取得的成果,科研人员奋勇拼搏、勇攀高峰,2013年5月,峰值速度达5.49亿亿次的“天河二号”惊艳亮相,并先后6次站在世界超算500强榜首,让古老的“算盘王国”一次次矗立在世界超算之巅。
E级计算机:
向新一代百亿亿次超算进军
在几十年的持续攻关中,我国具备了自主芯片、互连通信系统和自主操作系统等核心产品的研制能力和产业化应用能力,并催生了以超级计算为龙头,高性能微处理器与微电子、网络与通信、自主基础软件和信息安全等优势方向共同发展的创新体系。
百舸争流,不进则退。新一代百亿亿次超级计算机,成为中国超算寻求突破的新目标。
2018年7月,我国自主研发的“天河三号”E级原型机完成研制部署,并顺利通过验收,向着新一代百亿亿次超级计算机吹响了冲锋的号角。
相比上一代超级计算机,“天河三号”是一个划时代的作品,自主创新的“金字招牌”擦得更亮。
芯片应用备受关注。在“天河三号”E级原型机系统项目实施中,科研团队自主设计了三款芯片:“迈创”众核处理器(Matrix-2000+)、高速互连控制器、互连接口控制器;自主设计了四类计算、存储和服务结点,十余种印制电路板。核心关键技术上实现整体自主可控。
真金不怕火炼。原型机诞生后的一个多月里,力学所、物理所、大气所、计算所等中科院院所,以及中国空气动力研究与发展中心、清华大学、西安交大等30余家单位轮番上阵,开展应用测试。结果表明,仅6个机柜就达到了与“天河一号”120个机柜相当的计算能力。
有专家指出,这为下一步支撑国家重大科技创新和产业创新,以及构建全方位应用生态体系打下了坚实基础。科研人员对“天河三号”的前景信心十足:预计在2021年左右研制成功,届时,运算能力将比“天河一号”提高200倍以上,实现跨越式提升。
“百亿亿次超级计算机是全球最前沿挑战之一。”杨灿群说,在掌握核心技术全面自主可控的同时,更要加大高性能计算生态体系建设,实现芯片、软件、应用的多点开花。
“银河精神”:
铸就中国超算辉煌的“根”和“魂”
从“银河”到“天河”,变化的是超级计算机越来越快的速度、越来越高的性能,不变的是科研人员代代传承的“银河精神”。在他们心中,“银河精神”是他们坚守的精神高地,更是他们的“根”和“魂”。一代代“银河人”正是用“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”,书写出了让世界惊叹的“中国速度”。
创造奇迹的奥秘何在?国防科技大学计算机学院政委刘学民说:“把五星红旗插上世界超算之巅,是‘银河人始终追逐的中国超算梦。”
不为人知的是,为了创造“中国速度”,科研团队牺牲了假日的悠闲,舍弃了家庭的温馨,推迟了婚期,耽误了治病,放弃了出国深造,许多人把青春甚至生命无怨无悔地献给了祖国的超级计算机研制事业。
“天河一号”有一位副总设计师,患有糖尿病等多种疾病。在“天河一号”二期系统安装调试期间,他在机房里整整坚守了半年时间。生活、饮食不规律导致他的病情不断加重,但他坚持不离开岗位。直至从美国传来“天河一号”首次登上世界超算排名榜首的消息,他才走出机房,住进医院。
为设计出高水平的计算机运算控制系统,青年讲师俞午龙连续5天5夜没合眼。第6天深夜,从梦中醒来的妻子发现他还在着魔似的伏案工作,一把抢过书桌上的图纸说:“你再这样拼下去,我就把这些图纸剪碎了!”第2天一早,俞午龙又出差去了黄山。谁也没想到,他病倒在黄山脚下,再也没能回来。
还有43岁的蹇贤福、40岁的张树生、41岁的王育民……在国防科技大学,仅为“银河”系列巨型机事业而献出年轻生命的科研人员就有20多人。他们以事业丈量生命,化作一块块基石,托举起中国科技腾飞的梦想。
艰难困苦,玉汝于成!
通信光纤铺设是“天河一号”二期系统进驻国家超算天津中心的首期工程,时间紧迫、任务艰巨。时值盛夏,由于沟槽温度超过40℃,水泥表层太粗糙,刚铺下的光纤的绝缘胶皮被磨出了道道裂痕,个别地方还露出线芯。这个问题不解决,轻则信号中断、通信短路,重则导致系统紊乱。
面对这种境况,指挥员把衣裤一脱,跳进闷热的沟槽,俯卧在粗糙的水泥地上。大家纷纷效仿,很快铺就了一条“人肉地毯”,一根根光纤顺着官兵的身躯通畅地向前延伸。
“正是这种在披荆斩棘、攻坚克难中形成的‘银河精神,书写出了中国特色自主创新之路的辉煌。”国防科技大学教授胡庆丰欣慰地说。
如今,“银河精神”与井冈山精神、“两弹一星”精神、载人航天精神等一起成为中国人民解放军宝贵的精神财富,成为“银河团队”一代又一代的传家宝。 (本刊综合)■