拓荒,从“一张白纸”到世界领先
——专访中国存储系统先行者、中国工程院院士郑纬民
2021-03-04陆金路
◎本刊特约记者◎陆金路
他是中国工程院院士;
他是清华大学计算机科学与技术系教授;
他实现了中国存储系统从“一张白纸”到世界领先的突破;而今70多岁的他依旧践行着“为祖国健康工作50年的”誓言……
清华·为祖国健康工作50年
初见郑院士,看着他走路时矫健的步伐、谈起专业来激情澎湃的样子,你很难想象这是一位70多岁的老人。
说起清华大学,郑纬民院士印象最深的还是时任校长蒋南翔先生对学生提出的那句口号:“为祖国健康工作50年”。郑纬民院士始终记得这句承诺,记得清华大学对他的培养。从1970年毕业到如今,他已经为祖国健康工作51年了,但在他看来这还远远不够。
科研的道路不会一帆风顺,在这个过程中,郑纬民院士始终把清华大学的校训记在心里——“自强不息,厚德载物”。作为我国网络存储领域的领军人物,他一直强调搞科研要自立自强,要做自主可控的产品。“要做有用的人,有用的事,先进的事”他始终把这句话挂在嘴边。
20年前,在存储领域有个叫网络存储器的东西,它并不是简单意义上的硬盘。这个设备有很多优点,但是在当时情况下,我们自己还不会做这个东西,就只能依靠购买外国产品。日本、美国的几家公司看中了我国当时无法生产网络存储器的现状,把价格定得很高,甚至比主机卖的还要贵。为了打破这一现状,郑纬民院士和团队暗下决心:一定要做一个自主可控的有知识产权的网络存储器!
拓荒·从一张白纸到世界领先
在存储系统领域,中国曾是“一张白纸”。1965年,当郑纬民考入清华大学自动控制系的时候,算法、存储、系统等基础理论研究,国内还比较落后,没有人能准确判断中国计算机事业将会怎样。2016年,郑纬民院士和团队获得了“戈登·贝尔奖”,这个奖项曾被誉为世界超级计算机应用领域的“诺贝尔奖”,郑纬民院士带领团队实现了我国高性能计算机应用成果在该奖项上零的突破。从1965年到2016年,这51年的漫长时光里,郑纬民院士一直在路上。
提起获得“戈登·贝尔”奖的往事,这位70多岁老人眼里的“光”更亮了。2016年,郑纬民带领团队做了一个天气预报的软件,这个“千万核可扩展大气动力学全隐式模拟”联合成果获得“戈登·贝尔”奖,实现了我国在此大奖上零的突破。2017年,清华团队再次借助“神威·太湖之光”超级计算机,成功设计实现了高可扩展性的非线性地震模拟软件,再次斩获“戈登·贝尔”奖。两次获奖,郑纬民院士及其团队付出的努力不言而喻。
51年的时间,郑纬民院士在和团队攻关的过程中,遇到过不少“卡脖子”的事情,但在郑纬民院士的心里一直明白,人家国外要卡你脖子,最主要的原因还是因为我国在这方面不行。卡不卡脖子,关键看自己。就像网络存储器一样,当我们自己掌握这门技术,我们自己会做了,国外就卡不了脖子了。因此,郑纬民院士一直在想办法提高我国这方面的技术水平,不管是计算机芯片也好、软件也好、应用也好……当我们能做好,国外就没有办法制约我们了。
冷门·独行者的孤独
郑纬民院士所处的领域——计算机体系结构,在之前很多年都不是热门,甚至有些冷门,直到近年才慢慢被重视。当整个行业醉心于研究各类复杂精巧的算法时,郑纬民院士却敏锐地意识到数据存储技术的广阔发展前景。
郑纬民院士告诉记者,在过去,做系统的人相对较少,主要通过向国外购买的方式获得,因此自己就不去做了。但是国外一旦不卖给你,该怎么办?并且在早些时候,大家都喜欢做算法,后来发现互连也很重要,最近这几年,则是以存储为中心了。同时,随着数字化、信息化的发展,数据量增加的非常快,数据量也很大,这样的数据要放在哪里?这成为了一个现实问题。如果把数据放在国外的存储系统里,总归是不安全的。所以,郑纬民院士和团队下定决心,一定要做自己的存储系统,这样才能保证安全。虽然刚开始的时候,性能、功能会稍弱一些,但是也不要紧,我们总归是会把它做好的。
在郑纬民院士看来,自己专业的冷门表现在,学生报考博士生的时候不太喜欢到这个专业来。在他们眼里,这个专业读起来太辛苦!要6-7年才能毕业,毕业文章也不好写。其他偏算法类专业的博士生可能4年就毕业了,但这个专业却要花费更多的时间。最近几年,情况好转了不少。郑纬民院士告诉记者,随着被重视程度的提高,国内很多公司都要做系统,比如华为、阿里、腾讯,都很需要系统专业人才。因此从郑纬民院士组里毕业的学生很受重视和欢迎。所以,近年来到郑纬民院士专业组的人很多。特别是近年来,从计算机系毕业最优秀的本科生大多数选择不出国,就留在清华大学,留在郑纬民院士的组里,继续为国家计算机事业攻关。说到这里,郑纬民院士感到非常欣慰。“很辛苦,但是也有乐趣,我们很想把这件事情做好”郑纬民院士这样告诉记者。
教学·鼓励交叉研究
在教学上,郑纬民院士一直鼓励学生跨领域学习。比如,要做天气预报软件,怎么样才能把天气预报这个程序写好?这就需要做这个程序的人既懂大气方面的专业知识,又要懂计算机。郑纬民院士告诉记者,清华大学在几年前成立了一个地学中心,里面涉及了一些跟天气预报有关的研究。当时,郑纬民院士找来了一位青年教师,问他有没有兴趣做交叉研究?并给这位年轻老师出了一个主意:首先把天气预报专业本科四年的书全部读一遍,一边读一边做。这位年轻老师按照郑纬民院士的方法,真的把那些书都找来读了。后来,他做出来的天气预报软件比那些只懂计算机的人做出来的优秀得多,现如今这位年轻教师已然是天气预报领域的专家了!
交叉学科,要两者结合才能做好。学气象的人要懂计算机结构,学计算机的人要懂气象专业知识。这样才是真正意义上的学科交叉。郑纬民院士曾经带过一个硕士生,他就是原搜狗公司CEO王小川。他当时的研究方向是搜索引擎。后来,他想通过计算机做一款基因拼接软件,当时的他对生物学很感兴趣。郑纬民院士很鼓励他这一想法,并且告诉他要把生物基因的书读一遍。后来他在郑纬民院士的鼓励下做出了一款基因拼接软件。
在郑纬民院士看来,学科交叉就是深度交叉,只有做到深度交叉,才会获得成功。在教学的道路上,他一直这样鼓励学生。
人才·从“0”到“1”的跨越
“鼓励年轻人从头做先进的系统软件”是郑纬民院士对于人才培养的思考。他一直倡导,做系统软件要从头做。从头并不是基于开源软件在上面修改,而是鼓励学生从头写。并且还要写的比原来的软件更好、更先进。“从头”、“先进”这两点在郑纬民院士心中十分重要。
郑纬民院士说,过去,中国人从0到1这件事情做的少,而在从100到110这件事上做的多。这并不是说从100到110不好,而是我们更需要从“0”到“1”这种突破。尤其是现在,就是“从头做先进软件”的时候了!我们现在有这个底气这样说。这样的底气从何而来?郑纬民院士给出答案……
郑纬民院士和团队最近做了一个分布式文件系统,这个系统就是郑纬民院士和团队从头开始做的。这个文件系统做完后安装在了鹏城实验室“鹏城云脑II”这台机器上。值得关注的是,“鹏城云脑Ⅱ”于去年11月和今年7月接连两期夺得IO500总榜和10节点榜的双料世界冠军。11月12日,第三届中国超级算力大会(ChinaSC 2021)在北京举行,会上发布了2021国际人工智能性能AIPerf500排行榜,鹏城实验室“鹏城云脑II”人工智能超算大科学装置蝉联排行榜冠军,彰显了其强大的智能算力优势。今年5月份,“鹏城云脑Ⅱ”还在具有较大业界影响力的“MLPerf training V1.0”基准测试中取得了图像处理领域模型性能第二名和自然语言处理领域模型性能第一名的好成绩。
通过这个案例,我们就能理解为什么郑纬民院士说“现在是时候从头做先进软件”了。
未来·网络存储光明前景
当前5G、大数据、人工智能等兴新技术迅速发展,赋予了各行各业新的发展机遇。未来,网络存储领域如何发展?
在存储系统方面,郑纬民院士一直在做一个大容量、高可靠的存储系统。这是因为,存储系统里硬盘是有寿命的,一旦硬盘损坏,里面的数据就存在丢失的风险。为此,郑纬民院士及其团队特别想做的就是,硬盘损坏后,里面的数据是否可以保留下来。郑纬民院士介绍说,要达到这个目的,通常办法有两个。第一个方法,在存数据的时候存三份,一份数据坏了,还有另外两份数据,用这个办法来保证硬盘坏了数据不会丢。但是这个办法的不好之处在于,要多买200%的硬盘。第二个方法,用RAID 5、RAID6的方法做,这个方法的好处在,假如有5块盘,它允许一块盘坏,还有4块盘是好的,就能把数据恢复出来。但是这个方法的缺点就在,一个盘坏了,一定要赶快把这块盘拔出来,把一块新的盘插进去,这样才能做数据恢复,如果没有及时把坏盘拔出来,又有一块盘坏了,那数据就丢了。这也是现在数据中心管机器的人最怕的事。
这两年,郑纬民院士和团队做了一个叫纠删码的东西,纠删码就是为了恢复数据用的。郑纬民院士介绍说,比如一部电影,分成32段,把每一段都存到一个硬盘里去,存进去的同时做一个运算,产生纠删码。32段电影存入,就产生了16段纠删码。这16段纠删码,就是为了恢复数据用。它的好处在于当小于等于16块硬盘坏掉都没有关系,数据都能恢复出来。
郑纬民院士的下一个目标是:研究一款存储系统,即使盘坏了,数据也不会丢;有人来偷数据,即使偷走了也没有用。“高可靠、自维护、高安全”是郑纬民院士对于存储系统的要求,也是未来行业发展趋势。
“做有用的人、做有用的事”是郑纬民院士对团队每一位成员提出的要求,也是他终身践行的目标。
从“0”到“1”,中国存储系统的未来到底行不行?
“我看行!”这是一位院士对中国未来计算机事业蓬勃发展的信心。