金怡濂:计算机选择了我
2018-04-09
前不久,在科技新闻评选中,“神威太湖之光”四次问鼎世界超算榜冠军被评选为2017十大科技新闻No.1。而它的总设计师,正是金怡濂。金怡濂是中国计算机事业的开拓者之一,他主持完成了中国多台大型、巨型计算机的研制,系统和创造性地提出了巨型机体系结构、设计思想和实现方案,为中国计算机事业特别是巨型计算机的跨越式发展作出了重大贡献。
开创中国并行机研制的先河
金怡濂与计算机结缘,是在新中国成立后的1956年。当时,国家把计算机技术列为科学发展的四个重点学科之一。不久后,20个年轻人被选派赴苏联学习计算机研制,时年27岁、自清华大学电机系毕业后进入研究所工作的金怡濂幸运入选。“当时,电子计算机刚问世10年。中国没多少人知道什么是计算机,国家急缺人才,与其说我选择了计算机,不如说计算机选择了我。”金怡濂回忆道。
1958年7月,金怡濂在苏联精密机械与计算技术研究所完成对电子计算机的“启蒙”后,坐了七天七夜的火车,从莫斯科回到北京。他只到原单位报了个到,随即就被派往中科院计算所,参与中国第一台大型计算机104机的研制。
104机,是以苏联的БЭСМ-Ⅱ机为蓝本研制,金怡濂在莫斯科时就已研究过苏方的图纸很多遍,所以,在原理和结构上问题不大。但时值国内“大跃进”时期,在“大干快上”的热潮中,质量往往不太受重视,所以,如何确保计算机的稳定性和可靠性,成了重点和难点。
当时的计算机体积都很庞大。世界上的第一台电子计算机“埃尼阿克”(ENIAC)诞生于1946年,占地170平方米,重达30吨,能在1秒内进行5000次加法和500次乘法运算。而104机的主机和电机组机房各占地200平方米,共有22个机柜,使用了4200个电子管、4000个晶体二极管,每秒能运算1万次。
金怡濂颇有感触地说:“计算机是个很特别的东西。算一个数,需要很多器件一起工作,哪里在某个瞬间断一下,计算结果就会出大错。所以,工艺质量和设计质量一样至关重要。”
1959年国庆节,104机宣布研制完成,《人民日报》头版头条报道了这一喜讯。随后,它圆满完成了包括中国第一颗原子弹在内的许多重大课题的相关科学运算。
此时,金怡濂已离开104机研究小组,又陆续投入到四台大型计算机的研制工作。时值三年困难时期,金怡濂和同事们虽然吃不饱,但为了赶进度,白天黑夜连轴转,困了就到机房隔壁的库房睡一觉,醒了再回到机房接着干。
金怡濂主攻的运算控制,被称为计算机的大脑和心脏。他提出了一系列可行性建议和改进方案,攻克了“穿通进位链加法器”等课题,逐步成长为中国大型计算机研制领域的骨干力量,被破格提拔为研究室副主任。
1963年,三线建设时期,金怡濂携家眷随单位迁往大西南。生活条件自然艰苦,他们住的是干打垒的房子,各种物资都凭票供应。金怡濂一边学着照顾家,一边继续全身心地投入新型计算机的研制。
1969年,金怡濂作为主要技术负责人和总体组组长,主持国家重点工程九〇五乙机的研制。当时,国家的电子工业基础异常薄弱,金怡濂一方面与同事们下大力气帮助合作的元器件生产厂家提高质量,另一方面在国内首次提出“双机并行”的处理器系统结构,以双機并行提高机器的速度和稳定性,弥补元器件的可靠性不足。
双机并行,这在当时不少人看来是个极其大胆新颖的构想。但金怡濂说,这并非他异想天开,而是源自多年来坚持追踪国际新技术的心得。即使在鼓吹“知识无用”的年代,即使身在大西南信息闭塞的山区,他仍然想方设法获取最新的学术信息。每次到大城市开会或办事,他必定要去图书馆或资料室查阅学术资料。他说:“搞科研的人,不跟踪了解本专业的先进技术,无异于瞎子、聋子,长此以往,思维会迟钝,会失去想象力和创造力,失去创新的灵感和激情。”
山区的科研条件十分简陋。印制板车间充斥着刺鼻的化学制剂气味;数千个比米粒更小的磁芯,中间要穿过三根细铜丝,全凭一群好眼力的年轻人手工完成;数以万计的组件,全部手动组装……尽管如此,凭着“革命加拼命”的精神,1976年,九〇五乙机宣布研制完成,运算速度达每秒350万次,开创了中国并行机研制的先河。
要在出机时达到世界第一
1978年,中国迎来科学的春天。金怡濂代表九〇五乙机的全体参研人员、设计组和他个人,在第一次全国科学大会上捧回了三张奖状。两个月后,他又被派往美国和日本考察大型计算机。
1980年代,“银河”向量亿次机和九〇五工程亿次机两台运算速度达亿次级的巨型机相继成功研制。1991年,金怡濂所在的研究所又成功研制出速度达每秒10亿次级的中国第一台大规模并行处理计算机,逐渐缩小与美、日等国的差距。那么,下一个目标,定在100亿,还是1000亿?各方争议不断。金怡濂是少数赞成直接研制1000亿次级巨型机的人之一。
“冒险和求实,是一个问题的两个方面。每做一件事,我们都必须十分认真地去分析这件事究竟能不能做,既不能畏首畏尾,也不能盲目冒险。”金怡濂说,他支持直接研制千亿次级绝非一时冲动,而是反复研究国外同行的成果近一年后得出的结论。“当我说出1000亿时,心中至少已有了七八成的把握,剩下两三成,也有一个初步判断,预计那些问题可以解决。”
“计算机发展太快,早一年是先进的,晚一年就落后了。”他还有另一层考虑,直接挑战千亿次级,将是一次在该领域迎头赶上美日等国的机遇,机不可失。最终,新一代巨型机——“神威”的目标被确定为1000亿次级。当时已退居二线的金怡濂被邀请出山,担任总设计师。
在“神威”的研制过程中,金怡濂提出了比从前任何一个项目都更为严苛的质量要求。他说:“我们的目标是,哪怕一个焊点、一枚螺丝钉,也要体现世界先进水平。”1996年9月,“神威”研制完成。经测试,峰值运算速度达到每秒3120亿次,跨入国际领先行列。这意味着,仅用4年时间,中国高性能计算机的水平就提高了300多倍,远超“摩尔定律”每四年提升一个数量级的速度。
国庆50周年,“神威”准确计算出当天北京的天气:清晨5时雨会停,3个小时过后将云开雾散。在天安门广场盛况空前的国庆阅兵典礼现场,当太阳如期露出笑颜,受邀参加观礼的“神威”总设计师金怡濂也笑了……
此后,金怡濂带领他的团队再次向世界最先进水平发起冲击。这次,他们的目标更加明确——要在出机时达到世界第一。2001年底,“神威Ⅱ”研制完成,速度达到每秒13.1万亿次,其峰值速度和持续速度均超过了当时排名第一的高性能计算机;机器体积大为缩小,功耗也较低。
金怡濂始终关注着中国和世界高性能计算机未来的发展。当前,中国在高性能计算机领域已处于世界领先水平。国内同行称这种计算机为“巨型机”,而国际上更普遍的称谓是“超级计算机”(Super computer)。金怡濂介绍说,预计到2020年前后,超级计算机的运算能力将突破每秒100亿亿次,全世界的同行都正在朝这个目标努力。