联想打造HPC全生态
2018-06-06石菲
石菲
4月27日,由中国计算机学会主办的“超级计算机并行应用大会”在无锡开幕,在此次会议上,国家超算无锡中心发布了“神威社区”和“无锡超算云平台”,期待营造高性能计算生态,携手更多应用单位推动超算技术与产业发展的深度融合。
在实现“世界最快计算机”四连冠后,“神威.太湖之光”把更多的资源投向应用领域。去年,国家超算无锡中心用户数量超过300家,主机账号1500多个,支持包括紫金山天文台、远景能源集团、中船重工702所在内的江苏省用户超过50家,在全球气候变化及应对、高性能计算、材料基因工程关键技术与支撑平台、政府间国际科技创新合作、重大自然灾害监测预警与防范等重点专项上,取得一系列新突破。
众所周知,我国超算的计算能力世界领先。但与领先的超算能力相比,我国超算应用发展远远滞后于超算能力发展。作为中国HPC的领军企业,联想集团正在致力于打造HPC全生态。
2017年10月19日,2017年全国高性能计算学术年会(HPC China 2017)在合肥开幕,联想数据中心业务集团全球高性能计算高级总监Scott Tease在会上表示,联想在HPC领域耕耘数十年,已获得了一定成绩。而随着高性能计算逐渐从科学研究向商业化应用转移,并在人工智能、云计算等领域得到愈加广泛的应用,HPC的舞台越来越宽广,成为智能互联时代的业务增长新发力点。在新一轮发展浪潮中,联想致力于以AI为突破口,依托深厚的行业积累和数据中心丰富经验,通过生态打造将HPC技术投入市场应用,将HPC最佳应用前景传递给客户。
联想的HPC集群,不仅广泛应用于政府、教育、科研等国家投资领域,还大量覆盖了电子、金融、地理、气象、汽车设计等商业应用领域,体现了超大规模数据的可靠性能和整体解决方案能力。此前,联想为中国科学院数学与系统科学研究院打造的高性能集群,实现408个计算节点、1081TFLOPS的优异性能,远远超出客户三倍预期。作为国内首个高校温水水冷高性能计算项目,联想还采用其首创的45℃温水水冷技术,将北京大学全新高性能计算校级公共平台集群集群PUE值控制在1.1, LINPACK效率高达92.6%。
在人工智能火热的当下,联想正在与客户合作探索人工智能的能力,以实现真正的创新研究,推动提升HPC商业及社会化成效的工作,例如寻找疾病治愈办法以及了解气候变化的真正影响等。
以农业为例,目前,农业用水量占全球淡水使用总量的70%,到2050年,预计仍需额外10%的水资源来加大粮食供应量,以满足全球新增人口的需求。随着用于农业的淡水越来越稀缺,提前发现高风险缺水地区和管理现有水资源以减少对粮食生产的负面影响至关重要。
为了应对这一全球挑战,联想与合作伙伴的研究人员正在进行合作,开展更深入的研究。在技术层面,通过采用支持人工智能的地理空间图像分析流程,使用深度学习算法来发现农田、识别农作物、监测土壤状况,并比较需水量和可用水资源,以制作出干旱地区图。这些人工智能技术还可帮助当地和全球农民检查农作物和土壤的健康状况,有效管理灌溉用水和能源资源,提高盈利能力,同时保护稀缺自然资源。
此外,在助力科学研究方面,联想也有着深厚的实战经验。在伦敦大学学院(UCL),研究人员正在通过在欧洲核子研究中心的大型强子对撞机(LHC)上开展的ATLAS实验,重建高能粒子碰撞事件。LHC是世界上最大、能量最高的粒子加速器,这项工作有助于解决有关宇宙起源的一些最基本的问题。然而,LHC碰撞强度的增加给传统模式识别技术带来了严峻挑战,所要消耗的計算资源极为庞大,使得学院难以为继。通过与联想合作,UCL的研究人员正在使用人工智能,利用来自ATLAS的成像数据来重建粒子轨迹,效率相比传统方法提升显著。这种方法不仅简化了计算资源,还能帮助UCL推进其在重建更复杂事件方面的研究。
在国内,联想也在为高校科研创新提供强大的技术支持与保障。
2018年1月,联想与北京大学的高性能计算校级公共平台正式启用。
校级公共平台建设是北京大学支撑前沿优势学科发展的重要战略部署,是学校“双一流建设”的重要条件保障。北京大学高性能计算校级公共平台——“未名一号”是北大已建成的第七个校级平台。平台采用了联想深腾X8800超级计算机系统,深腾X8800基于联想全球首创的45℃温水水冷技术,通过无泄漏快速连接系统,将冷却水流经水冷头来冷却核心处理器及其内存。相比传统的风冷散热技术,采用联想45℃温水水冷技术的未名一号, LINPACK效率达到92.6%,PUE值控制达1.1。同时,未名一号节省了50%的制冷散热成本,每年将为北京大学节省60万度电。
北京大学高性能计算校级公共平台未名一号由227个节点组成,其中计算节点196个、GPU节点10个、KNL节点8个、胖节点3个、管理和登录节点6个、IO节点4个,存储采用联想GSS24存储系统,容量2784.8TB,计算网络采用Omnipath架构,编译器采用GNU和Intel最新编译器套件,作业管理采用Slurm作业调度系统,集群管理采用联想LiCO集群监控管理套件。该集群系统理论计算峰值高达411万亿次/秒,计算节点理论峰值261万亿次/秒,实测计算能力达到242万亿次/秒。未来,该平台将为全校提供高性能科学与工程计算服务,以满足各学科领域对于大规模数据处理和大规模科学计算的需求。主要应用于数学、深度学习、大气海洋环境、新能源新材料、天文地球物理、生物医药健康等领域,涉及数学、统计学、力学、物理学、化学、生物学、地球科学、航天航空科学、计算机科学等多个学科领域的科研。
同时,基于联想Skylake全新架构的北京大学冷冻电镜超算平台也即将开始部署,联想将为北京大学在生命科学研究领域提供了强大的计算力。冷冻电镜就是应用冷冻固定技术,使用透射电子显微镜观察样品的显微技术,是结构生物学研究的利器。冷冻电镜有三个关键因素,冷冻固定技术,显微技术,以及对图像数据进行收集和处理的技术,而高性能计算平台正是实现海量数据存储和处理的重要基础。