APP下载

中科大超算中心:发力学科探索

2010-11-09李京张焕杰

中国教育网络 2010年1期

文/李京 张焕杰

中科大超算中心:发力学科探索

文/李京 张焕杰

科研的重要平台

高性能计算设施是研究型大学的重要平台,在学校教学、科研活动中发挥着不可替代的作用。

高性能计算应用领域非常广泛,几乎在所有学科中,高性能计算都能发挥作用。比如空间物理、地球化学、地球物理等涉及到地球圈层相互作用的环境效应等学科,此外,生命科学、高能物理、天体力学等许多学科在计算机的帮助下,可以取得更快的研究进展。所以说,高性能计算是研究型大学学科发展的一大平台。

按照不同的分类方式,高性能计算设施有不同的划分。具体来说,可以有三个不同类别的划分。

通用型/专用型。通用型指的是:在作业系统管理下,多学科、多人共享使用,提供通常的计算服务,适合学校统一建设管理。专用型指的是使用特定的操作系统和软件环境,某个系统或应用专用,往往加入到一个网格中,参与网络计算,适合按照应用建设,统一管理。

计算密集型/数据密集型。计算密集型指的是计算量大,但数据存储需要的不多。数据密集型指的是数据量非常大,如高能物理计算需要非常多的数据存储空间。

通信密集型/松耦合型。为提高计算速度,往往需要多CPU共同完成计算任务,将一个计算任务划分成子进程分别在多个CPU上同时运行。通信密集型指的是子进程间通信密集,在SMP、CCnuma等共享内存或使用infiniband等高速网络互联机器上运行效率高。松耦合型指的是子进程间通信少,在以太网廉价互连的机器上运行,性价比很高。

中科大高性能计算设施现状

从1995年开始,伴随Linux和Internet的发展,中国科技大学多个院系、研究组建设了大大小小的Linux集群用于高性能计算。2004年中科大设立超级运算中心,挂靠在网络信息中心,对全校用户提供高性能计算服务和支持。超算中心是科大五大公共实验中心之一。超算中心设专家委员会,专家由用户和计算机学院老师组成。

目前,中科大高性能计算设施的现状是:

第一,集中式与分散式计算设施并存。首先,在大范围内,由学校超算中心统一建设、运行管理,用户共享使用,计算能力10TFLOPS。此外,部分院系、项目组用科研经费建设了各自的高性能计算设施,供小范围使用,以Linux集群为主,总计算能力超过20TFLOPS。

第二,高性能CC-numa机器与廉价Linux集群并存。CC-numa机器价格高,但通信性能最快,Linux集群通信性能偏低,但价格也低,性价比很高。

第三,校内外计算资源共用。部分项目组,除了使用学校的计算资源,也会使用校外性价比高的计算资源,如上海超算中心、科学院超算中心的计算资源。

集中式设备由超算中心负责建设与运行管理。在投入方面,从2004年至今总投入约1500万,现有计算资源约10 TFLOPS,在今年10月刚增加了一套GPU高性能计算机(CPU性能5TFLOPS,GPU单精度性能205TFLOPS),年底前还将再增加一套约6TFLOPS高性能计算机。

超算中心现有设备有:高性能共享内存计算机 HP SuperDome,峰值0.77TFLOPS,2004年购买; 高性能计算集群HP RX2600,峰值0.38TFLOPS,2004年购买;IBM刀片计算集群,峰值1.8TFLOPS,2007年购买;联想深腾1800高性能Linux计算集群, 峰值4.7TFLOPS,2008年联想公司赠送;曙光4000A;基于国产龙芯2CPU的KD50-I万亿次高性能计算机;联想GPU高性能计算机等。

在分散式计算设施方面,各院系根据自己的需求,建立了各自的计算设施。比如,我校杨金龙教授研究组建设有3组Cluster,作为组内计算使用,除使用校内计算资源外,还付费使用上海超算等优质廉价计算资源。此外,还有物理学院Science Grid网格分支。物理学院初步建成Science Grid高性能计算中心,为粒子、天体、等离子体物理、理论学科发展提供大规模数据处理、及仿真模拟分析所需的计算机资源,其计划处理器核数量:3000~5000核,预计投入1200万元人民币。

超算平台的未来发展

超算平台经过近六年的建设和运行,发展处于一个瓶颈期。希望能通过以下措施,细化超算平台的的服务内容,改进服务方式,提高服务水平,更好地为科大的科研和教学提供服务。

首先, 对超算用户进行细分,提供更细致的服务。对刚开始接触高性能计算的新用户加强宣传、培训与服务,帮助其尽快掌握一些高性能计算的基础知识。对于科研产出率高的用户进行重点服务和支持,优先使用,细致服务。针对商业或开源软件用户,提供相关的软件环境和硬件环境,尽量满足用户需求。针对自己开发软件的用户,需提供深入的开发支持,必要时帮助用户进行优化,提高运行速度。针对托管系统用户,需要提供系统托管服务。

其次,对程序模式进行细分,提供最合适的平台。不同的平台价格差异很大,要尽量发挥各种机器的优势。大内存、高通信、大I/O的应用,适合在单节点性能高(当然也比较昂贵)的机器上运行,取得很高的实际计算性能;而多任务应用一般适合在集群系统上运行,可以在非常低的成本下获取满意的性能。

此外,对超算中心的工作内容细分,引进合格的技术人员。在工作内容细分与岗位要求方面,要注意这几个方面。首先,日常运行和支持方面, 机器的常规运行和技术支持,人员要求较低;其次,平台建设与维护方面,要充分了解各种程序、各种机器的特性;收集基准测试程序,对各种机器进行评测和比较;负责系统规划、建设、维护的全过程;对用户程序提供运行环境支持;人员素质要求高;第三,高级用户支持方面,对用户提供1对1的系统和开发支持,人员素质要求最高。后两项工作对人员素质要求很高,可以借助部分高级用户的力量来完成一些工作。

总之,在工作中,设备是基础,人员是关键。我们的关键词是:细分用户级别、深化服务内容、改进服务方式、提高服务水平、支撑学校发展。

未来五年,我们计划再建设一个400平米的超算专用机房,聚合计算性能发展到50~100T FLOPS,软件环境具备3种以上的系统和运行环境,提供10种以上公用计算软件。实现服务分级,重点支持5个以上研究组,提供高等级服务。管理方面,要具备不同层次8~10名技术人员。争取对外合作,与企业建立合作关系,为国家和地方经济提供计算服务。

(作者单位为中国科技大学网络信息中心)

互联网有多重?

你考虑过这个问题吗?所谓虚拟的互联网到底有几千克重?

不过CNET有人做出了这个终极问题的答案。他们计算出来了目前链接到互联网上的每台电脑、每台服务器以及线缆的重量,最终得出的结果是:498,438,559,990千克。你可能从未意识到我们的互联网也是如此庞大臃肿的一个玩意。有趣的是这里面还包含了iPhone、 Blackberry。

根据CNET的计算,他们认为世界上大约有570,937,778台电脑正链接到互联网,然后以平均每台约40千克计算。

以下是一些相关的数据:

服务器的重量约是 175,480,931千克

线缆的重量以每米5.8千克计算,最后的结果87,000,000千克以上

IPhone 销售了4200万部,大概607.5万千克重

黑莓销售了5000万部,重680万千克

互联网目前有287,524种病毒

而我们每天浏览的网站综合相当于不到0.01千克重的煎蛋

你也可以“作个火星人”

美国宇航局和微软公司日前宣布合作开设火星探索网站——“作个火星人”(beamartian.jpl.nasa.gov)网站。用户登陆该网站不仅能了解美国宇航局迄今数百次火星探索任务的进展情况,而且可亲身参与火星探索。

美国宇航局火星探索项目主任道格·麦奎逊说:“火星探索任务获得了极其丰富的资料,我们现在到了一个人人都能当探索家的历史阶段。”他说,网站用户能够自由扩展或创建自己的“火星任务”,并对美国宇航局的科研项目做出贡献。比如统计火星环形山的数目任务艰巨,仅凭计算机或科学家难以完成,成千上万的网民参与将加速这项工作的完成。用户还能帮助科学家绘制精确的火星地图,并因此获得游戏“积分”。

(来自美国宇航局)