校级高性能计算公共服务平台的建设困局及思考建议
2015-12-02荆明伟周勇义雷奕安
荆明伟, 周勇义, 雷奕安
(1.北京大学实验室与设备管理部,北京 100871;2.北京大学物理学院,北京 100871)
0 引 言
高性能计算是利用先进的计算能力去理解和解决复杂问题,特别是理论、实验无法解决或难以解决的科学问题及大型的、复杂的、甚至不可重复和危险的工程设计和实验,它可以真实、全过程、全时空、反复精密地进行.随着计算机软硬件的飞速发展,计算速度的不断提高,高性能计算已逐渐成为支撑科学研究和高新技术发展的基础性交叉学科,越来越多的科学研究和重大工程中的关键问题不再是单纯依靠理论或实验的方法,还需要借助于高性能计算的手段.高性能计算已成为继理论分析和科学实验之后的第三种科研方法与手段,正在广泛应用于物理、化学、生物、工程、材料、电子、环境、能源等几乎所有学科和各个行业.作为新一代信息技术,高性能计算在保障国家安全、促进科技发展等方面具有直接的推动作用,是衡量一个国家综合实力的重要标志之一[1-7].高性能计算也因此成为《2004-2010年国家科技基础条件平台建设纲要》中的平台建设重点[8]和《国家“十二五”科学与技术发展规划》中大力培育和发展的战略性新兴产业[9].
近年来,高性能计算在我国很多领域都取得了巨大发展,从政府、高校、科研院所到企业,都深刻认识到高性能计算模拟对提高技术创新能力、加快创新速度、降低开发成本的重要支撑作用.高校作为科技创新的重要基地,对高性能计算的关注日益提高,纷纷斥巨资建立校级高性能计算公共服务平台,强大的计算能力极大地提升了学校科研工作的能力和水平,促进了相关教学、科研工作的开展,高性能计算已成为高校教学、科研创新的一个基本手段[10].然而,也有相当一部分高校的校级计算平台使用效率不高,造成了资源的浪费.因此,认真研究校级高性能计算平台在运行、管理中存在的问题,分析问题产生的原因,提出应对的合理化建议,从而提高平台建设的有效性和使用效益,已成为高校急需考虑和解决的问题[11].
1 校级高性能计算公共服务平台建设、管理和运行中的主要问题
高性能计算公共服务平台建设的目的是为学校的科研和教学提供开放性服务,提高整体科研竞争能力.然而,尽管经过漫长的前期准备:调研、方案论证、设备招标、安装调试等一系列程序,以及巨大的资金投入,许多高校花大力气建设的计算平台却面临着少人问津的尴尬局面,而产生这种局面的原因主要包括以下几点.
1.1 一次性投入,建设周期长,可持续性差
一次性建设所有相关设施,包括机房、电力改造、散热系统、存储系统、网络环境等等,投入巨大;从确定方案、设备采购、安装调试、试运行到正式提供服务的平均周期需要两年,而相同成本计算能力的倍增时间约为18个月,刚刚投入使用的机器实际上已经落后了;缺少持续建设的规划,导致设备更新难度大,不仅又是一笔巨额资金,而且不可避免地要中断服务6-12个月.
1.2 一个平台,一个系统,应用难免受到限制
校级高性能计算平台往往只是一个单独的硬件平台,只提供唯一的运行环境(体系架构等),也只能支持相应的软件和应用,难以满足教师多样化的科研应用需求.
1.3 重视硬件建设,忽视软件与应用的扩展、开发
“软硬失衡”是提高高性能计算应用效率的瓶颈,硬件与软件的有效配合才能真正发挥高性能计算的能量.平台只负责硬件的建设与维护,软件、应用由实际使用的老师提供.软件已有的功能模块简化了计算的操作,但也限制了科研的创新.只有积极地实行自主开发,才能突破软件的局限.
1.4 缺乏高水平的技术咨询与服务
软件的安装、调试,以及运行中出现的问题,只能由教师自己或求助于软件供应商解决,平台所提供的咨询和服务仅限于硬件相关的水平.
1.5 缺乏专业的管理和运行团队
硬件的运行、维护,软件与应用的扩展、开发,资源的管理、调度,计算模型、方法的优化等,都需要一个专业的团队.目前,很多作为用户的教师不了解高性能计算相关的技术操作,而负责运行的技术人员又不了解学科应用,双方沟通困难,极大地阻碍了高性能计算的应用[10].
1.6 运行成本高,收费标准两难
现有的投资模式一般是学校在建设初期一次性投入,建成后要求平台能够独立发展,自负盈亏.平台只能通过收取机时费支付运行、维护所需的各项费用,包括场地、水电、人员薪酬等,每年这些日常的运行维护成本几乎占到了设备购置价格的1/4—1/5[4],根据成本核算制定的收费标准往往过高,很多潜在用户负担不起,若单方面地降低标准,又会引发资金缺口,影响平台的正常服务.
1.7 缺乏合理有效的运行机制和管理模式
用户权限和优先级不同,计算所需的等待时间也不同,缺乏统一的针对用户和计算任务的评价标准体系.
2 建设思路与目标
高性能计算平台作为校级公共服务平台,目的是为全校相关学科提供科学计算和模拟服务.良好的管理模式和体系,是使这些昂贵的设备充分发挥作用的重要保障.国内外高校及科研院所经过长期的实践,有很多值得借鉴的经验,通过学习和借鉴这些宝贵经验,高校在新建高性能计算平台的过程中,可以避免很多误区.
2.1 合理设计,统一规划,重视安装环境
校级平台应保证持续的计算能力,合理的建设方案需要考虑到经费、场地,相应的附属设备,以及总的耗电量.根据预期建设规模,统一规划高性能计算平台的安装环境建设,包括电力供应、空间、散热等基础设施,保证硬件设备在提供持续服务和更新的整个过程中,无需进行大规模改造.
2.2 持续投入,分步建设,保证计算能力不间断地稳定增长
通过长期投入,分阶段地建设具有不同运行环境的多个主计算平台,保证计算能力持续稳定地增长.如图1所示,第一年建设1个完整的主计算平台,随后每两年建成1个主计算平台,五年可以建成3个主计算平台.第六年开始,每两年退役1个主计算平台,同时建成1个主计算平台.因此,五年之后,平台将持续拥有计算能力大致相当的3个主计算平台.平台提供不间断地服务,硬件及系统的更新平稳地体现在每年定期的设备更新维护中,持续更新,维护只会引起用户难以察觉的短暂服务中断.在整个服务周期中,用户只会感觉到系统资源的增加和使用环境的微调,丝毫不会影响其科研进度的安排.同时,根据实际需求,不同平台可以配置不同系统(体系架构),通过多平台、多系统满足老师们多样化的科研应用需求.
图1 分步建设思路
2.3 建立高水平的管理和运行团队,提高技术支持与服务能力,重视软件与应用的扩展和开发
实验技术队伍是设备使用和维护的核心力量,是平台日常运行的枢纽和保障.通过职称评审、岗位设置、薪酬待遇等方面对平台给予倾斜,吸引高性能计算领域高素质专业人才组建管理和运行团队.通过定期培训和激励机制,提高团队的技术支持与服务能力,充分发挥实验技术人员在平台的服务作用.重视软件和应用的扩展和开发,根据实际需求,组织软件和应用的购买、安装和调试,并协助老师们解决运行中的各种问题,甚至能够针对老师的科研创新需求进行开发,从而突破现有软件对科研的限制.
2.4 优化机时分配机制,提高运行效益
用户预交机时费,建立机时分配账户.以年为单位进行一次性分配,适当优先大规模并行计算用户,用完为止,不累积.向平台投入资金的老师分配与其投资额度对等计算设备5年满负荷运行的机时.类似于中山大学“股份制”的建设模式[12,13],学校出资建设高性能计算平台基础设施后,引导拟自购计算设备的老师将资金投入校级平台,由平台统一规划采购,以机时分配的形式回馈投入资金的老师,形成用户与学校共建的模式,既能避免分散投资、重复建设造成的资源浪费,又能保证校级平台长久、有效地运行.
举个例子,课题组5年有200万元经费用于购置高性能计算设备,经费分期到帐,第一年120万元,其余每年20万元.假设第一年向其他课题组预借经费一次性投入200万元购置服务器,除掉管理节点、存储、网络、机房改造等支出,根据目前的技术水平,大约可以购买800核的主流计算能力,经过方案设计、论证、招标采购,半年后开始运行服务.服务器的使用周期一般为5年,5年总计4000核年的计算能力,考虑到运行中各种问题导致的服务中断,实际使用的计算能力约为20~80%,甚至可能更低.若委托科研人员兼职管理,5年的成本约为300万元(年均电费20万元),还要附加1间机房和1个科研人员,而收益仅为800~3200核年的计算能力.若采用校级高性能计算平台,只需投入200万元,可收益4000核年以上的计算能力,而且能够获得更加专业、系统的技术支持,以及更多应用软件的使用权限.
2.5 建立科学有效的运行管理模式
学术委员会监督下的主任负责制是能够保证平台公平、有序、高效运行的管理模式.成立专门的学术委员会,监督平台的各项工作,并对平台建设与发展中的重大事项进行决策.设主任1名,负责在学术委员会指导下把握平台的发展方向,保证其对相关学科的支撑作用,聘请专职主任工程师,作为技术负责人,总体负责平台计算系统、存储系统的持续运行,网络的安全与稳定,软件、应用的调试与开发.
2.6 积极开展与国家级计算中心的合作
由于高校高性能计算需求的多样性,校级高性能计算平台可能无法满足所有用户要求,因此,鼓励学校老师转移部分计算需求,充分利用国家级计算中心的计算能力.根据用户的需求分类,由校级高性能计算平台牵头与国家级计算中心合作,建立学校用户组,提供针对国家级计算中心的服务支持,从学校层面解决老师在使用过程中诸如互联带宽、软件调试、授权共享等服务支持问题.
3 总结与展望
作为理论分析和实验之外的第三种科研手段,高性能计算已深入我国国民经济和国家安全的几乎所有应用领域,高性能计算技术的发展将有效提升我国在气候与生态环境、航空航天、材料科学、基础物理等领域的研究能力,产生重大理论和应用突破.高校作为国家科技创新的主体之一,通过借鉴国内外先进经验,整合需求,集中资源建设校级高性能计算平台,提供随需应变的高性能计算资源、技术支持及专业的技术咨询服务,在实际应用中不断总结,探索适合我国实际情况的高性能建设与运行模式,是促进、提高高校科研能力的重要保障.
[1] 周兴铭.高性能计算技术发展[J].自然杂志,2011,33(5):249-254.
[2] 袁国兴,郝一正,王一搏,等.大力加强我国高性能计算软件的研制[J].高性能计算发展与应用,2010(4):31-34.
[3] 王普勇,王涛.高性能计算在基础科学研究中的应用[J].科研信息化技术与应用,2011,2(4):14-23.
[4] 林新华.走出高性能计算中心的建设误区[J].中国教育网络,2009(5):42-43.
[5] 钱德沛.回顾与展望-863计划高性能计算方向的实践[J].高性能计算发展与应用,2010(4):13-16.
[6] 孙凝晖,包云岗.中国如何应对国际艾级计算的竞争[J].高性能计算发展与应用,2010(4):25-30.
[7] 东鹏.中国传媒大学:艺术也需要高性能计算[J].中国教育网络,2010(6):33-35.
[8] 国家科技部、国家发展和改革委员会、教育部、财政部.2004-2010年国家科技基础条件平台建设纲要[S].
[9] 国家科技部.国家“十二五”科学和技术发展规划[S].
[10] 张彤.应用是高性能的第一驱动力[J].中国教育网络,2011(9):58.
[11] 李小寒,周勇义,张黎伟.提高大型仪器设备使用效益的探索[J].实验室研究与探索,2009,28(3):35-37.
[12] 关伟豪.中山大学探索HPC发展机制[J].中国教育网络,2010(6):26-27.
[13] 周晓娟.高性能计算进入良性循环[J].中国教育网络,2010(9):50-51.