APP下载

科学计算中心建设与服务的探索与实践

2015-03-10王雨顺陈文通

实验技术与管理 2015年2期
关键词:计算中心高性能中心

于 泠, 王雨顺, 朱 莹, 陈文通

(1. 南京师范大学 科学计算中心, 江苏 南京 210023;2. 江苏省大规模复杂系统数值计算重点实验室, 江苏 南京 210023)



科学计算中心建设与服务的探索与实践

于 泠1,2, 王雨顺1,2, 朱 莹1,2, 陈文通1,2

(1. 南京师范大学 科学计算中心, 江苏 南京 210023;2. 江苏省大规模复杂系统数值计算重点实验室, 江苏 南京 210023)

介绍了南京师范大学科学计算中心的建设情况,以及中心对人才培养和科学研究的支撑服务。中心面向拔尖人才的层次化能力培养以及面向协同创新的多元化服务通道的探索与实践具有较强的借鉴意义。该科学计算中心共享平台能够较好地满足各学科的科学计算需求,为校内外科研工作者提供了高质量的计算服务,同时也提高了资源的使用效率。

科学计算中心; 共享平台; 人才培养; 协同创新

计算是数学科学在其他领域最普遍的应用,有关计算的挑战通常称为“科学计算”[1]。科学计算是计算机学科和应用学科交叉融合的产物,科学计算支撑了更广泛的研究领域[2]。随着大数据时代的到来,各学科科学研究中的问题不再能单纯依靠科学理论和科学实验方法予以解决[3],科学计算已成为继科学理论和科学实验之后,世界科学技术创新的第三种方法[4]。

为了更好地满足各学科的科学计算需求,为校内外科研工作者提供高质量的计算服务,同时为了提高资源的使用效率,南京师范大学建立了校级科学计算中心。本文将阐述该科学计算中心共享服务平台的建设情况,以及在人才培养和科学研究的支撑服务方面所做的工作和未来拓展设想。

1 科学计算中心的建设与共享

1.1 中心定位

南京师范大学是一所百年老校,是国家“211工程”重点建设的江苏省属重点大学,是一所综合性教学研究型大学,学科已涉及文、史、哲、教、理、工、经、法、管、农、医、艺等门类。相关学科所承担的国家级、省级科研项目,需要大规模、高质量的计算来完成海量的计算工作,特别是计算数学、计算物理、计算化学、计算地理等越来越依靠科学计算。为了加强学科交叉融合,提升学校科学计算水平,学校依托江苏省“大规模复杂系统数值模拟”重点实验室的高性能计算平台,于2013年成立了南京师范大学科学计算中心(以下面简称“中心”)。该中心是校级科技服务公共平台,挂靠数学科学学院。科学计算中心的设立,旨在进一步发挥省重点实验室的作用,提升科学计算平台的软硬件性能,提高服务水平;进一步合理利用和整合学校相关资源,避免重复建设和资源浪费;进一步促进相关学科的交叉融合,加强协同创新,提升学校的人才培养和科学研究水平。

1.2 软硬件建设

目前中心主要的共享计算平台为高性能计算(high performace computing,HPC)系统,该平台主要软硬件配置如表1所示。整个平台由108个刀片式计算节点、2个胖节点、1个GPU节点、4个登录管理节点和3个I/O节点组成。每个节点采用64位高性能处理器,共含1406个CPU核心,计算节点核心共1 296个,计算节点Linkpack实测值≥12.5 Tflops;外部存储采用容量约160 TB磁盘阵列;系统采用Linux操作系统,使用高性能文件系统GPFS;节点间通过千兆以太网和Infiniband相互连接。系统中安装了多个科学计算软件。

表1 科学计算中心HPC平台主要配置

1.3 共享服务平台

科学计算中心以HPC平台为主要资源,通过校园网提供共享服务。服务平台结构如图1所示。校内用户可以通过SSH客户端方式或IE浏览器方式访问中心的HPC平台;校外用户可通过VPN和SSH客户端方式或IE浏览器方式访问。

图1 HPC共享服务平台结构

2 科学计算中心的管理与运维

中心是一个为科技服务的公共平台,因此,服务用户便是中心的主要任务。要为校内外用户提供一个稳定、安全、高效的HPC共享平台,运维管理显得尤为重要[5-6]。中心从制度管理、设备运维和人员配备3个方面构筑了一个强大的服务平台。

(1) 完善的管理制度。中心制定了完备的运维管理制度,责任到人、分级管理。当发现故障时,首先由管理人员进行排查和处理,若无法自行处理时,须收集运行日志并及时报修。制度还规定管理人员应定期检查平台硬件的完好状态和软件的运行情况,定期检查设备的用电安全及空调设备安全,从而确保该平台能稳定地运行。此外,中心还制定了严格的保密制度,以保障用户信息和数据的安全。

(2) 可靠的设备运维。为了便于对HPC系统设备的管理、对计算资源进行合理的分配,共享平台配备了基于Web界面的EasyCluster管理和作业调度系统[7]。该软件系统主要包括管理与作业调度两大功能。管理功能模块具有负载监控、断电及温度保护、账户管理、计费记账等组合式功能,使管理员能方便、快捷地管理HPC系统;作业调度功能模块可以自动选择当前资源中利用率较低的节点分配作业,对没有被调度的节点进行自动休眠,降低了系统功耗。一方面,软件可以合理安排作业调度;另一方面,管理人员也可以通过软件方便、快捷地对平台进行远程维护。

(3) 专业的管理人员。中心系统管理人员的素质对设备能否高质量稳定运行、中心能否持续发展起着至关重要的作用。本中心配备了高学历、高素质的专职设备管理人员,时时监控共享平台的运行情况并填写运行日志;在服务过程中,管理人员加强与用户的沟通,了解科学计算软件的应用背景,及时根据用户的反馈意见改进工作,不断提高自身的服务能力。管理人员还承担了部分实验课程的教学工作,将实践经验直接传授给学生,帮助学生更快熟悉并使用HPC平台。

3 科学计算中心的服务与拓展

科学计算中心的服务过程也是人才培养和科研创新的过程,中心共享平台的服务质量和服务水平也体现在有成效的人才培养和科研创新上[8-9]。为此,中心在面向拔尖人才的层次化培养以及面向协同创新的多元化服务通道等方面进行了一些探索与实践。

3.1 层次化培养拔尖人才

目前中心的用户主要是研究生和一部分本科生。有的研究生参与了导师的科研课题,有的承担了省级或校级的研究生科研创新项目,有的参加了数学建模

竞赛。学校也有面向本科生的拔尖创新人才培养项目,例如一年一度的“英才计划”和“大学生创新训练项目”。科学计算能力是培养拔尖创新人才的一项重要内容。科学计算能力是利用现代计算工具解决教学和科研中复杂问题的模拟及求解的能力[10],是一种综合能力,主要包括建立模型的能力、编写高效并行程序的能力、科学计算软件的应用能力等。

由于中心服务的主要对象是全校学生,他们大都没有系统学习过并行计算或高性能计算方面的课程,且平时大都使用Windows操作系统,对Linux系统普遍缺乏了解,甚至没有最基本的关于Linux命令行的知识。很多学生在开始利用HPC共享平台时会遇到很多困难,容易出现畏难情绪,有些学生失去使用HPC平台的兴趣。

为此,笔者构建了层次化科学计算能力培养模型(见图2),培养学生对HPC平台的兴趣,挖掘学生的应用与开发潜能,以期递进式提高学生的科学计算能力。

图2 层次化科学计算能力培养模型

层次化科学计算能力培养模型采用分层、模块化组织教学内容,学生可以自由选择、组合各课程子模块。表2给出了关于课程模块的描述。

表2 科学计算能力培训内容

我校在研究生教育综合改革中,非常重视对研究生的数学建模能力、科学计算能力和科学计算应用能力的培养,从制度上明确了科学计算能力培养目标,在基础学位课程中增加工程数学、数值计算、应用随机过程等课程,供全校研究生选修。

层次化的科学计算能力培训方式在数学科学学院取得了很好的成效。在本科生教育阶段,开设了数学建模、计算方法、Fortran语言、Matlab语言和计算等科学计算相关课程,使学生打下了建模、软件应用及编程的基础。在研究生阶段,开设了并行计算等相关课程,使学生有能力将科学计算知识应用于科研课题,进行并行编程及计算。此外,针对学生所承担的科研课题,开设了专业性较强的科学计算软件使用讲座。

科学计算能力培养模型的实施,使学生的科学计算能力有了长足的进步。学生借助科学计算平台参加数学建模竞赛,完成省级、校级的创新训练项目,均取得了很好的成绩。

3.2 协同创新,提供多元化的服务通道

作为学校科技服务公共平台,科学计算中心承担着为学校科学研究和科技创新提供共享计算资源的任务。目前,平台除了安装有高性能计算必须的编译器、数学库、并行库以外,还安装了科学计算软件,为计算数学、计算物理、计算化学、计算地理等理工学科提供高性能计算服务。例如:在环境因素对太湖影响建模分析研究中,中心运用实测数据对模型进行了参数估计和校正,进行了定性和数值方面的分析,完成了水质动态预测。

目前,越来越多的研究工作需要数值模拟和大数据分析。计算和大数据的融合,促进了科学计算应用的扩展,使之成为理论研究和技术应用的基石[11],并不断应用到更多学科中(见图3)。科学计算以“计算思维”为基础,其中计算机和信息科学可以建立和优化计算问题所需要的硬件、软件、网络和数据管理构件[2]。这样的交叉,使得科学计算和其他科学研究的内涵均有了拓宽,科学计算的应用也日趋广泛。例如,利用计算技术进行社会系统演化机制、社会系统与环境的交互作用及其系统中要素的动力学行为的模拟[12]。

图3 科学计算与其他学科的交叉

南京师范大学科学计算中心提供了多元化的服务通道。中心正在积极拓展服务功能,探索社会科学(社会计算)、语言学(计算语言学)、教育和心理学(计算教育学)等学科计算实验的研究体系和研究模式,提供计

算实验的模型结构、实现方法以及专用工具。目前,中心正积极搭建支持SciLab工具箱、服务于网络教育的开源科学计算教育平台,也正在探索为方言研究、词典编纂、语料库建设、自然语言理解等研究和应用提供存储、建模、处理等支撑服务;与社会科学研究人员共同探索将传统的Web信息计算逐步延伸到物理世界中,通过感知物理社会中人们的行为及关系来挖掘个人、群体及社会性行为,以为社会公共决策、社会公共安全等服务。

4 结束语

南京师范大学科学计算中心的建设已初具规模,中心以服务科研和教学为核心,通过先进的硬件配置、丰富的软件资源和专业的管理团队,为校内外用户提供了稳定、便捷和安全的HPC共享平台。中心将根据大数据时代对科学计算的需求,进一步整合学校各学科的计算资源、应用资源和人才资源。在学校的支持下,中心将进一步完善软硬件设备,中心管理人员将不断提高自身素质,努力建设一个有特色的科技协同创新和人才培养的高水平支撑平台。

References)

[1] 美国科学院国家研究理事会.2025年的数学科学[M].刘小平,李泽霞,译.北京:科学出版社,2014.

[2] 胡庆丰,廖湘科.系统与应用相结合加强科学计算研究[J].国防科技,2010,31(2):24-27.

[3] 黄建忠,张沪寅,程媛.开放式高性能计算平台的建设与研究[J].计算机教育,2012(22):55-59.

[4] 陈志明.科学计算:科技创新的第三种方法[J].中国科学院院刊,2012,27(2):161-166.

[5] 盛乐标,游伟倩,周庆林.南京大学高性能计算中心建设的探索与实践[J].实验技术与管理,2013,30(11):144-146.

[6] 关伟豪,吴汝明,郭清顺,等.中山大学高性能计算服务平台的建设[J].实验技术与管理,2011,28(4):303-306.

[7] 南京君富科技有限公司.EasyCluster[EB/OL].[2014-06-25].http://www.jointforce.com.cn/page/easycluster.php.

[8] 林皎,张武生,徐伟平.高性能计算平台开放服务的探索与实践[J].实验技术与管理,2012,29(3):334-336.

[9] 程媛,黄建忠,游维涛,等.高性能计算实验室创新实践型人才培养[J].计算机教育,2014(10):83-89.

[10] 陈怀琛,高淑萍,杨威.科学计算能力的培养与线性代数改革[J].高等数学研究,2009,12(3):23-25.

[11] 国家自然科学基金委员会,中国科学院.未来10年中国学科发展战略:数学[M].北京:科学出版社,2012.

[12] 张军.社会科学计算实验研究[J].实验技术与管理,2010,27(8):19-23.

Exploration and practice of construction and services of scientific computing center

Yu Ling1,2, Wang Yushun1,2, Zhu Ying1,2, Chen Wentong1,2

(1. Scientific Computing Center, Nanjing Normal University, Nanjing 210023, China; 2. Jiangsu Provincial Key Laboratory for Numberical Simulation of Large Scale Complex Systems, Nanjing 210023, China)

This paper introduces the construction of Scientific Computing Center in Nanjing Normal University. Support services in the center for personnel training and scientific research are also demonstrated. Some of the practices and experience, such as hierarchical competency training for top-notch talent cultivation and diversified service channel for collaborative innovation, have a strong reference value. The establishment of the university’s scientific computing sharing platform can meet the needs of the various disciplines of scientific computing. It may provide high-quality service to internal and external computing scientists, as well as improve the efficiency of resource use.

scientific computing center; sharing platform; personnel training; collaborative innovation

2014- 07- 17

江苏省高校优势学科建设工程资助项目;江苏省教育科学“十二五”规划重点基金资助项目(B-a/2013/01/013);江苏省教育科学“十二五”规划项目(D/2013/01/002)

于泠(1971—),女,江苏金坛,博士,副教授,从事高性能计算应用研究及平台运维工作.

E-mail:njnuyuling@163.com

G482

B

1002-4956(2015)2- 0159- 04

猜你喜欢

计算中心高性能中心
中国—东盟人工智能计算中心正式发布
剪掉和中心无关的
在打造“两个中心”中彰显统战担当作为
面向反应堆设计的高性能计算中心建设及应用
腾讯云首个5G边缘计算中心正式对外开放
别让托养中心成“死亡中心”
一款高性能BGO探测器的研发
高性能砼在桥梁中的应用
北上广操心“副中心”
西部最大规模云计算中心启动