让科学大数据流动起来
2014-01-29傅宇凡
文/本刊记者 傅宇凡
本期特邀编辑 王伟 王胜开1
高性能计算机、互联网、物联网等信息技术飞速发展,强子对撞机、空间遥感等大型科学装置和科研设施的建立与运行,产生了海量的科研数据。数据密集型科研越来越成为当代科学研究的特征,科技进入了“大数据”时代。
2013年底,美国《自然NATURE》新闻焦点特别介绍了一个饱受实验生物学困惑的硕士研究生改行从事生物信息学研究,并获得成功的真实故事。这则故事是现代科研方式发生变化的生动注脚。
现代科研活动等各个领域都已经推到了一个前所未有的大数据时代,量变引起质变,不断增加的数据引发了人们的思维和行为方式的变革。信息化推动全球各行各业发生颠覆性的改变,在当前,科研信息化工作主要体现为对科研大数据的整合与利用。
现代科研活动中,在观察实验、理论分析、计算流程之后,一种被称之为“数据科学”的学科已经开始显现。基于对大数据的分析来更好地了解世界,解决从前难以解决的,或甚至不可解决的许多科学问题,产生意料之外的科学发现。可以说数据已成为新型战略资源,是驱动创新的重要因素。一个国家的科学研究水平,已越来越多地取决于其数据优势,及将数据转化为信息和知识的能力。
然而,伴随海量科研数据的膨胀,国内与之不相匹配的是数据的保守与应用壁垒,中国工程院孙九林院士、郭华东院士等为此在各类场合呼吁“大数据共享”,希望科研机构突破大数据应用上的诸多保守机制。
业内人士指出,无论是在科研数据的共享政策与机制,还是在对大数据的管理、分析、可视化及应用的技术方面,目前都面临着一系列的问题和挑战。因此,科研信息化建设亟需加强顶层设计,面向用户和实际应用,统筹协调,培养起一支强有力的专业信息化人才队伍,同时,促进数据获取和共享的标准规范,推动科研大数据真正流动起来。
计算能力需面向用户
2013年底全球超级计算机500强的榜单上,天河二号蝉联冠军,中国占有65席,其中多数在高校。中国的超算能力正在向百亿亿次进军。但面临的问题却不容忽视,业内人士指出,如果五年内机器使用率不高,或者效能得不到发挥,巨资投入的超算计算机将血本无归。而“用做什么”一直是这些超算能力萦绕不去的困扰。与此同时,超算能力的过于集中,造成科研领域闲置与稀缺的两种极端情况存在。
国内建立了各级高性能计算中心,而这些能力的输送并不均衡。中国海洋大学的“海洋信息探测与处理”学科研究,常常需要大数据计算,但是,学校30亿次的计算能力无法满足其需求,因此,每次都让学生用硬盘拷贝几十T的数据,送到北京的超算中心来进行数据挖掘和分析。
“2000年左右,我们调查数据共享,当时非常踊跃,但是现在却在走回头路,什么问题呢?很多人看到数据非常重要,就不愿意共享了。现在对数据越抱越紧,即使是科研部门内部,共享情况也不乐观。”中国工程院孙九林院士
数据已成为新型战略资源,是驱动创新的重要因素。一个国家的科学研究水平,已越来越多地取决于其数据优势,及将数据转化为信息和知识的能力。
在兰州大学,这个情况尤其突出,兰州大学大气物理所的田文寿所长有同样的感受:“国家不停地建设大型计算设施,在面向用户方面做得不够。”兰州大学也建设了计算中心,但因经费不够,无法扩容,已经停止使用。
“共享粒度还是不够,从长远来看,我们还是要建设全校计算中心。另外,研究者有需求,只能从课题里出钱,还要让教授考虑电、空调这些琐碎的问题。类似的机制需要突破。”兰州大学实验室与设备管理处处长陈文波说。
在我刊2013年底针对全国30所985/211高校的“科研信息化”调研中,问及“是否有适当的软硬件(网络、软件、硬件)支撑科研活动中的计算需求”时,有25所学校回答“有”,而有5所学校回答“无”;而在问及计算能力是否足够时,有18所学校认为“足够”,另外12所学校认为“不够”。究其原因,说明在高校中,计算能力的共享尚有欠缺,信息化专业人才缺失,在共享粒度上应有更细致的统筹安排。
美国乔治亚理工学院的胡泳涛博士十年来一直从事大气模拟实验研究,他每天都要跟大量的数据打交道,气象、气候和环境类的研究需要高性能计算机或超级矩阵计算系统,他认为美国高校科研建立的细粒度的共享机制值得国内借鉴。“现在计算机硬件的发展很快,一般好一些的服务器应该能够满足大多数的研究需要。计算能力是与人相关的,不仅机器到位,专业的人员也需要配备到位。”他说。
在乔治亚理工学院,每个系都有一个计算机维护小组,全职的大概2~3个人,为系内的研究小组自行购买的设备提供软硬件服务。当然,要是遇到大的环境模拟时,也需要用到大计算能力的服务,而这些计算能力的获取相对简单,乔治亚理工学院有自己的计算中心——PACE,本身具有学校级别的硬件投入,同时加上各个系单个研究小组的资金加入,可以形成超级计算能力。据胡博士介绍,PACE由10人左右的专职具有计算机学位的人维护和管理。
再往上一级,在全国范围内,美国也有类似PACE的超级计算中心,例如由20-30个大学以及美国自然科学基金会NSF出资共同维护的UCAR(大气研究大学集团),UCAR拥有77个大学联合成员,它运用从进行气候和天气模拟的高端计算机到装有密密麻麻仪器的飞行器,研究涉及大气及与之相关的地球科学。UCAR同时管理着美国国家大气研究中心NCAR。“每一个UCAR成员单位的学生或研究人员,可以得到免费机时服务的。”胡泳涛说。
这种层层递进,又互相补位的计算能力,使得科研工作者随时可以根据自己的需求,确定采用什么样的计算能力。反观国内,这种机制还有欠缺。
2013年30所985/211高校科研信息化调研
“学院的科研管理归在科技处,但学院里连网络维护专职人员都没有,信息化只是自发的行为。高校岗位设置决定了科研人员和实验人员都有明确的教学任务,没有专职人员去做信息化的工作。”华南理工大学信息办主任陆以勤说。多数受调研的学校也一致提出类似的问题,计算能力的不均衡,其背后的原因更重要的是专业信息化人才的缺失。
国家高性能计算CNGRID的首席科学家钱德沛教授也看到了这一现状,他提到高性能计算应该以服务业的形式来体现,方能盘活我国目前的计算能力。“未来,中国国家网格服务环境CNGRID将成为IaaS和PaaS,在应用社区和网格服务环境之间建立起商业模式,目的是要促进高性能计算服务业。”他说。
呼吁数据开放共享
我国各大科研院校机构中,散落着海量的科研数据。在我刊在调研中,当问及“学科数据库是否为社会提供服务”时,30所211高校中仅有8所学校提供了服务,多数学校未能提供服务。原因主要归结为项目管理不规范、信息技术支持人员缺乏、数据标准不一、提供服务有障碍,等。
华南理工大学陆以勤教授认为:“国家的科研项目管理过程存在问题,国家大项目召开的国际会议也不对公众开放,在实际科研中,都是从国外获取资料,国外的科研项目过程资料都很集中和规范,而国内项目材料要么不公开,要么零散,几乎没留下什么东西。”
当下,大学利用数字文献已经成为一种习惯,复旦大学有一组对比数据充分说明这一点,2005年,复旦大学购买文献资料的经费中,纸版文献为2053万元,电子文献资料为505万元,纸版与电子的投入比例为4:1;2010年,这一比例上升为2:1,即纸版文献为2100万元,电子文献资料为1097万元。去年,这一比例则达到了1:1。
而与加大投入形成鲜明对比的是,文献、信息数据共享壁垒重重。
如同数字图书馆的发展,由于信息数据使用缺乏相应的机制,众多研究机构都在数据共享的问题上争持不下,并且,数据共享还有走回头路的迹象。
从上世纪九十年代初起,中国工程院孙九林院士就从事地理数据的分析与利用,他对国内科研数据的共享过程深有体会:“2000年左右,我们调查数据共享,当时非常踊跃,但是现在却在走回头路,什么问题呢?很多人看到数据非常重要,就不愿意共享了。现在对数据越抱越紧,即使是科研部门内部,共享情况也不乐观。”
高性能计算应该以服务业的形式来体现,方能盘活我国目前的计算能力。
国家高性能计算CNGRID的首席科学家钱德沛教授
兰州大学大气物理所所长田文寿教授也一样遇到这样的困境:田教授2005年从英国回兰大,他研究大气气溶胶,涉及到学科交叉比较多,灾害预警管理系统、地质信息、大气数据信息、人口信息、仪器设备等多个单位的数据,需要很多单位的协调和共享。然而,发现国内与英国在科研环境上有许多差别,尤其数据获取的困难带给研究工作诸多障碍。
中国海洋大学的钱教授提到:“我们遇到的挑战是,在国内获取数据比从国外还要困难。”在海洋大学,内部对科研数据共享有一个期限,一两年之内(课题组有优先使用权),原则上通过学校数据中心,普通教师可以获取。(除非是保密数据,需要有一定的审查。)然而,由于机制所限,中国海洋大学的科研数据原则上不提供对外服务。“不共享,我们是无法获取到他人的数据的,这也是导致我们现在缺少基础科学数据库的最大原因。”钱教授说。
而与此形成鲜明对比的是,美国国家海洋气象局(简称NOAA)的气象数据,中国海洋大学基本上延迟三个小时就能获取。美国国家海洋数据中心(简称NODC)汇集了全球最大的并可公开查询的海洋数据,其数据的使用基本面向科研工作者免费开放,无论是对提供者,还是对使用者。
据了解,美国科研机构对数据(不论是观测到的还是加工过的)的应用,大致可以分为政府(包括联邦和州)机构制造的,比如气象局观测的、预报的、环保局观测的、计算的、NASA观测的和繁衍的,以及资源人口普查数据等等。在美国,除非是机密,前两类数据是法律规定必须公开的。
为此,华南理工大学陆以勤教授建议,应建立统一的科研项目管理系统,以利于数据共享及各类数据库的建立。“目前各类型项目要求都不同,各自建设,重复建设而且使用复杂。从国家层面上,项目管理系统应该是统一的,项目管理系统应具备开放性、系统性和全面性,把上级部门、管理人员和科研人员很好地结合起来。”他说。
(注1:作者单位为中国科学院计算机网络信息中心)
100G高速网
急速增长的科学数据给已有的科研网络带来了巨大的压力。近年来,世界各国在高速网络的研发方面成绩卓著,数据传输能力和传输速度大幅提升。同时,各国还在不断增加投入,以便将网络的传输能力提升到新的高度。
2012 年5 月,欧洲Infinera 公司和Imtech 公司赢得了欧洲科研网络运营商DANTE 为期四年的订单,将在泛欧科研教育网(GEANT)中部署先进传输设备和转换平台,全面升级长达5 万公里的G?ANT骨干网,支持GEANT 核心网络实现最高达2 Tbps的传输能力,使欧洲数百万科研人员和数百万学生从中受益。在不久的将来,太比特(Tbps)网络有望得到全面部署。
美国政府则投资了6200 万美元启动“先进网络计划(AdvancedNetworking Intiative,ANI)”,拟建设100 Gbps 网络来支持大数据传输。ANI 计划的核心是由美国能源部“能源科学网”(ESnet)和Internet2 协会合作研制的,目前连接着美国“国家能源研究计算中心”、“阿贡领先计算中心”和“橡树岭领先计算中心”的100 Gbps测试网络。
在2012 年11 月美国盐湖城举行的2012 年全球超级计算大会上,由美国、加拿大的物理学家、计算机科学家和网络工程师领导的国际研究团队创造了339 Gbps 的最新网络数据传输速度纪录。此外,科学家们还在加拿大维多利亚市与美国盐湖城之间的一条单链路上实现了187 Gbps 的双向数据传输速率,同样打破了世界纪录。这些成果为数据密集型科学的发展铺平了道路。
100G技术和标准
2012年10月,中国教育和科研计算机网CERNET开通了首条从武汉到CERNET北京网络中心的100G长途线路。截至2013年底,CERNET部署了超过40条100GbE链路。CERNET的骨干网络能够实现国内与国际网络的互联,最大带宽可达60Gbps,为全国两百多座城市的两千多所高校及科研机构,两千万学生提供快速、安全和无缝的网络,接入到多样的研发应用,加强不同学科间合作。