从顶层设计开始推动数据共享
2014-08-21傅宇凡
文/本刊记者 傅宇凡
本期特邀编辑 王伟 王胜开
大数据的研究与利用是数据科学的一个重要领域,当务之急,不是一哄而上的大肆炒作,而是脚踏实地地大规模开展数据科学的研究,用以提高中国信息资源开发利用的水平。
数据共享需规范
伴随着信息技术在科学活动中的应用,特别是与科学行为的无间结合,科学已经置身于大数据时代。回顾诺贝尔奖的历程,我们能够看到,1981年、1998年、2013年三次诺贝尔化学奖,均与计算化学大数据有关。大数据为科学带来了重大的机遇,当所能利用的数据规模、复杂性、关联度与价值增大时,人们才能做出很多之前无法完成的事情。因此,数据规模与数据质量是现代科研活动的前提。
调研中,关于共享障碍与困难,我们收集到的最多的意见是“数据共享缺乏标准规范”。具体呈现有:
首先,数据重复建设,各自为政:基础建设是支撑国家发展的保证,国家对收集、整理基础数据缺少统一规划,各单位、领域、各学科存在各自为政的现象,有关资金和数据项目化、课题化,重复投资、短期效应。我国没有专门的机构和队伍、从国家层面来做“慢工出细活”的数据收集和整理工作,从而不断地提高数据的质量。
其次,缺乏数据共享政策:在数据公开与共享方面,没有国家政策、制度与规定,缺少标准规范;实验室内部、不同课题组之间也很难做到数据的充分共享。应制定一定的政策、建立一定的机制,使国家项目支持、国家资金资助而产生的数据能成为一种“国有的”公共财产数据财产,实现共享。
第三,共享缺少正向激励:大家都把数据握在手里不拿出来共享,主要是缺少正向激励机制,同质化竞争太严重,使得拿着数据的一方不愿意公开数据。
第四,数据内容挖掘不够、数据服务不够到位:以专利数据库为例,只能通过专利名称等简单信息进行检索,基于内容的挖掘不够,不能查看基于具体内容的专利信息。
目前,我国有两千多所高校,其中985/211高校等研究型大学百余所,每个高校教师数以千计,不同的学科申请不同的课题,而课题项目存在重复雷同情况比比皆是,但从事相关研究的课题组之间相互不了解,尤其在交叉学科。并且,各高校相关学科之间也缺乏系统性的交流平台。
“这也涉及到提供数据方的评价和激励机制。美国海洋数据质量评价是由NODC聘用专家。NODC的数据分为五个等级,等级越高,权威性越高。有一套完整规范的数据使用和共享规范。”中国海洋大学的钱教授说。
比如,美国环保局的观测数据,经过质量控制后也是及时发布到网上供研究用。这些数据主要是政府机构出资但是由各类研究机构和人员具体制造的,有很多研究性的数据成果,最后是私人出资制造的数据。
当然,国内科研数据共享不理想的背后原因,也还有研究成果如何认定与成果被抄袭的顾虑。乔治亚理工学院的胡泳涛介绍说,“在美国,比较难处理的,是政府资助的课题完成后的数据,一般在项目合同里也会要求数据上交和分享,有时因为财力不足,共享不够,但是,如果写信索取,没有人会不给,原因是研究人员需要得到认可。”并且,私人出资制造的公益性的研究成果数据,出资者更愿意公开和分享数据,因为那也是它出资的目的。
建立数据共享平台,向社会公众开放科技信息资源,促进科研创新成果不断向企业转移转化,带动国家和地方产业发展。
针对现状,专业人士分析认为,当前科研数据共享首先需要从顶层设计着手,统一标准规范,建立开放共享的机制,尤其是基础科学数据的开放;其次,需建立第三方评价机构,对数据进行质量控制;第三,大数据开放共享,也应建立一套分级规范,对数据进行分级处理,对使用数据的科研人员进行界定与区分;第四,数据格式交由市场决定,不同专业的人员发明了不同的数据格式,便于数据共享,是自然产生的一个过程,最得到认可的数据格式留存了下来。第五,未来大数据挖掘应引入市场机制,以服务业的形态进入科研活动。
大数据与云计算
无处不在的IT,进入以云计算和大数据为特征的科研信息化
2011 年,澳大利亚发布了题为《云计算战略方向》的咨询报告,旨在为相关机构合理化使用信息通信技术(Information CommunicationTechnology,ICT)资源和因地制宜地采用云计算开辟一条途径。各机构需要认识到云计算只是众多的资源利用模式之一,无需完全替代现有的资源利用模式。澳大利亚首个国家科研云(NeCTAR)已于2012 年2 月正式上线,并在两个月内为500 多位用户提供了云服务。
2011 年8 月,欧盟提出《欧洲科学云计算基础设施战略规划》,该规划提出了2020 年欧洲科学云计算基础设施的发展愿景,届时欧洲所有学科的科学家将优先选择这一基础设施进行数据存储、访问、处理和分析,它将拥有海量的数据和开源工具,拥有可以从任何计算机、智能电话或平板终端访问和使用的无限计算能力。“地平线2020”战略规划计划投入巨资支持建设具备无限计算和数据处理能力的网格和云计算基础设施。
美国也通过“麦哲伦计划”(Magellan)全方位评估了云计算在科研创新中的作用,并指出通过在云应用软件库、编程工具、客户端工具、云安全和用户培训等方面的努力,可以建设更加适用于科研任务的科技云。
高性能计算
高性能计算能力竞争成为常态高性能计算能力快速增长,运算速度日新月异。目前,开发具备百亿亿次计算能力的高性能计算机正成为各国及其科研机构新的追求目标。
2013年11月18日,国际TOP500组织公布了最新全球超级计算机500强排行榜,中国国防科技大学研制的“天河二号”以每秒33.86千万亿次、超过第二名近一倍的浮点运算速度轻松登顶。排在第二的是美国的“泰坦”号,运算速度为每秒17.59万亿次。如果每人每秒钟进行一次计算,那么13亿人同时用计算机算上1000年,才相当于“天河二号”运算一小时。这台每秒运算次数以千万亿次计的“超级计算机”,日前蝉联“全球最快计算机”桂冠。
我国预计2015年底前将研制成功10亿亿次级的天河高效能计算机。
欧洲先进计算合作伙伴(Partnership for Advanced Computing inEurope,PRACE)计划部署一个泛欧Peta-Scale生态系统,并计划在2020 年之前达到Exa-Scale 的运算性能。“欧洲百亿亿次级软件计划(European Exascale Software Initiative,EESI)”将联合产业界和政府机构,帮助用户在未来十年内从千万亿次超级计算提升至百亿亿次超级计算。
美国能源部的“先进科学计算研究(Advanced ScientificComputing Research,ASCR)”计划也致力于解决数据密集型科学和百亿亿次计算面临的问题。
从顶层设计开始
1982年起,中国科学院在国内率先提出了建设科学数据库的设想,旨在将专业数据库利用不断发展的计算机技术、数据库技术和网络建设实现集成和共建共享,开国内科研数据共享的先河。三十多年来,各类科学数据库及平台纷纷建立,在资源建设、标准规范及应用和共享服务环境等各方面都取得了显著的成绩。但总体上看,国内科研数据的质量及数据利用水平上,与国外相比,仍有差距。
“大数据的研究与利用是数据科学的一个重要领域,建立在多年来许多科学家和技术专家所获得的一系列数据科学成果之上,不是一个可以随意炒作的概念。当务之急,不是一哄而上的大肆炒作,而是脚踏实地地大规模开展数据科学的研究,用以提高中国信息资源开发利用的水平。”国务院信息办专委会副主任周宏仁说。
北京科技大学新金属材料国家重点实验室建设了国家材料环境腐蚀平台(http://www.ecorr.org/),在全国选择60个点,收集我国境内材料腐蚀方面的数据。该平台上共享大量的基础数据,在国内应用相当广泛。但即便如此,也仍然需要与国外的研究机构建立共享数据,大量材料研究数据来自国外。
北京科技大学新金属材料材料重点实验室负责人认为:“计算模拟准不准取决于数据准不准,目前实验室之所以要买国外的数据,是由于我们国家尚无此方面的战略联盟,没有一个机构能够收集完整的数据,基本各自为战,大的数据聚集不起来,形成不了规模效应。”更为被动的是,许多数据来自美国的数据库和相关网站,2013年底美国政府“停摆”,导致学校的部分科学研究也出现“停摆”。
该重点实验室的相关负责人认为:“国家级学科基础数据的建设依靠一、两个单位的力量是不够的,需要国家的整体投入。”他建议可以通过三个途径来整理数据:集中收集常用的传统数据、基础数据;不断补充、完善新的数据;前期投入研究产生的数据。
的确,在大数据成为热炒概念时,最容易出现的问题是低水平重复建设,各自为战,因此,顶层设计在这时显得尤其重要。
提高信息资源开发利用的水平,是科研工作者一致的需求。在面向高校科研信息化的调研过程中,我们发现几个突出的问题受到高校的关注:第一,希望从国家层面统筹协调;第二,统一标准规范;第三,统一评价机制;第四,建立信息技术人才队伍激励机制。这些内容与顶层设计不无关系。
如何做顶层设计
那么如何进行顶层设计?众多专家提出了自己的思路。来自信息科学、地理学、气候学、高能物理学、天文学、生物信息学、农学、医学、中医学、情报与文献学、科技政策与管理学等学科领域的46位专家在关于“数据密集时代的科研信息化”的会议上,就如何推动我国数据密集时代开展科研信息化研究,如何建立我国的科研信息化政策法规、人才队伍等提出如下建设性意见:
1. 在国家有关部门设立国家层面的科研信息化咨询专家组,组织制定国家科研信息化战略规划;
2. 针对当前数据密集时代的科技研究的新需求、新特点和新技术、新政策等问题,建议科技部、基金委、中国科学院等部门部署国家层面的科研信息化研究计划,加大对科研信息化基础设施和应用的投入;
4. 建议将数据科学的人才培养纳入研究生培养体系,同时将数据人才的岗位纳入国家相关岗位体系,为提升国家科研信息化水平培养储备人才;
5. 制定《科学数据资源共享条例》及相关配套政策,建立数据共享平台,向社会公众开放科技信息资源,促进科研创新成果不断向企业转移转化,带动国家和地方产业发展。
业界广泛认同,2014年的中国互联网,大数据已经从幕后走到台前,中国互联网协会副理事长、国务院信息化领导小组咨询专家委员会委员高新民认为:“当前已具备从海量信息中提取有价值数据的能力,将数据信息流动起来,交换起来,服务于实体。”大数据已经成为2014年中国互联网的一大期待,相信在国家战略层面的重视及各界的共同努力下,科研大数据将会真正地流动起来,交换起来,培养出新一代跨学科新型教学人才、数据科学家,推动数据科学的发展,提升我国科技创新能力。