APP下载

科学大数据的发展态势及建议*

2016-02-14陈明奇黎建辉郑晓欢房俊民杨子辉

中国教育信息化 2016年21期
关键词:科学

陈明奇,黎建辉,郑晓欢,房俊民,杨子辉

(1.中国科学院 条件保障与财务局信息化工作处,北京100864;2.中国科学院 计算机网络信息中心,北京100190;3.中国科学院成都文献情报中心,四川 成都610041;4.中国科学院 核能安全技术研究所,安徽合肥230031)

科学大数据的发展态势及建议*

陈明奇1,黎建辉2,郑晓欢1,房俊民3,杨子辉4

(1.中国科学院 条件保障与财务局信息化工作处,北京100864;2.中国科学院 计算机网络信息中心,北京100190;3.中国科学院成都文献情报中心,四川 成都610041;4.中国科学院 核能安全技术研究所,安徽合肥230031)

科学大数据已成为科学发展的新型战略资源,“数据密集型科学”科研范式正在快速兴起。本文就科学大数据的发展态势进行了深入的分析与探讨,科学大数据驱动科技创新的时代已经到来,结合我国科学大数据发展现状,针对数据共享和分析挖掘存在的突出问题与挑战,从国家层面的发展战略与政策、科技基础设施建设、核心技术研发、人才培养等方面建言献策,力求把握大数据所带来的机遇,推动尽早建立良性的科研数据生态系统,促进科研大数据共享和开发利用。

科学大数据;数据出版;数据共享;大数据应用

一、前言

2013年7月,习近平总书记视察中国科学院时提到大数据犹如工业社会的“石油”资源,谁掌握了数据,谁就掌握了主动权。

科研数据是人类社会在科技活动中产生的各类数据资料,是信息资源的重要内涵;长期采集和积累的科研数据已经成为支撑国家创新发展的珍贵资产和战略资源,也是经济社会发展决策的重要科学依据;人类的知识,无不是来源于所掌握的数据和信息的分析。进入21世纪以来,源于人类观察、记录、分析和认识世界的渴望,信息技术持续飞速发展并被广泛应用,导致从宏观到微观、从自然到社会的观察、计算、传播等仪器设备和活动正在越来越快速地产生出海量且多样的数据,形成被称为“大数据”的数据爆炸现象。科研数据的急剧增长及其集成和共享将不仅对科学研究能力的提高、新的科学方法的产生、研究成果向产品和服务的转化发挥重要的作用,而且已开始引导科学研究的深度发展,促进更多的原始性创新成果。科学研究、政府决策、产业发展越来越依赖于科学数据及对其分析的能力。

不断增加的科学数据引发了人们思维和行为模式的变革,也使得科研大数据驱动创新发展的模式正在发生极大的改变。因为当所能利用的数据规模增大时,人们将可以做很多在小规模数据基础上无法完成的事情,基于对大数据的分析能更好地理解世界,解决从前难以解决的或甚至不可能解决的很多大科学问题,产生意料之外的科学发现。这种创新发展的新模式具有以下特征:(1)基于全样本的研究模式,从局部性向整体性的转变;(2)基于相关性的研究模式,注重映射关系;(3)基于全局性的研究模式,从阶段性、个体性向全流程、群体性、公众性的转变;(4)基于价值持续性的研究模式,从静态性向动态性、持续性、累积性发展。

二、科学大数据的发展态势

大数据是国家新型战略资源,科学大数据已成为科学发展的新型战略资源,是驱动创新的重要因素。

1.科学大数据纳入国家战略并部署实施

为了占据科学大数据制高点,世界主要大国已把科学大数据纳入到国家战略并开始重点部署实施。2012年美国总统奥巴马宣布启动“大数据研究与开发计划”,旨在改进现有人们从海量和复杂的数据中获取知识的能力,加速美国在科学与工程领域发明的步伐,推进相关研究机构进一步进行科学发现和创新研究,增强国家安全,转变现有的教学和学习方式。2015年美国商务部宣布启动国家海洋与大气管理局 (NOAA)的大数据项目。NOAA每天收集的数据量超过20Tb,是美国国会图书馆所有印刷藏本数据量的两倍有余。这些环境数据来自包括多普勒雷达系统、气候卫星、浮标网络和浮标站、验潮仪、实时气候站、船只和飞机等多种数据源。随着数据需求度的提升,迫切需要新方法以使决策者和行业人员快速、有效地获取到相关数据。NOAA大数据项目的合作机构将创建开放平台,以使私有行业、学术界和个体创新者通过云访问到前所未有的大规模数据。亚马逊、谷歌、IBM、微软以及开放云联盟将共同探索方法以挖掘NOAA环境数据的巨大价值,支撑数据驱动的经济发展[1]。

欧盟继第七框架计划资助的GRDI 2020项目、“地平线2020”(Horizon2020)科研和创新计划之后,正在研究制定《数据价值链战略计划》,包括开放数据、云计算、高性能计算和科学知识开放获取四大战略,研究数据价值链战略因素,开发新型信息化基础设施(科学数据基础设施),即管理数字化的、联网的科学数据环境,促进公共资助科研实验成果和数据的使用及再利用等内容,以实现科研数据的最大价值。英国发布《英国数据能力发展战略规划》[2],成立了信息经济委员会,作为一个跨学术界、企业界和政府的合作部门,保障规划的实施和促进数据能力战略方针制定,充分利用数据,紧抓数据机遇,使英国成为大数据分析的世界领跑者。日本强调“提升日本竞争力,大数据应用不可或缺”,正式公布了新IT战略 《创建最尖端IT国家宣言》,全面阐述了2013~2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略,提出要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”。

我国“十三五”规划(2016-2020年)中提出:“实施国家大数据战略,推进数据资源开放共享”。大数据战略作为国家“十三五”十四大战略之一。2015年8月国务院发布的《促进大数据发展行动纲要》中,强调了发展科学大数据,积极推动由国家公共财政支持的公益性科研活动获取和产生的科学数据逐步开放共享,构建科学大数据国家重大基础设施,实现对国家重要科技数据的权威汇集、长期 保存、集成管理和全面共享。面向经济社会发展需求,发展科学大数据应用服务中心,支持解决经济社会发展和国家安全重大问题。

2.着力推动科学数据共享及数据开放

一些国际性组织和国家制定和发布了与数据共享或数据开放有关的政策。1959年,包括美国、英国、苏联、法国、日本、阿根廷、南非等在内的12个国家签署了《南极条约》,其中明确规定了各国的南极科学考察和成果数据对条约成员国共享的政策。”还有《生物多样性公约》、《奥尔胡斯公约》等不同学科领域一些类似条款的国际条约。1996年,国际人类基因组计划的科学家和他们的资助机构共同提出了“百慕大原则”(也称为“百慕大协议”)。根据此原则,所有参与此计划的实验室或中心都应把长度在1KB以上的碱基对片段在产生后的24小时内发布出来,完成注释后的基因测序数据也必须立即公布,这些数据都要提交到公共的基因数据库,确保公众出于研发目的能够免费地获取这些数据,从而保证社会最大限度地受益。作为地球观测领域最大和最权威的政府间国际组织,GEO(Group on Earth Observations)制定并通过了一个建立全球地球综合观测系统(Global Earth Observation System of Systems,GEOSS)的十年执行计划。2003年,在德国马普学会发起并召开的柏林会议上制定并发布了《关于自然科学与人文科学知识的开放存取柏林宣言》,此宣言中规定开放获取的对象包括科研论文、支持科研成果的原始数据及其元数据等。世界经济合作与发展组织(Organization for Economic Cooperationand Development,OECD)认为政府和研究机构应该对数据、信息和知识的获取条件予以更多的关注;2004 年OECD的成员国签署和发布了一个宣言,提出要建立公共资金资助的研究数据的获取机制;为了指导成员国制定、完善科学数据共享政策,OECD于2006年颁布了 《关于公共资金资助的研究数据获取的原则与指南》。

1996年,美国行政管理和预算局发布的A-130通告(名称为Managementof Federal Information Resources)确立了数据共享政策的总体框架。据此,联邦政府各科研资助机构(例如NASA、NIH、NSF等)分别制定了要求资助项目开放数据的具体政策。2013年5月9日,为了进一步推动数据开放并提升其水平,白宫又颁布了《开放数据政策——将信息作为资产管理》,在上述相关政策与法规的指导下,美国建立了由多个数据中心(例如:NASA为其资助产生的科学数据支持建立的“分布式、活动的数据中心群”、NIH支持建设的蛋白质数据库、NSF资助建设的DataNet Partners等)联合形成的国家级数据基础设施。

欧洲国家也认识到了数据共享的重要性。2012年3月,欧盟发布《全球科研数据基础设施:大数据的挑战》报告,在全球科研数据基础设施(GRDI2020)提出“科学是一项全球性事业,而科研数据是全球的资产。因此,需要全球科研数据基础设施来克服语言、政策和社会的障碍,并减少地理时空和国家间的壁垒,从而使发现、访问和利用数据更加方便”。英国研究理事会(Research Councils UK,RCUK)作为为学术研究和研究生培养提供资金的公共机构,于2011年4月发布了其数据政策的一般原则,目前RCUK下的七个理事会均已更新或发布了遵循这些一般原则的数据管理与共享政策;2011年12月,英国商业、创新与技能部(Business,Innovation& Skills,BIS)还发布了《促进增长的创新和科研战略》,该战略中强调了开放数据的重要性,指出英国将通过开放公共部门所拥有的数据、信息和研究成果来激励创新,使这些数据的价值最大化;同时实施“开放数据”项目,建立“数据英国”网站用于数据公开;利用和挖掘公开数据的商业潜力,为英国公共部门、学术机构等方面的创新发展提供“孵化环境”。

我国政府和科研人员也意识到数据共享的重要性。科技部、财政部设立平台建设专项,将科学数据共享纳入国家科技基础条件平台。中国科学院1982年率先启动科学数据库的项目并持续建设和共享服务至今,到“十二五”信息化专项明确提出“科技数据资源整合与共享工程”。为了应对大数据时代下相关挑战,国家发展改革委员会和中国科学院联合启动“基础研究大数据服务平台应用示范”项目,探索科研数据的共享模式、突破数据分析与处理的关键技术、形成支持创新大数据服务平台,并以天文和材料基因组进行示范。

3.科学数据出版成为共识和趋势

随着数据引用技术的发展,期刊出版政策的一个发展趋势是除了要求有关数据的开放共享外,还强调在论文和支持论文中研究结果的数据之间建立起类似于文献引用关系的连接。例如,英国皇家学会目前的出版政策要求支持论文中结果的数据应存到恰当的、可访问的数据库中(在没有特定的机构或学科数据库的情况下,作者应将他们的数据集存在一个通用的公共数据库中。2008年《自然》杂志,率先出版了大数据专刊,2014年5月推出在线出版的开放获取杂志 “科学数据”(Scientific Data),结合传统期刊论文内容和结构化描述模式,采用同行评审、开放获取的新模式,发表具有科学价值的数据集描述,解决使研究数据可获得、可引用、可发现、可解释、可再利用和可重现的日益增长需求,实现开放数据共享和可重复研究结果的目标。Ecological archives、Earth System Science Data、Biodiversity Data Journal等期刊的数据出版成功实践,数据论文的广泛引用,充分说明了国内外学术界同仁对数据论文的高度认可,科学数据出版成为科学大数据发展趋势[2]。

结合我国科学数据开放共享的进展及制约因素,我国以数据论文(Data paper)的方式出版科学数据的实践,明确出版流程、建立标准体系、构建出版系统、创立数据存储库,成功主办了国家网络连续型出版物的首批试点刊物《中国科学数据》(China Scientific Data,国内统一连续出版物号CN116035/N),建设数据出版平台和科学数据存储库,面向未来数据出版全面发展深度思考了数据出版生态系统的建设,推动我国科学数据出版的健康发展。

三、科学大数据应用

科学大数据时代已经兴起,科学大数据驱动各学科新发现的研究模式和引导案例正在探索之中。

国际重大科技基础设施在科研活动信息化方面投入巨大,也产生了良好的效果。2016年美国激光干涉引力波观测台(Laser Interferometer Gravitational-Wave Observatory,简称LIGO)宣布直接观测到引力波,验证爱因斯坦百年预言,其中数据和计算系统(Data and Computing Systems,DSC)作为LIGO探测器由10个子系统之一,负责LIGO探测数据的采集、分配和计算,LIGO设计的网络与采集控制通道超过30万个,其中大约3000个快速通道。获取的数据不但包括激光干涉仪引力波探测器输出的数据,还包括了各种独立的对引力波探测器的环境和设备状态进行监控的探测器、记录仪等,对诸如温度﹑气压﹑风力﹑大雨﹑冰雹﹑地表震动﹑声响﹑电场﹑磁场等环境条件进行监测的数据,LIGO公布的GW150914事件,在线触发延迟是大约3min,用了5个离线分析流水线,消耗的CPU时间大约是5千万小时。为有效处理如此巨大的数据量,LIGO采用了专用计算、机动计算、分配式计算、自愿者计算四种模式来构建计算资源体系,以满足科学家对高通量计算资源的不同需求。

美国宇航局Armstrong飞行研究中心在开展太空探索、太空作战、科学发现和航空研究与发展中发挥着至关重要的作用。Armstrong飞行研究中心地球科学数据和信息服务部分布式存档中心(GESDISCDAAC,Goddard Earth Sciences Data and Information Services Center Distributed Active Achieved Data Center)通过提供数据以及相关服务来使用户能够全面了解全球气候资料的科学性、教育性及应用潜力,负责高层大气、大气动力学、全球降水、全球生物圈、海洋生物圈、海洋动力、太阳辐射等方面的数据接收、处理、存档、共享和服务。

在高能物理领域,大数据帮助科研人员在高能物理试验中发现新的粒子或验证新的模型,大亚湾中微子实验项目研究人员对实验第一阶段产生的15TB海量数据进行刻度、修正和数据分析,发现了一种新的中微子振荡模式,并精确测量到其振荡几率,被《科学》杂志评选为2012年度十大科学突破。

在核能及核技术应用领域,科学大数据在先进核能系统设计和现有核电站运维中提供全生命周期的数据支持。如中科院核能安全技术研究所围绕先进核能系统设计建成了世界首个综合性核能领域数据库[3],提供核设计、材料性能预测、可靠性分析等数据资源及二十余种在线分析与定制服务,结合其自主研发的超级蒙特卡罗核计算仿真软件系统SuperMC[4]和可靠性/概率安全评价系统RiskA,在国际热核聚变实验堆ITER和中国铅基反应堆CLEAR物理和工程设计中发挥重要作用。美国能源部支持的CASL计划中,为对现有二代压水堆核电站进行延寿和提升功率,基于全堆芯模拟数据和30多年的电站运维数据,利用超级计算机Titan对反应堆性能进行预测分析,近70%的机组现已通过美国核管会的审批。中核集团利用核电站海量运维数据,建立了核电站运维部件可靠性预测大数据平台;中广核集团与清华大学签订了《核电大数据治理体系框架》,旨在推动核电全生命周期数据的模型化、标准化和智能化。

在全球变化领域,其数据类型多种多样,时间序列超长,并且是地球科学、环境科学、生命科学、社会科学和计算科学等多学科交叉的研究,预计到2020年,基于地球系统数值模式的全球变化预测资料的数据量将达到50PB,遥感卫星数据也将达到50PB,其他类型数据将达到2PB,到2030年将分别上升为185PB、150PB和5PB;这些海量跨领域的数据为理解气候系统行为和发展、评价地球系统模式、探寻极端天气事件成因以及理解气候长期变化趋势原因提供了基础,也会激发全球气候变化中许多新发现和对机理的新认识。

在地球科学领域,数字地球作为利用海量、多分辨率、多时相、多类型对地观测数据和社会经济数据及其分析算法和模型构建的虚拟地球,正在其诠释、理解、预测全球变化的趋势、驱动力、过程及其相互作用,为全球可持续发展提供知识支撑,在此过程中涉及的数据规模已达EB级,类型包含图像、视频、文档、地理位置信息以及对地观测、科学模型、社会、经济等。

在生命科学领域,随着千人基因组计划、癌症基因组图谱研究等项目的不断实施以及新一代测序技术的成熟发展,产生了海量的“高维灾难性数据”,科研人员等可利用海量的生物数据发现生命运行的机制,比如说癌症基因组图谱对所有100种癌症的基因组测序,并汇出肿瘤基因图谱,以逐一解开所有癌症的基因密码,提供个性化治疗方案,因此可说生命科学研究逐步转向数据驱动的科学发现模式。

2015年11月,由美国约翰·霍普金斯大学领导的多学科研究团队利用大数据进行慢性病的个性化管理研究,并且取得突破性成果。研究人员通过设计统计规则系统来实现计算机分析大量病案以及识别有相似病情的患者群体。此外,通过学习能够预测疾病好转或恶化特定模式的病症和治疗方案,该研究成果能够帮助医生选取正确的个性化诊疗方案、更迅速准确地诊断、治疗如红斑性狼疮、类风湿性关节炎等慢性疾病。

研究人员通过设计统计规则系统来实现计算机分析大量病案以及识别有相似病情的患者群体。此外,通过学习能够预测疾病好转或恶化特定模式的病症和治疗方案,该系统能够帮助医生选取正确的个性化诊疗方案。然后,医生根据计算机提供的具有相似症状的其他患者的信息,可以将类似治疗过程应用于新患者。

德国卡尔斯鲁厄理工学院(KIT)的研究人员通过对大量的鸟类基因数据分析,设计出了鸟类进化综合分析的算法,绘制出迄今为止最可靠、全面的鸟类“生命之树”。研究发现,在恐龙灭绝后的1500万年出现了鸟类进化大爆炸式发展,形成了今天的物种多样性。

在天文学领域,英国研究机构启动星系动物园Galaxy Zoo研究平台,使得天文分类学科学研究正从小型、独立的学术行会形态转移到大规模、更加开明和互联的科学家与天文爱好者群体中,该计划吸引了来自世界各地超过10万的天文爱好者,为上百万个星系在线上进行分类,使星系分类工作达到了前所未有的速度。

四、科学大数据发展的挑战及思考

尽管我国已经拥有丰富的科学数据资源,但是在这种创新驱动的新模式下,数据共享和分析挖掘的问题与挑战仍然十分突出。首先,在从数据中创造价值工作的各阶段都造成阻碍,关键的技术挑战包括如何更好、更高效地传输、存储、长期保存、组织、发现和访问、集成、融合、分析、挖掘和可视化这些数据。其次,为了探索利用海量异构数据资源,数据基础设施必须是易使用、开放及可扩展的,必须支持科学数据的整个生命周期,支持数据的整合和跨学科转移,支持数据驱动的创新发展新模式。第三,在保障隐私及国家安全的前提下最大限度地促进数据的流动性和可获取性的数据开放政策至关重要。最后,需要解决掌握科研大数据开发利用技术和数据驱动的创新发展模式和方法人才不足的挑战。

一个国家的科学研究和创新发展在国际上的地位将取决于其在科研数据的优势上及将数据转换为信息和知识的能力。为了加快我国科技创新的步伐,建议我国政府也从国家战略的高度对此加以重视,推动建立起良性的科研数据生态系统,促进科研数据共享和开发利用:

(1)制定国家科学大数据发展战略。统筹规划,从国家层面推进科学大数据中长期规划和政策的实施,进行学科布局的顶层设计。成立科学大数据国家专家委员会和科学大数据工作组。

(2)研究和制定配套的科技立法和政策。制定科技资源分类、分级的立法体系、政策和条例,政策通过推动科研资助模式、科研成果发表和评审机制、科研人员和科研机构激励机制等的变革,促进科学数据的共享和重用,促使开放科学和开放数据的原则被广泛接受。

(3)建设和发展新型国家级科学大数据设施。新型国家级科学数据基础设施由若干可互操作的国家级科学数据中心、数据档案馆、数字图书馆等组成,应能支持科研数据的整个生命周期,支持大数据科学研究和多学科研究,支持数据的跨学科转移和开放链接的数据空间,以及支持科学数据与文献的互操作;促进科研创新成果不断向企业转移转化,带动国家和地方产业发展,形成科学大数据设施的运行和可持续发展机制。

(4)发展大数据存储、传输、管理、分析和共享所需要的核心技术。需要重点投资的技术方向包括大数据存储技术、大规模数据传输技术、数据集成技术、工作流技术、非结构化和半结构化数据处理技术、大数据挖掘技术、大规模数据可视化技术、数据长期保存技术等等。

(5)积极培养新的专业人才及支持数据科学的发展。培养包括数据科学家、数据分析师与数据工程师、数据管理员、数据档案员等在内的专业人才,他们对于科学数据的成功管理和利用起着关键作用。支持建立数据科学研究机构、开设数据科学相关专业和课程,以促进数据科学基础理论的发展及数据技术的研发。

(6)引导相关学科对新的科研方法进行探索与利用。通过应用示范的方式,引导相关学科科研人员对大数据科学研究新方法和新模式进行探索和利用,加快相关学科领域科研模式转变。同时应加强对新类型研究团体如何组建和运转的探索。

[1]谭铁牛,曹凝,陈明奇等.中国科研信息化蓝皮书2015[M].北京:科学出版社,2016.

[2]中国科学院条件保障与财务局,中国科学院成都文献中心.信息化研究与应用动态[DB/OL].http://www. cnic.cn/qkbg/xxhgzdt/.

[3]吴宜灿,胡丽琴,龙鹏程等.中国科研信息化蓝皮书2015(核能信息化与虚拟核电站应用实践)[M].北京:科学出版社,2016:169-178.

[4]Y.Wu,Song J,Zheng H,et al.CAD-based Monte Carlo program for integrated simulation of nuclear system SuperMC[J].AnnalsofNuclear Energy,2015(82):161-168.

(编辑:王晓明)

TP393

A

1673-8454(2016)21-0005-05

*支持项目:中国科学院“十二五”信息化专项科技数据资源整合与共享工程(XXH 12304)。

猜你喜欢

科学
点击科学
走进科学
走进科学
点击科学
点击科学
点击科学
走进科学
科学大爆炸
科学怪咖
科学汇