科学大数据开放共享机制研究及其对环境信息共享的启示
2015-07-13诸云强朱琦冯卓曾剑峰郭春霞傅为华李威蓉
诸云强,朱琦,冯卓,曾剑峰,郭春霞,傅为华,李威蓉
(1. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101;2. 江苏省地理信息资源开发与利用协同创新中心,南京 210023;3. 环境保护部信息中心,北京 100029;4.义乌工商学院,义乌 322000;5.山东理工大学,淄博 255000)
科学大数据开放共享机制研究及其对环境信息共享的启示
诸云强1,2*,朱琦3,冯卓1,曾剑峰3,郭春霞3,傅为华4,李威蓉5
(1. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101;2. 江苏省地理信息资源开发与利用协同创新中心,南京 210023;3. 环境保护部信息中心,北京 100029;4.义乌工商学院,义乌 322000;5.山东理工大学,淄博 255000)
摘 要科学大数据得以充分利用和增值的前提是开放共享,而影响数据开放共享的关键问题是共享机制。本文首先分析了科学大数据的产生方式、数据类型、投资方式、管理主体和服务定位及其与共享程度的关系。进一步在分析国内外自上而下和自下而上科学数据共享通用机制与原则的基础上,结合国家地球系统科学数据共享平台、全球变化科学数据出版等实践,提出了数据汇交、数据出版、数据联盟和服务激励四种数据共享机制,并分析了每种机制中的关键问题及具体做法。最后,结合云计算、“互联网+”等新一代信息技术和思维,对环境保护大数据共享机制提出四点建议,即:国家统一投资建设的环境保护核心业务数据强制汇交机制,其他部委、机构环境保护相关数据联盟交换机制,企业、科学家个人数据出版等激励机制,以及社会公众数据的“众创机制”。
关键词科学大数据;环境保护;共享机制;数据汇交;数据出版;众创
引言
科学数据是指人类社会科技活动所产生的基本科学技术数据、资料以及按照不同需求而加工的数据产品和相关信息[1]。科学数据是国家宝贵财富和战略资源,不仅关系到国家的科技进步与创新能力,而且也是社会经济发展决策的基础。科学数据通常分为两大类型,一类是行业部门按照统一的规范标准长期采集和管理的科学数据;另一类是国家各类科技计划项目在研究过程和结果中产生的,以及为支持科学研究而通过观测、监测、试验等站点采集的科学数据[2]。
自20世纪70年代起,科学数据共享已经受到广泛的关注,一系列国际数据组织/计划、国家数据中心和共享动议先后成立和启动[3]。如,国际科联(ICSU)的国际科学技术数据委员会(Committee on Data for Science and Technology, CODATA)、世界数据中心(系统)(World Data Center or System, WDC or WDS)[4]、地球观测组织(Group on Earth Observations, GEO)、研究数据联盟(Research Data Alliance, RDA)和全球生物多样性信息机构(Global Biodiversity Information Facility, GBIF)等,美国建立的分布式最活跃数据档案中心群(Distributed Active Archive Centers, DAACs)、全球变化主目录(Global Change Master Directory, GCMD)、国立卫生研究院数据共享库(NIH Data Sharing Repositories)、地球观测数据网Data Observation Network for Earth, DataOne), 欧洲空间信息基础设施(INSPIRE)、加拿大的地球观测数据网(The Canadian Earth Observation Network, GeoNET),中国启动的科学数据共享工程、国家科技基础条件平台(National Science and Technology Infrastructure, NSTI)等。
从国际上看,科学数据共享已经成为一种普遍性行为,但发展极不均衡[5]。各国科学数据共享发展不均衡的根本原因在于背后政策和共享机制的不同。尽管我国已经出台了一系列数据共享相关的政策和条例,然而这些政策和条例都有这样或那样的限制,极大影响了科学数据的共享,国家层面完善的数据共享机制,特别是针对不同类型和来源的科学数据共享机制并未形成[6,7]。因此,研究分析不同模式的共享机制,对于推进科学数据共享具有重要的意义。特别是科学大数据的到来,一方面人们越来越意识到数据的价值,更加注重数据产权的保护;另一方面大数据产生方式和利用模式的转变,都要求我们重新审视和积极探索新的数据共享机制。本文首先分析科学大数据及其来源特征;然后结合国家地球系统科学数据共享平台和全球变化科学数据出版等实践,研究分析不同来源的科学大数据共享机制及其关键问题;最后,给出环境保护数据开放共享机制的建议。
1 科学大数据及其共享特性分析
大数据是指无法在可容忍的时间内用传统IT 技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[8]。与科学相关,反映和表征着复杂的自然和社会科学现象与关系的大数据称之为科学大数据。除具有一般科学数据的特征(客观性、分离性、长效性、不对称性、非排他性、可传递性、增值性)[9]和大数据的特征(4V:Volume—体量浩大、Variety—模态繁多、Velocity—生成快速和Value—价值巨大但密度很低)外,科学大数据还具有高维(具有多重数据属性)、高度计算复杂性(大多为非线性复杂系统)和高度不确定性(具有一定的误差和不完备性)等特征[10]。
从产生方式来看,科学大数据主要来源于地面观测(监测)、遥感遥测,考察调查、统计分析,实验测试,加工处理、计算模拟,互联网挖掘等手段;从数据类型来看,科学大数据包括空间数据(矢量、栅格等)、非空间数据(数据库表、数值文本、统计图等)、多媒体数据(文档、图片、音频、视频等);从投资方式来看,科学大数据主要由国家和地方财政、单位自主经费和个人经费等投资产生;从管理主体来看,科学大数据主要由专业机构(数据中心)、科研团队和科学家个人等管理;从服务定位来看,科学大数据主要包括研究型(研究项目产生的数据)、资源型(特定领域公共的数据库)和参考型数据(长期积累的基础性数据)[11]。不同产生方式、数据类型,投资方式、管理机构、服务定位的科学数据,其开放共享的程度也不同(图1)。
图1 科学数据共享程度线性模型示意
图1显示,科学数据获取方式越容易,意味着获取成本越低,其共享也会越容易;科学数据类型越与地理空间位置无关,保密程度就会越低,而开放共享限制也会越低;科学数据管理主体从个人、到团队再到专业机构(如数据中心),管理的专业程度和稳定性就会越来越高,因此,就会越容易共享;科学数据共享的法理基础是纳税人,税收是政府财政的主要来源,国家投资产生的科学数据应当向纳税人实行共享[12]。根据这一原则,国家财政经费投资产生的科学数据理应向全社会开放共享。因此,国家财政经费资助产生的科学数据共享程度要远远高于企业和个人自有经费投资的科学数据。研究型数据库是指某一个或者若干个固定的研究项目产生的数据集,这些数据获得的资金资助较少,资助周期也较短,数据可能没有严格遵循相关的标准,数据的规模和覆盖范围有限,因此只能为特定的研究群体服务[13]。资源型数据库经费直接来源于领域部门或相关的机构,通常遵循一定的数据规范进行长期的建设,可以服务于某一领域或学科的组织和机构。参考型数据库是由国家投资的基础性数据资源,如基础地理、水文地质、气象数据等。该类数据库遵循严格的标准规范,通过普查、周期性更新或定期监测等方式进行长期的积累,数据规模大,可以作为其他科学数据的参考依据与基础。因此,参考型数据用户群体大、应用影响面广,开放共享要求也较资源型和研究型数据高。
2 科学数据共享机制与关键问题
2.1 科学数据共享通用机制与原则
科学数据共享政策和机制一般有两种制定方式①Uhlir P.F. Development of Open Data and Data Sharing Principles by International Scientifi c Communities.International Workshop on Open Data in Developing Countries.Nairobi, Kenya. 6 August 2014.:
一是自上而下,由政府和跨政府组织、研究经费资助机构制定。如:美国根据“保障投资者获得利益”这一数据共享基本原则,采用保密性管理、完全开放和市场运行三种不同的科学数据共享机制[14]:①对于有可能危及国家安全、有可能影响政府政务、有可能涉及个人隐私的数据和信息均纳入保密性管理,并对这些内容给以十分严格和明确的规定;②对国家所有和国家投资产生的、不会危及国家安全、影响政府政务,不会涉及个人隐私的全部数据和信息都纳入“完全与开放”的范畴;③对私营企业投资产生的科学数据,则纳入到市场运行的管理体系。2004年经济合作与发展组织发布了《公共研究数据访问国际原则与指南声明》,认为公共研究数据访问应遵循如下原则:开放、灵活、透明、遵守法律、知识产权保护、正式的责任、专业化、互操作性、质量、安全、效率、评估、可持续性[15]。2013年,加拿大、法国、德国、意大利、日本、俄罗斯、英国、美国等8个国家在G8峰会上签署了《开放数据宪章》,规定了政府开放数据的五大原则和十四个重点开放领域[16]。五大原则:一是使开放数据成为规则,二是注重数据质量和数量,三是让所有人都可以使用,四是为了改善治理发布数据,五是为激励创新发布数据。其中最重要的思想就是“开放为默认,不开放为特例”。十四个重点开放领域,包括能源与环境、地理空间、全球发展、科学研究和统计等。
二是由下而上,由数据资源管理和拥有单位、非政府组织等制定。ICSU CODATA在2000年发布了“数据库访问:网络时代下科学的一系列原则”,认为,科学是一项重要的公共投资,将会对人类和经济社会的发展产生深远的影响;科学进步依赖于完全和开放的数据;市场模式的数据访问政策是不适合于研究和教育领域的;对于科学研究和知识分发来说,数据出版是非常必要的;数据库拥有者的利益必须与社会对数据开放共享的要求有一个很好的平衡;立法者必须考虑知识产权保护法律对于研究和教育领域的影响[17]。Uhlir等[18]认为,对于公共财政资助的数据资源应采用“完全开放和共享”的政策;对于公共和私有混合的数据应采用面向非盈利研究、教育或发展中国家用户开放,面向商业使用限制或签订协议的政策;对有私有数据应采用在保障数据拥有者利益前提下鼓励数据共享的政策。建议GEO应采用强制(成员国或组织必须按照统一的协议共享地球观测及相关的数据)和鼓励(鼓励按照国际惯例和指南的最少要求,共享相关的数据集)两种相结合的政策。
2.2 科学数据共享机制若干模式与关键问题
根据前面的分析,结合国家地球系统科学数据共享平台、973计划资源环境领域、科技基础性工作专项项目数据汇交、全球变化科学数据出版和地学科研信息化环境的实践,提出以下四种科学数据共享机制,并剖析每种数据共享机制的关键问题。
2.2.1 数据汇交机制
科学数据汇交属于自上而下的强制性共享机制,主要的实施对象是国家财政经费支持的行业部门和科研项目以及数据中心产生和管理的数据资源。
行业部门大多通过部发文的形式,规定部门科学数据自下而上的汇交或交换,如国土资源部的《国土资源数据管理暂行办法》、中国气象局的《气象资料共享管理办法》等。
相比于行业部门的数据汇交,由于缺乏行政手段的约束,科研项目数据的汇交在我国发展相对缓慢。尽管在一些科技计划管理条法中规定了“科研项目数据”必须汇交的要求,但由于缺乏配套的管理办法及操作规程,“交到哪”、“交什么”、“怎么交”等核心问题没有解决,使得这些要求往往流于形式,并没有真正实施起来。2007年、2013年科技部先后启动了“973计划资源环境领域”、“科技基础性工作专项”项目数据汇交工作。为了促使项目数据汇交的顺利推进,首先制定和颁发了《数据汇交管理办法》,《办法》规定:①项目数据汇交到科技部指定的数据管理中心。数据管理中心负责项目科学数据汇交标准规范制定、技术培训,以及汇交数据的接收、保存、管理、共享与服务;②汇交的内容主要是项目研究产生的数据资料,以及辅助的科学数据(元数据、数据文档)和工具软件;③数据汇交具体分为数据计划制定、汇交准备、数据实体汇交和数据管理与共享服务四个阶段。同时,制定了“数据计划参考格式”、“数据汇交方案参考格式”、“科技项目数据汇交元数据标准”、“数据文档编写规范”、“数据汇交文件整理规范”、“数据审查规范”等配套的技术标准。具体实施时,按照分类型、分阶段(新启动、中期进展、已结题)的策略进行实施,即:新启动项目要求编制数据计划,依据数据计划汇交科学数据;中期进展(在研)项目直接编制汇交方案,依据汇交方案开展数据的汇交;已结题项目补充数据汇交方案,依据汇交方案,由数据管理中心协助其进行数据的汇交。通过上述模式,切实解决了科研项目数据汇交“交到哪”、“交什么”、“怎么交”等核心问题,有效推进了重大科技项目数据汇交的问题[19]。
对于国家财政经费支持的数据中心,必须按照“国家科技计划及专项资金后补助管理规定”,对其进行共享服务绩效考核,并依据绩效考核结果给予相应的经费补助。例如,中国科学地理科学与资源研究所承担的国家科技基础条件平台—地球系统科学数据共享平台①国家地球系统科学数据共享平台:http://www.geodata.cn按照学科和区域并重的原则在全国设置了14个分中心和2个数据资源点。所有分中心和数据资源点按照统一的绩效考核评价体系,每年进行绩效评估,依据评估结果进行经费的分配和动态的调整。在具体实施过程中,通过严格的“平台管理办法”及配套的技术规程,对其上网服务的数据质量、服务流程和时效等进行统一的规定,要求所有上网服务的数据必须是“元数据”、“数据服务”、“数据文档”三位一体,通过“元数据”保证用户能够快速查找到数据,通过“数据服务”能让用户快捷地访问到数据,通过“数据文档”能够正确指导用户使用数据,从而有效提高数据共享服务的质量[20,21]。
2.2.2 数据出版机制
除了国家自上而下的数据共享政策外,在大数据时代,调动科研人员主动共享数据积极性的重要机制就是自下而上的科学数据出版[22,23]。数据出版是指在互联网上公开数据,并且支持除数据提供者之外的研究人员或者组织机构下载、分析、再利用以及引用数据[24]。数据出版的关键是让数据也像科技论文一样公开出版(网络出版或纸质出版),让科学数据也能够被引用和追溯,并最终纳入科研考核体系中,从而有效保障共享数据的科研人员的根本利益,促进科研人员共享数据的积极性。
当前,Nature等国际著名期刊已经开始要求作者投稿时必须向期刊提供与论文相关的科学数据,这些科学数据必须存储到可公开访问的相关数据库中;一些学科出现了专门的数据期刊,如ESSD(Earth System Science Data)等;一些数据中心/机构也倡导基于同行评审的数据论文发表,如GBIF(Global Biodiversity Information Facility)、DRYAD(Dryad Digital Repository)等。汤森路透公司也推出了数据引文索引(Data Citation Index,DCI),旨在推动科学数据的开放共享与引用,提高数据作者的知名度[25]。
2013年,中国科学院地理科学与资源研究所启动了“全球变化科学数据出版”[22],利用数字对象唯一标识(Digital Object Identifi er, DOI)对科学数据进行全球唯一标注,将电子版的数据集和数据论文在网上关联发布①全球变化科学数据出版:http://www.geodoi.ac.cn,同时数据论文以纸质版的形式在《地理学报(增刊)》上发表。全球变化科学数据出版流程包括数据投稿、同行评议、注册发布、数据出版、数据引用、成果评价等环节,如图2所示。
数据投稿需要作者承诺[22]:①确认数据集具有自主知识产权,同意将数据按照承诺的公开范围进行共享,同意数据散发权、网络传播权等产权的转让权与数据出版者共同具有。该数据集(库)出版权由数据出版者单独所有;②符合国家安全、个人隐私和相关科学研究项目政策规定;③保证科学数据集(库)的真实性,即没有任何作假数据;④没有一稿多投(一个数据库仅能出版一次,更新数据库以不同版本)。数据投稿需要准备:数据集(库)的元数据、数据论文和实体数据,三者缺一不可。元数据、数据论文和实体数据集(库)均需要同行专家评议。通过同行评议的科学数据,由数据注册与出版技术系统分配DOI号后,向全球发布共享。
图2 科学数据出版流程
不到两年的时间内,全球变化科学数据出版已经吸引了来自4个国家的174位作者投稿,公开出版了58个数据集,引起了国内外数据界的广泛关注。
2.2.3 数据联盟机制
数据联盟机制是国际数据共享常用的机制,数据(平台)中心之间通常遵循共同协商的原则或声明,利用统一的标准或接口(软件系统),进行元数据或数据的互操作。例如,WDC系统内部许多数据中心之间开展了数据镜像,其中WDC日地物理数据中心已经在中国、俄罗斯、澳大利亚、日本和印度等国家建立镜像,WDC古气候数据中心已经在中国、印度、阿根廷、南非和肯尼亚建立数据镜像系统,并通过OAI-PMH(Open Archives Initiative-Protocol for Metadata Harvesting)元数据收割服务协议实现整个WDC 系统的一站式数据搜索和共享服务[19];全球卫星观测委员会(CEOS)通过统一的目录标准(CWIC)将其成员机构(NOAA、NASA、USGS、INPE、GMU等)的数据目录整合在一起提供有效的数据发现[26,27];全球变化主目录(GCMD)通过统一的DIF(Directory Interchange Format)元数据标准,各成员节点交换和共享元数据;兴都库什—喜马拉雅地区山地空间信息共享系统,每成员国(中国、印度、尼泊尔、孟加拉、巴基斯坦等)之间通过采用统一的GeoNetwork共享软件,实现元数据的实时交换与统一搜索[28,29]等。
2.2.4 服务激励机制
对于个人数据,可以采用积分和在线计算服务等形式,激励和吸引科学家个人提供和交换科学数据。
(1)积分机制。科学家发布个人数据时可以设置一定的使用积分,当其他用户共享该数据时,需要支付相应的积分给数据发布者。积分越多,可以共享的数据就越多。当前,采用积分激励机制的成功案例,如百度文度①百度文度:http://wenku.baidu.com、数据堂②数据堂:http://www.datatang.com等等。为了鼓励科学家个人发布、使用数据,参与并推进数据共享,在笔者团队研发的地学科研信息化环境③地学科研信息化环境:http://wenku.baidu.com中也采用数据积分的形式[30,31]:当数据拥有者发布数据时可以标注使用积分,积分范围为1~10分。发布数据的用户系统自动给该用户加2个积分。当该数据审核未通过时扣2个积分,管理员认为好的数据可以奖励积分,具体积分数由管理员定(不超过10分)。标注积分的数据被使用后,标注的积分从数据使用者中扣除,加到数据发布者头上。使用免费数据的用户不加分也不扣分。用户对数据进行评论时,系统自动给用户加1个积分,用户在评价数据的同时还反馈了数据使用的成果时加2个积分。管理员可对用户评论进行审核,视评论质量进行评论积分奖励或扣减。
(2)在线计算服务机制。复杂环境保护数据处理和模拟分析往往需要在高性能计算环境下,通过专用的处理工具和模拟模型来实现。对于个人用户而言,通常缺乏高性能计算能力,有时也很难获取到专用的处理工具和模拟模型。在地学科研信息化环境中,我们利用分布式计算技术,构建了具有高性能计算能力的在线模型共享系统,为用户提供在线的地理空间数据处理、遥感反演计算和陆面过程模拟等。利用在线模型共享系统进行在线计算时,用户需要上传模型输入数据,并指定是否保存计算过程数据和结果数据。用户可以决定是否将上传的输入数据、计算过程数据和结果数据公开。如果选择公开数据,地学科研信息化环境就能够不断沉淀和积累模型用户数据,进而实现动态的模型数据共享[30,31]。
3 环境保护大数据共享建议
3.1 环境保护大数据分析
环境保护数据是工业、农业生产和民众生活等实施主体开发利用和保护环境客体(大气、水、土壤、生态等)过程中产生的各类数据资源(图3),其核心就是反映环境保护对象的空间分布、质量状况和变化趋势,以此来认识环境的演变规律,控制潜在环境风险。
图3 环境保护数据产生概念模型
面向全球气候变化的挑战,环境保护的内涵不断扩大和丰富,参与的主体也越来越多。国家生态文明指出要进一步加大自然生态系统和环境保护力度,正确处理经济发展与环境保护关系;未来地球计划(Future Earth)(2014—2023)提出要围绕动态星球(地球环境—社会系统,即人地关系发展趋势、驱动因素和过程及他们的相互作用)、全球发展(食物、水、生物多样性、能源、材料)、可持续转变(探索科技—社会—经济发展的可持续道路)三大主题展开研究,强调自然、社会科学家、政府决策者、企业的共同参与。
因此,环境保护数据正从传统水、气、声、生态、土壤等核心要素的监测数据向自然生态系统、人文社会系统数据的拓展,形成了跨部门、多来源、多类型的大数据特征(图4)。
图4 环境保护大数据范围
3.2 环境保护大数据共享机制建议
环境保护大数据利用的基础和前提仍然是数据的共享。当前,由于缺乏部门之间的共享机制,环境信息共享难度大,信息资源开发利用难度更大,严重影响了环境信息化整体效益的发挥,制约了环境信息化的进一步发展[32]。排污许可一证管理、环境责任终身追究[33]、公众积极参与和志愿监督等制度的建立都离不开环境信息的共享与公开。基于前述科学大数据共享机制的分析,为了推进环境保护大数据的集成共享与利用,我们建议:
(1)面向国家统一投资建设的环境调查、监测数据以及环境保护领域重大科技专项产生的数据,包括污染源普查、污染物排放,大气、水、声、生态、土壤等监测数据,水专项、环保公益项目数据等,建议采取强制性数据汇交制度。
制定并颁发“环境保护数据汇交管理制度”和配套的技术标准,将国家财政经费投资产生的环境保护数据汇交作为一项基本制度,明确数据汇交的奖惩措施。规定环境保护数据汇交各参与主体的权、责、利。按照数据类型,建立环境保护数据汇交管理中心,明确各类数据资源汇交范围与内容、具体流程与技术要求、管理与开放共享原则,切实推进环境保护核实业务和重大科研项目数据的汇交与开放共享。
(2)面向其他部委、机构与环境保护管理、研究相关的基础测绘、地质、气象、水文、生态与生物多样性等科学数据,建议采用联盟交换的机制,促进跨部门的信息交换与共享。
成立部际环境保护数据共享联盟,明确联盟成员的责任与义务,规定核心交换数据集以及日常、应急两种情况的数据交换规则,制定数据安全使用管理办法。梳理联盟成员环境保护相关数据需求目录和被需求目录,定期沟通核实需求目录和被需求目录实施情况。按照统一的标准接口,建立网上在线数据交换平台,实现联盟成员核心数据的实时交换与“一站式”访问,切实满足生态环境治理现代化对科学数据的需求。
(3)面向企业、科学家个人的科学数据,建议采用数据出版、积分、在线计算服务等激励机制,吸引企业和科学家志愿共享数据。
联合环境保护领域期刊和数据中心,发挥前者在论文审稿、出版的经验和后者在数据管理、开放共享的优势,开展环境保护数据出版。通过网络和期刊两种方式,将科学家个人的数据以数据论文的形式公开发表和出版,实现数据和论文的关联共享。以积分的形式,鼓励企业与企业、企业与政府、企业与科学家、科学家与政府、科学家与科学家之间数据的交换,形成“人人都是数据的使用者、又是贡献者”的共享氛围。同时,利用云计算技术,构建具有强大计算能力支撑的在线环境模拟分析平台,面向缺乏高性能计算能力和专业模型的企业或科学家个人提供免费的在线计算分析服务。通过在线环境模拟分析平台,不断沉淀和开放计算用户的原始输入数据、过程计算和结果数据。
(4)利用“互联网+”思维,开放政府环境保护数据,研发有利于社会公众参与环境保护的APP应用和社交平台,充分发挥社会公众的积极性,不断收集和共享社会公众产生的环境保护大数据,形成社会公众数据的“众创机制”。
按照“开放为默认,不开放为特例”的原则,制定环境保护信息公开条例,实现政府环境保护数据最大程度的开放,满足社会公众对环境保护信息的需求,并进一步吸引社会公众参与环境保护工作。研发有利于社会公众在线办事、信息查询、交互参与的移动APP应用,实现“随手拍、随手记、随手传”的社会公众环境保护监督和参与的氛围,形成环境保护大数据社会公众“众创机制”。同时,通过开放政府环境保护数据,支撑社会公众自发开展环境数据分析与创新应用,促进环境保护领域的“万众创新”。
参考文献
[1] 黄鼎成, 郭增艳. 科学数据共享管理研究[M]. 北京: 中国科学技术出版社, 2002.
[2] 孙九林, 王卷乐. 探索分散科学数据资源共享之路——记“地球系统科学数据共享网”[M]//国家科技基础条件平台. 国家科技基础条件平台回顾与展望. 北京: 中国科学技术出版社, 2008.
[3] 诸云强, 孙九林, 廖顺宝, 等. 地球系统科学数据共享研究与实践[J]. 地球信息科学学报, 2010, 12(1): 1-8.
[4] 王卷乐, 孙九林. 世界数据中心(WDC)回顾、变革与展望[J]. 地球科学进展, 2009, 24(6): 612-620.
[5] 李娟, 刘德洪, 江洪. 国际科学数据共享现状研究[J]. 图书馆建设, 2009, (2): 19-21, 25-25.
[6] 刘润达, 褚文博, 诸云强. 国家科技基础条件平台运行服务阶段关键问题探析[J]. 现代情报, 2012, 32(11): 51-57.
[7] Wan Z. China’s scientific progress hinges on access to data[J]. Nature, 2015, 520(7549): 587-587.
[8] 李国杰, 程学旗. 大数据研究: 未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊, 2012, 27(6): 647-657.
[9] 孙九林, 施慧中. 中国地球系统科学数据共享服务网的构建[J]. 中国基础科学, 2003, (1): 76-81.
[10] 郭华东, 王力哲, 陈方, 等. 科学大数据与数字地球[J].科学通报, 2014, 59(12): 1047-1054.
[11] National Science Foundation. Long-lived Digital Data CollectionsEnabling Research and Education in the 21st Century[EB/OL]. (2005-9) [2015-10-26]. http: //www.nsf. gov/pubs/2005/nsb0540/nsb0540.pdf.
[12] 黄鼎成. 科学数据共享的理论基础与共享机制[J]. 中国基础科学, 2003, (2): 22-27.
[13] 孙九林, 林海. 地球系统研究与科学数据[M]. 北京: 科学出版社, 2009.
[14] 刘闯. 美国国有科学数据共享管理机制及对我国的启示[J]. 中国基础科学, 2003, (1): 34-39.
[15] OECD (Organisation for Economic Co-Operationand Development). OECD Principles and Guidelines for Access to Research Data from Public Funding[EB/OL]. (2007-4) [2015-10-26]. http://www.oecd.org/sti/sci-tech/38500813. pdf.
[16] Castro D,Korte T. Open Data in the G8: A Review of Progress on the G8 Open Data Charter[EB/OL]. (2015-3)[2015-10-26]. http://www2.datainnovation.org/2015-open-data-g8.pdf.
[17] ICSU CODATA Ad Hoc Group on Data and Information. ACCESS TO DATABASES: A Set of Principles for Science in the Internet Era[EB/OL]. (2000-6)[2015-10-25], http:// www.icsu.org/publications/icsu-position-statements/accessto-databases/389_DD_FILE_ACCESS_TO_DATABASES_ Jun_00_.pdf.
[18] Uhlir P F, Chen R S, Gabrynowicz J I,et al. Toward implementation of the global earth observation system of systems data sharing principles[J]. Data Science Journal, 2009, 8, doi:10.2481/dsj.35JSL201.
[19] 王卷乐, 杨雅萍, 诸云强, 等. “973”计划资源环境领域数据汇交进展与数据分析[J]. 地球科学进展, 2009, 24(8): 947-953.
[20] 诸云强, 宋佳, 潘鹏, 等. 地学数据共享发展现状、问题与对策研究[J]. 中国科技资源导刊, 2014, 46(4): 55-63.
[21] Wang J L, Sun J L, Zhu Y Q,et al. A study on the organizational architecture and standard system of the data sharing network of earth system science in China[J]. Data Science Journal,2013, (12), doi: 10.2481/dsj.13-031.
[22] 刘闯. 论全球变化科学研究数据出版[J]. 地理学报, 2014, 69(8): 3-11.
[23] 吴立宗, 王亮绪, 南卓铜, 等. 科学数据出版现状及其体系框架[J]. 遥感技术与应用, 2013, 28(3): 383-390.
[24] 何琳, 常颖聪. 国内外科学数据出版研究进展[J]. 图书情报工作, 2014, 58(5): 104-110.
[25] Force M M,Robinson N J. Encouraging data citation and discovery with the data citation index[J].Journal of Computer-Aided Molecular Design, 2014, 28(10): 1043-1048, doi: 10.1007/s10822-014-9768-5.
[26] Bai Y Q, Di L P. Review of geospatial data systems’ support of global change studies[J]. British Journal of Environment and Climate Change, 2012, 2(4): 421-436.
[27] Shao Y Z, Di L P, Bai Y Q, et al. Federated catalogue for discovering earth observation datakonzeptfüreinenzent ralkatalogfürfernerkundungsdaten[J]. Photogrammetrie-Fernerkundung-Geoinformation, 2013, 2013(1): 43-52, doi: 10.1127/1432-8364/2013/0157.
[28] 刘润达, 诸云强. 开源地理信息共享平台GeoNetwork及其定制应用实践[J]. 地理信息世界, 2010, 8(6): 38-44.
[29] Zhu Y Q, Bajracharya R. Towards a regional geographic data-sharing network in the Himalayas[J]. Sustainable Mountain Development, 2011, 60: 38-39.
[30] 诸云强, 孙九林, 冯敏, 等. 论地学科研信息化环境[J].中国科学院院刊, 2013, 28(4): 501-510.
[31] 苗茹, 诸云强, 宋佳, 等. 基于云计算的地球系统科学数据共享研究与实践[J]. 地球信息科学学报, 2014, 16(2): 264-272.
[32] 魏斌, 黄明祥. 新形势下环境信息化发展展望[J]. 中国环境管理, 2015, 7(1): 14-17.
[33] 周宏春. 新形势下我国环境管理与改革取向[J]. 中国环境管理, 2015, 7(1): 8-13.
致谢:感谢孙九林院士、刘闯研究员的指导,特别感谢本文用以分析研究的国家地球系统科学数据共享平台、973计划资源环境领域项目数据汇交管理中心、全球变化科学数据出版系统等。本论文得到国家留学基金资助。
Scientifi c Big Data Sharing Mechanisms Research and Suggestions for
Environmental Information Sharing
Zhu Yunqiang1,2*, Zhu Qi3, Feng Zhuo1, Zeng Jianfeng3, Guo Chunxia3, Fu Weihua4, Li Weirong5
(1. State Key Lab of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101; 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023; 3. Information Center,Ministry of Environmental Protection, Beijing 100029; 4. Yiwu Industrial & Commercial College,Yiwu 322000; 5. Shandong University of Technology, Zibo 255000)
Abstract:The foundation and precondition of full using scientifi c big data and excavating their values is to open and share these data. Among impact factors of data sharing, the sharing mechanism is the most important. In this paper, fi rstly scientifi c big data characteristics were analyzed. Several factors of scientifi c big data including data’s generation mode, type, way of investment, governor and functional orientation will profoundly infl uence their open and sharing. Generally, scientifi c data sharing mechanisms are made by top-down or bottom-up approaches. The basic ideal of data sharing mechanism is to open and share data at maximum extentand meanwhile to protect reasonably interests of data contributors. After that based on the experiences of National Data Sharing Infrastructure for Earth System Science and Global Change Research Data Publication etc., authors put forward four data sharing mechanisms, i.e. data submission, data publication, data alliance, and service excitation, for respectively public and private data. Finally, considering thelatest IT and their ideas, like Could Computing and Internet plus, some sharing mechanism suggestions were proposed for environmental protection (EP) big data that are mandatory submission mechanism for EP core data funded by public fi nance, federal exchange mechanism for trans-ministries’EP related data, and incentive mechanism, like data publication, for enterprise and scientist individual data as well as crowd innovation mechanism for the public data.
Keywords:scientifi c big data;environmental protection; sharing mechanism; data submission; data publication; crowd innovation
中图分类号:X321;G203
文献标识码:A
文章编号:1674-6252(2015)06-0038-08
基金项目:科技基础性工作专项重点项目(2013FY110900),国家科技基础条件平台(2005DKA32300),国家自然科学基金项目(41371381),国家重大科学仪器设备开发专项(2012YQ06002704),贵州省公益性基础性地质工作项目:贵州省岩溶地下水系统功能可持续利用性研究。
*责任作者: 诸云强(1977—),男,博士,中国科学院地理科学与资源研究所研究员,研究方向为地学数据共享关键技术、资源环境信息系统。