大数据时代科学数据元数据的开放与共享
2016-03-05满芮王健
满 芮 王 健
(中国农业科学院农业信息研究所,北京 100081)
·理论探索·
大数据时代科学数据元数据的开放与共享
满 芮 王 健
(中国农业科学院农业信息研究所,北京 100081)
在当今大数据的时代背景下,数据已经成为各个科研领域不可缺少的元素之一,而科学数据元数据是信息资源的核心。科学数据元数据的开放与共享是各个领域都急需面对的问题,关乎国家的发展,社会经济的进步,关乎科技领域的深度。本文就大数据时代科学数据元数据的开放共享问题进行探究,为我国科学数据元数据相关的工作提供进一步的参考。
大数据;科学数据;元数据;开放与共享
随着计算机信息技术的空前发展以及科学研究对象的复杂化,产生了数以兆计的数据,可以说任何一个学科领域的数据量都可以达到上千兆。在当今大数据环境下,如何整理、储存、传递通讯以及长时间的保存这些科学数据,实现其开放共享应用,仅仅以几套先进的计算机设备是远远不够的,真正需要的,是有利于开放共享的标准规范描述科学数据元数据,合理的组织体系用以数据的使用,存储灵活方便,通信机制稳定可靠,共享机制恰当合理[1]。在此过程中,元数据的产生发挥了极其重要的作用,为越来越多的用户发掘以及再利用数据提供了可靠的依据。本文就大数据时代科学数据元数据的开放共享问题进行探究,为我国科学数据元数据的相关工作提供进一步的参考。
1 概 述
1.1 当前信息资源概述
如今已然全面进入信息时代,核心即数据。电子商务的普及,社交网络的全面兴起,信息资源从各式各样的终端不停地涌现,一个大规模的应用数据时代已经产生于我们生活中。“大数据”3个字已经渐渐植入,大数据在各领域的重要性已得到认可,但是关于其定义却是各有见解。“大数据”实则是一个抽象的概念,众所周知的特性是数据海量。通常状态下,大数据是指那些无法在固定时间内用计算机技术进行感知、获取、管理、处理和服务的数据。由于不同领域的专家对其关注点不同,所以对于大数据有着不同的定义方向。但恰恰是各个方向的定义帮助我们更好地理解大数据的深刻含义。
2010年Apache Hadoop组织将大数据定义为,普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集合。在此基础上的2011年5月,世界级著名咨询机构麦肯锡公司发布了“大数据:下一个创新、竞争和生产力的前沿”,报告中对大数据的定义进行了扩充:大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集[2]。
2013年,IBM公司在中国北京召开的技术峰会,Viktor Mayer-Schønberger博士[3]提出了他所理解的大数据特征:“全体”、“混杂”、“相关”。全体的意义是需要去研究与特定对象的所有数据;混杂的意义是满足于某一明确的主干方向,而不去深究精确性;相关的意义是对数据的认识从因果转为相关的关系再去研究。
1.2 概念解析
1.2.1 科学数据
科学数据并不一定是完全正确或精准。举例来说,关于相关数据的质量,其中具有误差的数据作为对相关测试工具偏差的校准试验同样具有重要意义,所以说在某些方面,具有误差的数据同样是科学数据的一部分。另外,科学数据范围很广,一切具有科学性的数据都可以归属于。可随时更新,数据根据变化而变化,当其科学性消失,随之也不属于科学数据。传统的文献信息更新频次相对慢很多,目前数据量的增长,内容的变化也跟信息时代的生产和传达方式的提高达到了前所未有的水准。因为科学数据的属性具有动态性、周期性、广博性以及严密性。那究竟什么是科学数据[4]?数据是用于载荷情报的物理符号,是对客观事物的数学表示,而“科学数据”目前尚无严格定义。从科研体制来看,科学数据主要产生于假设科学中生成并与其他部分整合而成的数据。数据与科学数据的区别在于对“科学”二字的强调,也就是可以称之为科学数据的一定是有相关价值的。科学数据是人类在科技活动之中所需要的原始观测数据、实验数据、调查数据、统计研究数据以及相关联的元数据和按照需求加工的数据,具有使用价值以及科学价值。它在当今高速发展的信息时代有难以估量的潜在价值以及可开发价值。而科学数据正是大数据的内容之一,反之大数据这一宽泛的概念也必然包括科学数据以及元数据。
1.2.2 元数据
元数据还不是一个成熟且并不含有表意功能的数据。依据英文METADATA的前缀META-可知,意义在于“与…一起”。因此可以理解元数据的意义是一种信息的资源,或者是得到某种信息的一类途径。它是对数据的说明,提供的是准确理解和精确解释数据所需的信息。学者们认为“元数据是关于数据的数据”或者说“描述数据的数据”。这个概念广泛地存在于各个领域中对数据的描述现象。
1.2.3 科学数据元数据
根据科学数据为研究对象的元数据,实际上对科学数据来说是一个工具,负责去形容、描述、组织、整理。科学数据目前已成为继文献资源之后一项十分重要的资源。科学数据元数据对于数据的存储起着前所未有至关重要的意义。2012年下半年,美国国家信息标准组织(National Information Standard Organization,NISO)联合都柏林核心元数据组织(Dublin Core Metadata Initiative,DCMI)一起召开研讨会议[6]。科学数据元数据如何日常维护、长久存储以及备受瞩目的开放与共享问题已成为当今数据研究核心问题之一。
2 基于大数据,科学数据元数据的开放共享需求
2.1 战略领域
随着大数据环境的全方位降临,数据已经成为一种资产,与物质资源、人力资源同等重要,而科学数据与元数据更具有战略性和前所未有的意义。国家、社会的发展进步很大程度决定于科技创新技术水平,而深入发展科学数据元数据是实现科技创新与进步的重要途径之一。从信息资源的开发到目前各类高新技术的高速发展,都是以科学数据的累积发展为根本,从实验室到实地数据,无一不与科学数据元数据息息相关。当今在以信息为基础的社会中,愈来愈多的信息产品推动着社会的发展,尤其是以数据管理、再加工为主的产业正慢慢引领着“大数据经济”。我国虽然科学数据资源丰富,但大多数仍未经历系统的整合建库,数字化的程度还处于初级水平。而大量的数据使用者局限于个人、本处室、本单位,使得科技资源浪费严重,开放与共享机制几乎没有建立。所以要想突破科学数据元数据的壁垒,实施开放共享,是国家发展的战略需求。2012年3月29日,美国政府奥巴马宣布启动《大数据研究和发展计划》,同时组建“大数据高级指导小组”,涉及美国国家科学基金、国家卫生研究院、能源部、国防部等6个联邦政府部门,宣布将启动2亿美元的投资计划,提高从大量数据中访问、组织、收集发现信息的工具和技术水平。这使得美国成为首个将大数据从商业行为上升到国家意志和国家战略的国家。
2.2 科研领域
现如今在全国乃至全世界的科研领域很少有单一学科,多数为交叉领域的科研。事实上,科学研究的根本所在实则是科学数据的产生与应用的过程。在研究成果方面,科学数据以及元数据本身就是成果,它既是科研成果,也是进一步创新的原始资源。大数据时代的科学数据猛烈增长,所以对稳定的基础科学数据分析系统的需求愈发强烈。2010年以来,全球有关科学数据以及元数据的科研活动不断增加,重大科研工程的兴起,交叉而又复杂的跨学科研究层出不穷,因此使得大范围合作的局面逐渐形成,全世界范围内对信息资源、科学数据互通需要达到了从未有过的高度。综上,搭建平台,实现数据的开放共享,任何对数据的需求都无须再受限于其来源。
2.3 公众领域
在大数据的蓬勃发展中,从政府到高等学府、科研院所、企事业单位到社会大众对科学数据元数据的需求日益增加,已不是专业数据人员要面对的知识领域了。平板电脑、智能手机大众化的普及,在互联网深入到千家万户之后,使得各类人群对科学数据的需求尤为明显。例如,在图书销售网站,依据以往读者的购买记录,网站可以给读者推荐相关学科新出版图书;购物网站的使用者,可以根据购买习惯以及收货地点被推荐喜欢的并且发货地在同省市的店铺;司机可以使用智能手机装载的GPS随时查看交通状况,也可利用大数据的特点提前预知某些路段每日何时容易车流量大以便提前绕路,可以提前查看附近停车场的空余车位情况。可见在大数据时代,科研人员深入研究科学数据的应用、架构等,而普罗大众对科学数据的发布渠道、终端形式等也有越来越高的需求。
3 大数据背景下科学数据元数据的开放共享模式
3.1 关于国家政策介入模式
学习发达国家的成功经验,以美国为例。回望20世纪90年代初,美国便颁布了“全球变化研究数据管理政策”,核心内容为要完全打开科学数据的开放与共享。他们依据数据投资资源来源不同,严格的将数据开放共享加以区分。国有数据但凡涉及侵害国家安全以及国家、个人隐私的数据不予公开,其他都进行开放处理。私有数据归入市场竞争。这两种不同的机制中,美国政府起到了主导、推动的作用,其中的方式方法完全不同,但两种机制完全互补,有效提升了科学数据元数据的全面应用,打开了开放共享数据的新局面。国家统一规划的制度与体系为科学数据的发展提供了坚固的保障,同时与之配套的法律法规也随之完善。科学数据有序而又规范的开放共享体制,使得信息资源从开发到应用迅速发展起来,涉及领域气象科学、生物科学、作物科学等各个学科,同时也促进了美国经济的快速发展。大数据发展的社会环境下,数据的开放共享问题已经是必然趋势。2009年,DATA.GOV网络平台在美国上线,3年时间,直至2012年开放数据388 529项,汇集了1 264个应用软件,103个手机应用插件。欧盟开放数据战略(OPEN DATA STRATEGY)于2010年11月由欧盟委员会第一次提出,与2011年11月底被欧盟数字议程采纳,其中科学数据的全面开放是其政策的重要组成部分[7]。
3.2 相关单位之间交换模式
科学数据的开放共享,第一步可以从生产科学数据的相关单位之间开始。高等院校、科研院所之间在保证知识产权的前提下,应积极地做到开放共享数据的第一环节。当今可以说没有一项研究,一个独立的单位、部门可以完全利用自己的数据资源开展乃至完结。涉及内容必定广泛,跨学科领域、跨时期,对于数据的开放、共享有着巨大的需求,而相对容易便捷的实现,就是相关单位内对科学数据的互相开放与共享。例如气象信息部门已拥有了全国各地气象的长时间内的科学数据,而环境规划的相关单位为了各地环境的治理、改善开展工作,势必需要气象部门的数据,这都属于开放与共享范畴。
3.3 跨界合作模式
当今任何企业的发展难以脱离信息资源和各类数据的支撑,同时也具有相互促进的功能,一些企业的发展一定是需要以科学数据为基础的产品来进一步研发。大数据环境下,科学数据元数据的累积、分析必然决定相关企业发展的命脉。如此情形,企业为了获取对自身发展有用的信息,可以出资科学合作开发项目,参与信息资源开放共享平台的搭建,以及建立商业性质的数据库,学术与商业产业价值相结合,也是多元发展科学数据的应用价值的一条线索。学术领域与经济产业领域的出发点不同,但找到其共性是可行的。跨界合作并非新型模式,科研领域可以继续致力于研究,盈利的相关分析操作由企业去实现。同时科研、学术领域在其交集形成良性竞争模式,而有能力的企业也可对行业领先的前沿技术和数据分析进行追踪,得到最新的科研成果,实际上科研领域也在推进经济产业的发展。
3.4 国际合作模式
随着科学数据开放、共享的需求日益增加,越来越多国际化合作模式已开展起来,国际的交流也频繁起来。由国际科学理事会(International Council for Science,ICSU)发起,1957年早已成立了世界数据中心(World Data Centre,WDC),当时主要面对地球与环境领域的科学数据的采纳收集、分析整理,之后也负责组织交流国际性的研讨会,为国际性科学数据事业的发展起到了至关重要的作用。1988年,中国加入了世界数据中心,并建立世界数据中心——中国中心(World Data Center D,WDC-D)。WDC-D组织机构包括:中国国家协调委员会、科学委员会、中国中心协调办公室、科学委员会秘书处及九个学科数据中心:海洋学科数据中心、国家海洋信息中心、地震学科数据中心、中国地震局分析预报中心、地质学科数据中心、中国地质科学院信息中心、空间学科数据中心、中科院空间中心、天文学科数据中心。1966年成立了国际科技数据委员会(Committee on Data for Science and Technology,CODATA),属ICSU下一级学术机构,是全球最大的科技数据国际学术组织,专门服务于科学数据的各项国际性研究与活动,在全球互联网与大数据的并行快速发展下,搭建标准格式用以数据的共享与开放,有计划有目的的按期举办国际性科学数据学术型研究会议,对科学数据深入多元化的发展提供平台。我国于1984年成为CODATA正式会员国,并建立了CODATA中国委员会,其秘书处安设在中科院计算机网络信息中心。1992年和2006年,我国曾先后申请成功并主办第13届和第20届CODATA大会。2010年在南非开普敦举行的第27届国际科技数据委员会(CODATA)大会暨第22届CODATA全会上,中国科学院对地观测与数字地球科学中心研究员郭华东当选该国际组织主席,这也是CODATA成立44年来我国科学家首次任职主席。
4 对我国科学数据元数据发展的思考
伴随着大数据的发展,我国的科学数据元数据的资源越来越丰富,国家先后成立了信息中心,国家互联网信息中心、国家旅游信息中心、国家金融信息中心,以及国家基础地理信息中心等等,目前信息中心已经成为我国政府向社会提供具有服务性、公益性的窗口。为了保证我国科学数据元数据开放共享工作的开展,需从有序的管理、规范的技术以及法律法规几个方面着手。
(1)科学数据元数据的开放与共享离不开国家法律法规的政策性保障。相比于发展较早的欧美国家,我国出台的政策一方面是较慢,另一方面是程度浅显。面对大数据的压力与挑战,国家应尽早出台与科学数据元数据开放、共享的相关法律,科学数据元数据应归属国家战略性问题,否则将成为进一步发展的最大障碍。这些年,国家各类科研项目都没有实现数据开放与共享,一些非常有科学价值的数据大多分散在高等院校、科研院所内部,这对于国家数据信息的发展来说是一项严重的浪费。因此,只有国家领导层面有这个能力尽快将相关法律法规纳入科学数据元数据共享机制中。我国已经编制了:《科学数据共享工程建设规划》,制定了《科学数据共享条例》、《国家科技计划项目科学数据汇交办法》、《科学数据共享工程管理办法》、《科学数据共享工程试点遴选和检查评估办法》和《科学数据分类分级共享及其发布策略》等一系列数据共享的政策法规[8]。
(2)知识产权的保护问题在我国科学数据元数据的开放共享工作是一道障碍。在我国科学数据元数据的多年科研工作中,产权的归属以及开放、共享问题始终存在,责任的归属、权益的分配羁绊着其发展。无形中科学数据以及元数据的资源成了私有财产,既阻碍了自己的发展又耽误了其他人的进度,这种现象的普遍存在并不是一个人、一个部门甚至一个单位的问题,从中央到地方都有,严重地阻碍了我国科学数据元数据的发展。因此,只有国家的介入针对不同归属的科学数据以及元数据明确产权问题,既维护了投资者又保护了创造者的利益,严肃规整产权交易,全面推进科学数据元数据的应用、传播以及各项功能。
(3)相比于科学数据元数据发展较早的欧美国家,我们起步晚,发展相对缓慢,而实践能力相差甚远,其开放共享技术、设施均落后于发达国家,目前无论是共享水平还是范围都亟需加强。所以,高等院校、科研院所等各类科研机构应积极参加国际合作项目,全面学习数据信息发达国家的成功经验,扬长避短,取其精华,找到最适合我国国情的方法来提升我国科学数据元数据的开放共享水平。为此,我们丰富的科学数据元数据才能打开尘封已久的实验室大门,面向全社会各阶层领域,从高端科研机构到社会大众,才能进一步与世界接轨。
5 结 论
如今看来,大数据已不是一个概念了,渐渐深入到科研以及生活领域,在此环境中,科学数据元数据的发展势必成为趋势,而对于科学数据元数据的开放共享问题也自然赋予了时代的意义。任何领域数据的开放与共享都是急需面对的,这关乎国家的发展,社会经济的进步,关乎科技领域的深度。国际上对于科学数据元数据开放共享的研究已有数年,我国虽然起步晚,但是已经意识到了科学数据元数据的意义所在,相关科研已全面展开,恰好可以很好地借鉴学习发达国家的方法,少走弯路,结合自身特点深入开展科学数据元数据的研究。科研大环境的改变使得对科学数据元数据的认知程度和实践程度逐渐提高,为国际合作、国内各科研机构的合作以及科研人员都提供了很好的契机,同时对科学数据元数据开放共享的研究也起到了推动的作用。
[1]周波.我国科学数据元数据研究综述[J].图书馆学研究,2013,(2):7-10.
[2]张引.大数据应用的现状与展望[J].计算机研究与发展,2013,(S2):216-233.
[3]Viktor Mayer-Schønberger[EB/OL].https:∥en.wikipedia.org/wiki/ViktorMayer-Sch%C3%B6nberger.
[4]黄如花.国外科学数据共享研究综述[J].情报资料工作,2013,(4):24-30.
[5]Metadata for Managing Scientific Research Data[EB/OL].http:∥www.niso.org/news/events/2012/dcmi/scientificdata/,2013-12-20.
[6]左建安.基于大数据环境的科学数据共享模式研究[J].情报杂志,2015,32(12):151-154.
[7]邬贺铨.大数据时代的机遇与挑战[J].求是,2013,(4):47-49.
[8]左建安.基于大数据环境的科学数据共享模式研究[J].情报杂志,2015,32(12):151-154.
(本文责任编辑:孙国雷)
Research Openness and Sharing of Scientific Metadata under the Big Data Environment
Man Rui Wang Jian
(Institute of Agricultural Information,Chinese Academy of Agricultural Sciences,Beijing 100081,China)
Under the background of big data,data has become one of the various research fields indispensable element,and scientific metadata is the core of information resources.Openness and sharing of scientific data metadata is all areas urgent issue,relating to the country’s development,socio-economic progress,and the depth of science and technology.This paper conducted a research on openness and sharing of scientific metadata under the big data,and provided further reference for further research.
big data;scientific data;metadata;openness and sharing
2015-12-22
满 芮(1985-),女,助理研究员,研究方向:科学数据管理与共享。
10.3969/j.issn.1008-0821.2016.03.006
G322
A
1008-0821(2016)03-0038-04