数据出版对我国地质数据共享的启示
2018-04-13李晓蕾齐钒宇
郭 慧,李晓蕾,齐钒宇
(1.中国地质调查局发展研究中心,北京 100037;2.中国地质大学(北京)能源学院,北京 100083;3.全国地质资料馆,北京 100037)
数据出版是近几年出版界和数据共享界共同提出并积极探索的一个新概念,数据共享所面临的根本问题有望从机制上得以改善。目前科学数据分散在不同的国家、研究机构、科研项目、存储库甚至科学家手中,研究者很难找到相关数据集(即“数据竖井”问题),而促进科学数据有效利用的重要机制和手段就是数据共享。为满足数据的长期保存和数据共享,很多国家已开始通过政策引导和国家投入建立国家级数据中心体系[1-2]。
数据出版不是对数据进行分析获得结论,强调的是直接出版数据。数据出版在保持数据的完整性、防止科学造假、减少重复时间及资金投入等方面有重要作用,同时还能有效提高数据发表者或发表机构在学科领域的知名度和影响力,对提高该领域或跨领域合作机率也有积极作用。国内研究者在科学数据管理和共享政策方面已有许多研究[3-5],但针对国内地质领域的数据出版的研究相对较少。本文通过对国内外数据出版现状进行分析,提出对我国地质科学数据出版的启示,以期对推进地质数据共享有所帮助。
1 国内外数据出版现状
1.1 国外数据出版现状
1.1.1数据共享政策
政府借助法律与技术手段进行开放的数据建设,将开放科学理念推向新的发展高度。大多数国外政府及公共资助机构都会对项目申请者研究过程中产生的科学数据以及最终的成果数据做出政策规定和要求。美国国家科学基金会(NSF)要求申请NSF资助的项目必须提交研究项目的数据管理计划,内容应包括数据的范围、类型、标准、元数据、共享方式、获取权限和时限等[1]。美国国家航空航天局(NASA)、英国研究理事会(RCUK)等要求凡是受其基金资助的项目必须提供科学数据的公开获取。
在地学领域,地学研究及地调机构不仅有学科上的科学创造,同时也促进科学成果的集中共享和再利用。NSF地学学部(GEO)要求完整的数据集,数据产品(例如,模型结果、输出和工作流程)、软件和集成整合数据必须在两年内可公开访问[6]。2013年,美国地质调查局在“开放数据政策—将数据作为资产管理”的备忘录中要求,所有新创建的信息和收集工作应使用机器可读取,并使用开放的形式和数据标准发布;在“扩大获得联邦资助科研成果”的备忘录中要求,公众应能够获得由联邦资助的研究成果,包含用于学术出版物的数据集。英国数字保藏中心 (Digital Curation Centre,DCC)要求成果数据尽快公开,同时应至少符合数据中心的最低质量标准,以保证数据可理解、可重用[7]。
1.1.2基于数据生命周期的数据期刊政策
数据期刊政策是数据期刊发展的基本指引方向,而整个数据生命周期涉及数据提交、数据描述、数据保存、数据利用等[8]。针对整个数据生命周期制订期刊政策是推动数据出版发展的必经之路。以综合类数据期刊Scientific Data及地学类数据期刊Geoscience Data Journal、Earth System Science Data为例,来分析国际数据期刊及地学类数据期刊在整个数据生命周期的政策是如何制订的。数据期刊一般要求作者在提交数据论文时使用DOC格式、DOCX格式,数据格式可为EPS、JPEG、EXCEL、SQL等。在数据确认阶段,科学研究产生的数据应评审其完整性、真实性,并通过同行评审评议数据集的质量,以保证数据集的使用价值及重用价值(表1)。数据描述阶段主要是针对数据论文提出的论文结构,是对数据集的描述,除了传统科研论文中的标题、作者、摘要、参考文献等内容,还包含数据采集和处理方法、数据样本描述、数据质量评估、元数据信息。数据发布者应按照期刊规定提供元数据信息,如果数据集已存储在公开的数据中心,则发布者应提供访问该数据的有效链接、存储位置等信息,并确保所描述的数据集是可发现和可引用的。一般在数据论文发表前,数据期刊会要求作者将对应的数据集存放在适于该领域的数据中心。数据集的长期保存是为了促进数据集的可发现和可再利用,许可协议是作者共享数据时,保留著作权而释放其他一些权利的机制。在数据使用阶段,数据期刊特别关注数据引用的相关政策,认为科学数据引用和传统科研论文等学术引用一样重要,规范的数据引用可以有效识别、访问和验证该数据集。
表1 国外3种数据期刊各阶段相关政策
1.2 我国数据出版现状
我国数据出版发展虽已取得阶段性成果,但与国外相比尚处于起步和探索阶段[8]。我国绝大部分期刊都不具有数据出版政策,仅有的政策也多以鼓励为主,并不强制要求。实际上,早在1988年,我国就加入世界数据中心(WDC),以“数据共享”作为发展理念,开展科学数据的采集、整理、分发和服务工作。2002年,科技部启动“科学数据共享工程”,着手建立WDC各学科数据中心,积累和共享了大量的科学数据,初步形成了我国数据中心体系[14],主要涉及气象、地震、海洋、地质、空间、天文、冰川、资源环境、地球物理等领域。2011年,寒区旱区科学数据中心成立,收集、整理、存储世界范围内寒区旱区领域的科学数据。目前,该数据中心拥有在线数据1 442.96 GB,元数据1 431条。2014年,由中国科学院地理科学与资源研究所和中国地理学会联合主导建设的全球变化科学研究数据出版系统正式投入运行,开始接受数据集(库)的投稿和出版,截至2018年1月底,共出版实体数据集351个,涉及11个国家的610位作者。2017年,《全球变化数据学报(中英文)》创刊,以地理、资源、环境、生态、全球变化等领域的科学数据和发现为核心内容的学术刊物。2015年,《中国科学数据》在线投稿与出版系统投入试运行,重点收录具有领域科学研究特色的数据论文,主要收录生命科学与医学、地球系统科学、空间科学与天文学、物理学、化学化工、材料科学与工程、信息科学、社会科学等学科领域的基础数据及数据产品,已被“中国科学引文数据库(CSCD)来源期刊(2017~2018年)”核心库收录。2017年,全国地质资料馆与《中国地质》杂志合作,以增刊的形式出版“全球地质数据专辑”,对全国地质资料馆馆藏公益性地质调查成果进行系统挖掘,以“促进科学数据资源共享,推进数据知识产权保护,引领中国地质数据国际化”为宗旨,重点涉及基础地质、能源地质、矿床地质、水工环地质、矿产勘查、地球物理、地球化学、地质信息等地质领域,第一期共发布实体数据11档,达6.29 GB。
虽然,国内数据共享起步较晚,但在期刊及研究者的共同推动下,数据出版在各界逐渐活跃起来,并在政策上逐渐规范科学数据相关标准。2015年,《关于促进大数据发展的行动纲要》对推进大数据资源开放和共享进行部署,同时明确提出我国各级政府、公共机构汇聚了大量高质量的与社会公众关系密切的数据资源,但只有少部分进行了自用和信息公开,大部分数据资源没有发挥作为“生产要素、无形资产和社会财富”的应有作用。2017年12月,国家标准化管理委员会发布《信息技术科学数据引用》(GB/T 35294—2017),该标准规定了科学数据引用元素描述方法、引用元素详细说明、引用格式等方面的内容,适用于科学数据传播机构、数据使用者等。其中,科学数据传播机构可根据本标准设计数据引用系统,并声明数据引用规则;数据使用者可根据本标准著录科学数据引用信息。
2 对我国地质数据共享的启示
地质数据不仅是地质环境工作部署的背景资料,同时也是地质环境管理和资源配置的决策参考资料[15]。目前,大量地质数据集中在政府、公共机构,地质数据的社会化共享服务程度还有待提高。数据出版将有效促进科学数据的公开,便于科研人员和数据工作者发布或发现、获取、再利用科学数据[16]。
2.1 完善政府、公共机构等多层次、多结构的数据共享政策
目前在数据共享政策方面,我国还主要依托各领域实践研究逐步形成领域内的政策,以促进科学数据的共享。科学数据管理、出版、共享都离不开政策上的指导和规范,我国在政府层面编制了一系列数据共享的政策法规。然而,与国外发达国家相比,我国的政策还不够完善,已制定的政策落地难,同时缺少相关法律效力,对科学数据的共享工作贡献有限,且缺少针对地质领域的共享政策。在数据出版政策方面,国内已有的数据期刊虽然制定了相关规定,但并未形成基于科研数据生命周期的数据政策。我国在制定数据期刊政策时,应借鉴国际数据期刊模式,依据科学数据生命周期的多个阶段制定有针对性的数据政策,推进科学数据的长期保存和数据资产管理。通过完善政府、地学机构等多层次的数据共享政策,才能更有效地增强数据拥有者的共享意识,进而推进地质科学数据的共享。
2.2 创办地质数据期刊,并与数据存储机构合作出版
地质数据大部分源于科研项目,并伴随着项目的进行逐渐汇集。地质数据的聚集和汇交是数据共享的基础,而数据管理机构通常拥有强制性数据汇交政策,依照管理政策接收、验收相关数据资料。因此,数据存储机构拥有海量的数据资料,具有较强的数据管理、存储与服务能力,在一定程度上可以确保数据的质量和资源量。在强制汇交的政策基础上,建立数据出版机制,创办地质数据期刊,可以有效保证初期数据出版的数据源。同时,数据储存机构可以作为数据出版的数据存储和管理中心,发挥数据存储和共享管理方面的优势,为数据可追溯、可永久保存、可复用提供基础条件。此外,数据储存机构在技术和服务层面为数据期刊提供数据注册和服务功能,这样不仅加强了数据管理机构的规范性,而且进一步充实了地质数据资源,也是为今后建造权威地质数据仓储库奠定基础。
目前,各个领域都在推进数据共享,但在规范性和积极性上还有待提高。地质数据获取成本极高,难以重复获取,再利用价值大,是国家重要的战略信息资源。创办地质领域的数据期刊一方面为数据共享提供规范化平台,另一方面为数据工作者开辟学术化交流途径。国际知名数据期刊《科学数据》(Scientific Data)支持现有的学界数据存储库,与Dryad和figshare两个数字仓储合作,使用ISA框架开发与其他存储库的元数据联接,解决数据可获得、可引用、可发现、可解释、可重现[17]。Scientific Data发表具有科学价值的数据集描述,以提升数据集研究的理解深度。数据集描述以传统意义上的科研内容结合内部结构化信息,最大化数据的再利用,使读者能够进行数据挖掘。数据集描述更多聚焦在帮助其他研究者对数据的再利用上,而非对某一假设的检验,也不是推出新的解释方法或对实验结果的深入分析。描述内容主要包含数据集获取方式和技术分析、数据质量评估、重复利用的关键方法或分析流程以及解决重要研究问题时对数据的重复利用。在地质领域,可以借鉴国际数据期刊的办刊经验,创办地质数据期刊,更加注重地质数据的重复利用和地质数据作者的署名权。地质数据描述除了国际数据期刊中包含的内容以外,还应有地质背景和地质意义描述,使读者更容易了解某一研究范围所处的地理位置、构造情况、地层结构等内容,这样更有利于对地质数据的理解和解释。除此之外,地质数据期刊与相关数据储藏机构合作,强化了地质数据的管理,也有利于地质数据的长期保存。地质数据储藏机构在规范标准和促进地质数据共享方面具有重要作用,并同时可以提供数据同行评审环节。
2.3 建立多渠道、高标准的数据传播模式
在同行评审期刊里发表数据不仅可以解决数据来源、管理、识别和发现的问题,也有助于认可数据带来的贡献,以及数据科学家对更广泛的数据使用群体做出的贡献。如果数据期刊可以实现多平台、权威检索,将有助于数据的快速传播。Wiley与英国皇家气象学会(Royal Meteorological Society)合作发表新期刊Geoscience Data Journal在Wiley上开放获取,目前已被Chemical Abstracts Service(简称“CAS”)、Current Contents、Science Citation Index Expanded(SCIE)以及Web of Science检索,有利于数据使用者查找和广泛传播,并迅速提高数据期刊和数据集在学术界的影响力。
国内数据期刊可逐步通过多平台、高影响力检索,实现数据集的广泛传播[18]。目前,在数据期刊发展初期,可实现以下几种体系关联。①数字对象唯一标识符(Digital Object Unique Identifier,简称“DOI”)可通过国际DOI系统(包括CrossRef、DataCite)和数据出版系统对接,建立持久、有效链接,可实现数据集的唯一标识和知识产权保护。②Data Citation Index(简称“DCI”)是Web of Science(简称“WoS”)平台上一个新的研究资源,主要功能是数据集检索。DCI将研究数据与众多强大的研究发现工具连接了起来,使研究人员能够快速、轻松识别与获取最相关的数据。③ResearcherID是WoS平台上作者的唯一姓名标识符,该系统不仅提供了可以查询作者发表在 DCI 和 SCI 检索的论文和数据集清单,而且也可以查询到这些论文和数据集被引用的记录。除了WoS的ResearcherID外,很多学术平台都建立了自己的姓名标识符体系,特别值得一提的是Open Research and Contributor ID(简称“ORCID”),相当于全球科研人员的身份证,可实现与WoS、Scopus等多平台的数据交换。建立作者与学术成果的关联,扩大可见度,提升学术影响力。通过以上平台关联检索,有助于已出版的数据进行有效传播。
[1]何琳,常颖聪.国内外科学数据出版研究进展[J].图书情报工作,2014,58(5):104-110.
[2]吴立宗,王亮绪,南卓铜,等.科学数据出版现状及其体系框架[J].遥感技术与应用,2013,28(3):383-390.
[3]陈全平.学术期刊数据政策及相关研究[J].图书与情报,2015(5):9-15.
[4]欧阳峥峥,青秀玲,顾立平,等.国际数据期刊出版的案例分析及其特征[J].中国科技期刊研究,2015,26(5):437-444.
[5]伏安娜,张计龙,殷沈琴.数据论文国内外发展研究综述[J].图书情报工作,2015,59(24):131-138.
[6]EAR Division Data Sharing Policy [EB/OL].https:∥www.nsf.gov/geo/geo-data-policies/ear/index.jsp,2017.
[7]How to Develop a Data Management and Sharing Plan[EB/OL].http:∥www.dcc.ac.uk/resources/how-guides/develop-data-plan#Data types etc,2011.
[8]黄如花,李楠.基于数据生命周期模型的国外数据期刊政策研究[J].图书与情报,2017(3):36-42,108.
[9]雷秋雨,马建玲.数据期刊的出版模式与发展研究[J].图书与
情报,2015(1):112-116.
[10]DataONE[EB/OL].http:∥www.dataone.org,2016.
[11]Geoscience Data Journal[EB/OL].http:∥onlinelibrary.wiley.com/journal/10.1002/(ISSN)2049-6060,2016.
[12]Publication Policy[EB/OL].http:∥www.earth-system-science-data.net/about/publication_policy.html,2016.
[13]Recommended Data Repositories[EB/OL].http:∥www.nature.com/sdata/policies/repositories.2016.
[14]王卷乐,孙九林.世界数据中心(WDC)中国学科中心数据共享进展[J].中国基础科学,2007(2):36-40.
[15]郭慧,贾丽琼,齐钒宇,等.地质资料开发对城市群建设发展的作用[J].中国矿业,2017,26(5):60-63.
[16]邱均平,何文静.科学数据共享与引用行为的相互作用关系研究[J].情报理论与实践,2015,38(10):1-5.
[17]HUFTON Andrew.Scientific Data to complement and promote public data repositories[EB/OL].http:∥blogs.nature.com/scientificdata/2013/07/23/scientific-data-to-complement-and-promote-public-data-repositories/.
[18]刘闯,郭华东,UHLIR Paul,等.发展中国家数据出版基础设施与共享政策研究[J].全球变化数据学报,2017,1(1):3-11.DOI:10.3974/geodp.2017.01.02.