APP下载

数据仓储该如何助推中国科技期刊开放数据?
——基于国际科技期刊数据仓储的对比分析

2022-05-20马瀚青关琳琳孔丽华潘小多

中国科技期刊研究 2022年4期
关键词:英文

■马瀚青 关琳琳 孔丽华 潘小多 庞 瑜 何 薇 刘 蔚*

1)中国科学院西北生态环境资源研究院文献情报中心,甘肃省兰州市天水中路8号 730000 2)中国科学院空天信息创新研究院《地球大数据(英文)》编辑部,北京市海淀区邓庄南路9号 100094 3)中国科学院计算机网络信息中心,北京市海淀区中关村南四街4号 100190 4)中国科学院青藏高原研究所国家青藏高原科学数据中心,北京市朝阳区林萃路16号 100101

在开放科学(Open Science)和大数据时代的大背景下,“科学数据是一级科研产出”[1]已经成为趋势和共识,开放数据(Open Data)也成为开放科学最为关键的环节。科技期刊的开放获取已经成为目前期刊发展的重要方向和趋势,其中期刊的开放数据是开放科学的核心工作。2016年,欧盟竞争力委员会宣布,2020年欧洲所有科学论文和研究数据实现开放获取(OA2020)[2]。2018年,欧洲12家科研基金会发布“S计划”,提出得到项目资助的论文要实行开放获取出版。总之,推进FAIR(Findable,Accessible,Interoperable,Reusable)原则、推进期刊开放获取和开放科学数据,成为欧洲乃至全球的发展大势[3-4]。

国际学术期刊要求发表论文时将数据公开或存储到相关的公共数据仓储中。数据仓储是一种储存、共享、传播数据的专业数据公共平台。2018年,Taylor & Francis出版机构宣布了新的数据共享政策,并在出版系统中增加数据引用和数据发现功能[5],积极推进数据期刊创建,如创建BigEarthData期刊[6]。陈新兰等[7]分析了近年来四大期刊出版商开放出版政策转型情况,而开放数据是其中重要的一个方面。ScientificData、EarthSystemScienceData、GeoscienceDataJournal、DatainBrief等数据期刊快速发展并取得成功[8-10]。根据2019年刘凤红等[11]的统计,目前共有162种数据期刊处于正常出版状态。

科技期刊数据开放和数据期刊发展的支撑基础是开放的数据仓储。科学家或作者将科学数据储存在数据仓储中,并通过对数据进行描述或引用,与研究论文关联集成,从而实现期刊数据开放获取。数据与期刊融合出版的模式,不仅为论文同行评议提供了可靠依据,还促进了科学数据的共享和再利用。目前,期刊数据融合出版表现在论文数据开放和数据期刊的快速发展。

近年来,国家相关部门发布了一系列促进我国科技期刊融合发展、培育世界一流、改进出版工作的政策文件,并实施了相应的行动计划[12-14]。为此,学者们开展了一系列促进科技期刊和数据仓储融合出版的研究,如:期刊与数据仓储关联研究[15]、期刊编辑对开放数据态度的调研[16]、科技期刊数据政策分析[17-18]、数据出版模式对比、生命科学领域数据出版发展现状分析[19]等。然而,我国期刊数据仓储的数量和质量远远滞后于我国科学研究的发展水平,目前针对期刊设计开发的数据仓储有期刊数据出版的全球变化数据研究系统(Global Change Research Data Publishing & Repository, GCdataPR)和《中国科学数据》结合的科学数据银行(ScienceDB)。面对开放科学和数字化融合出版的新形势和新需求,我国科技期刊相关的数据仓储服务能力略显不足。另外,科研人员在国际期刊发表论文的过程中,把论文中的数据也发表到国际仓储中,这在一定程度上造成了科学数据的流失。期刊数据仓储从“借船出海”到“造船出海”成为现在的重要任务[20]。

目前,针对中国期刊数据仓储竞争力不足的局面,构建适合不同期刊、不同需求的期刊数据仓储,是推进中国期刊开放数据的最为关键的基础设施。综上,本文将探索适合中国期刊的数据仓储建设策略,并分析数据仓储在存储、共享和传播方面的关键功能设置。选择国际上最为著名的通用数据仓储和国内著名期刊数据仓储进行针对性对比分析,以期促进中国期刊数据仓储的建设和优化,进而提高国内数据仓储的竞争力,从而促进期刊数据出版的快速发展。

1 期刊数据仓储和研究方法

1.1 期刊数据仓储

本研究参照ScientificData的通用期刊数据仓储(General Data Repositories)推荐列表[21],选择具有代表性的7个国际期刊数据仓储,并选择地学专业推荐的国家青藏高原科学数据中心数据仓储[22-23]进行比较。具体期刊仓储名称和基本介绍如表1所示。

表1 所选择的8个数据仓储的基本信息和运营模式

续表

1.2 研究方法

通过调研8个期刊数据仓储和相关期刊网站的基本信息,分析不同数据仓储的基本情况和功能设置,主要分析指标包括数据仓储的基本功能、合作期刊量、许可方式、关联方式、数据上传、上传数量和规范、版本方式。此外,比较国际和国内最为典型的科技期刊数据仓储,总结数据仓储支撑科技期刊数据共享的方法和程度,探讨中国科技期刊开放数据发展的关键问题。

2 期刊数据仓储对比分析

2.1 基本数据功能设置

对科技期刊来说,数据仓储的主要功能体现在支持科技期刊的数量、数据与期刊论文之间的关联方式、数据存储量和许可协议方式(表2)。Dryad和Figshare在期刊合作方面非常充分:2019年Dryad已经支持780多种期刊的数据共享;Figshare与全球33家出版机构建立合作关系,是目前使用最为广泛的期刊数据仓储。Mendeley Data是对数据仓储的再集成平台,从1000个数据仓储中搜索超过2940万条数据索引,其中包括大量来自ScienceDirect、GBIF (Global Biodiversity Information Facility)的科学数据,因此,Mendeley Data的许可方式最为丰富。Mendeley Data、OSF和Zenodo的许可方式非常丰富,以适应多种来源、机构、国家的数据设定。另外,所有数据仓储都提供免费的数据共享服务,这对促使数据开放是非常有效的。8个数据仓储也支持多版本,满足数据的更新和完善。

表2 8个数据仓储的基本设置和功能

2.2 数据格式和规范

数据仓储的元数据模式、数据输出格式、支持的作者、机构标准规范如表3所示。HD和Figshare支持的元数据模式最为丰富,主要为都柏林核心元数据集(Dublin Core)、 数据文档计划(Data Documentation Initiative,DDI)、DataCite、OpenAIRE和Schema.org等,其中DataCite元数据模式是使用最为广泛的模式。输出格式方面,8个数据仓储都主要采取Json、API和XML格式。在支持规范的作者、关键词、机构方面,Dryad的方案是最为完善的,即对机构的认定方法以研究机构注册(Research Organization Registry,ROR)为标准规范,基金支持开放基金注册系统(Open Funder Registry),作者信息支持ORCID。关键词支持Plos One词典。对于作者的标识,8个数据仓储基本都以ORCID为主,也有数据仓储将Scopus ID和Mendeley ID作为补充。

表3 8个数据仓储支持格式和规范

2.3 数据仓储的保存和访问设置

表4是对8个数据仓储的主要数据保存机构、数据使用的指标、数据访问形式的梳理结果,以及针对患者隐私、人类生物研究中涉及伦理的数据仓储设定方案。数据仓储的数据被长期保存在可靠、高效的计算中心中,确保了数据保存的可靠性和访问的高效性。对于数据使用后的统计方面,基本以访问量、下载量、被引频次、Altmetrics为主。数据访问以CC0和开放访问为主,支持长期的保存政策。在长期保存方面,Figshare与DuraSpace和Chronopolis合作,进一步保证公共数据将会在Chronopolis的管理下存档,在发生意外故障的情况下,可以从Chronopolis恢复数据。另外,医学和生物学数据中经常涉及人类伦理和患者个人隐私,OSF和Zenodo会为合格的研究人员提供匿名临床数据,以促进这一类数据的共享。

2.4 FAIRsharing和re3data收录分析

FAIRsharing和re3data是目前最为重要的数据仓储注册库,极大地推动了数据仓储的标准化和FAIR化。从数量上看,在FAIRsharing收录的1704个数据仓储中,来自中国(合作共建)的数据仓储共98个,占全球数据仓储总数的5.75%。在re3data系统收录的3000多个数据仓储中,由中国创建的数据仓储共57个,占比为1.9%(截至2021年9月20日)。表5所示为上述8个重要数据仓储的注册地址。综上,以ScienceDB和TPDC为代表的中国期刊数据仓储基本达到了国际标准,但整体来看数据仓储数量仍不足。

3 启示及建议

以ScienceDB和TPDC为代表的中国期刊数据仓储已经达到国际服务水平,但与中国科技期刊数量相比,期刊仓储数量明显不足,且针对期刊的服务能力有待提高。ScienceDB作为中国科学院独立建设的数据平台,在数据存储、获取、协议等方面具备了完善的服务功能;对《中国科学数据》开展了5年的服务,具备了支撑期刊数据仓储的服务能力。正因为如此,2020年,ScienceDB被ScientificData列入其推荐的通用数据仓储名单,这也是我国唯一入选的通用数据仓储。同年,美国地球物理学会(American Geophysical Union, AGU)将ScienceDB作为推荐的通用数据仓储。同时,TPDC是国内首个被遴选为ScientificData的期刊数据推荐仓储,目前也是AGU、欧洲地球科学联合会 (European Geosciences Union, EGU)和EarthSystemScienceData期刊推荐的地学数据仓储[24]。

表4 8个数据仓储保存、访问和数据类型统计分析

表5 8个数据仓储在FAIRsharing和re3data的注册地址

(1) 国内期刊数据仓储需要在数据共享许可协议方式、数据长期保存、免费数据服务、专业词表、数据访问方式、FAIR化程度等方面进一步提高。从8个数据仓储的对比情况来看:国内数据仓储的许可方式相对简单,难以满足多种数据共享的需求;国内数据仓储应该在长期保存的基础设施和数据安全、数据备份、应急措施方面给予完善和明确说明。例如:Figshare 与Chronopolis开展合作推进数据应急;Zenodo在欧洲核子研究中心的数据在线和离线归档,确保了数据的安全性和应对紧急情况的能力;关于专业词表,作者的规范方面统一使用了ORCID,但在机构、关键词等方面需要建立统一的(中、英文)规范标准。

(2) 数据仓储亟须提高对期刊数据共享的服务能力,建立长期的期刊数据服务方案和合作机制。目前,国内数据仓储的基本任务是汇总科学数据,已经具备储存期刊数据的能力,但与期刊的合作机制并不完善,国内科技期刊对数据出版的认识也有待提高[25]。因此,数据仓储应积极拓展期刊服务业务,主动联系期刊集群开展合作,逐步了解期刊数据开发的需求,形成长期的合作机制。目前,国内部分数据仓储逐步开展期刊数据存储服务,除ScienceDB和TPDC外,GCdataPR和国家冰川冻土沙漠科学数据中心(http:∥www.ncdc.ac.cn/)也在积极探索期刊数据共享策略。

(3) 促进科技期刊对数据共享的需求,填补数据仓储和科技期刊之间的鸿沟。数据仓储和期刊出版机构之间的合作、分工、权益、工作流程都需要共同制定。应从期刊出版的角度,调整数据仓储的定位与数据管理机制,更加重视针对数据作者的服务工作和贡献制度的建立。另外,科技期刊积极建立论文数据共享的要求规范,并通过成立期刊集群或出版机构等对期刊进行打包,以集群方式与期刊仓储进行合作。例如,Figshare与全球33家出版机构合作,而不是面对上千种期刊。此外,可以参考Springer Nature 的方式设定 “数据编辑”,这些编辑作为数据支持服务团队的一部分,将帮助作者撰写论文数据的详细描述,并将数据存到新创建的期刊数据仓储中[26]。

(4) 期刊数据仓储应该关注数据存放的安全性和数据的版权归属问题。需要重新认识知识产权保护与数据共享之间的关系,数据出版要充分体现数据的署名权,严格保护知识产权,通过各方授权来解决数据集成与数据再利用的问题。数据出版的核心应该是做好数据引用,只有规范地引用数据,数据产权才能得到保护,数据出版才能得到长效发展。但数据的知识产权在国内往往被置于知识产权的边缘地带,尊重和维护数据产权既缺乏制度、机制保障,也未在业界达成行业共识。此外,论文数据的回报问题更为突出,对于作者、期刊、编辑等来说,增加新的工作而无法得到认可和回报,这是目前最应该解决的问题。

(5) 推进期刊数据的挖掘和再使用。提高期刊科学数据的价值,从而促进期刊影响力的提升。期刊的价值在于极大地促进知识传播,期刊最为重要的措施是长期开展数据共享政策,配备专门的人员来负责和推进,并与相应的数据仓储建立合作机制。关键原因在于期刊论文数据共享填补数据仓储和科技期刊之间的鸿沟。此外,由于期刊集群化的大型出版机构数量少,除了在技术层面上存在问题以外,期刊数据库的后期维护和扩展将成为中国数据出版发展的主要障碍。

4 结语

随着国际上开放科学运动的快速发展,数据期刊迅速崛起,不仅获得了大量国内投稿,还吸纳了相应的科学数据。那么,中国科技期刊数据的共享到底难不难?难点在哪里?关键的鸿沟如何填补?期刊数据仓储如何与数据期刊融合出版?首先,我们应该看到,中国科技期刊对开放数据政策的执行力度不够,科技期刊难以积极有效地推进期刊开放数据。其次,我国数据仓储为科技期刊服务的能力非常有限,科技期刊和数据仓储之间的合作和交流相对比较薄弱。

应对这种局面,数据仓储要为期刊科学数据共享提供优质服务。本研究对8个代表性数据仓储进行调研和对比分析,并从5个方面详细介绍了期刊数据仓储的特点和功能,以期为我国期刊数据仓储的发展提供参考。

科学数据的重点不在于“藏”而在于“用”。在政策方面,我国亟须建立完整的数据出版体系,以ScienceDB为模板建立更广泛的科学数据仓储,吸引更多的科研工作者发布最新的科学数据;积极创办数据期刊,鼓励期刊发表数据论文,促进期刊论文与数据的关联集成,并将科学数据发展应用的重点转移到价值功能上,实现科学数据的增值服务。

相比于把论文发表在祖国的大地上,把数据发布在中国的数据仓储中更加重要。目前,国家针对期刊发展和评价导向做出了开创性举措,相信开放数据在科研产出评价中的权重会有所提升。期刊数据共享工作任重道远,需要出版管理部门、编委团队、期刊编辑、投稿作者的共同合作和推进,更需要建立中国自己的Dryad,加大现有数据仓储对期刊的支撑力度,增强中国期刊的数据共享能力。只有通过多方面的共同推动才能相互促进和关联,更好地服务科学家团体,促使科学数据的发现、共享和重用渠道更加通畅。

猜你喜欢

英文
英文摘要
英文摘要
英文摘要
英文摘要
英文摘要
英文摘要
英文摘要
英文摘要
英文摘要
英文摘要