APP下载

数据共享与公开—科技期刊需关注的新问题

2017-10-17聂东波张静林

关键词:可用性科技期刊期刊

聂东波,张静林

(中国科学院武汉病毒研究所,湖北 武汉 430071)

数据共享与公开—科技期刊需关注的新问题

聂东波,张静林

(中国科学院武汉病毒研究所,湖北 武汉 430071)

元数据共享是大数据时代的趋势,它有利于文章发表后,科学界对其进行数据验证、复制、再分析,提升科研投资资金的价值,加速领域内科技进步。调查了国外主流学术期刊和2016年JCR发布的被收录的196本中国期刊的作者指南,发现在国外科技期刊的“作者指南”中,数据共享一般都有详尽规定和操作指南,但在被JCR收录的中国期刊中却只有10%的期刊有提及,且全部为与国外出版商合办期刊。我国的科技期刊界也应完善与数据共享相关的各项规定,制度及提供相关的可操作流程,以促进全球科技共享与进步。

数据共享;大数据;科技期刊;国际期刊

科学数据作为学术研究的一部分,不仅是检验一项研究成果是否可信的重要证据,更是进一步发展科技和从事科研的基石[1~3]。随着大数据的电子化存储和网络获取成为可能,以及信息技术的发展和开放获取越来越成为主流,科学界对于科研数据共享(Data sharing)的要求也越来越高。国际主流科学界要从模糊的呼吁数据共享到强制的数据可用性(data availability)[3]。科研数据可用性是指科学数据与方法的长期存储和公开。它避免了种种地域机构保护以及个人原因造成的数据共享障碍,使得实验重复和验证更易进行,进一步促进了全球范围内的科学交流和传播[2]。学术期刊界也出现了以专门发表大数据为特色的数据期刊,如Nature旗下的Scientific data,BMC旗下的Giga data,Wiley旗下的Geoscience Data Journal的等。本文以传统的科技期刊为研究对象,探讨在大数据背景下期刊的“作者指南”中对于数据共享应有的规定与说明。并对比国内外期刊的操作办法,以期给我国科技期刊同行提供借鉴和思考。

1 与数据共享相关的几个概念

1.1数据共享的定义

数据共享是指用于学术研究的数据需要与其他研究者共享。“最小数据集”是指用于得出文章结论、含有相关元数据和方法的数据集以及用于复制全文研究结果的其他数据。核心描述性数据、方法和研究结果应包含在论文主体中。PLOS拒绝接受数据被描述为“未显示数据”(data not shown)这种情形[4]。期刊编辑和审稿人应根据具体情况要求部分文章的作者提供特殊数据类型。若文章所含数据集过大、无法通过资源库或上传文件共享,作者应咨询其旗下相关期刊。

1.2提供数据共享的几大储存知识库

一些不是太大的文件可以作为补充材料(Supplementary Materials或Supporting Data)随文放在网站上,一些太大的元数据分析文件则需要递交到专门的存储网站并在提交文章时提供该元数据的DOI或检索号。较常见的国际通用大型数据库如序列数据库(如GenBank,EMBL, dbSNP),组学数据库 (如ArrayExpress, BioGRID),结构学数据库(如Biological Magnetic Resonance Data Bank),神经科学数据库(如Functional Connectomes Project International Neuroimaging Data-Sharing Initiative (FCP/INDI)),模式生物数据库(如Eukaryotic Pathogen Database Resources (EuPathDB)),分类学及物种多样性数据库(如Integrated Taxonomic Information System (ITIS), NCBI Taxonomy),生物医学数据库(如Influenza Research Database),生物化学数据库(如caNanoLab),物理科学数据库(如Australian Antarctic Data Centre (AADC)),社会科学数据库(如Inter-university Consortium for Political and Social Research (ICPSR))。此外,不属于常规分类的大数据则可以递交到Dryad,figshare,GigaDB等专门的数据存储机构。大型国际数据的存储期限往往比小型的地方数据更长久。

1.3两大主流非专业数据库的简介

Dryad[5]:是目前学术界比较认可的除专业数据库以外的数据存储机构,由一家非营利组织机构经营。目前已有102家期刊与Dryad合作,其优势是可以将数据提交整合到投稿流程中,作者只需要在投稿过程中将与该文章结论相关的元数据递交至Dryad,就会得到一个关于本数据的DOI号,审稿人或读者即可通过该DOI号获取相关数据。

Figshare[6]:适用于任何格式和类型的数据。严格说来它并不是一个针对期刊的数据存储库,而是一个让科研人员自由分享的平台,其中一个特色是鼓励发布阴性数据(negative data)和图。这是非常有意义的,一方面可避免其他研究者无谓地重复,另一方面这些数据可能在别人的研究中得到佐证,或者被进行合理解释。目前也有很多期刊,出版社和学会等与其合作。

1.4共享数据(Data accessible)和一般的补充材料(Supplementary Materials)的异同

表1 补充材料和共享数据的异同比较

2 国外及国内期刊在数据共享和公开方面的规定及现状分析

2.1国际期刊的做法

笔者调查了几家国际期刊和出版机构,发现几乎所有的国外主流期刊在作者指南中对于数据的可用性都有详尽而明确规定,除了典型的数据期刊如Scientific Data[7],专门以论文的形式发表有科学价值的数据描述。其他的传统科技期刊,如细胞(Cell)的 “材料和数据的发布”(Distribution of Materials and Data)[8];自然(Nature)的“数据和材料的可用性”(Availability of data and materials)[9]; 科学 (Science) 的“数据和材料的可用性”(Data and materials availability)[10]; BMC的“开放数据”(Open Data)[11];eLife的“数据组和报告的标准”(Datasets and reporting standards)[12]。虽然标题不一样,但细则都是规定与论文结论相关的分析数据,实验材料等(即重复此实验结果所需的全部素材)需要对读者完全开放,否则被期刊视为不可接受(Unacceptable).

PLOS系列期刊的具体实践是与文章结论相关的所有数据的都必须具有可用性(Data availability),可以让读者免费获得而不得有任何限制,作者在在线投稿的同时需要签署一份关于数据可用性的声明。文章发表后,该项声明会随文发表。若文章出版后发现数据获取存在限制,编辑部有权发布勘误、联系作者所在单位及赞助方、在极端事件中甚至会撤销出版[4]。

国外的科研数据共享从号召到如今的强制共享,已经如火如荼进行了几十年。相比较之下,国内的期刊在这方面是如何操作的呢?笔者对2016年JCR收录的196种科技期刊进行了调查,在其门户网站查找“作者指南”栏目。经统计发现:196中期刊中,仅有20种提及数据共享,占所有被收录期刊的10%,且全部为与国外出版商合办期刊。

2.2国内期刊在科研数据共享方面的现状

90% JCR收录期刊对于数据共享没有规定,17个期刊有提及,介绍也比较简单,没有关于该如何操作的详细指导或建议;部分与国外出版商合作的期刊,如香港职业治疗杂志(英文版)、训练科学与健身杂志(英文版),应用地球物理学(英文版)等则是直接链接到出版商的官方条款。显示出国内期刊在这方面关注较少。

目前国内的政策制定者和基金资助方对于数据共享有一定的限制,导致作者和期刊在这方面小心翼翼,不太积极。福建农林大学的黄晓磊教授的调查研究显示,受到政策支持或鼓励的科学家们则更愿意分享他们的科研数据[13]。无独有偶,上海海事大学的Wan Zheng教授曾在《自然》上发文称中国的数据共享政策与氛围阻碍了中国的科学研究与创新[14]。

3 结论和建议

数据共享不单单是期刊编辑部将相关的规定放入“作者指南”就可以了,还需要国家政策的引导、作者的支持与配合,才能真正落到实处。笔者认为,应该从以下三方面入手,促进全球范围的科研数据共享。

3.1政府和资金资助机构等从政策上支持数据共享

这是能否顺利实行数据分享的基本条件也是最重要的条件。政策制定者们应该看到,垄断或限制数据分享,最终将损害自己的科研进展。上海生物信息技术研究中心李亦学主任也指出科研数据难以共享已成为国内生命科学研究的一大障碍;而在大数据时代,其负面效应还可能被继续放大[15]。同时应尽快建立健全科学数据共享的法律体系,明确规定科学数据共享的知识产权及数据恶意使用的法律后果,保证原始数据作者的权益。

3.2建立本国自有的大型数据存储库

从长远的政治和经济角度来看,建立本国自有的大型数据储存库并鼓励本国学者将原始数据上传保存,具有重要意义。虽然放在国外数据库上的原始数据也可以随时免费查阅,但是长远看来,元数据的长期保存,调用数据库内的小领域或行业数据,进行综合分析预测本领域的发展趋势,以便相关部门在战略上整体部署,及时修改政策,调整经费划拨比例等意义深远。

3.3本国科技期刊应积极响应数据共享政策

作为推动科学进步的一种传播工具,期刊理应重视支持数据共享,从发表政策上提倡甚至强制共享才可发表。中国的科技期刊也承担着传播科学,促进科技进步的责任,理应顺应国际趋势和潮流,对于涉及数据共享的知识产权、法律法规等给作者以实用性指导,并提供针对不同类型数据的操作指南和详细的上传流程,在促进全球科研数据共享及科学进步中展示科技大国的力量。

发表在PLOS Medicine上一份研究报告证实:相比没有共享癌症临床数据的文章,发表后共享数据的文章其引用率提升了70%,并且该增量与期刊的影响因子,发表时间,作者来源等无关[16]。英国生态学会自2014年年初开始对其旗下的6份期刊强制实行来稿数据-检索政策,要求支持实验结论的数据必须完全公开。根据其实行6个月以后的调查结果显示,总投稿量提升了6.7%[17].国际医学期刊编辑委员会(ICMJE)最近也发表了一项提议:根据政府部门,基金资助机构等的共识,准备试行“强制共享临床实验数据”[18],该项提议已联合发表在其旗下14家会员期刊上,并在其网站上广泛征求关于具体要求的细节条款。可见,元数据共享是大势所趋,是科学发展的必然方向,有利于提高研究的再现性、提升科研投资资金的价值。对于期刊来说,也有利于提升文章的引用率和来稿量。

[1]Gary Marchionini, 杨冠灿, 卢昆. 科研数据管理: 保障数据质量, 促进ischools新科学研究[J]. 图书情报知识, 2013, 4:4~9.

[2]彭 洁,贺德方,张英杰. 数字出版环境中科学数据引用的实现路径及策略调查分析[J]. 出版发行研究, 2014, 4:57~61.

[3]Scientific data archiving [EB/OL]. [2017-5-6]. https://en.wikipedia.org/wiki/Scientific_data_archiving

[4]PLOS ONE: Data Availability[EB/OL]. [2017-5-6]. http://journals.plos.org/plosone/s/data-availability

[5]Dryad[EB/OL]. 2017-5-6. http://datadryad.org/

[6]Figshare[EB/OL]. 2017-5-6. https://figshare.com/

[7]刘晶晶, 顾立平. 数据期刊的政策调研与分析[J]. 中国科技期刊研究, 2015, 26(4):331~339.

[8]CELL: Instruction for authors[EB/OL]. [2017-5-6]. http://www.cell.com/cell/authors#policies

[9]Nature: availability of data, material and methods[EB/OL]. [2017-5-6]. http://www.nature.com/authors/policies/availability.html.

[10]Science: editorial policies[EB/OL]. [2017-5-6]. http://www.sciencemag.org/authors/science-editorial-policies#dataavail.

[11]BiomedCentral: Open Data[EB/OL]. [2017-5-6]. http://www.biomedcentral.com/about/policies/open-data.

[12]eLife: Datasets and reporting standards[EB/OL]. [2016-9-4]. http://submit.elifesciences.org/html/elife_author_instructions.html#Data_statement.

[13]Huang X, Hawkins BA, Lei F, et al. Willing or unwilling to share primary biodiversity data: results and implications of an international survey [J]. Conservation Letters, 2012, 5:399~406.

[14]Wan Zheng. China’s scientific progress hinges on access to data [J]. Nature, 2015, 520: 587~587.

[15]李亦学:科研数据难共享阻碍国内生物科技发展[EB/OL]. 2013-07-17. http://www.biodiscover.com/news/research/105002.html.

[16]Taichman DB, Backus J, Baethge C, et al. Sharing clinical trial data: a proposal from the international committee of medical journal editors [J]. PLoS Medicine. 2016, 13(1):e1001950.

[17]Norman H. Mandating data archiving: experiences from the frontline [J]. Learned Publishing, 2014, 27: S35~S38.

[18]Taichman DB, Backus J, Baethge C, et al. Sharing clinical trial data: a proposal from the international committee of medical journal editors [J]. PLoS Medicine, 2016, 13(1): e1001950.

Address: Wuhan Institute of Virology, Chinese Academy of Sciences, 44 Xiaohongshan, Wuhan 430071, ChinaAbstract: Data sharing and archiving is the trend in big data era. It is benefit for data verification, replication and re-analysis, and then improves the value for scientific investment and accelerates the improvement of science and technology in related fields. To understand the situation about the policies and regulations of data archiving in Chinese scientific journals, the top international academic journals and all Chinese scientific journals indexed in JCR(Journal Citation Report) had been studied. It is found that data archiving and sharing are mentioned and regulated in total of 9.9% Chinese scientific journals comparing with the detailed instructions in mainstream international journals. In summary, The Chinese scientific journals should value data archiving, perfect the related regulations and provide practicable operation procedures for authors.

Keywords: data archiving; big data; Chinese scientific journals; international journals

Datasharingandarchiving—thenewquestionthatacademicjournalshouldconcern

NIE Dong-bo, ZHANG Jin-glin

G231

A

2096-3149(2017)03- 0071-04

10.3969/j.issn.2096-3149.2017.03.013

2017—03—11

聂东波(1983— ),女,编辑,硕士,从事科技期刊编辑工作.

猜你喜欢

可用性科技期刊期刊
科技期刊的分类
期刊更名启事
期刊简介
科技期刊的分类
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
科技期刊的分类
期刊问答
科技期刊的分类
医疗器械的可用性工程浅析
可用性差距阻碍数字化转型