APP下载

我国科技期刊数据政策分析及启示
——以中国科学院主办英文期刊为例

2019-09-03韩燕丽

中国科技期刊研究 2019年8期
关键词:出版社期刊样本

■彭 琳 韩燕丽

1)中国科学院文献情报中心《数据智能(英文)》编辑部,北京市海淀区中关村北四环西路33号 1001902)中国科学院文献情报中心院期刊改革项目组,北京市海淀区中关村北四环西路33号 100190

大数据技术的发展,使得研究人员更容易对科学数据进行系统综合分析,科技创新也越来越依赖于科学数据的获取和分析,科研数据的存储与共享显得日益重要,期刊界也为之做出了努力。2014年6月在National Institutes of Health (NIH)举行的会议上,30种医学期刊的编辑们商讨怎样促进数据复用和共享,发表了“Principles and guidelines for reporting preclinical research”,提议期刊要求作者将支持论文结论的所有数据作为同行评议的内容在出版时公开[1]。2013年,Nature旗下的生命科学期刊实施18项检查,并要求作者提供数据和代码可用性声明,强烈推荐通过公共存储库实现数据共享[2]。2014年,PLoSONE发布了新的数据开放政策[3]。

从20世纪90年代开始,国外研究者开始调查期刊制定数据政策的状况,发现只有少部分期刊制定了数据政策。McCain[4]在1995年调查了850种期刊,发现只有132种(16%)期刊制定了数据政策。Sturges等[5]在2014年调查了400多种期刊,发现只有少数期刊制定了数据政策。国内傅天珍等[6]在2014年调查了“中国最具国际影响力学术期刊”,发现2013年我国出版的175种自然科学与工程技术期刊中,40种期刊制定了数据政策,56种人文社会科学期刊中,5种期刊制定了数据政策。但当逐年对比数据,研究者们发现制定数据政策的期刊数量在逐年增多[7]。这些调查结果证明了期刊的数据政策的确推动了研究人员分享科研数据。研究者们在调查中分析期刊政策和期刊的特点,探讨期刊学科领域、影响因子、出版商类型、开放获取等因素与数据政策强度的关系,发现制定数据政策的期刊学科分布不均衡,影响因子高的期刊更重视数据出版,科学社团主办的期刊比商业出版社主办的期刊更可能制定数据共享政策[6-8]。同时,我国已经制定数据出版政策的学术期刊主要集中在生物、医药和化学领域,其次依次为材料、地质、物理、环境和心理学等领域;制定数据政策的国内英文期刊数量比中文期刊多,制定数据政策的SCI/SSCI收录期刊数量比非SCI/SSCI收录期刊多,制定数据政策的自然科学与工程技术期刊数量比社会科学领域期刊多[6]。

综合分析国内外研究[3,6-13]发现,多数研究是以国际期刊为样本,对期刊的数据政策内容进行总结,试图提出政策模板和政策分析框架。但是,国际期刊的现行数据政策是在最近几年才调整制定的,比如PLoS的现行政策是2014年制定的[14],Springer的现行政策是2016年制定的[15],而现有文献多发表于2015年左右,较少研究分析国际科技期刊的现行政策,特别是从国内期刊编辑部的角度分析制定数据政策的必要性和如何制定完善数据政策。我国已有多少种科技期刊制定了数据政策?期刊的数据政策主要包括哪些内容?是遵循国际期刊的数据政策模板还是自己独立制定的政策?是采取强制性政策还是鼓励性政策?考虑到英文期刊更有可能制定数据政策,本研究以中国科学院主办的部分英文期刊为样本,调查分析这些期刊的数据政策,以期为科技期刊的数据政策研究、国内期刊编辑部制定和完善数据政策提供参考。

1 数据和研究方法

为方便对样本期刊进行比较,选取中国科学院主办的65种SCI收录的英文期刊作为样本。如果样本期刊有海外合作出版社,就以海外合作出版社上的该期刊网站为官方网站,在作者指南里查看期刊的数据政策(Data Policy)。国际著名出版社大多制定了数据政策,从最初要求作者公开与论文相关的补充材料至今,学术期刊的数据政策也日趋完善[9]。有的出版社没有制定数据政策,但要求作者公开与论文相关的附属材料(Supplementary Information, SI)。Stodden等[7]区分了SI政策和数据政策,指出SI一般包括正文没有出现的图、表和一些解释性材料,而不是数据或代码等。本研究将包括数据或代码的SI政策算作期刊的数据政策。

数据政策的调查项目包括政策的强度(强政策或弱政策),数据提交、审查、存储和引用要求等方面的规定。本研究使用McCain的定义[4]对期刊数据政策的强度进行分类。如果政策是“鼓励”分享数据,指出数据应该(Should)存储到数据库里,但并不要求作者提供分享的证据,比如提供数据分享声明(Data Availability Statement)属于弱政策;强政策则要求数据“必须”提交到指定存储库,数据提交“作为出版的条件”,如果数据不能分享,作者应提供解释说明。

上述文献调研结果表明,影响因子高的期刊更重视数据公开和分享[6,8],为方便统计和表述,本研究对中国科学院主办的65种SCI收录英文科技期刊(不包括数据期刊)进行编号(表1),下文如再次出现该期刊时,则用编号代替期刊名称。本研究所用数据为2018年11月收集。

2 调查结果

2.1 数据政策强度分析

65种样本期刊中,除了两种没有与海外出版社合作,其余63种期刊主要与7个海外出版社合作(表2)。共有37种期刊制定了数据政策,与这些期刊合作的海外出版社主要包括Springer、Elsevier、Institute of Physics(IOP)、Oxford University Press (OUP)、 The Optical Society (OSA)、Wiley和Nature。虽然Springer和Nature在2015年合并,但本研究在考察国内英文期刊的海外合作出版社时,仍按照各期刊最初合作出版社统计,如果最初是和Nature合作,海外出版社按照Nature计数,如果最初是和Springer合作,海外出版社则按照Springer计数。

海外出版社并不强制要求与其合作的科技期刊必须制定数据政策。样本中制定了数据政策的这些期刊基本上是参照海外合作出版社的政策制定了自己期刊的数据政策。比如,Nature的数据政策特点是强制数据存储和获取。样本中和Nature合作的1号和5号期刊都是采取强制数据共享政策。Springer则推出了1~4级从弱到强的分级数据政策,其中1级鼓励数据分享和引用。各期刊可根据自己的情况自由选择政策类型。和Springer合作的25种样本期刊中,除了6种期刊没有公布自己的数据政策类型,其余的19种期刊都选择了1级政策。

笔者注意到有些期刊数据政策强度具有高度灵活性,对于已有确定标准的领域,期刊强制要求数据存储。例如,在生物领域,提交某些特殊类型数据到公认的公共数据存储库已成为领域内惯例,样本中22号期刊和33号期刊要求新核苷酸序列必须存放到日本DNA Data Bank of Japan(DDBJ)、欧洲European Molecular Biology Laboratory(EMBL)或美国GenBank数据库中。

制定了数据政策的期刊主要集中在生物和化学领域,调查结果和前人调查结果[6-8]一致。按照政策强弱分类标准,共有6种期刊制定了强政策,31种制定了弱政策。总体来说,国内主办的英文期刊的数据政策以鼓励数据分享为主。

表1 65种中国科学院主办英文期刊列表

表2 样本期刊合作的海外出版社

2.2 数据提交规范

2.2.1 提交数据的内容

期刊的数据政策大多数是独立于SI政策。在制定数据政策的37种样本期刊中,只有两种(期刊编号分别为3和7)和OUP合作的期刊的数据政策是和SI政策合并在一起的。它们的数据政策名为附属数据(Supplementary Data)政策,要求数据作为附属信息提交。SI政策一般是针对图、表、音频和视频资料,要求作者把这些资料作为补充信息上传到期刊网站。这些资料一般有格式和容量的限制,只以在线形式在期刊网站发布后供读者获取[10]。而数据政策(Data Policy)一般针对的是数据集、软件代码、晶体结构、分子式、模型、算法、方法、数据传递协议等。

除了提交数据,还需要提交数据可用性声明来说明如何获取数据。如果数据涉及隐私和敏感问题,作者需要声明数据不能公开的原因,并说明数据是否可在读者请求的基础上有条件分享。样本期刊中只有8种期刊的数据政策提到了数据可用性说明(表3)。

2.2.2 提交数据的方式

数据政策没有像SI政策那样明确作者应提交的数据格式(Word、Excel、TIFF、JPEG),而是要求作者按领域数据或通用数据两种类型分别将数据提交到相应的存储库。数据政策的重点是帮助作者选择合适的数据存储库提交和存储数据。因为不同领域对数据分享可能有不同的要求,所以有的期刊既制定了通用领域的数据政策,又发布了针对特定领域数据分享的补充条例;但有的期刊仅有针对特定类型数据的政策而没有通用的数据共享要求,例如38号和60号样本期刊。

表3 样本期刊的数据可用性声明

作者提交科研数据的主要方式有6种[16](表4)。在样本期刊中,最多的做法是提交到推荐的通用领域存储库(73%)和特定领域存储库(76%);较少的做法是提交给期刊存储(16%),提交给通用领域数据存储库,不推荐具体存储库(8%),在读者提出查阅和利用相关数据时,作者直接提供给读者(8%);最少的做法是将数据提交给作者机构知识库或者资助者机构库(3%)存储。

表4 作者提交科研数据的6种方式

2.3 数据审查的规定

37种制定数据政策的期刊中,只有1、2、3、5号期刊政策提到了数据审查的规定。数据审查的目的是评估数据的质量,审查结果影响论文的录用。这4种期刊提到的数据审查内容主要包括:(1)数据质量的审查。检查提交的数据是否可以支持论文的结论,是否存在虚构造假的情况;(2)收集的方法和统计分析方法的审查。如果对数据可用性有限制条件,作者必须在投稿的时候和在文章方法部分进行说明,比如4号期刊,审稿专家要对数据获取的限制是否合理进行评审。

2.4 数据存储和长期保存

关于数据存储方面的规定,期刊一般推荐通用数据存储库,比如 Figshare和Dryad,而特定领域数据一般都会要求存储到特定领域数据存储库里,比如蛋白质序列数据必须存入Uniprot。期刊一般通过在文章中增加超链接来指向数据,通过这种方式将文章和数据关联。关于数据的长期保存,期刊一般没有要求。

2.5 数据引用的要求

表5所示为样本期刊中涉及的数据引用规定。

37种期刊中有29种期刊鼓励作者将数据引用作为参考文献列表的一部分,样本期刊有不同的引用格式,但是基本上都包括了作者、数据集名称、数据集存储库名称、数据集唯一标识符4个要素。

3 讨论与分析

3.1 国内科技期刊数据政策强度

样本期刊中有一半多的期刊在参照海外合作出版社的政策模板基础上制定了数据政策,这可能和这些期刊合作的国外出版社一直在大力推进数据政策的制定有关。国外出版集团比如Nature、Springer、Elsevier公布的政策模板也是在早期实践调研的基础上制定,有些内容已经是行业领域里的惯例,比如在生物领域,期刊对某些特殊类型数据的存储会有强制性要求,要求作者将这些特殊类型数据提交到公认的公共数据存储库。

表5 期刊对数据引用的规定

国内英文期刊普遍采用鼓励分享的政策,这可能有3方面的原因:(1)国际上采用鼓励性政策的期刊数量更多。笔者对Springer旗下公布数据政策的科技期刊[17]进行了统计,发现在1034种期刊中,409种期刊采用1级政策,即鼓励数据分享与数据引用;376种期刊采用2级政策,鼓励数据分享及提供分享证据;243种期刊采用3级政策,鼓励数据分享,要求数据声明;只有6种期刊采用4级政策,要求数据分享、提供分享证据并对数据进行同行评议。(2)各期刊采用稳步推行、平稳过渡的策略,从鼓励性政策逐步向强制性政策过渡,以最大程度争取作者投稿。(3)有调查中显示受到政策支持或鼓励的科学家们更愿意分享他们的科研数据[18]。

虽然很多研究者在呼吁期刊制定“强”数据政策,将数据提交共享作为论文发表的强制条件,并明确指出如果不提交数据将不会发表论文[3,6-8],但是出于各种原因,各期刊还是普遍选择“弱”数据政策。“强”数据政策在推动数据开放和共享方面会起到更大的作用,毋庸置疑,期刊制定“强”数据政策是未来的趋势[6,8]。

3.2 数据的提交规范

本研究所调研的期刊没有对论文出版与数据存储之间的时间间隔做出规定,比如2号样本期刊规定出版的条件之一就是要求作者必须向读者公开数据、代码和相关的协议,但并没有清楚地说明作者存储数据的时间,因此可以增加如下的说明文字,例如“在收到存储库已正式存储数据的通知时,才会出版论文”,“允许作者在数据公布一个月内存储数据”。

虽然有学者提出,因为我国学术机构,特别是中国科学院所属研究所都已经建立了机构知识库,所以我国学术期刊的数据提交,除地理学科等已有专门存储位置的期刊外,其他均建议存储到开放获取的机构知识库,并给予准确的链接[3]。但本研究调查结果显示,国内主办的英文期刊在制定数据政策时,还是会参考海外合作出版社的政策,目前普遍的做法还是将数据提交到期刊推荐的通用领域存储库和特定领域存储库存储。

3.3 数据审查规定

本研究调研的样本期刊中只有4种期刊提到了数据审查,大多数期刊的数据政策不包括数据审查的内容,傅天珍等[6]指出我国期刊大多并未建立严格的科学数据审查机制,所以各期刊在进一步完善数据政策时应增加数据审查的内容。调研的4种期刊提到的数据审查主要是数据可得性(即数据是否开放获取、审查数据可用性说明)、数据科学性(即数据是否支持结论),但还应包括数据格式和数据集引用情况的审查以及数据资源标引的审查。为了能够有效地对支持论文结论的关键数据资源进行追踪,对这些数据资源的溯源描述非常重要。国际期刊非常重视对论文关键数据资源的溯源,例如BioMed Central(BMC)鼓励用独一无二的资源标识符[19]来标识关键数据资源,这也作为期刊对数据审查的一部分内容。另外,可借鉴数据期刊ScientificData的数据审查政策,期刊对数据的审查内容既包括数据产生方法的科学性、数据质量和可用性,数据文档充分性的科学性审查,又包括元数据准确性的技术性审查[3]。

3.4 数据存储与长期保存

因为维护数据的成本很大,负担很重,国际上期刊的普遍做法是推荐通用的公共数据存储库供作者选择。对于那些对数据共享已有确定标准的领域,期刊一般强制要求作者将数据存储到指定存储库。与国际期刊不同,我国期刊的主办单位一般是科研组织机构,商业性不强,而且我国科研机构一般都建有机构知识库,所以我国期刊可以利用主办单位的机构知识库来进行数据的长期保存。但不同学科数据的本质差异性,对机构知识库的通行解决方案提出了挑战。

3.5 数据引用规定

在期刊数据政策没有规定数据引用方法之前,已发布数据的价值无法显示出来。本研究调查中,37种期刊中有27种期刊鼓励作者将数据引用作为参考文献列表的一部分,说明数据引用已经是科技期刊数据政策的一项重要内容,究其原因,可能有3点:(1)数据引用保障作者数据署名权并承认作者的贡献,会激励作者分享数据;(2)规定引用格式有助于促进研究数据的标准化使用,会让数据查找变得更简单;(3)引用可促进研究结果的可复制性,同时引用文章数据也可能提升该文的关注度,增加该文阅读量和引用机会。

3.6 数据的相关权益问题

期刊论文中包括的数据、附属数据集往往没有单独签订使用许可协议,但论文的开放获取使用协议可能并不适用于数据的开放共享。在本研究调查的期刊数据政策中,并没有关于数据著作权归属、数据的使用与许可协议等数据相关权益问题的明确规定和说明。但这些规定和数据的共享、使用密切相关,因此应包括在期刊的数据政策中。Hrynaszkiewicz等[20]认为CC0许可协议是让数据进入共有领域,数据能够在最小的障碍下重用的、适合数据开放共享的许可协议。Nature集团的开放获取期刊论文中的开放数据使用许可协议为CC0[21],以最大开放程度来降低用户不合理使用的风险[22]。同样,BMC旗下开放获取期刊论文中的数据开放也采用CC0协议[19]。采用CC0协议意味着数据所有者放弃了数据的著作权,但是期刊在数据政策中要求对重用的数据进行引用,引用是重要的学术规范,引用就是承认数据所有者的学术贡献。对于那些资助者不允许作者使用CC0的情况,BMC认为可以基于正当理由不使用CC0许可协议[19]。

4 我国学术期刊完善和实施数据政策的建议

4.1 相关政府部门和科研资助机构应制定政策或措施促进科学数据的存储和合理使用

政府和科研项目资助机构制定支持数据共享的政策,是科技期刊数据政策顺利实施的重要前提条件。我国应尽快建立科学数据共享的法律体系,明确规定科学数据共享的知识产权,以及数据恶意使用的法律后果,保证数据所有者的权益[23]。科研资助机构应明确规定资助项目投稿期刊必须开放共享数据。为鼓励科研人员分享数据,政府应该从科研成果发布、科技评奖、职称职务晋升等方面对分享数据的科研人员给予奖励。

4.2 期刊应重视数据政策并制定和完善数据政策

我国科学数据共享研究起步较晚,无论是期刊还是作者,对科学数据共享政策重视不够。其实科学数据的共享对于作者和期刊出版社来说,都是大有益处的。对于作者来说,共享数据的文章发表后,文章的被引频次可以得到提升[24]。对于出版社来说,数据的出版为出版物增值,因为出版数据有助于后人验证前人的研究结果,可增强已发表研究结果的可信度[25]。

在制定数据政策的时候,应包括为什么要制定这样的数据政策的说明。期刊应制定明确的数据政策,针对数据的提交、审查、存储和引用给出清晰的说明或建议,同时对政策的监督、如何实施也有明确说明:(1)针对必须提交的数据给出明确的说明,即形成论文结论的数据(集)。(2)针对数据的提交要求(提交的时间、格式、方式、文中引用格式)要有清晰说明。(3)提交可用性声明,声明数据是否可以公开共享,何时可以共享,对于不能公开的数据如何共享。(4)给作者推荐数据存储库,建议作者根据学科和数据类型选择数据存储库。(5)对期刊编辑和审稿专家提出清晰的审核要求,他们对政策起监督作用。期刊政策中数据的提交、审查、存储和引用规定都是稿件审核的内容,关系到稿件的录用与否;如果作者要限制数据集的开放程度,依读者请求开放,期刊政策应有相关规定,在其他研究人员投诉无法满足数据请求时,期刊有相关的处理程序说明。(6)在数据政策中应增加数据相关权益问题的规定和说明。

4.3 建议建设国家/领域数据中心助力期刊数据存储

大多数期刊并不具备存储数据的技术条件,因此期刊需要和不同主体,比如资助方、期刊、数据存储库/数据中心、机构知识库等进行合作实施数据存储。虽然在我国机构知识库是数据存储的主要途径,但各个单位自建的机构知识库毕竟分散、规模小,而且这些机构库支持数据存储和开放共享的功能也有待完善。可能当前更重要的解决数据存储的途径是通过落实我国《科学数据管理办法》,认定和建设一批国家/领域数据中心,期刊与这些数据中心建立联合存储关系,在期刊数据政策中推荐作者将数据存储到这些数据中心。

5 结语

本研究调查了中国科学院主办的65种科技期刊,发现有37种期刊已制定数据政策,政策以鼓励性为主。各期刊基本上是参照海外合作出版社的政策制定了自己的政策,政策内容包括数据提交、审查、存储和引用的规定,但只有极少部分期刊的数据政策规定了数据审查的内容,而且对数据审查的规定不全面。除了本研究调查的项目,学术期刊的数据政策还应包括数据著作权归属、数据的使用与许可协议等方面数据相关权益的规定。通过本研究的分析,发现国内科技期刊需要重视和完善数据政策。未来期刊数据共享政策制定可以参考本研究样本期刊的政策,同时增加数据权益管理的规定。作为科研数据传播交流的重要媒介,完善的科技期刊数据政策能够有效引导作者提交数据,有助于促进科研数据的存储、开放共享和重新利用。

猜你喜欢

出版社期刊样本
期刊更名启事
期刊简介
用样本估计总体复习点拨
我等待……
期刊问答
规划·样本
今日華人出版社有限公司
随机微分方程的样本Lyapunov二次型估计
石油工业出版社
“官员写作”的四个样本