国际数据期刊的发展现状调查与分析
2019-12-18刘凤红
■刘凤红 彭 琳
1)南京大学信息管理学院,江苏省南京市栖霞区仙林大道163号 2100232)中国科学院大学经济管理学院图书情报与档案系,北京市海淀区中关村东路80号 1001903)中国科学院文献情报中心《数据智能(英文)》编辑部,北京市海淀区北四环西路33号 100190
在数据密集型科研范式下,数据成为重要的研究对象,被社会各界广泛关注。国际科技与医学出版者协会在“STM Tech Trends:Outlook 2020”中明确指出,“科学数据是一级科研产出”[1]。在科技期刊出版界,数据不再单纯是科研论文中支撑科学假设和科学发现的客观资料和附属品,而是成为学术出版的直接对象,以数据论文形式予以发表[2-6]。数据论文被认为是促进数据开放和共享的一种有效手段[7-8],因为它既像传统的学术论文一样,遵循严格的同行评议流程,从而保证数据的质量[9],又能够帮助数据拥有者通过发布数据获得学术荣誉和影响力,从而鼓励科研人员开放数据[8,10]。
近年来,发表数据论文的期刊呈增加趋势。据最新一次公开统计的结果,数据期刊的数量已达到116种[10]。从生物医学到计算机科学,再到多学科综合领域,可以说,数据期刊涵盖的学科范围越来越广。与此同时,数据期刊的影响力也在不断提升。比较典型的如Springer Nature出版集团旗下的《科学数据》(ScientificData),其影响因子已攀升至5.3,在科睿唯安的《期刊引证报告》(JournalCitationReports,JCR)的综合类期刊中排名靠前;Elsevier出版社出版的DatainBrief,虽然创刊时间不长,但发文量增长迅速,2014年创刊时仅仅发表了86页论文,到2018年全年发表的论文已高达数千篇,页码数达到了9778页。这些迹象表明,数据期刊已成为一种重要的出版形态[11]。
我国学者一直在持续关注数据期刊和数据论文的最新进展。笔者曾经对数据出版、数据论文和数据期刊的概念进行了系统阐释[4,6];张恬等[5]从不同利益相关群体的角度(科研群体、出版商以及基金资助组织)对数据出版的总体进展进行了总结;欧阳峥峥等[3]以典型数据期刊为例分析了其出版特征;刘晶晶等[12]和吴蓉等[13]对数据期刊的数据共享政策进行了系统调研和分析;温亮明等[11]通过比较ScientificData和《中国科学数据》,对两刊的载文特征进行了定量解析。还有众多国内学者探讨了科学数据的出版模式、数据发表的发展趋势等[2,5,11,14-16],这些成果对我们了解国际数据期刊的发展脉络和实践探索都提供了非常有用的素材。
2015年,意大利学者Candela等[10]建立了一份含有116种数据期刊名录的清单。如今5年时间过去了,在过去的这几年里,国际社会对开放科学的推动呈更强劲的态势。欧盟斥巨资启动开放科学云计划,美国国立卫生研究院在项目申报和管理中添加了数据管理计划要求,我国国务院办公厅正式印发了《科学数据管理办法》,这些来自顶层的政策都在激励着开放数据的进一步蓬勃发展,也带动了新一批数据期刊的创办。因此,重新整理和更新国际数据期刊名录,不仅有助于我们对数据期刊的总体发展现状保持清楚的认识,并可为我国数据期刊的发展途径提供客观参考,甚至可以为决策层制定不同期刊的发展布局提供资料借鉴。
1 数据采集方法
从广义上讲,任何将数据公开发表并供他人使用的行为都可以称为数据出版[6, 12]。本研究所阐述的“数据出版”是特指以论文的形式将数据发表在期刊上的出版行为,其他形式的数据出版暂不在本研究的探讨范围之内。2015年,Candela等[10]通过网络查询、向编辑及出版社直接咨询等方法,得出了一份比较全面的数据期刊名单,该名单包含116种期刊。本研究对该清单上所列期刊的当前运行状态进行了逐一查询,剔除已经处于停刊状态的期刊。通过网络信息扫描、查阅文献以及报告等方法,补充了部分遗漏期刊,增加了新创期刊。此外,鉴于软件、材料、方法等客观研究要素都可看作是广义的数据,本文将研究要素类期刊也包括进来,最终形成了一份包含162种期刊的数据期刊列表。
通过逐一登录期刊官网,确认每种期刊当前所属的出版社(对于变更过出版机构的期刊,本研究只保留当前最新合作出版社的信息)以及开放获取模式信息,通过查找相应期刊首卷(期)的方法获取各期刊创刊时间信息。
期刊所属学科领域归属数据来源于JCR学科领域标准。根据是否被Web of Science收录对所有期刊进行分类。对于SCI收录期刊,逐一调研其在JCR中所属的学科领域;对于非SCI收录期刊,根据其官网上对定位、宗旨和内容的描述,逐一与JCR数据库中的学科领域进行比对,从而判断其所属学科。
2 结果
2.1 数据期刊的数量
根据本次调研数据的统计结果,全球共创办了168种数据期刊,其中AquaticBiosystems、DatasetPapersinScience、EarthPerspectives、JournalofSystemsChemistry、SpringerPlus先后停刊,GenomicsData于2018年并入DatainBrief。因此,目前共有162种数据期刊处于正常出版状态。
2.2 数据期刊的创刊时间
1920—1999年创办的数据期刊共有22种,占数据期刊总量的13.5%。2000年及以后,共计有141种数据期刊创刊,占数据期刊总量的86.5%,数据期刊的数量呈现快速增长的趋势(图1)。
图1 数据期刊的创刊时间分布
2.3 数据期刊的类型
从期刊定位和发文类型的角度,数据期刊可划分为纯粹型和混合型两种[10]。纯粹型数据期刊首要关注或只发表数据论文,混合型数据期刊既刊发传统论文也刊发数据论文。根据本次调研数据的统计结果,目前正式出版的162种数据期刊中,纯粹型期刊有34种,混合型期刊有128种。需要指出的是,创建于2000年以前的期刊均为混合型数据期刊,且大部分期刊创建时是传统期刊,后来随着出版需要增设了数据论文类型。2000年以后创建的期刊多为纯粹型数据期刊。
2.4 数据期刊的出版机构分布
根据本次统计结果,全球共有26家出版机构出版数据期刊(表1)。出版数据期刊数量最多的是Springer Nature集团,共计出版97种期刊,其中大部分期刊原来隶属于Springer Open和BMC,公司合并重组后这些期刊被并入Springer Nature集团。其次是Pensoft,这是一家以数据和语义出版闻名的小型出版机构,目前出版21种数据期刊,主要集中在生物多样性领域。再次是Elsevier出版社,出版了14种数据期刊,于2014年创办的DatainBrief发文量增长迅速。这3家出版机构占据了全球数据期刊出版市场的85%。需要注意的是,中国科学院也出版了4种数据期刊,在我国率先探索和尝试了这一新颖的出版类型。
表1 出版数据期刊的出版社及其数据期刊数量
2.5 数据期刊的学科分布
以JCR学科领域的标准划分,本研究统计的162种数据期刊涵盖了85个学科领域。多领域综合、生态学领域的数据期刊各有13种;其次是遗传学类,有11种;再次是生物多样性保护,公众、环境和职业健康,生物化学与分子生物学,数学与计算生物学,植物科学等领域(图2)。如果将这些学科领域按照学科大类来划分,会发现生物学类(包括植物学、动物学、微生物学、分子生物学、生物技术、细胞生物学、发育生物学、神经生物学等学科领域)是占比最大的一类学科,其次与医学相关的学科(包括病理学,卫生政策与服务,传染病学,放射学、核医学和医学影像,泌尿外科及肾脏学,内分泌和代谢,药理学和药剂学,卫生保健科学与服务等学科领域),再次是与生态学、环境科学以及地理与地质相关的学科(包括生物多样性保护、林业科学、进化生态学、大气科学等学科领域)。计算机科学的数据期刊也不容小觑,虽然总计只有6种期刊,但是涉及到人工智能、信息系统、跨学科应用等领域。
2.6 数据期刊的开放获取模式和影响力
从广义上讲,数据期刊是开放科学运动的产物,从其所采用的开放获取政策比例上可见一斑。根据本研究的统计,在162种数据期刊中,有149种采用了完全开放获取出版模式,有7种期刊采用混合型开放获取方式(即由作者自行选择),只有6种期刊采用了非开放获取模式(表2)。从表2还可以看出,所有纯粹型数据期刊都采用了完全开放获取模式。
在影响力方面,有102种数据期刊被Web of Science数据库收录(即SCI收录期刊),占数据期刊总量的63.0%(表3),其中以混合型数据期刊为主,这可能与纯粹型数据期刊创刊时间较短有关。
表2 数据期刊所采用的开放获取模式
表3 数据期刊被Web of Science收录情况
3 讨论
3.1 数据期刊现状分析
本研究对现有数据期刊状况进行了调查,得到了包含162种期刊的数据期刊清单。我国共出版有6种数据期刊,都由中国科学院创办,其中4种中文期刊为独立主办,2种英文期刊为与国际出版社合作主办。在笔者所查阅的公开资料范围里,这份清单是截至目前(本文资料查阅时间为2019年1—2月)包含数据期刊数量最多、最全面的一份资料。根据本研究的调查结果,除了Springer Nature、Elsevier等大型出版集团外,一些小型专业出版机构也在布局数据期刊出版领域,甚至在技术创新方面更胜一筹。如Pensoft出版社旗下的期刊绝大多数为数据期刊(共计21种),其开发的Arpha Writing Tool(1)https://pensoft.net/.写作平台,不但支持从作者写作到论文出版和存储的整套工作流,而且将领域(生物多样性)元数据标准嵌入到数据论文写作模板中,实现了数据论文和数据存储平台之间数据的自动对接。此外,数据期刊在影响力方面也表现出色,162种期刊中有102种被Web of Science收录。
注:根据JCR领域分类统计,对于同时归属于多个学科领域的期刊,统计了其所在的所有学科领域。图2 数据期刊所属的学科领域统计
在开放获取模式方面,由于创办数据期刊的初衷就是促进数据交流和共享,因此绝大多数数据期刊采用完全开放获取政策。对期刊的历史数据作进一步调查和分析发现,少数不采用开放获取政策的期刊是由传统期刊演变而来,即仍以发表传统学术论文为主,数据发表是后来期刊发展过程中设立的一个栏目。从本研究的分析中还可看出,数据期刊已涵盖多个学科领域,尤以生物医学领域数量最多,这可能与学科的数据量、数据共享需求程度以及共享文化有关。分析数据出版较为发达的学科领域的创刊路径和成功经验供其他学科参考,可能是未来值得探索的一项工作。
3.2 对我国数据期刊建设的几点思考
数据期刊是开放科学运动下科学数据共享与学术出版结合的产物。对于科学数据公开和共享的好处,已有多位国内外学者阐述过[13-16],在很多学科领域已基本达成共识。但如何推动和真正实现数据共享和重用,在现实中仍然存在很多阻碍。这些阻碍往往与研究人员缺少数据共享的动机有关[17-18]。因此,引入适当机制鼓励科研人员共享数据便成为必然举措。学术期刊是科学传播基础设施生态系统的重要组成部分[19],在发布数据开放政策、促进数据共享实践方面具有先天有利的因素[20]。最近一项以Science为取样数据的实证研究表明,采用数据公开政策有助于提高研究的可重复性[21]。数据期刊模拟传统学术出版行为,将数据作为出版对象,能够起到评价研究人员科研绩效的作用,因此被认为是跨越数据共享阻碍的有效手段[6,8,10]。
基于上述分析,笔者提出以下问题和建议供业内同行共同思考。
(1) 虽然国内也创办了数据期刊,但在数量、规模和发文体量上较国外大型出版社仍有差距。数据被誉为未来的石油,若科学数据也像科研论文一样外流,是否存在数据被掌控于人的风险?我们是否应该在大力提倡“将论文写在祖国大地上”的同时,呼吁把数据也保留在祖国大地上?若如此,则呼吁上级主管部门在制定期刊发展布局规划时,对数据期刊的创办给予政策支持。
(2) 数据期刊的创建和发展离不开规范的数据存储平台、完备的数据管理计划,甚至专业的数据管理人员的配套支持。国内数据平台是否足以支撑更多数据期刊的创建和进一步发展,数据管理计划是否完备,在数据管理人员的储备上是否有可操作的方案?笔者建议和呼吁对我国现在的数据平台作细化梳理,对标国际数据平台,在找差距补短板的同时,突出自有优势。此外,在数据期刊从业人员的配置上,建议纳入数据管理人员。