APP下载

预印本服务的发展态势、困境与变革思路

2022-05-05宋现山

关键词:研究者期刊论文

宋现山

(苏州市职业大学 学报编辑部,江苏 苏州 215104)

预印本为研究者提供可以比同行评审期刊快速传播的研究成果,促进更多研究者反馈和互动的平台交流。尽管多年来预印本平台共享手稿在某些学科(例如物理和数学)中很常见,但人文学科一直很少采用,这可能与研究文化差异和一些期刊出版单位的强烈反对有明显关系。近几年,在不断提高研究成果传播的时效性和同行交流与反馈的迫切需要的背景下,传统学科、新兴学科和交叉学科的研究者对预印本服务的需求越来越强烈,且诸多期刊出版单位也逐渐改变了观念,接纳了预印本的形式,预印本的发展进入了“快车道”。随着预印本的发展越来越具有规模化,影响力也越来越大,很多制约因素逐渐显现出来,需要研究者探讨和解决。

一、预印本的发展态势

目前,学术界、期刊界和推动者对预印本的概念并没有达成统一的共识,期刊界普遍认为预印本是作者上传到预印本平台(开放访问存储库)的完整的学术手稿,包含了完整的研究数据和方法等,通常在同行评审过程之前或同时进行。预印本平台在物理和数学领域中很常见,但是随着学科交叉研究的不断深入,预印本格局正在发生迅速变化。

1.国外发展态势

当前国外的预印本服务正在快速增长,许多出版商和期刊主办方看到了其中的利益,开始支持预印本,甚至类如美国国立卫生研究院(NIH)、ASAPbio等活跃组织和出版商2002年就已经通过会议和调研制定了预印本“声明草案”[1],并且正在尝试创建预印本生态系统。比如,最早提供预印本服务的arXiv②平台,目前除其创建机构——康奈尔大学之外,又先后有西蒙斯基金会和其他200多家会员机构的注入,使得该平台发展具有巨大潜力。2013年11月,冷泉港实验室(Cold Spring Harbor Laboratory,CSHL)推出了bioRxiv,同年12月底,不到2个月的时间,它已经发表了108篇可开放获取、未经同行评审的论文。2016年,平台数据显示,bioRxiv发表了4713篇论文,充分显示出其在生命科学界中具有的强大动力[2]。此后,更多学科的研究者和组织着手创建预印本学术交流服务平台,如有MedRxiv、SSRN、ChemRxiv、PsyArxiv、EngArXiv、SocArXiv等。开放科学中心(COS)开发了可重用基础结构——开放科学框架(OSF),该框架于2016年开始提供“预印本托管服务”,截至2020年7月7日,已成功托管了33种独特的预印本服务。OSF的服务范围从特定学科(如古生物学的PaleorXiv)到特定国家(如为印度尼西亚研究界提供服务的INA-Rxiv),正在快速向外扩充[3]。

近年来,预印本平台的使用者增加的更多,这从arXiv®平台每月的下载数量[4]和每年bioRxiv预印本服务平台作者人数的增长可见一斑。图1显示了arXiv®平台每月下载数。

图1 arXiv站点和arXiv镜像每月的下载数量

图1数据显示,1994年至2020年的25年中每个月的arXiv®平台使用者下载数据,1994年至2003年,每月的下载量增长缓慢;2004年每月下载量达到了2 000 000次,之后4年基本维持稳定,变动幅度不大;2008年至2012年,每月下载量基本增加了1倍,变化幅度也不是很明显;2012年之后每月下载量进入快速增长时期,虽然不够稳定,但是增幅却是非常显著,2019年基本上是2012年的7倍。2019年每个月的下载量都在 22 000 000以上,这足以说明预印本对于科研工作者已经十分重要,提醒我们要充分利用这一平台,并构建好自己的预印本。

图2提供了每年bioRxiv预印本服务平台作者人数的变化趋势。在bioRxiv预印本服务平台上,作者结构分为新作者和再发布作者两种,根据图2显示的数据趋势,每年发布预印本的新作者是其主要作者来源,且增幅在逐年增大;再发布作者也在逐年增长,增幅虽然比新作者小一些,但是也变化较大。从年份来看,2015—2016年是新作者变化转折的重要年份,这一年新增作者出现了大量增长,比前一年增加了1万多人,之后的年份基本趋势保持一致,每年都比上一年增加几万人;2017—2018年是再发布作者转折的年份,再发布作者人数比上年增长了1万多人。随着再发布作者基数的不断增加,每年再发布作者人数的增长将会更大。从2013年608人发布预印本到2018年超过10万人发布,作者人数增长非常快,充分表明预印本在生命科学领域已经占据十分重要的作用,需要我们重视和搭建类似的预印本平台[5]。

注:数据来自Meta-Research: Tracking the popularity and outcomes of all bioRxiv preprints[5]一文提供的备份数据。

“新作者”指的是当年发布过且往年从未发布过预印本的作者;“再发布作者人数”指的是当年发布过且往年也发布过预印本的作者;“作者总数”包括新作者人数和再发布作者人数。

2.国内发展态势

国内研究预印本服务的论文并不多,以中国知网综合数据库为例,用主题词“预印本”为检索主题,共出现1762条(检索时间为2020年5月20日),其中,中文文献448条,英文文献1314条,本文仅对中文文献进行梳理和分析,对英文文献未作分析。通过标题和主题中与“预印本”直接相关进行筛选,仅有61条中文文献直接阐述预印本主题,时间跨度从2005年至今。也就是说我国研究者开始关注和研究预印本的时间相对较晚,研究的文献也不多。

注:图片依据中国知网提供的文献网络分析制作。

从文献刊发的时间来看,约从2005年我国研究者开始关注这种出版方式,且在2008年、2013年、2016年和2019年前后关注程度较高。从文献的主题来看,主要涉及电子预印本的系统介绍、问题和对策,预印本的发展状态及启示,预印本和同行评审的关系,预印本平台的影响力和预印本平台的构建等。从时间顺序来看,不同时期论文的主题也不尽一致,2010年之前的论文主题主要围绕预印本的介绍和分析方面,论文篇数约有25篇,超过三分之一的论文属于初级认识阶段;2011—2016年之间论文主题以预印本的现状、应用、实证分析以及和同行评审的关系为主,有16篇文章属于深入研究这一阶段;2016年之后,论文主题主要围绕政策制定、发展态势、“预印本+自组织评议”模式、学术影响力以及预印本平台的构建等方面,此阶段约有20篇论文,约占总体的三分之一。总体来看,文献以介绍和分析预印本的发展主题占多数,预印本的应用和影响分析研究占少数,对预印本的发展困境和发展路径的探讨则更少。

在预印本的平台建设方面,2016年中国科学院率先推出了“中国科学院科技论文预发布平台(以下简称ChinaXiv)”。ChinaXiv致力于构建一种学界自治的科研成果交流和共享平台,面向全国科研人员接收中英文科学论文的预印本存缴和已发表科学论文的开放获取,并鼓励科研人员公平竞争,保障优秀科研成果首发权的认定,推动科研成果的开放获取。目前,除已建成的“ChinaXiv” 平台之外,还有与中国科学院合作建设的“中国心理学预印本平台PsyChinaXiv”“中国生物工程预印本出版平台”“ChinaXiv岩土力学预印本平台”“中国语音乐律预印本平台”“中国图情档预印本平台”“贵州省学术预印本平台”。前几个预印本平台已经投入使用,后两个平台在正在试用中。ChinaXiv自创建至今,约5年的时间,已经发布预印本论文总数超过15,200多篇,发展速度超过预期。

在预印本平台的部署上,我国学界已经有了足够的认识,正在努力追赶国外预印本的发展步伐,且ChinaXiv已开展同国外预印本检索平台的合作。随着预印本的推广,势必将吸引更多研究者、期刊、机构等相关利益者的关注,也将会举办大型研讨会等对预印本在国内的发展进行探讨,会提出更多更有实效的举措推进预印本的发展。

二、我国预印本发展的困境

预印本有3个重要的优势特征:快速发布、未经同行评审和开放获取,这3个优势特征是预印本快速发展的内在推动力。预印本推动者(研究者)都有一个共同的愿景——通过快速自由地传播研究成果来推进科学发展。一份完整的研究手稿,作者将其上载到预印本服务器上,无需进行正式审阅(同行评审),仅仅经过简短的形式检查以确保该手稿的科学性和研究性之后,就可以在一天左右的时间内发布在Web上,并供同行免费查看。与期刊动辄几个月的发表时间和繁复的修订相比,预印本具有更加快速和便捷的特点。然而,预印本的发展并非顺风顺水,会受到诸如科学技术、研究者接受程度和支持资金等因素的影响。

1.观念因素:

预印本的接受程度与学界的大环境下研究者对开放获取的接受程度有关,开放获取是预印本存在的基础和优势特征,如果研究者开放获取观念没有提升到一定程度,预印本就不可能发展起来。预印本平台要求研究者公开和共享自己的完整手稿,不仅包括论文,还包括研究方法、数据、逻辑等。

2019年,李克伟等[6]人基于CSCD及CSSCI来源期刊调查了我国学术期刊开放存取的情况,结果显示学术期刊的开放存取比例约为73.20%,且以开放存取形式为主,并由此推断我国学术期刊已初步迈进开放存取时代。目前,我国的学术期刊做到的开放获取也仅仅是初等形式,少有学术期刊会要求作者同时提供和共享研究方法和研究数据,研究的可重复性非常低。2017年,《中国学术期刊(网络版)》(英文简称CAJ-N)学术论文录用定稿网络首发联合公告称,除了出版与纸质期刊内容相同的传统论文之外,还可以出版增强论文。增强论文又称全成果论文,是以传统论文为根文献增加多媒体内容,即在传统论文这一根文献下添加附件链接,链接的附件包括详尽描述和可视化的研究背景、对象、问题、逻辑、方法、数据、结果及分析、讨论等内容。CAJ-N推出的增强论文极似预印本的完整手稿,目前,参与首期联合发布的期刊有436种,但合作期刊采取增强论文出版形式的并不多,也未对作者提出增强论文出版的强制要求[7]。正式出版单位采用增强论文出版的尚且不多,参与预印本出版的期刊则更少。ChinaXiv自创建已与22种期刊建立了合作关系,制定了优秀稿件的双向推送机制。在这22种期刊中,大多数期刊是中国科学院主办或者与其有直接联系的期刊。

虽然发布预印本的作者每年都在急剧增加,且我国科学研究者对开放获取的接受程度也不低,但愿意发布预印本的并不多。李克伟等人的调查印证了我国研究者对文献的开放获取意愿很高,而对发布预印本的意愿比较低。作者不提供和开放自己的研究方法和研究数据,一方面是出于作者个人意愿,害怕研究方法和研究数据被他人盗用,甚至用于不法目的,不愿共享;另一方面,更有可能是作者所用的研究方法和研究数据本身存在缺陷,经不起同行的推敲。不愿发布预印本的作者可能有更多的顾虑,比如,论文写作质量不高,论文没有创新点,甚至存在多种形式的学术不端等,这些因素使预印本不能得到更多人的接受。

期刊出版单位出于利益考虑尚且不能完全做到开放存取,对研究者个人发布预印本来说更是一个需要深思的事情。期刊的刊(后)印本和预印本是否存在版权纠纷,在严格的出版规范要求之下,期刊不敢使用预印本尝试创新。

2.技术因素:

自arXiv诞生以来,历时近30年的发展,科学生态系统发生了巨大变化,新技术、新流程、新要求和新数据(在不同学科之间有很大不同)对加速研究进展提出了新的挑战。新创建的预印本服务依赖于现代技术的支持,尽管预印本服务在技术和功能上有了一定的发展,但仍然存在一些明显的发展障碍。

存储技术:作为最早提供预印本服务的arXiv平台来说,它不仅仅是一项免费的分发服务,也是物理学、数学、计算机科学、定量生物学、定量金融、统计、电气工程和系统科学以及经济学领域的学术文章的开放存档。精准分发服务的技术难度暂且不谈,仅仅开放存档就涉及重要的技术难题。随着预印本服务的旺盛,开放存取的文档越来越多,需要的空间也越来越大,服务器的存储面临着考验,需要不断的升级和优化。完整的手稿涉及的多种格式文件,对各种文件的存储要求也越来越高,预印本的存储技术正在承担着不小的压力。

审核技术:虽然发布预印本不需要经过同行评审,但是手稿的科学性和研究性依然需要经过审核。预印本的良好发展是建立在作者提交的优质研究成果的基础上,而对包含煽动性或虚构性内容的论文,使用具有戏剧性和代表性的标题/摘要/简介的论文等都需要预印本平台的审核并将其排除在外。目前预印本服务平台虽然都有审核要求,但并没有形成一套统一认可的审核标准和审核程序。

检索技术:尽管提交给预印服务器并由其托管的文章数量正在逐渐增加,但是没有简单的方法来识别以预印格式发布的生物医学研究,因为它们通常不被索引,只能通过直接搜索特定的预印服务器网站才能被发现。

作者发布预印本,论文手稿不仅仅包含论文的正文,还可能包含详尽的描述和可视化的研究背景、对象、问题、逻辑、方法、数据、结果及分析、讨论等内容,这些内容存在的形式各式各样,需要各种软件、数据库、多媒体和相互联系的超链接技术的支持。在预印本平台上需要保存多次修订论文手稿,各个版次之间也需要进行整合、区分和关联,这也需要技术的接入才能实现。永久开放获取的预印本平台吸引了大量的研究者,而要使研究者在巨大的数据库中检索到自己感兴趣的预印本则对预印本平台的检索服务提出了巨大的挑战。

此外,预印本发展的技术制约因素远不止精准分发、存储、审查和检索技术,原稿交换技术、用户分类驱动技术、友好界面互动技术、相似性检查技术、增量解耦和检索技术、外部链接优化技术等都将影响预印本的快速发展,需要更多技术人员和用户的参与和开发。

3.政策支持因素:

预印本的政策和规范仍然有很多需要完善,如预印本的引用、资金等。预印本的政策制定是一个系统工程,不能一蹴而就,需要我们在实践中摸索和完善。外国预印本平台及资助机构正在制定支持预印本的政策,例如由Wellcome Trust和Medical Research Council制定的政策,而NIH等机构则考虑的更加长远和细致,制定了“预印本服务器的准则”。而我国在预印本方面还未引起足够重视,政策的制定将任重道远。没有政策的推进与支持,我国作者对发布预印本更加没有信心。

4.资金筹措问题

预印本平台目前不收取费用,为作者和读者提供免费服务,从长期看,这种运营模式不具有可持续性。安德森建议预印服务采用收费模式,向使用预印服务的研究者、机构和个人收取一定的费用,同时提升预印服务器的服务质量。此举虽能够解决一部分预印本服务发展资金短缺的问题,然而开启收费模式将违背预印本免费提供服务的初衷,且会严重限制预印本服务的使用者数量。Jessica Polka等人则不赞同这一观点,认为收费模式将阻碍研究者在各个预印本服务器上相互交流,特别是削弱了跨学科的交流。

当前国外的各预印本平台运营经费主要来源为两个渠道:一是预印本平台吸纳会员,向会员收取一定的会费;二是创建组织或各出版商的资金注入。如arXiv平台每年公开财务和可持续发展计划,平台运营主要依靠康奈尔大学、西蒙斯基金会(Simons Foundation)、成员机构(全球各大图书馆、大学、研究组织等)和个人捐赠的资金支持。然而从每年规划的发展路线图来看,经费不足的制约仍然是阻碍arXiv平台发展的重要因素。目前,我国各预印本平台公开的内容中并未提及经费的来源,经费的制约情况不明朗。

5.预印本的引用问题

在引用问题上,预印本和同行评审期刊也存在一定的冲突。预印本希望快速、广泛的传播,期待同行的反馈,而同行评审期刊则希望刊发的论文能够尽可能多的被下载和引用,提升期刊的影响力。引用预印本或同行评审期刊是研究者的自由,通常不会同时标注,这也就导致争夺引用权的矛盾。有些研究者通过数据分析发现,预印本的引用对同行评审期刊的引用有显著的正影响关系,恰与争夺引用权的矛盾相反。

预印本还存在引用不便的问题。许多预印本平台在构建之初并未考虑引用规范和标准,且预印本一直处于动态变化之中,内容和获取方式会常常更新,导致引用不一致和可回溯性不强等缺陷。

预印本的发展还存在许多其他阻碍因素,比如人们对预印本的定义存在不同的理解,甚至是歧义;预印本在不同学科中的发展不均衡或在不同领域中的地位差异巨大等,本文并未进行深入关注,期待有更多人进行研究,使预印本突破障碍,茁壮成长,为学术交流贡献更大的力量。

三、预印本发展的对策

预印本虽然有很多优势特征,然而并不是所有人都看好这种出版形式。汤姆·谢尔顿(Tom Sheldon)说,科学界必须采取措施,防止预印本扭曲公众对科学的理解,没有经过同行评议的预印本和科学研究的严谨性之间存在矛盾。英国欣克斯顿欧洲生物信息学研究所的Johanna McEntyre表示,发布预印本“是如此简单,快捷,非常吸引人,但如果忽视掉严谨性这一关键要素,则有可能损害科学的可接受性。因此,这是轻松与严格之间的一种平衡行为,达成这种平衡很不容易。”[8]

以预印本形式发布的数据并未经过正式的同行评审,因此可能并不完全准确,但应提醒作者,构思或书面作品质量不佳可能会对声誉产生负面影响。

预印本的支持者希望科学界在这方面保持警惕。特别是在生物医学领域中,针对各预印本服务在显眼位置都有类似声明。预印本服务商除了“声明”之外,普遍采用“版本化”(在预印本平台上,一篇论文内容经过多次修改,存在不同时期的多个版本是正常的事情。预印本和已发表的研究论文代表了整个作品发展过程中的连续体,应予以正式链接,以使科学论文取代预印本作为应引用的记录版本。)这一技术手段对外进行传播[9]。“版本化”对于修改预印本是必不可少的,预印本支持者希望引用者和各类媒体不应将论文手稿内容当成既定事实来进行报道,更不应对原本是为了征求同行意见的论文手稿内容做过多的延伸解读。

我国预印本的构建已经在路上,接下来需要争取更多期刊出版单位和研究者的共识,拓展出更多学科、更加丰富的预印本服务。

1.塑造和推广预印本观念

研究者对预印本在学术交流领域中的作用的认识很大程度上来自对开放科学和开放获取发展的理解,那些支持更广泛的开放获取的研究者普遍增加对预印本的使用[8]。预印本出版形式的接受程度受开放获取观念的影响,期刊出版单位要增强开放获取的观念,尽量做到全形式开放获取,不仅共享论文的内容,还要共享研究方法和研究数据等。目前需要在期刊出版单位普及开放获取的观念,使得知识共享成为一种趋势,有项目资助的研究成果不应作为出版商(各大数据库)敛财的工具。开放获取观念的形成需要有环境氛围和引导机制。

提升作者登记和发布预印本的意识,提高分享研究成果的意愿。编辑、期刊出版机构和组织、政府和第三方组织可以制定规划,逐步改善研究者整体意识薄弱和意愿不强的困境,如学习欧洲PMC的免费课程培训方式。开设有关预印本介绍的课程或者将预印本的知识融入到文献信息检索等课程中,将会有效推动未来研究者对预印本的认识。在这个方面,欧洲PMC就将预印本的知识和使用制作成了视频课程,免费向使用者介绍预印本的知识,如何搜索相关的预印本,如何将预印出版物添加到出版物列表中以及如何引用预印本等内容。

2.拓展资金筹措渠道

预印本发展的可持续性既是预印本服务和运营的持久性的能力,也是服务创新的发展性的能力,其核心是达成用户需求所需要具备的资源,包含技术、专业知识、策略、愿景、标准等。预印本可持续性发展所需的资源是建立在有满足发展所需的资金的基础上,为此预印本服务及其平台都在努力筹措资金以维持可持续发展计划。我国已建设运营的ChinaXiv等预印本服务的发展资金来源没有明确标示出来,也没有发布未来发展的路线图。在此,我们可以借鉴国外几家发展较好的预印本服务或预印本平台的发展路线图和基础设施、政策等发展架构,先制定自身的发展计划,拓展资金来源渠道。同时,主动与国外的预印本服务平台进行合作,推进我们预印本服务的发展。

3.政策支持与引导

学界和政府给予支持,在引用和首发权上给与认可。政府、学校和社会组织应鼓励研究者发布预印本,认可预印本的首发证明的作用。张智雄等人[10]针对国内多家高校及科研机构的研究人员对arXiv认知和使用的现状进行了调查,结果显示,用户对arXiv 的知晓途径主要是通过同事或同学的推荐,而从图书馆的宣传、培训得知的比例较小。

政策是推进开放科学的重要杠杆,资助者和大学采用的开放科学政策应包括数据共享,开放获取出版物等要求。但是,这些政策需要与当前的激励制度保持一致。开放科学政策通常与大学和资助者当前的激励机制相抵触,后者优先考虑在知名期刊、专利和商业化方面发表论文,而不是对开放科学实践给予奖励。可以预见,预印本和正式论文将会在一段时期内并行存在,提升预印本的引用质量将会吸引更多研究者参与讨论并指定具有共识的规范。

4.运用技术支撑预印本的发展

为了解决预印本的搜索问题,PubMed开发了PrePubMed(PrePubMed,2018年),它提供了一种搜索未被PubMed索引的文章的方法[11]。如果已知足够的有关作者姓名或文章主题的信息,也可以使用常见的搜索引擎(例如Google)找到文章。此外也可以采用垂直搜索引擎(Vertical Search Engine ,又称为专业搜索引擎)、专题搜索引擎(Topical Search Engines),是搜索引擎的细分和延伸。这些技术解决了某一特定领域、特定人群或特定需求的信息检索问题。将预印本连接到其他发布系统这一技术挑战,“原稿交换通用方法(MECA)”可能会使之得到解决,然而它仍需进一步研发和推广。

最大的预印本arXiv平台声明,提交给arXiv的预印本库的论文需要经过审核程序,该程序将审核论文归类和技术适当性,默认文责自负的原则。arXiv平台采用“主持人”审查方式,但是面对每个月上万篇的预印本论文,170多名“主持人”的时间和精力明显捉襟见肘,为此arXiv研发了classifier software(分类器软件),以协助“主持人”审查所有提交内容的归类、元数据和内容。分类器软件捕获提交的内容,审查类别分配、技术要求和内容适当性,是预印本走向AI审核的尝试,这对技术的要求极高。ChinaXiv平台要求检查论文的格式的规范性、重复发表论文、剽窃论文和非研究性论文,对于审核程序和审核制度没有明确说明。这一方面可借鉴arXiv研发的分类器软件,依据需求开发适用于自身的AI审核的软件。

王影等[12]专门就如何著录网络预印本提出了建议,认为宜采用电子文献著录格式并将期刊出版单位调整为预印本平台,单从参考文献格式讲,这一建议并不能区分预印本文章和评审期刊文章;为了区分引用的预印本文章与评审期刊文章,JATS4R建议在引用预印本服务器上发布的文章时,使用“preprint”值填充publication-type属性。这一方式非常值得参考。

5.参与预印本引用规范的制定

毫无疑问,可引用且稳定保存的预印本对科学进步的贡献。认识到对预印本日益增长的需求,NLM启动了NIH预印本试验,通过精选预印本服务器,将其整合到该试验中,目的是加速和扩大NIH研究结果的可发现性,并以此改善学术交流[13]。该试验就预印本文献的引用规范和标准进行了意见征集,虽然取得了不少共识,但引用者并不是都愿意遵循该试验制定的规范,甚至有些人提出了反对意见。国内研究者应该积极参与预印本服务,并且在预印本规范(诸如引用规范、存储规范和审查规范)的制定中发挥作用。

四、结语

在预印本平台上发布研究成果,作者需要更加高度地关注自身论文手稿的质量。随着开放获取观念的深入,预印本技术的成熟以及配套的生态环境逐渐完善,预印本服务将会吸引更多研究者关注,也将会迎来更大的发展空间。国内预印本的发展只有抓住这一机遇,积极推动预印本的发展,才能更加高效的参与到未来科学技术的发展之中。因为没有经过同行评审,在预印本平台上交流论文,作者更需要高度关注研究成果的质量,对所提交论文手稿的真实性、准确性、科学性、可靠性、严谨性、合理性等各方面严格负责,不发布有重大缺陷的初步研究成果。

猜你喜欢

研究者期刊论文
期刊简介
用水痘病毒开发新型HIV疫苗
饿死的毛毛虫
本期论文英文摘要
研究者调查数据统计
期刊审稿进度表
本期论文英文摘要
年轻瘦人糖尿病增多
期刊审稿进度表
本期论文英文摘要