欧盟出版物和研究数据的管理及开放获取制度研究
——以欧盟“地平线2020”计划为例
2018-01-11
(西安交通大学图书馆 陕西西安 710061)
欧盟“地平线2020”(Horizon 2020,以下简称H2020)是创新联盟(IU)系列活动之一,以公开征集、评选后注资的形式推动科研成果走向市场。H2020于2014年1月31日在英国正式启动,其包含7个板块分别为优秀科学、行业领导者、社会挑战、欧洲原子能、传播前言和扩大参与规模、科学与社会以及欧洲创新科技学院。其中,优秀科学板块旨在加强和扩大优秀科学原理的影响力,并借此打破国家间交流的屏障,提高欧盟内的研究与创新在全球的竞争力[1]。H2020提出所有资助的出版物和研究数据开放获取,其主要目的是为了:①提高研究质量;②鼓励合作,避免重复(更加高效);③加快创新(更开放的市场进步意味着更快的增长);④提高科学过程的透明性。本文考察了欧洲研究委员会(European Research Council,简称ERC)对研究出版物和研究数据的管理和开放获取制度(见图1),并从政策范围、政策规定、提供支持3个方面对比分析了欧盟最为重要的10个研究委员会制定的政策及提供的支持。
图1 欧洲研究委员会开放获取模式图
1 出版物存储和开放获取概述
1.1 出版物存储和开放获取要求
H2020规定ERC资助的研究课题,课题团队必须保证所有与课题研究相关的同行评审的科学出版物开放获取。其中资助条款29.2设置了详细的开放获取法律要求,每个受资助项目必须采用知识库使课题的同行评审科学出版物开放获取,这些出版物包括期刊论文、会议论文、专著等。同时对出版物的版本作了一定的要求,即必须提供已出版的版本或者出版物接受后的同行评审版本(后印本)。此外,还必须保证这些出版物允许任何用户免费在线阅读、下载和打印。ERC鼓励受资助者提供更多的出版物使用权利,如复制、分发、搜索、链接、爬取和挖掘等。
1.2 出版物开放获取步骤
首先,在知识库中储存出版物。要求受资助课题在一个合适的知识库存储出版物的电子复本。ERC推荐使用学科知识库存储出版物:生命科学推荐使用欧洲PubMed中心,物理科学推荐使用arXiv,专著、书的章节使用OAPEN Library,如果没有合适的学科知识库,研究者可使用机构知识库或集中式知识库,如Zenodo、ResearchGate和Academia等。电子版必须是机器可读的版本,如文本文档或其他标准化的格式,其他用户能够开发新的工具处理这些文档,不能提交印刷版的扫描版本。无论采取哪种开放获取模型,必须在出版后尽可能快地存储电子版。存储出版物的同时,也鼓励在数据知识库中存储出版物中验证结果的研究数据。
其次,选择开放获取路线。可以选择绿色OA或金色OA。绿色OA指自存档,作者将出版物的最终版本或同行评审后的草稿存储在知识库中,一些出版社要求一定的延迟后开放获取;金色OA也叫出版开放获取,出版物在出版后立即开放获取,金色OA花费来源于ERC资助费用。
最后,提供存储出版物的开放获取。受资助者必须保证出版物的存储版本通过知识库开放获取。开放获取应该尽可能地快速,最多不超过出版后6个月。人文社会科学领域最多延迟至出版后12个月。对于金色OA的出版物,必须在出版后立即提供开放存取。对于课题结束后的出版物,如果受资助者不能在最大延迟期提供开放获取,而且没有产生额外的金色OA费用,可以采用延迟期更长的绿色OA。为了保证存储出版物的发现,也必须保证出版物的书目元数据开放获取。元数据必须包括一个持久的标识,如DOI。
2 研究数据管理和开放获取概述
2.1 研究数据管理和开放获取要求
H2020定义的研究数据包括统计资料、实验结果、测量值、实地观测结果、调查结果、采访录音和图像。受资助者必须在数据知识库中存储研究数据,其他人员能够通过知识库访问、挖掘、利用、复制和传播科研数据。ERC于2016年的资助协议建议资助项目参与研究数据开放获取,而2017年的新版资助协议明确规定资助项目必须参与研究数据开放获取。
2.2 制定数据管理计划
数据管理计划(DMP)是数据管理的关键要素。DMP描述了数据收集、处理等数据管理生命周期。H2020要求所有的资助项目在项目开始时必须制定详细的DMP,内容包括项目将产生和处理哪些数据集,这些数据怎样获取,怎么储存、保存和管理,敏感数据的保护等。除了上述内容外还必须保证数据发现、获取、互操作、重用和数据安全5项内容。如果某些数据集不提供访问,应该说明具体原因(如数据开放获取将危及项目的目标等)。另外,H2020规定一旦项目受到资助并且开始执行,必须在6个月内提交第一版DMP,在项目进展过程中如果出现新的数据、政策改变(如决定申请专利)等情况,必须及时更新DMP。
2.3 研究数据开放获取步骤
首先,在机构库中储存科学出版物证实结果的研究数据和相关元数据,也包括其他数据(如不直接归属于出版物的数据或原始数据)。其次,必须采取措施保障第三方访问、挖掘、利用、复制和传播这些研究数据。一些专业软件、软件代码、算法和分析方案,在可能的情况下也应公开。
2.4 制定数据管理原则
数据密集型科学一个最大的挑战是帮助人们发现、获取、整合和分析研究数据以及相关的算法和工作流[2]。管理研究数据以及研究数据发现、访问、互操作和重用的最终目的都是为了知识发现和创新以及后续的数据知识整合和重用。ERC进行的开放研究数据计划就是为了提高H2020项目产生的研究数据的访问和重用,为此制定了促使研究数据可发现(Findable)、可访问(Accessible)、互操作(Interoperable)和重用(Re-usable)的数据管理原则,简称FAIR数据原则。表1列出了FAIR的各项要求,其中包含了研究数据的FAIR要求,以及研究数据元数据的FAIR要求。在25条原则中,元数据占13条,研究数据占12条,说明在研究数据管理过程中,研究数据和元数据处于同等重要的地位。由于研究数据有实验数据、观测数据等不同种类,所以指南没有具体规范数据标准,只是列出了各项应该满足的规范。AI条款指出了通讯协议规范,进一步通过A1.1和A1.2对协议要求进行了详细说明。R3指的是研究数据必须和研究出版物关联,既能够通过出版物链接到研究数据,同时也能通过研究数据链接到出版物。
表1 FAIR数据原则的各项要求
2.5 支持FAIR数据原则的数据知识库
FAIR数据原则仅仅提供了高层次的实施指导原则,没有任何技术细节、标准和解决方案。原则本身不是一个标准或说明书,仅仅为数据出版商和数据管理者提供具体实现指南。许多知识库通过不同的技术实现了FAIR数据原则[3],下面列出了几个主要实现FAIR原则的知识库以及其实现方法(见表2)。
表2 数据知识库实现FAIR数据原则的方法
3 出版物和研究数据管理与开放获取制度的差异
不同于出版物的强制开放获取,ERC不强制资助项目必须公开所有研究数据,原则为“根据情况尽可能公开”,推荐资助的研究课题保留全部研究数据,并在版权限制、保密和合约条款允许下,和其他研究人员共享这些数据。受资助项目可以在任何时期退出研究数据开放获取计划(如申请阶段、资助协议准备期、签署资助协议后),相应的条款也会从资助协议中删除。无论是出版物还是研究数据,其开放获取的相关花费都符合H2020资助协议。
AHRC(人文研究委员会)、BBSRC(生物技术和生物科学委员会)、EPSRC(英国工程与自然科学研究理事会)、ESRC(英国国家经济和社会研究委员会)、MRC(医学研究委员会)、NERC(北美电力可靠性委员会)、STFC(技术设备委员会)、Cancer Research(癌症研究)、European Commission(欧洲委员会)、Wellcome Trust(惠康基金会)是欧盟组织最重要的研究资助委员会。表3从3个大方面、11个小方面对比分析了其对出版物和研究数据管理制度的差异。
表3 不同基金资助的出版物和研究数据管理制度差异
4 启示
出版物、研究数据的管理及开放获取需要基金资助机构、出版社、图书馆等单位的大力合作,才能真正实现出版物的绿色开放,研究数据的可访问、可重用。目前国内对出版物开放获取认识和研究有较大的提高,但对研究数据管理和开放获取还处在起步阶段。相对于国外科研资助机构对研究数据管理和开放获取的要求,我国无论是国家级还是省级的资助机构,还没有制定相应的制度,应该借鉴国外的先进经验,提高我国出版物、研究数据的开放获取。
首先,对于出版物的开放获取,欧盟11个主要的资助机构都制定了相应的政策并提供开放获取的支持。国内中国科学院也在这方面作了大量的工作,一方面试验推进中国科学院学术论文的开放出版;另一方面率先启动中国科学院学术论文从出版社向中国科学院机构知识库的自动推送服务。英国物理学会出版社(IOPP)在2015年已经同意支持将中国科学院作者在其期刊上发表的论文自动推送至中国科学院机构知识库,并于论文发表后的12个月后开放获取[4]。我国基金资助机构不但要制定出版物的开放获取,而且要提供相应的支持,如提供学科库或机构库。同时在基金支持方面,也要支持开放获取,如明确将论文处理费用(APC)纳入资助范围。
其次,DMP是实现数据管理非常重要的因素,因此国内资助项目必须制定详细的DMP,注意以下几个问题:项目将产生哪些类型和格式的数据,是否将重用存在的数据,数据的来源是什么,预期的数据大小,谁可能用这些数据,应用什么样的标准,数据怎样被利用、共享、重用,怎样管理和保存数据等。
最后,数据管理不是最终目的,而是支持知识发现和创新的先决条件。e-science要求数据被发现、访问、互操作和重用。在数据管理过程中,不仅要重视数据本身,更要重视元数据,有了规范的元数据才能提供良好的数据发现和访问。对于数据的开放获取,首先要厘清哪些数据可以开放获取,清晰分开法律、合约原因和自愿限制。对于受到多个资助的项目,数据开放获取应符合所有资助条款,总之在可能的条件下,应尽可能开放研究数据。
[1]韩缨.欧盟“地平线2020计划”相关知识产权规则与开放获取政策研究[J].知识产权,2015(3):92-96.
[2]崔宇红.E-Science环境中研究图书馆的新角色:科学数据管理[J].图书馆杂志,2012(10):20-23.
[3]覃丹.英美社会科学数据管理与共享服务平台调查分析[J].图书情报工作,2014(16):67-75.
[4]张闪闪,顾立平,盖晓良.国外信息服务机构的数据管理政策调研与分析[J].图书情报知识,2015(5):99-109.