地质科学数据的同行评议实践与思考
2020-05-22李晓蕾孔昭煜贾丽琼齐钒宇
孟 洁,李晓蕾,孔昭煜,贾丽琼,齐钒宇
(1.中国地质调查局发展研究中心,北京 100037; 2.全国地质资料馆,北京 100037; 3.中国地质大学(北京),北京 100083)
大数据时代,数据密集型知识发现成为继理论科学、实验科学和计算科学后科学研究的第四范式[1-3]。近年来,科学数据开放共享和管理受到广泛关注,而科学数据出版逐渐成为数据密集型科学发现的重要学术传播方式[4-8]。当前数据出版模式主要有4种:数据论文出版、数据独立出版,合作出版和期刊自行出版[2,9]。其中,数据论文出版指专门用于出版原始科学数据的一种形式,具有独立于期刊论文的相当完整的出版流程,形成数据期刊。为了保证数据质量,数据论文和对应的实体数据均需通过同行评议过程。
众所周知,传统的期刊论文质量控制依赖于同行专家的评审,而科学数据出版是否需要进行同行评议以及如何进行目前还处于探索阶段,尚未有统一的看法[10-11]。此外,各个学科领域对于数据质量控制还没形成统一的标准,同行评议模式也没有达成共识。
自2017年创建《中国地质》(增刊)——地质科学数据专辑和数据仓储系统“地质科学数据出版系统”,地质科学数据出版已出版5期专辑,共计57个数据库(集),由2 000多个电子文件组成,涉及的学科领域涵盖基础地质、矿产勘查、水文、工程、环境、地质灾害、城市地质和三维地质模型等。数据格式多样,包括GIS数据(MapGIS)、栅格数据(JPEG)、表格(EXCEL)、数据库(ACCESS)、文档(DOC)、系统文件(DGSS)等[12]。多样复杂的地质科学数据给数据出版工作者带来许多挑战。
为了建立更加完善的地质科学数据同行评议过程,促进数据出版在国内的发展,本文将总结国内外数据论文出版所采用的同行评议模式,结合地质科学数据出版所积累的实践经验,以此为未来数据出版同行评议工作提出思考。
1 国内外数据出版现状概述
1.1 数据出版的主要模式
在全球强调数据的长期保存和共享环境下,科学数据的开放与共享显得日益重要。当前数据出版模式主要有4种:期刊自行出版、数据独立出版、合作出版、数据论文出版[2,9]。
1) 期刊自行出版:为保证科研人员的学术论文观点更具有说服力,很多国际著名期刊会要求作者在文章正式发表前将相关数据进行公开,但是数据只是作为附件发布在电子期刊论文中,这种出版模式严格意义上不是数据出版。
2) 数据独立出版:数据生产者将获取的数据作为一个独立的信息对象存储在数据仓储(Data Repository)中[13],数据仓储也可称为数据知识库、数据中心、数据资源库等[14]。国外具有代表性的数据仓储有Dryad、PANGAEA、FigShare等。在我国,随着《科学数据管理办法》的出台,2019年科技部和财政部联合发布国家科技资源共享服务平台名单,包括国家地球系统科学数据中心等共计50个[15]。该种数据出版模式一般包括数据基本信息、数据摘要、数据使用声明、数据引用格式以及可下载的实体数据,同时每一个提交的数据文件都被给予DOI标识。 数据独立出版一般不进行同行评议过程,数据质量控制主要由数据仓储的数据监护人承担[14]。
3) 合作出版:学术期刊与数据仓储联合互动的数据出版模式,即学术期刊只负责出版科学论文,与科学论文相关的原始数据存储于与期刊合作的数据仓储中。数据可以作为独立的成果在数据仓储中进行统一注册、管理与共享,学术论文通过引用数据建立文章与数据之间的关系。国外的代表性数据仓储Dryad与20多家期刊实现了联合互动的数据合作出版。
4) 数据论文出版:数据生产者按照一定科学规范形成的观察、实验、计算分析等原始数据或集成数据库(集)通过专门的数据论文进行描述,以促进数据的可发现、可获取、可理解和再利用。数据论文出版模式一般包括数据论文、元数据和实体数据3项内容。以出版数据论文或与数据相关的论文为主的期刊称为数据期刊(Data Journal)。常见的国外数据期刊包括《Earth System Science Data(ESSD)》《Geoscience Data Journal》《Scientific Data》,国内数据期刊虽然起步较晚,但也初见规模,如2015年和2017年先后创刊的《中国科学数据》和《全球变化数据学报》(中英文)。2017年发行的《中国地质》(增刊)——地质科学数据专辑成为国内第一个面向地质科学领域的数据期刊。随后,2018年地球科学领域大数据开放获取国际学术刊物《Big Earth Data》正式创刊,该刊不仅发表与地球大数据相关的研究论文、综述文章、快讯文章,还发表数据论文,鼓励作者通过把数据和算法等存储在被认可的公共存储器中,促进数据共享和利用。
1.2 数据期刊发展现状
数据期刊以专业发表数据论文为特点,即以正式的期刊论文形式对数据集的收集方式、处理方式、数据集格式、大小、应用价值等信息进行详细的描述。数据期刊是当前数据出版新的发展热点,其有效弥补了传统学术期刊对于科学数据共享和再利用方面的不足[16]。目前国外各多个学科领域的数据期刊初具规模:如英国皇家气象学会创办的地球科学领域数据期刊《Geoscience Data Journal(GDJ)》,涵盖了生物学、气象学、海洋学等;英国Ubiquity出版社创办的数据期刊《Journal of Open Archaeology Data》,涵盖考古科学领域,为考古工作者共享高质量、可重复利用的数据;2009年,Copernicus创办的纯数据期刊《Earth System Science Data》,为国际性的跨学科数据期刊。据不完全统计,国外数据期刊至少已有20种。
与国外相比,我国数据期刊出版起步较晚。我国第一本数据期刊是2014年中国科学院地理科学与资源研究所发行的《地理学报》(增刊),并于2017年正式创办了《全球变化数据学报》(中英文),涵盖地理、资源、环境、生态、全球变化等领域的科学数据。2015年,《中国科学数据》在线投稿与出版系统投入试运行,该刊收录数据范围广泛,收录各个学科领域的基础数据及数据产品,如生命科学与医学、地球系统科学、物理学、化学、社会科学等。而《中国地质》(增刊)——地质科学数据专辑收录数据的专业特色突出,旨在获取具有质量保证的地质领域内的各类科学数据,以期实现数据的长期管理和保存[5,8]。2018年地球科学领域大数据开放获取国际学术刊物《Big Earth Data》正式创刊。
与传统期刊对比,科学数据出版是一种新型出版模式,其一般流程包括数据提交、同行评议、数据发布、数据永久存储、数据引用和数据评估等环节。 地质科学数据的出版流程覆盖了以上所有环节(图1)。随着社会的发展,对于高质量数据的共享需求也越来越强烈。作为科学假设、科学分析以及科学理论形成的基础证据,科学数据可能会逐渐被纳入到学术评价体系中,因此采取严格高效的同行评议机制是数据出版过程的重要环节。
图1 地质科学数据出版的一般流程
Fig.1 General process of geoscientific data & discovery publishing
2 同行评议
2.1 国内外数据出版同行评议模式
同行评议是国际通行的学术期刊评价手段,是论文发表的必经程序,它的作用是评估论文学术价值。传统学术期刊主要通过评审专家审阅论文并给出评审意见,来评判论文的学术水平。与传统期刊作比较,数据的同行评议过程不仅涉及论文本身的评审,还涉及数据论文和数据集的一致性、数据集的质量等[2,12]。调查显示,绝大部分数据期刊均向作者明确说明公开发表的论文和数据均需要采用同行评议机制来保证数据论文和数据集的质量和彼此之间的一致性[11]。然而,当前学术界对数据论文的同行评审及数据质量控制并没有统一的标准和共识。下面通过介绍典型期刊的同行评议模式来总结数据期刊的同行评议特点。
2.1.1 《Geoscience Data Journal》
《Geoscience Data Journal》期刊采取的同行评审方式与传统期刊评审方式一致。其同行评审过程对于审核内容进行了说明,主要包括以下三个方面。①数据论文是否以易于阅读的方式描述了实验,并且包含快速浏览的数据图;数据论文应详细描述如何创建数据,以便可以检查科学方法的质量,它还应提供有关数据其他目的的重要性,唯一性和适用性的信息。②数据元数据信息是否可以清楚地标识和描述数据信息。③数据本身是否满足可用性,是否通过存储库可访问。同时,同行评议审查的三个部分(数据论文、元数据和数据)可以分别由不同的人员进行,但是必须通过所有人员的审查数据才能被接受。
2.1.2 《Scientific Data》
《Scientific Data》期刊的同行评议模式与传统的期刊论文评审方式非常相似,同行评审过程不对外公开,仅作者本人可以看到评审结果。尽管如此,但是该刊对于数据质量和重用价值方面的编辑标准比其他期刊更为严格,例如,对于认为符合该刊范围或标准的作品,将指派一名编辑委员会成员监督同行评审过程。同行专家将评估用于生成数据的程序的技术质量,所得数据集的重用价值,数据描述的完整性以及与现有数据标准的一致性。同时,该刊采取公开评审专家姓名的方式。
2.1.3 《Earth System Science Data》
《Earth System Science Data》期刊采取交互式的同行评议模式,评议过程分为两个阶段,第一阶段是数据论文网络平台试出版,即数据论文提交后,先由责任编辑从稿件的合理性、语言格式、图件质量和基本科学质量等方面进行初审,初审通过后在其网络平台上刊登,供期刊的学术团体(匿名或公开)、作者和其他科学家人士一起进行互动式讨论和公开评论,在该过程中作者可以对技术上的一些错误进行修改。这样做一方面是为了保证科学数据的时效性,一方面是为了突破传统的封闭式同行评审,确保科学质量的透明度。专业人员所提出的相关评论和短评以及作者的回复等均会在数据期刊的留言板块显现。第二阶段,同行评议。与传统同行评议模式类似,数据论文进行至少两位同行专家的评议,但是采取透明公开的形式,形成审查意见,并反馈给作者进行修改和重新提交,修订后重新进行审核,如果通过则将刊登在ESSD数据期刊中。该出版模式体现了同行评议过程的公开性和客观性,同时实现了科研成果的快速发表,保证了科学出版内容的开放存取,极大地推动了科研工作的发展进程。
2.1.4 全球变化科学研究数据系统
全球变化研究数据出版系统(GCdataPR)采用的同行评议模式与《Geoscience Data Journal》期刊类型,审查的内容包括元数据、实体数据和数据论文,每一项内容均由至少两名独立同行专家使用双盲同行评审流程进行评审,评审顺序一般是,首先评审数据集,数据论文评审可能同时或稍后进行。
2.2 模式总结
通过调查可知,大多数数据期刊依然采用了传统期刊的同行评审模式,即匿名评审,这种评议模式相对比较封闭。同时,也有期刊采用了公开评审专家姓名的方式,相对开放。但是前两种模式,都采用了严格的同行评审过程,从数据论文、元数据、数据本身等几方面对数据质量进行有效控制。少部分期刊采用了一种更加开放、透明的同行评议模式,这种模式突破了传统期刊的弊端,旨在提供更加公开和客观的评议方法,不仅保证数据发布及时,同时确保数据质量得到控制。
3 地质科学数据出版同行评议实践
为了保障科学数据发表的质量和数据共享与再利用的可靠性,地质科学数据出版中心制定了相关同行评议政策,即每一个科学数据库(集)的出版需要经过同行专家评议过程。
1) 选择拟接收数据库(集)所属领域中有较高学术水平且熟悉评议内容的同行评议专家,并且回避与数据库(集)作者之间有利益相关者的同行评议专家。
2) 一般情况下选择至少两名专家各自独立进行评议,统一将同行专家评议的意见汇集到编辑部工作组,编辑部工作组将整理后的评议结果报告给责任主编(或主编),由责任主编(或主编)最后决定是否进行发表。 将同行专家评议的建议和结果,以及数据库(集)是否进行发表的结论转达给提交作者。
3) 同行专家具体评议的内容包括:数据论文的题目、摘要、关键词是否简明扼要,是否有详细的数据及数据价值描述,描述内容是否与数据集一致。
4) 同行专家评议时间不超过20 d。
地质科学数据出版对于数据质量的控制是十分严格的,由于地质科学数据本身的复杂性,如包含涉密性、敏感性数据,数据文件结构复杂,因此,数据本身的质量判定方法也相对复杂,涉及到的方法有数据完整性检查、可用性检查、专业性检查、保密内容审查、敏感内容审查以及公开表达内容审查等多个层面[12]。
同时,地质科学数据的同行评议过程也面临很多挑战。①未制定明确的收录数据标准。由于地质数据类型复杂,数据格式标准不会完全统一,例如,如果作者提交的数据为非通用格式的数据,从数据共享角度来看建议其将数据转换为通用格式更好,然而转换后的数据可能会因为格式问题形成不完整数据,因此,同行评议难以作出评判。②未制定详细的数据评判标准。与《Geoscience Data Journal》期刊制定的同行评议方法相比,地质科学数据的评判标准相对单一、粗糙,造成同行评议过程审查不够全面,对数据质量的控制存在一定程度的风险;③数据量巨大,数据文件个数多,依靠人工在大量数据中逐一审查是否含有保密、敏感内容会越来越不现实,亟需探索机器判读的审核方式。
4 分 析
科学数据已上升为国家重要的战略性资源,其往往耗费大量研究或调查经费以及人员精力的投入,若不能合理地描述、评审和存储这些数据,将无法得到有效使用。而同行评议过程是控制科学质量的重要措施。通过以上分析可知,虽然各个数据期刊采取的同行评审方式不尽相同,但是目的是一致的,均是希望通过同行评议过程,确保数据质量,促进数据开放共享和推动科学进步。目前,数据出版同行评议具有局限性主要因为[2]:①学科领域内没有数据质量衡量标准,对于数据质量评价,绝大部分是基于数据是否可用;②数据的形成过程无法完整跟踪以确保数据的可靠性和完整性,例如地质调查的区域填图,取得数据过程可能会有设备、技术、管理和认为等方面影响,因此无法保证数据的绝对准确;③目前绝大部分数据期刊的同行评议过程依然延用了传统的期刊评审方法,但是数据本身结构特殊,同行专家往往不能从数据表面判断数据质量,因而同行评议体系建设需要进一步探索,如建立多元化的评审体系;④各学科领域产生的数据均具有各自的特点,因此需要结合本学科或者行业的数据特点制定符合本刊的同行评议模式。
5 结 语
数据期刊是未来国际学术期刊发展舞台上不可缺少的组成部分。由于数据出版是一种新型出版模式,数据出版流程相对传统期刊模式还不是很成熟,各个学科领域对于数据质量控制还没形成统一的标准,同行评议模式也没有达成共识。结合地质科学数据特点,地质科学数据出版建立了本刊的同行评议政策,但是依然处于初步运行阶段,建立健全同行评审机制还需要进一步探索和研究。