开放共享视角下科学数据出版的发展趋势

2019-01-28屈宝强宋立荣

中国科技期刊研究 2019年4期

关键词：科学

■屈宝强宋立荣王健

1)中国科学技术信息研究所，北京市海淀区复兴路15号 1000382)北京联合大学应用文理学院，北京市海淀区北土城西路197号 1001913)中国农业科学院农业信息研究所，北京市海淀区中关村南大街12号 100081

科学出版物是沟通和分享研究成果的基本形式，1665年第一本现代科学杂志出现[1]，之后，随着信息技术的发展，相继出现了许多新的出版模式，其中之一是科学数据出版，试图将原始的、记录研究的数据以现有传统出版物的标准进行出版。广义的数据出版就是将科学数据相关内容公开发布，它伴随着科学数据的产生而存在。学术界对科学数据出版的关注随着科学数据开放、共享的发展而不断深入。特别是21世纪以来，各类数据仓储和数据共享平台不断发展，不仅可以直接发布数据，作为传统期刊附件材料的存储依托，还陆续出现了新型数据期刊。2010年国际科技数据委员会(Committee on Data for Science and Technology，CODATA)年会上开始讨论数据出版的概念。2011年，Parsons应邀在国际科学理事会世界数据系统(World Data System，WDS)就职会上举办题为“数据出版”的讨论。2011年12月，在一个开放博客上展开了数据出版的大讨论[2-3]，从而引发对数据出版模式、方法、工具、标准的深入研究。Lawrence等[4]指出数据出版是指数据达到可引用和追溯的状态，讨论了Data Publication和Data publication的区别，他们认为Data Publication是使数据“在互联网上尽可能可用”，以及将数据处理(如创建元数据和同行评议)增值后提供给用户，而Data publication致力于网站上的信息发布，没有明确的长期数字归档行为。Data Publication提升了数据集资源的质量、稳定性、完整性、永久性，以及被学术资源引用的概率[5]。特别重要的是，在此期间，涌现了一批出版数据论文的期刊，例如EarthSystemScienceData、BiodiversityDataJournal、ScientificData等。2012年，科睿唯安(原汤森路透)发布了数据引文索引(Data Citation Index，DCI)，极大地促进了对新型数据出版发展的思考。

在此情形下，科学数据出版日渐由期刊出版商驱动的传统学术出版拓展到由多元主体合作发展驱动的数据出版，并成为促进科学数据开放共享的新型有效方式，受到科学数据共享领域和出版界的高度重视。为此，本研究从科学数据出版对数据共享与利用的重要作用出发，通过对当前国内外科学数据出版研究、数据出版实践的梳理、总结，分析科学数据出版的主要特点和新时代科学数据出版的要求，并提出我国未来科学数据出版的建议。

1 科学数据出版的进展及不足

1.1 科学数据出版的特点

随着科学数据出版理论和实践的不断完善，当前科学数据出版呈现出一些新的特点。

1.1.1 出版过程规范化

数据出版的实质是提供在线可用(Available)、可发现(Discoverable)、可重用(Re-Usable)的数据，使科学数据集可实时访问(Accessible)、可被引用(Citable)、与研究活动和相关产品相互关联(Interlinked)等[6]。当前，科学数据出版的基本流程逐渐规范化，通过分析Pensoft、科学数据共享平台等国内外主要数据出版平台以及EarthSystemScienceData、Nature、ScientificData等数据期刊的出版实践，梳理出目前较为通用的数据出版流程，主要包括以下几个步骤。

(1) 数据存储。将数据从来源移动到合适的存储库(根据出版方式的不同，可能是通用数据仓储、机构知识库，也可能是期刊、出版商指定或建设的数据仓储)，同时，做好数据的同行评议。在条件允许的情况下，做好数据的备份工作。

(2) 数据描述。依据领域分类和科学数据描述的相关元数据标准，自动或手动提取元数据内容，并且将这些元数据统一到相应的数据目录体系当中，为后续的科学数据资源的统一发现和计量分析打好基础。

(3) 数据管理。由数据作者或数据管理员利用自动化的方法，对数据进行日常的管理工作，包括数据的质量控制、数据更新、数据剔旧、数据归档、数据利用等，在此过程中做好数据的版本管理。

(4) 数据标识化。为科学数据分配某种形式的唯一标识符，保证科学数据能够被解析。

(5) 数据出版。将原始科学数据以及科学数据元数据、数据描述文档、数据论文等揭示和发现原始科学数据的内容通过相应的方式发布并告知数据用户。

1.1.2 出版内容和形式多样化

科学数据可以各种形式存在，包括文本、数字、图像、视频或电影、音频、软件、算法、方程、动画、模型、模拟等。在自然科学领域，大多数数据是由研究者收集或产生的，如观测数据、实验数据、模拟数据等。在社会科学领域，研究者可以自己收集和产生数据，也可以通过其他来源如经济社会活动的公开记录来获取数据。基于数据类型和存在方式的多样化，科学数据出版的内容也逐渐丰富，不仅包括文本型数据的出版，还包括其他相关的音频、视频、文档等内容的出版。

科学数据出版的形式也逐渐多样化，主要包括以下几种形式。(1)独立出版。科学数据不依赖于任何文件，但是为了使数据有用或可重复，必须伴随着描述性信息，例如一些数据仓储与数据一起发布丰富、结构化和/或自由描述文档。如通过Dyrad(http:∥www.datadryad.org/)、Figshare(http:∥figshare.com/)、Zenodo(http:∥zenodo.org/)，研究人员可以自存储任何研究数据，同时提供要求的文档和验证。(2)补充出版。数据集作为传统出版物特别是学术论文的补充和关联内容。在这种情况下，数据集可以由期刊进行存储，也可以由专门的第三方数据仓储进行存储。在未来，论文和相关附件数据的存储可能会分离，主要原因是数据仓储在数据管理方面的专业化更强，更适合数据集的长期保存，并为他人再次利用。(3)关联出版。数据集是数据论文讨论的对象，而数据论文是一种新兴的论文形式，深入详细地描述数据收集理由和方法，由ScientificData、GeoscienceDataJournal等数据期刊出版。从形式上看，这种出版方式既包括了数据的独立出版，又类似于传统学术论文出版的方式，并通过相应的语义关系等关联方式将数据和论文联系在一起，例如数据文献互连服务“The Data Literature Interlinking Service”构建从各种主要数据源、出版商和研究组织中收集的基于数据集文献链接的集合[7]，在此基础上利用这些链接形成其他数据服务。

1.1.3 出版组件工具化和标准化

科学数据出版不仅要解决数据的管理、发布和利用问题，还必须融入科学研究工作流程。当前科学研究要求数据快速、准确获取。因此，为缩短出版时间，出现了一些辅助实现快速、自动化出版的模块化、开源和可共享的组件体系。例如在实现科学研究可重现性方面，González-Beltrán等[8]利用一系列nanopublication技术(主要是通过使用数据建模框架和可执行的工作流来提高再现性)复制了给定生命科学论文的结果。又如Galaxy 平台与数据期刊Gigascience、开放数据管理平台进行集成，包括将标准化的自动化组件融入到可执行工作流中，并给出如何使用数据和相关材料的说明[9]。在数据互操作性和许可扩展的标准方面，通过使用数据发现和引用的元数据标准(例如DataCite、Dublin Core)和信息内容交换标准(如METS、SWORD、Linking Open Data)，支持标准化元数据的生成，提高重用性。在科学数据唯一标识方面，将DOIs标识符用于关联不同的数据对象，使用ORCID帮助更好地进行数据分析与评价。

1.1.4 出版内容可用化

科学数据出版不仅仅满足于数据揭示，正逐步朝着数据易查、易读、易懂、易用的方向发展，保证科学共同体内的所有人员可以更加便捷地获取原始数据以及数据的相关描述。

在保证信息内容易读方面，Springer出版社的SpringerHandbookofRobotics将多媒体内容融入书中，通过运用诸如视频等多媒体扩展方式，使读者能够进一步与书中内容展开互动；并且为了保障视频质量，采用了一种同行评议系统来确保视频内容对书中内容的支撑作用；同时建有网络门户，方便内容贡献者们上传内容描述、元数据及视频文件，再将这些视频与特定章节相互关联[10]。

在满足不同学科的数据利用需求方面，除类似Sloan Digital Sky Survey这种为科学家使用的大规模数据集外，还出现了大量服务于科学研究中“小数据”的出版平台。例如Scidrive平台是在科学家和开源云存储之间提供网络服务和客户端的开源应用程序，依靠云服务和云存储方式出版各个研究机构收集的天文图像、表单等，其运行中的两个协议是VOSpace[11]和Dropbox[12]，可以自动识别上传文件的内容类型，并从已知的文件格式中提取元数据和结构化数据[13]。

1.2 新时代科学数据出版的要求

科学数据出版是保证数据有效共享的重要形式之一，因此数据出版需要更加简单(make it easy)、数据可被引用(make it citable)、数据可方便使用(make it useful)[14]。在出版简单化方面，需要强大的出版基础设施、通用的数据格式标准和应用程序、快速简单易用的出版工具。在促进数据被引方面，要求将出版的数据纳入学术评价的范畴，保证数据使用过程中的权益实现。在促进数据可利用方面，要求出版后便于后续的数据改进、编辑、注释、分析、集成，从而方便用户有效利用数据。这些目标对新时代科学数据出版提出了新的要求，主要包括以下几点。

1.2.1 科学数据标准化引用

数据引用是一个复杂的问题，当前主要从学术出版视角以及计算方法视角进行了研究。前者一直在研究数据引用的核心原则，例如数据引用的核心原则[15-16]和标准[17]，这些原则可以帮助形成数据引用条件下的解决方案[16]，解决如何连接科学出版物和基础数据[18]、数据期刊评价[19]、基于数据引用的数据仓储评价[20]、数据集影响的测度[21]等。后者一直专注于处理各类动态数据引用所需的基础设施和系统，例如针对XML[22]、RDF[23]和数据库[24]等不同格式数据引用的基础设施，以及如何提供对数据的访问[7]。

在引用标准方面，基本要求是明确数据归属、提供数据来源、保证所引用的数据真实准确和权威、便于数据发现。当前许多国际组织、数据中心和研究人员提出了不同的引用标准[25-28]，引用涉及的主要元素包括作者、标题、出版日期、版本、出版商、标识符、位置等。我国也于2018年1月发布《科学数据引用》标准。但是这些标准的推广实施等远远没有达到预期。

根据数据出版的形式，实现数据引用有两种方式。(1)面向独立出版数据的直接引用。该方式由GenBank形成的核苷酸序列数据集首次使用[29]，通常采用DataCite分配的标识符DOI，有时也可以使用其他标识符来实现引用,目前商业科技信息提供商开始将这种模式集成到产品如DCI当中。又如Elsevier、DataCite和大量的数据库合作，试图通过DOI或其他唯一标识符,将ScienceDirect数据库中的论文和使用的数据集链接起来。(2)引用关联出版中描述数据集的“数据论文”或“数据出版物”。在这个方式中，将数据集链接到发表在传统期刊或数据期刊数据论文的时候，元数据都是必要的，核心思想是通过引用数据论文进而引用数据集。该方法已在神经科学[30]、遗传科学[31]和生物信息学[32]等领域实施。

1.2.2 科学数据唯一化识别

在科学数据出版中使用唯一标识符，主要目的是为对数据感兴趣的人员提供唯一、明确的识别方法。不管数据目前在何处，或管理数据的责任方如何变化，拥有唯一标识符都可以帮助用户查找和访问数据，同时具有唯一标识方便在出版物中进行数据引用。全球影响力较大的数字资源唯一标识符系统包括在出版界广泛应用的Handle System、DOI以及面向图书馆应用的ARK、PURLs、Persid等。在数据出版过程中，这些标识符的基本要求是机器可读(计算机可自动识别)、唯一性(指向数据实体唯一)、永久性(规则长期固定)和可解析。

通过科学数据的唯一标识体系，还可以实现数据的版本管理和数据溯源。数据溯源可以用于科学数据质量控制、数据管理、数据调试、数据发现，以及科学结果的验证、归因和重现。典型的溯源元数据模板包含3个主要部分：过程、数据和参数，例如PROV提供了溯源信息的表示、交换的标准化模型[33]。

1.2.3 科学数据便捷化利用

科学数据出版的最终目的是数据用户能够便捷使用相关数据。为更好地实现数据利用的便捷性，未来科学数据出版要重点解决以下问题。

(1) 提供不同粒度科学数据出版的方法。从用户角度来看，要求出版的数据集的粒度是最小粒度，且可以任意组合；从数据存储库角度来看，更小粒度的数据出版意味着各方面成本的提升。未来出版的过程中要保证各个粒度科学数据都可方便使用，可以细化到数据库、数据集或者数据记录的信息单元，还可包括文本、数据集、图像、视频、录音、数学模型、工作流、音像材料、有意义的链接和软件包等，同时要给科学家提供工具，允许他们指定出版数据的粒度。

(2) 解决科学数据发现和获取的问题。编制科学数据目录体系，通过标识体系建立数据导航与发现机制，通过数据使用计量体系发现高质量数据资源。对于科学数据目录体系的建设，主要包括以下几种类型：基于数据存储位置的目录体系，如世界知名数据仓储注册系统 re3data.org旨在基于注册机制对所有领域的科学数据仓储进行索引化和结构化描述，目前它共索引全球2000多个数据中心/平台；基于数据集/资源的目录体系，类似图书目录；基于数据产品的目录体系，如国家气象卫星中心的产品体系。科学数据目录体系具有不同层级，包括机构、地区、国家、全球、学科领域层级的目录体系。

在发现数据方面，已经有科睿唯安建立的DCI索引体系帮助科学家发现使用频率较高的科学数据。许多数据仓储，包括FigShare、Digital Commons、DSpace、Fedora都有对数据使用情况进行了统计分析。另外，也有对科学数据在学术论文中的重用进行文献计量学分析，提供数据使用度量和跟踪，帮助科研人员发现科学数据。

(3) 解决科学数据长期保存和永久获取的问题。数据仓储会承担越来越多这方面的任务，例如Dryad已经与多个出版商合作，存储支撑期刊论文主要结论的数据，重点负责实施数据监管责任。其他利益相关者无须关心数据的日常管理和长期保存，这些数据仓储充分利用其在这方面的专业性，建设相应的基础设施，保证数据出版的长期可持续发展。

(4) 解决科学数据标准化和数据质量问题。一方面提升科学数据的质量，例如Kahn等[34]定义了数据质量的4个层面：数据采集描述(data capture descriptions)、数据处理描述(data processing descriptions)、数据元素特性(data elements characterization)和分析特定数据元素特性(analysis-specific data elements characterization)，并基于此框架提出了包含20个度量指标的数据质量评估框架来帮助提升数据质量；另一方面，通过同行评议等机制来实现科学数据出版过程中的数据质量控制，例如，屈宝强[35]分析了不同数据出版模式中数据同行评议的内容及特点，指出在数据同行评议中的内容确定、时机选择、工具、流程等提升数据质量的要求。

1.3 目前科学数据出版实现的难点及不足

(1) 科学数据出版的政策众多，但缺乏宏观层面的统筹规划。目前，科学数据出版政策主要是各个数据出版主体机构出于自身发展而制定的内部数据出版政策，涉及数据存储方式、提交流程、质量评审方法、数据引用等方面。还有一些分散在机构的各种数据管理办法、标准规范中。尚需行业、领域乃至国家层面统一的科学数据出版政策来指导、规范各个期刊、数据仓储中心的科学数据出版系统建设，以便科学数据资源能够相互利用，发挥其巨大的数据聚合价值。

(2) 科学数据出版缺乏长期稳定的资金支持，难以形成规模化的科学数据出版中心。由于科学数据出版涉及数据存储维护、数据安全防护和数据利用等，投入非常大，而且数据资源的运行维护成本会随着数据量的激增、对外服务的拓展而骤增，仅靠单一主体所投入的经费将不足以维持数据出版系统的正常运行。目前,生物信息、生命医学、地球物理、地理遥感等领域的科学数据出版发展较快，其他领域尚未形成规模化的数据出版中心，尤其是跨领域数据中心，使得各领域数据之间难以相互融合利用。

(3) 数据资源质量有待提高。从整体看，科学数据出版发展尚未形成稳定的运行模式，还在随着新技术的应用、新需求的产生不断推陈出新。说明科学数据出版尚处于探索阶段，尚未形成成熟的数据出版质量管控体系，尤其是数据资源质量的同行评议尚无统一的参考标准，使得各个科学数据出版主体的质量控制差异较大，质量把控的粗细度不一致。

(4) 服务导向性不强，与作者、读者乃至科研活动结合的紧密程度有待加强。目前科学数据出版更多的是解决期刊学术论文的数据可再现性、可复制性等问题，数据论文数量相对而言还很少，尤其在应对科研人员不断趋向智能化、简捷化、个性化、专业化和知识化需求方面面临着较大的挑战，导致科学数据出版呈现“两头冷，中间热”的现象(尽管期刊、数据中心很热心，但作者、读者积极性不高)。因此，如何全方位、主动式、多层面的围绕科研人员需求开展深层次、全方位、主动的数据资源出版服务将是今后科学数据出版服务的关键。

(5) 尚未形成完整的科学数据出版体系。完整的科学数据出版体系中应包括数据提交、同行审议、数据发布、数据永久存储、数据引用和数据影响评价等基本环节，以期能够解决以往传统科学数据开放共享中所遇到的一些深层次瓶颈问题。但目前在数据版权确认、数据标识应用、数据引用规范、数据成果推广的“激励”与“奖罚”等方面还缺乏明确的规范和标准，有待进一步探索。

2 对我国科学数据出版发展趋势的思考

我国在科学数据出版研究和实践方面取得重要进展，主要表现在：(1)作为国家科技基础条件平台的一部分，科学数据共享平台从2002年开始建设，人口健康、地球科学、农业、气象等领域国家科学数据平台在科学数据元数据出版和发布方面作出重要贡献；(2)有一些期刊已经开始出版数据论文，并与相关数据中心的原始数据关联出版，例如《中国科学数据》《地理学报增刊》《图书馆杂志》；(3)出现了一批针对科学数据出版模式、标准、技术的研究成果[36-39]，以及对领域科学数据出版问题的探讨[40-41]。但是，从当前科学数据出版的新特点和发展趋势来看，我国科学数据出版正在从以期刊出版机构为核心的、相对传统封闭的狭义科学数据出版扩展到科学领域多元主体的、开放的科学数据出版方式，必将在出版主体责任划分、出版流程、出版机制、奖罚机制、评价体系等方面面临新的问题。为促进我国科学数据的高效利用，今后应加强以下几方面的工作。

(1) 探索新型出版模式。围绕《科学数据管理办法》制定详细的实施细则，探索新型科学数据出版方式，创造有利于科学数据出版的外部环境。2018年4月国务院颁布的《科学数据管理办法》第二十二条指出：“主管部门和法人单位应积极推动科学数据出版和传播工作，支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据。”这从政策上保证了国内科学数据出版的科学性和合理性。因此，各个科学数据出版机构应积极应对，不仅从硬件基础设施上加强投入建设，满足海量科学数据资源的上传、存储、使用、服务等，还要从软件环境上积极准备，制定科学数据资源的技术标准、操作规范、设计分析工具、创新服务流程等。

(2) 促进数据出版中的权益保护机制形成。探索、完善科学数据出版中知识产权确认机制，保障科学数据生产者权益。着力解决公益性原始科学数据资源的开放共享，以及科学数据出版对数据产品加工的新增投入(包括新的经费投入和开发人员的智力投入)产权权属及使用规范，需要相应的政策给予明确界定，比如共享范围、方式、与作者之间的许可协议等。同时，建设和完善科学数据出版的科学道德伦理规范。

(3) 加强出版中标准规范和工具体系建设。建立数据出版各个环节的标准、流程、指南、规范以及基础设施和工具体系,包括组织管理工作的标准规范、数据资源的标准规范、出版系统环境的标准规范、数据唯一标识和著录的工具体系等。另外，科学数据仓储、数据中心、机构知识库等在新型数据出版模式当中发挥重要作用，须以落实《科学数据管理办法》为契机，认定和建设一批领域数据中心作为数据出版的重要基础设施。

(4) 变革科学数据管理机制。调整现有数据中心的定位和数据管理机制，发展基于元数据的科学数据出版方式，充分利用DOI、DCI等注册机制，明确数据产权，形成以国家主要科学数据共享中心为主体的、开放的新型科学数据出版体系，满足全社会科研人员发现和获取科学数据的需求，发挥其网络科技传播的引导作用。

3 结束语

科学数据出版是促进科学数据共享和使用的重要方式之一，不管是独立数据出版还是关联数据出版都还处于不断发展探索阶段。本研究对当前科学数据出版实践进展和研究成果进行梳理和归类，在此基础上总结了当前科学数据出版面临的新要求以及我国的应对措施。更为重要的是，相对于传统出版领域而言，目前科学数据出版领域远未形成完整、系统的生态体系，比如控制科学数据出版质量的标准体系还不成熟，数据使用的权益分配机制还不完善，体现科学数据影响力的学术评价体系还未建立，需要科学数据出版各个利益相关者共同推进，以形成完整的有助于学术传播的科学数据出版生态环境。