APP下载

国外数据知识库模式的数据出版质量控制实践研究*

2018-01-26涂志芳中国科学院文献情报中心北京100190

图书馆建设 2018年3期
关键词:知识库质量

涂志芳 (中国科学院文献情报中心 北京 100190)

刘兹恒 (北京大学信息管理系 北京 100871)

1 引 言

科学数据或研究数据是产生或收集后有待进一步检查并作为推理、讨论或计算基础的信息,尤其是事实或数字信息,如统计数据、实验结果、测量结果、实地观察记录、调查结果、访谈记录和图像等[1],也是学术资源开放存取的重要组成部分和大数据时代数据开放共享的重要内容范畴。科学数据出版(data publishing)是学术共同体中的学术期刊、学术机构或学术社群等主体从科学研究的角度对研究人员产生的科学数据及相关信息进行同行评审、编辑加工等,使之符合一定规范和标准并能为学术界方便地获取和利用的过程[2]。较之于一般的数据开放和数据管理活动,数据出版在促进数据开放、共享的基础上明确数据知识产权、保障数据质量并建立数据与出版物的关联[2]。

研究者们通常将数据出版划分为3种模式,即独立的数据出版、作为论文辅助资料的数据出版、数据论文出版[3]。“独立的数据出版”是将数据作为独立的信息对象提交到数据存储系统进行处理、发布、传播和利用,即本文所指的数据知识库模式下的数据出版。数据知识库(data repository)是为具有研究价值的数字对象提供长期监护的存档服务,一般遵循开放档案信息系统(Open Archival Information System,简称OAIS)参考模型的标准(ISO 14721:2003)[4]。数据质量控制是使得数据知识库模式下的数据出版达到“出版”标准的最有效方式之一,质量控制贯穿于数据出版的全过程。

本研究拟对数据质量及数据质量控制相关的概念、内容、方法以及数据知识库的质量控制实践进行研究回顾,然后以数据质量控制的技术性、科学性、管理性3个层面为框架,分析数据知识库内容接收标准与用户服务条款,从技术、科学层面以及管理和其他层面研究数据知识库模式的数据出版质量控制实践,以期对国外数据知识库模式的数据出版质量控制实践动态进行较为系统的梳理和揭示,为我国科学数据开放、数据知识库发展及数据出版质量控制等的研究与实践提供参考。

2 文献回顾

2.1 数据质量含义、维度与标准

数据质量是一个多维度概念,可被描述为一组质量特征的集合,也通常取决于对最终用户目标实现产生的价值大小[5]。从质量特征视角理解,数据质量是数据所拥有的一系列与质量相关的内在与外在特征,如Gordon认为数据质量是使数据适合特定用途的完整性、有效性、一致性、及时性和准确性的状态[6]。从数据利用视角理解,数据质量是满足目标用户的数据利用需求所具备的特点和由此所产生的价值,如Peer等将数据质量定义为“对已知的数据重用而言数据的可独立理解性”[7]。

数据质量包含多个维度的内容,对应不同的数据标准,可采用不同的研究思路与方法。一方面,可从全局角度构建数据质量框架再确定框架内每一维度的质量特征,如Wang和Strong构建的数据质量框架的4个维度及其质量因素为:①内在数据质量,包括可信度、准确性、客观性、声誉;②语境数据质量,包括增值性、相关性、时效性、完整性、适量性;③可表现性数据质量,包括可解释、易于理解、一致性、表达简洁;④可访问性数据质量,包括可访问性、访问安全[8]。另一方面,也可从某一特定角度识别数据质量的必备因素,如Hense等从数据管理角度总结数据质量的3个关键因素为声誉、可靠性和程序规范[9];英国皇家学会从开放科学事业的全局视角认为可获取、可理解、可评估和可利用是开放数据必须具备的数据质量[10]。另外,还有学者认为数据质量受所使用数据标准的质量(quality of data standards)影响,即提高某些数据标准的质量便可能提高根据标准创建的数据质量,并提出将完整性和相关性作为数据标准质量的两个重要元素[11]。

2.2 数据质量控制概念、内容与方法

数据质量控制是使得数据达到特定标准、需求、期望的系列过程。例如,加拿大研究数据组织(Research Data Canada)认为“质量保证”(Quality Assurance,简称QA)是用于测量和确保产品质量的过程,而“质量控制”(Quality Control,简称QC)是满足消费者期望的产品和服务过程[4]。两者的主要区别在于QA是过程导向,侧重质量建设以防止错误,是用正确的方式做正确的事;而QC是产品导向,侧重质量测试(如检测错误),是确保所做的结果符合预期[12]。然而,在数据出版实践过程中,人们往往并不对QA和QC进行严格区分[13],本研究所指“数据质量控制”是在数据出版过程中采用一系列的方法建设、增强数据质量或对数据质量进行测试、改善以达到数据可以有效地被验证和利用的状态。

数据质量控制围绕数据出版各项可能的内容而展开,并且可以通过多种方法来实现。针对数据质量控制的内容,从数据出版流程看,涵盖对数据计划、收集、处理、分析、保存、出版/发表等生命周期环节的质量控制,如Pampel等认为可从数据创建、数据管理及其计划、数据质量评估3个环节进行质量控制[14];从数据质量对象看,包含数据计划、元数据、数据及其他数据相关文档的质量控制,如Austin等认为包含对元数据的准确性、数据文件与文档的充分性、计算与分析结果的准确性等进行的评估[15];从数据质量维度看,包含技术性质量(technical quality)、科学性质量(scientific quality)以及管理性质量(curatorial quality)等主要维度[15],技术性质量表现为数据格式的标准化、兼容性及元数据的完整性、准确性、真实性等特征,科学性质量强调数据收集方法的评价、数据的合理性和再使用的价值,管理性质量关注管理活动、水平、效果对数据知识库质量的影响,这3个维度的数据质量控制也成为本文行文的参考框架。数据质量控制方法包括数据评审、数据审查、数据确认、数据验证等,可借助计算机技术、统计软件、图表工具或参照一般原理、科学逻辑、数据标准等实现。

2.3 数据知识库质量控制实践研究

目前,学者们已经对数据知识库质量控制的内容、方法、问题等进行了研究。有的研究者通过案例分析归纳数据知识库的质量控制内容及其存在的问题,如张静蓓、任树怀选取通用型知识库Dryad、Dataverse、figshare和学科型知识库ICPSR、SSDA、ISPS Data Archive进行分析,发现质量控制的内容包括文件整体质量控制、文档说明质量控制、科学数据本身质量控制、源代码质量控制等4个方面[16];而Gordon对Dryad的创建者、日期、类型这3个元数据元素进行统计分析,发现存在同一创建者姓名表述不统一、日期表达方式不统一、资源类型与事实不相符等问题,并建议加强对数据知识库的元数据质量控制[6]。

有的研究者对3种数据出版模式的质量控制分别进行研究,其中数据知识库的质量控制主要集中在技术层面,管理层面次之,科学层面的质量控制较少。例如,王丹丹研究发现数据知识库主要从技术标准层面对数据及数据文档进行完整性的控制[17];孔丽华认为数据知识库模式的数据出版主要从元数据、数据格式方面进行质量控制,但目前相当一部分数据知识库不进行同行评审或只进行内部评审[18];屈宝强、王凯认为对数据知识库进行技术审查能起到认证作用,对数据知识库进行同行评审可以确认数字资产的完整性、评价数据集的完整性并评估数据文档的完整性[19]。

数据知识库的数据质量控制已经引起了相当的关注与研究,但因数据本身的格式、学科差异等而导致的复杂性,现有标准、技术的欠缺或不完善,数据审查需要大量时间、精力投入等原因,数据知识库模式的数据出版质量控制仍存在一定的问题与困难,需要继续思考研究和探索实践。

3 数据知识库内容标准与服务条款

数据知识库通常被划分为通用型和学科型两种类型,前者如figshare、Dryad、Zenodo等,后者如GenBank、ICPSR、IQSS Dataverse Network等。在接收数据、提供服务之前,数据知识库往往面向用户定义相关术语、公开数据选择标准、发布内容管理规则、说明利益相关方的权利与义务、公开收费标准、声明隐私政策、说明遵循的版权许可、说明可能的质量管理与控制办法、提出可能面临的问题与解决方案。

3.1 通用型数据知识库Dryad的案例概况

Dryad源于进化生物学、生态学领域部分重要期刊和科学团体的倡议,现面向各个学科领域接收数据并提供服务,实现提供基础设施、促进数据重用的使命[20]。

Dryad在阐明其理念、定位、功能的基础上,制定了面向所有用户的服务条款[21],其中与数据内容接收相关的说明包括:①内容必须与已发表的学术研究文档相关联;②数据提交者必须是创建者、拥有者或拥有足够的权利将数据在CC0 许可协议下被公开;③数据提交者声明并保证所提交的数据符合对应的格式和发布准则;④尽管Dryad也接收来自非同行评审出版物相关的数据,但接收的大部分还是与同行评审出版物相关的数据 ;⑤数据内容的主要语言必须是英语,以便Dryad管理员进行有效评审和管理[22]。

Dryad向提交者承诺在数据发布前后对数据进行审查和管理,主要包括[23-24]:①确认数据文件安全;②保障数据文件的学术性;③确认数据文档元数据技术正确性;④确认管理元数据;⑤确认所评审的数据文件是正确版本并检查数据文件及元数据的更新情况;⑥确认提交的数据内容适用于相应的豁免规定或付款计划;⑦注册数据DOIs;⑧在内容发布后解决引起管理者注意的问题。另外,Dryad还说明了其没有义务但可以进行的审查,如个人信息、敏感信息、与CC0许可协议相冲突的内容等,同时还明确表示不会进行的审查,如除必要的格式转换外的其他内容修改[23-24]。

3.2 学科型数据知识库ICPSR的案例概况

政治与社会学研究校际联盟(Inter-university Consortium for Political and Social Research,简称ICPSR)[25]始建于20世纪60年代,是世界知名的社会科学文献网站和社会科学数据知识库。

ICPSR同样遵循OAIS参考模型,对数据本身的价值判断、数据选择与评估有明确的标准[26]:(1)ICPSR要求提交的数据对社会科学研究有重要意义,包括对教学和研究的实质价值、持久的档案价值或数据本身具有独特性,具体表现为:①数据应有其使命;②数据属于社会科学核心领域;③数据对当前和新兴研究以及统计技术有用;④数据支持定量或定性的社会科学研究技术。(2)基于以上标准,ICPSR重点关注的数据及其特点为:①多样性数据,有助于加强对美国种族、少数族裔及其他边缘化群体了解的数据;②复杂数据,来自纵向研究、调查研究和非标准类型的数据,如生物数据、管理记录、视频数据、空间数据、遥感数据及关系数据等;③混合方法数据,如可同时支持定性分析和定量分析的数据,混合研究方法设计产生的数据;④跨学科数据,即来自跨学科研究的数据以及使用多学科研究方法进行研究所得的数据;⑤国际数据,即来自美国以外的研究数据和支持跨国比较的数据,尤其是来自归档、传播和保存功能不完善的国家或地区的研究数据。(3)符合以上标准和特点的数据将由ICPSR的工作人员进一步审查,并将具有以下便于公共获取利用特点的数据优先存档:①数据在其他地方不可获得或难以获得;②数据属于公共领域;③数据版权明确;④数据版权所有者同意ICPSR的传播政策;⑤数据遵守隐私政策的保密标准;⑥数据技术文档完整;⑦数据格式便于使用。

4 数据知识库模式的数据出版质量控制:技术与科学层面

数据知识库本身并不产生数据,而是与期刊出版商、学术社群、研究机构、图书馆、资助机构、研究团队、个人等合作,接收来自这些合作方的数据并对元数据、数据格式、数据文档等进行筛选与审查,以便后续的数据管理、存储和发布。

4.1 元数据

科学数据元数据是关于科学数据内容、质量、条件状态及其他特征的描述,具有数据管理(如元数据自动或半自动生成、互操作、安全)、数据质量控制(如保障可验证、可复制、可再生的质量特征)、数据发现(如保障数据可发现、可识别、可选择、可获取)、数据利用(如可互通、可分析、可视化)等的功能[27]。数据知识库接收到数据后,对照所采用的元数据标准方案对元数据进行检查、修正和完善。

4.1.1 元数据标准方案选择与应用

数据出版所采用的元数据包括通用元数据标准和特定学科/行业的元数据标准,都柏林核心元数据(ISO 15836)[28]是国际上广泛应用的通用元数据标准,具有很强的扩展性和移植性,现有各类元数据方案大多参考其元素而设计;国外特定学科领域的元数据标准较为丰富,如社会科学领域的“数据文档计划”(Data Documentation Initiative,简称DDI)国际标准[29],地球学科领域的“地球空间数据资产元数据”美国国家标准[30],地理信息领域的“地理信息元数据”国际标准(ISO 19115)[31],农业科学领域的“农业元数据元素集”国际标准[32]等,广泛应用于各对应领域的数据出版。例如,ICPSR及其成员采用DDI作为元数据规范,澳大利亚海洋数据网络门户、英国地质调查局国家地球科学数据中心采用以ISO 19115为基础的元数据方案[33]。

4.1.2 元数据检查与验证

数据知识库在接收数据时,往往对元数据进行检查、评审、验证、完善等工作,以保障元数据完整、准确、科学并与所描述的数据事实相匹配。ICPSR依照其采用的DDI元数据标准为接收到的没有元数据的数据集创建元数据记录;而美国地质调查局(United States Geological Survey,简称USGS)[34]则对元数据进行评审与验证。其中,USGS一方面为数据作者提供部分具有自动验证元数据功能的元数据编辑工具(如USGS Online Metadata Editor),另一方面提供元数据二次验证和元数据评审服务,元数据二次验证需借助元数据解析器(USGS Metadata Parser)[35]来验证与美国国家地理空间数据标准(FGDC)兼容的元数据记录且可生成错误报告。另外,USGS依据“评审指南”对数据及其元数据的匹配性、元数据与数据/出版物的链接、元数据标准术语、数据处理步骤/方法及相关资源元数据、元数据与数据使用、元数据与访问权限、元数据与数据格式等内容进行说明或规定[36]。

4.2 数据格式

数据格式兼容性最大化才能最大程度地方便用户获取和利用,因此数据知识库也十分重视对数据格式的要求、检查和转换工作。

4.2.1 数据格式推荐

数据所采用的格式及软件取决于研究人员如何收集、分析数据,通常依照特定标准和惯例而选择最适合的一种或几种;在完成数据分析与处理后进行数据存储时则需要将其转换为标准的、常用的、可转换的、持久的且用户友好的格式以保障长期利用。数据知识库(如UK Data Archive)还根据学科范围、数据类型特点,为定量数据、定性数据、地理空间数据、图像、视音频、文档和脚本等数据类型分别推荐常用的和非常用但可接受的数据格式[37],如定量数据推荐sav、dta等格式,文本性定性数据推荐xml、rtf、txt、html、doc等格式,音频数据推荐mp3、aif、wav格式。

4.2.2 数据格式转换

对于未达到数据利用便利程度最大化的数据格式,数据知识库往往在不改变数据内容的前提下对数据进行格式转换。例如,ICPSR将印本形式的数据转换为电子形式,将软件依赖型数据文档格式转换为常用的PDF格式,针对某些特定数据生成多种格式以便进行传播和保存[38]。Zenodo表示接收所有格式的数据(甚至不友好的格式),但会尽可能将其转换为友好的格式以便长期保存和利用[39]。

4.3 数字标识符

长久以来,数据存储基础设施的缺乏使得独立出版和引用数据非常困难,因此科学数据也一直未曾得到和科学论文同等的学术认可[40],数据标识符在这样的需求下应运而生。数字对象标识符(Digital Object Identifier,简称DOI)、统一资源名称(URN)、开放链接(OpenURL)、句柄系统(Handles)等是目前应用较多的数字标识符,其中尤以DOI的应用和研究最为广泛。

DOI是用于识别数字环境下对象的知识产权的字符串[41],自1998年成立且于2012年成为“信息与文献”领域的一项标准(ISO 26324)以来,广泛应用于数字化图书、期刊、数据等类型内容的学术出版。DOI自分配后便贯穿数据存储、出版、传播及长期保存的全过程,DOI用于数据出版便于数字版权管理、元数据动态更新、数据规范引用[42],可提高数据的可发现性、可获得性和可利用性。

在实际的数据出版中,DOI由注册代理机构及其成员机构负责分配,如中国知网、Crossref、DataCite[43]等。例如,DataCite是会员式、非营利的研究数据DOI服务机构,由英国国家图书馆、丹麦信息技术中心、德国国家科学图书馆等7个创始单位联合创建于2009年,其成员现已覆盖欧洲、亚洲、澳大利亚、北美和非洲等地区的大学和研究机构[44],哈佛大学图书馆、英国数字监护中心(Digital Curation Center,简称DCC)、figShare、ICPSR、北京大学开放研究数据平台等均通过与DataCite合作为数据分配DOI。

4.4 技术性与科学性综合审查

一方面,如前所述,与作为论文辅助资料的数据出版以及数据论文出版的质量控制不同,目前数据知识库的数据质量控制主要集中在技术审查,对数据本身的科学性评审开展得相对较少且以基础性的科学评审为主,如审查数据是否符合一般逻辑、一般原理等。另一方面,数据出版实践中数据知识库通常融合不同的内容与方法[15]、协同不同审查主体的角色[45],对数据进行综合的审查和全面的质量控制,如英国数据档案(UK Data Archive)、地球数据观测网络(Data Observation Network for Earth,简称DataONE)、DCC、ICPSR等。

4.4.1 UK Data Archive综合实践

(1)数据检验

数据检验是对数据进行编辑、清洗、交叉检查和验证等的过程。UK Data Archive是英国人文与社会科学领域数据量最大的数据知识库之一,采用多种方法对数据进行综合检验[46],包括:①仔细检查或观察响应的编码及超出范围的值;②检查数据的完整性;③在适当的位置添加变量和值标签;④根据原始数据验证数字化数据的随机样本;⑤双重输入数据;⑥对频率、均值、范围或聚类等数据进行统计分析以监测错误和异常值;⑦纠正数据转录过程可能产生的错误;⑧同行评审。

(2)保障数据真实性

数字化数据能够被轻易复制和更改,因此保障数据的真实性、防止未经授权的访问导致未经授权的数据更改变得非常重要。UK Data Archive保障数据真实性的最佳实践包括[47]:①保留数据的单个主文件;②将数据主文件的监护责任分配给单个项目的团队成员;③规范对数据文件主版本的写入访问;④维护旧的主文件以防新的主文件发生错误;⑤定期对主文件进行备份并保存;⑥开发销毁主文件的正式程序。

4.4.2 DataONE综合实践

DataONE从多个方面对数据出版进行质量审查,笔者以“quality”和“data quality”为标签搜索DataONE最佳实践库,发现与数据质量控制高度相关的实践做法有[48]:①重视数据质量(说明数据质量控制信息元数据、描述质量控制方法、设置可疑数据标签) ;②确认数据及描述数据的元数据相互匹配;③在数据整合之前确认数据的兼容性;④制定质量控制计划;⑤复查所输入的数据;⑥确保数据符合逻辑和一般原理(如浓度不小于0) ;⑦在数据备份时确保数据的完整性和可用性;⑧借助数据工具识别异常值;⑨对根据实际值产生的估计值进行标记 ;⑩进行数据版本管理和控制;⑪用数据标签标记数据质量(如“0”标记未检查数据、“-1”标记有潜在问题的数据、“1”标记高质量数据)。

5 数据知识库模式的数据出版质量控制:管理与传播层面

5.1 数据知识库注册、审计与认证

根据永久访问科学网络记录联盟(Alliance for Permanent Access to the Records of Science Network,简称APARSEN)发布的科学数据同行评审报告,数据知识库认证与审计对数据质量控制影响突出,不同数据知识库的质量控制方法因数据形式、范围、学科而异[14];欧盟“地平线2020”项目资助的“人文科学研究数据开放存取出版”调查报告指出,信任是影响数据知识库与其相关主体之间关系的关键因素,而注册、审计与认证是对数据知识库进行质量控制从而提高可信度的有效方法[49]。

5.1.1 数据知识库注册

数据知识库注册系统便于用户通过目录对数据知识库的建设、注册与发展情况进行统计分析,从而对数据知识库的可信赖性、可用性作出判断,数据知识库注册事实上也成为了用户选择与评价数据质量的一个重要参考。目前,常用数据知识库注册系统有re3data.org、FAIRsharing、Registry of Open Access Repository(ROAR)[50]和OpenDOAR[51]等。

其中,re3data.org是由德国研究基金资助并由德国、美国多家机构联合运行的数据知识库注册与目录系统,目前已有1 981个注册登记的数据知识库(截至2017年11月28日),如Dryad、figShare、GenBank以及北京大学开放研究数据平台、中国地震数据中心等[52]。FAIRsharing是跨学科领域数据标准、数据知识库和数据政策注册与关联查询的门户(其前身BioSharing聚焦生命科学领域),致力于推动科学数据的可发现(Findable)、可访问(Accessible)、互操作(Interoperable)和可重用(Reusable)[53]。目前已注册数据标准共708条,数据知识库1 000个、数据政策98项(截至2017年11月28日),用户查询其中任意一项内容均能显示相关的其他两项,GenBank、Death Domain Database、Gene Wiki等生命科学领域的数据知识库也都登记在该系统[53]。

5.1.2 数据知识库审计与认证

一方面,从基础设施建设、数字对象管理、安全风险管理等方面对数据知识库进行审计与评估,有利于及时监测、报告数据知识库的风险并提供有效的解决办法;另一方面,对达到审计与评估标准的数据知识库进行认证并授予认证标识,有利于增强数据知识库的辨识度和可信度。目前,常用的数据知识库审计与认证工具有“DRAMBORA”“DSA”“TRAC”与“Nestor”(DIN31644/ISO16363标准的基础)等。

“DRAMBORA”即“基于风险评估的数据知识库审计方法(2007)”(Digital Repository Audit Method Based On Risk Assessment,简称DRAMBORA)[54],主要对知识库所面临的风险及其严重性进行可量化的监测并提供报告风险的有效手段;“DSA”即数据认可印章(Data Seal of Approval,简称DSA)[55],制定了数据知识库可信赖性认证的16条核心要求[56]并对达到要求的数据知识库授予认证标识。“TRAC”与“Nestor”即“可信赖知识库审计与认证(2007)”(Trusted Repositories Audit & Certification,简称TRAC)[57]与“可信任数据知识库标准Nestor目录(2006)”(Nestor Catalogue of Criteria for Trusted Digital Repositories)[58],两者均从组织基础设施、数字对象管理、技术设施与安全3个方面进行审计与认证。在此类方法、工具及其广泛应用的基础上,数据知识库审计与认证形成了较为成熟的方法体系,并进一步发展成为国内外普遍认可的标准(如DIN31644/ISO 16363),形成了从基础认证、扩展认证到正式认证的递进式认证框架(如欧盟可信赖数字仓储审计与认证框架[49])。

根据re3data.org的统计(截至2017年11月28日),目前已有56个数据知识库获得了DSA的认证,包括ICPSR、UK Data Archive、Norwegian Centre for Research Data、World Data Center for Climate等;已有1个数据知识库明确表示遵循DIN31644标准,即荷兰数据存档与网络服务(Data Archiving and Networked Services,简称DANS)的在线存储系统EASY[59];1个数据知识库遵循TRAC方法,即美国加利福尼亚大学系统的数字化研究数据知识库Merritt[60]。

5.2 数据引用

数据引用是数据作为一种学术成果进行传播从而发挥其价值的重要阶段,也是承认数据作者的贡献、保障数据管理者与出版者权益的一种有效方式。

5.2.1 数据引用原则

2014年,数据引用综合组(Data Citation Synthesis Grroup)联合其他多个数据引用工作组发布了“数据引用原则联合声明”,并在www.force11.org发布了8条数据引用共同原则[61]:①重要性:数据应是合法的、可引用的研究性产品,数据引用与其他学术成果的引用具有同等重要性;②信誉和归属:数据引用应有助于为数据贡献者带来信用、声誉和产权归属;③论据:学术文献中任何依赖数据之处都应进行数据引用;④唯一标识:数据引用应包含持久的、机器可操作的、全球唯一的、广泛使用的标识符;⑤便于访问:数据引用应便于访问数据本身及其相关的元数据、文档、代码和其他材料;⑥长久性:唯一标识符和描述数据的元数据以及其位置应长久存在,甚至可以超出数据本身的寿命;⑦明确性和可验证性:数据引用应有助于识别、访问和验证支持特定观点的具体数据,数据引用应包含充分的出处信息以便验证其他版本、粒度的特定数据;⑧互操作性和灵活性:数据引用方法应足够灵活以适应不同学术社群的具体实践,不同数据引用不应存在本质差异以便保障不同数据引用实践的互操作。FORCE11社区现有来自出版社、研究机构、研究资助机构、数据管理与出版机构、图书馆及图书馆协会、信息与技术中心、特定研究项目等的活跃成员2 300多名[62],为FORCE11社区贡献内容并推动科学数据的规范引用;多个学术社群在遵循该基本原则的基础上和在技术更新发展的条件下推动数据引用的最佳实践,如美国地球物理联盟(A G U)、Dataverse等均明确表示支持并遵循该原则。

5.2.2 数据引用格式推荐

目前,国内外学术论文(包括数据论文)的引用格式相对统一,而数据(集)的推荐引用格式因数据知识库不同而呈现差异,没有相对统一的标准,但都包含作者、年份、数据集题名、(包含DOI的)数据集获取地址等关键要素,并且还尽可能反映数据集版本和数据检索时间。例如:

(1)Dryad的推荐引用格式为:“作者(年份).Data from:数据集题名.数据知识库名.DOI URL”,举例“Tsunoda T,Krosse S,van Dam N (2017) Data from: Root and shoot glucosinolate allocation patterns follow optimal defence allocation theory.Dryad Digital Repository.http://dx.doi.org/10.5061/dryad.hd3s3”。

(2)figShare的推荐引用格式为:“作者(年份):数据集题名.数据知识库名.DOI URL (自动生成的)检索时间”,举例“Halfaker,Aaron; Kim,Meen Chul; Forte,Andrea;Taraborelli,Dario (2017): Citations with contexts in Wikipedia.figshare.https://doi.org/10.6084/m9.figshare.5588842.v1 Retrieved: 06:41,Dec 02,2017 (GMT)”。

(3)北京大学开放研究数据平台的推荐数据引用格式为:“作者,年份,“数据集题名”,DOI URL,数据知识库名,数据集版本”,举例:“黄悦勤,2016,‘中国居民健康与疾病负担调查2013’,http://dx.doi.org/10.18170/DVN/O5PS2H,北京大学开放研究数据平台,V1”。

6 总结与展望

从研究与实践情况来看,数据出版质量控制有实质性的发展,但仍存在一定的问题和困难:①数据庞大、复杂且增长迅速,数据出版及其质量控制高度依赖计算机的辅助,对相关人员的技能有较高要求;②数据质量控制需要良好的科学研究与数据共享环境,需要来自研究资助机构、研究机构、学术社区等的协同支持和作者、管理者、用户的协同努力;③数据质量控制的投资回报率较难保证,可持续发展机制尚不成熟;④最佳实践的做法还不普及,数据质量控制水平参差不齐。

目前,无论是基于数据知识库的数据出版,还是作为论文辅助资料的数据出版以及数据论文出版,我国的数据出版及其质量控制虽处于探索阶段但已初具成效。例如,图书情报领域期刊《数据分析与知识发现》从2016年起要求所有投稿论文提交支撑论文结论的科学数据并通过适当方式供研究共同体或社会公众共享[63];2015年12月,北京大学开放研究数据平台正式上线,汇集了来自国内极具影响力的精品调查数据,现有28个数据空间和153个数据集并提供开放共享[64](截至2018年1月);2016年6月,中国科学院主办的《中国科学数据》开始了国内首份数据期刊出版的探索实践,该刊实行严格的评审制度(责编初审、数据初审、同行评议/大众评议、责编委复审、编委会投票等),已成为中国科学引文数据(CSCD)核心库的来源期刊(2017-2018)[65]。2017年底,《信息技术科学数据引用》国家标准(GB/T35294-2017)[66]正式发布,为规范引用、传播科学数据提供国家层面的保障。

展望未来,科学数据出版质量控制可能聚焦于:首先,对数据出版质量控制的理论、方法、工具、实践等进行系统而综合的研究,重点探讨数据质量控制的困难和挑战;其次,不断优化现有数据标准与工具并推动其在更大范围内的普及和应用;另外,进一步探索针对不同学科、不同类型数据的科学性评审及其可持续发展机制。诚然,我国数据出版质量控制在理论探索、政策制定、标准研制、系统开发、工具应用等方面都还有进一步提升的空间。可以预见,未来我国还将继续重视对科学数据管理与出版的顶层设计与政策统筹,在机构层面加快推进数据政策、标准的研讨和制定,在机构与个体层面促进数据工具的推广和使用,而图书馆也能够参与其中适时适当地发挥作用。

[1]European Commission.Horizon 2020[EB/OL].[2017-10-01].http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf.

[2]吴立宗,王亮绪,南卓铜,等.科学数据出版现状及其体系框架[J].遥感技术与应用,2013,28(3):383-390.

[3]Lawrence B,Jones C,Matthews B,et al.Citation and Peer Review of Data: Moving Towards Formal Data Publication [J].International Journal of Digital Curation,2011,6(2):4-37.

[4]Research Data Canada.Original RDC Glossary[EB/OL].[2017-09-16].https://www.rdc-drc.ca/glossary/original-rdc-glossary/.

[5]Wuest T,Tinscher R,Porzel R,et al.Experimental Research Data Quality in Materials Science[J].Computer Science,2014,4(6):1-18.

[6]Gordon K.Principles of Data Management[EB/OL].[2017-09-15].http://bcs.org/upload/pdf/data-management-chapter1.pdf.

[7]Peer L,Green A,Stephenson E.Committing to Data Quality Review[J].International Journal of Digital Curation,2014,9(1):1-27.

[8]Wang R Y,Strong D M.Beyond Accuracy: What Data Quality Means to Data Consumers[J].Journal of Management Information Systems,1996,12(4):5-33.

[9]Hense A,Quadt F.Acquiring High Quality Research Data[J].DLib Magazine,2011,17(1-2):1-7.

[10]The Royal Society.Science as an Open Enterprise[R/OL].[2017-10-11].https://royalsociety.org/~/media/policy/projects/sape/2012-06-20-saoe.pdf.

[11]Zhu H,Fu L.Towards Quality of Data Standards: Empirical Findings from XBRL[C].International Conference on Information Systems,Arizona:Association for Information Systems Electronic Library,2009:1-8.

[12]U.S.Geological Survey.Data Management: Manage Quality--What is QA/QC?[EB/OL].[2017-10-15].https://www2.usgs.gov/datamanagement/qaqc.php.

[13]Bloom T,Dallmeier-Tiessen S,Murphy F,et al.Workflows for Research Data Publishing: Models and Key Components[J/OL].[2017-10-15].International Journal of Digital Libraries,https://zenodo.org/record/20308#.WeLU0fkdgZQ.

[14]Pampel H,Pfeiffenberger H,Sch.fer A,et al.Report on Peer Review of Research Data in Scholarly Communication[R/OL].[2017-10-05].https://www.researchgate.net/publication/224922538_Report_on_Peer_Review_of_Research_Data_in_Scholarly_Communication.

[15]Austin C C,Bloom T,Dallmeier-Tiessen S,et al.Key Components of Data Publishing: Using Current Best Practices to Develop a Reference Model for Data Publishing[J].International Journal on Digital Libraries,2016:1-16.

[16]张静蓓,任树怀.国外科研数据知识库数据质量控制研究[J].图书馆杂志,2016(11):38-44.

[17]王丹丹.科学数据出版过程中的数据质量控制[J].图书情报工作,2015(23):124-129.

[18]孔丽华.科学数据质量同行评议现状[R/OL].[2017-10-05].http://ir.las.ac.cn/handle/12502/7968.

[19]屈宝强,王 凯.数据出版视角下的科学数据同行评议[J].图书馆杂志,2017,36(10):71-77.

[20]Dryad Digital Repository[EB/OL].[2017-09-03].http://datadryad.org/pages/organization.

[21]Dryad Digital Repository.Policies[EB/OL].[2017-09-02].http://datadryad.org/pages/policies.

[22]Dryad Digital Repository.Policies-Content Criteria[EB/OL].[2017-09-21].http://datadryad.org/pages/policies#content.

[23]Dryad.Policies-Curation[EB/OL].[2017-04-24].http://datadryad.org/pages/policies#curation.

[24]顾立平,茹丽洁,戚义姣,等.通用型数据知识库案例汇编——Dryad、Figshare[EB/OL].[2017-04-24] http://ir.las.ac.cn/handle/12502/7826.

[25]ICPSR.History[EB/OL].[2017-09-22].http://www.icpsr.umich.edu/icpsrweb/content/about/history/.

[26]ICPSR.Data Management & Curation-Selection and Appraisal[EB/OL].[2017-09-29].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/selection.html.

[27]Qin J,Ball A,Greenberg J.Functional and Architectural Requirements for Metadata: Supporting Discovery and Management of Scientific Data[C]// Twelfth International Conference on Dublin Core and Metadata Applications.Kuching:Dublin Core Metadata Initiative,2012:62-71.

[28]ISO 15836:2009.Information and Documentation—The Dublin Core Metadata Element Set [EB/OL].[2017-10-09].https://www.iso.org/standard/52142.html.

[29]Data Documentation Initiative[EB/OL].[2017-09-03].http://www.ddialliance.org/.

[30]Federal Geographic Data Committee.National Geospatial Data Assets (NGDA) Metadata Guidelines[EB/OL].[2017-10-16].https://cms.geoplatform.gov/sites/default/files/document_library/NGDA_Metadata_Guidelines.pdf.

[31]ISO 19115-1:2014.Geographic Information—Metadata[EB/OL].[2017-10-16].https://www.iso.org/standard/53798.html.

[32]Agricultural Information Management Standards.AgMES -Agricultural Metadata Element Set[EB/OL].[2017-10-16].http://aims.fao.org/standards/agmes.

[33]Digital Curation Centre.List of Metadata Use Cases[EB/OL].[2017-10-21].http://www.dcc.ac.uk/resources/metadatastandards/use-cases.

[34]United States Geological Survey[EB/OL].[2017-09-27].https://www.usgs.gov/.

[35]United States Geological Survey.Data Management[EB/OL].[2017-09-27].https://www2.usgs.gov/datamanagement/describe/metadata.php#validating-metadata-records.

[36]USGS.Guidelines for Metadata Review of Data[EB/OL].[2017-04-20].https://www2.usgs.gov/datamanagement/documents/MetadataReviewChecklist_2014.pdf.

[37]UK Data Archive.Create & Manage Data-File Formats Table[EB/OL].[2017-04-23].http://www.data-archive.ac.uk/createmanage/format/formats-table.

[38]ICPSR.Data Management & Curation[EB/OL].[2017-09-03].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/ingest/enhance.html.

[39]Zenodo.General Policies[EB/OL].[2017-09-03].http://about.zenodo.org/policies/.

[40]Neumann J,Brase J.DataCite and DOI Names for Research Data[J].Journal of Computer-Aided Molecular Design,2014,28(10):1035-1041.

[41]DOI[EB/OL].[2017-09-03].http://www.doi.org/.

[42]涂 勇,彭 洁.数字对象唯一标识在中国科学数据领域中的应用研究[J].数字图书馆论坛,2013(8):31-36.

[43]DOI Registration Agencies[EB/OL].[2017-10-05].http://www.doi.org/registration_agencies.html.

[44]Loesch F M.DataCite[J].Technical Services Quarterly,2016(33):91-92.

[45]Economic and Social Research Council.Transparency of the Peer Review Process[EB/OL].[2017-04-14].http://www.esrc.ac.uk/funding/guidance-for-peer-reviewers/transparency-of-thepeer-review-process/.

[46]UK Data Archive.Create & Manage Data-Quality Assurance[EB/OL].[2017-04-23].http://www.data-archive.ac.uk/createmanage/format/quality.

[47]UK Data Archive.Create & Manage Data-Version Control &Authenticity [EB/OL].[2017-04-23].http://www.data-archive.ac.uk/create-manage/format/versions.

[48]DataONE.Best Practices[EB/OL].[2017-09-09].https://www.dataone.org/all-best-practices.

[49]Buddenbohm S,Cretin N,Dijk E,et al.State of the Art Report on Open Access Publishing of Research Data in the Humanities[R/OL].[2017-10-15].https://halshs.archives-ouvertes.fr/halshs-01357208/document.

[50]Registry of Open Access Repository[EB/OL].[2017-02-26].http://roar.eprints.org/.

[51]OpenDOAR[EB/OL].[2017-02-21].http://www.opendoar.org/.

[52]re3data.org[EB/OL].[2017-10-18].http://www.re3data.org/.

[53]FAIRSharing[EB/OL].[2017-10-18].https://fairsharing.org/.

[54]Welcome to DRAMBORA Interactive:Log in or Register to Use the Toolkit[EB/OL].[2017-02-21].http://www.repositoryaudit.eu/.

[55]About Data Seal of Approval[EB/OL].[2017-02-25].http://www.datasealofapproval.org/en/information/about/.

[56]Data Seal of Approval.The Core Trustworthy Data Repository Requirements [EB/OL].[2017-02-25] http://www.datasealofapproval.org/en/information/requirements/.

[57]DCC.Trustworthy Repositories[EB/OL].[2017-02-21].http://www.dcc.ac.uk/resources/repository-audit-and-assessment/trustworthy-repositories.

[58]DCC.Repository Audit and Assessment [EB/OL].[2017-02-21].http://www.dcc.ac.uk/resources/repository-audit-andassessment/nestor.

[59]re3data.org.EASY[EB/OL].[2017-09-28].https://www.re3data.org/repository/r3d100010214.

[60]re3data.org.Merritt[EB/OL].[2017-09-28].https://www.re3data.org/repository/r3d100010747.

[61]Data Citation Synthesis Group.Joint Declaration of Data Citation Principles[EB/OL].[2017-10-18].https://www.force11.org/group/joint-declaration-data-citation-principles-final.

[62]FORCE11.Active Menbers[EB/OL].[2017-10-20].https://www.force11.org/community/members-directory.

[63]《数据分析与知识发现》编辑部.支撑数据提交要求[EB/OL].[2017-09-03].http://manu44.magtech.com.cn/Jwk_infotech_wk3/fileup/2096-3467/NEWS/20161213090914.pdf.

[64]北京大学开放研究数据平台简介[EB/OL].[2017-10-21].http://opendata.pku.edu.cn/about.xhtml.

[65]中国科学数据[EB/OL].[2017-10-21].http://www.csdata.org/.

[66]中国国家标准化管理委员会.2017年第32号中国国家标准公告[EB/OL].[2018-01-20].http://www.sac.gov.cn/gzfw/ggcx/gjbzgg/201732/.

猜你喜欢

知识库质量
汉语近义词辨析知识库构建研究
“质量”知识巩固
质量守恒定律考什么
做梦导致睡眠质量差吗
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
美国高校机构知识库开放获取政策调查
关于质量的快速Q&A
高速公路信息系统维护知识库的建立和应用
质量投诉超六成
基于Drupal发布学者知识库关联数据的研究