APP下载

基于生命周期的生命科学数据质量控制体系研究

2021-09-08夏义堃管茜

图书与情报 2021年3期
关键词:生命科学数据质量质量控制

夏义堃 管茜

摘   要:数据是生命科学研究的基础性资源,研究生命科学数据管理的质量控制对推进科学数据管理和生命科学理论与研究方法创新具有重要的现实意义。基于生命周期理论,通过政策文本分析、案例比较和文献调研,系统梳理了不同主体在生命科学数据的管理计划、采集、组织、保存、共享利用不同阶段中的质量控制措施提出不同阶段生命科学数据质量控制的核心要求,构建了包括基础层、主体层、流程控制层三个层次的生命科学数据质量控制体系。

关键词:科学数据管理;数据质量;质量控制;数据生命周期;生命科学

Abstract Data is a basic resource in life science research. The research of life science data management of quality control can advance scientific data management, and life science innovation theory and research method has important practical significance. Based on the life cycle theory, through policy text analysis, case comparison and literature research, this paper systematically sorts out the quality control measures of different subjects in different stages of life science data management planning, collection, organization, preservation, sharing and utilization. In this paper, the core requirements of life science data quality control at different stages are put forward, and the life science data quality control system at three levels is constructed, including the basic layer, the main layer and the process control layer.

Key words scientific data management; data quality; quality control; data life cycle; life science

生命科学在20世纪后期出现了飞跃式的发展,以基因测序、基因组学、蛋白质组学和生物信息学为代表的技术加快了生命科学领域数据的产生速度[1],数据的积累与利用已经成为推动生命科学研究不可缺少的组成部分。海量的生命科学数据不仅具有传统大数据的“4V特征”,还因研究对象、存储结构、参数标准、应用场景等多元性而格外复杂,同时,人体受试样本的隐私保护、动物样本实验的伦理约束等进一步增添了数据管理的难度。

如何对体量巨大、增长迅速、多源异构且隐私伦理属性突出的生命科学数据进行有效地质量控制与开发管理,既是当前科学数据管理工作亟待突破和解决的重要问题,也是生命科学研究创新的前期条件。本文基于数据生命周期理论,着重分析了生命科学数据质量控制的主体行为与基本做法,构建了質量控制的主体行为与基本做法,构建了包括基础层、主体层和流程控制层在内的生命科学数据质量控制体系,以期为我国生物科学数据质量控制提供借鉴参考。

1   研究回顾与问题的提出

1.1    生命科学数据质量研究综述

近年来,生命科学进入“大数据”时代,生命科学领域研究结论的可靠性常被质疑,数据的再利用性以及实验的可再现性接连出现问题,并引发国内外学者的关注,相关研究主要集中在以下几个方面:

(1)生命科学数据质量内涵及评估指标体系研究。生命科学数据质量是一个多维度概念,可理解为多个质量特征的集合,并受到学科、数据类型和应用目的等影响。除遵循国际通用的FAIR原则外,Flatley和Stead[2]从一致性、正确性和完整性角度讨论了临床记录数据质量的概念;Weiskopf和Weng[3]将合理性和通用性视为质量考察维度;Kahn等[4]构建了针对电子健康记录临床研究数据的质量评价模型,主要指标有准确性、可信性、客观性、及时性和数据量的合理性;Chen等[5]从数据本身、数据使用和数据收集3个角度描述数据质量评价模型,用以评估公共卫生领域相关数据。

(2)生命科学数据质量问题的表现及成因研究。生命科学数据质量问题的表现是多方面的,有学者站在数据内容和表现形式多样性角度,提出数据的不一致、不准确、不完整或过时滞后等问题[6-8],其中数据格式和元数据不一致问题尤为突出[9],而标准、格式不统一直接损害数据互操作性、完整性和可追溯性等[10],造成数据冗余。数据利用中的可再现性问题再利用问题也是学者们关注的焦点,究其原因,有学者认为是选择和实验偏差以及研究不当导致,如实验室记录错误,无效试剂,忽略数据中心等都会导致数据的不可复制、不可重用[11-12]。

(3)生命科学数据质量控制的方法研究。数据质量标准的建构被视为解决生命科学数据问题的有效方法,如使用统一标识符和注释来增强数据的可查找性,使用通用交换格式如SBML(系统生物学标记语言)来增强数据互操作性,使用描述元数据来增强可重复性[13-14],Taylor等[15]提出应遵循MIBBI(生物和生物医学调查的最低信息)标准倡议;一些学者从出版视角探讨数据质量监管方法,如Arturo 等[12]认为期刊应撤回不符合数据标准的文章;刘颖和王旋[16]分析了NATURE出版集团等医学数据质量监管措施;还有学者从数据平台管理视角展开研究,Chen等[17]提出加强记录上传、序列去重、序列分析、文本数据分析、记录关联、数据描述等在内的生命科学数据认证过程管理,Heimo[18]认为生物库必须确保样本和数据的质量、利用道德和法律合规性,并建立高效透明的访问管理。

1.2    基于生命周期的生命科学数据质量控制的内涵

FAIR原则是国际公认的科学数据管理基本准则,要求数据应满足可发现、可访问、可互操作和可再利用4个要求,并对唯一永久标识符、描述元数据、词汇表、通信协议、使用许可等进行了细化要求。在FAIR原则基础上,有关生命科学数据管理的不同主体基于数据内容、形式和效用提出了生命科学数据的完整性、真实性、安全性、增值性等质量要求(见表1)。然而,单一、静态的数据难以创造价值,数据的流动与全流程管理蕴含了巨大的数据效应,生命科学数据管理应把握其生命周期规律。通过代表性科学数据生命周期管理模型的梳理发现,生物科学数据生命周期有五个核心阶段,即数据管理计划—数据采集—数据组织—数据保存—数据共享利用(见表2)。不同阶段的数据质量管理要求在目标、标准与方法、行为等方面各有侧重,既需要从采集和组织的源头确保数据产生的质量和价值,也需要在保存和开放过程中对数据质量进行检测和验证,同时还需在共享利用中规范引导其数据行为,保证数据的再利用性与可再现性。

2   生命科学数据生命周期各阶段质量控制过程分析

2.1    数据管理计划的制定

数据管理计划是保证数据质量的根本文件[24],生命科学数据管理计划阶段的质量控制责任是对整个生命周期如何管理数据、保障数据质量进行宏观规划,聚焦点集中在数据管理主体责任、数据计划篇幅以及计划内容、更新与教育培训、资金保障等方面(见表3)。

在英美发达国家,数据管理计划不仅是科研项目申报的必要组成部分,也是科研设计与研究实施的具体规划与后续科研过程的重要指导,并成为评估科研项目是否资助以及结题验收的重要考察指标。英国生物技术与生物科学研究理事会要求项目资助的申请必须提交详实的数据管理计划,项目审查人员和专家委员会或评估小组将对申请者数据管理计划的可行性、科学性进行评估;美国国家科学基金会生物科学理事会既要求项目申报时提交数据管理计划,还要求所有在研项目对数据管理计划执行情况进行年度和终期报告,如数据采集加工等具体进展以及数据标准、存储和共享利用情况,以便检查监控。

从资助方数据管理制度以及大学等研究机构数据管理文件来看,数据质量控制的考察点主要表现在对数据管理计划形式要件与实质要件的规范性、完整性、准确性审查上。一方面,均对数据管理的基本框架与内容进行了规范。如英国生物技术与生物科学研究理事会规定申请方提交的数据管理计划应当包括数据范围和数据类型、标准和元数据、与公共资料库中其他可用数据的关系、数据共享的方法、专有数据、时间节点、最终数据集的格式和再利用方式等;另一方面,数据管理计划的完整性与准确性也是各方评估检查的重点。除完成通用要求,实现数据管理计划编制与项目研究总体框架、流程设计的紧密结合外,其完整性还体现在针对受试者隐私保护、动物伦理、实验安全、知识产权等问题的描述与说明中。按照美国国家科学基金会生物科学理事会的要求,所有涉及人类受试者的资助项目,申请者都需要提交数据和安全监管计划(DSMP),并接受数据与安全监管委员会的指导和检查(DSMB)[25]。准确性要求不仅体现在对流程设计和内容描述的清晰易读与准确适用、对数据管理制度的准确把握与恰当回应上,还体现在对实验数据记录和原始记录保存等操作要求的规范上。美国国立卫生研究院针对美国国家科学基金会资助项目,制定了专门的《科学记录保管指南》,要求科研过程中产生的各类记录应易读、清晰、及时、全面、完整、安全、有备份且组织良好[26]。为增加研究人员数据管理计划制定的易操作性,一些资助方和研究机构还提供了数据管理计划撰写模板、内容清单、工具、培训等。如奥地利科学基金会开发了数据管理计划的撰写模板,冷泉港实验室提供了数据管理计划指南和工具平台用来协助创建数据管理计划。

数据管理是有成本的,资金保障性是数据质量控制的前提基础。目前,不同机构对数据管理的成本分担持有不同的意见,美国国立卫生研究院更关注资金的合理使用,明确规定研究经费不适用于不生成科学数据的研究和其他活动,包括培训、基础设施开发。而贝尔法斯特女王大学则主张研究人员应尽可能寻求从项目资助方获取直接的数据管理经费支持。

2.2    数据采集

生命科学数据采集包括数据生成和数据提交,涉及到作为数据生成者的研究人员及其机构和作为数据接收方的资助机构、出版商和数据平台,是數据质量控制的关键和基础。尽管公开可用的数据和完整的数据文档有助于计算的可重复性,但生命科学数据的可复制性、可再利用性受制于多种因素。“以微阵列数据为例,数据的质量取决于生成它们的生物学和实验条件以及处理数据的计算程序[37]”,因而,数据采集阶段的质量要求不仅仅是将实验室记录材料简单地数字化、数据化,还需要创建一套复杂的、可扩展的数据质量管理体系,如标准化词汇、数据注释与数据格式等。其中,保证数据的完整性、准确性、相关性、客观性和可靠性是这一阶段的核心(见表4),主要通过数据采集范围、采集标准的确定以及数据审查等关键环节来进行数据质量控制。

英国生态学会指出:“数据采集过程中的质量控制很重要,因为通常只有一次机会从给定的情况收集数据。”[38]这一环节质量控制的重点是数据采集方式、记录标准以及记录管理的规范性,需要解决的主要问题包括数据生成的逻辑问题、数据描述标准与格式(预先应设计模板、规定描述要素,如主题、实验细节、测试描述、控制条件、测试结果、结果说明等)、数据库结构设计以进行数据或数据文件的组织、使用代码-编码为变量分配数值以便统计分析等。同时,数据生成后的标识、描述和记录保存等还必须符合伦理与隐私保护等相关要求,美国国立卫生研究院规定,临床数据的采集应承担患者隐私和保密的额外责任,主要研究人员对于临床研究数据和记录的生成、保管负有最终责任。

制定数据标准、开发标准化的词汇和本体是这一阶段各方生命科学数据质量控制的主要手段。与资助方和研究人员及其研究机构相比,出版商的数据采集标准更为详细,尤其关注图表数据的采集质量。英国生物技术与生物科学研究理事会要求利用现有标准的同时鼓励学术社区制定目前尚不存在或未被广泛接受的标准,并为此类活动提供资助。Nature系列期刊在其编辑政策中指出图像必须正确标识原始数据并符合学术社区标准,F1000Research规定所有图像,无论是作为数字提交还是作为数据上传,都不得操纵,以免读者被误导。

数据审查是最为重要的数据内容质量前端控制措施,越来越多的资助机构和期刊出版商要求保存与提交文章或研究项目相关的整个数据集。绝大多数期刊出版商通过作者自查、编辑筛查、同行评审或者数据审查小组来实现对论文数据的质量审查,部分出版商采用了更为具体的反剽窃和预防数据伪造的举措。如Nature不仅严格作者自查、同行评审在内的审查流程,还要求作者必须提供支撑数据,并就实验及分析涉及所有细节进行条件和场景说明,确保数据、材料和代码能够准确反映原始内容,同行专家将在通讯评审中审查相关数据。此外,Nature还规定对数据进行评议的编委小组里必须包括至少一名数据标准审核专家,对作者提交数据的质量与可重用性进行评估,确保实验数据的严谨性与描述的完整性;Science指出文章的通讯作者必须检查其小组产生的原始数据;F1000Research指出编辑团队将使用 Adobe Photoshop 和美国研究诚信办公室开发的法医图像分析软件对随机选择的数字和数据进行检查。

仓储或存储平台十分重视生命科学数据采集流程的操作规范(见表5)。一方面,倡导数据开放,要求研究人员明确数据类型与提交标准,不断提升数据透明度和可访问性;另一方面,开展提交数据的自动检测或人工检测,以保障数据可用。如NCBI的GenBank是国际核苷酸序列数据库协作的一部分,为强化数据质量审查,其提交材料必须包括有关源生物体的信息和提交者提供的注释,并针对细菌基因组、高通量基因组等不同数据类型制定了详细的提交指南,所有提交材料由工作人员检查处理,确保无误后才能进入数据库存储。

2.3    数据组织

这一阶段的主要任务是通过良好的数据组织、结构化、命名和版本控制与数据标注,使之易于共享利用。由于数据的可解释性和可信赖性是影响生命科学数据利用的重要因素,这一阶段数据质量控制的侧重点集中在数据标识的规范性、标准化、有效性、可理解性等方面,并强调运用元数据、唯一永久标识符和删除更新的规范化操作等关键程序来控制数据质量(见表6)。

强化数据描述过程的质量控制是必不可少的重要环节。其中,元数据管理是重中之重,除文献信息管理的通用功能外,生命科学领域的元数据管理通过样本数据集的创建者、时间、位置、机构、上下文、谱系关系及迁移等信息描述,还有助于在庞杂分散的数据资源体系内建立数据关联、实现生命科学数据的语义检索和知识挖掘、方便用户对实验数据的复制和再利用进行追踪溯源。元数据质量控制的核心在于结合生命科学数据开发利用特点,从项目、数据等层面将元数据管理嵌入到生命科学数据应用系统/平台的研发、运营等业务流程,如直接融入开发编码、系统测试、版本控制等业务环节。由于生命科学数据种类繁多,异质性突出,不同类型的数据属性、名称缺乏规范,需要创建生物医学字典、定义最小核心元数据元素集等来实现数据描述的标准化,“学科领域内部也需要定义一套通用的病毒数据开放元数据标准以支持研究人员的跨库数据处理与交互[49]”。如冷泉港实验室综合利用数据字典、文件统一命名等方式来描述数据,要求所有文件应统一命名并遵循文件命名公约(FNC),还为每个数据文件/数据集创建读取文件以列出链接和描述特定文件夹中的所有文件;墨尔本大学要求以院系为单位建立研究数据登记表,登记表包含数据和记录的描述、相关研究人员和项目的名称、数据的位置(数字和模拟)、访问限制以及迁移、保留和处置期等信息;PLoS数据政策规定投稿人必须提交论文结论所需相关数据集及其元数据和方法,以便人们可以检索或利用软件系统来定位和掌握原始数据的生成背景与特征。

为满足数据内容的互操作性要求,项目资助方、期刊以及研究机构等均支持采用数字对象标识符系统(DOIs)和其他数据标识符来实现数据定位和管理,以保证数据利用的统一性和被引的科学性。维康基金会鼓励研究人员对其数据和软件输出使用数字对象标识符系统或其他永久标识符;Science系列期刊规定所有数据、程序代码和其他方法必须使用数字对象标识符系统;在数据内容的及时性要求上,对于数据的修改、更新、删除等操作,普遍要求遵循政策规定和业务程序,强调获准更改后方可执行,以保证及时更新与降低风险的双重目的。F1000Research规定数据版本一旦发布,便可在 F1000Research 网站上永久找到,不能更改或撤回,但作者可通过发布新版本来修改和更新文章。

2.4    数据保存

生命科学数据保存需要解决的基本问题包括哪些数据需要解决的基本问题包括哪些数据需要保存、谁负责保存以及如何保存等,所关注的主要环节涉及到数据保存形式、保存位置、保存格式、保留期限以及数据备份等,并要求实现数据保存的规范性、持久性、可迁移性、可恢复性和安全性的质量要求(见表7)。

(1)数据保存范围上,既包括存储要求的原始数据集和经过处理加工的数据集,也包括实验协议或实验流程、生物样本、元数据和其他支持材料,但不包括初步分析、论文草稿等。如加拿大基因组提出生物试剂如独特菌株应存入ATCC等资料库。

(2)数据保存格式上,除部分数据平台的专有数据格式要求外,普遍强调通用的、非专有格式保存。如冷泉港实验室(CSH)规定以非专有格式存储数据,并根据数据类型给文本文件、数据库、统计数据、食品和图片文件规定了具体格式(如文本以.doc,.docx保存);Science系列期刊规定图表数据要以标準机器可读格式存档(如csv、tsv、json 或 xml),F1000Research则规定应以CSV或TAB格式存入,如果图表数据包含可变标签、代码标签或定义的缺失值,则应将其存入 SAV、SAS 或 POR 格式。

(3)数据保存位置上,多数主体支持将数据保存在公开可用数据库中,可以是机构数据库也可以是学科主题数据库,鼓励将数据存储在re3data.org和FAIRsharing.org的注册数据库中(见表8),或根据数据类型选择同行认可的相应数据库(见表9)。Nature系列期刊规定作者必须将特定数据集提交至学术社群认可的公共数据仓储或平台,如蛋白质序列保存至Uniprot数据平台,并提供了一系列被认可及推荐的数据存储平台供作者选择。

(4)在研究人员的数据保留期限上,英国生物技术与生物科学研究理事会和奥地利科学基金会规定项目结束后至少可以保存10年,贝尔法斯特女王大学和墨尔本大学规定至少保留5年,美国国立卫生研究院规定数据研究项目结束后最少保存3年。

(5)数据备份要求上,大多机构强调通过数据异地、异质备份来应对潜在数据风险,以支持数据恢复。如冷泉港实验室规定建立3个备份,分别保存在本地、外部硬盘、云端,并要求定期检查备份数据;加拿大基因组规定建立1个异地异质备份;美国国家科学基金会生物科学理事会则会通过PAGES系统在异地备份。

2.5    数据共享利用

科学数据共享是确保生物科学领域研究透明且可复制的主要要素,同时也是防范学术欺诈和传播错误结果的有效监管方式,主要通过访问权限、知识产权许可和引用规范等关键环节的质量控制来保障数据的开放性、规范性、可访问性、可引用性、合法性和隐私性等要求(见表10),从而促进更广泛的数据利用。

在数据访问权限设置方面,一方面强调对隐私保护、动物伦理、商业秘密等信息法规制度的遵守;另一方面鼓励生命科学数据应在最大限度内开放,不能公开的数据需说明原因和获取条件。如Nature系列期刊的出版条件之一是作者必须促使相关研究材料、数据、程序代码及实验作业等准确迅速且不帶有不合理限制条件的供读者浏览查阅,手稿必须提供数据可用性声明,声明应包含支持论文研究结论的所有数据信息,如作者需对所提供材料或信息带有一定限制,则必须在提交时向编辑说明,并在论文中公开原因,涉及个人隐私或生物安全性的数据,必须在论文中注明数据获取的条件及限制。

在数据许可协议以及引用规范的设置方面,主要通过知识共享许可(CC BY),允许用户不受限制地使用、分发和复制数据,前提是原始数据能够被正确引用,力求实现数据开放与利益相关方合法权益保护的双赢。如美国国家科学基金会生物科学理事会规定引用应注明作者、发行或引用日期,使用唯一、可解析和持久标识符(如数字对象标识符)或者统一资源定位符(URL)进行引用;Science系列期刊要求遵循其引用格式规范,所有数据、程序代码和其他方法必须使用数字对象标识符、日志引文或其他持久标识符进行恰当引用。

3   研究结论与对策建议

数字化时代的生命科学属于数据密集型学科,“21世纪生物学面临的最重大挑战来自于数据类型的多样性、复杂性以及生物学层次结构和用户数据获取利用的多元化[51]”。完善的数据质量控制体系有助于强化数据生命周期内各环节的管理(见图1)。从要素构成与功能运行的系统性管理角度出发,生命科学数据质量控制体系的建立应聚焦主体层、流程控制层和基础层,核心是遵循生命科学学术研究规律,从学科属性与学术伦理的角度探索其数据管理特征,并将各方参与主体、各种数据管理制度标准、各数据流程关键环节以及数据基础设施与支撑资源等协同整合成为数据质量控制体系的有机整体,进而掌握不同阶段数据质量控制的基本要求(见表11),实现生命科学数据质量控制体系运行效益的最大化。为此,需要重点把握和处理好以下问题:

(1)总结生命科学数据管理特质与内涵。无论是数据来源与形式,还是数据产生条件与应用场景,生命科学数据资源的采集、存储、开发均对技术、管理、伦理、制度、标准、流程以及人员素质等提出了特定的要求,客观上也需要数据质量控制的方式、内容与生命科学项目研究、数据流程及运行规律相匹配。

(2)优化主体协作机制。生命科学数据管理涉及主体众多,不同主体对于数据采集、加工、存储、共享的条件要求与目标预期各不相同,其数据质量控制体系应结合数据管理应用场景,有效匹配资助方、研究人员及其机构、期刊出版方等不同主体数据质量控制的需求,加强不同主体间质量控制的业务衔接,不断调整与优化数据质量控制体系。

(3)强化流程质量控制力度。从数据管理计划编制到计划执行过程中的数据采集、组织、保存与共享等不同阶段,生命科学数据质量控制的重心、方法、要求与标准各有差异,既要关注数据内容层面的价值性维度,如数据自身的完整性、准确性、可靠性等要求,也要关注标准方法、数据加工处理技术等操作层面的工具性维度,如采用元数据的质量控制方法将各类数据的特征、关系、语义等进行规范化描述,从而形成连续性的数据质量监管框架。

(4)完善数据质量控制的基础保障。标准化的数据规范以及稳定、安全、便捷的数据平台/仓储等基础设施,均需要充分的人、财、物等基础保障,特别是工作人员的数据意识、数据技能直接影响到生命科学数据管理成效,既需要全方位的资源投入与健全的数据制度,也需要强化研究人员等责任主体数据行为的养成性指导。

参考文献:

[1]  陈鹏.生命科学信息的公共获取[J].中华医学图书情报杂志,2014,1(1):12.

[2]  Flatley B P,Stead W W.Assessing data quality:from concordance, through correctness and completeness,to valid manipulatable representations.[J].Journal of the American Medical Informatics Association Jamia,2000,7(1):106.

[3]  Weiskopf N G,Weng C.Methods and dimensions of electronic health record data quality assessment:enabling reuse for clinical research[J].Journal of the American Medical Informatics Association:JAMIA,2013,20(1):44-51.

[4]  KAHN M G,RAEBEL M A,GLANZ J M,et al.A pragmatic framework for single-site and multisite data quality assessment in electronic health record-based clinical research[J].Medical care,2012,50(7):S21-S29.

[5]  CHEN H,HAILEY D,WANG N,et al.A review of data quality assessment methods for public health informati on systems[J].Informational journal of environmental research and public health,2014,11(5):5170-5207.

[6]  Borisas B,Ramona B,Benoit B,et al.Minimizing proteome redundancy in the UniProt Knowledgebase[EB/OL].[2020-12-26].https://academic.oup.com/database/article/doi/10.1093/database/baw139/2742069#.

[7]  Nellore A,Jaffe A E,Fortin J P,et al.Human splicing diversity and the extent of unannotated splice junctions across human RNA-seq samples on the Sequence Read Archive[J].Genome Biology,2016,17(1):266.

[8]  Huntley R P,Sitnikov D,Orlic-Milacic M,et al.Guidelines for the functional annotation of microRNAs using the Gene Ontology[J].Rna-a Publication of the Rna Society,2016,22(5):667.

[9]  Etriks.Browse the eTRIKS recommended standards from Biosharing[EB/OL].[2021-03-07].https://www.etriks.org/standards-starter-pack/.

[10]  Mark D,McDowall,Midori A,et al.PomBase 2015: updates to the fission yeast database[J].Nucleic acids research,2015,43(Database issue):D656-61.

[11]  Casadevall A,Steen R G,Fang F C .Sources of error in the retracted scientific literature[J].Faseb Journal Official Publication of the Federation of American Societies for Experimental Biology,2014,28(9):3847.

[12]  Arturo,Casadevall,Lee,et al.A Framework for Improving the Quality of Research in the Biological Sciences.[J].mBio,2016,7(4):e01256-16.

[13]  Ulrike,Wittig,Maja,et al.Data management and data enrichment for systems biology projects[J].Journal of biotechnology,2017,261(11):229-237.

[14]  Hucka M.Systems Biology Markup Language(SBML)[J].Encyclopedia of Systems Biology,2013:2057-2063.

[15]  Taylor C F,Field D,Sansone S A,et al.Promoting coherent minimum reporting guidelines for biological and biomedical investigations:the MIBBI project[J].Nature Biotechnology,2008,26(8):889-896.

[16]  劉颖,王旋.医学领域国际学术期刊数据出版政策分析[J].中国科技期刊研究,2017,28(8):685-689.

[17]  Chen Q,Britto R,Erill I,et al.Quality Matters:Biocuration Experts on the Impact of Duplication and Other Data Quality Issues in Biological Databases[J].Genomics Proteomics & Bioinformatics,2020,18(2):91-103.

[18]  Heimo Müller,Dagher G,Loibner M,et al.Biobanks for life sciences and personalized medicine: importance of standardization,biosafety,biosecurity,and data management[J].Current Opinion in Biotechnology,2020(65):45-51.

[19]  simonhodson.I2S2:Infrastructure for integration in structural sciences[J].Jisc,2009.

[20]  Crowston K,Qin J.A capability maturity model for scientific data management[J].Proceedings of the American Society for Information Science and Technology,2010,47(1):1-2.

[21]  Michener W K,Jones M B.Ecoinformatics:Supporting Ecology as a Data-Intensive Science[J].Trends in Ecology & Evolution,2012,27(2):85-93.

[22]  Griffin P C,Khadake J,Lemay K S,et al.Best practice data life cycle approaches for the life sciences[J].F1000research,2017(6):1618.

[23]  Research Data Management at CSHL[EB/OL].[2021-02-15].https://cshl.libguides.com/c.php?g=696335&p=8032145.

[24]  江洪,王春曉.基于科学数据生命周期管理阶段的科学数据质量评价体系构建研究[J].图书情报工作,2020,64(10):19-27.

[25]  Data & Safety Monitoring Plans[EB/OL].[2021-03-15].https://www.niddk.nih.gov/research-funding/human-subjects-research/policies-clinical-researchers/data-safety-monitoring-plans.

[26]  National Institutes of Health Office of the Director.Guidelines for SCIENTIFIC RECORD KEEPING in the Intramural Research Program at the NIH[EB/OL].[2021-02-15].https://oir.nih.gov/sites/default/files/uploads/sourcebook/documents/ethical_conduct/guidelines-scientific_recordkeeping.pdf.

[27]  Proposal & Award Policies & Procedures Guide[EB/OL].[2021-02-15].https://www.nsf.gov/pubs/policydocs/pappg20_

1/index.jsp.

[28]  Directorate for Biological Sciences[EB/OL].[2021-02-15].https://www.nsf.gov/bio/pubs/BIODMP_Guidance.pdf.

[29]  Pubilic Access to results of NSF-Funded research[EB/OL].[2021-02-15].https://www.nsf.gov/news/special_reports/public_access/index.jsp.

[30]  Final NIH Policy for Data Management and Sharing[EB/OL].[2021-02-15].https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-013.html.

[31]  How to complete an outputs management plan[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/how-complete-outputs-management-plan#contact-us-dd23.

[32]  BBSRC DATA SHARING POLICY[EB/OL].[2021-02-15].https://bbsrc.ukri.org/documents/data-sharing-policy-pdf/.

[33]  Research Data Management[EB/OL].[2021-02-15].https://www.fwf.ac.at/en/research-funding/open-access-policy/research-data-management.

[34]  Genome Canada Data Release and Sharing Policies[EB/OL].[2021-02-15].https://www.genomecanada.ca/sites/default/files/publications/gcdatasharingpolicies16-09-23.pdf.

[35]  Research Data Management Policy[EB/OL].[2021-02-15].https://www.qub.ac.uk/home/Filestore/Filetoupload,910267,en.pdf.

[36]  Management of Research Data and Records Policy(MPF1242)[EB/OL].[2021-02-15].https://policy.unimelb.edu.au/MPF

1242.

[37]  Sparks R,Lau W W,Tsang J S .Expanding the Immunology Toolbox: Embracing Public-Data Reuse and Crowdsourcing[J].Immunity,2016,45(6):1191-1204.

[38]  British Ecological Society·A Guide to Data Management in Ecology and Evolution[EB/OL].[2021-03-15].https://www.britishecologicalsociety.org/wp-content/uploads/2016/04/Guide-to-Data-Management.pdf.

[39]  Open access policy[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/open-access-guidance/open-access-policy.

[40]  data,software and materials management and sharing policy[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/data-software-materials-management-and-sharing-policy.

[41]  Editorial policies[EB/OL].[2021-02-15].https://www.nature.com/nature-research/editorial-policies.

[42]  Editorial policies[EB/OL].[2021-02-15].https://www.sciencemag.org/authors/science-journals-editorial-policies.

[43]  Data Availability[EB/OL].[2021-02-15].https://journals.plos.org/plosone/s/data-availability.

[44]  Data Guideliness[EB/OL].[2021-02-15].https://f1000research.com/for-authors/data-guidelines#hosting.

[45]  European Molecular Biology Laboratory-European Bioinformatics Institute[EB/OL].[2021-02-16].https://www.ebi.ac.uk/.

[46]  The GenBank Submissions Handbook[EB/OL].[2021-03-07].https://www.ncbi.nlm.nih.gov/books/NBK51157/.

[47]  Introduction to PDB Data[EB/OL].[2021-02-16].http://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/introduction.

[48]  Neuroimaging Informatics Tools and Resources Clearinghouse[EB/OL].[2021-02-16].https://www.nitrc.org/.

[49]  儲节旺,林浩炜.典型生物医学元数据功能比较研究与启示[J].现代情报,2021,41(1):4-12,31.

[50]  孙轶楠,顾立平,宋秀芳,等.学科数据知识库的政策调研与分析——以生命科学领域为例[J].现代图书情报技术,2015,31(12):13-20.

[51]  Wooley J ,Lin H S .Catalyzing Inquiry at the Interface of Computing and Biology[M].national academies press,2005:35.

作者简介:夏义堃,女,武汉大学信息资源研究中心教授,研究方向:政府数据治理;管茜,女,武汉大学信息管理学院硕士研究生。

猜你喜欢

生命科学数据质量质量控制
案例教学法在生物化学教学中的应用研究
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
浅谈机车总风缸的制作质量控制
浅谈在公路桥梁施工环节的质量管理及控制
浅谈石灰土基层施工及质量控制
黄土路基台背回填的质量控制
生命科学学院开设研究生扫描电镜课程的探索
基于转化医学理念的生命科学教育实践探究