APP下载

基于生物医学科研数据仓储的图书馆数据管理服务

2019-08-05

中华医学图书情报杂志 2019年3期
关键词:生物医学数据管理科研人员

随着科研数据开放共享进程的推进,国际科研基金资助单位、科研机构、期刊出版商等纷纷对科研人员提出科研数据开放存取的相关要求及政策。由于不同学科领域对科研数据具有不同的要求,对科研数据进行学科领域的分析研究,才能更好地提供数据服务[1]。学科领域的科研数据管理政策决定着科研数据管理发展的方向,也是学科馆员做好数据管理服务的重要依据。

科研数据仓储(Data Repositories,DR)作为科研数据存储、发布、开放共享的重要途径,备受广大科研人员的关注。由于生物医学领域的数据形态多样[2],不同数据类别的科研数据仓储有着不同的特点。生物医学学科领域科研数据仓储对数据提交、数据管理以及数据使用的政策与要求,是生物医学学科馆员进行数据服务的抓手之一。因此,国内一些学者已经对国外生物医学领域科研数据仓储的特点、服务及政策进行了研究。如邹丽雪等人对国外生命科学领域科研数据仓储的建设年代、国家、机构、学科领域、开放程度等分布情况进行调研,并探讨了美英两国数据仓储建设对我国生命科学领域数据管理服务的启示[3];孙轶楠等人通过对有明确政策声明的38个国外生命科学领域的数据仓储的政策声明进行调研, 提出了生命科学数据仓储的管理规范框架[4]。

本文对生物医学领域的科研数据仓储在数据提交、数据管理和数据使用3方面的政策要求进行调研,以期找到数据管理生命周期的服务切入点,探索生物医学学科领域的数据服务模式。

1 研究方法及数据来源

本文研究对象主要来源于综合性的全球研究数据存储库注册库re3data.org的记录,截至2018年12月30日,该库共记录了3 927个数据仓储,其中生命科学领域的数据仓储[5]有1 261个,但只有18个数据仓储来自中国。考虑到全面性和代表性,笔者又查阅了我国生物医学领域科学数据共享平台,对这些数据仓储进行补充。通过人工阅读、筛选,最终选取了9个在国内外具有代表性的生物医学学科科研数据仓储进行调研分析(表1)。

表1 具有代表性的生物医学学科科研数据仓储

2 生物医学领域科研数据仓储的政策与要求

2.1 数据提交方面

由于生物医学学科数据的多样性和特殊性, 不同类型的数据仓储依照其覆盖的领域对科研人员提交的内容有不同的政策和要求。

2.1.1 对内容的要求

生物医学学科的数据仓储通常收录某个主题的数据,对数据类别有比较详细的说明。如GenBank,DNA DataBank of Japan(DDBJ)等基因序列数据库收集所有公开可获取的DNA序列数据,Worldwide Protein Data Bank(wwPDB)等收集分子结构数据,Gene Expression Omnibus(GEO)、ArrayExpress收集微阵列数据等。

除了对数据类别有要求外,数据仓储通常还对数据的范围有所要求。如国家人口与健康科学数据共享平台中医药数据中心要求数据是在各级科技计划项目实施过程中产生的并能够验证中医药科学研究得到的或发现的最后研究数据,包括实验室记录的经过验证的原始观测数据、实验数据、调查数据、考察数据、统计数据集等,但不包括初步的分析、论文草稿、未来研究计划等。

2.1.2 对格式的要求

大部分生物医学学科的数据仓储都要求按照学科领域的通用格式提交上传数据。Dryad虽然不限制所提交的数据文件格式,但鼓励采用现有标准。参与科研数据管理服务的学科馆员可以为科研人员提供现有国际或国内通用标准,鼓励科研人员按标准提交数据。

2.1.3 对数据质量的要求

数据质量是保证数据分析及重复使用的基础。数据仓储要求数据提供者保证其提交数据的准确性与可靠性,并认真填写元数据。参与科研数据管理服务的学科馆员可以协助科研人员监督数据的质量及元数据的填写完成情况。

2.1.4 数据权利的声明

科研人员向数据仓储提交数据时,会考虑自己的数据是否可以得到充分的保护及合理的传播使用。数据仓储通常会明确声明数据的著作权以及对数据的处理方式等。如国家人口与健康科学数据共享平台基础医学科学数据中心明确规定,国家和各级政府投资的科技项目所产生的数据属国家和生产单位共同所有,以公司和个人投资产生的数据属公司和个人所有,并须保证提交发布的数据不侵犯第三方的权利和利益。

2.1.5 数据的伦理问题

数据仓储通常会要求提交的数据不能来自违反科学伦理的实验或者采集。如GenBank 规定涉及人类基因序列的数据不能包括任何个人身份信息。

2.2 数据管理方面

科学数据仓储对数据提交者所提交的科学数据进行分类、分级存储和管理,并确保数据的物理安全。科研人员对提交到数据仓储的数据也有开放共享、维护的责任。

2.2.1 数据公开发布

提交到科研数据仓储中的数据通常有3种发布形式:一是完全保密发布,数据仅供自己使用或者课题组内使用;二是部分保密发布,即向数据提交者和部分授权学术同行发布,主要用于学术出版所需的同行评审;三是数据公开发布,任何人都可以使用该数据。参与科研数据管理服务的学科馆员应鼓励科研人员尽快公开发布其数据。

2.2.2 数据标识

生物医学科研数据仓储为保证数据未来可被重复使用及引用,会给提交的数据分配标识符,通常是唯一且稳定的编号ID。如GenBank数据库中使用的GI标识符,NCBI DDBJ EMBL序列的Accession.Version标识符等,Dryad则对提交的数据文件都给予DOI标识。科研人员在将数据用于学术期刊及数据期刊论文发表、注释及引用自己和他人数据集时,使用数据仓储分配的编号ID已成为规范。数据期刊指那些致力于发表数据论文的期刊,其重在描述实验和观察数据,并有效整合传统学术论文的内容和结构,力求在最大程度上促进数据重复使用,帮助用户进行检索和数据挖掘[6]。

2.2.3 数据维护

生物医学科研数据仓储中的数据除了少数提交的是最终版本,多数是长期动态更新的版本,数据随着时间的变化会不断增加或修改。数据仓储通常只显示最新版本,不同版本采用版本编号标识符区分,如V1、V2、V3等,以保证用户能同时访问原始数据文件和修改后的数据文件。数据仓储要求提交者每次修改或更新数据时需提交配套的说明文件。

2.3 数据使用方面

对科研数据合理的使用及重复使用能够挖掘科研数据的潜在价值,是科研数据的增值。

2.3.1 数据访问

数据仓储通常要求数据提供者注册为用户,以便确认提供者的身份。用户通常可以上传、浏览、检索、下载数据集。但有些数据库为了更好地保护数据提供者的权益,会对不同类型的用户进行区分,如普通用户和高级用户等,也可以由数据提供者分配不同用户的角色。如北京大学生命科学学院生物信息学中心数据空间建议数据提交者对用户进行角色区分,主要分为管理者、数据贡献者、数据维护者、文件下载者和内部成员。管理者(Admin)拥有全部管理权限,尤其是人事管理权限,建议只分配给团队中极少数最可信的同伴;数据贡献者(Contributor)有权管理数据文件,但不能修改数据空间或对数据集做整体变更;数据维护者(Curator)有权管理数据空间、数据集和文件;文件下载者(File Downloader)只可以下载数据文件;内部成员(Member)有权查看仍处于未公布状态的数据空间或数据集等。

2.3.2 数据使用

生物医学科研数据仓储普遍支持科研数据的开放共享和传播,可以自由下载、使用及传播。但有些数据仓储要求科研人员注册为用户后才能够上传或下载科研数据, 另一些数据知识库则会要求数据使用者支付或分担一部分的数据仓储维护费用。

一些数据仓储考虑到个别数据提供者在提交时的特殊需求,对数据使用做出了限制或写明要求,如出于项目保护需求(如尚未完成或成果尚未发表)、项目资助者要求(如有可能要求可以浏览、下载和利用数据验证科研成果, 但不允许利用数据形成新的产品)以及商业合同要求(数据集中存在采购得来的授权数据)等情况。考虑各方利益关系人的权益, 数据仓储可以确定一个合理的时滞期,如 Dryad 规定时滞期为1~10年。

2.3.3 数据引用

如同发表科技文献引用他人文献时需注明出处,科研人员使用他人的数据研究产出新的成果时,也要承认数据提供者的科研贡献,必须注明科研数据的来源。生物医学领域数据仓储的数据引用可以用数据仓储分配的数字资源标识符或者DOI号。如SPD数据库[7]引用方式为“Chen Y, Zhang Y, Yin Y, Gao G, Li S, Jiang Y, Gu X, Luo J (2005) SPD--a web-based secreted protein database.Nucleic Acids Res 33 Database Issue:D169-173”;炎症性角膜新生血管老鼠模型的微阵列全基因组基因表达数据集的引用[8]为“doi:10.1038/sdata.2016.103”。

3 基于数据仓储的学科数据服务

3.1 数据仓储的选择

科研数据管理离不开数据存储,数据仓储的选择与使用成为生物医学科研人员数据共享中必然面对的问题。然而生物医学数据仓储种类繁多、政策不一甚至质量参差不齐,给科研人员选择合适的数据仓储增加了难度。不同的数据仓储对内容、格式等的要求没有统一标准,这也给科研人员的数据管理工作带来困扰。学科馆员应对生物医学领域重要的数据仓储进行预先调研,了解其政策与要求,并与生物医学领域专家进行沟通形成知识资源的互补,然后通过科学数据信息素质培训为科研人员推荐合适的数据仓储,并帮助科研人员了解相关科研仓储的需求,提升其对科研数据共享的认知,使其能够合理选择数据共享的方式和途径。

3.2 提交到仓储的数据质量控制

科研过程中会不断产生大量的科研数据,提交到科研数据仓储的数据必须保证其质量。学科馆员在嵌入科研过程的服务中,不仅可以对数据产生过程进行监督,也可对数据上传过程进行监督,如指导元数据的填写、督促数据集的更新等。学科馆员可以为科研人员提供生物医学领域数据文件命名通用规则、版本控制的工具/系统以及可用的元数据及元数据标准。

3.3 数据仓储的使用政策及工具

关于数据访问、使用、重建及重复使用,每个数据仓储都有不同的政策及要求,学科馆员可以根据课题的数据仓储的要求和数据的类型为科研人员提供数据上传与下载工具、数据评估工具、数据分析工具(如Genomespace、Bioconductor等可视化分析工具等),以及一些数据预处理和通用的数据分析工具等。

值得一提的是,普渡大学图书馆的科研数据服务不仅搭建了科研数据仓储Purdue University Research Repository(PURR)[9],还在其中嵌入了数据管理计划服务。因此在科研用户开始科研立项之初就能帮助其制定资助机构要求的数据管理计划,提供自我评估工具(DMP Self-Assessment Tool),使用户了解数据管理计划中应包含的内容,并提供现成的模板,利用模板可直接创作数据管理计划放入申请书中。此外,还有学科馆员提供在线数据管理咨询服务,服务内容涵盖了制定数据管理计划、组织和管理数据、发现和使用研究数据等方面。

4 结语

数据仓储是科研数据管理服务的重点,不仅是科研人员有效保管自己科研活动重要数据的途径,还是新科学发现的基础。目前,虽然我国在《科学数据共享工程建设规划》《科学数据共享条例》《国家科技计划项目科学数据汇交办法》和《科学数据分类分级共享及其发布策略》等政策基础上建立了国家人口与健康科学数据共享平台,但生物医学科研数据仓储的整体建设与英美等国还存在差距,远远不能满足我国生物医学科研数据的需求。

生物医学图书馆及学科馆员在科研数据服务方面应承担起更多责任,如建设嵌入科研数据生命周期中的小型或临时数据仓储,为科研人员提供数据协作环境等软硬件设施,并在数据仓储中提供数据管理的各种相关咨询服务,使科研人员能够更好地利用数据仓储进行科研数据管理与共享。

猜你喜欢

生物医学数据管理科研人员
刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
灵长类生物医学前沿探索中的伦理思考
科研人员破译黑猪肉特征风味物质
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
治疗艾滋病,中国科研人员有了新发现
广东公安科研人员风采