面向FAIR原则的《科学数据管理办法》优化研究*
2022-04-08邢文明肖嘉丽陈继丽
邢文明,肖嘉丽,陈继丽
随着计算机、互联网、传感技术和科研信息化的飞速发展与广泛应用,人类正以前所未有的速度产生和积累了海量科学数据。这些数据给人类既带来了机遇,也带来了挑战。一方面,科技创新越来越依赖于对大量、系统、高可信度的科学数据的分析挖掘和综合利用,科学数据已成为科学研究和知识发现的基础。因而,越来越多的国家将其视为重要的基础性科技资源,通过制定相关政策、为科学数据的存储与监护提供基础设施及服务、为科研人员提供指导帮助等多种措施推动科学数据的管理和开放共享,以实现科学数据的广泛再利用,发挥其推动科技创新、降低科研成本、规范科研过程以及促进科研诚信等多方面的价值[1]。另一方面,并非仅仅将科学数据公开或提交到数据存储库就能实现共享和利用,只有确保数据易于发现、获取、理解、操作,才能保障数据的有效共享,充分发挥数据的潜在价值。特别是随着大数据和数据密集型科研范式的迅速发展,如何对数量巨大、分布广泛、来源多样、标准不一的数据进行管理、整合和重新利用已成为科学界面临的一大难题。为了推动科学数据的大规模集成和高效重用,在2014年荷兰莱顿举办的一次讨论会上,包括科研界、工业界、资助机构和学术出版社在内的相关领域人士汇聚在一起,共同讨论形成了一套简洁且可衡量的数据管理原则——FAIR(Findable,Accessible,Interoperable and Reusable)原则,旨在通过广泛协商形成一套共同认可的科学数据管理和开放的原则规范,以促进数据的有效共享利用,推动科学数据开放共享愿景的实现。
我国高度重视科学数据的共享利用,建立了科学数据共享工程,在农业、林业、水文水资源等多个领域启动了科学数据共享试点项目,随后在基础科学、农业、林业、海洋、气象、地震、地球系统科学、人口与健康等领域建立了国家科技资源共享服务平台,初步形成了一批资源科学数据中心,发布了《国家科技计划项目科学数据汇交暂行办法(草案)》《科学数据共享工程技术标准(征求意见稿)》《国家重点基础研究发展计划资源环境领域项目数据汇交暂行办法》《科学数据管理办法》(以下简称《办法》)和《国家科技资源共享服务平台管理办法》等系列政策规范,有力地推动了我国科学数据的管理和开放共享。作为我国首个国家层面的科学数据管理办法,《办法》明确了我国科学数据管理的总体原则、主要职责、数据采集汇交与保存、共享利用、保密与安全等方面内容,对进一步加强和规范我国的科学数据管理,推动科学数据的开放共享,更好地为国家科技创新、经济社会发展和国家安全提供支撑具有重要意义。然而,虽然《办法》初步明确了我国科学数据开放共享的管理机制和工作内容,但对于如何确保科学数据开放共享的标准化、规范化还不够具体明确,有待在实施细则或政策修订时进一步优化完善[2]。作为我国第一部专门规范科学数据管理共享的政策,《办法》对FAIR原则的支持度如何?是否可以将相关原则理念纳入政策中以推动该原则在我国的实施?本文拟建立观察框架,考察《办法》对于FAIR原则内涵的支持程度,在此基础上提出相关改进建议,以更好地推动我国科学数据的开放共享。
1 文献综述
FAIR原则得到众多机构和主体的引用、认可与采纳。Science Europe将FAIR原则作为管理和共享科研数据的基础。《二十国集团创新行动计划》提倡加强科学研究活动的合作并鼓励基于FAIR原则推动开放科学和开放获取[3]。美国国立卫生研究院(National Institutes of Health,NIH)发布《数据科学战略计划》(NIH Strategic Plan for Data Science),目标是确保由NIH资助的全部数据科学活动和相应产品符合FAIR原则,并将制定和实施相关政策作为推进该目标的重要措施之一[4]。欧盟委员会将FAIR原则纳入开放科学建设体系,英国、瑞士、荷兰等多个欧洲国家对FAIR原则积极响应[5]。国外学者积极探讨FAIR原则的内涵及实施,包括:FAIR原则的介绍[6]及其实施[7]研究;支撑数据管理FAIR化的技术平台基础(如建立本地网络基础设施[8]、引入Fedora开源存储库平台[9]);FAIR原则在各个科学领域的应用研究(如提高生物制药行业研发效率[10]、改善B2B数据治理技术[11])。国内学者重点关注FAIR原则的应用研究,包括:国外推进FAIR原则实践的经验总结[5,12];FAIR原则产生背景及内容介绍[13-14];FAIR原则在不同领域的应用研究[15-18]等。整体而言,国内学者对FAIR原则的关注度持续上升。
学者围绕《办法》进行了多角度研究。一是《办法》的解读与优化建议,如从科学数据生命周期[19]、利益相关者[20]、政策文本量化[21]、政策议程[22]等视角对《办法》中科学数据共享与利用[23]、管理体制及安全措施[24]等方面进行解读,揭示《办法》蕴含的丰富思想和智慧结晶,提出增加科学数据治理措施[25]、完善科学数据质量要求[26]、明确属于“商业秘密”的科学数据类型[27]等修订建议。二是《办法》实施现状与策略研究,各级政府主管部门是推进《办法》落实的主力军,其他科学数据利益相关机构落实程度差距较大,总体上不太理想[28]。利用区块链核心技术可解决《办法》落实中数据版权与外流、用户隐私及应急备份、成效考核评价等多方面的现实困境[29]。三是从《办法》确立的原则规范出发,探讨其对科学数据管理与共享的指导意义,如从数据生命周期视角构建高校科学数据管理流程[30],高校应建立科学数据管理制度[31]。
2 研究设计
本文借鉴FAIRsFAIR(https://www.fairsfair.eu/,一个旨在促进欧洲FAIR数据实践的组织)于2019年11月发布的“FAIR政策现状扫描”[32](Fair Policy Landscape Analysis)报告中采用的政策分析方法。该方法基于欧盟委员会FAIR数据专家组(European Commission Expert Groupon FAIRData)发布的《将FAIR变成现实》(Turning FAIRinto Reality,TFiR)报告中提出的相关政策建议,提炼出支持和促进FAIR原则的数据政策应具备的特征和要求(部分示例见表1),进一步根据这些要求提炼出FAIR政策的相关要素(见表2)。由表2可知,基于TFiR报告,共提炼出13个FAIR政策要素,其中外部特征要素3个,内容要素10个。这些要素有助于将FAIR原则的要求融入政策,借助政策的强制约束力推动FAIR原则在实践中落实。
表1 TFiR相关建议与行动计划对科研数据政策的要求(部分示例)
表2 FAIR政策要素及内涵
3 《办法》对FAIR原则的支持度
根据上述政策要素,本文对我国《办法》进行梳理分析,考察其对FAIR原则的支持程度,将每个要素的支持度划分为“完全支持”“部分支持”和“不支持”3个级别,详见表3。由表3可知《办法》对于FAIR原则的相关要求,完全支持的要素有2个,即允许不共享数据和要求数据引用。部分支持的要素有5个,包括:提供政策制定/更新日期、为政策赋予永久标识符、政策是机器可读的、对数据进行明确定义、要求数据共享。不支持的要素有6个,分别是:明确提及FAIR原则;支持与科研数据管理(RDM)相关的、使数据FAIR化的合理成本;要求制定数据管理计划;如果允许不共享数据,应要求说明理由;要求元数据共享;提供指导、培训或支持以促进政策的实施等。
表3 《办法》对FAIR原则的支持度
3.1《办法》完全支持的要素
(1)允许不共享数据。并非所有的数据都适宜无条件公开,对于那些涉及国家安全、个人信息、商业秘密,以及其他不适宜共享的数据,应允许其不予共享。国外不少政策都明确指出:(研究人员)如有正当理由,可以不分享科研项目产生的数据,但应说明其理由。如欧盟委员会为“地平线2020”计划制定的“数据管理手册”指出:如果某些数据集无法共享(或需受限共享),请解释原因[33]。我国《办法》也遵循这一理念,第25条指出:涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据,不得对外开放共享。可见,《办法》充分认识到了科学数据共享的复杂性,在明确要求数据共享的同时也支持和允许不共享的情况。
(2)要求数据引用。对使用的数据进行合理引用是对数据提供者的最高奖赏[34]。《办法》第23条指出:科学数据使用者“在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据”。同时,我国国家标准化管理委员会于2017年底公布《信息技术 科学数据引用》(GB/T 35294-2017)国家标准,这对于推动我国科学数据共享实践以及FAIR原则的实施都具有重要的意义。
3.2 部分支持的要素
(1)提供政策制定/更新日期。TFiR报告指出:默认情况下,整个FAIR生态系统及其每个组件都应该是人和机器可读、可理解和可操作的;同时,政策应在政策注册中心进行版本化、索引和语义注释,以便在FAIR数据生态系统中广泛重用。为支持上述目标,政策应明确提供其制定(或生效)的日期,计划何时进行评审/更新等。尽管国务院办公厅在印发《办法》时注明发文日期,但并未说明未来将进行评审/更新的时间,因而有待加强。
(2)为政策赋予永久标识符。永久标识符(Persistent Identifier,PID)能够对数字资源进行持久、唯一地标识,有助于资源的引用、识别、定位和长期保存,在数字出版、数字资源长期保存等领域得到了广泛应用。同时,永久标识符还有助于机器自动提取政策的相关信息,与其他数字资源对象进行信息交换等。尽管我国在制定和发布《办法》时为其分配了发文字号(国办发[2018]17号),在一定程度上有助于查找该政策,但这并不是通用的永久标识符,无法通过该发文号与其他数字对象进行信息交换,且《办法》也未在国际相关政策登记系统进行注册登记,这不利于《办法》的国际交流。为了保持相关工作的连贯性与稳定性,未来在对《办法》进行修订时,除了分配发文字号,还应推动政策在DOI系统进行注册,为政策赋予永久标识符以推动FAIR生态系统的构建。
(3)政策是机器可读的。机器可读不仅意味着政策内容能够被机器/程序解析(如采用HTML格式),还能被机器/程序理解和推理。目前,越来越多的网页或文档已开始使用结构化数据标记模式对文档的章节段落进行标记,以便于搜索引擎或程序识别/理解其具体内容。尽管《办法》以HTML格式发布,但却没有对其各部分内容和章节进行结构化标记,使得机器和相关程序(如搜索引擎)无法直接定位到其具体章节段落,无法对政策的具体内容进行解析和处理。因而,亟待运用结构化数据标记模式对政策进行标记和发布,促进政策内容的机器可读性和可操作性。
(4)对数据进行明确定义。为避免混淆,政策制定者必须明确其数据政策涵盖哪些研究成果。因此,为“数据”提供明确的定义不仅是一种良好实践,也是FAIR原则的内在要求。国外一些政策对科学数据的定义进行了较为详细和明确的说明,如英国国家科研与创新署(UK Research and Innovation,UKRI)发布的《开放研究数据协议》(Concordat on Open Research Data[35])一方面从抽象概括的角度对数据进行界定,指出:“研究数据是支撑研究问题答案的证据,可用于验证研究结果,无论其形式如何(如印刷、数字或物理的),这些信息可能是研究人员在工作过程中通过实验、观察、建模、访谈或其他方法收集的定量信息或定性陈述,或者是从现有证据中获得的信息。数据可以是天然的或原始的(如直接来自测量或收集),也可以是从基础数据集中提取以便进行后续分析或挖掘(如从其他数据集中整理或提取),或来自他人所拥有的数据”。另一方面通过举例加以说明:“它们可能包括统计数据、数字图像集、录音、访谈记录、调查数据、带有适当注释的实地观察记录、艺术品、档案、自然物品、已发表的文本或手稿等。”尽管《办法》第2条对科学数据的范围进行了界定,但不够明确具体。
(5)要求数据共享。从实际角度出发,科学数据共享并非仅仅向他人提供自己拥有的数据或将自己的科学数据公开这么简单。一方面,并非所有的数据都适宜无条件公开,需要清楚说明数据的开放程度/范围和使用时应遵循的相关要求;另一方面,并非将数据提交到开放储存库就意味着能顺利实现再利用从而发挥其价值。应从数据需求者的角度出发,确保他们易于发现/找到数据、易于访问/获取数据、清楚数据使用的条件及要求,并能正确理解/操作数据,只有这样,才能实现数据重用的目标。FAIR原则正是考虑了这些实际问题和需求,要求在项目/研究正式开始前就通过数据管理计划对数据共享进行规划和计划,包括:将收集哪些数据?项目/研究结束时哪些数据可以公开?通过什么平台、如何公开?如何确保数据易于查找和获取?如何确保数据易于理解和进一步分析利用?尽管《办法》从多个角度对科学数据的共享进行了要求,如第十九条指出“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则”,依照规范程序向社会和相关部门开放共享。第20条指出法人单位“要按要求公布科学数据开放目录”。但从FAIR原则的视角来看,还远远不够,难以确保科学数据的需求者有效获取和利用数据。因而,有待从FAIR原则的理念要求出发,进一步细化数据共享规范,以确保数据共享顺利进行,只有这样,才能充分发挥数据的价值。
3.3 不支持的要素
(1)明确提及FAIR原则。在政策中明确提及FAIR原则,表明政策制定者了解和认可FAIR原则的理念内涵,对支持和促进FAIR原则的实施具有重要意义。尽管《办法》包含了FAIR原则内涵的某些方面,如:要求法人单位及科学数据生产者按照相关标准规范开展科学数据的采集生产和加工整理,并建立科学数据质量控制体系,保证数据的准确性和可用性;支持科学数据共享;要求法人单位建立科学数据保存制度,配备数据存储、管理、服务和安全等必要设施,保障科学数据完整性和安全性;支持建立科学数据中心,开展科学数据的整合汇交、加工整理、开放共享等工作;要求科学数据使用者对数据进行引用等。然而,《办法》并没有明确提及FAIR原则,不利于我国科学数据资源整体实现FAIR化,限制了科学数据价值的充分发挥。
(2)支持与科研数据管理相关的、使数据FAIR化的合理成本。将科研数据FAIR化需要科研人员在整个科研过程中付出一系列额外的时间和精力,特别是一些环节可能还需要直接的资金投入(如购买所需要的软件),如果没有相应的经济补偿和激励措施,他们可能缺乏这一动力。欧盟委员会资助的一项调查发现,超过80%科研人员认为缺少资金支持是数据管理与共享中面临的最主要困难[36]。因而,相关研究呼吁在政策中明确支持数据管理和共享可能产生的成本[20]。《办法》并没有说明为科研数据的管理提供资金支持。笔者查询国家近年出台的一系列重要的科技计划项目资金管理政策,如《国务院关于改进加强中央财政科研项目和资金管理的若干意见》[37]《国家重点研发计划资金管理办法》[38]《关于进一步优化国家重点研发计划项目和资金管理的通知》[39]等均未明确提出相关资金可用于对科研项目中产生的数据和资料进行管理。
(3)要求制定数据管理计划。国际上,通过数据管理计划(DMP)推动科学数据的有效管理,并最终促进数据高效共享已成为普遍共识。欧盟委员会FAIR数据专家组为推动FAIR原则实施而发布的《将FAIR变成现实》充分吸收了这一最佳实践,指出:任何研究项目都应将数据管理作为实现其科学目标所必需的核心要素,并通过数据管理计划加以实现。应在项目开始时就制定详细的DMP,并在项目实施过程中随时或定期进行更新,项目结束报告应包括对DMP的报告[40]。《办法》尚未要求实施数据管理计划。可喜的是,中国科学院2019年2月11日发布的《中国科学院科学数据管理与开放共享办法(试行)》中已明确要求将“科技项目数据管理计划”作为项目立项的必要条件,列入项目评审内容,并明确了科技项目数据管理计划主要内容:项目预期产生的数据内容、类型、规模、质量、提交时间和最终汇交的科学数据管理机构名称等[41]。未来我国应加大数据管理计划的应用与推广力度,将数据管理计划纳入相关政策中,推进FAIR原则的应用和我国科学数据的开放共享。
(4)如果允许不共享数据,应要求说明理由。并非所有的数据都适宜无条件公开,对于那些涉及国家安全、个人信息、商业秘密,以及其他不适宜共享的数据,应允许其不予共享。但一些科研人员或机构可能会以此为由,将本应共享的数据不提供共享。为避免这种情况,政策应明确要求科研人员对于认为不宜开放的情况,提供合理充分的理由,证明确实不应开放共享。这样,既可以确保不适宜共享的数据得到有效保护,又有利于其他数据的充分共享。《办法》虽然也对不能开放共享的情形进行了明确,指出“涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据,不得对外开放共享”,但并没有要求提供相关理由,也未明确数据保密的审查程序,这可能会导致部分科学数据因过度保护而无法共享的情况。
(5)要求元数据共享。为了使科学数据能够被理解和重新利用,应为其提供充分详细的元数据信息和有关数据的来源及背景信息的支持文档。为科学数据(集)提供基本的元数据仅能支持其被发现,要想理解和重用数据,还需要了解有关数据是为何、如何、何时创建、由谁创建,以及创建时的环境条件、使用的设备与软件、操作步骤等一系列背景信息。可见,元数据及相关文档是实现科研数据FAIR化的关键要素。分析发现,《办法》在要求数据共享的同时,并没有要求数据拥有者同时共享科学数据集的元数据信息,这不利于确保数据共享的最终实现。
(6)提供指导、培训或支持以促进政策的实施。尽管科研数据开放共享的意义已得到普遍认同,但科学数据的开放共享在很大程度上仍处于“都喜欢但很少做”的状态[42]。由于缺乏数据管理与共享的能力、激励和支持[43],科研人员迫切希望能够得到帮助和培训,以提高自身的数据素养[44]。一些研究也表明,尽管越来越多的科研人员认识到科研数据的价值,但不知道如何管理和保存科研数据,不知道有哪些资源与工具可以利用[1]。这说明为科研人员提供指导/培训/支持的必要性。国外在制定相关政策的同时还发布了相应的政策指南,如欧盟为其Horizon2020项目制定《Horizon 2020 FAIR数据管理指南》(Guidelines on FAIR Data Management in Horizon 2020),为科学数据的管理、发布和共享提供详细的指导参考,从而促进了科学数据的共享与重用。研究数据联盟(Research Data Alliance,RDA)发布《FAIR数据成熟度模型:规范和指南》[45],提出数字资源对FAIR遵循度的评估方法。尽管《办法》要求法人单位要为科学数据提交/汇交、保存、共享利用提供相应的标准规范、规章制度、平台设施,但较宏观和抽象,缺少指南和说明,也缺少指导、咨询与帮助措施。因而,我国在将FAIR原则纳入政策的同时,还应尽快发布相关政策指南以促进政策的实施。
4 《办法》FAIR化的优化建议
4.1 将FAIR原则的理念及内在要求融入政策内容
应在已有研究与实践探索的基础上,与利益相关者协作,形成一系列共同认可的FAIR原则政策要素,并将之融入政策内容,以推动FAIR原则的实施。在实践过程中,应重点关注那些能够成为“规则”的政策要素,而不是将FAIR原则落实到科学数据管理与共享中的实践建议(这些实践建议可通过政策指南的方式体现)。
4.2 将数据管理计划作为推动数据共享的手段
FAIR原则的落实离不开在整个科研周期对相关数据进行良好整理与管理,而该目标的实现离不开数据管理计划的支持。因而《办法》应将数据管理计划纳入政策,主管部门和法人单位应要求科研人员在科研项目正式开始前编制数据管理计划,考虑如何管理和共享科研过程中产生的数据,以确保科学数据从一开始就符合FAIR原则的要求。同时,政策应要求在整个研究生命周期内根据实际情况和需要随时(定期)更新数据管理计划,确保数据管理计划与实际情况保持一致。此外,数据管理计划还应考虑数据管理与共享过程中可能产生的相应成本,以便资助部门在科研项目立项时对合理且必要的成本给予支持。《中国科学院科学数据管理与开放共享办法(试行)》已将“科技项目数据管理计划”作为项目立项的必要条件,列入项目评审内容。未来应进一步加大数据管理计划的应用范围,将其作为推动FAIR原则实施,促进科学数据开放共享的重要工具。
4.3 使用结构化数据标记模式标记文档内容
结构化数据指使用专门的格式进行标记、嵌入在HTML网页中、有着良好的结构且相互关联的数据[46]。它通过在网页中使用结构化标记实现数据与样式分离,以简单、有效的方式提升文档内容在搜索引擎上的用户体验和准确性,得到了Google、Bing、Yahoo等国外主流搜索引擎共同支持。目前越来越多的网页或文档已开始使用结构化数据标记模式对文档内容进行标记,以便于搜索引擎或程序识别/理解其内容。因而,《办法》也应充分利用这些最新规范,使用结构化数据标记模式对政策进行标记和发布,促进政策内容的机器可读性和可操作性。
4.4 将共享元数据作为推动数据FAIR化的内容
为促进FAIR原则的落地,应在政策中明确要求共享描述和说明数据集的元数据。元数据可用于构建数据集的索引,从而确保数据集易于发现。尽管《办法》对科学数据共享做出了明确要求,但如果没有相应元数据,数据需求者就难以找到所需数据,即便幸运地获得数据集,也可能因为不了解数据含义而无法利用。数据集和描述它们的元数据应是单独的文件,两者通过数据集的永久标识符进行关联。应在元数据中包含数据集充分全面的信息,包括:有关数据背景的信息:由谁收集/生成的(数据集生成日期、实验条件、操作者、所用软件的名称和版本、参数设置等)?是如何处理的?是否包含来自他人的数据等;有关数据(集)本身的信息:如变量名称及含义等;数据集的永久标识符;数据的许可证,明确说明在什么条件下,哪些人可以访问和使用数据。这样,才能确保任何其他研究人员或他们的计算机都能够易于找到所需数据,正确理解数据,合理高效使用数据。
4.5 制定政策指南以促进政策的实施
对不少科研人员来说,FAIR原则还是一个陌生概念。不少科研人员从未听说过该原则,另一些人则对FAIR原则如何在科研实践中落实感到困惑[10]。因而,为FAIR政策制定相应的实施指南对于促进政策的落实具有重要意义。TFiR行动计划也指出,应为FAIR原则的实施(添加元数据、制定和落实数据管理计划、为数据添加永久标识符等)制定相关指南[40]。国外一些机构在发布科学数据管理共享政策的同时还制定了相关指南,就政策中的相关问题进行解释说明,帮助科研人员更好地理解和执行政策。如欧盟为其Horizon2020项目制定《Horizon 2020 FAIR数据管理指南》(Guidelines on FAIRData Management in Horizon 2020),为科研人员基于FAIR原则进行科学数据的管理、发布和共享提供详细的指导参考。我国相关政策也应从宏观规划向具体实施逐步迈进,即在为《办法》增加FAIR要素和要求的基础上,各政府机构、科研院所、研究单位等可根据自身需求和责任制定相应的实施指南,为科研人员制定和实施数据管理计划、在科研过程中进行数据管理、为数据添加元数据、数据开放与存储、确定许可协议、如何引用数据等方面提供指导和帮助,促进良好政策环境的形成,推动政策高效的实施。
4.6 将财政支持作为政策落实的根本保障
稳定的财政支持有助于科学数据开放共享产生的成本得到基本保障,建立相应的奖励机制能够在某些程度上减少科学数据共享过程中的阻碍。欧洲开放科学云(European Open Science Cloud,EOSC)呼吁,应为开放科研数据和遵循FAIR原则的研究人员给予职称评估和项目评估上的奖励,且与大学和研究机构的其他职业政策(聘任、晋升等)同步进行[47]。德国与瑞士科学基金会在相关政策中提到,将会资助科研人员的数据提交工作。合理的奖励能提高科研人员的共享意识,也能让他们为数据共享作出的努力与贡献得到充分的认可,进而提升行动力。
5 结语
随着大数据时代的到来、数据密集型科研范式和开放科学运动的发展,推动科学数据的开放共享以实现数字资源的最大限度再利用,进而加速科技创新、经济高质量发展和社会全面进步已成为国际社会共同努力的目标。FAIR原则的推出正是国际科学界为这一目标协同努力的结果,旨在进一步指导和促进数字资源的可发现、可获取、可互操作和可重用性,从而不断提升数字资源的机器可解析和可操作性,帮助人类应对大数据时代的挑战,适应数据密集型科研范式的要求。然而,FAIR作为一套指导科研人员处理科研结果和数字资源的原则,并非一个可操作的标准,如何在现实中落实,还有待进一步探索具体方案。
欧美国家通过完整清晰的立法与政策来推进FAIR原则的实施,各基金组织、出版发行机构、科研机构等也在数据政策制定方面积极向FAIR原则的要求靠拢,如瑞士国家科学基金会(Swiss National Science Foundation)、荷兰国家科研基金(The Netherlands Organisation for Scientific Research)[48]、奥地利科学基金会(Austrian Science Fund)[49]、挪威科研理事会(The Research Council of Norway)[50]均将FAIR原则纳入科研数据管理与开放政策中。Taylor&Francis出版集团在其数据共享政策中要求数据应符合主题领域制定的FAIR标准[51]。我国尚未出台国家层面的FAIR原则相关政策,但在出版、医学等领域已经开始探索:北京大学开放研究数据平台加入Datacite数据中心获取DOI,促进研究数据的传播、重用和规范引用;有研究者基于FAIR原则构建了循证医学文献数据本体,以实现医学知识的再现与迭代[16]。因此,有必要深化对科学数据FAIR化的价值认识,结合我国已有的政策基础,从战略层面纳入FAIR原则的相关精神理念,并通过发布政策实施指南、完善相关配套基础设施(如支持FAIR原则的数据存储中心和数据开放、发布、出版平台)、构建标准规范(如符合FAIR原则的数据引用标准)、强化指导培训和支持服务等,以推动FAIR原则的全面落实,促进科学数据资源的最大限度开放共享与重用,助力我国创新驱动发展战略。与此同时,各相关责任者应与时俱进,尽快将科学数据开放与共享工作落到实处,如:科研机构可明确符合FAIR原则的数据格式与元数据规范,要求数据提供者提交符合FAIR要求的研究数据。科学数据平台也可采取措施支持数据FAIR化。
注释
①结构化数据标记模式(structured datamarkup schema):指使用专门的格式进行标记、嵌入在HTML网页中、有着良好的结构且相互关联的数据。