高校图书馆推进FAIR 数据管理原则实施的服务调研
2022-09-20邢文明
邢文明,刘 我
(湘潭大学公共管理学院,湘潭 411105)
1 引言
随着科学研究工作的不断推进,科学数据数量飞速增长,数据来源更加多样化,数据格式更加复杂,尽管国际社会大力倡导并积极推动科学数据开放共享,仍有大量的科学数据难以被查找、获取和重用,从而阻碍了同类研究的相互支持和借鉴。为此,国际学术界提出了一套促进数字资源开放共享的科学数据管理准则:可发现(Findable)、可访问(Accessible)、可互操 作(Interoperable)、可重用(Reusable),简 称“FAIR 原则”。FAIR 原则发布后得到了多方支持和探索实践,2016 年杭州G20 峰会通过的 《二十国集团创新行动计划》 鼓励在FAIR 原则下推动开放科学和开放获取[1];欧盟委员会将FAIR 原则纳入开放科学建设体系,英国、瑞士、荷兰等多个欧洲国家对FAIR 原则积极响应[2];美国国立卫生研究院(National Institutes of Health,NIH)发布的 《数据科学战略计划》 中制定了策略方针以确保由NIH 资助的全部数据科学活动和相应产品能够符合FAIR 原则[3];澳大利亚发布了FAIR政策声明,致力于推动公共资助的研究成果遵循FAIR原则[4]。与此同时,FAIR 原则相关的学术研究也逐渐增多,其中,国外学者重点围绕FAIR 理论观点的解析、建议和应用进行探讨,如MONS[5,6]、BOECKHOUT[7]、JACOBSEN[8]和DAVID[9]等对FAIR 原则进行解读并提出其需要应对的挑战和建议;KOSTER[10]、BHATIA[11]、CALAMAI[12]和LAMPRECHT[13]等研究了FAIR 原则在馆藏、医疗等领域的应用;国内学者着重进行FAIR 原则的解读和实践探讨,如邢文明[14]、张文萍[15]和宋佳[16]等对FAIR 原则进行解读和深入分析;段青玉[17]、邱春艳[2]和翟军[18]等通过网络调查FAIR 原则实践情况获取经验和启示。
图书馆长期作为信息资源收集、整理与开发利用的科研支持服务机构,拥有信息与数据组织整理、存储保存、开发利用的丰富经验,能够为科研数据的管理与共享利用提供支持、指导与服务。随着科学研究逐渐向数据密集型研究范式转换,图书馆一直是开放科学、开放数据以及FAIR 原则的重要参与者,甚至是重要的倡议者、推动者和引领者。白玫瑰大学联盟(White Rose University Consortium)开展的一项国际调查显示:大部分北美、澳大利亚、欧洲机构的科研数据管理政策源自学校图书馆[19]。同时,图书馆还基于自己的专业优势,为科研人员管理和共享科研数据提供支持与服务,是推动科学数据政策得以实施的重要力量[20]。随着FAIR 原则的提出,一些图书馆也敏锐地关注并参与到该原则的推广应用过程中。欧洲研究图书馆学会发布的 《开放科学路线图》(LIBER Open Science Roadmap)将FAIR 原则作为未来研究图书馆需要重点关注的七大领域之一[21],莱顿大学图书馆[22]、乌德勒支大学图书馆[23]、昆士兰大学[24]等图书馆的馆员发文介绍本馆推动FAIR 原则实施或围绕FAIR 原则实施的相关问题进行探讨。图书馆在FAIR 原则的推广与实施过程中开展了哪些服务,应扮演什么样的角色?如何取长补短,更好地发挥自己的作用与影响力?本文拟采用网络调查法,对国内外高校图书馆推进和实施FAIR 的情况进行调查分析,为中国图书馆开展FAIR 服务提供借鉴,促进FAIR 原则在中国的传播与应用,推动中国科学数据管理与共享工作的进展。
2 研究方法
本文采用网络调查法,根据 《2020 年泰晤士报世界大学综合排名》,选取排名前100 的高校图书馆网站进行广泛的调查,浏览其开展FAIR 原则服务状况。以“fair data” “fair principle” 等为关键词进入各图书馆网站进行站内搜索,同时利用 “Google” 搜索引擎进行网站搜索,如查找麻省理工学院图书馆是否开展FAIR 服务,则在域搜索中输入 “fair data site: https://libraries.mit.edu/” 检索。经过核查和去重,最终获得29 所高校图书馆开展FAIR 原则服务的信息。本文将以这29 所高校图书馆为对象进行调研分析。调查时间为2021 年4 月至2021 年9 月,在论文撰写过程中还对相关数据进行了不断的更新和再调查。
3 国内外高校图书馆推进FAIR 原则实施的服务调查
3.1 FAIR 原则总体应用情况
在调查的100 所高校图书馆中,有29 所高校图书馆的网站上展示了与FAIR 原则相关的信息,占样本高校图书馆的近1/3,可见FAIR 原则在国内外高校图书馆已开始受到重视和应用。在这些图书馆中,地区分布在美国、英国、荷兰、瑞士、瑞典的图书馆有21 所,表明欧美国家的高校图书馆更积极地推行FAIR 原则。
对29 所高校图书馆开展FAIR 服务的信息进行总结归纳,将高校图书馆开展FAIR 原则服务内容划分为三大类:FAIR 原则的宣传介绍、FAIR 原则的教育培训以及支持和促进FAIR 原则的实施,每一大类下又细分了若干小类,共8 个方面,详细情况如表1 所示。
由表1 可知,图书馆开展的FAIR 原则服务中,共24 所图书馆对FAIR 原则进行了介绍,14 所图书馆主要以专题研讨会、专家讲座和课程培训的形式针对FAIR 原则进行培训,26 所图书馆对FAIR 原则的实施进行鼓励倡导、提供实施建议和技术支持。
表1 国内外代表性高校图书馆开展FAIR 原则服务内容Table 1 The contents of the FAIR principle service carried out by representative university libraries at home and abroad
3.2 FAIR 原则服务内容
3.2.1 FAIR 原则的宣传介绍
图书馆对FAIR 原则的宣传介绍有助于促进科研人员了解和接受FAIR 原则。据Digital Science 和Figshare联合发布的 《2019 年度开放数据现状报告》 指出,尽管FAIR 原则对于促进科研数据重用的意义极其重大,然而调查发现,大部分科研人员(54.33%)从未听说过这一原则[25]。可见,推动FAIR 原则的普及是一项迫切的任务。本文调查结果显示,国内外高校图书馆对FAIR 原则介绍的内容主要包含两个方面:①FAIR 原则简介,如香港大学[26]、伦敦政治经济学院[27]和卡罗林斯卡学院[28]等高校的图书馆简要介绍了FAIR原则的4 项原则内容;②FAIR 原则内涵介绍,如洛桑联邦理工学院[29]、加州大学戴维斯分校[30]和香港科技大学[31]等高校的图书馆对FAIR 原则内涵进行了较为详细的介绍。29 个图书馆皆未设置FAIR 原则宣传介绍的专栏,仅莱顿大学[32]、苏黎世大学[33]和卡罗林斯卡学院[34]的图书馆网站在数据管理或开放科学栏目中有介绍FAIR 原则的细分栏目,其他图书馆关于FAIR 原则宣传介绍的内容没有专门的栏目,不便于FAIR 服务内容的扩充和管理,也不利于用户查找和了解FAIR 原则。
3.2.2 FAIR 原则的教育培训
开展FAIR 原则的教育培训有助于科研人员深入理解FAIR 原则的内涵,并将相关理念与要求落实到科学研究和数据管理的实践中,从而加速该原则的推广与实施。国内外高校图书馆平台开展的FAIR 学习培训主要分为专题研讨会、专家讲座和课程培训3 种形式。①专题研讨会培训内容主题鲜明,互动性较强。如伦敦大学学院图书馆开展FAIR 数据研讨会探讨FAIR 数据和服务[35];美国国家科学基金会高级网络基础设施办公室(NSF-OAC)和康奈尔大学图书馆等资助了一个主题为“有关化学结构和光谱的FAIR 化学数据发布指南” 研讨会,探讨了FAIR 标准/元数据配置文件[36]。②专家讲座适用面广,能在有限的时间内传递大量知识。如香港科技大学图书馆邀请数字监护中心(DCC)的专家开展有关研究数据管理的讲座,其中介绍了FAIR 原则的相关内容并探讨如何实现这一原则[37],同时,该馆还邀请哈佛大学量化社会科学研究所(IQSS)专家开展基于FAIR 原则的研究数据管理讲座[38];杜克大学图书馆开展讲座概述杜克研究数据存储库和FAIR指导原则[39]。③课程培训内容更全面,系统性较强。加州大学洛杉矶分校图书馆和FORCE11 共同主办FSCI 2020(FORCE11 学术传播学院)在线FAIR 数据管理课程,主要内容包括当前全球有关FAIR 原则推广实施的倡议、组织和项目以及资助机构对FAIR 数据的要求[40];代尔夫特理工大学图书馆向博士生免费提供在线课程,教授如何有效地管理其数据并确保数据遵循FAIR 原则[41];苏黎世联邦理工学院图书馆创建研究数据管理暑期学校,面向学院的博士生和博士后进行培训[42]。以上高校图书馆FAIR 培训形式灵活多样,便于用户熟练掌握FAIR 指导原则相关知识,有利于用户更好地理解和应用FAIR 原则。
3.2.3 支持和促进FAIR 原则的实施
当数据尽可能遵循FAIR 原则时更有助于实现数据的大规模重用,加速科学研究的步伐,获得更大的科学价值和社会价值。高校图书馆作为重要的科学研究基础设施、资源与服务的提供者,在推动FAIR 原则的落实与推广中不仅有着得天独厚的优势,也是其义不容辞的责任。同时,高校图书馆积极参与FAIR 原则的实施,塑造开放透明的科研新生态,还有助于其拓展服务范围,提升自身价值,在未来发展中占据有利位置。本文所调查的国内外代表性高校图书馆致力于支持和促进FAIR 原则实施,其中包括鼓励遵循FAIR 原则、提供FAIR 原则的实施建议以及开发或使用相关的软件来提供FAIR 的技术支持。
(1)鼓励遵循FAIR 原则。多伦多大学图书馆[43]和苏黎世大学图书馆[44]表示研究数据存储库应该符合FAIR 原则;哈佛大学图书馆的数据管理计划关注数据共享与重用[45],鼓励哈佛多个学科的研究数据符合FAIR 原则[46];鹿特丹大学图书馆表示鹿特丹大学的研究数据和所有学术成果应该符合FAIR 原则[47]。苏黎世联邦理工学院图书馆宣称他们的目的不是简单地发布尽可能多的数据,而是根据FAIR 原则利用科学技术实现数据的可重复使用[48]。
(2)提供FAIR 原则的实施建议。加州大学戴维斯分校图书馆介绍了实现FAIR 原则的方法[49],即通过将数据集存储到Dryad(数据库)获得永久性标识符(DOI)并提供对数据集的公共访问。悉尼大学图书馆介绍了基于FAIR 原则的数据发布实施步骤,以确保数据集得到有效发布[50]。曼彻斯特大学图书馆提供了促进FAIR 原则实施的建议[51],即首先确定可共享的数据集,注意查看资助者的数据共享要求,再安全地存储和组织其研究数据,上传数据并授予研究数据共享的许可证,然后在出版物中添加数据访问声明(包含持久标识符)来说明可以在何处以及在什么条件下找到并访问支持数据,最后使用研究数据网关将已分配了DOI 的数据的详细信息提交给研究信息系统Pure 或使用Pure 记录尚未分配DOI 的数据的详细信息。
(3)开发支持FAIR 原则的软件和应用。莱顿大学图书馆使用iRODS(iRODS 联盟提供的开源数据管理软件)和YODA(乌特勒支大学在iRODS 之上开发的开放源代码图形用户界面)试行FAIR 元数据[52];代尔夫特理工大学图书馆提供技术支持以开发FAIR 软件和应用程序,并促使现有研究软件符合FAIR 原则[53]。图书馆官网上可查找到的提供FAIR 技术支持的高校图书馆较少,但是数字技术支持和研究基础设施建设也是FAIR 实施的重点,应该坚持技术研发并将新技术运用于图书馆服务实践中。
4 国内外高校图书馆推进FAIR 原则实施调查结果分析
图书馆为开放科学领域的服务提供者和关键组成部分,在FAIR 原则的传播和FAIR 实践的支持中扮演着重要的角色,从图书馆官网调查结果看,FAIR 原则在国内外高校图书馆已经得到初步的认可和宣传,但是宣传推广重视度不够,且更多停留在了解和学习的理论层面而缺少技术开发和具体实践。
4.1 FAIR 原则推广力度不足
国内外虽然已经有许多高校图书馆提及或介绍FAIR 原则,但是总体关注度和宣传力度不够,积极践行数据开放共享的图书馆如北京大学图书馆开放 “北京大学开放研究数据平台” 和复旦大学图书馆开放“复旦大学社会科学数据平台” 提供了多个数据空间和数据集下载,哥伦比亚大学图书馆提供全球访问哥伦比亚大学及其附属机构的研究成果和数据集[54],他们的开放数据服务领先但忽视对数据平台和FAIR 原则的宣传。WILKINSON 等学者指出,研究人员花费大量时间搜集数据的主要原因不是缺乏相应的技术,而是他们所创造和保存的有价值的数据没有得到重视[55]。研究人员不愿意花时间用FAIR 原则来描述他们的数据,开放科学愿景的实现必须进行彻底的文化变革,利用培训和宣传促进共同理解,培养人们的FAIR 意识,从图书馆员、研究人员到社会各方人士,都有必要了解开放科学的重要性。研究人员在开始生成数据资源之前,就能有意识地创建、整理和保存他们的数据,包括研究工具和方法使用的详细文档,更易于数据的公布以及为他人重用,同时研究人员也对他们产生的数据资源承担更多的责任。FAIR 原则的宣传推广需要激励、支持和认可,以及数据管理技能的培训和能力建设,如伦敦大学学院已经开始着手修改其任命和晋升制度以促进学者的研究成果开放并可用于共享和重用的工作[56]。
4.2 缺少FAIR 技术开发和实践
基础设施是支持开放科学发展的引擎,从FAIR 数据管理规划到FAIR 数据创建、发布、评估和重用的每个步骤都需要技术的支撑。国内外高校图书馆推进FAIR 原则实施大多仅限于FAIR 原则介绍、鼓励倡导和培训,缺少FAIR 软件、工具开发和数据共享平台构建。FAIR 原则并非是一个严格的、规范性的标准,而是为发表学术研究数据提供了一个灵活而具体的可操作步骤的建议,特别在技术需求方面,例如不同的项目使用特定类型的软件、工具或其他语义Web 框架和技术。想要实施FAIR 原则的高校图书馆也许会因为缺乏专门的技术、工具或专业知识而犹豫不前,但实际上FAIR 原则能够根据研究人员的能力和资源被广泛应用[57]。所有图书馆都应该力所能及尝试和实践并积极参与技术开发,即使在未来面对更大的数据量和更复杂的数据类型,也能通过技术手段确保研究数据的持续互操作性和可重用性。此外,元数据、持久标识符、标准和本体的开发构成了整个FAIR 数据和开放科学服务的重要基础[24],以图书馆在元数据、持久标识符和本体等领域的专业知识为基础有利于进行存储库和FAIR 工具等开发,支持从研究规划到数据保存和重用的整个数据生命周期的FAIR 数据管理。
4.3 图书馆对外合作有待加强
国内外高校图书馆在开展FAIR 原则专题研讨会、专家讲座等教育培训过程中的学术交流较为密切,作为开放科学和开放获取的倡导者,高校图书馆应该寻求更大范围的协调合作,确保与所有为研究人员提供支持的单位、办公室和部门合作,如查尔斯达尔文大学(CDU)图书馆为响应澳大利亚FAIR 政策声明与大学研究室合作,开放大学的研究出版物、研究数据集和HDR(更高学位研究)论文集等研究成果[58]。寻求外部伙伴关系,与国际组织、研究机构等共同参与和推动科研数据管理政策制定,共同参与国际项目,分享FAIR 实践的技术和资源。如澳大利亚大学图书管理员委员会(CAUL)与澳大利亚开放获取支持小组(AOASG)合作并支持开展了一系列项目和倡议,CAUL 启动了包括 “保留研究项目权利调查” “澳大利亚知识库基础设施审查” 等5 个国家共享项目[59],支持FAIR 科学研究实践,以此促进开放科学的合作与发展。
5 对中国图书馆参与FAIR 原则实施的启示
5.1 加强宣传推广,推动FAIR 原则的广泛认可
FAIR 的实施是一项长期的事业,图书馆应当积极承担宣传FAIR 数据理念的重任,做好宣传和认知普及工作。2016 年,欧盟委员会(EC)宣布计划将推动欧盟所资助的研究项目产生的科学数据实现FAIR,从而正式将FAIR 原则纳入开放科学建设体系;2017 年欧洲研究图书馆协会(LIBER)发布了五年战略规划——《欧洲研究型图书馆协会2018—2022 年发展战略:研究型图书馆在数字化时代推动知识可持续发展》,该战略确定的五大重点发展领域之一就是“‘FAIR’ 型研究数据”;2020 年美国能源部(DOE)重点应用FAIR 数据原则,以推动人工智能的创新。虽然欧美国家的许多研究机构和高校图书馆对FAIR 原则进行了宣传和应用,但迄今为止,大多数科研人员对该原则并没有清晰的认识,甚至还很陌生。洛桑联邦理工学院图书馆的研究团队于2019 年开展了一项FAIR 原则了解程度的调查[60],受访者主要是科学人员、教师、博士生和实验室负责人员,在 “你是否意识到资助者对FAIR 数据的期望” 的调查中,62%的受访者表示不确定或不知道它们,仅9%的受访者表示已经采取了具体措施或行动以满足资助者对FAIR 原则的期望。因此亟待加强FAIR 原则的宣传介绍以扩大其受众度和知晓度,促进其推广应用。中国高校图书馆应从如下方面做好FAIR 原则的宣传推广工作:一是应充分利用信息技术和新媒体,开展多途径多形式的宣传推广,如①通过图书馆网站、博客、微博、微信公众平台、短视频等新媒体或移动服务平台宣传FAIR 原则的主要内容及理念;②通过举办主题讲座、研讨会、制作宣传册和馆内外海报等方式宣传FAIR 原则的内涵及实施方式;③通过举办专题活动,如有奖问答、案例分析、测评测试等趣味性、互动性方式加强用户对FAIR 原则的深入理解以及灵活应用能力;④通过图书馆网站、微信公众号和各类社交平台设置学术问答、学术交流等为用户了解FAIR 原则提供专业咨询和指导服务。二是针对不同群体,制定有针对性地宣传推广内容和策略,如对于政策制定者,积极向其宣传国际有关FAIR 的理念、前景和已有政策,推动FAIR 原则的内涵理念融入相关政策;对于科研资助机构,重点介绍国外科研资助机构的政策措施,推动其将FAIR 原则最佳实践融入科研项目管理过程中;对于广大科研人员,则应重点宣传如何遵循FAIR 原则理念进行数据的管理与发布,推荐支持FAIR 原则的数据存储库,以及如何有效利用符合FAIR 原则的数据提升科研效率等。
5.2 开发FAIR 技术与服务,助推FAIR 原则的实施
开发技术和基础设施在支持FAIR 数据原则方面发挥着关键作用,数据基础设施和标准应用联合将实现数据的可发现和互操作性,同时开发软件和其他工具使数据能够被理解和使用。国外研究机构积极开发和使用数据管理软件和平台,如符合FAIR 原则的数据存储库eNanoMapper,合并了标准化的数据模板和开放的元数据标准[61];F-UJI 基于FAIRsFAIR 开发的核心FAIR 对象评估指标对研究数据集进行评估[62];开源存储库平台Fedora 在管理、保存和提供数字内容访问的过程中有效支持FAIR 原则,被广泛应用于图书馆、博物馆、档案馆和政府组织[63];FAIRDOM 开放软件平台和工具集,用于管理研究人员、学生、教员、资助者和出版商的数据、模型和项目[64]。中国图书馆必须重视FAIR 技术的开发才能更大程度实现研究数据的被理解和使用。一是积极参与开发FAIR 基础设施、工具和方法,此间需要科学界、技术专家和其他利益相关者的参与和交流;二是涉及隐私和商业利益的敏感数据应该受到技术的保护,允许数据所有者为研究人员提供受控访问其数据子集的权限,同时保证对数据的完全控制;三是开发的FAIR 工具应该支持和促进自动化处理,增强机器自动查找和使用数据的能力,逐步实现机器对科研数据的可理解与可操作。
5.3 推动多方合作,塑造FAIR 生态系统
FAIR 的数字对象位于更广泛的FAIR 生态系统中,FAIR 生态系统包括FAIR 的服务和基础设施,其必要组成部分有政策、数据管理计划、标识符、标准和存储库[65]。作为开放科学实践的倡导者和开放资源共享过程的重要协作者,中国图书馆应该积极推动多方交流合作,塑造FAIR 生态系统,加快各领域FAIR 原则的实现。一是加强与FAIR 研究领域专家、资助机构以及学术共同体的合作分享经验、优势互补,共同搭建功能良好的学术交流平台,主动探索最佳的合作方式,共同建设数据存储库和数据管理平台,实现技术上和资源上的共享;二是营造良好的环境氛围,鼓励将数据存储在受信任的存储库中,鼓励寻找和使用现有的FAIR 数据资源,FAIR 数据应被视为核心研究成果纳入研究贡献和职业发展评估,提供支持FAIR 数据的基础设施和服务也应得到相应的认可和奖励,通过有效的认可和激励来营造FAIR 文化;三是共同搭建和塑造FAIR 生态系统,FAIR 数据生态系统中组件之间可以进行交互,其中规范和标准在许多方面都是相关的,从元数据、词汇表和数据描述的本体到数据访问的传输和交换协议,以及管理存储库认证或DMP 组合的标准。数据管理计划必须得到很好的利用,使其成为FAIR 数字对象信息的中心枢纽,将生态系统的各个组成部分联系起来。同时使用测试平台来持续评估、发展和创新生态系统,提高和维护数据对象的可重用性与数据集的长期可用性。截至2021 年9 月末,FAIRSharing 项目的网站已收集了1 543 个标准、1 797 个数据存储库和146 条数据政策,支持FAIR 生态系统的形成。随着基于EOSC 的FAIR 生态系统的实施,图书馆需要在标准和基础架构的开发方面进行积极协调,协同推进FAIR 原则的实施,加快FAIR 原则实施效率和进程。
6 结语
FAIR 原则作为开放科学运动的一部分,正在影响学者们收集、管理、保存和分享研究数据的方式。通过对国外高校图书馆FAIR 原则实施的调查发现,图书馆开展FAIR 原则服务内容主要有FAIR 原则的宣传介绍、FAIR 原则的教育培训以及支持和促进FAIR 原则实施的措施,在FAIR 原则的推广、技术开发和对外合作方面有待加强。图书馆应该成为FAIR 原则倡导者、FAIR 实践支持者和生态系统的构建者,加强宣传推广,积极开发FAIR 技术与服务,推动多方合作,塑造良好的生态系统,充分发挥科研数据的科学价值和社会价值,也促使图书馆摆脱逐渐 “边缘化” 的困境,推动图书馆转型和图书馆事业高质量发展。本研究也存在一定局限性,仅调查图书馆官网和相关文献得到的图书馆推进FAIR 数据管理原则的实践并不全面,后续研究将进行更大范围的调查和深入分析,并专注于数据资源FAIR 性评估方法,实现数据FAIR 化的步骤研究以及FAIR 应用案例分析,等等。