出版业实践FAIR原则的应用价值、全球性意义与我国的行动框架
2023-09-28于成刘怡彤
于成 刘怡彤
摘 要:FAIR原则是数据基础设施发展到一定程度后产生的开放数据新理念,由可发现性、可获得性、可互操作和可重用性四个具体原则构成。出版业实践FAIR原则对于解决全球性问题、提高科研效率、减少科研错误、缩小科技鸿沟等具有重要意义。目前,FAIR原则的知晓度有待提高,具体的行动框架有待建立。本文结合我国实际情况,提出可以在三个层面保证FAIR原则的实践,达成利益平衡:在宏观层面,需要完善数据出版法规体系;在中观层面,科研机构、图书馆、资助者和出版商等需要把FAIR原则作为必要的参考原则,帮助或要求研究者开放数据;在微观层面,研究者需要认识到实践FAIR原则与声誉之间的关系,自下而上地提高数据集等数据成果的认可度。
关键词:FAIR原则 数据基础设施 数据出版 数据集
FAIR原则由四个具体的数据共享原则合成,分别为:可发现性(findability)、可获得性(accessibility)、互操作性(interoperability)和重复利用(reuse)。该原则可追溯至英国皇家学会(Royal Society)2012年的报告《作为开放事业的科学》(Science as a Open Enterprise),其中指出,仅仅做到数据开放还不够,“它还必须是可获得的(accessible)、可评估的(assessable)、可互操作的(interoperable)和可用的(usable)”。这一观点在“2013 G8科学部长声明”(2013 G8 Science Ministers’ Statement)中被重新陈述,并为同年欧盟委员会发布的“地平线2020”(Horizon 2020)计划所采纳。与欧委会的计划相呼应,科学界在2014年洛伦兹会议上提出FAIR原则,后经由科研社群组织FORCE11的讨论,FAIR得以公布。[1]在相关学者、协会和国际组织等的倡议和推动下,目前,FAIR原则逐渐成为学术界,尤其是自然科学界开放数据实践中的重要指导原则。在利益相关者自愿参与并管理下,管理者与研究人员、资助者、政府机构、出版商、数据库等展开合作,推动FAIR原则的传播和实践,共同推动数据民主化,助力全球科技进步,解决全球性问题。
本文在分析FAIR原则在出版业中的应用价值和意义的基础上,提出从宏观到微观层面落实FAIR的行动框架,为后续进一步的应用研究提供参考。
一、FAIR原则的具体内容和在出版业中的实践
FAIR原则首先要求数据是可发现的(findable)。不论对于人类还是计算机来说,元数据(用于描述数据的数据)和数据都应该是易于发现的,其中元数据必须是机器可读的(machine-readable)。该原则要求:F1.分配给(元)数据一个全球唯一且持久的标识符;F2.数据由富元数据(rich metadata)描述(见下文R1的定义);F3.元数据清楚且唯一地包含其所描述的数据标识符;F4.(元)数据在可搜索的资源中登记(registered)或索引化(indexed)。在实践中,国际科技、医学(STM)出版商通用数据存储库中的数据集分配有数据标识符,并实现深度索引化,从而便于用户通过搜索引擎发现相关数据。
其次,用户发现数据后,需要知道如何访问/获得数据,也就是说数据必须是可访问的(accessible)。該原则要求:A1.通过使用标准化通信协议的标识符,(元)数据是可检索的(A1.1协议是开放的、自由和普遍可执行的;A1.2协议允许在必要时进行身份验证和授权);A2.即使数据不再可用,元数据也可以访问。根据这一原则,数据存储库能够对数据访问级别(公开共享或受限共享)进行合理控制,保护数据集所有者的知识产权等相关权利。
再次,数据通常需要与其他数据整合起来,且需要与分析、储存和处理数据的应用程序或工作流程实现相互操作,也就是说数据应是可互操作的(interoperable)。该原则要求:I1.(元)数据使用一种形式化的、可获得的、共享的和广泛适用的语言进行知识再现;I2.(元)数据使用遵循FAIR原则的词汇;I3.(元)数据包括对其他(元)数据的限定引用(qualified references)。该原则可保证数据集或文章间引用的规范度。
最后,可重用(resuable)。FAIR的最终目标是优化对数据的重新利用(reuse),为实现此目标,需要使元数据和数据得到良好描述(well-described),以便其在不同的情境中被复制和/或组合。该原则要求:R1元(数据)是富描述的(richly described),具有多重准确性和相关属性。更具体来说:R1.1(元)数据发布时带有清晰且可获得的数据使用许可;R1.2(元)数据有详细出处;R1.3(元)数据符合相关领域社群标准。[2]该原则鼓励作者提供富描述的信息,提高数据的重用价值,使数据集本身成为一种重要的学术出版物。
FAIR原则的实践主要涉及三种实体:数据或数字体(digital object)、元数据(关于数字体的信息)和基础设施(如搜索引擎,F4条目中“可搜索的资源”即基础设施的组成部分)。可发现性和可获得性基本上可以在元数据的层面上实现,互操作性和重用需在数据的层面上努力实现。[3]国际STM出版商较早地注意到FAIR原则在数据出版方面的价值,具体体现在数据描述与存储、数据审查和数据发布与共享等方面;我国的一些出版实践也运用了FAIR原则,如《中国科学数据》的数据评审指标设计将该原则作为基本指导原则。[4]
我们知道,可发现、可获得、可互操作与可重用的理念早已有之,那么为什么到2014年才把它们整合起来并付诸实践呢?最根本的原因很可能是,要实现全球范围内的数据共享,基本的物质条件是建立通用数据基础设施,而在此之前尚不具备此条件。早在2000年之前,人们就已开始开发数据基础设施组件,如数字对象体系结构(Digital Object Architectures,DOA)、系统支持的持久标识符(Persistent Identifiers,PIDs)和语义网(Sematic Web,构建在因特网和万维网之上的知识再现框架)等,它们确保了数据的互操作性和机器的可读性。但是从那时起的十几年间,人们无法建立通用的数据基础设施,只是各自为政,独立开发各种方案、语言、软件和硬件。直到2012年,人们开始讨论建设通用数据基础设施。[5]
出版业只有在具备建设通用数据基础设施之能力的条件下,才能让利益相关者真正参与到开放数据出版行动中来,FAIR指导原则才有现实意义。FAIR原则一个重点即强调机器的行动力(machine-actionability,在没有或非常少的人类干预下,计算机系统发现、获得、操作和重用数据的能力)。大量研究表明,在缺乏机器行动力的数据设施条件下,学界和业界的数据科学工作者若要定位、访问并格式化数据以供重用,需要花费70%—80%的时间在无聊的手工作业上,这样的技术条件无法支撑FAIR原则的实践。也就是说,只有在人类互联网(Internet for People)之上建立机器互联网(Internet for Machines)[6],才能真正建成符合FAIR原则的通用数据基础设施。我国出版业跟进FAIR原则,能够提高我国数据出版的技术水平,在数据描述、存储、审查、发布与共享等方面确立先进地位。
二、全球化背景下出版业倡导FAIR原则的意义
FAIR原则的倡导者认为,在全球化背景下,FAIR原则对于解决全球性问题、促进国际科技进步等方面具有重要意义。第一,全球性问题十分复杂,为了应对全球性挑战,联合国发布了一系列公约,如《可持续发展目标》《生物多样性公约》《植物条约》等,其中的行动议程皆需要多边和跨学科合作,广泛地重新利用各种数据(这里指广义的数据概念,既包括狭义的数据,也包括元数据、软件、算法等与狭义数据相关的数字物生态系统,本文有时使用广义概念,有时使用狭义概念,可根据语境判断,不再另作说明)。[7]国际科技数据委员会、世界数据系统和研究数据联盟等国际组织皆积极响应,推动数据基础设施建设,发布开放数据倡议,参与建设国际性的数据管理项目。数据出版作为开放数据的一个重要环节,有义务参与其中,促进有关全球性挑战问题的跨学科出版和有价值数据的重新利用。
第二,在网络社会中,人、物及其相互之间的连结正以前所未有的速度产生数据,FAIR原则强调机器的行动力,让机器从环境中感知数据,通过试错来学习复杂的、适应性的行为,以完成以前被认为只有人类才能完成的复杂任务。这种思路对科研产生了深刻影响,利用大数据、机器学习等数据驱动的研究方法,可以有效提高科研效率、减少重复劳动、降低科研成本。[8]因此,出版业将这些数据处理为可互操作和可重用的数据向全球开放,对科技进步具有重要意义。另外,数据重用可以对已有的研究进行重新检验,有利于纠正出版过程中的错误,并防止数据造假等违反科研伦理行为的发生。
第三,出版业参与数据开放有利于减缓科技鸿沟的扩大,使经济欠发达国家获得更多的科技发展机会。当然,实现这一点有赖于国际社会的动员和帮助,如国际科技数据委员会与研究数据联盟组织的培训工作坊,否则低收入国家有可能因为缺乏数据管理能力,或担心外国剥削等原因失去开放数据所带来的发展机会。[9]
鉴于实践FAIR原则具有重要意义,近几年来许多组织都发布了包含FAIR原则的倡议,然而,FAIR原则在研究者中的普及度并不高。虽然许多研究者对FAIR原则并不熟悉,但在实际的研究活动中,使用和分享开放数据的行动并不少,一些受访者表示,他们从未听说过这些原则,却经常分享数据。[10]
总之,FAIR原则是新的国际环境和技术条件下科学研究的最基本原则,需要具体的行动框架支撑才能付诸实践。如何打消研究者的顾虑,促使更多研究者行动起来,是包括我国在内的科学研究界共同面临的挑战。我国出版业作为其中的关键角色,理应参与其中。
三、我国实践FAIR原則的行动框架和出版业的角色
本节将结合实证数据、相关文献和我国的实际情况,为我国实践FAIR原则提供一个初步的行动框架。
1.宏观层面:自上而下的法规和计划
一些国家或地区以法令的形式促进数据开放,如欧盟委员会的提案强制要求研究数据和出版物的开放获取。另外,一系列国家或地区层面的开放科学计划将开放数据作为主要内容,如美国的“开放科学构想:实现21世纪学术研究之愿景”、法国的“开放科学国家计划”、芬兰的“开放科学研究倡议”以及欧盟的“欧洲开放科学云”等。
我国在国家层面亦完全支持开放数据。2018年3月17日,国务院办公厅印发《科学数据管理办法》,第十九条明确规定:“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,畅通科学数据军民共享渠道。国家法律法规有特殊规定的除外。”[11]我国的数据基础设施亦走在世界前列,国外用户可利用中科院的数据库展开研究,航天、探月、气象等科学数据向全球开放。
国家和地区层面的数据开放法规和计划,对于国家内部和跨国性的大规模科研活动数据共享具有重要的保障作用,但对于个别科研团队和个体研究者而言,尚缺乏有效的约束力。如在新冠疫情中,有人指责个别科研团队没有及早公开数据,导致错过控制疫情的最佳时机。无论这样的指责是否成立,在没发表论文之前就不公开数据的现象都普遍存在。要解决这一问题,一方面要在宏观政策层面增加针对分享数据者的保护性政策(如涉及公共利益问题的研究,可以在强制研究者不得隐瞒数据的同时,保护研究者对自己数据的优先使用权),另一方还需要更多中观机构层面和微观个体层面的机制加以促进。
2.中观层面:科研机构、图书馆、资助者与出版商的引导机制
在中观层面,科研机构、资助者、出版商与图书馆是强化数据开放的重要主体,在保护隐私的前提下,需要这些利益相关机构发挥引导作用,要求或帮助研究者开放数据。在科研机构中,首先,科研评价体系往往只注重论文和著作,数据集很可能并不会被视为贡献,从而影响研究者发表数据集的积极性。可实际上,数据的获得本身需要科研人员付出大量劳动,共享后重新组合和被再利用的数据更是凸显了数据集的科研价值。虽然在目前以及今后的一段时间中,论文和影响因子很可能一直是学术产出最重要的标志,但是我们不能放弃探寻更多元的评价标准和方法,《研究评估宣言》(Delclaration on Research Assessment,简称DORA)就呼吁将包括数据集在内的各种形式的研究产出都纳入评价指标。将数据集和数据开放作为科研机构评价体系的一部分,应当是各科研机构可以做到的。其次,调查显示,保守的学术文化会影响研究者共享数据的积极性[12],科研机构理应把建设包括共享数据在内的共享文化作为自身文化建设的重中之重。最后,研究者不愿分享数据的一个原因是,将数据处理为可呈现、可用的形式比较麻烦。国际数据委员会主席蒙斯(Barend Mons)就此指出,数据管理是个专业活儿,像编程一样难,不能指望所有研究者都掌握,建议大学等科研机构为每20个研究者提供数据管理服务。[13]
科研机构往往配有图书馆,这些高校或机构附属图书馆可以在开放数据上发挥重要作用。首先,我国图书馆中的工作人员多为信息管理专业出身,有提供专业的数据管理服务能力,可以协助科研人员完成数据处理和分享工作。图书馆可以对工作人员进行体现FAIR原则的数据分享培训,让图书馆员和科研人员形成紧密的“数据共同体”。其次,图书馆负有科学传播的责任和义务。科学传播一方面包括对科学技术基本知识的传播,也包括对科学技术事务元层次内容(如科学文化、科学的社会运作)的传播[14],FAIR原则作为科学文化的一部分,理应包括在内。图书馆可以通过举办讲座或提供试用数据平台等形式,宣传FAIR原则并引导研究者行动起来。最后,实践FAIR原则可以纳入图书馆或相关协会的工作计划或章程,使工作人员在与数据打交道的过程中,自觉让数据变得可发现、可获得、可互操作和可重用。例如,欧洲科研图书馆协会在2017年12月发布了“践行FAIR原则:图书馆的作用”指导手册,鼓励图书馆界广泛传播并努力践行FAIR原则。[15]
资助者是科研人员获得科研经费的重要渠道,对研究者的成果处理方式拥有重要影响力乃至决定权。2019年的调查显示,69%的受访者认为,资助者应将分享研究数据作为授予资助的要求之一;67%的受访者认为,如果研究人员不愿分享他们的数据,而资助者要求他们这么做,那么资助者就应该扣留他们的资金,或者以其他方式惩罚他们。[16]之所以普遍认为资助者应将分享数据作为授予资助的要求,很可能是因为研究者往往会有数据寻租行为(数据拥有者人为限制数据自由流动,以维护个人或小团体利益),可能会被商业等非科学领域误用,乃至严重损害公共利益。
出版商是学术成果的发表渠道,发表与否,不仅意味着成果是否被科学界乃至全社会认可,也和研究者的职称、奖金等切身利益相关。如果出版商能在出版环节上加以引导,亦能有效促使研究者遵守FAIR原则。在产品开发上,出版商可以出版专门的数据期刊(data journal),并建设数据库。根据2018年的调查,对于“你在何处发表数据的问题”,35%的受访者将数据作为论文附录发表(2017年数据为34%),18%的受访者选择发表在数据期刊上(2017年数据为20%),33%选择发表于特定数据库(2017年數据为29%)。[17]可见,开发数据期刊、数据库等产品,为数据集提供发表渠道,是促使研究者开放数据的有效手段。当然,由于我国的科技期刊出版单位分散在各机构,不像国外出版巨头那样实力雄厚,且有刊号等限制,因此很难拓宽发表数据集的渠道。不过,科技期刊完全可以鼓励投稿文章附有数据,要求发表文章时开放数据,并鼓励研究者在参考文献中引用数据集,帮助他们确保数据集标记良好,从而使数据集更易于发现和获取。有条件的出版社亦可以制定包含FAIR原则的规定,研究数据联盟(Research Data Alliance)等发布了灵活的规定框架,出版社可在此基础上进行适当调整。
3.微观层面:自下而上地提高数据集地位
宏观、中观层面的机制设计,需要符合微观层面的心理动因,才能发挥最大效果。据调查,增加研究影响力、符合公共利益、获得声誉、机构的要求等,都是促使研究者分享数据的重要因素,而上文提及的两个层面,也都旨在符合研究者的动因。实际上,无论出于何种动因,与研究者最直接相关的动因是声誉,具体表现形式是作品署名、作品的引用量、精神或物质回报等。2019年的调查显示,只有12%的受访者感到从分享数据行为中获得了足够的声誉;受访者认为,提高论文引用量是刺激研究者分享数据的最有效手段,原因显然是引用量与自身利益直接相关。[18]
那么,数据分享是否能提高论文引用量呢?一项针对PLOS和BMC中的50多万篇论文的研究显示,论文如带有数据可获得陈述(data availability statements,如链接到数据库的信息),会平均增加25%的引用量。[19]也就是说,分享数据不仅可以使自己的数据集更易于被发现和引用,而且有可能提高自身相关论文被引用率。若科研机构将数据集也纳入评价体系,出版商将数据集的发表与研究论文的发表置于同等重要的位置,且研究者自己认识到数据集发表与论文发表一样可以提高自身学术声誉,那么研究者显然会更愿意分享数据。另外,研究者希望自己的数据被重复利用后,能作为论文的共同作者,被问及“如果在随后的论文中重复使用你的数据并让你做合著者,这会在多大程度上促使你将数据公开给他人”时,只有8%的人说这不会影响他们的决策。[20]
声誉显然不能仅仅用影响因子或论文发表数量来衡量,研究者一方面要认识到分享数据与提高引用量、获取功名的相关关系,另一方面也要认识到分享数据对于公共利益的重要性,这两方面都是研究者“数据素养”的重要组成部分,片面地强调哪一方面都不够公平。当然,在突发性公共卫生事件等危机时期,更应当强调的是价值取向而非功利取向的声誉观,否则任何层面的开放数据机制都将失去意义。
研究者自发组建草根性的数据开放社群,自下而上地推动数据集等各种学术成果为机构或出版商所认可,亦是推进数据开放的重要途径。比如,共享数据平台FigShare就是草根起家的典型。国家可通过创业政策打造市场化运营的数据数字出版平台。
四、结语
出版业实践FAIR原则对于解决国际问题、克服危机、提高国家或地区的科技水平等具有重要意义。通用数据基础设施是FAIR原则实践的物质基础,可发现、可获得、可互操作和可重用是指导实践的理念。若要把理念付诸实践,需要更为具体的行动框架的支持。根据相关的调查和研究,结合我国实际情况,我们认为可以在以下三个层面保证FAIR原则的实践:在国家层面,需要完善相关法规体系,制定和实施开放数据计划;在中观层面,科研机构、图书馆、资助者和出版商等需要把FAIR原则作为必要的参考原则,帮助或要求研究者开放数据;在微观层面,研究者需要认识到参与实践FAIR原则可以有助于提高自身声誉,进而行动起来,自下而上地提高数据集等数据成果的认可度。
出版业作为中观层面的重要一环,可以通过出版数据期刊,建设包括知识基础设施层、元数据层、工具层、数据层、资源层在内的数据出版系统,引导作者提供符合FAIR原则的数据等方式,推动FAIR原则的进一步落实。
(作者单位系青岛大学文学与新闻传播学院)