开放科学将推动数字时代的发现
2022-03-24郑思聪中国科学技术信息研究所
■文/郑思聪(中国科学技术信息研究所)
2021年8月,经合组织(OECD)发布报告《开放科学——推动数字时代的发现》指出,数据驱动的创新和数据密集型科学为解决重大社会挑战带来了巨大希望。OECD认为,开放科学促进了出版物、数据、算法、软件和工作流程的开放获取,在加速科学研究和创新方面发挥了重要作用,但当前数据开放共享进程远落后于出版物开放共享进程,在新冠肺炎大流行的背景下对数据开放共享的需求急剧提升。针对这一问题,OECD给出了对公共资助产出的研究数据进行开放共享的七大建议,涉及数据治理、技术标准和实践、人员激励和奖励、基础设施、国际合作等方面。
随着经济和社会日益以知识为基础,数据成为一种关键资源。数据驱动的创新正在改变社会,并对应对气候变化、人口变化、流行病等全球性挑战具有重要意义。近十余年里,数据驱动的创新和数据密集型科学推动科学格局发生了巨大变化,开放科学和开放数据已成为主流趋势。
一、实践中的开放科学
OECD认为,开放科学主要包括三大方面,分别为:通过信息和通信技术实现的开放获取、开放研究数据和开放合作。在实践中,开放科学具有创造科学新发现的机会、推动科研成果再现、促进跨学科合作、提高研究效率和公共投资回报率、提升公众对科学研究的支持和信任等诸多益处。特别是在新冠肺炎全球大流行的背景下,开放科学政策可以消除研究数据和思想自由流动的障碍,加快推进疾病防治相关研究。开放科学涵盖一系列值得讨论的主题,OECD重点讨论了其中两大主要支柱:出版物开放获取和开放数据。
(一)出版物开放获取
出版物开放获取将会带动实现更为全面的文献引用,这意味着在开放和免费获取方式下发表的论文往往比在付费方式下发表的论文对同行的影响更大。一项针对30万篇文章的大规模研究显示,至少28%的学术文献是开放获取的,但开放获取的主要途径不是绿色开放获取(绿色开放获取是指作者将研究文稿的不同版本自行存档至开放获取的平台)、金色开放获取(指由出版商提供获取,在研究发表时提供即时、永久的开放获取渠道)或混合开放获取(是一种混合模式,允许作者支付一篇文章的出版费用,并以金色开放获取论文的方式出版特定作品),而是在出版商网站上免费获取文章,无需明确的开放许可。研究还指出,对出版物的开放获取也因学科而异,在2009年至2015年期间发表的天文学、天体物理学、胚胎学、热带医学和生育学论文有80%以上实现了开放获取,而药学、无机化学与核化学、犯罪学和应用化学的论文只有不到10%实现了开放获取。同时,绿色开放获取的普及率也存在很大差异,核物理和粒子物理领域的绿色开放获取比例超过50%,麻醉学和热带医学领域却不到2%。
另据OECD 2016年的调查,约50%~55%的文献在出版3~4年后可实现开放获取。而与来自OECD国家的学者相比,来自新兴国家和发展中国家的学者在论文出版方面更依赖开放获取期刊。
(二)开放数据
OECD认为,开放数据是指“任何人都可以在不受技术或法律限制的情况下访问和可再用(Reuse)的数据”,而且使用者通常无需承担任何费用。目前,只要不涉及隐私、国家安全、知识产权或其他公共和私人利益,共享研究数据已成为一种默认规范。
一项针对全球1381个研究数据库的调查显示,2015年86%的数据库实现了对部分或全部数据的开放访问(其中50%为完全开放),12%的数据库向特定用户提供限制性访问,2%的数据库使用封闭数据或限制性访问的混合解决方案。
另据OECD 2018年针对国际科学作者的调查,67%的科研成果会产生数据或代码,但作者更愿意分享其数据而不是代码,只有20%的作者会将其代码归档到数据库中或作为支撑材料提交至期刊。数据的可再用性是目前需要克服的障碍,因为即使在共享时,数据也不总是可查找、可访问、可互操作和可再用的,通常既不附带相关元数据,也不符合相关标准,匹配标识符的数据更少。调查显示,仅有12%的数据是可再用的,但需要支付费用。另外,数据共享还面临加工和传播成本高以及知识产权问题,多数资助机构也尚未对数据共享问题提出明确要求。
二、开放科学政策
过去20年,随着全球对开放科学潜在影响认识的不断加深,一些OECD成员国与伙伴经济体就开放科学部署了相关政策和项目,并取得了重大进展。
在政府层面,根据OECD和欧盟委员会共同展开的调查,截至2017年,世界各国和地区共有181项有关开放科学的政策,主要涵盖如下领域:支持研究基础设施建设;支持开放获取数据的国家政策和战略(通常与更广泛的开放科学战略或开放政府举措相联);设立治理机构,推动开放获取;设立促进数据开放获取的网络和合作倡议。例如,芬兰政府出台的“开放科学与研究计划”最为成熟,具有借鉴价值。该计划建立在“芬兰研究数据计划”的基础上,旨在将开放科学与研究贯穿整个研究过程,同时打造研究领域的数字化服务,为开放科学发展创建参考体系结构,为研究人员提供指南和支持,为开放获取和长期存储元数据创建模型和工具。另外,有些国家开始设立特定的开放科学治理机构或相应职位,如法国设立国家首席数据官一职,负责协调政府数据相关工作,促进政府数据(包括研究数据)的上传、治理、流通和再利用。
在学术机构和数据存储库层面,一些国家和地区已经构建了基于国际合作的存储库网络,如欧洲开放获取基础设施研究项目、欧洲科学云、德国国家研究数据基础设施、美国国家卫生公共研究院和日本开放科学研究数据基础设施等。
三、挑战与建议
总体来看,目前对数据的开放获取滞后于对出版物的开放获取。截至2017年,欧洲超过92%的大学已经制定了出版物开放获取政策,但只有不到28%的大学制定了数据开放获取政策。究其原因,基础设施不是主要问题,已经有超过83%的机构拥有自建存储库或已加入共享存储库,其主要障碍在于对研究数据开放共享的益处认识有限、缺乏国家层面的政策指导方针、缺少推广研究数据开放共享的激励措施、研究数据开放的成本较高等。
在新冠肺炎全球大流行的背景下,尽管开放科学进程得以加速,但仍然面临诸多挑战,具体包括:所有数据的可查找性、可访问性、可互操作性和可再用性仍旧不足,导致数据解释和再利用存在困难;数据来源比较分散;大多数OECD国家数据保护政策严格,个人健康数据开放共享是一项挑战;数据透明度低,政府可能会干预新冠病毒检测过程,以防止“确诊病例”激增;出版商积极参与的开放获取项目时效相对较短,未来是否持续开放存在不确定性;被广泛应用预印本论文虽加速了新冠相关研究知识的传播,但却存在质量风险。
因此,为推动数据开放共享,OECD首先针对公共资助产出的研究数据提出了七大方面的开放获取建议。
在数据治理方面,建议:最大限度地推动公共资助产出的数字资产(包括研究数据、元数据、算法等)实现开放获取和可再用,确保数据便于查找并具备用户友好性,用户不会因其所在地或国籍而受到歧视;在数据治理过程中,进行透明管理并降低潜在风险,确保数据在安全的环境中提供给用户。
在技术标准和实践方面,建议:通过分配唯一的数字永久性标识符(PID)并发布描述性元数据,提高数字资产的可查找性;在学科领域内部和跨学科领域发展基础设施和服务,提高数字资产的可访问性;强化语义(包括本体和科学术语)、法律(使用权)和技术(如机器可读性)标准,增强可互操作性;加大对开放、可自由获取且国际公认的技术标准的支持,推动其开发、维护、应用和推广。
在责任、所有权和管理方面,建议:在整个研究数据生态系统中明确界定并分配各项责任、所有权和管理职责;调整和实施相关许可,以加速科学发现和创新,并保护研究数据和数字资产产出者的权利,如公私合作研究产出的数字资产应尽可能开放共享,并要确保私营部门的合法权益;扩大公共资助产出的数字资产的应用,如加大在人工智能、文本和数据挖掘等领域的应用。
在激励和奖励方面,建议:在研究人员招聘、晋升和课题评审时将数据和软件引用情况视为常设考核或评价指标;在对研究人员和科研辅助人员进行奖励时将数据和代码创建人员及维护人员视为关键贡献者。
在基础设施方面,建议:确保基础设施(包括数据和软件存储库及相关服务)的可持续性,以优先对公共资助产出的数字资产进行短期、中期或长期保存;提高全球研究基础设施之间的互操作性,以激励国家投资和创新;鼓励保护具有长远意义的高价值数字资产,包括在特定基础设施不复存在的情况下仍能对数字资产提供维护和支持;确保资助工具、数字资产长期保存审查标准以及基础设施预期寿命之间的适当匹配;鼓励私营部门投资研究数据基础设施,并采取措施确保这些基础设施的公开性、可靠性、完整性和可迁移性,以保护长期公共利益。
在人力资本方面,建议:培养数据驱动型研究和创新所需的技能,如软件开发技能和数据管理技能,培养对象涉及研究人员、学生、数据管理人员等;开展培训,提高政策制定者和研究管理人员对有效管理数字资产的理解,并确保公民具备一定的数据素养,能够高效利用研究数据;开创有吸引力的职业道路,吸引和留住数据科学家和软件领域尖端人才。