全球开放科学发展的比较研究:包容性与标准化的路径
2021-06-07顾立平
顾立平
(1. 中国科学院文献情报中心,北京 100190;2. 中国科学院大学经济与管理学院,北京 100190)
1 全球视角的脉络观察
科技信息交流的新需求(大规模计算资源需求、全球共同研究需求、数据驱动科研以及研究成果再利用需求)促使开放科学成为一种知识生产的动力系统。如何深入了解技术、如何运用技术解决政策问题以及如何用政策指导开放科学的健全发展,都是这个时代面临的新挑战[1]。开放科学是科技事业的全球化运动,然而世界各国的科技发展阶段和任务各有不同,因此世界各地的发展情况便有所差异和具备各自的特点。
中国科学院文献情报中心自2012年起长期跟踪开放科学发展,自2012年10月起每年举办中国开放获取周会议,2017—2020年会议的主题均是开放科学[2]。时任中心主任刘会洲曾指出,中国是全球开放科学行动的积极参与者,在科学数据管理、科技信息开放获取等方面都取得了新进展,但与国外相比,国内的开放科学发展相对滞后,需要共同努力,思考和探索适合中国开放科学的发展路径。国家科技文献中心主任彭以祺指出科技资源的开放越来越受到科技管理部门、教育部门、国务院的重视[3];他认为就开放获取工作的重要性、疫情对文献情报工作的影响及推动开放获取工作而言,开放获取正在走向开放科学,必须充分认识到开放获取激发科技创新的重大意义,加大宣传推广,提高政策研究支持力度和机构重视程度,推动我国开放科学事业和经济社会的发展;时任中国科学院文献情报中心副主任的刘细文表示,开放是科学的本质属性,开放科学是科学发展的必然趋势,全球各国开放科学政策实践发展程度不同,开放科学政策框架的搭建需要作充分的准备[4]。因此,本文认为:从历史发展轨迹看问题,能够追溯各种细节,从而拉高视野,即全球化的角度,看清开放科学的走势、合作和竞争。
一方面,基础设施的不断进步,促进了开放科学的发展。在科学2.0时代,科学成为数据驱动的科学,所有事物都将留下数字痕迹。从2014年开始,欧洲科技政策研究就已经把数据的开放获取列为重点,当时考虑掌握数据将使欧洲拥有顶尖科学水平[5]。因此在2015年欧洲开放科学云(EOSC)颁布政策时,强调未来数据基础设施及其服务的3项指导原则:技术上,EOSC使用联合模式,而不是集中模式,联合现有和未来的数据基础设施提供数据服务;管理上,EOSC实施终端用户驱动的研发,它基于科学家的利益需求;判断成功与否的关键不是设施,而是软件和服务。
另一方面,从科技信息开放获取的角度,开放科学有一个渐进发展,基础牢固之后再往上叠加的过程。即科技期刊论文的开放获取(先有机构知识库,后增加开放出版资助),扩展至科研数据的开放共享(增加数据中心和完善数据基础设施),再容纳开源软件的社群治理(开源社区多为黑客与极客,并不容易“管理”和约束,但是它们的组织凝聚力十分强大),以及科技投入的新渠道——众筹与众包。两种不同导向的发展路径,归纳总结为:基础设施是提供给科研人员的新一代科技创新和应用环境,特色是先提供工具,再创造需求;数据服务是满足科研人员习惯、行为和需求的服务,特色是先了解用户,再研发工具。
然而,因为各国具有各自不同的科技发展阶段,所以各有不同的阶段性选择,这样导致一个新的波浪发展态势和趋势,即优先顺序的选择产生了区域间的标准化和包容性问题。简言之,开放科学是全球化的,那么究竟是世界统一一种标准规范,还是不同机构的规划、发展以及诉求等问题先要充分沟通解决?我国长远应当怎么发展?现阶段应该注重什么?
回答这类问题前,需要从全球视角剖析开放科学的整个发展脉络,以下提出几个重要事件和时间节点,作为分析和介绍。
2 西欧的发展状况
《贝塞斯达开放获取出版宣言》《布达佩斯开放获取先导计划》《关于自然与人文科学知识的开放存取的柏林宣言》等重要文件和里程碑,均与欧洲密切相关,开放科学的一个核心价值就是开放获取,因此称为概念发源之地。此外,欧洲数据门户(EDP)旨在“通过开放数据创造价值”的工程[6],其基础是2003年欧盟成员国通过PSI(Public Sector Information)将元数据集成的方案[7]。其标准经欧洲议会确定后成为开放标准之一[8-10]。因此,开放科学的脉络,最早应当溯源到20年前,但集中发展则是近10年。
EOSC门户网站于2018年11月23日发布,提供EOSC的一般信息,以及EOSC服务和资源[11],并且结合Zotero等服务。文献管理工具Zotero已与unpaywall共同合作,提供开放获取服务,一是Zotero作为平台,二是使用unpaywall的数据来识别订阅情况下的可访问版本[12]。与非公共资助的直接投资项目结合,节省经费,把经费投入更加先进的基础设施研发,开展政策研究以及海外制度扩展,是欧盟吸收美国经验之后推动开放科学的一大特色。
芬兰国家开放科学研究指导小组2019年发布《开放科学与研究宣言2020—2025》[13]支持科研社群发展:科研文化、学术出版开放获取、科研数据与方法开放获取,以及开放教育和教育资源等。这项工作很快获得了欧洲开放获取基础设施研究项目OpenAIRE(Open Access Infrastructure Research for Europe)的支持。
OpenAIRE主要推动EOSC以及开放科研数据FAIR原则;它们根据《开放科学与研究宣言2020—2025》已向欧盟研究理事会、欧盟议会以及联合国教科文组织提出开放科学建议报告,并且面向东欧、日本、西非以及其他国家/地区提供技术框架[14]。在此过程中,德国比勒费尔德大学图书馆支撑了机构知识库元数据集成以及科研数据管理[15]。中国科学院文献情报中心和中国农业科学院国家农业图书馆曾于2017年邀请BASE项目负责人来华共同举办第六届中国机构知识库学术研讨会和国际开放知识库培训班,笔者曾于2018年请教DANS、BASE、PUB、OpenAPC、CCRD等的工作方法和执行细节。
OpenAIRE关于联合国教科文组织开放科学的主要建议[16]:①使开放科学成为默认的科研方式;②使奖励和激励与开放科学相结合;③接受学术多样性;④以开放科学政策为原则;⑤基于开放式基础设施的标准和其他可互操作性标准;⑥系统化开放科学的能力、技能及提供培训;⑦接受公民科学和开放教育的政策和实践。
值得注意的是,第3条强调:无论科研人员所属什么研究领域、资金流或者职业阶段,都应该有平等的机会通过开放获取发表他们的研究成果;以及遵守公开、透明和公平等原则。这些与基础设施建设无关的内容,恰是后来传播西欧开放科学理念和制度到东欧、非洲、南美等地区的重要条款和推动措施。
3 美国的发展状况
CENDI是一个由美国国家安全局、美国国家航空航天局、商业部、能源部等13个机构所组成的信息网络[17],致力于实现天文学、生物科学和基因组学等学科科技创新的信息流通。毫不讳言地说,CENDI是由最高级别的美国国家安全联席会所发起和组织,开放科学的计划由此提出。
作为美国的一家非营利组织,开放科学中心(COS)于2013年发布开放科学框架(OSF),旨在协助科研团队项目管理和公开成果,该框架与Dropbox、Google Drive和其他云存储对接和集成[18]。改革障碍不是技术上或者财政上的,而是社会性的[19]。美国COS提出的开放科学框架,一方面是为了收割全球的开放资源;另一方面,是认为“科学交流规范如果仍然植根于过去时代的作法,那么它们不合时宜的做法会很低效,而这是毫无必要的”。为提高公共科学知识的效率,他们在2012年就开始呼吁[20]:①全面拥抱数字通信;②学术出版开放获取;③把出版和评价予以区分;④建立分级评价体系以及多元化传播渠道;⑤发展同行评议出版;⑥允许开放的、持续的同行评审。毫无疑问,近十年的全球开放科学就是朝着这6条规则发展的。
美国白宫科技政策办公室于2013年颁布开放政府数据政令,该项政令至今没有废除,该政令要求联邦政府部门以及所资助的科研项目,实施公共信息获取[21]。值得注意的是,曾经G7会议也有讨论此项议案,即开放政府数据G7标准以及全球政府开放数据监测体系。中国科学技术信息研究所举办的2016年中国科技信息资源管理与服务年会(COINFO2016)曾有这方面的介绍,当时就已呼吁注意这方面的国际舆论影响。
美国国家科学院(NSA)出版的《设计开放科学》呼吁科研成果应当包括可用的代码和数据的开放共享[22]。美国国家科学基金会(NSF)在2018年的项目申请指南中,已有数据管理计划的表格和内容,结题成果要明确科研数据开放获取的位置[23]等。
美国国家标准与技术研究所(NIST)正在开发Standard Reference Data(SRD)框架,可对各个团队的各种异构数据采取统一管理[24]。SRD框架基本完成,但是尚未全部披露。
当前EOSC、NIST、CODATA、RDA、WDS等正在制定一项全球通用数据规范[25],基于美国的开放政府协议,通过G7会议扩散到科技先进国家,并且考虑了欧盟GDPR法案的内容。与此相互对应的是,我国正在力促《全球数据安全倡议》[26]和《区域全面经济伙伴关系》[27],并且修改了《著作权法》[28]和研究《科学技术进步法》[29]的修订案。我国所推动的数据安全、数据资产、数据权利和数据治理均具有前瞻性,正在充分吸纳开放科学的内容,但是其中也存在若干区域性发展的差异问题。
美国国立卫生研究院(NIH)在2020年发布了一项新的开放数据与开放科学政策[30-31]。美国国立卫生研究院国家医学图书馆在2020年发布的《培养数据科学和开放科学的馆员》[32]旨在提升图书馆馆员采取人工智能和大数据的方法服务数据科学家、数据工程师、使用数据驱动科研方法的青年科学家等的能力。无独有偶,中国科学院文献情报中心也在2020年发布了针对中国科研群体的数据科学与开放科学需求调研以及业务改革建议[33]。在国家科技图书文献中心(NSTL)和中国图书馆学会专业图书馆分会的协助下,中国科学院文献情报中心与北京大学图书馆于2013—2018年举办过6期中国数据馆员培训班累积大量现实案例[34]。关于开放科学和数据科学,美国国立卫生研究院国家医学图书馆和中国科学院文献情报中心的观点大致相同,而且都在2017年开始研究,在2020年发表成果,所不同的是前者是专家座谈的未来发展思考的总结,后者是深入科研一线调研后的科研竞争所需支持服务的需求总结。
4 日本的发展情况
日本文部科学省2015年颁布了开放科学政策,日本首相官邸2018年发布的知识创新白皮书,将数据基础设施列为发展重点[35]。虽然没有明确数据基础设施的名称或者网址,但是通过已公开的资料和直接电话访问,可以知道RCOS作为一个重要基础设施,担负起人员组织和信息流通的重要作用。日本RCOS与EOSC的架构相仿,但是整合了CiNii(类似万方数据和CNKI这类论文集成系统)、JAIRO和WEKO3(类似CASIR-CRID和CHAIR这类机构知识库集群)、GakuNin(类似中国科技云和超算中心),以及其他数据中心等,具有管理这些数据源并且作为监督它们数据长期保存的机制。此外,超过20年历史的J-Stage平台,是一个日本科技出版的长期保存和开放获取平台,已有470多万篇论文、会议记录和其他类型的学术出版物。日本的RCOS对外连接其他平台,对内整合诸多系统,并且发挥政策建议的作用。
即使在日本,机构知识库也并非重点投资的信息基础设施,然而,通过日本国立情报研究所(NII)和高校图书馆馆员的组织活动,至今已经由2014年的600多家增长为2021年的875家机构知识库的规模;于2016年开始从D-Space和E-Print等的机构知识库及其元数据收割转向基于WEKO的集云服务和本地服务相结合,上述875家机构知识库中,已有450多家机构知识库迁移WEKO或者由WEKO所建[36]。
NII从2014年牵头组织JPCOAR作为开放科学工作组,在国际上参与COAR的标准规范和政策制定[37]。目前已经构筑韩国、越南、新加坡、马来西亚和印度尼西亚等东亚及东南亚国家形成COAR-Asia分会,于2017年成立Asia-OA年会;通过WEKO可以分出实例(Instance)的功能,NII面向包括东南亚和“一带一路”国家的机构知识库建设,提供元数据和文献数据云端(日本)本地(该国)存储的服务。当然,受限于历史政治等多重原因,目前还在缓慢推进当中,但是留给中国机构知识库社群的时间非常有限。
5 其他国家/地区的发展状况
欧洲委员会资助的“欧洲开放科学国家计划”(NI4OS Europe)支持15个欧盟成员国和东南欧相关国家(包括亚美尼亚和格鲁吉亚)制定国家开放科学云计划[38]。在该地区引入EOSC理念和FAIR原则,并为EOSC的服务供应商提供技术和政策支持,包括通用服务(计算、数据存储、数据管理)、主题服务、知识库和数据集等。欧盟实施的EaPConnect 2项目旨在通过开发国家科教网络的能力来推动亚美尼亚、阿塞拜疆、白俄罗斯、格鲁吉亚、摩尔多瓦和乌克兰等欧盟东部国家发展开放科学技术[39]。笔者曾于2016年受到格鲁吉亚国家科学图书馆邀请参加格鲁吉亚全国科学创新周活动,虽未成行,但是从彼此邮件往来得知,彼时仍然注重科技文献的采购和传递,而非开放科学的制度和措施,然而近期电话访问得知已有较大改变。
加拿大CANARIE通过高级北大西洋(ANA)合作协议与GÉANT/欧洲国家研究与教育网络,开展在两个大陆之间以100Gbps速度传输数据的合作[40];此外,ANA正在促进认证和授权基础设施以及信任和身份识别技术的应用。加拿大正在建立一个与CANARIE同级的组织,该组织将负责高性能计算、数据管理和科研软件。该组织为期4年的预算为3.7亿加元(约2.55亿欧元),将于2022年初投入使用,其活动之一是为加拿大研究图书馆协会(CARL)Portage Network提供资金,支持该协会的国家数据管理倡议[41]。该协会主导推动了一系列科研数据管理以及开放获取指南的制定,因此,数据基础设施少不了图书馆馆员的数据服务。因此CARL能够迅速颁布Research Data Management指南,但是需要注意的是,他们的指南并非为了图书馆的数据资源建设,而是基于上述开放科学的科研人员的需求。中国科学科院文献情报中心的几位研究生在2017年中国机构知识库学术研讨会上,从CARL人员获知此事后,在吸收消化之后开展了面向我国科研人员的开放科研数据的实地调查工作,深入课题组实习以及青年科学家访谈,成果将会逐一发布。
澳大利亚的数据和科研信息化平台(DDeRP)提供数字化科研环境,包括网络、身份标识、访问和认证、高性能和云计算资源、科学数据管理与访问等[42]。澳大利亚科研数据共享基础设施ARDC合并了NCRIS的三大信息基础设施(澳大利亚国家数据服务ANDS、国家科研信息化协作工具和资源Nectar以及科研数据服务RDS),旨在提供科研人员访问“具有全国意义的”信息基础设施、平台、技能和高质量数据集[43]。
非洲开放科学平台(AOSP)通过“南非-欧洲的科技信息对话”以及“泛非开放科学政策议”在原有平台系统上进行升级[44]。欧盟委员会、UbuntuNet、WACREN和ASREN共同资助,由GÉANT和非洲的3个区域组织共同实施的AfricaConnect 3项目,旨在采纳FAIR数据原则,兼容EOSC的服务列表和培训[45]。“数字地球非洲”(Digital Earth Africa)于2019年2月成立,它由美国Leona M.和Harry B. Helmsley Charitable基金提供了1 000万美元,以及澳大利亚政府提供了1 000万澳元(约700万美元),由亚马逊云服务;该项目可将卫星水图像转化为“易于消费的信息”服务于非洲国家的水资源管理[46]。目前全球都有水资源战略的研究,而早期的开放科学投资建设,现在起到了一定的“数据治理社会”的作用。
6 全球开放科学发展情况的比较
如果以全球视角看问题,那么横向比较现存的开放科学进展情况,最主要的影响不在执行细节,而在国家以及区域政策的环境。作为开放科学发展的主要决定因素,国家科技战略以及数据战略是主要而非外部因素,从而开放科学政策发挥一种指引作用,数据基础设施具有一种支撑作用。两者在不同国家/地区的发展优先级别具有显不同。
全球开放科学的发展情况,综上所述,简述如表1所示。
以全球发展Open Science的历史眼光来看,本文认为,开放科学的发展历程有两大源头:一是,从E-Science发展为Science 2.0再进步到Open Science的过程;二是,从Open Access扩展到Open Data再发展到Open Science的过程。
表1 全球开放科学横向发展比较
这两种发展取向(Approach)经常交互发展,如果把这两种取向作为两把测量尺子,就能够较好地解释开放科学在不同国家/地区的发展现况为何不尽相同,以及存在的问题。概述如表2所示。
几乎可以观察得出,日本与澳大利亚的进展相似,不同的是日本在2014年之后发展更快一些。美国一直走在技术领先和颁布技术标准的前列。西欧则是一步一步从机构知识库、开放获取出版资助,走到开放科学基础设施和政策推广的双轨并行,虽然没有美国在技术标准上发展得快,也没有日本在东亚地区推广范围广泛,但是双轨并行最为稳健发展。南非与加拿大的进展类似,都是在吸收之后,很快颁布了开放获取政策、开放数据政策以及可预见将要颁布的开放科学政策,但是基础设施稍微缓慢一些,直接受到美国和西欧的政策协助和和技术引入多一些,南非与欧洲进展相当。
表2 全球开放科学发展的纵向比较
综上所述,在开放科学上,具有国际影响力和话语权的国家/地区有美国、西欧、日本,分别面向全球、东欧与非洲、东亚及东南亚,各自输出技术标准、政策标准、服务方式。接受开放科学的理念和技术支援的国家/地区,既有先发展基础设施再考虑政策颁布者,也有先有政策颁布之后再做更大程度的基础设施投入者。
7 标准化与包容性趋势
根据全球开放科学的发展情况,以及我国科研人员的实际需求的调研情况,本文提出如下建议。
(1)数据基础设施需要标准化,包括文献知识库、数据知识库、基于数据中心的数据目录、预出版系统、出版发布系统等的元数据标准规范以及互操作协议。亟需解决的问题是:对内实施标准化的作业,对外接轨国际上已有的开放科学基础设施。
文献知识库的元数据标准如果不能统一,并且未与国际接轨,就会形成数据孤岛,而没有办法发挥全国性整合、区域性联盟以及全球性合作的功能,那么,机构知识库就成了又一个数据库,而不是制衡金色开放获取成本上涨的杠杆。文献知识库与数据知识库不能够完成数据目录的建设,不仅有碍文献和数据的关联,并且自动拒绝《科学数据管理办法》的要求,使得该项政策仅仅覆盖受到高额资助的数据中心而没有包括机构知识库体系,这样与欧盟、美国、日本甚至非洲部分国家都是不一样的标准和信息负载能力(Informatioin Capacity)。再者,预出版平台如果也设立一套自定义元数据标准,那么对于同一位作者在预印本平台先发布论文草稿,后在平台上得到开放同行评议后,投稿修改稿到学术期刊上,经过同行评审之后刊出的正式论文,再经集成商组织发布的预发布稿、正式出版稿、数字化版本等,最后根据开放获取政策,由作者自存储正式论文之前的最终审定稿,到机构知识库实现开放获取为止,其中涉及的所有版本,读者或者科研人员如何查证检验以及确定所引用和使用的版本内容是否具有差异呢?上述问题实为开放科学的关键核心,不在基础设施的大力投入,而在版本管理,版本管理的核心就是在元数据标准规范之内增添开放程度的标示并且基于互操作协议能够机械自动识别,这在国外已有足够成熟的系统以及规范,从技术上已有可供借鉴之处,国内需要在管理机制上协调并进。
(2)开放科学政策需要包容性,包括科技论文实施开放获取、科研数据实施开放共享、学术软件实施长期保存,以及众筹众包进行知识产权保护等的管理办法。亟需解决的问题是:按照我国实际发展现况和未来科技创新的需求,提出针对具体问题的具体解决方案。
当前诸多国家对于我国重要企业和科研单位实施技术封锁和学术交流障碍,唯有开放科学是可能的破局之路。尽管就国家战略而言,科技着重技术人才的短期培养以及技术应用,科学人才更需要长期培育,两者都需要健全的科技交流环境,所以,支撑科技的知识服务体系(文献服务、信息服务、情报服务以及新型数据服务)基本就是这个防坡提的最后一道防线。科技论文的开放获取,使得科技信息尽管不是第一时间但是一年以内可以有效获得,这可以有效防止高额成本的不断叠加,然而各国的机构知识库的内容质量和权益管理参差不齐,各国的科技期刊发展水平和重点不一,那么实施这方面的政策就需要因地制宜,反而不能纯粹全盘接受欧盟标准甚至美国开放政府的标准。科研数据开放共享更是能够通过文献与数据关联(数据基础设施的制度和系统的完善化是前提),促使人们能够快速验证、模仿学习、更新乃至创新的动力,但是各国科研数据的真实性和有效性参差不齐,例如“如我以最优数据换得彼方次等数据,则未免有失公允”。但如果只是担任“鳄鱼”(搭便车)不愿作为“大象”(任重负远)则有失礼仪(国际话语权)。所以科研数据如何实施开放共享,并非简单地照搬国际标准强令国内科研人员实施,其中具有的领域知识和权益关系需要逐条梳理,择要去弊。目前我国对于数字文献已有多年经验以及完整体系,然而开放科学环境下的软件,即科研的知识(论文)、原料(数据)、工具(软件)、人力物力(众筹众包)等要素中,最关键且难以识别版本和保存的是学术软件,对此我们已有初步研究[47],但仍然处于理论探索和小规模试验阶段,宜尽快铺开实践并且总结经验:该任务不仅迫切而且世界范围内已无先例可循。众筹以及众包的对象是具有不同层次的用户,一方面如Python社区在3.0版本的演变过程中,已经从早期的黑客独侠,变成一个有组织受资助慢慢归化体制内的社区;另一方面R社区则仍有不少国外大学的科研团队默默奉献,但也受到互联网企业的支持和采纳,这些全球范围内不受控制的顶尖人才,是最注重伦理、风格以及开放共享的社区。
凡此种种,均为我国图书情报事业的全新挑战,并且也是难以按照以往惯例便可妥善处理的关键问题,如果这些议题仅仅是图书馆如何处理资源的一种选择,那么大可搁置不理,但是如果作为一种全球科学共通规范,那么就需要文献情报专业人员主动站在全局角度进行个别领域的新型学科知识服务;否则即是需要各个学科领域的先知先行者耗费自己大量时间进行尝试试验,推广到其他领域不成再回头想想的“磕破头式”建立标准化政策(而不是包容性政策)和包容性标准(而不是基础设施标准化)。这样就算有利但也不是最有利于我国面对开放科学的浪潮。
开放科学是全球化的;我国与美国在多个数据领域具有国际标准的不一致性和竞争性;与此同时,欧盟开放科学在政策法规、基础设施,乃至对外普及宣传层面上,已有相当势力。日本已用最小成本完成较大规模的建设,并在东亚及东南亚发挥实质性影响力。所以,除了上述两条包容性和标准化的建议之外,在战略层面,我国科研资助机构以及科研教育机构应当团结起来迎头赶上。