研究型图书馆面向再现性危机的服务框架*
2022-03-21孔祥辉
孔祥辉
近几十年出现了一个越来越明显的问题是许多已经发表的科研成果,甚至是在著名期刊上的成果都经受不起再次重复研究的考验[1],科学界正在经历一场再现性危机。研究型图书馆作为科研与学术交流体系中的重要一环,有必要充分审视这场危机,通过科研服务整合与创新,筑牢开放、透明、完整的科学之根基,阻断危机之源,为共同化解危机做出努力。
1 危机回顾与文献综述
1.1 内涵、现状与影响
再现性(reproducibility)是指其他研究人员能够追溯研究报告中原研究者所遵循的步骤、方法、实验条件,或者基于原始数据进行分析复制,使研究结果得以再现的过程,也称为“可重复性”(Reproducible)。一般可分为方法的再现性、结果的再现性和推理的再现性[2]。再现性是科学研究中最基本的原则之一,也是科学进步的基石。它是对所有已发表研究结果的最低可信度要求。如果一项研究不能被再现,那显然其得到的成果和结论也就无法立足。它能够促进科学在反复争论、重复验证的过程中发展,而那些陈旧的观点或者经受不起细致推敲和重复检验的理论概念,将会在学术进步中遭到淘汰。然而,目前科学界正面临着严重的再现性危机(reproducibility crisis)。Ioannidis等[3]认为当前大多数研究结果是错误的。Begley等[4]对53项基础医学研究报告中的49份进行再现性研究,高达89%的失败率引发了人们对生物医学领域研究质量的关注。开放科学合作组织(Open Science Collaboration,OSC)开展心理学大规模复制性项目[5],邀请来自世界各地的270名研究人员,对来自3份顶级心理学期刊上的100份实证研究成果进行复制研究,发现成功率不到一半。而在癌症研究领域更是只有20%-25%或11%的成功率[6];经济学领域也仅有33%[4]的成功率。Monya[7]对1,576名研究人员进行调查,发现90%认为科学研究存在可重复性危机,52%认为存在重大的危机。最令人吃惊的是70%的研究人员曾试图重复另一位科学家的实验,但没有取得成功。再现性危机不仅损害了整个科学界的信誉度,还造成了大量时间和金钱浪费。据Freedman等[8]估算,在美国仅一年就有高达280亿美元投入的基础医学研究成果无法进行复制。由于复现率较低,破坏了基础医学领域知识累积与更新的速率,并导致了治疗性药物研发的推迟以及成本的直线上升。
1.2 危机归因分析
1.2.1 研究主体行为不规范
研究无法再现更多是由于研究结果的假阳性过高。假阳性就是不真实、不准确。在科研领域是指在统计学上具有显著意义,看似真实但实际经不起重复检验的成果和结论[9]。而假阳性又与研究主体的不规范行为密切相关,特别是可疑的研究操作(Questionable research practices)。它是指研究主体采取不合理的手段,主观干预、调整数据来获得预期结果的一种手段。调查发现[10]可疑的研究操作行为在科研界相当普遍,如择优选择结果(Cherry-picking)、p值篡改(Phacking)、已知结果假设(HARKing)等都是常见行为。而这些行为不仅违背了科学的客观性,让数据丧失它应有的统计学意义,也导致很多研究成果重复率较低,极大降低了科学研究的公信力。
1.2.2 科研数据缺乏公开共享
科研数据是科研项目研究成果的重要组成部分,也是实现科技创新的必要基础。只有将科研全过程中所有具备再利用价值的科研数据进行集合,例如调查或实验产生的原始数据、中间数据、最终数据,以及研究手稿提交后的修订、出版、同行评审、引用,还有作者的知识产权和其他活动等资料,通过标准化和规范化的处理,进行长期的保存和维护,并且保证数据可被所有人访问,记录完全公开、可追溯[11],人们才能准确理解和客观地评价其支持结论的相关数据,进而验证科研成果的准确性并重复使用数据回答新的问题。然而目前学术界普遍存在科研数据缺乏共享的问题。Kidwell等[12]发现在研究报告中,接近45%的原始数据在实际操作上不可获取,并存在不完整、不正确、不充分等问题。由于缺乏制度约束和政策引导,很多研究人员科研成果的原始数据并没有及时公开。Miyakawa[13]发现41份在审查前进行修订的研究稿件中,超过97%没有按要求提供支持其结果的原始数据。随着时间的推移,在改变研究方向、工作变更、拒绝回复、硬件缺失等多重因素作用下,原始数据越来越难获取和再利用。缺乏原始数据意味着缺乏科学性,研究成果也将无法进行再现性研究验证。
1.2.3 再现性研究边缘化
科学研究就应该百花齐放,百家争鸣。所有的研究结果,只有被一视同仁地对待,在争议、启发、验证的过程中逐步接近事实,才能共同推动科学进步。然而,那些能够进一步夯实事实结论的重复验证性研究却通常被束之高阁。出版偏见与发表压力导致“不发表,即死亡”的文化盛行。当前传统期刊、科研基金资助机构等存在出版偏见,即追求研究结果的创新性远远高于研究者们的理论贡献、研究设计、数据和分析的质量,甚至是激励研究问题的重要性,几乎很少会鼓励发表再次验证的成果。
从个体角度,每个研究人员所面临的回报和压力不同,其研究方向以及遵循的研究行为准则也就不同。再现性研究作为独立的研究模式,将意味着更多的时间、精力和资金成本的投入,而晋级职称、学术竞争的压力,往往使研究人员对这类研究望而却步。美国细胞生物学学会对其成员的调查发现[14],有39.27%的人认为“发表高层次文章的压力影响了文献的可重复性研究”。
1.2.4 研究过程缺乏透明度
研究透明度是指详细地公开披露研究各个阶段所使用的方法,产生的数据、案例以及一切相关资源,并使外界能够获取和再利用[15]。King[16]认为“充分理解和评估实证分析的唯一方法是知道数据生成和分析的确切过程。”一项研究只有保持足够的透明度,使数据和方法能够很容易被重新利用,其他的研究学者才可以在此基础上开拓创新,完善原创的研究构想,提高原有成果的引用率,并与原作者开展更紧密的合作。
然而科研数据不能实现普遍共享的现状从侧面表明,目前大多数研究的透明度较低。在当前的出版生态系统中,研究人员更倾向于发表那些新颖的发现,却不能整理完善文档确保研究成果的可再现性;期刊为追求新颖可能也会降低录用标准,忽略满足再现性的研究材料。缺乏透明度不仅导致成果的无法再现,还阻碍科研进程。例如,2020年关于人工智能(AI)在乳腺癌筛查应用的系统模型研究,其成果的新颖性立刻引起轰动[17]。然而由于该研究对其所使用的方法、代码和模型缺乏充分描述,研究人员无法确切地了解该成果的工作原理及其实际应用,严重影响了后续研究的跟进。
1.3 图书馆与再现性危机
再现性危机也引起了图书馆学界的讨论。Sayre等[18]就学术图书馆如何领导再现性研究并提供权威支持的措施进行讨论。通过对现有再现性研究指南框架的分析,提炼出服务支持的介入点,据此建立学术图书馆支持再现性研究的服务模型。Vitale[19]则是基于科研数据管理视角,对图书馆参与再现性研究运动的战略布局、人员配备和服务重点等内容进行探讨。Steeves[20]分析了图书馆员在支持再现性与数据管理服务下的双重角色定位,并就数据科学中心和图书馆如何将可重复的研究实践纳入规范合作的策略展开研究。Stodden等[21]则强调图书馆可以通过协助开展数据管理计划和数据建档等服务,在支持研究文化向再现性变革转型中发挥积极作用。我国目前仅有李丹阳等[22]分析了图书馆应对“复现性危机”的动因和服务策略。
在实践层面上,美国纽约大学图书馆[23]、佛罗里达大学George A.Smathers图书馆[24]、俄勒冈大学图书馆[25]等相继开设再现性图书馆员(reproducibility librarian)专职岗位。犹他大学健康科学院图书馆[26]利用已有的内外合作资源,邀请来自开放科学中心、顶尖级学府、著名学术期刊的专家学者,召开再现性研究专题学术研讨会,争取与相关院系负责人和教师人员密切协作,在会议反馈的基础上组建了再现性研究实践联盟(Research Reproducibility Coalition),同时争取到国家医学图书馆网络的赞助,建立了再现性研究学分制课程,组织联盟成员为课程开发和会议规划提供指导。斯坦福大学图书馆联合莱恩医学图书馆、数据科学中心以及其他部门共同组建了开放和可再生科学数据科学中心(SDS-core)[27],旨在发展和培养科研领域中数据收集、分析和传播的透明度和可重复性。加州大学旧金山分校图书馆[28]与校部研究生院以及开放科学小组合作,从2019年起,每年都会举办再现性系列研讨会。
总体而言,目前图书馆与再现性的相关研究数量较少,研究内容有待进一步深入,研究对象未做出明确区分。研究型图书馆是面向广大科研用户群体提供资源与服务的重要机构,同普通高校图书馆相比更有责任和义务,联同所有科研利益相关方,包括高校、基金资助机构、科研管理部门、学术期刊以及专业协会等去共同应对再现性危机。而研究型图书馆又是这些众多机构中,为数不多的拥有专业知识和基础设施来广泛支持再现性研究的组织。因此,有必要思考研究型图书馆在危机下的自我审视及其价值承担。尽管一些研究型图书馆对危机已足够重视,并从筹建组织、拓展教育、加强专员建设等方面寻求突破,但服务实践多局限于从某个角度开展,尚未有从宏观的整合视角构建整体的服务框架,合理布局资源来进一步指导实践。因此,文章拟在现有研究基础上,分析研究型图书馆的角色定位,对既有实践成果提炼、归纳并结合危机成因,构建起面向再现性危机的服务框架。
2 再现性研究危机视域下的研究型图书馆角色定位
2018年欧洲研究型图书馆协会召开主题为“图书馆员再现性实践”的网络研讨会(LIBER’s webinar)明确指出[29],“在目前应对日益增长的可重复研究挑战中图书馆处于有利地位,是时候将再现性领域作为专业服务的重要一环。”开放科学中心创建的《透明性和开放性促进指南》(Transparency and Openness Promotion Guidelines,TOP),其内容提示了危机视域下图书馆应该在引证服务、预注册及其分析计划、提高研究透明度、数据共享等方面要有所作为。研究型图书馆应顺应开放科学发展大势,融入科研以深度赋能,成为开放科学实践的倡导者、高质量科研的服务保障者、再现性研究的组织与协调者、开放科学文化的引领者,为化解危机贡献应有之力。
2.1 开放科学实践的倡导者
开放科学就像给现代科学加上一个感叹号,试图让复杂的数据、计算、分析方法对每个人都可以用,任何人都可以重复使用[27]。它以开放数据、开放获取、开放同行评议、开放可重复研究为特征,正成为科研发展的新范式。再现性是开放科学实践所坚持的核心理念之一。开放科学强调科研要素全面对外公开,而可再现性正是源于透明、共享、公开的开放科学实践的必然结果。因此,从根源上化解再现性危机,研究型图书馆要广泛全面地倡导开放科学实践,而事实上引领科研用户走向开放科学实践成为欧美研究型图书馆近年来科研服务重点战略走向。2015年美国国立卫生研究院咨询委员会提交的关于国家医学图书馆(NLM)未来发展的报告、2018年欧洲研究图书馆协会(LIBER)发布的《LIBER开放科学路线图》等提出图书馆需要促进开放科学实践,并通过协作方式扩大相关行动的影响力[30]。美国研究图书馆协会(ARL)执行董事艾略特·肖尔认为“开放科学将有助于提高研究和出版的透明度,同时也能帮助研究机构实现将创造知识作为公共利益的使命。”[31]该协会在2015年与众多期刊和机构共同签署TOP,并鼓励成员馆按照该指南提供必要的服务和基础设施来支持开放科学。研究型图书馆积极通过参与开放基础设施建设、研究数据管理,拓展开放获取服务形式,将开放科学普及成为科研人员实际开展科研的主流模式,最大程度上维护科学研究的透明度和公开性,确保成果的真实准确来为公众重新注入信任。
2.2 高质量科研的服务保障者
除开放科学中心的TOP,很多基金资助机构、期刊、科学协会等也都制定了多种可再现性研究指南和建议,如美国统计协会(ASA)指南、美国国家科学基金会(NSF)指南和美国国立卫生研究院(NIH)指南等。而各类指南中提出的有关数据引证、研究方法透明、研究与分析计划预注册、数据透明等方面的建议,都与研究型图书馆事业的核心领域相一致。研究型图书馆涉足文献检索、资源标引、学术发现、文献评估、学术交流、研究指标、数据管理和共享等众多领域且积累了丰富的经验。通过GIS、文献计量学、数据挖掘和数字人文服务来支持计算和数据密集型的研究[32];大多数馆都配备有学科馆员或信息专员,具备较强的专业能力和业务协调能力,满足学术联络和服务拓展的需要。
再现性危机源自科研质量本身,研究型图书馆作为服务机构对科研不具有主导性,不能替代研究主体决定研究走向和后果,但可以凭借丰富的服务经验、知识资源储备、专业人才和研究基础设施等优势,嵌入科研过程中为其提供必要的支持,在规范研究设计、文献综述、数据管理计划、文献引证、数据搜集与分析、成果开放出版、数据再利用等关键问题上进行服务赋能,确保高质量的科研过程和成果产出,成为在源头上化解危机最有力的服务保障者。
2.3 再现性研究的组织与协调者
再现性研究的价值不言而喻。国外一些研究机构和期刊倡导并开展了可重复研究项目,开展验证性的重复实验。但是由于它是一个相对复杂且独立的研究形态,要想全面推广,使整个科研领域真正向再现性研究科学迈进,需要所有利益攸关方密切协作,进行持久而谨慎的努力。关于再现性内容界定、整体研究环境架构,在实施过程中的版本控制、元数据记录、数据分析、开放存取、软件认证等具体细节问题处理,以及学科性因素、实践原则、研究基本框架、评价体系等方面的探索,都需要一个可靠的组织与协调者去运筹帷幄,提供全面的服务。
研究型图书馆作为多元化交流与合作平台,专业与学术属性的纵深使其在科研机构、科研用户以及利益相关方之间具备较高的信誉度,因科研服务业务所拓展的联络渠道,有助于图书馆争取广泛的合作,通过打破机构边界壁垒,整合各方优势资源,为再现性研究提供一站式学术交流、数据资源、培训、基础设施和服务。犹他大学健康科学院图书馆能够充分利用校内外资源,以点带面,从联络专家、召开会议、征集会议反馈、争取协会资金赞助,到建立学分制课程,再到迅速成立再现性研究实践联盟等一系列有效实践表明,研究型图书馆在服务上具有天然的组织与协调优势。
2.4 开放科学文化的引领者
数据不会欺骗,备受追捧的p值本身也不会导致危机[33]。科研主体将声誉置于科学之上、对影响因子的盲目崇拜、对再现性研究价值的否定等,才是真正破坏科学研究真实性和完整性的消极因素。再现性并非独立的文化概念,而是植根于开放科学实践的核心准则和价值理念,而Anderson等[34]发现研究人员对开放科学理念的认可与他们的现实行为并不匹配。尽管大多数接受调查群体都表示赞同,但并不总是在科研中践行这些价值观。
再现性要想在科研群体中达成普遍共识并内化成行为准则,就需要长期的文化变革,接受来自开放科学文化的洗礼。正如《开放科学培训手册》强调的,“只有当所有研究人员都了解并在其整个职业生涯中践行开放科学,才有可能从根本上改变科研实践与交流方式,进而培育开放、包容、共享、健康的科学生态系统,使科研过程更诚信”[35],为再现性研究提供生存空间,还原清风正气的学术环境。尽管文化变革是一个缓慢而艰难的过程,但研究型图书馆作为大学科研文化传播的重要载体,能够借助学术研讨、教育培训、活动嵌入、阵地宣传等持久性的活动策略加速这种变化。例如充分发挥传统培训教育职能传播开放科学理念,开展再现性教育;以文化的力量助力真实客观的科学研究,帮助研究人员"正本清源,守正创新",逐步认可“做到正确”而不仅仅是“发现重大结果”的科研原则,更多地去报告“不完美”但真实的结果,有能力讲述“完整的故事”,自觉规避数据造假和失真的风险。
3 研究型图书馆面向再现性危机的服务框架
3.1 框架设计
通过深入分析,可发现解决危机成因的关键点与研究型图书馆的服务支撑点有多重耦合。首先,研究主体行为的不规范,可疑的研究操作实践大行其道,既有研究人员统计方法误用、数据素养匮乏的表象使然,也是缺乏合作、信任、透明、严谨的开放科学文化支撑的必然。研究型图书馆可以据此开展科学数据素养教育、建立开放科学交流阵地,夯实研究主体在向开放科学、数据科学迈进过程中所必备的数据技能和文化底蕴。
其次,科研数据实现公开共享是以完善的数据共享环境为前提。研究型图书馆应立足数据管理优势,积极参与覆盖科研全过程的数据管理平台建设,建立数据协作共享机制,为科研数据自由流动提供硬件支撑和服务保障。
再次,加强研究要素的完整性揭示,实现研究流程规范化操作将有助于提升研究整体透明度。而为实现这些目标,科研界业已存在不少成熟的运作制度和资源,如预注册、研究指南、预印本制度等。研究型图书馆可借他山之石面向科研人员全面推广资源,通过科研协作落实制度,最终实现研究资源、流程、方法和结果的全透明。
最后,凭借丰富的宣传推广手段和广泛的合作渠道,研究型图书馆还可以搭建信息专栏、组建计算性研究平台并开设专题教育,为再现性研究开展提供资源支持和技术指导,提升该研究的关注度和投入度,从而打破发表压力与出版偏见恶性循环的格局。
综上,研究型图书馆应以化解再现性危机为出发点,将危机成因作为框架支点,以提升研究过程透明度、完善数据共享环境、增强再现性研究支持、提升研究主体为目标建立起服务框架(见图1)。
图1 研究型图书馆面向再现性危机的服务框架
3.2 提高研究过程透明度
3.2.1 推荐报告指南
研究报告指南(report guideline,以下简称“研究指南”)是就如何撰写研究方法和研究结果提供标准化建议的手册,通常采用检查清单或流程图的形式。科研人员使用研究报告指南,可以有效减少研究分析方法表述不佳、选择性报告等问题,改进研究报告质量,使之更准确和透明,促进方法的可重复性以及数据的可比较性。研究报告指南最早出现于生物医学领域,如CONSORT、PRISMA、STROBE等,目前在心理学、生态学等学科领域也逐渐得到普及。牛津大学医学统计中心所建立的赤道网络(EQUATOR Network)[36],集合医学领域的研究指南向用户提供免费开放获取,旨在通过使用研究指南改善研究文献质量,提升医疗领域研究的质量和透明度。EQUATOR开发了专门针对图书馆员的培训资源。研究型图书馆可采取EQUATOR建议,通过资源导航,图书馆网页、社交媒体、宣传单、海报中提供信息和资源链接,亦或在嵌入科研项目过程、开展有关教学培训中添加专题讲解,广泛推荐研究人员使用研究指南。
3.2.2 积极引导预注册
预注册(pre registration)是指在研究开展或数据搜集前,记录包含有研究工作实施方案和技术路线的研究设计,并将该设计文档提前登记并存储在一个只读的公共存储库中[37]。预注册广泛适用于各类研究,其优点在于以研究设计为载体,将研究意图、方法、思路和基本内容提前公开,使研究流程透明化,增强了研究结果的可预见性;帮助评审专家、资助机构审核评估,如果在研究尚未开展前,就能进行同行评审并预先确定出版状态,能够有效缓解出版偏见问题,帮助研究人员将更多精力投入到提升研究方法的质量上;也便于其他研究人员利用研究设计开展成果验证,从而使再现性研究变得更有吸引力。
从资源角度,预注册研究设计以其蕴含的丰的学术与再利用价值,有利地拓展了高校图馆学术资源建设的版图[38]。而现有很多平台,括开放科学框架(Open Science Framework)的SF Registries,美国国立医学图书馆的Clinical ials Registry,以及AsPredicted、RCT Registry都提供完善的预注册服务。研究型图书馆可以接依托平台功能,面向广大研究人员,特别是新晋研究人员的科研生涯初期,宣传引导其进预注册操作。天普大学查尔斯图书馆就开设专研讨会,重点讲解在Open Science Framework进行预注册的优点、易用性以及使用方法和流程。富书包OT r等直在行题上
3.2.3 加强研究资源标识
研究成果中针对研究资源缺乏足够的细节描述,是很多学科科研领域存在的普遍现象。研究型图书馆在编目、数据标引等业务方面拥有雄厚的经验基础,可以发挥传统业务优势,以学科馆员为主体嵌入研究项目,对科研成果中所涉及的重要研究资源通过元数据管理技术进行有效整合和揭示,将有助于实现研究资源公开透明、易于组织且能独立识别,进而引导实现再现性操作。美国俄勒冈健康与科学大学图书馆就发起并建立了资源识别倡议(Resource Identification Initiative)的试点项目[39],通过使用独特的研究资源标识符(RRIDs)建立标识度,为生物实验所用的抗体试剂、微生物体、软件工具和其他研究材料等重要资源制定了一个引用标准和平台,不仅使研究人员能够通过平台搜索、引用特定研究资源,轻松跟踪所有论文,并评估抗体在不同场景下的工作效果,也便于其他研究人员验证和复制他们的工作,极大地提高了研究资源的可识别性和科学再现性。
3.2.4 推广预印本服务
预印本是指在同行审议的学术期刊发表之前的一种论文版本,预印本服务就是将预印本托管于存储库上,并分配持久性标识符(例如DOIs)。该存储库能够比传统出版物更快地分享传播研究成果。预印本资源本身不仅是提高研究成果透明度的工具,其服务也是提高再现性的重要手段。预印本服务相比传统期刊出版流程,提供了更早分享成果的路径,使研究人员得以提前进行审查并得到反馈,来进一步改善实验或分析方法,不断提高研究成果质量;在出版格式和篇幅上更具有灵活性,即使结论只是初步的、没有后续实验的成果同样也能提前共享,有效减少了研究人员出版压力,解决“文件抽屉”效应。此外,科研依赖于一个迭代过程,预印本服务通过提供永久性标识符,允许其他研究人员将其成果纳入到系统综述和MATE分析中,有助于减轻出版偏见潜在的负面影响[40]。
预印本服务一般都由专业平台运作,分布广泛。越来越多研究人员开始将预印本服务作为一种获取学术灵感、征求同行反馈和网络学术交流的方式。研究型图书馆应当顺应当前趋势,借鉴佛罗里达大西洋大学图书馆、爱荷华州立大学图书馆等成果,集合平台资源,采取分门别类、细致的导航方式,如针对跨学科领域的OSF PrePrints、SciELO、MindRxiv、Research Square通用平台,针对生命科学、社会科学、人文科学、工程技术学等特定领域的ArXiv系列、DOE Pages等专业平台,帮助用户精准定位平台资源;通过政策资源解读,引导用户有效利用平台服务。例如,佛罗里达州立大学马奎尔医学图书馆提供Transpose检索系统,帮助科研用户了解同出版商和期刊对于预印本使用的政策和意见。
3.3 增强再现性研究支持
3.3.1 开展专栏建设与专题教育
再现性研究更多地是以科研理念形式停留于科研人员认知体系。要将理念真正转化为技术操作和实践行为准则,需要大量专业的知识资源作为支撑。再现性危机正受到各学科、各领域的广泛关注,由此所产生的各类知识资源也日渐丰富。研究型图书馆应在图书馆主页开设专栏,向用户提供清晰有序、动态更新的知识资源,包括再现性研究基本概念、原理、方法、流程、最佳案例等基础知识,相关研究机构、研究资源、技术工具等资源导航,以及学术会议、新闻进展等的动态信息。通过ARWU高校排行榜对世界排名前20名的北美研究型大学图书馆统计(见表1),开设专栏正逐渐成为新的发展趋势。
以专题教育系统化地输出概念、方法、技能,穿插简短的演示和实践练习,是帮助研究用户体验完整再现性研究的有效形式。研究型图书馆应积极同技术部门共同研发,或利用校园广泛的合作渠道争取教学资源,邀请学校不同专业的教师、开放科学实践带头人,争取校外专业组织机构的合作开展教学实践。亚利桑那大学图书馆联合本校数据科学支持中心,围绕代码海洋(code ocean)平台开发了高性能计算资源的数据管理及其可再现性最佳实践培训课程。俄克拉荷马州立大学图书馆、哈佛大学图书馆、加州大学洛杉矶分校图书馆、天普大学图书馆等通过与开放科学中心合作,以网络研讨会、培训等形式向广大科研用户讲解基于Open Science Framework再现性研究的工作流程。
再现性研究实践性强,课程内容设计应突出操作性。从用户心理角度,参与者更感兴趣的是参加能满足实际需求的内容,如果能够尝试不同的工具和最佳实践,更容易应用知识和技能。所以,内容应侧重于如何构思严谨的实验设计,在数据、代码、方法与协议、开放出版与同行评审等环节实现再现性所需的工具、可操作步骤以及最佳实践演示等。在教学策略上,通过创建一个完整的可重复的科研项目练习,能够在短时期内有效推动科研人员将可重复的、透明的实践元素与科研流程实现无缝链接,提高当前和未来的再现性研究能力。而面向本科生、研究生或年轻科研群体,华盛顿大学图书馆[41]所提出的3种教学方式值得普遍借鉴:一种是要求学生提交能够用于满足最低重复验证要求的实习报告,并规定报告中必须包含数据分析过程中所使用的文件,以及R或Python环境下用于生成结果如代码文件等;另一种是直接重复实验(direct replication),要求学生能够直接复制或者再现一篇已发表的期刊文章中的部分或全部的结果;第三种是搭建再现性教学环境,目前许多教育工作者正在使用GitHub等开源平台分享他们的课程材料,能够直接嵌入和调整开源代码、文本资源,能够大范围向学生传授基于Jupyter Notebooks、R等环境的再现性数据技能操作。
3.3.2 建立再现性研究计算平台
计算性研究支持平台对于再现性研究扮演着至关重要的角色。特别是当前科学研究越来越依赖于数字工具和数字环境。绝大多数科研任务需要通过计算机软件程序进行计算和分析,得到的结果可以复制并与他人共享。然而,由于软件包安装和执行方式的复杂性,以及系统的参数、配置、版本等的不同,还有科研人员记录分析步骤的限制,都可能会导致完全不同的运行结果,得到的计算结果往往无法重现,因此研究型图书馆如果从技术上给予支持,就必须构建可计算的再现性研究平台,努力捕捉数字环境来保护他们的研究工作以实现再现性。
由于在操作系统的普适性,很多开源的代码和数据存储与协作工具(如Binder、Docker、GitHub),以及开源软件包R等工具在科研领域已得到广泛应用。研究型图书馆可以借助开源软件受众面广的优势,展开技术合作,构建完整的数字生态环境。纽约大学图书馆馆员Vicky Steeves与其团队参与开发开源ReproZip项目[42],帮助科研人员克服再现性研究过程中所涉及的数据保存、应用程序、数据库、软件等技术阻碍,从数字人文学科到数据科学领域,都验证了该项目能够有效支持更严谨的再现性研究,并且强化了有关研究资料、应用程序、软件包、数字环境的发现能力和保存能力。斯坦福大学图书馆则是鉴于R在可重复性研究的实用性,通过资源聚合R的专业知识、建立packages清单来共享R项目、提供入会指南,鼓励用户加入社区,力图在其校园范围内建立一个强大的R用户社区,以更好地支持校园内涉及R平台所使用的科研和教学活动,为大规模推广和普及再现性研究创造基础。此外,研究型图书馆绝大多数承担着数字资源长期保存服务。通过对现有保存平台进行功能性拓展。例如,耶鲁大学图书馆在其数字资源保存系统中内嵌的“仿真服务”(Emulation as a Service(EaaS))软件,卡内基梅隆大学图书馆主持建立的“橄榄档案”(Olive archive)合作项目,不仅为应用软件、数字工具和其他可执行内容的长期保存提供强大操作系统支持,还可帮助用户即时解决计算性的再现性研究问题。
3.4 提升研究主体
3.4.1 夯实科学数据素养教育
“快餐式”的专题教育只能为再现性研究提供局部的技能补充,从根本上为研究主体建立系统的数据技能与知识体系,升华实证研究方法,则需要夯实科学数据素养教育。科学数据素养是指在科研过程中收集、加工、管理、评价和利用数据所应具备的能力、道德与规范[43]。一般包括数据意识、数据技能、数据伦理3个方面内容。科学数据素养与再现性研究是携手并进的。正确应用数据科学原理和工具的能力直接决定研究者在研究过程中的数据处理效率,以及最终研究成果的可信度与有效度,甚至成果转化,并始终注意可疑研究操作陷阱。自觉驱动高质量数据的搜集建档操作,遵循数据管理、代码组织、利用、共享的最佳实践,使研究过程得以较早具备可再现属性。
科学数据素养教育与面向科研周期的数据管理服务体系及其平台建设相呼应,教育内容应体现普适性、学科性、针对性。开设通识模块,如科研数据管理的基本概念、常用工具与使用、政策与伦理、数据管理实践技能。设置专题模块,例如加拿大维多利亚大学图书馆直接基于可再现性的数据素养教育,包括审视研究数据可重复性挑战、可再生研究数据管理工具、审核工具等,还有宾夕法尼亚大学图书馆为代表的学科数据素养内容体系。无论哪种内容模块,研究型图书馆都可采取线上线下教育、专题讨论等多种形式,面向广大研究人员普及数据科学时代的核心素养。
3.4.2 建立开放科学文化交流阵地
基于危机审视下,只有破除出版偏见,让学术公平自由地发展,才能更接近科学研究的本质。越来越多的研究型图书馆通过与研究资助者合作资助OA期刊论文发表、设置开放获取出版岗位等形式,逐步开启了开放获取的出版服务。着眼于危机,由研究型图书馆所主导开放获取出版服务,应更多地采用包括TOP准则和其他报告标准在内的重复性准则,推动更多基于开放实践的学术成果传播,以开设专栏的形式引导重复验证性研究的发表,成为促进研究严谨和可重复的文化阵地。同时,研究型图书馆可利用场所优势,建立对话平台,鼓励研究人员、社团和相关专家对话与合作。美国普林斯顿大学图书馆就在ReproducibiliTea组织倡议下,发起名为Princeton-Rutgers ReproducibiliTea的开放科学期刊俱乐部,旨在帮助校园的研究社团和人员讨论关于改善科学、可重复性和开放科学运动的各种问题、论文和想法[44],以此推进开放科学理念全面深入和推动再现性研究成果的传播,使开放自由的学术文化落地生根。
3.5 完善数据共享环境
3.5.1 构建开放科研数据服务平台
数据管理服务平台是研究型图书馆参与构建开放数据环境、推动研究成果开放获取、克服数据共享危机,以协助再现性研究的重要基础设施。图书馆应争取多方合作,按照可查找、可获取、可互操作以及可重复使用的科学数据管理原则,推进基于开放科研数据,覆盖数据生命周期的数据服务平台建设。
除个别馆外,大部分研究型图书馆专业技术人员和经费预算有限,从开源节流、避免重复建设考量,其一就是参与已有机构知识库的改造。例如,凯斯西储大学图书馆与数字学术中心以及相关院系共同合作,实现了学校机构知识库和开放科学框架的融合,实现科学数据的存储、发布、共享和推广。普渡大学数据知识库提供在线协同工作空间与数据共享平台,研究人员可以在平台上创建数据管理计划,检索、上传、发布个人科研数据并就研究计划方案等展开咨询,实现基于完整数据生命周期的嵌入式数据服务功能。其二就是大力推广第三方数据服务平台。例如OSF(Open Science Framework)是由开放科学中心创建的一个开放的项目管理平台,由于开放科学中心与美国研究型图书馆协会是合作伙伴关系,考虑OSF目前影响力和强大的功能性,很多成员馆都已申请成为OSF的机构合作馆,直接提供给本校广大师生免费使用,帮助其更便捷地分享自己的代码、数据、统计方法等,实现整个研究生命周期的数据管理,提高科研数据的开放性、完整性和可重复性。而结合本校专业建设,满足跨学科多源异构科研数据的现实需要,部分图书馆还选择基于OSF框架建立的第三方数据服务平台,如马里兰大学图书馆的社会科学研究存储平台SocArXiv、加州大学图书馆资助的protocols.io平台等。
3.5.2 建立数据协作共享机制
数据服务平台只是提供了数据存储和交换载体,而要真正发挥数据共享的价值则需要协调运作机制。研究型大学普遍具备支持数据密集型和计算研究的专业人才和资源,但这些资源通常分布于科研院系、研究中心、网络中心等部门之间,需要研究型图书馆发挥中介作用加以聚合,才能取得“1+1>2”的协同效应。比如,卡内基梅隆大学图书馆数据协作实验室(dataCoLAB)[45]、西北大学图书馆的数据实验室等都采取类似机制,将实验室作为数据技术供给方与需求方的连接点,在校园范围网罗一支具有数据和计算机科学技能的研究顾问和专家团队,为希望得到数据帮助的研究人员进行针对性匹配,使不同技术和学科背景的人得到合作的机会,以此来遵循提高科研再现性的最佳实践。
4 结语
可重复性危机是目前科研界一个亟待解决的重大问题,对于科学的进步以及科学的公信力造成极大的冲击。作为科学共同体中的一员,为捍卫科学研究的严谨性和真实性,研究型图书馆应该审时度势,厘清危机本质成因,充分发挥专业优势和职能,对现有科研服务内容进行继承、创新和发展,为再现性研究提供必要的服务支持。从实践上研究型图书馆正处于初级发展和探索阶段,馆际之间的差异性也使得服务没有统一的黄金标准可以遵循。但加强服务框架的探讨,将有助于在危机中始终保持清晰的建设思路。从服务规划、保障机制、人才建设等维度继续展开深入研究,也必将进一步推动服务进程,帮助研究型图书馆走向更广阔服务格局。