剑桥大学科研数据管理实践及启示*
2022-09-30王晓鹏
王晓鹏
(中国民航大学 天津 300300)
英国联合信息系统委员会认为科研数据管理是有效管理科研过程中所创建的数据,是科研过程中不可或缺的一部分。科研人员对数据文档的命名、不同版本文档的删除、数据备份以及数据访问权限的设置等日常行为都属于科研数据管理的一部分。对整个数据生命周期的有效管理有利于科研数据的安全存储、数据的共享和重用,能提高研究效率、提升研究成果的知名度,保证研究的完整性[1]。
剑桥大学成立于1209年,是世界上第四古老的大学。截至2020年拥有在校本科生12850名、研究生11600名和教职工11528名[2]。剑桥大学拥有艺术与人文、生物科学、临床医学、人文与社会科学、物理科学和技术等6大学部,31个学院和150多个院系,每个学院都有各自的管理规程。剑桥大学图书馆下设学术交流办公室,由办公室、研究支持图书馆员和三个研究团队(分别为开放研究系统团队、开放获取团队、科研数据管理团队)组成。学术交流办公室以开放获取政策和科研数据管理政策为纲领,主要为科研人员和行政人员提供支持和培训。研究运营办公室是研究项目的管理单位,负责项目申请、任务书签署、资金支出监管和提供财务报告等业务。图书馆和研究运营办公室共同负责剑桥大学科研数据管理服务,成立了科研数据服务团队(RDM团队),由4名来自学术交流办公室的科研数据管理团队成员和2名研究运营办公室人员组成。
本文主要使用网络和文献调研法,通过访问剑桥大学图书馆官网、研究运营办公室官网、科研数据专题网站以及剑桥大学存储库Apollo(https://www.repository.cam.ac.uk/)搜集并归纳整理相关资料,以期借鉴剑桥大学的成功经验,为我国学术型图书馆开展科研数据服务提供参考和建议。
1 剑桥大学科研数据管理实践
1.1 科研数据管理政策框架
2015年4月23日,由开放获取项目委员会(Open Access Project Board ,OAPB)起草,研究政策委员会批准发布了剑桥大学第一版《科研数据管理政策框架》(Research Data Management Policy Framework),之后每年进行审查和修订,2021年11月更新到了第三版[3]。该政策框架共36条,目标是为所有教职员工和学生提供科研数据管理和共享方面的指导,吸纳了剑桥大学科研数据管理相关政策的内容。相关政策包含《开放研究立场声明》《科研诚信和道德准则》《记录管理声明》《剑桥大学章程和条例》《存储库使用条款》等,详细内容见表1。
表1 剑桥大学科研数据管理相关政策
《科研数据管理政策框架》正文分为政策制定背景、数据管理原则、大学的责任以及科研人员和学生的责任四个方面。政策框架指出:数据管理的总体原则是应尽可能地保证数据的可重复性,长期保存所有研究成果包括科研数据,广泛传播研究和学术成果,在数据开放和法律义务之间保证权责平衡。数据管理服务方面,大学负责政策宣传,并提供有关数据保护、研究诚信、知识产权等相关建议和指导,开发和支持存储库、研究信息系统、活动数据存储等基础设施的建设。数据共享和归档方面,政策框架规定在已发表的研究成果中提供一份声明,描述访问科研数据的方式和条件,科研数据的公开时间不迟于文章首次在线发表时间;已发表的科研数据应提供适当的元数据描述;科研数据应根据资助者的数据安全保存政策保存在适当的存储库中,尽可能使用开源文件格式和可用于长期保存的文件类型。科研人员应根据资助者的要求准备数据管理计划,并在项目结束时更新数据管理过程、存档和共享情况,为数据管理做出适当的资金预算和时间分配,最终将数据管理计划存入适当的存储库中。该政策框架明确了责任分工,指出了科研人员如何在当地政府和资助者的法律和道德约束下管理科研数据。
1.2 科研数据服务模式
剑桥大学先采用自上而下的政策驱动模式开展科研数据管理服务,主要向科研人员宣传资助者的政策要求,倡导科研人员根据政策要求管理科研数据,但科研人员主动参与数据管理的积极性不强。随后其采用了自下而上的参与式服务模式,在充分调研科研人员的需求后根据需求提供相应的服务,这种服务模式得到了科研人员的认可。剑桥大学对这两种模式进行了成本效益分析后,认为开展科研数据服务时要将这两种模式结合起来才能取得最大效益[4]。
1.2.1 自上而下的政策驱动模式
剑桥大学《科研数据管理政策框架》制定的动力来源主要是2014年英国工程和物理科学研究委员会(EPSRC)出台了有关数据管理和共享的政策[5]。政策要求从2015年开始其资助的所有论文都必须包含数据可访问的明确声明,且研究机构需提供足够的基础设施来支持科研人员有效管理和共享他们的科研数据,不遵守政策的科研人员和机构将面临资助者的制裁[6]。
作为一所研究密集型大型学术机构,为了更好地贯彻执行资助者的政策要求,剑桥大学采用了自上而下的政策驱动模式展开了最初的科研数据管理服务。剑桥大学组织科研人员和学生参加了一系列培训会议,传达有关资助者对科研数据共享的要求。这种模式可确保高校决策层、管理层以及科研人员认识到风险,高校管理层的认同为剑桥大学科研数据服务的开展提供了有力支持。培训以政策宣讲为主,未向科研人员解释为什么资助者要引入这些政策,为什么他们应该遵守资助者的要求,这些政策试图解决什么问题[7]。自上而下的政策驱动模式是从高校管理层的角度出发,而不是基于科研人员的数据管理和共享需求,也没有开发新资源或新服务来帮助科研人员改进其数据管理和共享实践。基于以上几点原因,科研数据管理被科研人员认为是管理部门的新要求,是科研工作的 “复选框”,科研人员不愿意在科研数据管理和共享上投入时间和精力。
1.2.2 自下而上的参与式服务模式
2015年后,RDM团队投入了大量时间和精力调研本校科研人员科研数据管理水平和需求。调研方法主要有:①举办科研人员参加的交流座谈会。会议一般设在二级学院或研究所,以一个研究小组参加的专场会议为主,有时也有几个研究小组参加的集中会议。通常有两名RDM团队的成员参会,一名负责讲解和交流,一名负责记录。通过收集参会科研人员提出的问题,RDM团队创建了常见问题合集FAQ,FAQ成为科研人员科研数据管理的常用资源[8]。FAQ中的所有问题和答复都会反馈给资助机构,经过资助机构审核后再公开发布,这样既提高了FAQ的可信度及权威性,也有助于资助机构了解科研人员对政策的反馈。②组织结构化访谈和调研。结构化访谈和调研结果表明,科研人员的主要需求是:如何快速找到科研数据管理的相关信息,如何获取整个研究生命周期中数据管理的培训和支持,如何选择科研数据存储库[9]。③召开科研人员和资助者共同参加的公开会议。一些主要的大学资助者,例如工程和物理科学研究委员会、生物技术和生物科学研究委员会、威康信托基金和英国癌症研究委员会都应邀参加了会议。公开会议的召开为政策制定者和科研人员提供了直接沟通的渠道,有利于科研人员了解政策制定的背景和政策执行的意义。
为了满足科研人员的需求,RDM团队创建了科研数据管理网站,旨在为科研人员的所有需求提供一站式解答。 剑桥大学早在2005年就建立了基于 DSpace的机构存储库Apollo,但在2005—2015年这十年间科研人员仅提交了 72 个数据集[10]。为了提高Apollo的使用率,RDM团队为每个数据集分配了DOI,并通过创建网络表单的方式简化科研人员上传科研数据的步骤。2015年以来,存储库接收了27万多个数据集,2021年全年的访问量为1922 741次[11]。
RDM团队还开发了一系列培训产品,内容涵盖科研数据管理的不同方面并跨越整个研究生命周期[12]。培训内容不再过度强调资助者的科研数据政策和要求,而是为科研人员数据管理实践提供支持并鼓励他们共享科研数据[13]。科研人员通过参加培训可以了解如何撰写数据管理计划,如何收集、标记、备份和存储数据。除了组织科研人员参加培训之外,RDM团队还组织了科研人员之间的交流会,介绍他们在数据管理方面的经验。考虑到利益相关群体的不同沟通偏好,RDM团队还通过 Twitter、即时通信工具、电子邮件和传统邮政等多种方式让科研人员及时了解可用的资源和最新资讯。以上努力取得了超出预期的效果,收到了科研人员的积极反馈,预订专场培训的科研人员和科研小组越来越多。鉴于仅由两名全职员工组成的培训团队已无法满足整个大学不断增长的培训需求,剑桥大学于2016年启动了“数据冠军”计划,科研人员自愿担任科研数据管理专家,在接受RDM团队的专业培训后,负责本学科科研人员的数据管理技能培训。该计划不仅解决了特定学科数据馆员可持续发展的问题,而且提高了科研人员的参与度。RDM团队和科研人员的交流主题最初主要为数据管理和开放数据的重要性,而后逐渐转变为影响数据共享的因素和开放研究的实施。这表明剑桥大学的科研人员已经理解了良好数据管理实践的重要意义,多数科研人员已经投入到科研数据管理的实践中。
自上而下的政策驱动模式的优点是便于传达政策要求、响应速度快,但科研人员的参与意愿不强。自下而上的参与式服务模式以用户为中心,想用户之所想,急用户之所急,易于建立同科研人员之间的信任,但是服务的开发需要更长时间和更多资源。RDM团队先从调研用户需求着手,然后依据用户需求开展一系列相关服务,如建立科研数据管理网站,简化存储库的使用步骤,举办答疑交流培训会等,这些服务大大调动了科研人员投入科研数据管理实践的积极性。根据剑桥大学的实践经验,将这两种服务模式结合起来,能在确保服务响应速度的同时建立不断增长的用户群。
1.3 科研数据服务内容
1.3.1 数据管理指南
剑桥大学RDM团队专门为科研人员创建了一个数据管理指南的在线网站(https://www.data.cam.ac.uk/data-management -guide),提供创建数据、整理数据、访问数据以及管理和共享数据等数据管理方面的相关资料,详见图1。RDM团队也汇集了很多校外资源供科研人员参考,详见表2。
表2 数据管理校外资源
图1 剑桥大学数据管理指南
电子研究笔记本和传统的纸质笔记本相比,具有可共享、可搜索、密码保护、可备份、支持数据管理、可协作等优点,因此很多国外高校都倡导使用电子研究笔记本来管理科研人员的科研数据[14]。2017年1月,学术交流办公室在剑桥大学工程系组织了题为“无纸化研究解决方案——电子实验室笔记本”的研讨会,其目的是调研科研人员的需求,讨论如何将电子研究笔记本应用到不同研究领域。本次研讨会成为剑桥大学电子研究笔记本服务的首次尝试。同年7月剑桥大学首次在生命科学领域试用了四种电子研究笔记本,结果表明,试用的四种电子研究笔记本中没有一种能满足所有用户。2019年,大学图书馆从功能、存储和安全等方面对多种电子研究笔记本进行调研后指出:目前没有一个适合全校各学科领域的电子研究笔记本,因此给出了挑选电子笔记本指南和开发商的列表(https://www.data.cam.ac.uk/data-management-guide/electronic-researchnotebooks/electronic-research-notebook-products),以期为科研人员提供全面的支持和指导。
1.3.2 数据管理计划
大多数资助者鼓励科研人员从项目一开始就考虑制定数据管理计划,因此数据管理计划也成为大多数图书馆科研数据服务的主要内容[15]。剑桥大学的科研人员制定数据管理计划的途径有三种。第一种,依据相关政策自行制定。剑桥大学提供了对于为什么要制定数据管理计划、资助者对数据管理计划有何要求、数据管理计划有哪些内容等常见问题的解答,科研人员可以通过参考这些资源自己制定数据管理计划。第二种,寻求专业的帮助。剑桥大学专门成立了数据管理计划服务小组,小组成员主要来自院系或大学的IT人员、学科馆员、资助者和数据团队,科研人员需在项目提交截止日期前至少7个工作日提出申请。第三种,借助在线工具制定数据管理计划。在线数据管理计划创建工具DMPonline是由数字策展中心(DCC)开发的交互式在线工具,该网站记录了英国、欧洲资助者的要求,科研人员可以根据要求定制数据管理计划模板。若资助者对数据存储有要求,科研人员需按照资助者的要求将数据存入指定的数据存储库中,例如英国经济与社会研究理事会建议首选数据存储库为ESRC UK Data Service(UKDS)。剑桥大学也为特定学科的存储提出了建议,如数学和物理学科的arXiv、 基因组数据集GEO、人文社科的英国数据档案库等。
剑桥大学开展了博士生数据管理计划试点项目,博士在读第一年要制定一份简短的数据管理计划,有专业的评估员对其合理性进行评估。在这份数据管理计划中博士生需要指定收集数据的格式,还需要考虑不同格式的长期保存能力和数据的可重用性,必须包括日常数据管理、是否涉及知识产权和道德伦理等方面。在数据存储方面,建议至少选择2个位置备份自己的数据,剑桥大学提供了多种云解决方案(https://www.hpc.cam.ac.uk/research-data-storageservices),存储库Apollo为本校师生提供20GB以下的免费数据存储,超过20GB按照4 英镑/GB收取相关费用。
1.3.3 数据管理培训
剑桥大学为科研人员提供数据共享、数据组织、数据可视化、代码撰写、科研诚信等数据管理相关的培训,并专门建立了一个培训网站,读者可以根据开课机构和开课主题搜索培训和预订课程。开设相关课程的机构主要有社会科学研究方法中心、剑桥大学图书馆、工程系、大学信息服务中心、生命科学研究院、个人和专业发展中心、科研人员发展计划中心等。
2020年11月23日至27日学术交流办公室围绕科研数据管理举办了为期一周的线上数据周活动。校内外人员均可在线注册并参加会议,参加会议的有科研人员、资助者、出版商和其他利益相关者,会议采取系列会谈、小组讨论和互动问答等方式。数据周的第一天以一个开放性问题拉开序幕:“谁是良好数据实践的赢家和输家?”与会者通过资助者和出版商这两个不同的视角,从数据共享、数据质量、道德和研究文化等方面来回答。第二天,英国档案馆的Louise介绍了UK Data Service(UKDS)托管的下载次数排名前20的数据集,以及这些数据集被广泛重复使用的共性。科学知识服务公司(SKS)的Tiberius介绍了机器重用数据的可能性以及由此产生的伦理问题。第三天和第五天是专门针对高级科研人员和机构负责人的研讨会,分别讨论可重复性和数据管理的关系以及数据同行评审可持续发展模型。第四天,与会人员分别从资助者和大学的角度讨论如何支持科研人员进行数据管理。艺术与人文研究委员会的张涛涛指出资助者主要是从技术、设施和软件方面提供支持。代尔夫特理工大学的Marta介绍了三种支持方式:中央提供资源支持,数据管理员提供培训支持,数据经理和软件工程师提供实际数据管理支持。
2 启示与建议
如今新技术的运用促使科研范式发生深刻变革,开放科学成为科技发展的重要趋势,科研人员的科研数据管理和运用需求迅速增加,为图书馆的发展提供了新的机遇和挑战。剑桥大学RDM团队通过多年的实践逐步构建了政策驱动和参与式服务相结合的服务模式,“数据冠军”项目的实施也扩充了学科科研数据服务团队,剑桥大学的科研数据管理服务逐渐形成了良性的循环发展态势。
以用户为中心是产品和服务创造力的基础,是产品最终被用户认可的有效途径。初景利在2008年就提出了我国图书馆应该以用户为中心重构服务模式[16]。目前,我国高校尚未形成完善的政策体系,科研数据服务以建立数据存储平台和提供咨询服务为主[17]。图书馆可从如下几个方面展开工作,逐步建立符合自身发展特色的科研数据管理服务体系。
第一,建立政策清单,助力科研人员有效管理和共享数据。《科学数据管理办法》印发后,国家各部委、中科院和各行业相继出台了一系列科研数据管理和共享政策,政策既从宏观层面指出了各利益相关者的职责,又具有很强的实操性,涉及数据管理的各个方面。数据馆员应深入解读和归纳总结相关数据管理政策,依据研究生命周期梳理科研人员各个阶段需要遵守的数据管理和共享政策,列出具有实操性的政策清单,在图书馆主页新增科研数据政策板块并提供咨询服务,让科研人员了解数据管理和共享的意义以及在科研过程中如何去做才能更合规。
第二,需求驱动服务,充分调研科研人员的需求和管理水平。读者需求是推动图书馆业务持续发展的动力,从剑桥大学服务开展的经验来看亦是如此,因此国内高校图书馆在开展科研数据管理服务的初期就应该重视调研工作,从读者需求出发逐步开展服务工作。学科服务的有效开展是推动科研数据服务的基石,我国高校图书馆已开展了多年的学科服务工作,建立了同科研人员的紧密联系,积累了丰富的工作经验[18]。图书馆可通过调查问卷、访谈、召开交流会等途径,分类调研各学科教授、讲师和研究生的科研数据管理水平和需求,根据科研人员的实际需求提供多层次全方位的服务。
第三,助推角色转化,培养全职数据馆员提升服务水平。科研数据服务包括数据存储、元数据标准、数据安全、数据素养培训等内容,要求馆员既有图情领域知识,又具备IT和大数据领域的综合素养,数据馆员具有跨学科和多元化的特征。国外图书馆大多设置了全职的数据馆员,具有明确的分工和培养计划。剑桥大学在开展科研数据管理服务之初就设置了2名全职数据馆员,随后通过跨部门的合作扩充了RDM团队的全职成员。现阶段我国高校图书馆招聘多学科背景的数据馆员难度较大,可在馆员队伍中通过选拔与素质提升建设数据馆员队伍。发展初期选择一名骨干开展政策研究和需求调研等工作,根据科研人员的需求和服务的开展情况制定相应的团队培养计划和职业发展规划,逐步建设具有完善服务体系的科研数据服务团队[19]。
3 结语
剑桥大学作为世界顶尖学府和大型研究型学术机构,其科研数据管理服务团队经过多年的实践积累了丰富的经验并构建了成熟的服务模型,除此之外还有很多地方值得我国高校图书馆借鉴和学习。例如,为科研人员制定数据指南和FAQ,以便科研人员在数据管理中遇到相关问题能够得到准确快速的解答;为科研人员提供数据存储服务,旨在解决数据管理中科研人员遇到的最切实问题。从科研人员的实际需求出发,有利于稳步建立图书馆和科研人员相互协作相互依存的关系。目前我国高校图书馆正处于转型升级阶段,应从国外科研数据管理中吸取经验教训,嵌入式学科服务、阅读推广和数字素养教育等服务的开展以及智慧图书馆的建设都迫切需要注入新的发展动力。