美国高校图书馆研究数据管理服务调研及启示
2018-07-26崔英姬沈洪杰李晟光吉林大学图书馆吉林长春130000
崔英姬 沈洪杰 夏 烨 李晟光(吉林大学图书馆,吉林 长春 130000)
E-Science环境下,科学研究和科技创新越来越依赖于对数据信息的管理、分析和再利用,国际上通常称这些数据信息为“科研数据”(Scientific Data)或“研究数据”(Research Data),本文统称为“研究数据”。研究数据是指任何以数字形式存储的信息,包括文本、数字、图像、视频或电影、音频、软件、算法、方程、动画、模型、模拟等,这些数据可以通过观察、计算或实验等手段产生[1]。研究数据管理(简称RDM)是对科研数据所进行的计划、获取、组织、分析、存储、共享、利用、保存和再利用等一系列与数据相关的管理活动的总和[2]。对于各类研究数据的管理成为数字科研中一项非常重要的基础性工作,高校图书馆作为学校的文献信息中心,在为高校科研人员、教师及学生提供研究数据服务过程中发挥着重要作用。高校图书馆必须规划提供何种研究数据服务,以便于科研人员在相关权益方的要求下,制定适合的数据管理计划。
一直以来,研究数据主要通过学术期刊论文的途径被反复引用或评价,但研究数据的被重视程度远远不及学术论文。直到研究数据管理计划(DMP)政策的出现,才迎来了研究数据管理发展的直接契机。“2010年春天,美国科学基金会(NSF)推出了新的研究数据共享政策,要求科研人员提交数据管理计划”[3]。特别是2011年(NSF)推出强制将数据管理计划纳入所有研究提案的政策,2013年起对每年研究经费超过1亿美元的联邦机构要求提交此后生产的所有研究数据与情报的共享计划[4]。因此,创建数据管理计划更加成为科研人员不可回避的问题。调查U.S.News & World Report排名前50所美国高校图书馆网站,“其中哈佛大学、麻省理工学院、约翰霍普金斯大学、斯坦福大学、加州大学圣地亚哥分校等46家大学的图书馆开展研究数据管理服务,占调研总数92%,说明大多数图书馆意识到研究数据管理服务的重要性,并积极参与其中”[5]。英国政府也阐明有关研究数据政策的一般性原则,2015年7个研究费用支持机构(RC)中6个机构实施DMP政策,其余一个RC将向所有收取研究费用的大学提出共享研究数据义务的要求;澳大利亚国家研究费用支助机构ARC(澳大利亚研究理事会)也从2014年2月起实施DMP政策[6]。
数据管理计划主要是政府机构的政策,学术期刊要求研究人员一并提交学术论文和研究数据的举措则反映了期刊领域研究数据共享努力。有代表性的学术期刊《自然》杂志要求论文作者提交论文时一并提交与论文相关的研究数据,并公开此数据。《科学》杂志也提供论文的研究数据,为读者的理解和对论文的评价、确认提供方便。开放存取(Open Access)出版社PloS也提出建议将论文相关的研究数据交存于相关学术领域的数据存储库(Data Repository)。以往的学术期刊是刊登学术论文的载体,最近新出现了专门刊登数据的期刊。随着研究数据相关政策的实施与数据公开化需要,旨在系统收集、共享研究数据的各种数据存储库开发也日渐活跃。代表性服务机构Dryad(Datadriad.org)截至2016年9月底公开了500多个学术期刊(主要是生命科学领域)的研究数据[7]。
此外,各研究领域的数据存储库注册也十分活跃,根据re3data.org网站的报告,截至2016年9月底,人文社会科学领域474个、生命科学领域217、自然科学领域163个、工程领域142个数据存储库正在运行中。许多大学和实验室都在运行类似DSpace、Fedora、EPrints的机构存储库,最近又新增了存放、共享数据的功能。专门存储数据的储存库系统也在开发和部署当中,像这样系统收集和利用研究数据的环境正日趋成熟,全球研究数据相关机构的联盟RDA的扩大速度同样反映出研究数据已成为热点[7]。但由于不同高校间存在着服务机构规模、资金投入、服务水平等的差异,其所提供的服务内容、具体方式及服务深度都有所不同。美国高校图书馆在参与研究数据管理、开展研究数据服务以及管理平台与系统构建等方面已有良好实践,相关机制也较为完善,因此,本文选取美国6所高校图书馆作为研究对象进行调研分析,其先进的理念和成熟的实践经验可以为我国大学图书馆开展研究数据服务提供重要的启示和有益的借鉴。
1 调研对象和方法
本文对美国高校图书馆的研究数据管理服务情况进行调研,根据美国研究图书馆协会(ARL)图书馆投资指数前50排名,选取有代表性的6所美国高校图书馆作为调研对象进行调查分析,调查时间截至2017年末。这6所高校都有研究数据服务的专门机构和工作团队,提供相关服务时间较长,教育培训活跃且构建有比较成熟的技术平台和数据系统基础设施。通过网络调研法和文献分析法,登录高校网站或查询相关文献资料,以了解其研究数据管理服务工作的现状及特点等。
2 结果分析
通过对美国6所高校图书馆开展的研究数据管理服务情况进行调研总结,从以下3个方面进行分析对比。
2.1 专门机构及服务团队
专门的服务机构和专业的服务团队是顺利开展数据管理服务的重要保证。美国6所高校图书馆均认识到设置专门机构的重要性,相继建立了专门的研究数据管理服务团队,配备至少5名以上专业人员,以图书馆为主体,联合其他相关机构共同提供服务。从团队组成人员来看,有图书馆员、数据专家、IT人员以及特定学科的科研人员等。研究数据管理服务是跨学科服务领域,涉及多门学科,需要各种专业背景的专家团队,具体的研究数据管理专门机构及服务团队情况如表1。这就要求在人员配备上应扩大范围,搜集各领域的人才。6所大学在人员配备方面挖掘内部人才和招聘外部人才相结合,短时间内不能配齐的岗位采用兼职和临时聘请来弥补。如约翰·霍普金斯图书馆的部分研究数据管理服务顾问和数据存储员是聘请的兼职[8];伊利诺伊州立大学的研究数据服务机构的负责人是招聘来生物技术领域的科研人员[9]。所有案例中图书馆的服务团队都是在2011年NSF实施DMP政策前后创建的专门组织,而DMP政策成为各图书馆创建专门服务组织的决定性契机。
2.2 教育培训与咨询服务
2.2.1 教育培训
研究数据管理服务是新的延伸服务领域,教育培训不仅要对科研人员进行培训,更要对图书馆的数据管理服务人员进行培训。为了让用户更深度了解研究数据、提高研究数据管理能力,案例中的6所美国高校图书馆的研究数据服务机构均提供相关的培训讲座和在线课程,并根据科研人员的数据管理需求提供相关的咨询服务。研究数据管理服务的具体教育培训内容如表2。
表1 美国6所高校图书馆的研究数据管理专门机构及服务团队[5,10-14]
表2 美国6所高校图书馆研究数据服务教育培训内容
教育培训是研究数据服务中最具有活力的领域。6个高校图书馆以研究生和科研人员为主要对象,提供各种讲习班、研讨会、短期课程(1~2小时)培训,并提供网上培训资料或视频课程。培训内容包含数据管理计划(DMP)的编写以及与研究数据的管理和共享实践等,其详细培训对象及形式如表3所示。教育培训服务是以开展科学研究的教授和研究生为主要对象,如约翰·霍普金斯大学,主要教育培训对象是在研究团队中工作的研究生。图书馆认为,实际工作中多是研究生在管理数据,所以对研究生强化培训是提高整个研究团队研究数据管理能力的捷径。“到2016年7月为止,大约有1 000名左右参加与研究数据管理计划有关的教育培训,其中大部分人都是研究生”[7]。
表3 美国6所高校图书馆研究数据服务的培训对象及形式
此外,也有针对研究生的通识培训,如普渡大学图书馆设有“数据教育工作组(Data Education Working Group)”,是针对校内研究人员,尤其是研究生进行数据识别相关的培训,也为研究生提供Grip(Graduateresearch Information Portal)服务,即学位论文研究中所需要的数据管理知识讲座;弗吉尼亚州大学图书馆还开设了数据科学相关的研究生课程,在2016年第2学期,“由研究数据服务团队利用专业知识,讲授Datawrangling in Python和Textas Data两门课程,作为图书馆与校内数据科学研究所合作开办的课程,有重要意义”[7]。
2.2.2 咨询服务
咨询服务是图书馆研究数据组织为科研人员提供的有针对性个性化服务。这其中协助研究人员制定数据管理计划应该是重点服务。但调查中发现,向图书馆寻求帮助编写DMP的比例并不高。一直以来,研究人员都认为DMP的编写在提案的审查中没有得到重视,而且,如果研究人员急需帮助,可能会因为图书馆员没有充足时间而无法提供相应服务。研究人员经常参考同事编写的DMP或利用图书馆网站提供的在线DMP模板网站(dmptol.org)作为编写工具。据研究数据管理服务部门统计,弗吉尼亚州大学只有3%~5%的DMP是通过图书馆的服务完成,大多数教授普遍参考同行研究人员的DMP,而不是在图书馆员的帮助下编写,只有少数教师和科研人员会主动寻求图书馆帮助[7];约翰·霍普金斯大学的数据管理服务团队为科研人员提供量身而定的咨询服务,“用户通过电子邮件(datamanagement@jhu.edu)的方式与数据管理咨询服务人员进行联系,数据管理咨询服务人员以调查问卷的形式进行访谈,帮助研究人员搜集与研究数据管理计划相关的信息”[15];普渡大学图书馆提供数据参考咨询服务,帮助学者和研究人员鉴定、获取并使用数据,还包括提供技术设施和工具、检索数据以及制定数据管理计划等。
美国这6所高校图书馆在咨询服务的内容和方式上有各自的特点,但基本都是由学科馆员承担相关的咨询服务任务,在图书馆网站上建立专门的数据管理服务网页,分门别类地组织各类咨询问题或服务的资料,引导和协助研究人员有步骤有计划地在研究工作中进行研究数据的管理[16]。技术是服务的支撑力量,但也是图书馆服务中的薄弱环节。图书馆服务人员主要从图书馆自身的服务能力出发,认识到图书馆在研究数据服务中的劣势,扬长避短:一方面通过合作、共享的方式实现研究数据管理;另一方面,尝试开发数据管理工具或软件,引进相关项目进行技术应用方面的研究。
2.3 技术平台与系统架构
美国6所高校图书馆研究数据管理的技术平台与系统架构情况如表4所示。其中,伊利诺伊州立大学厄巴纳运行一个名为ideals的机构管理存储库,并于2016年5月新开放了一个名为“Illinois Data Bank”的单独系统,用于公开和保留研究数据,此外还可将数据存储在由RDS和校内研究室NCSA(国家中心的超级计算应用程序)联合运行的活动数据存储系统“Active Data Storage”中;约翰·霍普金斯大学图书馆运行Data Conservancy机构管理平台,但是研究数据仍利用哈佛大学开发的数据转换系统提供数据归档服务,研究人员建议通过将研究数据交存到专题领域的数据存储库来最大限度地提高数据共享的效果;弗吉尼亚州大学图书馆已经运营了一个名为Libra的机构管理平台,在2016年3月又建立了一个单独的研究数据存储系统叫Libradata,它基于哈佛大学开发的数据转换系统,为存储的数据授予了一个DOI标识符,通过名叫Academic Preservation trust的16所高校图书馆的联合数字资料提供数据保留服务;普渡大学于2013年开发并运行了一个名为Purdue University Research Repository(PURR)的研究数据支持系统,被评为个别大学图书馆开发的相关系统中最全面的系统,提供了非研究结束时间点的——研究执行全周期(如DMP创建、研究执行期间的数据管理、论文和数据发布等)相应的技术服务支持,利用率很高,足以使804个项目投入运作[7]。
表4 美国6所高校图书馆研究数据管理的技术平台与系统架构
这6所高校图书馆在现有的机构管理存储库基础上均又提供了专门的数据存储系统,当然,在系统的运作方面存在机构间的差异,如普渡大学图书馆是自行建立和运行名为PURR的新数据存储库。其他图书馆利用外部开发的开放源代码平台或转换图书馆现有系统建立数据存储库,新创系统或利用原有的基本系统反映各图书馆不同的运营思想。利用基本系统的专家认为,图书馆在管理和保存研究数据方面发挥着辅助作用而非决定性作用,也就是说,研究人员认为,将研究数据存放在与出版物相关联的主题领域数据存储库中可以最大限度地提高数据公开效果,而鉴于图书馆可能还不太了解研究数据在未来的有效利用程度,认为由图书馆长期运行PURR这类系统是不恰当的[7]。的确目前高校图书馆的研究性数据支持服务处于初级阶段,判定运用哪种系统基础设施更为合适还待考量,但各个图书馆的资源优势和发展方向是非常重要的考虑因素。
3 启 示
3.1 制定并出台相关的国家政策是开展研究数据管理工作的基本保障
E-Science大环境下,研究数据的再利用可大大加速科研进展,国家各级政府、科研管理部门均应自上而下出台相关政策,明晰研究数据管理中各利益群体的主要责任。我国从国家层面上来说尚缺乏相应的政策支撑,从总体上看研究数据管理和共享的意识不够强,科研资助机构、高校、学术出版机构以及科研人员等相关利益群体尚未形成统一的认识。美国大学图书馆建立专门负责研究数据的组织和具体化支持服务的契机是从国家研究经费支持机构NSF在2011年开始实施数据管理计划政策时开始的,因此我国急需制定和出台相关政策作为短期内开始实施研究数据服务的动力。各高校也应立足本校实际情况做好调查,在知识产权、数据保密、信息安全、数据馆藏发展等方面建立健全校内研究数据管理政策,积极借鉴国际优秀的数据管理经验,时刻关注国内外的政策动向和发展情况,提前用发展的眼光做好战略准备,研究和构建有中国特色的数据管理服务模式。
3.2 调查科研人员的数据管理需求是进行研究数据管理服务的根本前提
对科研人员进行教育培训和咨询服务的前提是调查其研究数据管理需求,并了解数据在整个研究过程中的流向和具体学术领域的数据管理实例,掌握在不同学术领域研究数据的产生、管理和共享有关的一般规范或标准的差异,可以参照普渡大学图书馆建立的数据整理文件(data creation profile.org)资源。从美国6所高校图书馆的教育培训和咨询服务情况来看,研究生和教授是主要培训对象,对研究生在学位论文研究中健全数据管理知识的培训很有必要,而且如果理工科研究生能熟练掌握系统管理数据的具体技能,那么管理和分享研究数据也能更好地联系起来。近几年,高校图书馆的信息检索能力培训活动如火如荼,今后可以通过加大数据信息方面的培训扩大其影响,要做到这一点首先需要高校图书馆员更多的学习管理与分享研究数据管理的原则和技巧,可以参考国外数据处理机构提供的资料进行学习,了解各个专题领域的数据存储库资源以及研究数据的保存和管理过程等内容。
3.3 构建与校内相关机构的沟通合作机制是实现研究数据管理的必要保证
美国的6所高校案例分析表明图书馆要与IT部门及产学研等部门进行密切的协同合作。的确,要开发和提供成功的研究数据支持服务只依靠高校图书馆是远远不够的,图书馆必须与校内的科研管理部门、学院、IT部门以及学术委员会、研究生院等其他机构协商和合作[17]。另外高校图书馆要被公认为是校内研究数据管理支持的核心部门,是提供服务的主要场所和窗口所在。图书馆与校内其他部门合作开展研究数据服务可以达到多赢的效果。一方面,图书馆可以依托其他部门加强对研究数据服务的宣传,让更多的研究者了解研究数据服务,认识到研究数据管理的重要性,提高对研究数据服务的需求,提升图书馆的服务价值;另一方面,校内相关机构也可以通过研究数据服务,对本校的科研进展有更好的了解,促进机构内的学术交流,更便捷、全面地评估科研成果,扩大产学研合作的机会,提升本校的学术影响力。这就要求高校图书馆联合其他机构共同组织举办多种培训和研讨交流会,制定具体的实践方案,各个团队更要努力配合,团结协作,共同推动研究数据管理工作的进一步发展。
3.4 建设数据存储的基础设施系统是研究数据管理服务工作的技术支撑
数据的长期保存和共享需要强大的技术支持和基础设施支撑,正如分析案例所示,多数高校有自己的机构知识库平台,但同时也希望通过再搭建数据存储库用于科研数据的研究与管理。在研究性数据支持系统基础设施建设方面,我国高校图书馆建立自主系统是有一定难度的,而且对于国内高校图书馆来说,构建学术信息的机构管理存储库的成功推行实例也并不多,因此我国未来建立国家数据存储库是很有必要的,尤其需要高校图书馆积极参与这一过程。另外,虽然一些高校开发研究数据存储库并切实可行,但建立或运行最低基准的系统,以便能够根据需要可靠地存储或保存自己的研究数据还是可行的。同技术平台和基础设施系统相比,在研究过程和学术交流的制约因素、元数据方案以及包括知识产权在内的政策等方面,图书馆员的专业知识都能够提供有效的帮助,为数据存储的基础设施建设做出应有的贡献。
3.5 提升图书馆员的数据素养能力是推动研究数据服务的决定因素
为研究人员提供全面的数据管理服务,首先需要建立专门的服务机构和高素质的服务团队。国内高校图书馆也要构建由硕士、博士组成的图书情报学、信息学等多学科背景的图书馆员、数据处理员和研究人员的服务团队。针对图书馆的数据管理服务工作,图书馆员要围绕数据素养能力提升这一中心任务,努力培养自己对科研数据的管理能力、获取能力、分析评价能力以及数据共享能力等,熟练掌握相关政策、法律、规范和标准知识,能够对科研数据内容进行全面描述和系统架构,并具备良好的科研数据推广、咨询和培训的能力。图书馆员还需要主动服务,积极深入到科研人员中间,主动了解高校内的各项研究活动,能够与数据生产者合作,在数据生命周期的多个点评估数据生产者的需求,协助他们进行数据的管理。工作人员素质始终是开展服务和促进发展的决定性因素。研究数据管理作为一种科研工作的新需求,实际上为图书馆提供了一种新的发展牵引力,使图书馆从信息服务向数据管理以及机构数字资源管理方向转变。同时,这也对所有的图书馆员,特别是学科馆员的素质和能力提出了新的挑战[18]。为确保图书馆更好地开展数据服务项目,国外一些高校图书馆和协会组织已将科研数据管理利用纳入到信息素养教育的内容中,对科研人员和数据服务人员进行科研数据管理意识、知识和技能等方面的培训。图书馆只有及时创新传统服务方式,探索适合研究数据服务的信息素养教育内容,才能迎接挑战,提供有力、有效、方便、丰富的研究数据管理服务。
4 结 语
高校图书馆在收集高校研究者或实验室生产的研究数据方面占据一定的有利位置,但在现实中,研究者因为各种原因不愿公开或分享数据,高校图书馆在管理和共享研究数据方面也因缺乏经验和专业知识而举步维艰。但是,鉴于社会对未来研究数据的管理和有效利用的期望以及学术界现状的变化,数据将在研究与开发中发挥越来越举足轻重的作用。特别是,目前正在美国、英国、澳大利亚等国家研究费用支持机构实施的数据管理计划政策可能很快会在国内实施,因此高校图书馆在科研数据发展的契机之时做好相应的准备至关重要。高校图书馆应深入了解研究数据管理与共享实践,通过具体案例分析研究数据的生命周期和各学术领域的差异,提升研究数据管理意识,营造研究数据共享氛围,不断积累并借鉴先进理论与实践经验,同时做好与IT部门和产学研合作团队的团结协作,积极参与到研究数据存储库的建设中来,提供高效、专业、有力的研究数据管理服务。