大学图书馆开展研究数据服务策略分析
2020-01-09黄红华
黄红华,张 婧
(1.对外经济贸易大学图书馆;2.中国人民武装警察部队指挥学院图书馆)
1 引言
近年来,随着数据密集型研究不断推进,研究数据服务(Research Data Services,RDS)的重要性日益凸显。2011年,美国国家科学基金会(National Science Foundation,NSF)资助的DataONE项目组对北美学术型图书馆开展RDS的情况进行调研发现,很多图书馆已经把RDS列入图书馆的工作计划。2013年,基础研究公司的调研报告显示,大约63.3%的世界知名大学图书馆提供了数据管理等服务。[1]2014年,田纳西大学信息学院的Tenopir等人对351所研究型图书馆进行调研,83%的图书馆表示将会在两年内提供RDS。[2]2016-2018年,美国大学与研究图书馆协会等组织与机构认为,RDS是影响图书馆发展的前沿趋势之一。麻省理工大学、剑桥大学、康奈尔大学等图书馆,通过结构调整、馆员培训、数据机构库搭建等形式开展RDS工作,进一步巩固与确定了图书馆在RDS过程中不可替代的位置。[3]
笔者以“科研数据服务”“科研数据管理”或“研究数据服务”“研究数据管理”为篇名在中国知网期刊全文数据库中进行检索,共检索到340篇文章(检索日期为2019年4月25日)。文献调查结果显示:从2011年开始,该领域逐渐受到研究者的密切关注;自2013年开始,已有部分以“科研数据管理或服务”为主题的课题得到国家社科、自科基金的支持;2016年,中国机构知识库推进工作组召开的中国机构知识库学术研讨会,已经开始大量讨论RDS、科研数据知识库等问题;[4]多家图书情报杂志举办了多次以数据服务、数据监管等为主题的馆员培训活动,如《图书情报工作》杂志举办的“2018数据管理与服务学术研讨会”;[5]北京大学、复旦大学、上海外国语大学等图书馆逐步开展了RDS。虽然大学图书馆意识到开展RDS的重要性,但由于图书馆对于该服务的理解以及机构的实际发展水平与能力存在差异,我国乃至世界上仍有很多大学图书馆都未提供RDS。基于此,本研究拟在讨论大学图书馆开展研究数据服务的基础上,探索大学图书馆开展此项服务面临的挑战,并据此提出相应的策略。
2 大学图书馆开展研究数据服务的动因
2.1 大学图书馆开展研究数据服务的技术驱动
图书馆开展RDS主要基于之前图书馆参与或主导建设机构知识库积累的经验。依据搭建机构知识库累积的数据基础,已经有部分发达国家的机构知识库建设方向正在开始向研究数据管理方向进行升级探索。如,日本国立情报学研究所与欧洲核子研究中心、日本国立物质材料研究所合作开发研究数据管理与机构知识库进行融合的下一代机构知识库系统(WEK03)。[6]技术的进步使得数据保存、分析与共享变成了一种可能。
2.2 大学图书馆开展研究数据服务的需求驱动
研究人员的需求成为大学图书馆开展此项服务的动力之一。自NSF、美国国立卫生研究院等公共资助机构要求基金申请人提交数据管理计划、共享数据成果之后,数据管理计划(Data ManagementPlan,DMP)成为研究人员科研立项前期的主要任务。北京大学图书馆对本校科研团队的调研显示,87.5%的受访者表示有研究数据管理方面的需求。[7]布里斯托大学图书馆在其《图书馆服务战略概览》中强调,RDS是图书馆可持续发展的一项工作。[8]在实践方面,大学图书馆开展了多项创新举措满足研究人员的科研需求。如,哈佛大学图书馆的科研数据开源应用Dataverse,拥有82,661个数据集,平台数据累计下载6,780,098次(检索日期为2019年4月25日),可以存储CSV、JPEG、TXT等多种类型的文件;普林斯顿大学图书馆的数据管理服务,具备数据存储与分析功能;康奈尔大学图书馆开发了服务关联数据及学术可视化服务的Scholars@Cornell。[9]这些有关研究数据的应用、工具、服务在一定程度上满足了研究人员的需求。
2.3 大学图书馆开展研究数据服务的创新驱动
在我国,创新是引领发展的第一动力,创新作为五大发展理念之首,是图书馆转型与发展的动力来源以及永恒话题。作为重要的知识与文化中心,大学图书馆通过业务流程再造、机构重组、资源聚合、服务方式变革等,不断解决图书馆面临的实际问题,提升图书馆价值。图书馆在提供RDS过程中,涉及到数据存储、安全、保存、检索、共享和重用等环节,而这些都与技术能力、道德因素、法律问题和制度框架等紧密相关。[10]图书馆作为知识创造与共享的核心部门,通过参与科研人员的科研数据管理流程,使图书馆成为提供RDS最理想的中心,这在一定程度上也会促进图书馆进行持续变革。
3 大学图书馆开展研究数据服务的主要挑战
3.1 持续的资金支持无法获得保障
如何获得多方的资金支持是大学图书馆有效开展RDS的一个重要影响因素。获取持续资金支持的最大障碍之一是开展该项服务不确定的成本。英国数据服务强调,研究人员较难衡量数据管理活动过程中的成本,比较明确的高成本部分是清洗和验证数据以及数据出版等。[11]研究人员在数据管理与共享活动过程中,从数据创建、处理、分析、存储到共享以及长期保存都需要大量的人力支持、基础设施搭建和数据工具提供等,这些无疑会增加图书馆开展该项服务的成本。以人力投入为例,Erway等人认为,与图书馆开展其他服务相比,RDS需要更专业的图书馆员,而这些图书馆员在技能培训、职业发展等方面需要持续投入更多的成本,且没有数据表明图书馆会因为开展RDS而获得更多可持续性的资金支持。[12]此外,90%的人员都认为图书馆的基础预算中至少应该包含数据服务与保护的费用,但是在图书馆的预算构成中,主要涉及资源采购、人员薪金支出。以帝国理工大学图书馆为例,2018年该馆53%的经费支出为资源采购(尤其是电子资源),40%的经费支出为员工薪金,其他经费支出则寥寥无几。[13]对于数据管理服务过程中产生的费用由谁来支付,被调查者持有不同的意见。北卡罗来纳州大学对2,010位教员进行调研发现,63%的人都认为此项服务应该由大学资金支持;联机计算机图书馆中心的调研显示,RDS的资金来源方式主要包括机构预算、在资助申请预算中加入数据监管费、向研究人员收费、向数据使用者收费、捐款、数据存档项目基金等;被调查者除了一致认为不能向数据使用者收费之外,在其他资金来源的方式方面并未达成一致意见。[12]
3.2 科研人员数据共享需求不明确
共享研究数据可以更大程度上提升科研项目、科研机构及科研人员的影响力。[14]许多机构都致力于提升数据共享的程度,如,英国联合信息系统委员会等机构启动了RDS项目,以保证数据的可持续性访问和重复使用。但是,据司莉等人调查,研究人员不愿意分享研究数据,主要是担心数据滥用或是被曲解。[15]Wiley对研究人员是否愿意共享研究数据的调查结果显示,48%的研究人员不愿意共享数据,而不愿意共享数据的最大原因之一就是担心知识产权或是数据泄露等问题。[16]由此可见,对于数据如何共享、哪些数据需要共享、共享之后数据如何在合理的范围内传播和使用,既是难点也是重点所在。
3.3 研究数据服务形式单一
2015年,司莉等人对U.S.News中排名前100的87所大学图书馆进行调研发现,57%的大学图书馆开展了RDS,服务内容主要包括研究数据介绍、数据管理指南、数据监管与存储服务、数据管理培训、数据资源介绍等。[15]2016年12月,欧洲研究图书馆学会发布了研究数据服务调研报告,对该学会22个成员国的图书馆馆长进行调研发现,图书馆提供的RDS主要是咨询类服务。[17]研究数据管理/服务的资深学者Cox等人指出,国际上不少发达国家如澳大利亚、加拿大、德国、爱尔兰、荷兰、新西兰和英国等国的研究图书馆,虽然在开展RDS的数量上处于领先地位,但总体上仍处于宣传和培训阶段,技术服务如提供数据目录、保存实际数据等尚未开展。[18]这意味着从事RDS的图书馆员需承担更多的技术类工作以及参与高强度的时间消耗类任务。目前,美国常青藤大学图书馆都设有研究数据管理或服务专栏,主要是按照科研流程对本校研究人员提供基础的研究数据组织、管理、保存、共享等服务。实际上,在许多开展RDS的大学图书馆中,仍局限于这些服务。由于RDS需要大量的时间、资源与智力等投入,如何提供技术支持还有广阔的空间。[19]可见,大学图书馆延伸RDS范围、拓展RDS内涵的工作任重道远。
3.4 图书馆员服务能力有待提高
从研究数据管理开始,一些学者或研究机构就意识到研究数据管理被誉为是图书馆员发展的“最后一公里”。美国图书馆协会(AmericanLibraryAssociation,ALA)列出了50个工作列表,其中与数据馆员相关的工作岗位名称分别是“数据素养馆员”“研究数据馆员”“研究数据管理馆员”“数据服务馆员”等。[20]这些岗位的技能包括熟悉使用开放来源数据软件(如SPSS,Stata,SAS,Python,NVivo) 的能力、数据监护、数据编码等。此外,相关的研究也表明,美国的数据馆员从业人数和设置该职位的机构数量最多,以拥有博士、硕士学位者为主,呈现明显的多学科特征,并且特别强调需要具备数据管理和分析等技能。[21]这些岗位的要求对于图书馆员数字能力、数据素养、专业知识的重塑与拓展也提出了更高标准。
3.5 服务效果评估不明显
目前,对RDS的效果进行评估主要是量化指标,如收集数据的数量以及数据被加工的数量、服务的研究人员数量、对数据知识库使用情况的统计、辅助研究人员完成基金申请的数量等。由于RDS产生的社会价值难以计量且产生的效果具有滞后性,如何对其进行效果评估将是一项长期的工作。
4 提升大学图书馆开展研究数据服务能力的策略分析
4.1 拓宽资金的来源渠道
实践表明,为了更好地开展RDS,大学图书馆需要拓宽资金的来源渠道。如,“弗吉尼亚理工大学图书馆战略规划2012-2018”强调,该馆支持学校所有领域的科研工作,对于研究产出提供数据共享、数据管理以及数据出版等监管服务。此外,该馆还给出了此项服务的具体预算,其中,科研与监管服务的预算为815,000美元,用于支持馆员学习发展的预算为345,000美元,软硬件支持、工具支持等支出为445,000美元,500,000美元作为额外款项用于科研与监管服务的设备更新等,研究数据监管服务的预算占了全馆所有预算的32%。[22]只有确保足够的资金支持,图书馆才能从数据规划阶段开始到数据收集和分析,再到支持数据可视化、发布、长期管理和再利用等环节都提供专业的研究数据服务。
4.2 明确科研人员的研究数据服务需求
大数据的不断推进,使得图书馆逐渐成为大学科研创新的知识储备基地。作为大学知识中心的图书馆在开展RDS过程中需要得到利益相关者的支持,其中,作为研究数据服务的对象,研究人员对于RDS的环境、条件、技术、水平以及人员等方面的了解与认知直接关系到他们对RDS的满意度与期望,也直接关系到RDS是否能获得可持续发展。[2]图书馆在提供RDS的过程中,应根据具体的研究项目或学科对数据共享工具、元数据以及研究人员的数据管理行为及需求、阻碍数据管理的因素等进行全面调研。
4.3 努力提升图书馆员的数据服务能力
高质量的RDS需要综合型的高素质馆员队伍。馆员的综合素养和能力决定了RDS整体的服务质量与水平。由于RDS需要图书馆员参与到整个数据生命周期,包括数据管理规划、数据监管(包括数据选择、存储、管理、归档)、元数据创建和转换等,[23]这就对图书馆员的能力提出了更高的要求。陈媛媛等人认为,与研究数据服务相关的图书馆员职位主要包括负责提供数据存取任务、支持管理数据任务、负责管理数据收集任务等,想要胜任这些任务,需要必备一定的技能,包括数据技能和学科数据技能,前者主要指数据存储能力、数据迁移能力、元数据创造和分配、数据版权等,后者主要是需要识别和利用学科数据的专业技能。此外,还需要图书馆员熟悉研究数据服务的环境、识别研究人员需求、推进研究人员数据管理实践,掌握并熟悉使用数据分析和管理工具,学会管理和保存数据等。[19]同时,图书馆应给馆员提供提高专业技能的平台,如,剑桥大学的《21世纪支持研究人员计划》致力于在学术交流与研究支持方面为馆员提供支持与发展机会的计划,计划中的课程包括一些提升图书馆员在机构启动或是扩展RDS方面的内容,如介绍数据问题和政策、数据的元数据描述符或分类、数据隐私和安全问题等。[24]通过该计划,剑桥大学图书馆员能在修改数据管理规划、数据存档、科研数据学术沟通等方面成为专家。图书馆员要胜任RDS工作,首先需要进行环境扫描、识别需求并开发服务以满足用户需求,推进研究人员数据管理实践,掌握并熟练使用数据分析和管理工具,学会管理和保存数据,了解国内外相关组织机构的数据管理政策。[25]
4.4 重视数据版权服务
由于当前知识产权等相关法律法规、政策等并未对研究数据的法律属性与权力归属进行明确说明,为此,研究数据的共享、利用与知识产权保护之间就会产生矛盾。大学图书馆在开展RDS过程中,应该把知识产权服务嵌入到整个研究过程中,为研究人员提供知识产权指导,保证研究数据再利用的同时,尽可能降低数据侵权给研究人员带来的风险。此外,图书馆还应积极指导研究人员妥善处理研究数据使用与管理过程中发生的权责关系以及平衡数据共享过程中的各项权益,在最大程度上给研究人员提供全方位的法律保障。[26]
4.5 开展有效的研究数据服务效果评估
对研究数据服务效果进行评估的主要目的是不断完善和解决服务过程中出现的问题。大学图书馆在开展该项服务的过程中需要注重效果的评估以及所收集数据的质量,严格把控元数据的格式、安全性、数据的来源等。同时,在强调服务所覆盖的研究人员数量之余,更注重收集研究人员的意见及建议,对于数据知识库的使用评估更应强调其是否能满足研究人员的学科发展需求以及后续研究计划等。
5 结语
研究数据作为推动科技进步的重要因素,对数据进行管理、共享和再利用,成为学术研究的新趋势。在我国,2019年3月,《教育部关于公布2018年普通高等学校本科专业备案和审批结果的通知》中,“数据科学与大数据技术专业”获批院校就已达到203所。[27]从2015年《国务院关于印发促进大数据发展行动纲要的通知》到2018年《国务院办公厅关于印发科学数据管理办法的通知》,再到2019年中国科学院印发《中国科学院科学数据管理与开放共享办法(试行)》,研究数据的重要性不断被提及。在实践中,有突出“重用数据,再现科研;提升引用,跟踪影响”的北京大学开放研究数据平台,强调“数据监护、数据共享、数据引证、数据分析”复旦大学中国高校社会科研数据平台等。此外,许多大学图书馆也逐步开始提供RDS,北京大学图书馆在新的一轮组织结构调整中,成立了专门的研究支持中心,主要是开展研究数据支持服务,协助和引导用户获取、分析、管理和共享科研数据(特别是开发数据的使用和管理),为用户提供全流程数据支持服务。[28]而以“数据之名”开展的全国性、区域性赛事也不断增加,如2018年的全国高校数据驱动创新研究大赛、2019年的“慧源共享”上海高校开放数据创新研究大赛,大赛在充分调动图书馆在RDS进程中的作用、鼓励高校师生基于开放数据资源进行创新应用与研究、培养和提升大学生的数据素养与数据能力等方面具有重要意义。[29]由于每个图书馆在战略发展目标、人员能力结构以及发展历程等方面的特殊性,不同的图书馆应该立足具体实践和发展阶段,坚持创新性、特色性、前瞻性原则,在实践中找到本馆推进RDS的合适契机。