APP下载

科学数据管理服务需求识别方法研究

2018-10-25王丹丹

大学图书馆学报 2018年1期

王丹丹

摘要 从用户研究的角度对近几年国外有关科学数据管理实践和服务需求的文献进行分析,针对收集用户信息需求的三种主要方法,即基于数据管理计划的内容分析挖掘识别用户需求,使用数据监管档案工具进行结构化访谈捕获需求信息,以及大规模问卷调查收集用户信息需求,分析了三种方法的应用场景以及优势和局限性,并以新加坡南洋理工大学为例.总结了图书馆开展科学数据管理、服务用户需求的经验与体会。

关键词 科学数据管理 用户研究 南洋理工大学图书馆

分类号 G250

DOI 10.16603/j. issn1002 -1027. 2018. 01. 006

1 引言

美国大学与研究图书馆协会(Association ofCollege and Research Libraries,ACRL)不断强调科学数据管理已成为一种重要的趋势,新媒体联盟的地平线报告也指出这是一种长期趋势,是学术研究型图书馆必须适应的一种趋势。越来越多的图书馆认为他们应该也能够在该领域发挥重要作用。一些便于图书馆开展科学数据管理服务的工具开始出现,如研究基础设施自评价框架( Re-search

Infrastructure

Self-Evaluation

Frame-work)、数据资产评估框架(Data Asset Frame-work)、普渡大学开发的用户访谈工具DCPT( DataCuration Profiles Toolkit)以及澳大利亚“国家数据服务科学数据管理框架:能力成熟度指南”(Aus-tralian National Data Service Research Data Man-agement Framework: Capability Maturity Guide)等,帮助图书馆收集数据,分析开展数据管理服务的能力。与此同时,图书馆的同仁们前赴后继地通过各种方法来识别用户需求,以期提供真正有效且被科研人员认可的科学数据管理服务(ResearchData Management,RDM)。针对近几年围绕科学数据服务而开展的用户研究文献进行梳理,总结各种需求识别方法的应用场景、研究目的、研究内容、主要结论和方法的优势及局限性,可为国内拟开展RDM用户需求识别的图书馆提供参考和借鉴。

2 图书馆数据管理服务的用户需求识别研究

2.1 基于数据管理计划内容分析挖掘识别用户需求

数据管理计划(Data Management Plan,DMP)是科研人员撰写的书面文件,描述科研项目进行过程中期望获取或生成的数据,介绍项目如何管理、描述、分析和存储这些数据,阐述项目结束后将使用什么机制来共享和保存数据。DMP蕴含着科研人员数据管理的意识、知识和进行数据管理的能力,是一种极有价值的研究资源。

目前,对美国国家科学基金会(National ScienceFoundation,NSF)的DMP进行结构化内容分析已成为识别用户需求的一种新方法,已有的研究大致可划分为两类,一是通过DMP揭示科研人员数据管理行为特征。如佐治亚理工学院对其在2011年1-9月获得NSF资助的科研人员的181份DMP进行分析,使用剽窃检测软件,检测DMP内容中与知识库服务、数据共享和存储相关的内容后,建议进一步加强图书馆员、管理者、技术专家和科研人员之间的联系,有针对性地面向具体学院宣传图书馆新的RDM服务。佐治亚理工学院、密歇根大学、宾夕法尼亚州立大学、俄勒冈大学、斯坦福大学等美国五所研究型大学联合对获得NSF资助的465份DMP分析了不同领域科研人员如何解释并回应NSF对DMP的要求,发现生物学、计算机信息科学、工程学、地球科学、数学和物理科学以及社会、行为和经济学领域的科研人员在数据共享、数据发现和重用以及数据监管基础设施的利用方面存在显著差异。密歇根大学图书馆对2012年1月至2013年6月之间获得NSF资助的工程学教师的104份DMP进行分析,发现科研人员不了解存储和长期保存之间的差别,不清楚什么样的数据格式更适合于长期保存,尚未认识到数据创建和关于数据记录的维护之间的互补关系。

二是基于DMP质量评价确定服务需求。俄勒冈州立大学、俄勒冈大学、宾夕法尼亚州立大学、佐治亚理工学院以及密歇根大学合作开发了针对NSF DMP的评分量表-DART Rubric。DARTRubric使跨机构进行一致的、大规模的DMP评价成为可能,成为图书馆员了解科研人员实践和服务需求的一种有效工具,尤其是那些没有具体研究实践或者数据管理经验的馆员。密歇根大学图书馆使用DART Rubric对工程学院获得NSF资助的教师的29份DMP进行评价,发现DMP的综合质量存在较大差异,有关数据管理的角色和責任、元数据标准以及知识产权都是DMP中经常缺失的一些内容,说明科研人员进行数据管理时还比较欠缺这方面的知识和意识。韦恩州立大学图书馆对2012 - 2014年提交NSF的119份DMP进行分析,发现大多数科研人员的DMP没有充分对其项目所产生的数据进行描述,对项目进展过程中的数据管理、项目完成后的数据保存和共享描述都不清晰。不同学院的DMP展现出的不足存在差异,建议针对不同的学院来开展差异化的DMP培训服务。

以上研究均表明,DMP内容分析为图书馆深入了解科研人员数据管理的现状、存在的问题提供了第一手的素材,分析结果可以直接应用于DMP咨询、教育以及帮助指南的改善和基础设施建设等。

2.2 基于结构化访谈工具捕获需求信息

结构化访谈是另一种识别用户需求的方法与手段,目前已经出现了一些帮助图书馆员了解科研人员数据管理实践和具体需求的结构化访谈工具,如普渡大学2010年推出的数据监管档案工具(DataCuration Profiles Toolkit,DCPT)和弗吉尼亚大学2012年推出的DMVitals。这两个工具的优势都在于指导深度了解某一个具体项目或科研人员的实践与需求,为制定个性化、针对性服务提供参考。从目前的研究文献看,DCPT是使用较多的工具。

DCPT是帮助图书馆员和其他专业信息人员进行数据访谈,确定科研人员数据管理、共享和监管需求的工具。它实质上是一个访谈提纲,旨在捕获科研人员在其数据生命周期中创建或管理的特定数据集的信息,探索科研人员及其实验室当前如何管理和使用数据,以及未来打算如何处置数据,最终的成果是形成数据监管档案(Data Curation Pro_file,DCP)。

使用DCPT访谈形成DCP需要经历三个阶段:准备、访谈和形成DCP。准备阶段,访谈者确定将作为访谈重点的具体数据集,并选择要纳入访谈的DCPT模块。接下来,访谈者与科研人员进行面谈,收集他们的数据实践、数据相关的信息以及需求信息。最后,将访谈获得的信息转换为DCP对应的部分。出版的DCP还可以作为一种共享资源,服务于整个图书馆社区。2013年11月数据监管档案目录推出,提供对已经出版的DCP档案的获取。

DCPT已被图书馆员广泛采纳和使用,帮助确定科研人员的数据管理和监管需求。目前使用访谈法进行的需求研究几乎都是基于DCPT进行的。如康奈尔大学使用DCPT,重新规划通过DataSTaR知识库提供服务的方式。伊利诺伊大学厄巴纳一香槟分校利用DCPT对农作物研究已经实现数据开放获取的科研人员的数据共享情况进行访谈,包括数据共享的原因、方法、各种方法的优缺点,并确定图书馆在帮助促进数据共享方面可能发挥的潜在作用。使用DCPT通常以焦点小组或深度访谈方式开展,调查规模较小,一般针对小部分科研群体开展重点访谈。如多伦多大学牙科图书馆员使用修改后的DCPT访谈牙科学院的6位科研人员,了解其数据管理偏好以便为图书馆参与实验室数据管理过程提供启发。瑞典隆德大学和林奈大学基于DCPT对生物、文化、经济、环境、地理、历史、语言、媒体和心理学领域的12位科研人员进行结构化访谈,了解不同学科元数据的使用问题。科罗拉多州立大学图书馆员基于DCPT的访谈问题对31位科研人员进行5个焦点小组研究,揭示科研人员创建和维护数据集的本质,了解他们如何管理数据以及需要为其共享、管理和保存数据提供哪些支持。上述研究都展示出DCPT在识别用户需求方面的有用性和有效性。

2.3 基于大规模问卷调查收集用户需求信息

使用问卷调查法直接收集科研人员的需求信息是图书馆在开发RDM服务过程中最常采用的一种方法,也是在RDM服务兴起的早期阶段采用的唯一方法。根据调查目的及规模的不同,图书馆利用问卷调查识别用户需求主要可划分为以下几类(见表2):①调研不同学科领域科研人员的数据管理行为的差异以开展个性化服务,如埃默里大学将科研人员(教师和研究生)分为艺术与人文、社会科学、医学和基础科学四个领域,比较四个领域科研人员对DMP的熟悉程度、数据共享、数据存储情况以及期望的RDM服务形式。根据调查结果,决定不增加机构知识库的保存和共享数据集的功能。堪萨斯大学分析不同研究方法和学科领域的科研人员数据存储方式的差异,发现除学科领域外,不同的研究方法也会对数据管理和服务需求产生影响。②面向跨机构的大范围调查以从整体层面了解数据管理需求。如尼尔·比格理(Neil Beagrie)等通过在线问卷调查,同时结合焦点小组和深度访谈了解英国布里斯托尔大学、利兹大学、莱斯特大学和牛津大学科研人员保存和传播科学数据的实践及其观点,判断英国RDM服务开展的可行性。③针对数据管理某一特定环节而开展的特定调查。如卡耐基梅隆大学对科研人员进行调查和访谈后,发现所有教师中有64%的教师、工程学领域中有95%的教师,了解美国资助机构DMP的要求,但是他们的数据管理实践并不符合最佳实践要求。俄勒冈州立大学从数据管理政策、角色和责任、数据特征和短期管理实践、数据管理服务和支持、数据管理资金、科学数据标准和文档、数据共享和长期保存几个方面展开调查。基于得到的数据特征,策划宣传和培训活动;基于数据量规模.规划数据存储和共享基础设施。④识别科研人员数据管理的薄弱环节以开展针对性服务。如爱荷华大学的调查发现,科研人员对缺乏集中式数据存储设施和云存储服务普遍不满,建议大学信息技术部门开发相应平台。北卡罗莱纳大学教堂山分校的调查表明,科研人员主要依靠自己的非正式方式存储数据,只有不到25%的被调查者了解图书馆提供数据管理支持服务,建议扩大基础设施并宣传数据支持服务。康奈尔大学、俄勒冈州立大学和佐治亚理工学院均通过问卷调查了解到科研人员通常使用非标准的方法描述数据或者根本不提供数据描述文档,推测创建元数据对科研人员而言有难度,因此建议对科研人员开展有关元数据的具体培训。但是,康奈尔大学斯坦哈特(Steinhart)等的调查同时发现,有近三分之二的被调查者表示,无论元数据服务是付费的还是免费的都不打算使用。那么在这种情况下,尽管科研人员需要进行元数据培训是事实,但是如果没有愿意参加培训的用户群体的话,是否坚持开展元数据服务则需要进一步斟酌。

3 三种用户需求识别方法的优劣势分析

从上述研究来看,图书馆要么使用一种方法,要么结合其中的兩种、三种方法同时进行需求研究。无论哪种方法,都可以为改善RDM服务和规划新服务提供有用的信息,三种方法得出的研究结论也有一些相似之处。但三种方法各有自身的优势及其局限性。

3.1 内容分析法

随着科研资助机构不断提出对DMP的要求,为撰写符合最佳实践要求的DMP提供支持的标准化工具DMP Online、DMPTool的发展,以及致力于标准化、跨机构评价DMP质量的工具的广泛应用和不断完善,为图书馆充分挖掘DMP的价值提供了有力支撑。DMP内容分析为图书馆员提供了一种快速、动态、详细且可大规模分析数据管理服务需求的方式。相比基于DCPT的访谈,DMP内容分析同样可以获取有关数据管理实践、数据共享习惯以及研究过程中使用工具等的详细信息,不受时间的限制且可以大规模进行。但是,进行DMP内容分析可能面临两个挑战:首先,由于DMP是具体领域的科研人员撰写的文档,如果进行DMP内容分析的人不具备相应的学科背景知识,那么想完全透彻理解DMP的内容就存在一定困难。其次,理论上讲,科研人员之所以撰写DMP主要受两个因素驱动,一是满足科研资助机构的要求,二是满足研究团队自己数据交流的需要。然而目前大多数科研人员主要是为了满足资助机构的强制性要求而撰写DMP,所以DMP中所描述的信息有可能并不是科研人员真实的数据管理行为。

3.2 结构化访谈法

开发DCPT的目的是为图书馆员提供一种标准化指南,帮助其有效展开与用户有关数据的讨论。因此,基于DCPT的结构化访谈,除了具备访谈法的普遍优点之外,最大的优势在于提供了用于开发数据访谈的“词汇和问题”,为思考如何处理数据管理问题的咨询提供了一个很好的框架(见表3)。此外,DCTP结构化访谈重视对某一数据集的深入了解,而不是泛泛知晓,是一种能够最真实地、最深入地了解科研人员数据实践和服务需求的一种方式,从一定程度上可弥补DMP内容分析的不足。然而,由于科研人员的背景、经历、知识以及分析对象不同,导致科学数据管理存在较大差异。因此,利用DCPT开展访谈同样需要实施访谈者具备一定的学科背景知识。此外,基于DCPT开展数据访谈非常耗时且费力,访谈本身就需要花费大量的时间,在访谈过程中为了让受访对象完全理解这一过程和术语,也需要访谈者花费时间去解释;而访谈前的准备工作、转录访谈的内容,形成DCP同样需要投入大量的时间。这两个方面的因素,都导致协调访谈时间并大规模产生DCP比较困难。因此,DCPT较为适合小规模深度調查,而且有助于识别机构内渴望使用RDM服务的科研人员以及愿意参加科学数据服务测试的志愿者。

3.3 问卷调查法

问卷调查的一个优势在于可以通过一个问卷,达到多种目的。比如密歇根大学图书馆2013年夏天通过电子邮件邀请的方式,让工程学院的教师自愿完成在线调查。这一调查不是以研究为导向,它有三个目的,首先将调查作为一个宣传工具,让更多的科研人员知道图书馆提供科学数据管理服务;其次,将调查作为一个评价工具,帮助图书馆了解工程学院教师对NSF DMP的熟悉程度和撰写经验;第三,将调查作为一个反馈渠道获取用户对先前NSF工程学DMP帮助文档的使用体验。因此,紧接其后,密歇根大学图书馆选择内容分析法,作为一种循证研究方法来进一步验证问卷调查的结果,以提供基于证据的RDM服务建议。此外,问卷调查法既没有DMP内容分析涉及的数据所有权问题,也没有结构化访谈对馆员提出的相对较高的要求,而且还有大量其他机构的问卷可以参照设计,因此相对省时省力。但是,借助问卷调查来识别需求,存在的问题是:问卷虽然可以大规模发放,但往往响应率比较低,这会降低研究结论的普适性;响应调查的人,多是对图书馆服务有一定了解的人,那些不熟悉不了解图书馆服务的科研人员的信息可能没有获取到。因此,通过调查获取好的、有代表性的样本是难点所在。

4 图书馆开展RDM服务用户需求识别研究的体会与思考一以NTU为例

受国家留学基金委资助,笔者目前在新加坡南洋理工大学(Nanyang Technological University,NTU)图书馆学术交流部的科学数据服务组访学,全面参与其RDM服务工作,并负责其RDM服务用户需求研究。因此,这里以NTU为例,介绍开展用户需求识别研究的几点体会。

2016年4月,NTU颁布了科学数据政策,成为新加坡第一个要求科研人员提交DMP的机构。NTU所有科研项目的负责人都必须在其科研信息管理系统(Research Information Management Sys-tem,RIMS)中创建并提交DMP。为配合这一工作,图书馆设计了DMP模板和RDM网页,并从2016年5月开始,开展面向该校所有科研人员的DMP培训(每月1次,每次3小时)。截至2017年3月,RIMS系统中提交的DMP有500余份。与此同时,NTU基于哈佛大学的Dataverse软件,开发了数据知识库DR-NTU(Data),该系统已通过测试,计划于2017年10月投入正式使用。为进一步完善NTU的研究数据管理框架,更好地提供RDM服务,基于上述文献研究的结论,NTU图书馆设计了RDM服务用户需求识别方案(如图1)。

由于NTU RIMS中的所有DMP对图书馆而言是现成的,图书馆同时还有每次DMP培训的参与者注册统计信息以及对每次DMP培训的评价和反馈信息。基于NTU DMP模板,图书馆设计了NTU DMP Rubric,用于对RIMS系统中所有的DMP质量进行评价,以了解模板的效果。通过参与者注册统计信息以及DMP培训的评价和反馈信息的分析,发现不管是模板的使用还是DMP培训,根据学科差异提供针对性服务都是参与者提到最多的问题,鉴于此,NTU图书馆基于英国数字监管中心(Digital Curation Centre, DCC)总结的DMP主题(DCC Themes),按照不同的学院,从14个主题出发对DMP的内容进行分析,以了解不同学科RDM实践差异。结合这两个方面的研究成果,为NTU DMP模板优化、DMP培训内容再设计以及NTU RDM网站内容再组织提供思路。目前,第一阶段NTU DMP数据的分析基本完成。在这一过程中,遇到的最大问题是数据的所有权归属问题。经过科研部门、信息技术部门等相关部门的协商,最终科研诚信部门代表大学与图书馆DMP分析人员签署了保密协议之后,才获得了DMP数据的使用权。

阶段1的分析结果使图书馆意识到,仅进行DMP内容分析对于了解需求是远远不够的,尤其是深度了解具体学科的需求。一方面不同的学科会造成科研人员数据管理行为的差异,另一方面不同的研究方法也可能造成科研人员数据管理行为的差异。由于数据知识库DR NTU(Data)已完成开发测试,测试过程中通过与学科馆员合作,图书馆已经招募到一批愿意尝试贡献数据的先驱者。因此数据服务馆员尝试在与这些先驱者互动的多个过程中,有选择性地使用结构化访谈工具,如DCPT和DM-Vitals中的不同模块,结合DR NTU(Data)用户使用测试研究开展深度访谈,2017年3月,伊利诺伊大学香槟分校推出风险评估工具(Risk AssessmentActivity for Managing Research Data)后,图书馆尝试将其引入,作为访谈开始前的热身活动。目前,阶段2的工作处于基于试访谈结果继续优化方案阶段。馆员通过不断尝试不同的工具,进一步优化访谈提纲和问题,同时通过“滚雪球”方式来招募更多的访谈对象。该阶段的体会是借鉴已有的工具有助于实现好的访谈结果,然而不同的工具有其各自的优势,使用前一定要充分了解不同工具的设计背景和应用场景,并追踪新出现的工具,应结合具体情况有选择地使用。

鉴于RDM是学术研究型图书馆必须适应的一种长期趋势,研究型图书馆必须持续投入人力、物力、财力,通过提供基础设施和开展不同层次服务来为机构的RDM活动提供支持。充分理解机构科研人员的数据实践和服务需求,使机构尤其是希望在现有人员和资源基础上开展RDM服务的机构,可以最有效地将有限的资源投入在最可能产生影响力的项目上。因此,未来面向RDM服务的用户需求识别研究将会继续涌现。

对于提供RDM服务的图书馆而言,为了有效开展机构的用户研究,可以考虑以下三个方面的建议:首先图书馆自身必须具备数据共享和管理的意识,从规划实施RDM服务的开始就尝试并习惯遵从DMP最佳实践要求,撰写图书馆本身用于数据服务用户研究的DMP,并真正地将这- DMP作为数据服务团队进行数据共享、管理的指导性纲领文件。其次,形成图书馆数据服务团队的知识库,跟踪并了解该领域开发的、可用于服务评价、用户研究的工具的最新进展以及新的工具,熟悉其开发背景、功能特征和应用情景。这可以大大降低图书馆的学习成本,提升研究效率,提高研究成果的转化度,更好地与国际最佳实践接轨。第三,了解各种研究方法的特点、熟悉其优势和局限性,在开展本机构用户数据实践和需求研究时,能根据自身机构的基础和特点,选择使用多种方法绘制本机构的用户需求分析全景图,指导服务的规划设计,与此同时建立数据服务用户需求长期研究机制,这是保证图书馆RDM服务可持续并不断优化的前提。总之,RDM服务任重而道远,期待图书馆界同仁通过更好地交流与合作,共同探讨RDM服务用户需求研究的最优实践。