嵌入科研工作流的图书馆数据管理服务——以化学学科为例
2016-04-06陈秀娟吴鸣胡卉
陈秀娟,吴鸣,胡卉
嵌入科研工作流的图书馆数据管理服务——以化学学科为例
陈秀娟,吴鸣,胡卉
摘要在数据开放获取背景下,文章以化学学科为研究对象,提出基于化学科研工作流的数据生命周期,分析每一阶段化学研究人员面临的挑战和问题并以此作为服务切入点,设计嵌入化学科研工作流不同阶段的图书馆数据管理服务模式,最终策划化学科研工作中图书馆可提供的服务,为我国图书馆开展嵌入科研工作流的数据服务提供思考和借鉴。
关键词科研工作流研究人员图书馆数据管理服务化学
引用本文格式陈秀娟,吴鸣,胡卉.嵌入科研工作流的图书馆数据管理服务——以化学学科为例[J].图书馆论坛,2016(3):49- 55,102.
Library Data Management Services Embedded in Research Workflow——Taking Chemistry as an Example
CHEN Xiu- juan,WU Ming,HU Hui
Abstract This article takes chemistry as the research subject in the context of open access to data and proposes the data life circle regarding to the chemistry research workflow. It analyzes the challenges and issues that chemistry scholars encounter at every stage of scientific research,designs the corresponding library data management service models,and presents the final applicable planning of library services for chemistry research. Thus,reflections and references are provided for Chinese domestic libraries to implement data services built in research workflow.
Keywords research workflow;researcher;library;data management service;chemistry
0引言
近年,开放科研数据受到各界重视,国际组织、资助机构、期刊出版商等纷纷发布科研数据的开放获取政策。图书馆作为重要的信息、情报、知识服务机构,在科研数据共享中已主动承担起责任。在国外,哈佛大学、牛津大学、斯坦福大学等很多高校图书馆开展了科研数据管理服务;我国少数几个高校,如复旦大学、武汉大学、北京大学的图书馆也开始尝试提供科研数据管理服务。综合分析国内外图书馆数据管理服务的现状,发现多数图书馆的服务是面向数据管理生命周期(Data Management Lifecycle)的。另外,还有一些图书馆开展了面向科研生命周期(Research Lifecycle)的数据管理服务,如巴斯大学图书馆[1]罗列了在项目启动前、进展中以及结题后研究人员需要特别注意的问题;弗吉尼亚大学图书馆[2]展示了科研生命周期和数据生命周期的关系,并列出了科研项目过程中研究人员需要进行的数据管理活动。图书馆作为提供数据管理服务的主体,只有真正融入研究人员的项目工作流中才能提供切合实际的服务,但鲜有图书馆强调图书馆员嵌入式的数据管理服务。
目前已经有部分学者提倡学科馆员、研究人员、信息专家等之间协同及嵌入科研工作流进行科研数据管理。Minglu Wang指出,图书馆员应较早与研究人员或学生建立密切关系,这样可以及时发现自己所需技能及领域知识的不足并进行相应的培训和学习;而在数据管理方面,数据服务馆员可以指导研究人员或学生管理数据,以更好地开展科研实践[3]。Anna Gold讨论了在数据图书馆事业中图书馆员所扮演的角色,其中一种是数据科学“上游”(Upstream)的角色,即作为科研过程密切的合作者,图书馆员可能会参与创建数据监护模型,支持数据文档、标准等的使用以及建立支持科研工作流预出版的动态数据仓储等[4]。肖潇、吕俊生对嵌入式学科化科学数据服务进行了研究,提出了学科馆员参与学科数据服务的形式,包括过程嵌入、人员嵌入和平台工具嵌入[5]。iSchool基于Atkinson等人[6]所述的“坡道”(Ramp,通过深入群体和接触新的群体扩大交流的方法)概念提出了数据能力坡道模型,见图1[7],展示了iSchool通过与数据科学家、领域专家、学生之间的相互协作提高数据技能、能力和实践经验的方法。这些研究虽然都提到了图书馆员参与科研过程从而进行服务的理念,但并没有对具体的服务模式作进一步研究。而,目前化学领域还没有为实现化学数据的广泛存取提供有效的科研数据管理和存储服务。本文以化学学科为研究对象,分析化学科研工作流中的数据管理生命周期和每一阶段的服务切入点,汲取目前国内外图书馆科研数据管理服务的经验与启示,基于学科馆员、研究人员等多方协作的理念设计嵌入化学科研工作流的图书馆数据管理服务,以期为我国图书馆开展相应的数据服务提供思考和借鉴。
1化学领域研究人员数据管理服务切入点分析
图1 iSchool能力坡道模型
以化学学科为例,在化学领域,实验室科研工作流中产生了大量数据,但缺乏对实验数据集的管理和发表。在开放数据的挑战下,化学领域研究人员需要遵从各种数据共享政策的要求。然
科研数据的开放获取让化学领域研究人员有了新的科研压力,学科馆员需发挥其在数据检索、数据组织、数据共享等方面的专业优势,融入化学研究实际工作,从整体层面理解用户的科研工作流,为其提供嵌入整个科研工作流的数据服务。
1.1化学科研工作流与数据管理生命周期
美国地球观测卫星委员会信息系统与服务工作组(Committee on Earth Observation Satellites (CEOS) Working Group on Information Systems and Services (WGISS))2011年发布
CEOS Data Life Cycle Models and Concepts[8],其中收集了44种较有代表性的数据生命周期模型和数据管理生命周期模型,有些是科研机构或图书馆定义的,有些是面对某个学科领域的,还有部分是针对某个项目的,生命周期的定义稍有差异。综合书中44种生命周期案例,笔者从科研项目实施的角度将化学数据管理生命周期分为3个大的阶段:项目启动前的数据管理计划(Data Management Plan,DMP),项目进展中的数据收集、数据组织、数据分析、数据保存和项目结题后的数据发表,参见图2。
1.2化学科研数据管理服务切入点
图2化学科研工作流与数据管理生命周期
处于科研项目工作流的不同阶段,研究人员所面临的数据管理问题和挑战也不相同。本文基于化学科研数据管理生命周期的3个阶段,结合国内外科研数据管理的经验,对研究人员可能面临的问题进行分析,基于图书馆解决用户问题的角度,将其作为图书馆探索嵌入化学科研工作流的数据管理服务的切入点。
1.2.1项目启动前的数据服务切入点
越来越多的资助机构要求其资助的项目能够在项目研究过程中、结题或资助周期结束后对科研数据进行规范的保存和管理。如为响应美国国家科学基金会(NationalScience Foundation,NSF)开放数据的政策,NSF化学部规定:“2011年1 月18日之后提交到化学部的项目申请书需包含一份不超过2页的数据管理计划,且研究人员应在合适的时间范围内,将数据及相关的补充信息发表到同行评议的期刊或将数据保存到化学领域提供数据访问的数据库或数据仓储中。”[9]在正式展开科研项目之前,化学研究人员需明确资助机构的数据共享政策,并制定一个包含数据收集、数据组织、数据备份和数据存储等元素的数据管理计划。越早制定数据管理计划,越能帮助研究人员在创建、存储和共享数据中做出正确的决定。而对处于科研一线的研究人员,制定一份高质量的数据管理计划无疑是一个很大的挑战。
1.2.2项目进展中的数据服务切入点
化学科研项目开展过程中涉及的数据管理流程包括数据收集、数据组织、数据分析、数据存储。
(1)数据收集:①研究人员需检索是否存在与项目相关的数据,确认它们是否可以在项目中重用以及重用的方法;②项目数据的创建和收集,研究人员需明确产生数据的类型、格式,进而确定数据创建、收集的方法并选择合适的数据收集工具。
(2)数据组织:①文件命名。研究人员需对研究项目中产生的大量数据和文件进行组织,如果数据和文件组织不规范,随着时间的推移,数据将变得混乱无序、难以掌控,因此使用文件层次体系结构、统一规范命名规则,可以减少数据处理中的错误。②版本控制。在数据分析处理的过程中,数据可能会有多个版本,通过控制文件的版本,可以避免对过时的文件进行操作,或者错误地删除了最终版本,项目组的所有成员都应使用相同的版本。③元数据。选择合适的元数据标注数据,可实现数据的检索,确保数据在现在和未来都可理解,并在无需浏览所有数据集的情况下,能够正确解读数据的背景信息。但需注意的是,不同的数据类型有不同的元数据标准,如晶体信息框架(Crystallographic Information Framework,CIF)是专门针对晶体信息存档和传播过程结构化和标准化描述的元数据标准。
(3)数据分析:主要根据数据的类型以及预期结果选择合适的工具进行分析、处理科研数据。
(4)数据存储:为避免数据的丢失,在一定的时间间隔应对数据进行存储和备份,不同项目组对科研过程中产生的数据有不同的保存途径和工具,如纸质实验室记录本、电子实验室记录本(Electronic Lab Notebook,ELN)、个人电脑、课题组电脑、服务器、U盘或硬盘、网络数据平台等。
基于研究人员在项目进展中的数据管理流程和目前化学研究人员数据管理的现状,在科研数据共享的大背景下,将研究人员可能面临的数据管理问题总结为表1。
表1项目进展过程中化学研究人员面临的数据管理问题
1.2.3项目结题后的数据服务切入点
化学科研项目结题后,研究人员对原始数据的处理有多种方式:(1)对于无价值的数据,可能不需要继续保存,使用后直接删除;(2)对于不宜公开、需隐私保护的敏感数据,如新材料、新药品研发的相关数据,可能会选择自行保存或项目组集中保存。
对于那些可共享的数据,目前主要有以下3种发表形式(见图2)。
(1)科研数据独立发表。数据直接共享给专门的数据仓储,如将实验中产生的小分子晶体结构数据存储到剑桥晶体数据中心[10](Cambridge Crystallographic Data Centre,CCDC);(2)以数据论文(Data Paper)的方式发表。主要对科研数据进行描述,并以论文形式发表,原始数据提交到推荐的数据仓储中;(3)科研数据依附出版物发表。作为支撑论文内容的材料,主要以两种形式存在,一种是论文发表时把相关数据提交到数据仓储中,通过数据唯一标识符与论文关联;另一种是数据作为论文的补充材料同论文一并发表。
将科研数据发表以实现共享逐渐成为研究人员处理原始数据的主流趋势,很多资助机构相继提出了数据共享要求,但数据共享环境给研究人员提出新的要求同时也带来了很多挑战,主要有:(1)化学科研数据仓储数量繁多、质量参差不齐,给研究人员对权威仓储的选择增加了难度[11];(2)化学数据类型多样,而数据仓储对数据格式的要求又没有统一的标准,给研究人员增加了科研压力;(3)目前化学领域已有3个数据期刊(Journal of Chemical and Engineering Data[12],Journal of Physical and Chemical Research Data[13],JournalofPhysical and Chemical Reference Data[14])。数据期刊属于新型的科研成果出版形式,研究人员对其较为陌生;(4)化学学术期刊数据政策复杂,难以把握,而且化学是一门交叉性很强的学科,期刊数据要求涉及多种学科,如美国化学学会(American ChemicalSociety,ACS)出版的49种期刊,每一种期刊的数据政策都不相同,而且要求存储的数据与生物科学、材料科学、物理科学等多种学科交叉[15],研究人员在发表学术论文时,必须清晰梳理期刊的数据要求。
2化学科研数据管理服务设计
基于上述化学领域研究人员在科研项目中面临的科研数据管理问题,笔者从嵌入科研工作流的角度提出针对每一阶段问题的数据管理服务,并从服务形式、服务内容、服务时间、服务途径、支持服务的工具和资源、嵌入机制、收集用户反馈的途径等7个方面对每一种服务进行细化,形成具体的服务模式。
2.1项目启动前的数据服务模式
良好的数据管理计划有助于推动科研项目的有序开展,无论从政策上还是在实际科研过程中都需要研究人员撰写一份高质量的数据管理计划。项目启动之前,图书馆可以利用自身优势通过数据素养教育、咨询、资源推送、计划资源导航协助他们制定数据管理计划。服务的内容包括介绍数据管理计划政策、提供数据管理计划指南、提供数据管理计划要素、提供数据管理计划模板(如美国麻州大学医学院的化学数据管理计划模板)、介绍数据管理计划工具(目前常用的数据管理计划工具有加利福尼亚数字图书馆等开发的DMPonline[16]和英国DCC开发的DMPTool[17])等,具体服务模式见表2。
表2化学科研数据管理计划服务模式
2.2项目进展中的数据服务模式
项目实施过程是数据产生的主要阶段,也是数据管理活动比较重要和复杂的一环,数据收集、数据组织、数据分析、数据存储(指短期存储)中的任何一个环节都会影响项目数据的质量和最终科研成果及科研数据的发表。基于表1项目进展过程中化学研究人员面临的数据管理问题,图书馆可提供与项目启动前阶段相同的4种服务,只是在服务内容上稍有差异,包括化学领域文件命名规则、命名方法和工具(如Bulk Rename Utility (Windows)[18]、Renamer (Mac)[19]、PSRenamer[20]),数据文件版本控制方法、工具/系统(如CVS[21]、Subversion[22]、Bazaar[23]),与项目数据相关的元数据、创建元数据的方法和工具(如Morpho[24]、Dataup[25]),化学科研数据分析方法和工具,数据备份方法、工具和系统(如Smart-Copy)。除此之外,图书馆还可以开展化学科研数据发现、检索与获取和化学科研数据阶段性存储两类服务。
2.2.1化学科研数据发现、检索与获取服务
研究人员在开展一个项目时,首先需检索是否存在与项目相关的数据,如果有相关数据,需明确这些数据是否可以在项目中重用、如何重用、有哪些需要注意的知识产权问题。文献信息检索是图书馆的优势,学科馆员可以通过通用搜索引擎、学科数据搜索引擎、学科数据仓储等多种方式开展化学科研数据的发现、检索与获取服务,帮助用户解决科研数据获取的问题,具体服务模式见表3。
表3化学科研数据发现、检索与获取服务模式
2.2.2化学科研数据阶段型存储服务
对产生的数据进行实时处理和保存,可避免在项目执行过程中数据的丢失,有利于科研数据最终的发表和共享。比如,美国康奈尔大学图书馆面向该校研究人员,以机构库为基础,建立了数据阶段型存储库(Data Staging Repository,DataStaR[30])。作为学术界数据共享的一个暂时的、过渡性的存储节点,DataStaR拥有可产生多种格式的高质量元数据的工具,由图书馆员负责操作,通过协助研究人员完善数据和元数据来促进共享,最终积极帮助他们向各自领域的学科数据仓储发布数据成果,以供长期使用和保存[31]。我国图书馆可以借鉴国外图书馆建设相关机构科研数据仓储的理念及其服务方式,对科研数据进行实时跟踪和处理。化学科研数据阶段型存储服务的模式见表4。
2.3项目结题后的数据服务模式
数据仓储的选择、数据期刊/学术期刊复杂的数据要求等成为化学研究人员数据发表中必然面对的问题。目前国外已有一些图书馆提供机构知识库,使用户可以发表、保存数据集,或帮助研究人员识别针对特定资助、学科、领域的数据仓储。比如,麻省理工学院图书馆在图书馆网站上链接了社会科学、经济学等学科的一些期刊的数据要求,并给用户提供可存储数据的仓储及查找其他仓储的方法,以帮助研究人员共享科研数据[32]。针对研究人员数据发表的3种主要方式及其挑战,图书馆可通过化学科研数据素养教育服务、数据发表咨询服务、数据仓储推送服务、数据发表资源导航服务、提供机构数据知识库等5种服务方式帮助化学科研人员更好地共享科研数据。具体服务模式见表5。
表4化学科研数据阶段型存储服务模式
表5化学科研数据发表服务模式
3结语
本文将化学研究人员在项目启动前、项目进展中、项目结题后面临的数据管理问题作为图书馆服务的切入点,从图书馆嵌入科研工作流的角度设计了化学科研数据管理服务模式,强调化学学科馆员需嵌入研究人员的科研环境,扩大整体研究工作流管理的视野,而不能仅仅关注数据集、科研论文、学术报告等最终学术成果。只有从整体层面理解科研工作流,才能确定整个数据管理生命周期的科研数据、记录和产出流,找到参与化学科研过程管理的最佳切入点,对我国图书馆开展科研数据管理服务有很大的启示和借鉴意义。本文仅是服务的设计,目前,开展具体服务时还需注意以下3点:(1)目前很多图书馆开展了科研数据管理服务并取得了一定的进展,但图书馆提供的数据管理服务要紧密结合科研项目的具体特点,而不能采用一刀切的办法;(2)本文得出的化学研究人员在科研工作流中遇到的数据管理问题仅仅是结合国内外科研数据管理的经验,难免会忽略一些在实际科研研究过程中才能遇到的问题,因此需要学科馆员在实践中不断发现问题并进行修正和增添服务内容;(3)图书馆在开展服务时可以借助Web2.0下的新技术,如图书馆微博、博客及社交网络(SNS,如豆瓣)等来实时更新图书馆科研数据管理服务进展情况,让更多人了解到该服务的存在,并获取更多人群的反馈意见。
参考文献
[1] University of BATH. Research Data[EB/OL].[2015-08- 22].http://www.bath.ac.uk/research/data/.
[2] University of Virginia library. Research Data Service [EB/OL]. [2015- 08- 22]. http://data.library.virginia. edu/data- management/.
[3] Wang M. L. Supportingthe research processthrough expandedlibrarydataservices[J]. Program,2013,47(3):282- 303.
[4] Gold A K. Cyber infrastructure,data,and libraries,part 2:Libraries and th e data challenge:Roles and actions for libraries[J]. Office of the Dean(Library),2007,13(9/10).
[5]肖潇,吕俊生.图书馆嵌入式学科化科学数据服务研究[J].图书馆学研究,2012(21):85- 89,73.
[6] Atkinson M,De Roure D,van Hemert J,et al. Shaping ramps for data- intensive research [Z]. Paper presented at the UK eScience All Hands Meeting,CardiffCityHall,2010.
[7] Lyon L,Brenner A. Bridging the Data Talent Gap:Positioning the iSchool as an Agent for Change [J]. International Journal of Digital Curation,2015,10 (1):111- 122.
[8] CEOS Data Life Cycle Models and Concepts[M].[S.l.]:[s.n.],2011:11.
[9] Directorate of Mathematical and Physical Sciences DivisionofChemistry(CHE). Advice to PIs on Data Management Plans[EB/OL]. [2015- 08- 26]. http:// www.nsf.gov/bfa/dias/policy/dmpdocs/che.pdf.
[10] Cambridge CrystallographicDataCentre[EB/OL].[2015-08- 27].http://www.ccdc.cam.ac.uk/pages/Home.aspx.
[11]陈秀娟,吴鸣.学科领域科研数据知识库调研与分析——以化学领域为例[J].图书情报工作,2015,59 (9):111- 118,147.
[12] Journal of Chemical and Engineering Data [EB/OL]. [2015- 08- 27].http://pubs.acs.org/journal/jceaax.
[13] Journal of Physical and Chemical Research Data[EB/ OL]. [2015- 08- 27]. http://scitation.aip.org/content/ aip/journal/jpcrd/browse.
[14] Journal of Physical and Chemical Reference Data[EB/ OL]. [2015- 08- 27]. http://scitation.aip.org/content/ aip/journal/jpcrd;jsessionid=g8g8oas2ki4n1.x- aip- live - 02.
[15]陈秀娟,吴鸣.学科领域期刊科研数据发表政策剖析——以美国化学学会期刊为例[J].中国科技期刊研究,2015,26(8):800- 807.
[16] DMPonline[EB/OL].[2015- 09- 10]. https://dmponline.dcc.ac.uk/.
[17] DMPTool[EB/OL].[2015- 09- 10]. https://dmptool. org/.
[18] Bulk Rename Utility[EB/OL].[2015- 09- 10]. http:// www.bulkrenameutility.co.uk/Main_Intro.php.
[19] Renamer[EB/OL].[2015- 09- 10].http://renamer.com/.
[20] PSRenamer [EB/OL]. [2015- 09- 10]. http://www. powersurgepub.com/products/psrenamer/index.html.
[21] CVS[EB/OL].[2015- 09- 10].http://www.cvshome.org/.
[22] Subversion[EB/OL].[2015- 09- 10]. https://subversion. apache.org/.
[23] Bazaar[EB/OL].[2015- 09- 10]. http://bazaar.canonical. com/en/.
[24] Morpho[EB/OL].[2015- 09- 10]. https://knb.ecoinformatics.org/#tools/morpho.
[25] Dataup [EB/OL]. [2015- 09- 10]. http://dataup.cdlib. org/.
[26] BASE [EB/OL]. [2015- 09- 10]. http://www.basesearch.net/.
[27] Web of science. Data Citation Index[EB/OL].[2015-09- 10]. http://wokinfo.com/products_tools/multidisciplinary/dci/.
[28] ChemSpider[EB/OL].[2015- 09- 10]. http://www. chemspider.com/.
[29] PubChem[EB/OL].[2015- 09- 10]. https://pubchem. ncbi.nlm.nih.gov/search/.
[30] Datastar[EB/OL].[2015- 09- 10]. http://datastar.mannlib.cornell.edu/.
[31]杨鹤林.从数据监护看美国高校图书馆的机构库建设新思路——来自DataStaR的启示[J].大学图书馆学报,2012(2):23- 28,,73.
[32] MIT Library.Data management[EB/OL].[2015- 09- 10]. http://libraries.mit.edu/data- management/.
收稿日期2015- 09- 29
作者简介陈秀娟,女,硕士,中国科学院文献情报中心学生;吴鸣,女,硕士,研究馆员,学科咨询服务部主任;胡卉,女,硕士,中国科学院文献情报中心学生。