约翰·霍普金斯大学科学数据管理服务实践与启示
2016-11-19陈丽君
陈丽君
〔摘 要〕从约翰·霍普金斯大学开展科学数据管理服务的背景出发,阐述约翰·霍普金斯大学科学数据管理服务的内容与实践情况,并总结几点启示以供国内高校借鉴。
〔关键词〕约翰·霍普金斯大学;科学数据管理;图书馆
DOI:10.3969/j.issn.1008-0821.2016.04.020
〔中图分类号〕G252 〔文献标识码〕A 〔文章编号〕1008-0821(2016)04-0110-05
〔Abstract〕Based on the background of Johns Hopkins University Data Management Services,it expounded the content and practice of Johns Hopkins University Data Management Services and concludes some enlightenment for the college of our country.
〔Key words〕Johns Hopkins university;data management;libraries
约翰·霍普金斯大学是全美乃至西半球第一所研究型大学。据统计,2011年霍普金斯大学从美国国家科学基金会(NSF)、美国国家航空航天局(NASA)、美国国立卫生研究院(NIH)和美国国防部(DOD)获得超过18亿美元的科研经费,这使得霍普金斯大学连续33年被评为全美年科研经费最高的大学[1]。2015年《美国新闻与世界报道》世界大学排名将约翰·霍普金斯大学列为世界第12[2]、美国第10[3]。该校高额的科研经费与排名靠前的美誉离不开成功的科研数据管理服务的支持与推动。约翰·霍普金斯大学的科学数据管理服务(Johns Hopkins University Data Management Services,简称JHUDMS)[4]是该校在经过数十年的研发、数据管理系统原型的建立、用户需求的测评、服务能力的建设和可持续规划的基础上发展而来的,其成功经验值得深入研究并供国内高校借鉴。
1 JHUDMS开展背景
2010年5月,美国科学基金会宣布从2011年1月开始所有项目申请书都要包含一份2页的科学数据管理计划。在约翰·霍普金斯大学研究人员对科学数据管理服务需求的推动和约翰·霍普金斯大学教务处处长、科技处处长和二级院系院长共同推动下,再加上JHUDMS开展之前,约翰·霍普金斯大学谢里登图书馆参与实施史隆数位巡天(Sloan Digital Sky Survey,简称SDSS)[5]项目以及与此项目相关的数据管理(Data Conservancy,简称DC)[6]工作中积累的大量专业知识、技能与建立的数据管理基础设施,这共同促进了JHUDMS的开展。
基于前期实践经验、数据管理基础设施基础和约翰·霍普金斯大学研究人员对科学数据管理服务的迫切需求,谢里登图书馆首先对约翰·霍普金斯大学的环境和用户需求进行了综合性分析,并基于调查问卷对过去5年申请NSF项目的主要人员进行了调查,计算出了过去5年约翰·霍普金斯大学研究人员申报NSF项目的成功率。调查问卷设计的较简单,主要包括科学数据存储需求、研究人员目前的实践行为、角色和科学数据潜在的保存期限。该问卷不以开展深度学术研究为目的,而以信息搜集和唤醒研究人员的科学数据管理意识为目的。谢里登图书馆的企业图书馆项目负责人Barbara Pralle对调查结果进行了综合性分析,制定了一份科学数据管理商业计划并提交到约翰·霍普金斯大学的管理部门。商业计划中列出的费用预算是基于近3年来该校研究人员向NSF申请的项目在约翰·霍普金斯大学各部门的分布状况、每个项目申报书所需的存储容量、约翰·霍普金斯大学现有政策下每个项目申报书的保存期限和无障碍存取科学数据所需的支持这4个方面综合计算出来的。因此,商业计划中的预算包括存储费用、人员费用、日常管理费用,需要管理的科学数据的总量和在科学数据接收阶段对多样化科学数据的处理费用等。约翰·霍普金斯大学的管理部门经过论证、研讨,肯定了该计划的合理性与可行性并最终批准了该计划,使得JHUDMS在2011年7月正式开展。
2 JHUDMS开展概况
后来,为更有效地实施科学数据管理服务,约翰·霍普金斯大学建立了专门的科学数据服务网站(http:∥dmp.data.jhu.edu/)。有效的科学数据管理可加速科学研究的进程、保证科研成果的完整性和通过使科学数据的共享变得更加容易而满足科研资助机构的需求。JHUDMS的愿景是通过提供指导、教育、培训与科研数据的归档与共享等最佳数据管理服务支持研究人员、机构实现自身目标。JHUDMS包括3方面;提供科学数据管理计划制定的咨询服务,通过约翰·霍普金斯大学的数据档案库提供科学数据的归档服务和科学数据管理培训服务。
2.1 提供制定科学数据管理计划的咨询服务
制定符合科研资助机构需求的高质量科学数据管理计划能够增加科研项目申报的竞争力,进而提高科研项目受资助的成功率。约翰·霍普金斯大学为用户提供个性化的科学数据管理计划制定的咨询服务。用户可通过电子邮件的形式(datamanagement@jhu.edu)在科研项目申报截止的两周前联系科学数据管理咨询服务的人员,提供科学数据管理咨询服务的人员将与研究人员取得联系,以调查问卷的形式进行访谈,帮助研究人员搜集与组织科学数据管理计划相关的信息。由于不同类型科研项目申报的截止日期不同,这需要约翰·霍普金斯大学图书馆对服务时间与服务人员进行合理把握与组织。
2.2 提供科学数据的归档服务
通过约翰·霍普金斯大学的数据档案库为研究人员提供科学数据的归档服务,目前该数据档案库共有17项研究报告、112个文件[7]。一项研究报告是一个研究数据集,包括数据目录信息、数据文件和补充文件。科学数据归档服务的特征包括:任何研究领域、任何格式科学数据的接收,为每个数据集提供一个永久性的引用标识和链接,对科学数据文件完整性的常规检查和保存科学数据文件副本。目前约翰·霍普金斯大学提供两种形式的科学数据归档服务,小数据集合的归档服务和大数据集合的归档服务。该项服务的形式包括培训会议和应邀进行个性化培训与指导。
2.2.1 提供小数据集合的归档服务
该项服务对于想要提供诸如出版物、仿真模型、实验或小型项目等离散型研究成果数据在线存取服务的研究人员来说是十分理想的。该项服务的内容包括:提供上限为20GB的未压缩数据存储空间,为公众提供为期5年的科学数据的免费存取与发现服务,提供科学数据的元数据和提供3次离散科学数据从研究人员到约翰·霍普金斯大学数据管理顾问之间的传输服务。目前该项服务是免费的,如果数据容量大于20GB或向公众提供免费存取与发现科学数据服务的期限超过5年,需要根据研究人员的具体需求收取一定的费用。
2.2.2 提供大数据集合的归档服务
该项服务主要针对受资助的重大科研项目科学数据的管理并且是有偿服务。该项服务的内容包括:提供上限为2TB的未压缩数据存储空间,为公众提供为期5年的科学数据的免费存取与发现服务,提供面向科研项目全过程的科学数据的保存与共享服务,提供不受次数限制的离散科学数据从研究人员到约翰·霍普金斯大学数据管理顾问之间的传输服务和提供科学数据的分离识别、知识产权等方面的服务。目前对该项服务收取的费用为项目总资助经费的2%。如果数据容量大于2TB或向公众提供免费存取与发现科学数据服务的期限超过5年,需要根据研究人员的具体需求收取一定的费用。
2.3 提供科学数据管理的培训服务
该项服务对约翰·霍普金斯大学的所有研究人员和研究生都是免费的。服务内容包括:科学数据管理与共享的技巧与方法,包括科学数据备份程序,有效的科学数据文件的命名与组织,数据安全与存取控制和科学数据元数据;人物身份数据与科学数据的分离识别技巧,包括评估信息泄露的风险,在量与质2方面从科学数据中去除人物身份标识,便于科学数据的共享;科学数据重用服务,包括已经完成的科研项目和出版物中科学数据被研究人员和其他人重用的具体实现方法与步骤;用于共享的科学数据电子表格的准备与制作;编制科学数据管理计划准备工作的指导。
3 启 示
3.1 丰富的实践经验与DC平台的成功研发是顺利开展科学数据管理服务的坚实基础 一方面,早在2011年1月NSF颁布的科学数据管理计划颁布实施之前,谢里登图书馆就曾与研究人员一起制定科学数据管理计划。早期与研究人员的沟通、协作与交流使谢里登图书馆能真正从用户的角度理解图书馆员应该具备什么样的数据管理技能,怎么更好地进行自我提升。另一方面,HUDMS开展之前,谢里登图书馆曾参与SDSS项目以及与此项目相关的DC平台的的研发与管理。为归档与保存SDSS的数据,谢里登图书馆与美国天体物理研究协会签署了一个关于SDSS数据归档与保存的5年期的学术合作备忘录(MOU)。作为MOU的一部分,谢里登图书馆的服务人员开始获取和研究SDSS的数据发布,这使服务人员能够更好地理解不同类型和层次的数据、数据库和数据处理过程。谢里登图书馆得到美国博物馆、图书馆与微软研究院的授权,与美国天体物理虚拟天文台、美国天文学会合作,研发了一个链接数据与出版物的数据聚合框架模型[8]。该框架模型包含了重要的科学数据管理的思想,如数据的级别、对复合对象的处理与监管等,不仅适用于天文学科学数据,对其他领域的科学数据同样适用。此外,谢里登图书馆为实施科学数据管理工作,还专门向NSF的DataNet项目成功申请了数据管理专项经费用于DC平台的研发,JHUDMS是基于DC平台开展的,该DC平台的层次结构如图1所示。该DC平台通过一个通用的界面层用于科学数据元数据的管理、注册,科学数据的存取、检索与其他任务的执行。存储的科学数据本身分布于不同的天文台、数据中心与研究团体,所以该DC平台不仅用于这些科学数据的整合,还承担科学数据交换所的角色,因为许多重要的科学数据或个别数据集没有永久的存储场所。该平台能够使不同的学术社区上传与分享科学数据。上述努力为谢里登图书馆JHUDMS的顺利开展积累了丰富的实践经验与大量的专业知识与技能,并奠定了良好的数据管理基础设施基础。
3.2 学校管理部门的支持是成功开展科学数据管理服务的重要保障 学校管理部门对JHUDMS的支持主要包括对谢里登图书馆开展的对研究人员调查的直接帮助和对谢里登图书馆科学数据管理商业计划的行政批准。谢里登图书馆对过去5年申请NSF项目的主要人员进行调查时,约翰·霍普金斯大学的教务长负责提供科研项目申请人员的详细信息并授权谢里登图书馆与这些研究人员进行联系,科技处的副处长代表谢里登图书馆亲自发放调查问卷。谢里登图书馆的企业图书馆项目负责人Barbara Pralle制定的科学数据管理商业计划清晰地列出了科学数据管理的成本,对科学数据进行管理的利弊分并附相关证明材料,约翰·霍普金斯大学的管理部门对该科学数据管理商业计划进行了论证并批准支持JHUDMS。行政批准JHUDMS的开展使JHUDMS被认为是该校图书馆系统(10个分馆)开展的支持科学研究的服务,而不仅仅是某个图书馆开展的一项具体的服务,有利于增强研究人员对JHUDMS的认同感,提高参与度,进而使得JHUDMS能够利用现存的管理部门支持系统和与研究人员的良好沟通持续地开展科学数据管理服务的宣传推广与用户培训工作。
3.3 清晰的服务内容是成功开展科学数据管理服务的重要因素 JHUDMS内容包括科研项目申请阶段的JHUDMS和科研项目获得资助阶段的JHUDMS。科研项目申请阶段的JHUDMS具体包括:帮助用户了解所有的数据产物,基于调查问卷向用户提供咨询服务,讨论存档数据的需求和选择,提供不同学科领域数据仓储的选择范围,提供约翰·霍普金斯大学数据档案库信息和帮助用户以清晰的语言撰写2页科学数据管理计划。科研项目获得资助阶段的JHUDMS具体包括:准备一份深度的科学数据管理计划(并不仅仅是NSF要求的2页科学数据管理计划),推荐元数据标准,将科学数据迁移到约翰·霍普金斯大学的数据档案库,为研究人员管理数据便于以后他们能够找到、存取和使用数据档案库的工具完善科学数据,数据档案库中科学数据的监护及其与其他数据间的关联,在数据档案库实施数据格式的转化便于在未来发布诸如科学数据特征提取的软件工具。科研项目申请阶段的JHUDMS是免费的,直接受到约翰·霍普金斯大学管理部门的资助,目的是让所有申请项目的研究人员都能享受到该项服务;科研项目获得资助后JHUDMS是有偿服务,如果研究人员选择使用后者的服务,需要在项目申报书中写明科学数据管理费用在申报的科研项目总经费中的比例,便于受到NSF的资助。
3.4 个性化的定制服务是成功开展科学数据管理服务的灵魂 个性化的科学数据管理计划有助于科学数据的分享、存取和保存。利用模板制定科学数据管理计划相对简单并且仅代表了科学数据管理的开始。JHUDMS针对获得资助的科研项目制定出了一个深层次的数据管理计划因为仅仅2页的数据管理计划几乎不能提供足够的项目背景和细节等方面的信息,进而不利于研究人员完全理解科学数据及其相关的共享、存取和保存需求。JHUDMS致力于帮助研究人员使用科学数据完成特定的任务而不仅仅是满足于科研项目资助机构的要求。为满足研究人员个性化科学数据管理的需求,约翰·霍普金斯大学制定了一个概念层次模型[9],该概念层次模型被证明是对研究人员非常有用的,因为它清晰地展示了存储(Storage)、归档(Archiving)、保存(Preservation)与监管(Curation)这4个从底端到顶端的层次概念之间既相互独立又相互依存的关系,有利于科学数据管理服务人员向研究人员解释科学数据管理平台上不同软件的现在与未来的功能及其相关的服务,进而便于用户做出个性化选择,减少沟通障碍与不必要的误解。
3.5 良好的支持科学数据生命周期的机构生态系统的构建是成功开展科学数据管理服务的关键 约翰·霍普金斯大学构建了良好的支持科学数据生命周期的机构生态系统(图2),以支撑科学数据的整个生命周期。
此生态系统中的数据馆员是约翰·霍普金斯大学专门针对JHUDMS的开展而招聘的,要求数据馆员不仅有较高的数据管理技能,并且要具有丰富的科学数据管理经验,这使得招聘到的数据馆员不仅有图书馆学/情报学研究生学历与学位,并且具有其他学科的背景,更要从事过SDSS项目以及与此项目相关的DC平台的的研发与管理工作。招聘到的高素质科学数据服务人员能够独当一面地开展工作,并且跟踪整个看科学项目申报、进展与结项的整个过程,并根据项目进展的需要,创新性地开展科学数据管理服务工作,得到了研究人员的认可。获取科学数据与重用科学数据的环节离不开专业人士的指导,为此专门成立的伦理委员会,并设立了法律顾问岗位。科学数据的整个生命周期离不开数据管理工作组的组织与协调,并需要保证数据的安全性、完整性与隐私权。
4 结 语
科学数据管理不仅仅与科学数据有直接关系,不仅仅是存储(Store)、归档(Archive)、保存(Perserve)和监管(Curate)科学数据,更与谁生产科学数据和谁使用科学数据有紧密联系,需要让用户了解科学数据的上下文情景、动员与支持生产数据的研究人员的广泛参与。JHUDMS代表了研发科学数据管理基础设施向前发展的重要一步,它将最终改变数据存取与共享的文化,这种文化的改变不仅仅是通过技术手段能够实现的,更需要社会各方面的支持。我国高校可借鉴JHUDMS的成功经验,与国内外盟友携手紧跟时代的发展步伐,共同实现人类社会的飞跃发展。
参考文献
[1]Johns Hopkins University[EB/OL].http:∥ncsesdata.nsf.gov/profiles/site?method=view&fice=2077,2016-01-04.
[2]Best Global Universities Rankings[EB/OL].http:∥www.usnews.com/education/best-global-universities/rankings,2016-01-04.
[3] National Universities Rankings[EB/OL].http:∥colleges.usnews.rankingsandreviews.com/best-colleges/rankings/national-universities?int=9ff208,2016-01-04.
[4]Research Data Management Services at JHU[EB/OL].http:∥dmp.data.jhu.edu,2016-01-04.
[5]The Sloan Digital Sky Survey:Mapping the Universe[EB/OL].http:∥www.sdss.org/,2016-01-04.
[6]Leading the movement to build data management tools and services across institutions and disciplines[EB/OL].http:∥dataconservancy.org,2016-01-04.
[7]Johns Hopkins Data Archive Dataverse Network[EB/OL].https:∥archive.data.jhu.edu/dvn/,2016-01-04.
[8]An OAI-ORE Aggrega/on for the Na/onal Virtual[EB/OL].Observatory.https:∥jscholarship.library.jhu.edu/bitstream/handle/1774.2/32723/Reynolds-2008-04-07.pdf?sequence=3,2016-02-23.
[9]Levels of Services and Curation for High Functioning Data[EB/OL].http:∥www.dcc.ac.uk/sites/default/files/documents/idcc13posters/Poster192.pdf,2016-01-04.
(本文责任编辑:孙国雷)