高校图书馆数据监护工作初探
2013-08-31裴玉香烟台大学图书馆山东烟台264005
●裴玉香(烟台大学 图书馆,山东 烟台 264005)
我国在21世纪初正式启动“科学数据共享工程”,在推动数据共享的过程中,科研的最终成果受到了足够的重视,但在科研过程中产生的大量数据却一直受到忽视。近几年,以美国为首的高校图书馆界开始注意并对这些科学数据掀起了数据监护(data curation)的热潮,而我国对数据监护的理论研究刚刚起步,实践仍处于空白。笔者结合我国高校图书馆界的实际情况,从教师退休或离职前接收其电脑中的科研资料着手进行数据监护,希望逐步建立起我国高校图书馆数据监护机制。
1 概念辨析及内涵
1.1 数据范畴
数据监护中的“数据”,无疑是科学数据,但其范畴是什么,却有不同观点。英国JISC(Joint Information Systems Committee,联合信息系统委员会)将“数据”定义为“原始的研究数据”。[1]美国 NSC(National Science Foundation)认为“数据指所有能以数字化形式存储并能以电子方式获取的信息,包括数字、文本、出版物、感应器读数流、视频、音频、算法、软件、模型、模拟、图像等”。[2]笔者认为,前者缩小了数据的范畴,“数据”不仅包括“原始的研究数据,也应包括研究过程中产生的一切数据”;而后者只是从数据的形态上给予了说明。因此,数据的范畴应是科学研究过程中产生的以数字化形式保存和存取的一切数据。
1.2 监护形式
数据监护(data curation)中的“curation”一词,在我国使用率并不高,到目前为止,其译法也不尽相同,如保存、保管、典藏、医疗、诊断等等。北京高校图书馆2011年数图年会上,崔宇红提出“curation”来源于拉丁语,本意为照顾,原主要用于文化遗产领域,现广泛用于多个领域,特别是对互联网内容的选择和编辑。因此对数据的监护形式应该既包括对科学数据的选择、注释、组织和存储,又包括对科学数据再加工、剔旧和维护,使其产生附加价值,具有再利用的功能。
1.3 数据监护定义
JISC在2004年就对数据监护做了定义:数据监护是为确保数据当前使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动。对于动态数据集而言,数据监护意味着需进行持续性补充和更新,以使数据符合用户需求。
从这个定义可以看出,数据监护的目的不仅是为了当前科学研究使用,更重要的是为了便利未来科学研究的再使用。从科学数据产生开始,就要对其进行监护,这个过程不仅仅是管理过程,更重要的是不断更新、维护的过程。
2 目前数据监护发展概况
2.1 从国内外数据监护的研究活动看
目前,数据监护比较有影响力的是NSF于2007年启动的DataNet计划,明确以图书馆为主体,预算1亿美元。此外,已经启动并获全额资助的课题有两个,一是2009年8月启动的Data One项目,该项目由新墨西哥大学图书馆主持,专门针对地球科学数据开发的;[3]二是2009年10月启动的Data Conservancy项目,该项目由约翰霍普金斯大学图书馆主持,采取以用户为中心的理念,使用OAI-ORE标准,在现有数字化系统和标准上开发数据监护系统,系统特色包括模块化设计、互操作网络、层存储等。[4]另外三个数据监护重点研究课题也将在未来五年内受到资助并陆续开展。
有关数据监护的国内外研讨会也分别在2010年底和2011年提上日程,其中2011年5月17日在台湾大学图书馆举办了“E-Research:新时代学术研究之利器”研讨会,[5]会议特邀请伊利诺大学与宾州州立大学专家学者参加,其中伊利诺大学香槟分校图书馆的Paula Kaufman馆长的讲题是《Whyisdatacurationan important role for libraries?》开启了海峡两岸有关Data Curation研讨的先河。2011年国内学者也纷纷举办有关Data Curation的讲座,Data Curation逐渐走进国内学者的视线并逐步受到关注。
2.2 从发文数量看
表 2001-2010年Google Scholar检索到的“Data Curation”发文量
2002年Jim Gray首次提出Data Curation概念,从表中可以看出,在这时期有关Data Curation的文章很少,到2006年底发文数量共计35篇,以后逐年增多,其中2009-2010年是2006-2008年的两倍多。
可见,说数据监护作为一项新兴课题,其理论体系尚在逐步完善中,目前国外开始启动的有关项目也处在初期建设阶段。因此,我国高校图书馆界应抢占数据监护先机,将数据监护工作开展开来,并在开展过程中随着数据的收集、使用、分析、总结,摸索用户需求及使用规律,逐步建立和完善数据监护机制。具体来说,可以从接收退休和离职的教师电脑中的科研资料入手,作为高校图书馆界数据监护的开端,有利于科学数据的保存和使用。
3 高校图书馆数据监护的必要性及意义
科学数据监护原因主要有:研究过程需要验证、重复、链接和共享科学数据;研究数据的高投入、易损失和不可替代性;从现有数据中产生“新”知识的潜力;因此,高校图书馆应像接受图书捐赠那样,在教师退休或不再从事科学研究以后,接收其电脑中的科研资料,并向后来的研究者开放,以发挥其最大作用,既是非常必要的,又具有重要的理论和实践意义。
3.1 “小科学”数量大,科研含量不容忽视
老科研工作者承担的多是“小科学”,这些项目存在分布散、规模小、缺乏数据存放统一标准,所以长期处于数据管理的盲区,缺乏分享机制,更缺乏长期利用策略。高校内 “小科学”的数量非常可观,据不完全统计,高校内的课题85%的参与者都在3~4人之下。
3.2 避免重复劳动,节约时间
老科研工作者的很多科研原始资料,都保存在自己的电脑中,随其退休或离职,将会丢失不知所终,其他人要做同样的研究,就得重复做,既浪费时间、经费,又浪费了不必要的人力。
3.3 避免原始资料造成永久性无法弥补的遗失
老科研工作者的有些科研资料是无法重复的,如果科研资料随其退休、离职而消失,将会对新科研工作者造成永久性无法弥补的损失。
3.4 节约金钱,解决老科研工作者的后顾之忧
关于数据的长期保存,好多老科研工作者会用刻光盘(包括过几年再复刻一次)、大容量移动硬盘方式备份;在退休、离职之初,处于惯性和弃之可惜的念想,仍会对其定期维护,浪费了不少金钱。高校图书馆应像接受图书捐赠那样,在教师退休或不再从事科学研究以后,接收其电脑中的科研资料,对老科研工作者来说,是金钱和精神两方面的解脱。
3.5 高校图书馆抢占数据监护先机促进自身发展的需要
随着网络技术、信息存储技术的发展,图书馆所处外部环境风起云涌,信息服务机构纷纷抢占服务地盘,使图书馆失去了原先固有优势;核心业务的外包,使得图书馆必须将注意力逐渐集中在“做好读者服务”的核心工作上。内外环境的变化使得高校图书馆只有通过加大学科服务的深度和广度,进一步与高校科研融合,才能发挥自身优势,体现自身价值,才能避免边缘化。
4 建议
4.1 领导重视,保证经费的可持续发展
在认知上,虽然对数据监护的必要性给予了高度认同,但对所接收的科研资料是否会因数据监护系统的各种问题导致缺乏可持续性、经费缺乏以及人为因素导致未来可能无法访问,被调研人员也都表示出高度忧虑。在这一点上,领导们应转变观念,认识到数据监护对科研教学的重要性;认识到保证资金的投入是确保数据监护的可持续发展的前提。经费充足的图书馆可考虑建立一个本馆电子资源的长期保存和管理平台,实现对电子资源的长期保存,使用户能随时对这些资源检索访问。近年来,国际主流的开源仓储软件DSpace与Fedora比较受关注,这两个开源软件于2008年7月宣布合作,实现了对这两个仓储软件开发的统一管理,促进了两个平台的互操作。有条件的图书馆可根据自身不同的需求,对两系统作出一些适合自身的扩展;经费紧张的图书馆可将科研资料接收后先存档,对其进行较低层面的保管(如仅存贮在较稳定的介质上),待条件允许再实施全面数据监护与提供服务。
4.2 明确数据监护步骤,规范数据监护流程
图书馆对退休或离职教师电脑中的科研资料全盘接受后,应根据本校教学科研需要制定规程确定数据监护范围,对在监护范围内的科研资料加以保存、注释、归档,建立一个系统来编排科研数据;使新科研工作者知晓这些科研资料并提供使用途径;确保科研数据始终有用和可靠。为此,在接收前要特别关注包含保密性或敏感性的信息;在接受前要通过签订协议实施保存职责转移;为了提高检索效率,也为了减轻经济负担,一旦断定数据资源失去了保存价值,就应考虑将其移出数据监护系统。在接收前很有必要与数据提交者说明并签订协议。
4.3 保证数据监护质量,确保数据正确使用
图书馆对退休或离职教师电脑中的科研资料接收后要制定一定质量标准,使其规范化、科学化,有利于后继使用者的使用。一方面,图书馆作为数据监护的管理方,应采取一定程度的访问控制,避免无度访问导致错误膨胀;在提交之前,应由提交方对其提交资料的真实性、完整性以及合理性等方面进行梳理,或由学科馆员组织、注释(语义描述和元数据规范)之后由提交人认证无误再保存。另一方面,可参考现行的学术论著引用规范来制定所提交资料的引用规范,相关机构(如出版界、学术机构等)加强监督,共同营造科研诚信氛围。
4.4 开展数据监护教育,培训数据监护人员
只有拥有合格的数据监护人才,才能保证数据监护工作的顺利进行。结合我国高校图书馆的实际情况,学科馆员应该是数据监护人员的重点培养对象。一方面,高校图书馆界应密切关注国外数据监护教育的进展,将先进理论和教材及时介绍到国内,并在全国高校内组织数据监护方面的培训,可借鉴Calis联合目录编目员资格认证方面的培训,使学科馆员了解数据监护理论,具有数据监护操作知识;另一方面,各高校图书馆应根据自身情况,尽快开始数据监护探索性实践,如先对退休或离职教师电脑上的科研资料接收入手,通过探索性实践,让学科馆员在原有知识结构基础上,不断提高数据监护实际操作技能。
4.5 循序渐进,建立健全数据监护机制
对信息资源的开放存取在美国已经是自上而下的要求,目前这方面有加速的趋势,并不仅仅是数据提交方、使用方有这方面的需求,而是提供研究基金的机构如NSF对数据监护提出要求,数据提交方不得不了解如何让数据被别人共享,从而形成开放存取机制。高校图书馆作为一个长期稳定的信息机构,从教师退休或离职前接收其电脑中的科研资料入手,仅仅只是迈出了数据监护的第一步。图书馆应因势利导,一方面推广宣传,使用户知晓数据监护内容,了解使用途径,从而扩大需求;另一方面,图书馆要与研究者互动,促进他们在科研课题结束后直接将数据提交到图书馆数据监护库,并采取在职院系教授加入考评、院系科研年度情况报告等监督和管理措施,逐步过渡到校内所有科研项目结束后的科研数据上报,直至可以为整个高校提供一整套可靠的数据交流、发布和保存解决方案,使图书馆成为知识发布、保存、利用和管理的重要阵地。
[1]Lord P,Macdonald A.Data curation to e-Science in theUK:an audittoestablish requirements for future curationandprovision[EB/OL].[2012-09-27].http://www.jisc.ad.uk/uploaded-documents//e-ScienceRiport-Final.pdf.
[2]National Science Board.Long-lived digitaldata collections[EB/OL].enabling research and educationin 21 stcentury[2012-09-27].http://www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.
[3]DataONE[EB/OL].[2012-10-03].https://dataone.org/.
[4]DataConservancy[EB/OL].[2012-10-03].http://dataconservancy.org/.
[5]E-Research:新世代学术研究之利器研讨会议程[EB/OL].[2012-10-03].http://210.70.94.83/upload/74/document/fd_ok4gi074_20110425092126_1.doc.