大数据背景下图书馆在数据监管中的角色和使命
2016-03-15陈璐
陈 璐
(南京审计大学图书馆 江苏 南京 211815)
大数据背景下图书馆在数据监管中的角色和使命
陈 璐
(南京审计大学图书馆 江苏 南京 211815)
在大数据环境下,科学数据在各个领域的发展具有非常重要的作用。对科学数据进行有效管理和有效使用日趋重要,科研机构和为学术研究提供事实数据支撑的图书馆认识到了数据监管的效益和价值,在实践中日益注重对数据进行持续的管理和维护,以期让数据符合用户的需求,推动图书馆参考咨询服务的发展。
数据监管;高校图书馆;科学数据
大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据具有5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。 近年来,数据监管(Data Curation)、大数据(Big Data)作为全新独立的研究领域受到研究机构和图书馆的关注。在国外,各大图书馆(尤其是美国高校图书馆)已充分意识到在大数据的环境下,作为海量信息资源聚集的机构,更加需要适时做出应对措施,做好数据监管,提高数据信息存储的安全程度,以提高数据存储的效率性[1]。
1 数据监管的内涵和价值
美国伊利诺伊大学图书馆与信息科学研究生院是这样进行数据监管的阐述的: 数据监管是一种持续的、动态的数据管理和控制,随着对学术探讨、科学研究和学科教育服务的不同阶段的数据需求而展开的数据服务。通过为各个领域展开研究提供相应的数据监管服务,科研人员能够在搜索寻找资料的过程中更加容易搜索数据、挖掘数据,提高数据的可信度,充分发挥信息资源的巨大价值,同时便捷地保存引用数据。数据监管这个全新的领域涵盖了对数据信息资源的评估、数据保存、数据分类存档、数据的智能推送、数据的提取再现几大模块[2]。
数据监管让那些可信度高的数据结论能够得到充分的二次利用,从而发挥这些数据的潜在价值。这对数据的版权所有者、科研人员、数据库供应商、数据的使用者来说,都能产生一些即期收益,从长远来看,价值潜力也非常大。数据监管具有八种即期效益,包括提高数据信息资源的可信度、对大数据进行深度挖掘和推送、提高科研成果的质量和科研价值、授权外部进行数据结论验证、维持稳定的纪录发布标准、提高不同动态数据集的兼容度、确保有价值、参考度高的信息资源和知识以及授权不同类型数据集的集结获取。此外数据监管还具有多方面长期价值,如维护科研成果著作权、留存科研进程纪录、收集和评估鉴别数据的未来价值潜力、对来源数据进行汇总加工编辑以便使用、保留系统历史版本入口、保证来源数据真实可靠性、授权未来潜在数据使用者挖掘使用这些数据等[3]。
2 国内外数据监管发展现状
数据监管日益成为国外图书情报界关注的热点问题。2003年,现任美国国家科学基金会信息基础设施主席阿特金斯首次提交了《通过信息基础设施促进科学和工程的革命》( Revolutionizing Science and Engineering through Cyberinfrastructure)的报告 ,也称阿特金斯报告。当时这份报告对数据监管的阐述并不十分明晰,到了2007年美国国家科学基金会正式阐述表明数据监管需要作为一个新的领域开展研究,自此之后,数据监管从教育领域开始迅速发展,逐步扩大到图书馆、研究机构,相关的政策也在实践中不断地得到完善[4]。2007 年,美国研究图书馆协会 (ARL)专门对数据监管展开全面的研究,在数据监管的软硬件开发管理、实施原则以及图书馆员的定位等方面形成指导性文件,成为各个图书馆、高校和研究机构进行数据监管研究和发展的风向标,为培养数据监管人才,形成数据监管准则提供官方指导意见。
我国部分大型科研项目对数据监管工作重视程度较高,基本集中在社会公共服务、国防军用建设等领域,譬如气象监测系统数据,为科技发展进步提供了强有力的支撑。与此同时,许多小规模科研项目的数据零散,缺乏有效的归集和整理。虽然部分高校图书馆设置了硕士论文提交系统,但基本上还是以保管归档为目的,各大院系的科研数据也多是各自保管,数据信息格式多样化,这既不利于科研数据的长期存储和提取,也难以实现共享,在今后的科研活动中发挥作用受到限制。信息保存机构和图书馆有必要行动起来,积极发挥自身的作用。
3 高校图书馆在数据监管中的角色
3.1 成为数据管理的技术管理者和咨询服务者
近十年来,图书馆向研究者提供的核心服务体现了图书馆在信息技术能力方面的提升。高校图书馆为了能够实现成为学校信息研究中心的目标,新引进的专业人才中IT专业的馆员占到很大比例,特别是信息系统和编程方面的技术人员。这就为图书馆提供大数据管理服务提供了人才基础,当然,大数据管理需要多种专业人才,以便在学科方向上形成互补。
在数据的整个生命周期中需要四个角色来完成:数据管理人、数据生成者、数据馆员和数据处理专家。图书馆可以扮演的角色是为研究群体提供培训[5],使其拥有组织和系统化管理数据的能力和技巧,当数据产生和集合后能被高效利用。数据监管若要想取得长期成功,精通于处理数据的专家需要在研究项目前期准备阶段就扮演咨询角色。图书馆的相关人员可以从两个方面发挥作用:其一,要有越来越多的图书馆员从元数据专家转变为信息技术工作者。其二,面对有数据分析需求的读者,馆员们可以像以往提供学科服务一样帮助其制定数据管理计划[6]。
3.2 成为科研人员和信息技术专家之间的桥梁
图书馆为各学科提供数据管理服务的方式因学科而异。各学科都有自身的研究方法和内容,虽然各领域对数据的需求完全不同,但是几乎没有学科是不需要数据服务的。因此,承担相关任务的馆员,应该根据不同的学科需求学习管理数据的方法,或者至少能够在研究者和数据管理专家之间建立联系。
在数据管理领域,从业人员一般是IT专业人才或者至少具备IT行业基本素质。其实大数据管理需要的专业技能和素质是非常广泛的,比如大数据网络建设、数据恢复以及数据融合,这些都是进行数据监管必备的能力。如果图书馆有这样的人才当然最有利于工作的开展,然而对于大部分图书馆来说,更加现实的是成为沟通数据管理专家的桥梁。除此之外,图书馆还可以在数据安全、公平使用、版权以及风险管理方面有所作为。
当大数据集合融入有序建构的贮存体系,它们需要通过一系列重要的途径呈现在学术研究者面前。首先,数据集合必须从内到外紧密有序排列。其次,一旦大数据集合产生,它们就应该以一种与研究环境和谐的方式保存。而后者对于数据的再次利用是非常必要的。通过数据有序保管,图书馆可以为研究机构提供服务,以节省科研时间。
4 高校图书馆在数据监管中的使命
4.1 寻找并与其他组织建立伙伴关系
在科研领域,数据产生的速度过快,政府和科研机构无力为庞大的数据集制定管理标准。站在数据原生研究者的角度,基础的数据存储、备份能够满足其研究需求;然而这样基础的存储和备份对于其他对研究数据感兴趣的学者来说远远达不到可以被利用的水平。数据监管的发展趋势已经被研究型图书馆注意到,然而一些院校图书馆尽管对研究数据监管服务感兴趣,却并没有意识到可以和其他图书馆展开合作。很多高校图书馆都在努力或希望成为研究数据的收集管理中心,成为所在院校学者们值得信赖的智库。然而大多数的教授学者不认为高校图书馆有提供数据管理服务的能力,这种不信任是高校图书馆发展数据监管服务的最大障碍之一。在大数据环境下,数据管理的标准是不断变化的,高校图书馆相关人员需要付出大量的时间来学习探索并执行这些数据管理的标准。图书馆可以依托高校图工委等机构共同探讨和构建数据管理的框架,交流和共享数据管理的经验,也可以和专业可靠的信息技术公司合作,获取可靠的数据技术服务。
4.2 评估本地需求,开发本地基础设施,制订相关政策
图书馆界已经在探寻增加数据利用率的途径。如前文所述,与不断变更的数据管理标准保持一致就需要图书馆工作人员付诸大量的时间,除此之外资金层面的支撑也是一个主要的压力。信息科学领域的专家们正在努力从法律、科学和技术层面进行分析,制定适合各种类型数据生成和储存的标准。
目前有很多机构能够支撑科学和工程研究对大数据处理的需求,然而却没有固定的人员来协助制定数据管理计划。事实上,在最近几年中,全球范围内为学术研究服务的数据管理越来越显示出其重要性。无论是政府机构还是个人都受益于大数据在国家安全领域抑或是商业领域的运用。自然科学学科,如化学、物理和生物在大数据分析利用和管理上领先于人文科学和社会科学学科。
4.3 形成数据监管执行组,重组数据工作组
为了保证研究群体的最大利益,图书馆可以协助规划处理大数据集合以使其能被最大限度地利用。图书馆亦可以充当研究团队、信息技术部门、研究管理部门与科研处、老师、学生之间的使者,以保证实现统一的高水平的数据管理标准。大数据管理不仅是暂时性的,更多的是保存数据的生命力及后续使用周期。大数据的处理分析需要数据具有一致性,这就要求在数据产生的初始阶段就有管理者的介入,这样才能在后续阶段保证其符合数据监管的标准。目前,有些研究项目的科研数据存储量非常大,更加需要标准化管理以保证高质量的存储研究成果。一旦数据产生、融合和被储存,在数据产生的初始阶段投入监管,将使数据的挖掘获取变得更加便捷。信息技术专业人员可以协助研究者对数据融合、分析、过滤和序列化进行规划,以便数据可以为以后的研究服务。
以往的图书馆学科服务一般针对特定的研究领域,学科馆员一般具有良好的专业素养,可作为研究群体和图书馆之间沟通的桥梁。在如今的大数据背景下,非常需要信息技术专家全程监控数据的产生和融合,并且实时与相关领域研究专家沟通。很多情况下,研究机构不了解这种服务,这就是图书馆应该发挥作用的时机——向相关研究群体提供咨询服务,使之清楚数据监管服务的流程,以便在研究的过程中能够及时地保存、处理研究数据。
[1]钟声.大数据驱动的高校图书馆数据监护探究[J].情报资料工作,2014,(3):103-106.
[2]沈婷婷,卢志国. 数据监管在我国高校图书馆的应用展望[J].图书情报工作,2012,(7):54-57,87.
[3]王晴.国外Data Curation研究综述[J].情报资料工作,2014,(1):52-57.
[4]高红文,陈清文. 国外数据监管研究综述及启示[J].图书馆学研究,2013,(10):2-4, 27.
[5]王芳,慎金花.国外数据管护(Data Curation)研究与实践进展[J].中国图书馆学报,2014,(4):116-128.
[6]丁培.数据策展与图书馆[J].图书馆学研究,2013,(6):94-98.
G250
A
2016-07-02 责任编辑:张静茹)