大数据时代的高校图书馆数据管理研究
2016-01-05高培培
高培培
摘要:大数据时代,图书馆服务过程中会产生大量的数据,完善的数据管理工作可以促进图书馆的数据统计工作,从而提高图书馆的服务质量。如何对这些数据进行管理,是一个系统而复杂的工作。文中试图构建一个数据管理框架,为图书馆未来发展提供数据基础。
关键词:大数据;数据管理;高校图书馆
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)29-0005-02
“大数据”是近几年来信息科技领域最热门的词,越来越多的人开始关注它。大数据也给图书馆带来了全面的冲击。 图书馆的职责是促进人类知识的交流与利用,有着存储知识的功能,对存储的文献知识和信息进行组织、整理,促进其交流和利用。图书馆与知识和信息紧密相连,而数据概念的外延与信息和知识的外延本身就交错重叠,不可分割,数据是图书馆馆藏资源的重要组成部分。因此,对于图书馆来说,大数据的到来首先要解决的问题是如何将数据更好地存储和管理。
1 大数据概述
“大数据”概念是伴随着现阶段数据增长的爆发趋势提出的。“大数据”是什么呢?从字面上理解,容易被理解为海量数据,目前也没有统一的定义。
1.1大数据研究现状
大数据经过这几年的发展和研究成果显著,杨绎[1]、韩芳芳、王新才等分别对我国大数据研究现状进行了总结,黄永勤[2]对国外大数据的研究热点进行了总结,薛辰[3]、李贺[4]等分别对国内外的大数据研究进行了综述。
1.2大数据应用现状
大数据已经不同程度地渗透到每一个行业领域和部门。数据里隐藏着巨大的商业价值,在未来的经济中将会起到不可替代的作用。目前,大数据的应用已经在电子通信、网络技术产业,甚至是工业、重工业等行业发挥了作用。特别是电子商务上,如淘宝、京东、亚马逊等通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
1.3高校图书馆中的大数据
图书馆历来是信息技术应用的重镇,“大数据”时代亦不例外。图书馆在为读者服务过程中必然会产生大量的数据,因此图书馆中的大数据主要的来源有以下几种 :一是有图书馆内部产生,如图书馆自身的馆藏资源(纸质图书、电子书、各类期刊论文数据库、自建特色数据库等)、固定资产、馆舍情况、读者借阅数据、读者社交网络数据等;二是图书馆外部的开放性的数据,如馆际互借数据、出版商数据等。
2 数据管理概述
2.1数据管理定义
当前有关数据管理的定义有不同的表达,本文采用百度百科中对数据管理的定义,“数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。”即对图书馆管理与服务过程中产生的数据进行有效管理。
数据管理[5]经历了人工管理、文件系统、数据库系统三个发展阶段。20世纪50年中期以前,属于人工管理阶段,数据不共享,不具有独立性,主要用于科学计算,没有相应的软件系统来管理数据。20世纪50年代后期到60年代中期,属于文件系统阶段,出现磁盘、磁鼓等存储设备,数据可以长期保存,有了专门管理数据的软件,成为文件系统,但数据共享性差、冗余度大。20世界60年代后期以来,这一阶段为数据库系统阶段,出现了大容量磁盘,数据能尽可能多的为应用程序服务,出现了数据库这样的数据管理技术。数据库的数据是面向全组织,具有整体的结构性,共享性高,冗余度减小,具有一定的程序与数据之间的独立性,对数据进行统一的控制。
2.2数据管理的必要性
1)大数据时代凸显数据重要性。大数据是数据分析的基础。没有对海量信息分析的大数据,就没有为所有信息消费者获取有价值信息的可能性[6]。
2)图书馆运营中产生大量的数据。近年来,计算机互联网技术的强大功能已经应用到图书馆的日常运营中。各类管理系统在图书馆服务过程中产生了各种数据,如读者数据、馆员工作日志、图书借阅数据、网站点击数据等。这些数据呈现几何级数递增趋势,应得到有效应用。
3)数据管理是图书馆数据得到有效应用的基础。图书馆所拥有的数据量在不断增加,但图书馆能够分析的数据比例却在不断降低。图书馆各个管理系统在设计之初不一定会考虑到数据的统一性问题,这会导致产生的数据不一致,不能完全整合等问题。大数据时代,要充分利用大数据所带来的技术优势的前提就是对图书馆的海量数据进行有效数据管理。
2.3大数据时代的数据存储管理
大数据存储随着大数据计算的发展也已经历时十多年,下面介绍两个比较著名的大数据存储方案[7]。
1) HDFS
HDFS(Hadoop Distributed File System)是支持Hadoop计算框架的分布式大数据存储系统,已经被广泛应用于各大互联网企业的数据中心。HDFS是目前最为流行的大数据存储系统,具有很高的容错性、可扩展性、高并发性,并且基于廉价存储服务器设备。当然它还有许多方面需要进一步完善,例如HDFS为了到达高容错性,在数据中心中用户的任意一份数据都会被复制三份保存在存储系统中,这样存储系统保存的数据量远大于实际用户需要的存储量,存储空间效率就会降低。
2) Tachyon
Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,其吞吐量要比HDFS高300多倍。Tachyon都是在内存中处理缓存文件,并且让不同的作业任务或查询语句以及分布式计算框架都能以内存的速度来访问缓存文件。当然截止目前Tachyon也只是0.2 alpha发行版,其稳定性和鲁棒性还有待检验。
3 大数据时代图书馆的数据管理
大数据对图书馆的发展趋势的影响越来越强,图书馆在大数据发展中应该承担什么角色呢?美国学者对图书馆员在大数据时代中的角色与所需专业技能做了调研,认为“ 图书馆可以在大数据环境下承担数据管理职责”。[8]近年来的图书馆发展趋势也显示出,大数据在图书馆建设与服务上的变革的影响力,通过对大量数据的分析利用,揭示数字背后的隐藏价值,图书馆能高效、准确地判定读者群的个性特征、社会关系、阅读需求和服务模式等。但是图书馆的结构化数据、非结构化数据、半结构化数据复杂海量、数据来源多样,因此,如何对数据进行科学的管理,是我们首要面对的问题。
3.1 大数据时代高校图书馆的数据来源
表1 高校图书馆基本数据情况
[部门\&数据分类\&部门\&数据分类\&办公室\&人事情况\&综合流通部门\&接待读者统计\&馆舍情况\&借书统计\&设备情况\&还书统计\&财务情况\&超期罚款统计\&信息部\&科技查新统计\&遗失赔偿统计\&原文传递统计\&馆际互借统计\&学科服务工作统计\&社会读者临时阅览证\&读者信息素养培训统计\&资源建设部\&中文图书采购统计\&数字化技术部\&设备维护情况\&中文期刊采购统计\&校内学位论文加工情况\&报纸采购统计\&电子图书制作统计\&外文图书采购统计\&图书馆网站维护情况\&外文期刊采购统计\&电子资源使用情况\&数据库采购情况\&]
图书馆各个部门每天运作过程中都会产生大量各种各样的数据,如借还书人数、进馆人数、馆舍规模、馆员情况、馆藏情况等等。这些数据都是分散的,有效地管理的数据的前提是有针对性地梳理和整合这些数据。大数据时代,这些数据都在以海量的态势激增,因此,图书馆应该有针对性地处理和管理这些数据。针对性,主要指这些数据能体现图书馆整体发展、规模、特征及水平,能促进图书馆各项工作的顺利开展与有效管理。
数据管理工作需要统筹安排。高校图书馆一般都有行政办公室部门,管理整个图书馆的人事情况等,具有一定的号召力,所以可以由行政办公室来牵头进行数据管理工作,因此我们可以根据不同部门产生的数据将图书馆的各类数据大致分成五大模块。这五大模块涵盖了图书馆所有业务服务数据及人事、财务等数据,具体数据分类如表1所示。图书馆可以根据实际情况,增加或筛选需要进行管理的数据内容。
3.2大数据环境下高校图书馆数据管理架构
基于数据管理的定义,数据管理可以分成四个步骤:数据收集、数据处理、数据存储、数据使用。数据收集,是指根据需求有针对性的将不同管理系统或不同设备上的数据收集起来。这些收集到的数据会因不同系统的原因,存在格式不统一、标准不一致等现象,所以这些收集来的数据,需要进行加工。经过处理后的数据要进行存储,最终将数据提供给用户使用。数据使用是最后一个步骤,之后的用途可能是产生最终的数据报表或者进行快速查询或者计算等等。
图书馆的各种各样的数据来自不同的管理系统或设备,如借阅数据来自借还系统、图书馆采购数据来自采购系统、图书基本信息数据来自编目系统、电子资源使用情况来自网站监控系统……利用大数据分析来提高图书馆服务是目前的图书馆发展趋势。图书馆可以研究分析读者偏好,调整服务内容和方式,满足读者需求。如:利用读者借阅数据及浏览电子资源的历史,分析读者借阅偏爱,调整书刊及电子资源采购品种及策略;利用门禁系统,计算每天进出图书馆的人数、流量,及时调整服务时间。但不是所有的数据都是我们需要的,必须对大数据进行筛选,筛选出的数据或因为是不同管理系统或者设备上的,其格式也有可能不尽相同。因此要先用大数据处理系统对数据进行处理,并保存到大数据存储系统中。用户可以根据大数据存储系统中的数据,查询或分析自己所需的信息报告,或产生最后的数据报表。图书馆还可以根据大数据使用反馈情况,调整自己的数据收集和处理,以便更好地利用图书馆大数据,提高图书馆的服务。因此,大数据环境下高校图书馆数据管理架构构建如图1所示。
4 总结
高校图书馆是大数据的重要“阵地”之一。大数据可以帮助图书馆提高服务质量,实现更优的个性化服务。面对高校图书馆各类不同类型的数据,首先要对图书馆的海量数据进行有效数据管理。本文基于此试图构建大数据环境下高校图书馆数据管理架构,希望为图书馆的发展带来一些提升。当然大数据时代中,图书馆如何更好地进行数据管理和数据应用,更多还是要同实际情况相结合。大数据正逐渐在各行各业实践中,这个背景下高校图书馆更应做好充分准备,努力发扬大数据带来的技术优势,提高自身的发展。
参考文献:
[1] 杨绎.基于文献计量的“大数据”的研究[J].图书馆杂志,2012,31(9):29-32.
[2] 黄永勤.国外大数据研究热点及发展趋势探析[J].情报杂志,2014(6):100-104.
[3] 薛辰.国际大数据研究论文的计量分析[J].现代情报,2013(9).
[4] 李贺,袁翠敏,李亚峰.基于文献计量的大数据研究综述[J].情报科学,2014(6).
[5] 百度百科. http://baike.baidu.com[2015-7-30]
[6] 中国云计算技术与产业联盟理事长吴基传致辞.http://tech.163.com/13/0605/08/90JHL2SI00094NOL.html
[EB/OL].[2015-8-5].
[7] 曹刚.大数据存储管理系统面临挑战的探讨[J].软件产业与工程,2013(6).
[8] 程莲娟.美国推进大数据的应用实践及其有益借鉴——基于图书馆视角的分析[J].情报资料工作,2013(5).