浅析“大数据”对图书馆管理的影响
2014-04-10
(商丘医学高等专科学校,河南 商丘 476000)
浅析“大数据”对图书馆管理的影响
杨春玲
(商丘医学高等专科学校,河南商丘476000)
随着大数据时代的来临,社会中的各类数据正以极快的速度增长,图书馆也不可避免地面临着大数据信息浪潮的冲击。大数据对图书管理的影响主要包括:复杂数据计算能力、数据分析由传统向深度挖掘带来的挑战及大数据时代对图书馆基础设施的要求。未来图书管理需从探索数据分析技术与工具、重视基础设施建设和数据收集、提高图书管理的智能化程度等几个方面发展。
大数据;结构化;非结构化;图书馆
“大数据(big data)”是非常“时髦”的概念,在维克托·迈尔·舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据是指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[1]39。我们通常所讲的大数据指的是所涉及的数据规模巨大到无法通过目前日常所用的数据分析工具,在短时间形成可利用的有价值的信息数据。
“大数据”源于全球知名咨询公司麦肯锡,之后逐步出现在各类媒体。真正风靡全球,成为时代“宠儿”是在近几年。随着智能手机、互联网的普及和wifi等无线技术广泛应用,社会中的数据量程几何级增长,而伴随着“云时代”的来临,海量数据的计算和分析成为可能。所以,诸如IBM、oracle、惠普、腾讯、百度等一大批国内外企业加入了大数据研究应用的行列,通过收购与大数据相关的软硬技术实现大数据的技术整合,力求在以云计算为基础的大数据时代取得更加有利的竞争地位和竞争优势。
图书馆所在的知识服务领域也被迅速卷入大数据的浪潮中。由于知识传播与利用形式的不断变化,各种新技术机制在知识创造、组织、传播、和应用中扮演着愈加重要的角色[2]。本文主要探讨在大数据背景下大数据的基本特征、给图书馆管理带来的影响及解决的主要方式等。
一、大数据的基本特征
IT界通常用4V(即Volume、Variety、Value、Velocity)来概括大数据的特征,拥有这四种基本特征的数据可称之为大数据。
(一)数量巨大(Volume)
截至2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍[3]。
(二)类型繁多(Variety)
数据通常被分为结构化数据、半结构化数据和非结构化数据。相对于传统的以文本为主的结构化数据,网络日志、音频、视频、图片、地理位置信息等半结构化、非结构化数据越来越多。同时,近几年出现的微博、微信等可通过移动互联设备使用的电子交往形式使数据量和数据种类更加复杂化。
(三)价值不高(Value)
价值密度的高低与数据总量的大小成反比。以社会中常见的监控录像为例,一天的监控记录,有用数据可能仅有一二秒。如何将已有的结构化数据、半结构化数据及非结构化数据进行整合、分析,挖掘出更多有价值的信息,并通过强大的计算能力迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
(四)要求高速处理(Velocity)
这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是生命。
二、图书馆大数据的主要来源分析
根据大数据的基本特征,经笔者分析,图书馆知识服务领域的未来大数据的来源主要有RFID射频数据、传感器数据、社交网络和移动互联数据等几个方面。随着图书馆数字技术的不断提高,RFID将不断推广,这将是未来图书馆大数据的主要来源之一;由图书馆中的传感器感知生成的数据,长时间积累后也将产生巨大的数据量;社交网络已广泛应用于社会各个方面,逐步成为人们交往的主要形式,其所产生的数据量远超以往任何一个信息传播媒介,由其生成的数据量是不可估量的;移动互联网及移动互联技术的不断完善,使得图书馆可以灵活获取移动电子设备、人员、资源、用户行为和需求等信息,并对这些信息进行实时分析,从而帮助我们开展有效的智能辅助决策[4]32-45。
三、大数据对图书馆管理的影响和挑战
(一)海量数据处理考验图书馆计算能力
大数据时代背景下,各类数据量迅速增长,数据产生的方式、范围发生前所未有的变化,人们在社会中的各类行为都产生了大量的信息数据,信息数据的组成结构、格式类型、存在形态等都更加复杂。图书馆要对上述复杂的数据进行应用、存储,将具有很强的挑战性,不仅仅涉及云计算、大数量级数据存储等技术问题,还可能促发图书馆服务模式、资源建设模式、管理模式与发展模式的转变。
(二)数据分析方式转变带来的挑战
随着图书馆信息化程度的提高,以互联网信息搜索、查询为基础的知识服务逐渐被更多的图书馆所采用。但不管是简单的信息服务,还是结合了信息检索、组织、分析等高级业务服务,都可归纳为就数据而进行的服务。大数据时代背景下要求图书馆不仅需要通过结构化数据了解客户需求,也需要大量的非结构化数据、半结构化数据去挖掘、预测和分析当前和未来的用户需求,社会大众的需求也将随着不断变化的个性化的高满意度服务出现而对图书馆的服务呈现出明确和迫切的需求。满足用户的需求,提供复杂数据的处理也将成为大数据时代图书馆的发展方向,如何处理好数据分析,将直接影响图书馆的生存与发展。
(三)大数据对图书馆基础设施提出更高的要求
半结构化及非结构化数据的迅速增加,导致数据存储、计算规模越来越大,其成本急剧上升。很多知识服务机构出于成本的考虑将应用由高端服务器转向中低端硬件构成的大规模计算机集群[5]166-171,从而对支持非结构化数据存储及分析的基础设施提出了很高的要求。
四、大数据时代图书馆管理发展方向
(一)探索利用数据分析技术与工具
对图书馆来说,在大数据时代要想在激烈的市场份额竞争中争得一席之地,避免边缘化,开展必要的大数据分析服务显得必不可少。图书馆开展的大数据分析服务业务,主要可以有以下几种:首先是图书馆自身建设所需的大数据分析。这类分析一般以图书馆的现有数据为对象进行分析,如读者的借阅方式、行为爱好等,是一种对现有资源的分析与挖掘;其次是客户即读者所需的大数据分析。这类分析业务类似于当今图书馆为企业等客户群体所做的信息情报参考、竞争情报分析,但也有着很大的区别,如对于分析对象数据的不同、分析手段的不同、分析目的不同等,这类分析业务所依靠的大量数据可能并非图书馆所拥有,从而成为限制该项业务发展的瓶颈,如何解决此类服务的数据问题是突破该瓶颈的关键。麦肯锡发布的《大数据:创新、竞争和生产力的下一个前沿领域》报告中首次提出了“大数据”的概念,对大数据的分析技术与工具进行了列举,如目前已为广大图书情报研究者所熟知的聚类分析、数据挖掘、网络分析、可视化分析、数据融合与数据集成等,特别是聚类分析、可视化分析与数据挖掘技术。但这些现有的研究目前仅仅只是针对结构化数据和有限数量的关键词进行聚类分析、共现分析等,并不能真正挖掘大量负责数据的存在与表现形态,更不能通过这些分析去预测未来的可能发展趋势。当然,大量网络社交等信息行为产生的大量非结构化数据、半结构化数据也让许多学者开始思考去采集和利用这些信息,如苏玉照等人[6]66-70就认为如果能够采集到Web日志的数据,就能很好地满足发现关联规则、内容分类和用户聚类的需求,从而能提高个性化推荐的精度,进而对定制Web日志的数据模型、过程及方法进行探索。
(二)重视基础设施建设
大数据时代,图书馆的核心竞争力不再仅是文献数据信息的竞争,各类形式的海量数据以及对海量数据的分析、挖掘才是今后图书馆之间竞争的核心因素。因此,要跟上大数据的脚步,必须完善信息收集的基础设施建设,加强各类信息资源的收集将成为图书馆资源建设的大方向。图书馆首先要明白“数据即生命”,解决数据存储问题。大数据时代对于图书馆的数据存储量要求极高。早在2007年,沃尔玛就通过对消费者的购物行为等非结构化数据进行分析,创造了“啤酒与尿布”的经典商业案例[7]127。这样的经典案例是通过对海量的多类型数据收集和分析得到的。因此,图书馆要掌握读者用户、馆员乃至社会服务群体等的信息,既要有当前通用的数据记录中的个人身份、借阅记录等结构化数据,还要有存储信息行为、搜索方式、行为痕迹等非传统数据,这些都需要通过基础设施的建设来支持。除此之外,图书馆还必须解决数据计算和数据分析问题。要积极利用“云计算”技术,搭建图书馆的云计算平台,解决图书馆自身海量数据的存储及运算能力与大数据对存储能力的高要求之间的矛盾。
(三)提高图书馆服务的智能化程度
大数据背景下的图书馆服务的智能化程度也将达到一个新的高度。图书馆应用智能化技术进行自动的高级、复杂的数据收集及处理工作,既能在一定程度上节省大量的人力物力,也能解决人工可能无法实现的工作需求,如对海量信息数据的智能抓取、关键词抽取等,使得节省下来的大量人力去研究图书馆建设的策略与更进一步的智能化投入。其次,从读者来看,服务内容、手段的智能化程度提高与智能化技术、工具、平台的服务实践,所需的图片、视频、文本等信息将能轻易获取,个体的信息如社交信息、生活数据等大量的非结构、半结构化数据也都能为图书馆的智能化决策提供分析参考。再次,从智能化服务中的知识流通来看,图书馆服务智能化程度的提高不但有利于知识从单个主体拥有向多个主体拥有的流通与传播,更利于隐性知识向显性知识的转变,也有利于知识的发现、挖掘与组织[8]81。
[1] 维克托·迈尔·舍尔维恩,肯尼斯·库克耶 .大数据时代[M].杭州:浙江人民出版社,2013.
[2] College of Nursing:Curriculum Support.http://www.ahsl.arizona.edu/curriculum/nursing/.2011-10-17(04).
[3] 百度百科http://baike.baidu.com/view/9424571.htm.
[4] 覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1).
[5] 张兴旺,李晨晖,秦晓珠.构建于廉价计算机集群上的云存储的研究与初步实现[J].情报杂志,2011,30(11).
[6] 苏玉照,牛晓太,赵 妍.提高个性化推荐精度的定制Web日志方法[J].图书与情报,2011(5).
[7] 高 勇.啤酒与尿布:神奇的购物篮分析[M].北京:清华大学出版社,2008.
[8] 韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1).
[责任编辑袁培尧]
2014-05-08
杨春玲(1969- ),女,河南商丘人,商丘医学专科学校图书馆馆员, 主要从事数据管理研究。
G251.4
:A
:1671-8127(2014)06-0119-02