大数据时代的图书馆服务浅析
2012-04-29杨海燕
摘 要:大数据与云计算是近两年IT界最为流行的两个关键词,各大IT厂商也都看到了大数据所蕴含的商业价值并展开了一定的产品研发与商业应用。在大数据时代,图书馆的数据处理及服务将会发生显著的变化,从大量的数据集中去分析和挖掘潜在的价值,以便图书馆决策层及时做出相应的建设方案调整将成为图书馆的一大主要业务,图书馆服务也将随着图书馆服务策略的调整而做出服务方式、途径等方面的改变。
关键词:大数据 云计算 数据处理 数据分析 信息服务 图书馆服务 数据挖掘
中图分类号:G253文献标识码: A 文章编号: 1003-6938(2012)04-0120-03“大数据”(Big data)是IT界继“Web2.0”、“数据挖掘”和“云计算”之后近两年最流行的词,大数据革命也正以Apache Hadoop为中心如火如荼的进行着,IBM、EMC、Oracle、VMware和Microsoft等商业机构已看到了在这场革命中蕴含的商业价值,并基于云计算等平台开发了诸如BigInsights产品[1]的数据计算、数据收集等服务。实际应用方面,EMC和VMware已经做出了表率,EMC中国区总裁蔡汉辉介绍说,中信银行在实施了EMC提供的大数据解决方案以后,取得了不错的效益,如中信银行在2011年大概有1200多个营销活动,以前他们举办一个营销活动大概需要两周左右的时间做配置。但是通过运用EMC提供的大数据解决方案后,只需要2~3天就可以配置成功[2]。美国政府也预测到了这场革命中的战略价值,奥巴马政府于2012年3月29日宣布推出“大数据的研究和发展计划”,意在推进和改善联邦政府部门的数据收集、组织和分析工具及技术,以提高从大量的、复杂的数据集合中获取知识和洞见的能力[3],把大数据上升到了国家战略的高度。但对于社会中以知识存贮、利用与开发为己任的图书馆来说,在这个“大数据”时代如何提高海量增长的文献数据处理能力,搜寻新的数据计算、知识发现及信息服务的新途径,是图书馆界学术研究的一大思考所在,而要真正解决这个问题,就要理性的认识“大数据”及其带给我们的环境与改变,逐层分析这些图书馆可以利用的理念、技术与工具,实现图书馆读者信息服务能力的提升,进而推动我国图书馆事业的发展。
1 大数据概述
大数据目前尚没有统一的定义,部分业界专家如《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多的时间和金钱[4]。因此,大数据通常被认为是一种数据量很大、数据形式多样化的非结构化数据[5]。
1.1 大数据的特点
随着对大数据研究的进一步深化,IT界对大数据的特点有了较为全面和统一的认识,即:(1)大数据的种类繁多,并在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成了大量的异构数据;(2)通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态;(3)涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值;(4)数据持续到达,且只有在特定时间和空间中才有意义;(5)通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[5]。
1.2 大数据的应用领域与范围
尽管大数据的概念形成较早,但对其技术的研发还是近几年才发展起来的,从目前来看,大数据技术主要涵盖的领域有可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理等,具体来说,目前主要有包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。技术及应用的不普及与不成形使得大数据的技术门槛较高,因此目前在该领域展开竞争的大都是在数据存储、分析等领域有着传统优势的IT厂商。如Oracle发布了Oracle大数据机、VMware推出了虚拟化架构+云平台的开源项目Serenget、EMC推出了EMC Hadoop等。IBM在大数据领域的优势则较为全面,而机器人“沃森”在人机大战中获胜,更成为IBM为其大数据分析解决方案加分的例证,此外,IBM还研发出了一系列大数据分析计算软件,如基于云端Hadoop的分析软件InfoSphere BigInsights、针对iPad用户推出的全新移动分析应用软件Cognos Mobile、拥有映射功能的全新预测分析软件SPSS Statistics 20.0、全新的后台数据筛选及维护软件InfoSphere Information Server8.7等[6]。对其核心技术如Hadoop的应用也主要是在一些企业的数据分析等领域,如百度的搜索日志分析,腾讯、淘宝和支付宝的数据仓库等。
大数据最典型的另一应用案例是大数据技术在沃尔玛的应用。沃尔玛是最早通过利用大数据而受益的企业之一,早在2007年,沃尔玛就建立了一个超大的数据中心,其存储能力高达4PB以上。通过对数据中心中消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。大数据的另一应用案例就是3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。通过对海洋传感器获得的实时数据进行计算机模拟, NOAA随即便制作出了海啸影响模型并出现在YouTube等网站[7]。我国应用大数据技术的企业当前只是凤毛麟角,目前仅有为数不多的企业正在开展相关的项目建设。如中国联通正在通过采用基于云平台及英特尔发行版Hadoop的大数据解决方案来构建移动通信用户上网记录集中查询与分析支撑系统。这一系统可为企业的客户服务人员提供客户上网记录的快速查询服务,也可为客户本人提供高效的异常大流量上网记录自助查询服务,这将有助于解决流量投诉问题。该项目将在2012年10月结束,届时除了为客户服务人员提供服务外,系统还可以为企业的业务部门提供分析与决策服务,并有望在未来帮助企业更为准确地把握用户偏好,从而让中国联通能更有效地制定市场策略和开发新业务[8]。
1.3 大数据与云计算
大数据常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作,因此对于云计算与大数据的关系,我们可以理解为云计算解决了目前大数据存储及运行的最大问题即提供了基础架构平台,而大数据则以分布式处理等手段应用在这个平台上,云计算的重点在于计算能力,大数据的重点是计算的对象,两者之间是既相辅又互补的。 如果一定要找出云计算与大数据的显著不同之处,那就是两者的应用不同。首先,从概念上来说,尽管大数据须以云作为基础机构才能运营,但云计算改变了IT,而大数据则改变了业务;其次,大数据和云计算的目标受众不同,云计算是卖给信息主管高层的技术产品或解决方案,而大数据是卖给业务层的产品[9]。
2 大数据时代的图书馆数据处理与服务
2.1 图书馆具有了“大数据”特征
随着图书馆信息资源的建设步伐加快及读者服务要求的提高,图书馆在大数据时代已具有了一定的大数据特征。首先,图书馆的数据种类繁多,图书馆的数据资源有所藏文献资源中的纸质纯印本、光盘资源、网络资源、数据库资源等结构化信息,也有日常读者信息、服务信息等非结构化信息,更有图书馆自身建设的相关数据,这些数据的编码方式、数据格式、应用特征即使是一所图书馆内都无法统一,图书馆间更是存在较大差异,并形成了大量的异构数据;其次,图书馆的信息资源总量日益庞大且每天在迅速增长。如至2008年底,CALIS文献数据总量达到180TB[10],至2010年底,国家图书馆数字资源总量已达480TB[11]、全国文化共享工程的数字资源总量达108TB[12],可以说每一所图书馆的资源总量并未达到PB级,但全国总的图书馆数字资源总量却是一个庞大的数据集;再次,随着个性化、学科化等越来越专业、编辑服务的实施与出现,用户的服务要求也日益提高,图书馆必须根据用户的服务信息等数据做出相应的服务策略转变,对大量数据的分析与潜在价值挖掘显得不可避免;第四,图书馆24小时服务、网络服务等新型服务方式的出现,使得用户的服务信息每时每刻都在递增,但对这些数据的分析和挖掘需进行相应环境、条件的限定,如地域、时段、服务群体等;第五,尽管图书馆目前的自动化建设水平较高且进入到了一个新的发展阶段,书目信息、用户信息等都有大量的数据库进行记载与统计,但对这些数据及未进入数据库的数据还需进行异构处理,以得出新的服务发现。
2.2 大数据时代的图书馆数据处理
当前数字时代,图书馆的数据处理主要是将文献资源等进行数字化、网络化、语义化处理,并在此基础上尽力实现用户的最大满意和最大程度利用,数据库建设、语义化建设、服务手段创新无一例外,但在大数据时代,图书馆的数据处理范围、方式、对象、目的等将发生巨大的变化,如根据读者服务数据对读者借阅习惯、爱好等的数据分析,找出新的服务方案、策略。同时,在大数据时代,图书馆的传统业务将向数据分析、数据挖掘方向转移,对大量数据的分析与处理将成为图书馆的主要业务,图书馆资源数据量的扩展、服务质量的提升、服务策略的转变不仅仅是依靠简单如当前的数据共享、丰富资源、创新方式、增加时间等,从大量数据中发现的规律越多、找出的潜在价值越大,图书馆的服务水平等也将提升的越快。
2.3 大数据时代的图书馆服务
技术的改变及用户服务要求的变化推动着图书馆服务的变迁,大数据时代的图书馆服务不管是服务的方式、途径、模式等也都将发生改变,由于图书馆的服务策略是经过大量数据捕获、组织、分析和决策[13]而得来的,因此大数据时代的图书馆服务可能更具有针对性和鲜明性,服务手段、方式等也会随着图书馆服务策略的调整而调整。可以预见的是,在调整文献服务、信息咨询、学科服务等这些图书馆必备的服务策略同时,以信息的处理与服务为优势的图书馆的服务范围及领域将会得到更大的扩展,为社会机构如政府、企业做一定的数据分析服务、数据挖掘服务将会成为大数据时代图书馆的常态服务内容。
3 结语
每一种技术的出现及时代的诞生,都将影响或革新图书馆的服务,用户也会随着社会的变迁而产生更新、更高的服务要求,大数据时代也是如此。目前图书馆现有数据来源多样且庞大、结构复杂等大数据特征会让图书馆的大数据时代更快到来,从大量的数据中去分析潜在的价值将成为大数据时代图书馆的一大主要业务,并且这些业务开展的水平也将决定着大数据时代的图书馆发展水平及方向。本文仅在探讨大数据相关内涵、概念、特点等基础上,简单的对大数据时代的图书馆数据处理业务及服务进行了浅析,但在大数据真正来临之际,图书馆的服务及数据处理还需更多的研究者去做深入细致和可行有效的学术研究与实践探讨。
参考文献:
[1]InfoSphere BigInsights[EB/OL].[2012-05-20]. http://www-01.ibm.com/software/data/infosphere/biginsights/.
[2]亚文辉.借云计算之力 大数据助企业创造价值[EB/OL].[2012-05-20].http://news.ccidnet.com/art/1032/20120827/4202457_3.html.
[3]赛迪智库软件与信息服务研究所.美国将发展大数据提升到战略层面[J].中国电子报,2012-07-17(003).
[4]Big data[EB/OL].[2012-05-20]. http://www.searchcloudcomputing.com.cn/word_5826.htm.
[5]大数据时代的特点[EB/OL].[2012-05-20].http://www.5lian.cn/html/2012/xueshu_0417/32237.html.
[6]IBM:积极推进“大数据”时代革新[J].中国电子报,2011,(22):116.
[7]案例解析:大数据应用和方向[EB/OL].[2012-07-28]. http://www.enet.com.cn/article/2012/0720/A20120720139
303.shtml.
[8]沈建苗.大数据应用:理想照进现实[EB/OL].[2012-08-10].http://www.ccw.com.cn/weekly/cio/ciomethod/htm
2012/20120807_979394.shtml.
[9]CIO:云计算VS大数据 应用各不相同[EB/OL].[2012
-07-28].http://www.enet.com.cn/article/2012/0820/A201
20820152536.shtml.
[10]2008年中国教育信息化十大事件[EB/OL].[2012-06-20].http://www.e-gov.org.cn/xinxihua/news004/2009
01/98561.html.
[11]国家图书馆“十二五”规划纲要[EB/OL].[2012-06-20].http://www.nlc.gov.cn/dsb_footer/gygt/ghgy/
[12]全国文化信息资源共享工程介绍[EB/OL].[2012-06-20].http://www.ndcnc.gov.cn/libpage/gxgc/index.htm/.
[13]对于大数据应用 你准备好了吗[EB/OL].[2012-06-12].http://www.d1net.com/cloud/news/96754.html.
作者简介:杨海燕(1968-),女,枣庄学院图书馆副研究馆员。