大数据环境下高校图书馆创新服务初探
2016-05-14符雅诺
符雅诺
摘要:文章通过大数据这一概念的阐述和分析,结合行业对大数据的应用,引出在大数据时代背景下,高校图书馆应分析挖掘收集到的结构化、半结构化与非结构化数据中的重要信息,解读其中的关联性,整合关联信息,预测服务方向,是图书馆未来创新服务的重要发展趋势。
关键字:大数据;图书馆;服务
全球知名咨询公司麦肯锡(Mckinseyand Company)于2011年5发布了《大数据:创新、竞争和生产力的下一个前沿领域》报告,首次提出了“大数据”这一概念,并在报告中指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。”[1]2012年的美国总统竞选期间,奥巴马的竞选团队利用大数据来分析预测选民的结构组成、政治需求、社交关系、行为特征、生活习惯与兴趣爱好,制定出基于大数据驱动的资金筹集和竞选决策,并最终获得竞选胜利。之后奥巴马政府宣布推出的“大数据的研究和发展计划”,该方案计划投资两亿多美元,在美国国家科学基金、美国国防部等六家政府部门协作下,大力推动及改善与大数据相关的采集、组织、分析、决策工具及技术[2]。
从提出到推广应用,经过这几年的发展,大数据的研究与应用已经渗透到全行业的各个方面,大到政策的制定,小到商品的销售推广,都与大数据的运用密切相关。大数据时代,如何有效利用大数据来发展图书馆的业务也是这两年的热点前沿。重视分析结构化数据,更深层的挖掘非结构化、半结构化数据,整合关联信息,预测服务方向,是图书馆未来创新服务的重要发展方向。
一、大数据的特征及应用
1、大数据的四种特征。大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”技术上,存储数据的大小达到PB级或EB级的海量数据我们都称之为“大数据”。但显然,数据“大”不等于“大数据”。大数据不是对数据规模的定量描述,而是一种在类型繁多、数量庞大的多样化数据中进行的快速信息提取的技术和思维[3]。
业界通常用4个V(即Volume、Variety、Velocity、Value)来概括大数据的特征:①数据体量巨大(Volume):数据量巨大,数量单位从TB跃升至PB,甚至EB级别,传统的存储与计算已经无法处理呈指数级别的数据增长速度;②数据类型繁多(Variety):传统数据管理流程无法处理异构和可变的大数据,这些数据可能具备结构化、半结构化和非结构化属性,如访问日志、网络检索历史记录、Email、社交媒体、音频视频、和传感器数据等,甚至包括随时间演变、不一致的和冲突的数据格式;③处理速度快(Velocity):这是大数据区分于传统数据挖掘的最显著特征。数据即时生成,同时要求按需提供交互式的、实时或准实时的数据分析,而数据分析的新趋势,则是超越常规数据分析模型的深度分析需求的增长,因为用户不仅仅需要通过数据了解现在发生了什么,更需要利用数据及时地对将要发生什么进行预测;④价值密度低(Value):有价值的数据需要从海量的非结构化与半结构化数据中挖掘,并且如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下须臾解决的难题[4]。
2、大数据的商业应用。大数据最开始就是伴随着经济增长与互联网云计算技术的发展应运而生的,就如麦肯锡报告里所说“海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。大数据最直观的运用也是在商业智能和市场营销这两个方面。前期数据的抓取和信息分析关联预测,为后期的商业决策及商品销售提供了最有效的方案。阿里巴巴旗下的淘宝网就是大数据的“资深玩家”。我们可以发现,不同人群打开淘宝网页所看到的广告是不一样的,关注养生的中老年用户看到的保健品广告居多,而爱美的女性看到的服饰、护肤品居多。这就是因为用户在淘宝上每一次点击、浏览都会留下痕迹,这些痕迹就是他们数据的来源。结合用户的搜索、购买历史,根据用户的地域性、年龄段,来分析用户的购买习惯,并且推测出用户的购买需求,由此进行准确的有针对性的广告投放,已期达到收益最大化。现如今,大数据的应用已经深入到社会生活的每一个角落。对图书馆来说,在大数据时代要想在激烈的市场份额竞争中争得一席之地,避免边缘化,开展必要的大数据分析服务也显得必不可少。
二、大数据背景下图书馆的创新服务
随着社会信息化进程的加快, 国内高校图书馆基本实现了以互联网为基础的信息化建设,以互联网信息搜索、查询为基础的知识信息服务已经成为图书馆服务体系中不可或缺的一部分。大数据时代的高校图书馆依旧以互联网为基础,服务模式将从数据信息的提供转变为对数据的挖掘。利用大数据技术去挖掘、识别、组织与分析隐含在用户行为中的结构化、非结构化数据与半结构化数据信息,寻找他们的隐性诉求进而改进图书馆的服务,也使高校图书馆能够找到更好的服务模式面对未来的挑战[5]。
1、数据信息的收集。 大数据时代的高校图书馆服务所需的数据量也是海量的,当中既有当前图书馆正在建设的文献资源、数字资源、网络资源等结构化数据,也有目前图书馆还无法进行或暂时没有建设的半结构化、非结构化数据,如大量的用户信息行为数据,这些还未完整收集的用户数据将极具价值。用户查询书目产生的OPAC日志,借还书产生的流通日志,检索浏览下载电子资源产生的日志数据,访问产生的流量数据及各种社交网络等[6],这些数据不但记录用户的个人信息,还隐藏用户的阅读习惯、偏好,通过对这些数据进行挖掘提炼,描述用户的行为,准确定位用户的阅读需求。
2、数据的关联与分析。高校图书馆开展的大数据分析服务业务,主要基于以下两个方面:图书馆自身建设所需的大数据分析。这类分析一般以图书馆的已有数据为对象进行分析,如读者的借阅记录、阅读偏好等,是一种对现有资源的分析与挖掘。对这类数据进行深层次分析,挖掘其潜在的关联性,可以对读者需求发展趋势进行准确的预测。用户所需的大数据分析。这类分析业务主要服务于学科教学与学术研究。其依靠的大量数据可能并非图书馆所拥有,需要加强与院系之间的沟通与合作,从被动的角色转变为主动的信息提供方。
3、图书馆服务的数据化、智能化。未来图书馆所提供的服务是基于大数据的智能化服务。图书馆根据所收集到的用户阅读行为和社会关系数据,准确分析、预测未来读者阅读需求和行为发展[7],向读者主动提供信息推送服务,满足其个性化的智能服务。图书馆降低运营成本和服务模式复杂度的同时,还提高服务效率和用户满意度。
4、应用案例——澳大利亚“图书馆立方”项目简述[8]。2009年,卧龙岗大学图书馆(University of Wollongong Library,简称UWL)与该校绩效指标管理中心(PerformanceIndicator Unit,简称PIU)合作开发了“图书馆立方”(Library Cule,简称LC)项目,将学生的图书馆使用记录与PIU已有的数据库相关联,一方面评估图书馆在教学活动中的影响和价值,另一方面也希望通过收集反馈信息以扩大图书馆信息资源的影响和提高图书馆的价值,同时为学校的教学政策制定提供数据支撑。
工作人员通过“图书馆立方”的数据分析发现,卧龙岗大学学生的学习成绩与其利用图书馆信息资源(电子或纸质资源)的情况密切相关,使用图书馆电子资源的时间越长,借阅馆藏次数越多的学生,其学习成绩可能越好;或者,学习成绩越好的学生可能越长时间地使用图书馆的电子资源或更多的次数的借阅馆藏。这充分体现了高校图书馆的重要性和价值创造作用。
工作人员分析数据时发现,图书馆纸质馆藏和电子信息资源与学生成绩之间的关系呈正比的同时,也存在一定的差异。分析其原因,主要有以下两方面因素。
首先,2010年卧龙岗大学有接近30%的学生没有借过 1 本书,而没使用电子资源的学生只有8%;其次,馆藏借阅次数最多和使用电子资源时间最长的学生平均分数之间差别较大,且它们与相对应的从不借阅馆藏或使用电子资源的学生的平均分数之间的差距分别是 11分和19分。
这从另一个侧面反映出随着信息技术的不断发展人们信息使用习惯的变化,即电子资源比传统的纸质资源得到了更广泛和便利的使用,这为图书馆的信息资源建设传递了重要信号。
上述研究表明,一方面“图书馆立方”项目的开展非常有利于图书馆向学校管理委员会和其他上级机构很好地展示其为学校的教学活动创造的价值;另一方面也获得了一些预期之外的科学结论(如性别、年龄、成绩等社会变量与图书馆用户行为之间的关系),进而为图书馆未来的推广活动提供准确的细分目标群体,以提高活动的针对性和执行效率。
三、结语
数字信息时代带来的变革已席卷了整个IT相关行业,大数据的相关技术与思维也已经改变了许多行业的未来。同时,大数据的运用也已经渐渐影响到高校图书馆的服务模式和发展思路。服务是图书馆价值体现的核心,也是其存在的价值与意义所在。新的时代,如何更好的利用新的技术,提高图书馆的服务水平,提升图书馆的核心竞争力,将是日后我们应该更多思考的内容。
参考文献
[1] Big data: The next frontier for innovation,competition,and productivi-ty.http:// www.mckinsey.com/Insights/ MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_ innovation.2012.08.01.
[2] The White House.Big Data Across the Federal Government[R/OL].[2012-8-10].http://www.whitehouse.gov/ sites/default/files/microsites/ostp/big_ data_fact_sheet.pdf.
[3] 韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2013(5):37-40.
[4] 樊伟红,图书馆需要怎样的“大数据”[J].图书馆杂志2012,30(11),68.
[5] 张晓林,李麟,刘细文,等.开放获取学术信息资源:逼近“主流化”转折点[J].图书情报工作,2012,(9):42-47.
[6] 朱静薇.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5),11-13.
[7] 江波,覃燕梅.掌上图书馆、手机图书馆与移动图书馆比较分析[J].图书馆论坛.2012(1),69-71,88.
[8] CoxBL,JanttiMH.Capturing Business Intelligence Required for Targeted Marketing, Demonstrating Value,and Driving Process Improvement[J].Li brary&InformationScienceResear ch,2012,34(4):308-316.