图书馆大数据模型
2017-04-07魏尔啸
摘要:本文在对大数据定义与特点的基础上,重点对大数据在图书馆的应用进行了探讨。目前大数据的研究和应用仍处于一个起步阶段,图书馆作为信息资源收集整理及为社会提供信息服务的资源中心,在大数据研究、应用方面十分薄弱,在大数据的服务竞争中,图书馆如何发挥自身优势,突破技术劣势,为己所用是本文的讨论重点。
关键词:大数据;图书馆;知识服务
“大数据(Big Data)”是继Web2.0之后和云计算一起被媒体最关注的词汇组合,并正在引起信息科技领域越来越多的关注热潮。IBM、EMC、Oracle、Microsoft等IT巨头几乎都已投身到了大数据的软硬件技术整合、大数据信息处理的技术供应研究开发之中,力求在新一轮的信息竞争环境中占据主动,并抢得战略先机与技术制高点。图书馆作为社会的知识信息服务中心,使得社会对图书馆所提供的服务要求更为苛刻,潜在的知识挖掘、知识评价、数据分析等增值服务需求已经开始显现。利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化数据信息,寻找他们的隐形诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制已成为大数据时代图书馆提高服务体系的组织水平、推动行业发展与制度建设的捷径之一。
一、大数据概念
(一)大数据的定义
维基百科的定义是:“大数据(Big Data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”[1]也就是说,由于所涉及的数据规模巨大,以至于利用目前的主要软件工具,在可允许的时间范围内,达到查询检索、下载获取、加工处理、数据管理,并有效的整理成为对用户有用的数据资源已经变的非常困难。美国互联网中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据都是近几年产生的。大数据时代最大的转变就是人们放弃对事物因果关系的渴求,取而代之的是更加关注相关关系,对人类的认知方式和与世界交流的方式都提出了全新的挑战。在大数据时代,数据就是资产已经成为人们的共识。
(二)大数据的特点
分析员道格.莱尼(Doug Laney)曾在麦塔集团(META Group,现为高德纳)的一份研究报告中指出大数据的三个特点:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”。另外,以IDC为代表的业界认为满足“4V”(Volume、Velocity、Variety、Value,即种类多、流量大、容量大、价值高)指标的数据才可称为大数据。但无论是“3V”还是“4V”,其本质都是对大数据中的“大”的理解与阐释。
大数据的单条数据并无太多价值,但汇集庞大的单条数据集则蕴含着巨大的财富,将已有結构化(如关系型数据库、面向对象数据库中的数据),半结构化数据与非结构化数据(如文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等)进行融合和分析后,会挖掘出很多新的业务信息。
二、图书馆大数据
(一)图书馆的大数据类型
进行大数据分析首先要拥有大数据,图书馆本身拥有的大数据主要包括:
1.图书馆的数字化资源。经过数字图书馆的多年建设,图书馆拥有大量的数据库资源、电子书资源纸质图书电子化的数字资源,以及各种音频、视频资源,这些资源在总量上很大而且增长速度也比较快,它们是图书馆大数据的重要组成部分。[2]
2.社交网络时代出现的大量非结构化数据。在门户网站、搜索引擎时代之后,社交网络时代已经到来。随之而来产生了大量的非结构化数据,通过大数据分析技术可以将这些数据进行收集分析,得出读者的兴趣偏好。伴随着社交网络、移动图书馆、物联网等概念的兴起,今后来自读者的各种信息将越来越多,我们将在读者使用图书馆服务的过程中收集读者的地理位置、搜索历史、搜索时间等信息,这些很多是非结构化和半结构化的数据,挖掘读者偏好,为其提供最有用的信息。
3.读者使用历史所形成的非结构化数据。在图书馆里不管是各种数据库资源,还是纸质资源,以及各种学生的信息都是我们的大数据。但是这些并不是大数据的全部,只是其中的一部分。比如他们对于数据库的检索历史、浏览历史、数据使用方向及使用方法等信息。伴随着移动互联时代的到来,将从手机、平板电脑、笔记本等诸多移动终端中收集到读者的个人信息、方位信息、浏览信息等各种不同的数据,这才真正构成了图书馆完整的大数据采集。
(二)图书馆大数据的几个主要来源
1.RFID射频数据:RFID嵌入到图书馆相关资源中,实现资源的跟踪及分析。比如图书芯片和借阅卡芯片的相关数据,来优化图书布局和馆藏结构。什么资源使用的多,哪个时段流通更频繁,资源的处理效率如何等,都对图书馆资源的利用率和采购渠道至关重要。
2.传感器数据:通过分布在图书馆不同位置或环境中的传感器对所处环境和资源进行的感知,不断生成的数据,由于长时间积累所产生的数据量也非常巨大。结合物联网技术,可以提升自动化设备的智能化处理能力。
3.社交网络交互数据:随着社交网络应用的逐步推广,社交网络所产生的数据量远远超过以往任何一个信息传播媒介,毫无疑问,它将会成为未来很长一段时间内,大数据最为主要的来源之一。该渠道可以更多地结合第三方商业数据接口,来完成数据汇集。
4.移动互联数据:移动互联网及移动互联技术的不断完善,使得图书馆可以通过WIFI定位、流量监控等方式,灵活获取移动电子设备、人员、资源、用户行为和需求等信息,并对这些信息进行实时分析,从而帮助我们开展有效的智能辅助决策。[3]
三、大数据应用
(一)实现针对不同读者的个性化服务
图书馆读者具有人数众多、年龄不同、专业方向不同等特点给图书馆提出了不同的个性化要求。而大数据的应用就在于加强用户研究与交互数据的利用,并基于对用户数据的分析,从中提取有价值的信息,建立用户模型,针对不同用户提供针对性服务。[4]图书馆里大量的用户行为产生的数据,如用户查询书目产生的OPAC日志,用户流通日志,电子资源检索浏览下载产生的日志及流量数据,这些数据中除了用于记录读者的个人信息外,还隐藏着许多重要的信息,因此可通过对这些数据进行挖掘分析、知识发现、只能代理等技术,描述用户的行为,准确定位读者需求,向读者提供主动式推送服务,满足其个性化的智能服务。
(二)提供研究动向以及研究热点的变化
图书馆可以通过对读者数据的收集汇总,进行大数据分析,可以在宏观上分析相关领域科研热点的动向,为科研人员、科研部门的决策者服务,让他们更快的洞察最新的科研走向,以及相关研究领域其他科研人员的研究进展。通过大数据的分析,提升图书馆在科研领域中的作用,与此同时为科研人员提供更多有价值的研究策略信息。
(三)为采编部门和数据库采购部门提供资源评价意见
文献资源是图书馆的重要组成部分,如何合理采购纸质资源和电子资源,如何能够让购买的资源更好地满足读者的需要,让图书馆更有效率地服务读者一直是图书馆面临的问题。通过检索条目信息中对搜索关键词的搜集与统计等大数据分析,可以有效评估读者对各种资源的使用情况,并且通过读者平日访问历史的收集,可以预测出读者关注的热点,这为有效评估图书馆已有文献的质量以及读者对未购买文献的需求提供了支持。
(四)用户流失分析及价值分析
在当今信息技术发展的洪流中,价值质疑、技术障碍、管理僵化、人员队伍适应变化敏感性低等重大问题已经严重困制约着图书馆的发展,图书馆的社会地位与存在价值正在不断的弱化,用户正在向其他文化信息机构流失。我们通过大数据分析能够让图书馆清晰把握用户的信息需求及意愿,分析出用户的信息行为及其知识应用能力,有利于图书馆对用户的信息需求以及信息行为偏好进行预测,架构以读者个性化服务为核心的信息服务体系。[5]大数据技术加强了图书馆对于读者研究与交互数据分析、利用的能力,从海量数据中挖掘有用信息,建立用户档案与模型,在精确划分读者类别的基础上,进行跟踪服务、知识关联服务、先觉性服务,提高用户体验,增加图书馆信息服务的竞争力,从而留住用户。
(五)建立新型知识服务引擎
技术引擎是图书馆信息服务的技术核心,如何利用大数据技术构建图书馆的新型知识服务引擎,将会是未来几年内图书馆情报领域信息技术研究的主要内容。[6]新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、知识服务社区实体(包括用户及资源)行为智能分析引擎、用户知识需求预测引擎、及多维度信息资源获取、组织、分析及决策引擎等。例如美国Hiptype公司将大数据分析技术来分析电子书读者阅读习惯和喜好,这也是国内外图书情报领域首例利用大数据技术构建知识服务社区实体(包括用户及资源)行为智能分析引擎。
(六)建立知识服务及业务建设的风险模型
通过分析资源,包括知识资源、网络资源、信息资源、软件资源及服务资源等的实时状态来预测未来可能出现的故障及數据资源可能出现的突变与波动,帮助图书馆预先制订好应对措施、策略以及图书馆的各类风险评估模型。同时,如前所述,传感器数据也是未来大数据的主要来源之一,此类数据将为图书馆获取大量的图书馆人文环境、自然环境以及技术环境的多维度数据,借助大数据技术分析、预测建立有针对性的各类图书馆风险评估模型,实现图书馆管理的优化升级,保持图书馆稳定的运行状态。
四、概念转变
数字信息的爆炸式增长催生出“大数据”概念,正席卷整个IT及其相关行业,大数据已经深深嵌入到了图书馆情报工作当中。然而目前图书馆相关大数据的理论研究与方案应用仍处于一个初级阶段,有大量基础性的构架问题有待解决。图书馆作为信息资源收集整理及为社会提供信息服务的资源中心,拥有丰富的资源优势,然而在今后大数据的云服务竞争中,图书馆只有突破现有技术屏障,才有可能避免被新型信息模型边缘化。
【参考文献】
[1]大数据.维基百科.2014-07-25.http://zh.wikipedia.org/wiki/大数据.
[2]杨海燕.大数据时代的图书馆服务浅析.图书与情报,2012(4).
[3]樊伟红等.图书馆需要怎样的“大数据”.图书馆杂志,2012(11).
[4]韩翠峰.大数据时代图书馆服务创新与发展.图书馆,2013(1).
[5]王捷.大数据时代下图书馆开展信息服务的对策.现代情报,2013(3).
[6]王天泥.大数据视角下图书馆的发展对策.图书馆学刊,2013(3).
作者简介:魏尔啸(1987—),河南省图书馆,助理馆员。