大数据视角下党校图书馆信息技术工作的拓展
2019-07-01张云青
张云青
(中共天水市委党校,甘肃 天水741018)
早在1980 年,美国就有学者提出“大数据”这一概念,然而直到2007 年之后,随着云计算技术的发展,为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,大数据才得以快速发展并广泛应用于各行各业。至今,各个机构都从不同的角度对“大数据”进行诠释和开发。全球知名咨询公司麦肯锡最先提出“大数据”概念:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。需要强调的是:大数据并不仅仅是指海量数据,而更多的是指这些数据都是非结构化的、残缺的、无法用传统的方法进行处理的数据。
“大数据”的本质是基于互联网基础上的信息化应用。电脑实现了数据的“数字化”,让他们易于存储;互联网则实现了数据的“网络化”,让他们自由快速地传输。随着互联网技术的不断发展,加上移动网络和设备的普及,数据以指数级的速度迅猛增长。庞大的数据资源使得各个行业和领域得以量化进程,大数据最核心的作用就是可以通过对进程的量化,实现了“对未来的预见”。
一、党校图书馆应具备的数据性思维
党校图书馆所掌握的数据在规模上还够不上大数据的级别,但数据的积累是一个渐进的过程,“大数据时代”必然会到来,我们必须有意识地培养“大数据思维”:关注数据的价值——对数据进行分析——更深入地挖掘各类关联数据——积累并形成大数据。
(一)关注数据及其价值
多数图书馆人仍习惯于传统工作模式,认为“大数据”还很遥远。其实,很多人已经触碰了数据的经典应用。例如,许多电商平台通过对购买行为等海量数据的记录和分析,提供了“猜你喜欢”等精准推送的信息功能。电商可以通过这些数据研究购买者的需求,图书馆同样也可以研究读者的阅读需求。每一个读者都是一个数据源头,从刷卡入馆到借书还书,每条小数据背后都是真实个体的行为和心理这些客观存在,这些数据一旦积累到一定规模,就可以有效地应用于图书馆的各项工作中,这些价值很多人还没有看到。
(二)提高对数据进行分析处理的能力
对于追求服务更加智慧化的图书馆来说,仅有数据是不够的,成功的关键在于掌握这些数据隐含的洞见。数据分析和预测将会变成一项常规性工作。赫伯特·西蒙指出:“如果能利用存储在计算机里的数据来辅助决策,人类理性的范围将会扩大,决策的质量就能提高。”
图书馆作为信息集散地,数据并不匮乏,匮乏的是工作人员处理信息的能力。大多数人对数据分析的能力尚停留在进行冗余删除、求值等简单操作,离预测分析的目标还很远。数据分析最基本的要求是可视化(直观呈现数据事实的趋势),这就要求分析人员熟悉工作业务及各类分析软件,且具备计算机算法的思维。信息技术部门的工作人员,必须具备这种思维和能力。
(三)增强数据挖掘的意识和能力
大数据是由各个数据、数据库或者数据集合不断累加形成的,数据越多,被采集的范围越广,其价值才可能越大。但是,为了避免陷入“数据丰富,信息贫乏”的局面,图书馆要在传统工作基础上留心很多隐藏数据或关联数据的挖掘。数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息。而关联规则挖掘则是数据挖掘中的一个很重要的课题,即是从数据背后发现事物之间可能存在的关联或者联系。例如,读者在图书馆会留下大量信息,如个人信息、借阅历史等,可以通过对读者借阅数据的关联挖掘,挖掘出各年龄层次、各专业、各学历层次的读者对图书资源的关联规则,得到细分科目之间的联系,以建议或指导读者的借阅行为,提高资源的利用率和提供更加智慧化的信息服务。
(四)相关书籍对数据性思维的概述
《大数据时代》一书中,作者维克托认为数据性思维有如下表现:第一,我们可以分析更多甚至全部的数据,而不是依赖于随机采样。更高的精确性可使我们发现更多的细节。第二,研究数据如此之多,以至于我们不再热衷于追求精确度。适当忽略微观层面的精确度,将带来更好的洞察力。第三,不再热衷于寻找因果关系,而是事物之间的相关关系。
二、图书馆里有哪些数据属于大数据范畴
大数据促使各个行业数据产生的范围、方式和途径发生了深刻的变化。智慧图书馆建设,实际上就是想方设法扩大数据源,形成可分析的海量数据,获得读者行为的预判,从而进行智慧化服务和知识推广。
(一)现有的大数据资源
1、数字化资源。随着文献资源的数字化,图书馆已经累积了各类文献数据库、电子书数据库、馆藏书目数据库和音视频资源。这些数字资源增长迅速、总量巨大,是图书馆大数据重要组成部分。
2、基本用户数据。经过多年的发展,图书馆已积累了大量用户数据,如读者姓名、班级、性别等基础数据,读者在某个时间段的借阅量、到馆次数、借阅状态等行为数据。这些数据虽未达到大数据的标准,但已能成为独立线索开展数据分析。
(二)未来图书领域的大数据
1、RFID 图书射频数据。利用物联网技术,将RFID 标签嵌入到传统纸质资源中,实现图书的跟踪及分析。这些射频数据也是图书馆大数据的主要来源。
2、传感器数据。在未来的智慧图书馆,校园一卡通、图书、借还书终端、门禁系统、电脑和自习桌椅都会植入RFID 标签或传感器,读者在图书馆活动的过程就是与这些物品和环境之间的交流和沟通,就会不断生成各种数据。
3、社交网络交互数据。现在流行的微信图书馆、移动图书馆、网站留言板等都是具有社交功能的拓展平台。随着这些平台的逐步推广,其产生的数据量将超过以往任何一个信息传播媒介,社交网络平台会成为未来图书馆大数据最为主要的来源之一;④移动互联数据。随着移动互联技术的不断完善,图书馆可以灵活获取移动设备上产生的各类信息,并对这些信息进行实时分析,从而帮助我们开展智能有效的辅助决策。
三、大数据视角下信息技术部门工作转型和拓展
党校图书馆在数字化进程中普遍存在“重硬件,轻软件”的建设经历,技术人员仍苦陷于对硬件设备的维护当中,缺乏对数据库建设、数据分析平台或策略的研究开发。在大数据背景下,势必要求信息技术部门和人员首当其冲地改变工作思路和做法,用大数据思维打开工作局面,产生新的思路和解决方案。
(一)关注并学习大数据相关技术热点,跳出传统图书馆资源和数据采集的框架。
如何将大数据相关技术应用并融入到图书馆工作的方方面面,是信息技术部门的人员必须深入思考的问题。以下总结几个与图书馆相关的大数据研究热点和方向:一是非结构化数据的存储和管理技术。非结构化数据包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等。图书馆中非结构化数据日益增加,如何将包括这些非结构化数据的文件进行存储,又能体现文件间的多种多样的关系,这是应用大数据技术必须明确和解决的问题;二是非关系型数据库。大数据背景下,擅长于处理结构化数据的关系数据库已适应不了数字图书馆的发展需要,基于网络应用的非结构化数据库发展非常迅速。非关系型数据库包括:键值对存储,文档存储,基于列的数据库和图形数据库;三是云计算和信息检索技术。未来图书馆的检索技术不能只限于本机构数字资源的检索,必须运用云计算的信息检索技术实现跨平台、跨资源的一站式检索。检索界面也应当通俗易用,且具备更强的功能,如语义检索、自动理解语言的对话式检索、跨语言检索等;四是信息分析技术。数据分析普遍存在的方法理论有:可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理。还有许多定量定性分析工具与技术,如Hadoop、SPSS、CiteSpace 等都应当在图书馆得到充分研究和应用。
(二)研究和建立智慧的大数据综合解决方案
对于图书馆而言,大数据技术仍然是一种全新且未被行业核实的新兴技术,任何一个准备实施大数据计划图书馆,都必须要有详细的技术规划和布局。厄待解决的问题有:第一,现有的网络架构是否能适应大数据时代智慧图书馆的建设;第二,数据中心软硬件将面临巨大压力;第三,图书馆各子系统之间缺乏统一的管理模式和数据标准,大数据资源尤其是非结构化数据缺乏统一的模式标准,数据采集、存储和使用过程也存在着标准不统一、准确性与完整性程度低、数据价值可用性不高的问题;第四,大数据分析工具的效率和可用性也是影响大数据资源开放性和可控性的重要因素;第五,在应用大数据时,如何防止对用户信息的过度挖掘而侵犯其隐私。
(三)增设数据采集和分析岗位,建立智慧服务体系架构。
信息技术部门是图书馆中接收新技术和各种变革的领头人,在大数据时代下,更应改变传统服务观念,主动利用先进技术拓展服务渠道,搭建交互式共享平台。大数据分析是一项比较专业和耗时的技术工作,信息技术部门应增设相应岗位或工作内容,指定专人负责各类数据分析,研究各类适用于图书馆的大数据分析软件和方法。
最易着手展开的工作就是数据的采集和存储。一方面是将小数据逐渐累积成大数据,为将来各项应用做好充分准备;另一方面是借助已有的数据分析手段和研究方法,透过用户信息行为数据了解用户需求的变化特点,细分用户群体,进而有针对性地将数据分析的结果推送到各个服务部门,指导图书馆信息资源建设和信息服务整合,以建立全馆的智慧服务体系。●