基于大数据技术的图书馆创新发展研究
2017-03-30居鑫磊芮文军
居鑫磊,顾 勇,芮文军
(常州工学院 图书馆,江苏 常州 213022)
基于大数据技术的图书馆创新发展研究
居鑫磊,顾 勇,芮文军
(常州工学院 图书馆,江苏 常州 213022)
随着大数据技术的快速发展,图书馆不可避免的面临大数据时代的冲击.本文根据图书馆的实际情况,结合大数据技术特点和思维理念,研究大数据在图书馆实际应用中所面临的问题,如何以分层架构的形式,分阶段构建大数据在图书馆的实际应用,助力图书馆为读者提供满意的个性化服务.
图书馆;大数据;分层框架;个性化服务
1 引言
近年,大数据技术得到了飞速发展,已经参与到各行各业的发展,越来越多的企业依托大数据技术,对原有行业进行了深刻的变革.图书馆作为一个传统上就是数据汇聚的重要场所,更是需要义无反顾的站在大数据技术前沿,来迎接这场革命与挑战.
大数据(Big data或Megadata),指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息.大数据技术则是指在很短的时间里从这些海量数据中,提取出对我们使用者有意义数据的技术[1].
而在经历过之前数字图书馆的发展后,图书馆正面临着馆藏数据资源爆炸式增长,数据种类繁多和有价值信息颗粒浓度小等问题.怎么样让图书馆数据价值得到最大发挥,怎么样为图书馆的建设发展寻找准确客观依据,大数据技术可以给我们提供一种解决方案.
2 图书馆在大数据实际应用中面临的问题
2.1 图书馆需要先具有大数据思维
著名中文搜索网站百度的创始人李彦宏,将百度企业文化和理念总结成29条法则,其中有一条就是“用数据说话”.以往我们通过流程,通过因果联系来考虑事情该怎么做.而在大数据时代,在海量数据的支撑下,在Hadoop体系分布式计算框架下,图书馆工作流程将从简单的量变进化到架构变化的质变,图书馆工作将变成通过数据要答案,从流程驱动转变为数据驱动,如果获取的数据越完整,就越能得到准确的答案[2].改变目前的工作思路,从以往的人找数据转变成数据找人,形成大数据思维,这是大数据在图书馆实际应用的前提.
2.2 图书馆搜集和解析大数据的问题
图书馆通过内部图像采集系统、安防门禁系统、网络流量统计、服务器日志log文件、移动阅读设备、文献信息管理系统用户信息和微信社交软件等各种平台搜集数据,多方面的搜集数据能增加数据的全面性,但是也增加数据处理分析的难度,这些数据除了数量庞大,还有很多非结构化、多维度数据,包含读者个人数据、网络数据、时间数据和空间位置数据等,而且各个第三方厂商数据甚至图书馆内各部门数据之间没有建立数据链,还会产生了许多冗余数据和干扰数据[3].
面临这么多不断增长的复杂多样异构数据,即使近年图书馆的软硬件建设已经得到了很大的提升,但是仍然无法独立处理解析这些数据.所以图书馆可以尝试在某些领域与阿里巴巴和百度等国内一流企业合作,提高自己搜集、整理和解析数据的能力.
2.3 图书馆利用大数据进行资源优化配置的问题
图书馆通过各种途径搜集数据,并通过大数据技术来整理解析,目的是进行资源的优化配置,来为读者提供个性化的服务.
为每一个读者提供有针对性的定制服务一直是图书馆服务工作的努力方向,但是长期以来,受制于各种现实条件,图书馆只能为广大读者提供通用普适的服务.随着大数据技术的出现,在一个可接受成本范围内,图书馆能够提供满足读者需求的定制服务,正在逐渐变得有现实意义[4].
若要图书馆提供的个性化服务让读者满意,必须具备时效性和针对性.时效性就是要图书馆在自身有限的数据分析处理能力上尽可能迅速的处理接收到海量数据;针对性则是要图书馆有效决策满足读者多样化的需求.这两点都需要图书馆对自身资源进行充分有效的优化配置后才能实现.
2.4 图书馆读者数据安全问题
大数据技术记录的大量图书馆读者个人信息,行为数据和阅读个性参数,是读者个人社会信息的重要组成部分,在与第三方厂商进行数据交换和大量数据的交汇存储中,会增加数据泄露风险,所以需要图书馆在使用过程中尽可能的提高防范意识,增加安全手段[5].另外大数据技术在对读者的大量数据进行深入解析中,过程中无意出现的结果还可能会泄露读者隐私,进而影响读者个人信息安全,这也是要工作中极力避免的.
3 图书馆大数据实际应用工作构建
图书馆的大数据实际应用工作可以利用分层框架结构来实施,可以分成图书馆数据工程(Library data engineering)阶段,图书馆数据科学(Library data science)阶段和图书馆决策科学(Library decision science)阶段.
3.1 图书馆数据工程阶段
图书馆数据工程指的是关于数据的基础性工程工作,比如图书馆搜集的数据如何存放,以什么形式存放.目前在大数据领域主流的有Hadoop、Spark和Storm这三大分布式计算系统[6],这三大系统解决了如何可靠的存储和管理大数据的问题.Hadoop采用MapReduce分布式计算框架,并根据GFS开发了 HDFS(Hadoop Distributed File System)分布式文件系统利用将数据块分解并复制多份的方式解决服务器或硬盘硬件故障的问题,让普通服务器组成的集群能提供高可靠性的存储服务.Spark在Hadoop的基础上进行了一些架构上的改良,与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度,但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据.Storm是在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流,但是它不存储数据.在图书馆实际应用中,数据往往是离线的,并且来源复杂,对处理速度的要求不是特别高,Hadoop是目前最适合图书馆实际应用.
然后还要利用数据仓库技术 ETL(Extract-Transform-Load),通过将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端,对数据进行清理和验证工作,将初步搜集来的各种原始异构数据归一化,定义规范的数据格式,把数据过滤,统一了格式,ID和维度后在导入到分布式文件系统中.这是一个非常重要和耗时的步骤,但是只有通过数据工程形成数据的层次化机构和抽象数据概念,我们才能进入下一阶段.
3.2 图书馆数据科学阶段
这一层的作用是利用之前整理好的数据,然后建立具体针对某些问题的数学模型,通过深度学习,让系统自动分析读者借阅数据和行为数据,预测读者使用习惯,将分析结果应用在图书馆工作服务的各个环节.例如通过读者历史浏览和访问借阅记录,自动给读者推荐介绍相关的图书馆资源,可以有效的节约读者时间,提高图书馆资源利用率.目前各种大数据开源社区蓬勃发展,图书馆正好可以借鉴其在商业领域的成熟算法模型,结合图书馆实际,就可以很快建立数据分析模型,进行验证预测并应用到图书馆实际工作中.
3.3 图书馆决策科学阶段
这个是大数据在图书馆应用中产生实际意义的一层,大数据应用通过之前的图书馆数据工程和图书馆数据科学方面的应用,产生各种可视化数据分析结果,目的就是为图书馆决策提供帮助.
首先,图书馆决策在基于读者行为分析的前提下,需要一套设计合理的指标体系,当数据发生较大波动的时候,利用大数据技术合理的对数据进行拆解,从多个版本,多个维度分析数据来帮助图书馆做出决策[7].而且,大数据决策可以解决传统决策中两个问题:
3.3.1 决策依据不足问题
传统图书馆决策中往往会遇到搜集的数据信息不够全面,因而不具备足够的代表性导致数据信息不可全信的问题.而在大数据应用中,有个观点叫“样本即总体”,以前搜集分析的数据,受到技术条件和成本所限,一般是随机抽取部分样本数据,针对样本数据进行分析研究.但大数据不一样,我们可以分析全面数据,甚至可以处理和某个特别读者现象相关的所有数据,而不再依赖于随机采样信息.
3.3.2 数据信息不准确导致的风险问题
传统手段获取的读者行为信息难免会有误差,并且容易受主观因素影响.大数据应用中获得的数据规模非常庞大,以至于可以把数据误差的影响减少到最低,有效的避免了图书馆决策中的隐藏风险问题.
但是图书馆大数据决策只能改进图书馆的服务,而无法创新服务;涉及到读者个性的审美等主观偏好也是无法数据化的,这是目前图书馆大数据决策中无法实现的.
4 结语
2016年5月25日,李克强总理在贵阳出席中国大数据产业峰会暨中国电子商务创新发展峰会时说:“大数据等新一代互联网技术深刻改变了世界,也让各国站在科技革命的同一起跑线上.中国曾屡次与世界科技革命失之交臂,今天要把握这一历史机遇,抢占先机,赢得未来.”
图书馆掌握各种数据搜集手段,云计算和云存储等大数据技术,逐渐开始拥有能够为读者提供个性化服务的能力.但是读者个性化需求在大数据时代发生了快速变化,图书馆服务模式也随之发生变革,这是图书馆无法回避的,图书馆只有把满足读者需求服务与大数据技术结合,建立在图书馆环境下的大数据解析决策体系,学习大数据思维,才能构建真正的图书馆大数据策略,为读者提供满意的个性化服务.
〔1〕维克托·迈尔-舍恩伯格,等.大数据时代生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.
〔2〕秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013(2):18-22.
〔3〕谭磊.大数据挖掘[M].北京:电子工业出版社,2014.
〔4〕胡莲香.走向大数据知识服务:大数据时代图书馆服务模式创新[J].农业图书情报学刊,2014(2):173-175.
〔5〕马晓亭.基于情景大数据的图书馆个性化服务推荐系统研究[J].现代情报,2016,36(4):90-94.
〔6〕程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].图书馆学研究,2015(21):66-70.
〔7〕王萍,傅泽禄.数据驱动决策系统:大数据时代美国学习改进的有利工具[J].中国电化教育,2014,330(7):105-112.
G250.76
A
1673-260X(2017)09-0099-02
2017-07-12