大数据环境下应用型本科院校图书馆建设的探讨
2017-06-02晏伯武
晏伯武
摘要:本文探讨了应用型本科院校图书馆的特点,综述了大数据相关技术,大数据来源,及其图书馆在新的环境下的发展方向,并对其进行了展望。
关键词:图书馆;大数据;云计算
中图分类号:TP39 文献标识码:A 文章编号:1007-9416(2017)04-0230-02
1 应用型本科院校图书馆的特点
新建应用型本科院校大都是在原来高职高专院校的基础上于2000年前后升格为本科院校的,其专业建设学科建设等方面较新,注重在学术、工程基础上的强调技术和应用。图书馆作为现代高校的科研、教学、图书馆三大块之一,得到较好的发展和建设。但在资金方面存在不足状态,馆舍、图书、电子资源建设和其发展速度相对滞后。在另一方面,现今的情况是相关资源增加了,尤其是电子资源适应新的环境增加更显著,互联网得到较好的运用,故图书馆的借阅量了出现下滑之势。尤其是随着信息技术,物联网,大数据,云计算技术的发展下,如何跟上信息技术发展地方本科院校图书馆成为研究实践的重要内容。互联网的出现呈现取代传统广播电视报刊传统的作用之势,如何在“互联网+”的环境下发展应用型本科院校图书馆建设,值得研究。” 调查结果表明2010年起,国民对数字阅读方式的接触率持续上涨,2010年为32.8%,2011年为38.6%,而2012年为40.3%[1]。
传统的图书馆的功能主要体现为“藏、借、阅、管”,而由于网络、无线网、移动终端的应用,现今图书馆管理模式发生相应变化,追求在任何地点、任何时间舒适地使用图书资源。高校图书馆的发展确立了以用户为中心"以数据为根本"以图书馆为枢纽的大数据研究理念[2]。
2 大数据及其相关技术
2.1 大数据
大数据是信息技术继PC,互联网,WEB1.0,移动通信,WEB2.0之后的第五次浪潮,2012年被认为大数据的起始分水岭年。图灵奖获得者Jim Gray提出的“新摩尔定律”:“每18个月全球新增信息量是计算机有史以来全部信息量的总和”,已经得到验证。大数据的信息量大,应当是达到PB级以上。而对于大数据的定义,比较典型的描述是由NSF(美国国家科学基金会)提出的:大数据是指“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。大数据的特点主要有4V,如图1所示:即Volume(大量),在2011年,全球的数据总量就达到1.8ZB,而到了2020年,全球数据总量将增长50倍。Variety(多样),结构性数据、半结构数据、非结构数据。Velocity(高速),是指大量实时数据流的快速收集、创建、分析、处理、传送的过程。Value(价值),量大但密度很低,需要从数据中提炼出有价值的数据和信息。现今新的计算方法,机器学习一直在提高着数据的质量和大数据的价值[3]。
大数据技术涉及大数据采集,大数据存储与管理,大数据计算模式与系统,大数据分析与挖掘和大数据隐私与安全等方面,大数据应当理解为数据采集、数据存取、数据处理、数据挖掘等相关技术的融合。云计算技术可以说是处理海量数据最为低成本和高效率解决方案,通过云计算技术,可以把海量分散的数据从手机端、电脑端及其他智能终端均传送至云平台,然后再通过一个大规模的分布式系统加以高效分析和计算,提炼出富有价值的数据和信息。
(1)大数据的存储技术采用冗余存储模式。比较有名的分布式存储技术是Google的GFS和Hadoop的HDFS,其中,HDFS是GFS的开源实现。为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储结构,而是采用由多维表组成的按列存储的分布式实时数据管理系统来组织和管理数据,比较有代表性的是Google的Big Table和Hadoop的HBase,其中,Big Table基于GFS,HBase基于HDFS。
Hadoop 是一个由Apache基金会开发的,用于处理庞大数据集的分布式系统架构,其特点是高吞吐量、高容错性、硬件成本低廉、开源等,可以存储巨量数据,并通过MapReduce对巨量数据进行计算。
(2)大数据计算模式。根据大数据的特征和计算特征,大数据计算模式常用的有流式计算、批处理计算、迭代计算、图形计算等。其中的MapReduce就是批处理计算模式,它是一种分而治之的细化计算,然后将计算结果汇总的计算方式。
(3)数据挖掘计算。目前关键的大数据分析和挖掘技术是云计算技术和可视化技术。
(4)分布式数据库的使用是大数据发展的必然。
2.2 大数据来源
大数据主要有下列来源:文本文件、音频视频文件、网页及日志文件、移动设备数据、社交媒体文件。由于互联网相关技术的发展,网上信息,各种网站网页信息的应用,及其相关基础设施的应用,促进了大数据的发展。Web2.0下人们以微博,Facebook等交互產生大量的数据,Facebook每天产生500TB的数据,而波音737横穿美国产生240TB的数据。2004年,世界进入Web2.0时代,Facebook,Twitter等社交工具的涌现。物联网,移动终端的不受地域限制的应用催生了各种活鲜的数据。云技术的发展为大数据的存储、管理、访问提供了技术保证,云计算能从大数据中挖掘出有用的信息,两者天然结合、相互促进。针对云计算中的基础设施即服务(IaaS)、软件即服务(SaaS)、平台即服务(PasS)的不同特点,对不同服务需求者提供不同的服务模式。
应用型本科院校在图书馆投入不足,而应用云技术平台,用户就可在任何地方任何时候方便地通过图书馆、或联盟图书馆的相关权限就可以服务相关资源相关数据,大大降低对本地图书馆软硬件资源的要求,及其相关维护费用。
从大数据的采集来说,大数据的采集利用数据库的方式从FRID,传感器采集数据。大数据包括结构化,半结构化和非结构化数据。
2.3 相关技术
大数据的关键技术主要包括:大数据获取,大数据预处理,大数据存储,大数据分析,大数据检索,大数据展现与应用。具体有云计算,物联网技术,移动计算技术。
云计算技术的虚拟技术,海量分布储存技术,并行编程模式,云技术平台管理技术。云计算技术,可以把海量分散的数据从手机端、电脑端及其他智能终端均传送至云平台,然后再通过一个大规模的分布式系统加以高效分析和计算,提炼出富有价值的数据和信息。
物联网技术主要包括FRID技术,近场通信技术,传感器网络技术和无线通信技术。移动计算关键技术如下:移动计算通信协议,情景感知,移動计算环境,无缝迁移技术。
大数据的分析、计算和储存开展研究,从大数据中找到大的价值。
大数据的解决方案必须依靠云计算技术,得依靠云计算平台的分布式文件系统、分布式运算模式和分布式数据库管理技术。
以 Google 等为代表的一些大的数据处理公司通过横向的分布式文件存储、分布式数据处理和分布式的数据分析技术很好的解决了由于数据爆炸所产生的各种问题。Google公司大数据处理的三大关键技术为:Google 文件系统 GFS(发布式文件管理系统)、MapReduce和Bigtable。
3 发展展望
现今图书馆的发展将发展到数字图书馆,再发展到智慧图书馆。只有这样才能实现知识个性化需求的定制化服务的要求,实现信息、知识的互联共享。另一方面,基于大数据技术,通过数据挖掘,可视化分析,分析、挖掘用户的借阅记录,形成有参考价值的信息,对读者可以提供个性化服务,读者能得到更准确有效的信息,促进图书馆及其服务效益的进步。
4 结语
高校图书馆应成为大数据存储、处理、分析与服务的中心,应用型本科院校应当抓住大数据环境这一有利发展环境,加强信息技术建设,提供优质服务,结合应用型人才的培养来建设好图书馆,搞好图书馆的各项服务,为应用型人才的培养发挥应用的功能。
参考文献
[1]李振秋.“四大变化”对高职院校图书馆发展的影响[J].南宁职业技术学院学报,2014,19(6):49-52.
[2]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报资料工作,2013,(2):12-17.
[3]Emad Mansoor,Sadeer G. Al-Kindi.Thepremise and promise of big data for tracking population health: big deal or big disappointment?[J].Dig Dis Sci,2017,62:562-563.