APP下载

基于云计算的图书馆大数据分析和决策支持平台构建

2016-11-10陈臣兰州财经大学信息中心

图书馆理论与实践 2016年5期
关键词:海量虚拟化决策

陈臣(兰州财经大学信息中心)

基于云计算的图书馆大数据分析和决策支持平台构建

陈臣(兰州财经大学信息中心)

随着大数据时代的到来,图书馆中的数据量呈现爆炸式增长,由于大数据具有多类型和复杂性,给图书馆的大数据分析与决策支持带来了极大的挑战。本文介绍了大数据和云计算的定义,构建了基于云计算的图书馆大数据分析与决策平台。该平台大幅提高了图书馆海量数据的处理能力,能够发现图书馆大数据之间存在的关系和规则,可有效预测图书馆服务未来的发展趋势,从而增强图书馆服务决策的准确性和科学性。

云计算;大数据;分析和决策支持平台

1 前言

伴随互联网、物联网、云计算和智能阅读终端的不断发展与普及,图书馆界已进入大数据时代。全球著名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。”作为重要的生产力构成和发展要素,大数据中蕴藏着巨大的战略资产和价值,可为图书馆服务模式变革、服务内容创新、产业升级和市场竞争力提升,提供可靠的大数据决策支持和服务保障。[1]

但是,大数据在帮助图书馆员准确获取知识和正确认识事物关系的同时,其所具有的海量、动态、非结构化、低价值密度、高时效性和不确定性特点,也给图书馆的大数据采集、存储、实时计算、价值过滤和发现带来了挑战。云计算是分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡、热备份冗余等,传统计算机技术和网络技术发展融合的产物,具有超大规模、虚拟化、高可靠性、高通用性、高可扩展性、按需服务和低成本的特点,可为图书馆的大数据分析与决策提供基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)支持。因此,如何基于云计算技术构建安全、高效、实时和经济的大数据分析与决策平台,是图书馆提高大数据决策安全性、科学性、智慧性、经济性和可靠性应关注的重要问题。

2 大数据与云计算的关系

2.1 图书馆大数据的概念与特点

维基百科对大数据定义:“大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。”大数据权威专家维克托·迈尔·舍恩伯格编写的《大数据时代》中描述道:“大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有的数据进行分析、处理。”大数据具有Volume(海量)、Velocity(高速)、Variety(多样)、Value(高价值)的4V特点。[2]

近年来,随着图书馆用户服务模式的变革和高新技术的应用,读者需求感知、应用设备物联、互联网络、智慧化服务和大数据等,已成为图书馆服务生产力的五个重要组成要素,导致图书馆数据环境发生了根本性的变化。图书馆的数据规模呈现海量和指数递增状态,数据呈现类型繁多和非结构化数据大幅增长的现象,且非结构化数据比例占据数据总量的85%以上。同时,由于大数据之间显性或隐性的网络化关系存在,使得图书馆数据之间关联复杂,其中蕴藏着海量、高价值的知识。大数据之间关系和蕴藏知识的精准发现,往往决定着图书馆大数据决策的科学性和有效性。其次,大数据的产生具有动态、突发、快速和不可预测的特性,图书馆服务对大数据的分析、决策有较高的精确性和时效性要求,因此,大数据自身的价值和决策科学性,往往随着图书馆服务时空的变化而发生改变。大数据分析、决策的水平和有效性,是关系图书馆能否在海量、低价值的大数据中精确发现数据关系和提取知识,实现图书馆从传统“是什么”的数据分析,向“为什么”的大数据分析转变的关键。

2.2 图书馆大数据面临的挑战

第一,图书馆需要通过大数据过滤和大数据挖掘技术,大幅过滤掉虚假、错误和无价值的数据,并通过云存储系统提高非结构化和半结构化数据的管理安全性、效率和经济性。第二,图书馆通过传感器网络和监控设备采集的读者特征数据、读者行为数据、读者阅读关系数据、服务器运行和日志数据等,具有低价值、碎片化、异构和高度冗余的特点。提高大数据挖掘的全面性、科学性、精确性和实时性,是图书馆及时、快速地发现大数据间关联、数据关系发展趋势、数据突发异常和蕴藏价值的关键。[3]第三,图书馆传统数据系统在大数据的存储、新增、截取、删除、检索和更新过程中,其简单的脚本语言预处理无法解析过于复杂的大数据结构,也无法满足大数据时代多用户高并发读写、海量数据高效存储与访问、系统高可用性和高扩展性等需求。此外,传统数据库的优化空间和数据运算能力有限,无法对大数据的质量生命周期全程有效监控。第四,当前,物联网、移动互联网、传感器网络和传统互联网络已成为图书馆管理、服务网络的重要组成,如何对传感器、RFID设备、GPS设备和阅读智能终端等设备采集的数据,进行科学、准确、实时的测量、感知和理解,是图书馆实时获取读者需求变化、精确感知用户QOS(服务质量)、动态调整服务策略和提高读者阅读满意度应关注的问题。

2.3 图书馆大数据与云计算的关系

图书馆大数据的应用重点在于对用户服务相关数据的采集、过滤、分析、挖掘和知识发现,关注于对图书馆管理层的决策科学性、业务部门的服务保障力、读者QOS保障和读者阅读满意度保证提供可靠的大数据支撑。云计算的应用着眼于图书馆通过自建私有云,或者与云服务商签署服务协议的方式,为图书馆提供具有超级计算、海量存储、资源虚拟化管理和按需付费的大数据处理、存储和海量数据高速传输的平台。因此,大数据与云计算是相辅相成和密不可分的。

如何基于云服务平台支持,在海量、快速递增的大数据中过滤噪声信号和提高大数据的价值密度,是关系图书馆有效降低大数据应用成本和提升大数据决策效率的关键。[4]此外,大数据在图书馆云端的整合与共享、读者个体数据的无缝连接,以及数据分析员对大数据的监管、分析和价值挖掘过程,是确保图书馆大数据可用性和决策科学性的重要因素。因此,图书馆只有依靠云计算超大规模、虚拟化、高可扩展性、按需资源分配和低应用成本的优势,才能科学构建具备分布式计算、存储和动态可伸缩的数据处理系统架构,才能在多个节点中实现大数据的分布式计算与存储,才能确保大数据分析和决策高效、快速、实时和经济。

3 基于云计算的大数据分析与决策平台构建

3.1 图书馆大数据分布式计算架构的设计要求

对大数据的产生过程分析,图书馆大数据主要由读者群、传感器设备、服务器、监控设备等产生。对图书馆大数据的应用成本分析,其应用成本主要由大数据的采集、传输、存储、分析、计算和决策等五部分组成,并且随着大数据总量的级数递增,大数据存储和计算的成本在图书馆大数据应用总成本中占据的比例呈现快速增长的态势。因此,图书馆大数据分布式计算架构的设计应采用云计算架构,才能确保大数据分析与决策系统具有安全可靠、高集成度、合理配置、低能耗和易扩展的特点。

将图书馆大数据分布式计算架构的设计要求与云计算技术特点相结合,基于IaaS、PaaS、SaaS三种云服务模式的图书馆大数据分布式计算架构如图1所示。

图1 图书馆大数据分布式计算架构

IaaS主要由云存储、虚拟化管理和超级计算等云数据中心IT基础设施物理平台组成,依托云数据中心IT基础设施的分布式处理、分布式数据库、云存储和虚拟化技术,为图书馆提供强大的大数据应用云基础设施硬件支持。PaaS由分布式大数据计算平台和大数据存储平台组成。基于IaaS平台的支持,可将互联网的云资源服务化为可编程接口,为图书馆大数据高级应用开发者提供有商业价值的云资源和服务平台。[5]SaaS通过运营商运行在云计算基础设施上的应用程序,图书馆管理层、职能部门或者普通用户可通过不同设备上的瘦客户端界面访问,实现对相关大数据的挖掘、分析与决策,为图书馆战略发展决策、职能部门运营和读者服务,提供科学、安全、高效、实时的大数据分析与决策支持。

3.2 图书馆大数据分析与决策系统平台的设计

结合图书馆大数据环境特点和大数据的决策需求,本文在大数据分析与决策系统平台的设计中,坚持构建统一的数据运算平台、按照业务优先级调度和分配系统资源、系统资源灵活扩展和配置、低系统构建和运行成本的设计原则,构建的基于云计算的图书馆大数据分析与决策平台系统组织如图2所示。

图2 图书馆大数据分析与决策平台

该系统主要由虚拟化基础架构层、云基础服务层、大数据处理与分析平台、大数据决策应用层四个部分组成。虚拟化基础架构层为图书馆提供云数据中心基础设施服务保障,主要由云虚拟计算、云虚拟存储、云虚拟化网络传输、云虚拟化安全防护四部分组成。其上层的虚拟化资源管理与调度模块,可根据图书馆大数据计算、存储、数据传输的安全需求,对下层系统运行进行云资源的科学分配和调度管理,确保虚拟化基础设施运行安全、高效、经济和动态可控。

云基础服务层基于弹性云计算、虚拟私有云、弹性云存储、安全与均衡等云计算技术和服务的支持,为图书馆提供基础设施即服务、平台即服务和软件即服务三种云服务模式。[6]

大数据处理与分析平台基于云基础服务层的支持,首先对原始大数据进行过滤、整合和价值提取等操作,提升大数据的价值密度和数据可用性。然后通过分布式系统计算、实时流计算、大数据存储与管理、语境的搜索等,完成数据的处理、计算、分析和决策。基于大数据处理与分析平台底层的支持,图书馆管理员可通过对大数据的可视化分析与发展、应用程序的开发、大数据平台的管理,提高大数据处理与应用的效率、可用性、可控性和经济性。

大数据决策应用层基于下层平台层的支持,完成图书馆发展战略决策、职能部门工作与服务决策、读者阅读需求分析与预测、图书馆QOS评估、智能化服务报告,以及其他与图书馆变革、发展和读者服务相关的大数据决策,为图书馆战略决策、系统管理与运营、读者的QOS保证、服务生产力的可持续发展提供可靠的大数据决策支持。[7]

3.3 图书馆大数据云分析与决策系统平台构建

3.3.1 应具有较高的大数据容灾备份和灾难恢复能力

大数据在数据存储、管理和应用过程的安全性,以及大数据遭受数据灾难后的可恢复性,是关系图书馆大数据分析、决策过程可靠和可控的关键问题。首先,图书馆应通过重复数据删除和数据压缩等方式,大幅减少大数据存储系统的数据总量,以此降低大数据云端传输带宽和云存储空间的使用量。此外,可依据图书馆对大数据安全级别的划分,实现数据在云端的同步或异步远程复制,完成大数据在云端的增量备份。其次,应采用异地大数据容灾备份的方式,将关系图书馆运营、用户阅读质量和读者隐私的关键大数据,备份到距离图书馆地理位置较远的第三方云服务商云端,实现安全、高效和经济的敏感大数据异地存储保护。[8]同时,在大数据容灾备份时,应保证图书馆大数据的核心决策服务不间断。再者,数据丢失率和恢复间隔是图书馆大数据灾难恢复能力评估的2个重要指标。因此,图书馆大数据备份应采用同步复制技术,使大数据同步复制的数据丢失率接近于0。当数据灾难发生时,应确保图书馆可在瞬间完成灾备系统的切换。

3.3.2 利用云计算技术提升大数据挖掘的科学性

图书馆在传统的大数据挖掘中,通常根据数据流的流向将预处理数据传输至数据库存储,然后集中传输至处理器进行分析与挖掘,并将最终结果以交互的方式展现给用户。这种传统的以数据流向为依据的集中存储和批处理模式,在时间、空间上具有较高的复杂度,且不能满足多维、异构大数据环境下,图书馆对分析与决策系统计算、存储能力的扩展需求,也不能满足用户较高的交互式体验需求。因此,图书馆应基于多维度动态的大数据分析,注重提升将大数据汇聚成单一的信息逻辑集和可视化处理的能力,并在大数据分析时通过对结构化或非结构化物理数据的底层结构去耦合,来提高大数据分析的灵活性。

此外,图书馆特别要满足大数据分析师、各部门业务人员、业务流程分析程序、关键性应用程序等,对重要大数据的实时获取和更新需求。可利用图书馆获得的第三方相关共享数据,对大数据的分析方法、分析流程和结果进行修正与完善后,将大数据的分析结果与图书馆相关部门、人员的决策流程进行绑定,提高图书馆大数据分析、决策和结果修正的智能自动化水平。[9]

3.3.3 采用科学、可视化的大数据分析方法

云计算平台的超级计算、海量存储、虚拟化管理和热备份冗余等技术,使图书馆可根据大数据决策需要科学、快速地配置和调度云计算资源共享池(资源池包括网络、服务器、存储、应用软件、云服务),为图书馆的大数据分析提供充足的IT基础设施和系统资源支持。

当前,随着云计算技术的发展和支撑,图书馆数据中心的IT基础设施计算与存储性能、系统资源的科学调度与管理能力,已不是决定图书馆大数据应用效率的关键因素,而大数据挖掘算法的科学性、大数据分析模型的有效性、大数据质量的管理和可用性保证、大数据分析结果的可视化直观展示等,已成为关系大数据分析、决策活动安全、高效、实时和经济的最主要因素。[10]因此,在确保自建私有云或租赁的云服务完全满足大数据应用的前提下,应重点加强图书馆在大数据采集、存储和处理过程的质量监控和可用性管理,有效过滤对分析过程影响较大的噪声数据信号,不断提高大数据的价值密度和可控性。此外,还应结合图书馆大数据的环境特点和决策需求,构建科学的大数据分析模型和科学算法,为图书馆用户阅读服务提供高效、智慧、准确、实时和经济的大数据决策支持。

[1]云计算[EB/OL].[2015-09-02].http://baike. baidu.com/view/1316082.htm.

[2]虚拟化与云计算小组.虚拟化与云计算[M].北京:电子工业出版社,2009.

[3]汪正坤,等.基于云计算的中国政府信息资源的图书馆开发利用[J].图书馆学研究,2012(7):73-77.

[4]邓仲华,等.基于云计算的大数据挖掘内涵及解决方案研究[J].情报理论与实践,2012,38(7):103-108.

[5]李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6): 1147-1162.

[6]丁岩,等.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,19(1):53-56,60.

[7]赵又霖,等.数据挖掘云服务分析研究[J].情报理论与实践,2012,35(9):33-36,44.

[8]方艾,等.电信运营商能耗优化的大数据分析模型研究[J].电信科学,2014(10):38-42.

[9]薛涛,刘龙.云计算中虚拟机资源自动配置技术的研究[J].计算机应用研究,2015,33(9): 1-8.

[10]卢小宾,王涛.Google三大云计算技术对海量数据分析流程的技术改进优化研究[J].图书情报工作,2015,59(3):6-11,102.

Construction of Big Data Analysis and Decision Support Platform for Library Based on Cloud Computing

Chen Chen

With the coming of Big Data era,the quantity of data in library is growing exponentially.Multi-type and complexity of big data brings big challenge to big data analysis and decision supportof library.Firstly,this paper introduces the definition of Big Data and cloud computing,and then constructs a Big Data analysis and decision supportplatform for library based on cloud computing.The platform greatly improves the processing capability ofmass data of library,which can find the relationship and rule between Big Data to predict the future trend of library services,and improve veracity and scientificity of the decision-making in library services.

Cloud Computing;Big Data;Analysis and Decision Support Platform

G250.76

B

1005-8214(2016)05-0101-04

陈臣(1974-),男,甘肃兰州人,硕士,副教授,研究方向:大数据、数字图书馆建设。

2015-10-23[责任编辑]吕晓佩

猜你喜欢

海量虚拟化决策
一种傅里叶域海量数据高速谱聚类方法
为可持续决策提供依据
海量快递垃圾正在“围城”——“绿色快递”势在必行
决策为什么失误了
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
浅析虚拟化技术的安全保障
H3C CAS 云计算管理平台上虚拟化安全防护的实现
一个图形所蕴含的“海量”巧题
一种海量卫星导航轨迹点地图匹配方法