基于云计算的大数据处理技术探讨
2017-10-30李薇
李薇
摘要:大数据是信息化时代的产物,因此其发展离不开云计算的大力支持。大数据的特征显著,包括数据处理效率高、数据类型多样化等。本文主要以大数据特征和应用作为出发点,分析了大数据与云计算的关系,并在此基础之上从挖掘技术、可视化技术等方面探讨了基于云计算的大数据处理技术,以期为相关行业人员提供一些参考和意见。
关键词:云计算;大数据;大数据处理
中图分类号:TP274 文献标识码:A 文章编号:1007-9416(2017)08-0218-02
随着社会经济的发展以及网络技术的进步,人们获取信息资源的渠道得以拓宽、获取信息的方式更加灵活性。与此同时,信息种类的繁多以及信息传播的高效性也对现有数据处理模式和数据处理体系提出了更高的要求。依据大数据摩尔定律,数据规模和数量将呈逐年扩大趋势,预计2020年,世界数据量将超过35亿GB。由此可见,当前社会已进入“信息大爆炸”和大数据时代。加之云技术的兴起与发展,改变了传统数据处理方式,促使数据处理方式向高效、智能化、信息化方向发展。如何利用云计算技术实现数据的高效处理,已成为当今社会各界关注的焦点问题之一。
1 大数据概述
1.1 特征
在计算机领域,大数据特征较为多样化。具体而言,表现在五方面。其一,庞大性。其二,丰富性。其三,价值型。其四,高速性。其五,准确性。不同业界均认为:加强对大数据的研究,既可以提高数据的准确性,又可以促使国家经济的发展。与此同时,在大数据时代和云计算环境下,与一般数据容量相比,大数据容量较大。
1.2 应用
大数据的应用包括三个架构。第一,融合式架构。所谓融合式架构是指整合数据信息之后,对数据进行科学处理。这样可以提高数据的整合效率。此种模式为用户模式,又称之为服务器模式。服务器主要负责方案的管理。第二,分散式架构。此种架构模式可以控制客户端数据信息。控制模块具有多样性,不同控制模块的控制对象不同,将其分布在不同客户端中,能够起到自我调整和控制内部系统的作用。由此可见,此种架构模式的安全性较高,且具有较强的灵活性。但是也存在的一定的缺陷,即数据维护成本较高、用户注册时会出现诸多提示性问题。第三,混合式架构。此种架构模式综合了前面两种架构模式的优点。无论是数据的分发还是数据的传播,都需要依靠服务器完成。用户要想实现数据的交互,则需要借助客户端完成。
2 云計算和大数据的关系
就云计算的功能而言,其显著功能为处理虚拟化资源。云计算与互联网的有效结合,不仅能够大大提高数据运算能力,还可以实现资源共享。云计算的服务器与互联网各种交付模式的整合,能够在实现资源优化配置的同时降低数据运算任务量。就云计算特点而言,主要包括五方面:其一,虚拟性(最根本特点);其二,扩展性;其三,可靠性;其四,高规模性;其五,通用性。利用云计算展开数据运算,可以对数据信息进行虚拟化。相对而言,运算机的一大优势是可以提供数据的容错性措施。并且,用户可以结合自身实际要求与需求设置其规模,并展开动态性管理。在不同的行业领域,均可以通过云计算实现数据的计算、数据的应用。因此,用户的应用成本降低、获取信息的方式更加灵活。
3 大数据处理技术
3.1 Hadoop、Open Stack 技术
Hadoop属于一种分布式架构。此种架构适用于数据容量较大的情况,依据Hadoop高吞吐量特征,能够实现对数据的及时处理,进而提高数据处理效率。另外,Hadoop可以实现对多个数据副本进行维护、再次布局和操作失败的操作。就其数据处理方式而言,主要以并行方式为主。此种处理方式具有成本低、便利性大等优势。Open Stack属于分布式平台。平台优势在于包含的组件较多、支持范围广。其中,就Open Stack平台模块而言,主要包括两种,一是NOVA 模块,二是 Swift 模块。Hadoop与Open Stack的结合,既可以提高资源的利用率,又可以提高数据的处理效率。
3.2 存储技术
就数据信息的特征而言,其显著特征包括两点。其一,分散性。其二,庞大性。在处理数据信息过程中,假设采用传统的存储技术,不仅无法满足大数据存储要求,还会降低数据计算效率。现阶段,随着社会的不断发展,数据信息量日益增加。无论是传统数据存储技术还是数据存储库,都无法满足大数据容量需求。而利用计算机展开数据存储和计算,能够通过列式存储方式,实现对庞大的数据信息进行分割,进而将分割之后的数据进行单独存储。在数据投影时,云计算可以在较快时间内找到所需数据信息,这样既可以有效弥补传统数据处理方式的不足与缺陷,又可以大大提高数据存储和处理效率。与此同时,在列式存储中,相邻数据的相似性极高。这在一定程度上可以减少数据存储空间。
3.3 挖掘技术
通常情况下,实现数据挖掘不仅需要对数据进行收集与清理,还需要完成数据集成操作。采用云计算下的联机分析方式可以纵观整个数据,并站在全方位、多角度剖析数据。在此基础之上,采用联机分析方式能够实时在数据库中挖掘内在数据,并对挖掘之后的数据进行模拟化表示。就挖掘技术的优势而言,包括提高数据处理效率、实现对数据模块的分配布局、善于解决并行任务等。同时,挖掘技术在很多行业都是非常适用的,比如电子商务、物流等等行业,通过数据挖掘技术可以提供相关业务的精确性和针对性。
3.4 可视化技术
此种技术可以凸显数据的直观性,并为用户自身操作数据提供便利。所谓可视化技术是指利用图形学或者图像表示数据,最终向用户展现一种交互技术。依靠图形化的原则,探索相对较为复杂的数据,可以明显发现其中的不同之处。除此之外,采用此种技术可以分析数据的表面、实现数据的多维度表示。当用户在检索数据信息过程中,可以利用可视化技术提高数据检索效率。endprint
4 云计算下大数据廉价计算平台
4.1 大规模廉价计算平台
大规模计算平台,即运用现代信息技术对数据进行安排,这种安排办法一般是在台式电脑、笔记本電脑、液晶电脑等PC机上进行平台搭建,这个平台具有动态、高效、便于拓展等优势,具有十分强大的实用性。常规办法是把云计算和Hadoop技术同编程技术进行整合。在整合之间,便可以对大数据进行一定程度的分类,这样分类以后,有利于对数据中各个子集的采集、安排更加明确,使得数据通过这种分类安排变得清晰明了。
大规模计算平台是将虚拟技术运用到PC机上完成各种各样的应用,这种应用有利于利用闲置平台采集资源。例如对虚拟服务器Ui和Uj(i可以任意取值),可以针对单独数据实现安排。要使得这一系统得到实现,就需要对各种资源进行集合、整理。在这一系统的控制当中需要对节点资源池进行管理,这种管理分为几个步骤进行。这其中有一个基础,便是计算机节点的激活,它需要在PC机上对数据进行安排和分配,并对此做相应计算和资源存储安排,紧接着,将安排好的计算流程与资源分别进行处理,这样安排以后,才能激活计算节点。
4.2 大数据处理计算流程概述
在大规模廉价计算平台的具体操作过程中,最为重要的板块就是计算流程的设计,计算流程的设计关系到资源能否顺利存储。因而在此单独作为一个项目提出。以电信的资源处理流程为例,电信每天都需要处理成千上万资源,这些资源若没有按照计算流程进行保存将十分混乱。因此,电信的计算流程分成了几个步骤进行,每个步骤都有细致的数据工作流程。它具体是由:数据分析板块、消费查询板块、性能监控板块三个板块组成。这三个板块每一个都具有详细的处理过程。因此,在处理大数据时,要建立相应流程可以通过细化分配来完成。
4.3 实现大规模安排的步骤
要实现大规模数据核心数据安排,就需要对数据虚拟化的办法实施有效安排。具体步骤为:
第一,对数据资源进行整合。在进行数据虚拟化时必须要提前利用电脑进行数据资源的安排,进行实际操作的电脑有两种。一种是为进行资源提供的电脑,另一种是具有计算流程的电脑。这个步骤主要是对资源进行收集和保存,并对保存的资源通过确定流程进行计算。
第二,对第一步所得出的结果进一步处理,并做好下一流程安排。
第三,将第二步处理结果与相关文件结合,即在此要对该节点和资源进行一定程度的管理。
第四,要将实施操作的各个部分(程序、保存空间、网络等)实施管理。管理过程中使用的相关工具要同时开始安排节点、流程,当一切就位以后方可以进行方案。
第五,一切准备就绪,计算机流程开始。
第六,激活计算、存储资源分配的计算流程。
5 结语
大数据容量的扩大,需要借助云计算技术实现数据的及时处理与解决。加之云计算技术的日益成熟,可以为用户提供更多可视化大数据应用软件。当前,云计算作为一种全新的数据处理模式,无论是在搜集大数据方面还是在计算大数据方面,都为期提供了较大的便利。云计算与大数据的综合,既可以有效发挥云计算的优势,又可以提高数据处理效率,并在一定程度上推动云计算技术的发展。
参考文献
[1]张焰,李杨.用大数据武装”云”:基于云计算的大数据处理技术[J].中国新通信,2015,17(04):87-88.
[2]龚旭.基于云计算的大数据处理技术探讨[J].电子技术与软件工程,2015,(10):198.
[3]李晓飞.基于云计算技术的大数据处理系统的研究[J].长春工程学院学报(自然科学版),2014,15(01):116-118+125.endprint