基于云计算环境下的大规模数据处理技术研究
2016-03-11李慧玲长治学院山西长治046000
李慧玲(长治学院,山西长治, 046000)
基于云计算环境下的大规模数据处理技术研究
李慧玲
(长治学院,山西长治, 046000)
摘要:随着计算机技术与互联网技术的发展,网络信息和数据量日益增长。诸多领域当中,都具有极大规模的数据信息。而在这些领域当中,需要对这些大规模数据进行处理和计算,需要完成极其庞大的运算量。基于此,采用基于云计算环境下的大规模数据处理技术,能够有效的打破这些限制,从而实现更加高效、快速的数据计算。
关键词:云计算环境;大规模数据;处理技术
1 大规模廉价计算平台
利用虚拟化技术,能够实现大规模廉价计算平台,将存储、应用程序、网络、计算等资源作为虚拟化实体。利用虚拟化技术,在单个节点计算平台中进行应用,并利用虚拟化技术有效的利用和组织闲置的计算平台。对闲散的计算资源进行抽象,使之形成相互之间完全独立的虚拟服务器实例,从而独立的完成数据处理和计算。通过这种方式,就能够实现底层硬件的虚拟化。
虚拟化创建和发布存储、计算等资源之后,利用相应的虚拟化解决方案,在虚拟计算节点资源池当中进行部署,就能够进行应用和管理。建设大规模计算平台的过程,也是云计算环境下大规模数据处理的一个重要步骤。具体来说,首先要对数据处理需要的资源进行参数化的配置,根据相应的要求进行定制。对于资源提供者或数据处理用户来说,在对计算节点资源池进行应用和部署之前,应当对其进行选择,并对相应参数进行设置。通过这一过程,用户能够获取自己需要的资源。在不同的操作模式下,资源提供者能够对底层计算资源相关属性进行部署,从而为用户提供参数服务。在设置参数完成定制之后,以此为基础,在大规模数据处理的时候,部署存储和计算资源,同时设定计算流程和数据处理方案。将相关参数设置信息在存储和计算资源的配置文件当中进行写入之后,以此对计算流程进行分配,从而在计算节点中启动相关的资源,并且管理和部署计算节点的定制处理服务。
在大规模数据处理当中,需要应用很多软硬件资源,对这些资源要进行管理和监测。部署工具通过网络连接到目标计算节点和计算流程,然后执行大规模数据处理方案。然后根据相应的方案,通过代码对存储和计算资源进行分配和执行。基于外部数据处理资源管理实施方案,在各个计算节点上都能够实现对大规模数据处理的实施和部署。在监测完成之后,需要对计算资源和存储资源的虚拟化分配进行激活,进而对整个计算流程进行激活。将部署在计算节点进行进行启动,利用网络在各个计算节点发送数据处理命令,从而完成调度和部署计算流程的工作。在完成激活之后,将计算流程在各个计算节点进行执行。
2 Map Reduce技术的支持
在云计算环境下,对规模数据处理具有对大规模廉价服务器集群进行应用的特点,以此通过分布式、并行式等方式进行数据处理。在Map Reduce的开发过程中,只需对Map、Reduce两个接口进行定义,在对大规模数据进行读取之后,通过计算机集群,对用户编写程序进行运行,拆分大规模数据集合,使之形成若干数据片段,从而得到一系列键值对。然后向一个Map任务中分配一个数据片段,在Map Reduce框架下,向大规模计算集群中的节点进行子任务的分配。最后,结合得到的键值对进行计算,生成键值对集合,向Reduce当中进行输出。如果数据包含相同的键值,在同一个节点,会有一个新的二元组合集合运行产生。
Reduce当中每一个Reduce任务,都会向二元组集合当中进行分配,输入集合片段,运行Reduce函数,输出二元组键值对。在集群中的节点上,该框架会再次分发Reduce任务,并在Reduce任务中分配和处理中间结果数据片段。在任何一个阶段当中,负载均衡机制、容错机制等会对数据处理执行情况进行监测,在数据处理当中,确保错误任务自动向其它计算平台节点中分配。如果数据处理任务失败,也能够自动重新进行计算。在大规模数据处理当中,是高度并行操作Map的,这一步骤对于大规模数据的高效处理来说,具有不可忽视的意义。在实际应用中,其在大规模数据处理中能够体现出很多方面的优势[4]。
具体来说,基于云计算环境下,对规模数据信息大都能够达到TB级别或GB级别,在Hadoop框架当中,能够采用HDFS对大规模数据进行支持,能够提供高数据宽带,同时能够在大规模廉价计算集群中的节点进行扩展。基于云计算环境,能够对大规模数据处理的要求加以满足,从而得到更为良好的效果。
3 云计算环境下大规模数据处理的框架模型
在大规模数据资源和计算资源当中,基于相关数据处理的需求,在大规模数据处理当中,对云计算技术、计算机网络技术进行引入,基于分布管理或集中管理的大量廉价计算机集群,进行高性能计算平台的建立,并在云计算环境下,建立大规模数据处理框架模型,从而发挥出操作简单、性价比高、可扩展、动态性良好等特点。在框架模型当中,主要包含了两级结构,其一是虚拟资源体系、大规模廉价计算机集群,其二是大规模数据处理分析的处理监测管理体系、数据处理服务请求、以及相应的基础架构。在第一级结构当中,利用限制的计算机资源,对虚拟资源层和物理设备进行构建,从而形成最底层的物力资源。然后类型一致的物力资源进行虚拟化的处理,形成同构的数据处理资源池或接近于同构的数据处理资源池。基于此,可以进行性价比、可扩展性、动态性都十分良好的高性能计算平台。
在第二级结构当中,最为重要的就是软件体系。基于第一级构建的虚拟资源体系和大规模廉价计算机集群,能够形成虚拟化的回收、负载均衡、容错处理、配置等相关功能,为大规模数据处理提供服务。基于统一管理和统一调度虚拟资源,可采用Hadoop核心技术,对数据处理接口进行编写。通过这种方式,在不同的学科和领域当中,能够提供相应的大规模数据处理服务,从而使用户能够享有良好的计算平台软件支持,对于分布式并行数据处理计算任务,能够在各个虚拟计算节点之间实现。最后,通过云服务的形式,向终端用户提供最终结果。
在这一框架的设计与实现当中,对Hadoop分布式开源计算机框架进行了应用,对其中的HDFS分布式文件系统,以及Map Reduce进行应用,从而对大规模数据处理业务进行处理和协调。具体来说,首先需要对大规模的计算机集群环境进行构造。在计算节点当中,对放置在Map Reduce任务进行映射,对大规模数据进行划分,使之形成若干子块,并对数据块的数量、规格等会参数加以掌握。通过HDFS功能,可以在每一个计算节点当中,对数据块副块进行智能的放置,同时针对各个节点,对具体的角色进行设计。然后在Hadoop所提供的分布式文件系统HDFS当中,对大规模数据进行载入,对于Map Reduce当中的数据处理任务,通过Hadoop向各个计算节点当中进行转移。在大规模数据处理的过程当中,需要利用Reduce函数、Map函数、以及相关的程序进行分布化处理。在Hadoop当中,为了对Map Reduce进行运行,提供了一个API进行支持。最后,需要对大规模数据处理的结果进行反馈,利用用户验证接口,通过相应的云服务平台,型用户反馈大规模数据的处理结果,从而完成用户的实际需求。
4 结论
在当前信息化的时代背景当中,计算机和网络的广泛应用,使得各个领域中的数据量和信息量与日俱增。而对于这些海量的大规模数据来说,利用传统的数据处理方式,往往难以取得十分理想的处理效果。基于此,可在云计算环境下,开发和利用相应的大规模数据处理技术,以此来支持社会各个领域当中的大规模数据处理需要,从而数字化的时代当中,始终保持较高的工作效率和良好的工作效果。
参考文献
[1]张兴旺,李晨晖,秦晓珠. 云计算环境下大规模数据处理的研究与初步实现[J]. 现代图书情报技术,2011,04:17-23.
[2]卢小宾,王涛. Google三大云计算技术对海量数据分析流程的技术改进优化研究[J]. 图书情报工作,2015,03:6-11+102.
李慧玲(1979-),女,山西省武乡县人,硕士研究生,讲师,从事计算机应用、云计算研究
Research on large scale data processing technology based on cloud computing environment
Li Huiling
(Changzhi University,Shanxi Changzhi,046000)
Abstract:With the development of computer technology and Internet technology, network information and data is increasing.In many areas,it has a great scale of data information.In these areas,the need for these large-scale data processing and computing,the need to complete a very large amount of computation.Based on this,the large-scale data processing technology based on cloud computing environment,can effectively break the restrictions,so as to achieve more efficient and fast data computing.
Keywords:cloud computing environment;large scale data;processing technology
作者简介