基于云计算的大数据分析流程的优化路径
2018-01-18王伟钧
摘 要在大数据分析流程中,通过充分运用云计算技术来对其设计过程进行优化,能够有效提高大数据分析的有效性与针对性,并能大量减少海量数据的处理时间,使系统的响应时间大大加快。为此,本文便基于云计算技术来对大数据分析流程的具体优化路径进行深入的分析。
【关键词】云计算 大数据 分析流程 优化路径
1 大数据分析流程中存储与访问技术的优化路径分析
1.1 数据流和控制流的分离
在大数据分析流程中对存储与访问技术的优化路径中,主要是利用云计算建立一種GFS文件系统来实现数据流和控制流的分离的,在GFS文件系统节点中,每个集群都有一个主控服务器,主控服务器能够对系统中的元数据进行管理,而客户端则是一种以库文件形式所提供的应用程序访问接口,数据块服务器用于将GFS节点中的数据以文件的方式进行存储和访问,在GFS集群中,数据块服务器的数量是由其集群规模来决定的。在GFS文件系统中,其是将数据以64MB的大小来进行分块存储和操作的,并且每个数据块中都有与之匹配的索引号。通过这种方式,能够使集群中的数据块服务器将信息发送给客户端,并由客户端来对这些数据服务块进行存取与读写,以此实现客户端和主控服务器的数据流直接传输,从而使主控服务器的负载得到了大幅度降低,并且使客户端能够对多个数据块服务器进行同时访问。
1.2 不缓存数据的优化
长期以来,用户在访问文件时,由于磁盘性能上的缺陷,因此文件系统需要进行频繁的访问磁盘,进而产生大量的缓存数据,严重影响了客户端的访问速度,降低了系统的操作性能。而通过云计算来建立一种不缓存数据操作机制的GFS文件系统,它能够通过对文件系统性能的提高来对磁盘性能上的缺陷进行弥补,以此提高系统性能。GFS文件是将要进行操作的文件块存储到系统的内存当中,当该文件块被用户进行首次访问时,系统会先从磁盘中对文件块进行读取,而后用户每次对该文件块进行访问时,便可直接进行缓存读取,从而在提高系统操作性能的同时,也使系统的写操作性能得到提高。不缓存数据操作机制的GFS文件系统的优势在于它非常适合对大数据的实时监测与分析,减少了无用缓存数据的大量产生,并且避免了数据的频繁读写操作,实现了云计算对大数据的动态加载和伸缩,有效避免了缓存容量的局限性。
2 大数据分析流程中并行处理技术的优化路径分析
2.1 大数据逻辑分析的优化
在大数据分析中,主要是通过将某种具体事物或问题按照其逻辑关系来进行分解,使其分解为各个要素,然后利用比较的方式来判断这些要素对事物或问题的影响,并排列出主次关系,并通过推理来对事物或问题中各个要素之间的关系进行明确,然后将分析结果进行汇总,从而揭示该事物或问题的本质联系与内在规律。要想实现这种逻辑分析思路的优化,就必须经过对问题的分解、处理、汇总与完成,而利用云计算来建立一种数据处理模型,能够实现对海量数据的并行处理,其是通过对海量数据分析任务的分解来完成的,它通过对大量分析任务进行分解,使其成为若干分析单元与数据块,然后利用系统中的若干处理节点来对这些分解的任务进行并行计算处理,并将计算处理结果进行汇总,从而实现了对大数据分析任务的处理。在运作特征上,并行处理方式与数据分析方法基本一致,它都是经过对问题的分解、处理、汇总与完成这四个步骤。因此,从技术上来讲,将云计算的技术架构应用到大数据对问题的逻辑分析中较为可行。
2.2 数据资源配置的优化
大数据在对资源进行配置时,由于其不涉及到并行处理,并且在数据模式、数据处理与数据内容上也较为简单固定,大部分时间都浪费在了对数据的寻找与定位上,从而大大延长了系统的响应时间与服务水平,因此这种资源配置的方法很难满足大数据对海量信息的分析。云计算对大数据资源配置的优化则是通过由系统进行默认或用户自行定制的方式,来将海量的数据分解为若干微阶段来进行数据处理,并通过最优执行性能的原则来对大数据分析任务进行处理,然后由系统对各微阶段中数据分析任务的执行情况进行分析与测量,此时,云计算会进一步找出各微阶段中耗时较长的部分,然后以此为依据来优化资源配置计划。
3 大数据分析流程中组织与管理技术的优化路径分析
3.1 数据模型组织结构的优化
云计算在对数据模型组织结构进行优化时,为了确保成千上万台机器所组成的集群能够在分布式存储架构中运行,以此实现对PB级别大数据的高效处理,设计者利用云计算技术将Bigtable设计成一种分布式多维映射表,这种分布式多维映射表能够对行、列中的关键字与时间戳进行索引,以此实现数据模型组织结构的优化。在行的设计改进中,Bigtable的最大行关键字为64KB的字符串,它能够确保在对行关键字的索引执行过程中不会受到任何事件的中断,并且在字母顺序排列方面利用倒排的方式来便于数据的压缩。在列的设计改进中,它能够利用列族(由列关键字组成)的方式来避免对众多列关键字的涉及,以此提高这种组织结构的处理效率。在加入时间戳的设计改进中,通过利用Bigtable在数据模型中引入非顺序处理的时间戳,能够有效弥补传统关系型数据库在时间特性方面的缺陷性,并进一步强化了数据项间的价值关联性,提高了对海量数据进行分析的效率。
3.2 数据管理架构的优化
利用云计算对数据管理架构的优化主要是通过GFS文件系统、分布式调度器与分布式锁服务来完成的,GFS文件系统主要是负责对海量的数据及日志进行存储,而分布式锁服务则用来对服务器信息与元数据进行管理的。分布式调度器则是用来对系统的队列及任务进行分布式的分组与调度。云计算在数据管理架构的优化主要包括对主服务器监测控制的优化与子表服务器存储操作的优化。在主服务器监测控制优化中,采用Bigtable的目的在于确保分布式存储系统的扩展性得到最大程度的发挥,并通过对分布式锁服务目录的监测来实现对负载的均衡处理。在子表服务器存储操作优化过程中,通过时间远近的方式来对数据进行分别存储,以此提高资源分配的合理性,并当数据容量达到上限时,能够通过压缩SSTable文件的方式来对存储系统中的资源配置情况进行优化。
参考文献
[1]吴凯峰,刘万涛,李彦虎,苏伊鹏,肖政,裴旭斌,虎嵩林.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,48(02):111-116+127.
[2]邓仲华,刘伟伟,陆颖隽.基于云计算的大数据挖掘内涵及解决方案研究[J].情报理论与实践,2015,38(07):103-108.
[3]洪汉舒,孙知信.基于云计算的大数据存储安全的研究[J].南京邮电大学学报(自然科学版),2014,34(04):26-32+56.
作者简介
王伟钧(1963-),男,江苏省丹阳市人。硕士研究生。副教授。研究方向为数据挖掘、管理工程。
作者单位
成都大学信息科学与工程学院 四川省成都市 610106endprint