基于云计算的海量数据挖掘研究
2017-09-09陈健
陈健
摘要:基于云计算的海量数据挖掘模型中,进行海量数据的处理和存储时都是在云计算的环境之中所进行的。随着时代的不断发展所需进行数据挖掘的数量也在逐渐增加,这种新的数据挖掘方式更加能适应时代的发展。
关键词:云计算;海量数据挖掘研究;数据预处理
中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2017)07-0131-02
随着时代的不断发展,信息技术的发展也越来越快,所产生的数据的数量也在快速上升,据不完全统计现今18月的数据产生量相当与以前几千年所产生的数据量的总和[1]。随着数据产生的量的不断增多,人们可以得到的信息也在不断增多,但随着而来的是从海量数据中挖掘有用信息的难度也在不断的增加。基于云计算的海量数据挖掘是在云计算平台基础之上进行海量数据挖掘,云计算平台可以进行动态资源调度和分配、具有高度虚拟化和高可用性等特点[2],因此可以在很大程度上满足海量数据挖掘的要求。
1 云计算概述
云計算从其开发到现在已经有很长一段时间了,在其运用方面仍然还存在一定的问题,因此从其开发到现在仍然没有确切的定义。维基百科对其的定义为:云计算是一种能够通过互联网为用户提供服务的计算模式,云计算提供的主要是能够进行动态伸缩地虚拟化了的资源,用户不需要了解如何管理那些支持云计算的基础设施[3]。简而言之就是可以将云计算看作一种比较新的商业模式,在进行任务的处理时低成本的特点,因为它在工作时只需要大量的低成本的相互连接在互联网上的计算机就可以完成。
2 基于云计算的海量数据挖掘
2.1 数据挖掘
数据挖掘是指从海量数据中发现一些比较新的、有效的或者存在潜在价值的模式的过程[4]。而对于一个企业而言,海量数据挖掘就是从海量的数据中挖掘出有用的、有价值的知识,同时要求数据的规模要尽可能的大,数据的规模越大从中所挖掘的信息的准确性也就越高。企业对于数据挖掘的要求是非常高的,为了达到高要求的海量数据挖掘的目的,就需要创造出高要求的开发环境和应用环境。针对这一情况来说,采用基于云计算的海量数据挖掘是最好的方式,因为云计算平台具有存储量大、可以进行动态资源调度和分配、高度虚拟化和高可用性等特点,采用云计算技术来结合海量数据挖掘技术可以在很大程度上保证数据挖掘的高效率和准确性。
2.2 基于云计算的海量数据挖掘模型
基于云计算的海量数据挖掘服务是在云计算的基础之上所进行的,它主要是通过云计算的特性来进行海量数据的挖掘,如图1所示。可以看出,整个基于云计算的海量数据挖掘模型总体来说可以分为三个层次,分别是云计算服务层、数据挖掘处理层和与用户层。对于云计算服务服层而言,它主要的任务是提供分布式并行数据处理及数据的海量存储。对于数据挖掘处理层而言,它主要任务可以分为两个方面:一方面是数据的预处理,其主要内容是将海量的数据先进行预处理,将一些不规则的数据先进行一定的处理方便云计算进行数据的处理;一方面是海量数据挖掘算法并行化,这是海量数据挖掘的关键点。对于用户层而言,它所面对的是用户,主要是接收用户的请求并将其传送给其他两层进行处理,处理完成以后将结果反馈给用户。
3 结语
随着时代的不断变化,信息技术的不断发展,现如今所产生的数据量也在逐年快速增长,传统的数据挖掘方式已经逐渐不能跟上时代的变化了,因此为了改善这一情况就需要改变以往的数据挖掘方法了。云计算技术是一种很早之前就存在的技术,具有动态资源调度和分配、高度虚拟化和高可用性等特点,与此同时云计算在使用时的效率是非产高的,且所需要的成本也是非常低的,因此将云计算技术运用到海量数据挖掘技术中可以在很大程度上改善传统海量数据挖掘方式所存在的问题。总的来说,基于云计算的海量数据挖掘是一种非常好的方式来进行海量数据的处理,并且在未来具有良好的发展趋势,虽然云计算的安全还存在一些问题,但仍然值得推广和发展。
参考文献
[1]丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,19(1):53-56.
[2]赵华茗. 搭建基于云计算的开源海量数据挖掘平台[C].全国计算机信息管理学术研讨会.2010:76-81.
[3]何清,庄福振,曾立,等.PDMiner:基于云计算的并行分布式数据挖掘工具平台[J].中国科学:信息科学,2014,44(7):871-885.endprint