基于hadoop平台的分布式数据挖掘系统的设计探讨
2017-04-25陈志雄
陈志雄
摘要:在社会经济快速发展的情况下,网络信息技术的更新速度越来越快,如今,促进了大数据时代的进一步发展,而Hadoop作为分布式系统的代表,也成为大数据挖掘系统的重要组成部分之一。分布式数据挖掘系统的主要任务是利用Hadoop搭建分布式集群环境,然后在该环境上部署相应的数据挖掘任务,前提是要对分布式文件系统HDFS和MapReduce的并行编程模式原理进行深入的分析研究,同时选择运用K-means聚类算法,使Hadoop平台的数据挖掘系统的任务具有良好的发展效率,同时也能显示其计算能力的扩展性能。下面就Hadoop平台的分布式数据挖掘系统的设计进行深入的分析探讨,进而促进信息数据系統的进一步发展。
关键词:Hadoop平台;数据挖掘;系统设计;K-means
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2017)01-0179-01
1 数据挖掘的简单概述
Hadoop是一个分布式系统基础架构,它实现了一个分布式文件系统,具有极高的容错性,在因特网上是最受欢迎的搜索关键字的内容分类工具,能够解决许多具有伸缩性的问题,能提高文件搜索效率[1]。而数据挖掘系统是在Hadoop平台建立的,因此,数据挖掘系统的发展与Hadoop平台紧密结合。数据挖掘主要是在大量数据中寻找有价值的信息技术,主要由以下三个阶段组成,数据准备阶段,需要对大量的信息进行清理,并对数据整合,同时还对数据格式进行转换;数据挖掘阶段,根据相应的智能算法对数据进行分析,然后形成一定的数据模式;结果评估阶段,主要根据挖掘出的数据模式的运行效果进行评判,对没有任何效果的评估模式全部排除。
2 数据挖掘的主要任务与具体计算方法
2.1 数据挖掘基本任务分析
数据挖掘的任务是由大数据发展的方向决定的,同时为数据挖掘工作提供了方向,由于数据挖掘以寻找数据模式为主,并且数据模式也是随着数据的应用领域不同而发生变化,因此,在数据挖掘期间,其任务主要分为描述性挖掘和预测性挖掘两种。描述性挖掘任务主要根据数据的一般特征,对数据库中的数据进行概括、总结,然后寻找数据之间的关系和类型,最终形成固定的数据模式;对于预测性挖掘主要根据接触的数据做出相应的判断,并加入与之相对应的新的数据的模式[2]。
2.2 数据挖掘的具体计算方法
数据聚类算法是对数据进行拆分合并同类项计算,也就是将数据项划分为多层次的子集,对具有相似特性的数据项进行归类,然后对同一个子集中的数据进行计算,该计算方法主要根据数据自身的特性来划分。具体如下所示:
在数据库B中,所有数据的集合为未知数X={X1,X2,X3……Xn},而在许多的X中有一部分具有相似性,因而Xi(i=1,2,3……n)。其中对于一个整体集合X,被许多具有相似的X组合分割成m个子集,出现了许多的C1,C2,C3……Cn。同时每一个子集还要满足一定的条件:①每一个子集不能为零;②所有的子集整合后必须恰好等于集合X;③每一个子集不能有共同交集;④i必须不等于零。
聚类法是数据挖掘算法的重要组成部分,而K-m eans算法是最常用的最基本的聚类算法。主要根据空间中K个中心点对相对应的数据对象进行聚类,当然这个点不是固定不变的,而是设定一个或几个点后进行逐一的变换更新,在不断更新分配数据时,就能寻找到符合条件的聚类结果[3]。经过长期的更新分配之后,根据数据聚类的规律总结数据模式,然后将这一模式作为数据挖掘系统的固定函数模式,在以后的数据挖掘计算中只需要代入相关的数据就可以快速获取结果。
如上述的函数式,在数据挖掘计算中,需要对Ck固定,就可以选择出最优的Xk;对Xk固定后,就能选择最优的Ck,他们选择的结果都是花费代价最小的时候。采用K-means计算法可以获得一个最优解的值,这个值会使得挖掘的数据接近最优,并且在数据挖掘中的优势非常的显著。
3 结语
Hadoop是一个能够对大数据进行分布式处理的软件平台,具有极高的可靠性和高效性,因而在数据挖掘系统设计方面能够提供很好的帮助,尤其在数据挖掘计算方法方面,能够根据数据挖掘的数据模式建立比较固定优越的计算模式。
参考文献
[1]郭建伟,李瑛,杜丽萍,赵桂芬,蒋继娅.基于hadoop平台的分布式数据挖掘系统研究[J].中国科技信息,2013,13:81-83.
[2]罗刚.基于HADOOP的数据挖掘平台分析与设计[J].电子世界,2013,18:16-17.
[3]樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,05:831-834+875.