APP下载

基于Spark 框架的聚类算法研究

2015-03-16陈虹君

电脑知识与技术 2015年4期
关键词:机器学习聚类大数据

陈虹君

摘要:大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout MapReduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。

关键词:大数据;Hadoop;Spark;机器学习;聚类;KMeans

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)04-0056-02

Abstract: Mining big data is current research hotspot, also have a huge commercial value.A new framework of Spark is deployed on the Hadoop platform, in which machine learning algorithms can be almost completely replace the traditional Mahout MapReduce programming mode. But the characteristics of Spark memory model, efficiency of execution is high. This paper studies the KMeans clustering algorithm in Spark machine learning。The first analyze the idea of the algorithm, and then through the experimental analyze method and its application, and then through results of experimental analyze its application scenarios and lacks.

Key words: big data; Hadoop; Spark; machine learnin; clustering; KMeans

大数据的挖掘是当今的研究热点,也具有很大的商业价值。传统方式在大数据Hadoop平台上利用Mahout以MapReduce的编程方式做数据挖掘,但是有一定的局限,比如效率较低。Spark框架称为快数据,是基于内存的编程模型,它可以把中间的迭代过程不放在磁盘中,直接数据不落地在内存中执行,极大地提高了它的执行速度。Spark是大数据挖掘的新型利器。

1 Spark框架上的机器学习算法

在Spark框架中机器学习几乎可以完全替代Hadoop平台上传统的Mahout, 并且具有更高的效率。Spark的机器学习有分类和回归:线性模型、支持向量机、逻辑回归、线性回归;决策树,朴素贝叶斯;协同过滤:交替最小二乘法;聚类:KMeans聚类;降维:奇异值分解,主成分分析;特征提取和变换等。其中KMeans聚类算法是常用的算法,该文将对该算法做详细研究。

2 Spark中KMeans聚类算法分析

聚类算法KMeans :接受输入量 K ;然后将N个数据对象划分为 K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”,也称为引力中心,来进行计算的。若有N 个数据点需要分为 K 个 cluster ,k-means 要做的就是最小化。

不过就算法由1变成100次结果还是不变的。这也表明KMeans算法的其中一个缺点:需要根据初始聚类中心来确定一个初始划分,一旦初始值选择的不好,可能无法得到有效的聚类结果

5 总结

聚类KMeans算法是聚类分析中的常用算法,它是数据划分或者分组处理的重要方式,目前在电子商务、生物科学、图像处理、Web文档分类等领域都得到了有效的应用。比如利用聚类KMeans将客户细分为是哪种用户类型,以便于推荐合适的产品。目前,对于KMeans还有很到要优化的地方,比如如何自主式聚类,尽量避免由于初始值选择,而影响到聚类的效果。

参考文献:

[1] 编程指南[EB/OL].http://spark.apache.org/docs/latest/programming-guide.html,Spark,2013.

[2] 机器学习库[EB/OL].http://blog.csdn.net/johnny_lee/article/details/25656343,2013.

[3] 最近的spark文档[EB/OL].http://spark.apache.org/docs/latest/,2014.

[4] 聚类算法的研究与应用[EB/OL].http://www.docin.com/p-599574449.html,2014.

猜你喜欢

机器学习聚类大数据
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
基于大数据背景下的智慧城市建设研究
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例