改进K—means算法的MapReduce并行化研究
2016-05-31李兰英董义明孔银周秋丽
哈尔滨理工大学学报 2016年1期
李兰英+董义明+孔银+周秋丽
摘要:针对K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢的问题。本文提出了改进的K-means算法,首先用模糊聚类的思想对数据集进行模糊分类,其次采用动态计算聚类中心的方式对数据集进行二次分类,最后将算法在MapReduce模型上进行了实现.实验结果表明,改进后的算法不仅提高了加速比,而且算法的收敛速度更快。endprint