面向大规模日志数据的聚类算法研究
2012-04-29李清沈彤关毅
智能计算机与应用 2012年5期
李清 沈彤 关毅
摘要: 针对大规模日志数据的聚类问题,提出了DBk-means算法。该算法使用Hadoop对原始日志数据进行预处理,并结合了k-means和DBSCAN聚类算法各自的优势。实验结果表明,相比k-means算法进行聚类分析,文中使用DBk-means算法进行聚类,能够取得更好的聚类效果,正确率可以达到83%以上。
关键词:
中图分类号:TP391文献标识码:A文章编号:2095-2163(2012)05-0042-04