聚类分析算法应用研究
2017-04-01张麟潘红岩
张麟+潘红岩
摘要:聚类分析算法是数据挖掘中常用的一种算法,通过该算法把一些无规则数据提炼成有规则数据,为其领域发展提供了技术保障。本论文主要从聚类分析算法、聚类分析算法描述两方面进行阐述聚类分析算法应用研究,希望能为研究数据挖掘的专家与学者提供理论参考依据,为数据挖掘快速发展提供技术保障。
关键词:聚类分析算法 应用研究 算法描述
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)10-0143-01
聚类分析(Cluster Analysis)就是将一组物理事物或抽象对象按照某种聚类规则或检验度量函数标准划分不同聚集组别的过程,其中被划分的若干相对独立的组为一个类,是一种无监督的学习方法。聚类分析方法是数据挖掘技术中的数据分析普遍运用方法之一,其功能最终实现被研究数据按照相关聚类分析算法进行聚类,对聚类的事物对象,最终要达到相似度大的对象在同一个聚类群组中,相似度小的对象在不同的聚类群组中,从而归纳出聚类数据对象的特征性。聚类分析中的“类(Cluster)”就是一组相似度较高的数据集合。聚类分析能够将一组事物或数据按照聚类算法规则进行聚类处理,根据聚类算法规则的不同而实现各自侧重的聚类分析结果。
1 聚类分析算法
根据聚类对象数据类型的不同,聚类分析分为R型聚类和Q型聚类,R型聚类是对变量型数据的聚类分析,Q型聚类是对具体观测值数据的聚类分析。对数据对象的聚类分析要借助于聚类分析算法来实现完成,聚类分析算法的基本定义为:
目标数据集合,对于数据集合中的任一数据元素,具有个特征属性,任一数据元素的属性特征向量集表示为。通过特定的数据分析处理准则对目标数据集进行聚类处理后,目标数据集被划分成具有个子集的数据类集合,,聚类结果数据集必须满足:
根据聚类分析所采取分析方法的不同,聚类分析算法分为基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法。
2 K—means聚类分析算法描述
对于给定包含个数据对象的数据集,按照标准偏移量的目标函数进行划分,形成K个聚类。具体操作过程为:
第一步:数据规范化处理。对数据对象进行规范化预处理,消除非法值及极值影响。
第二步:数据准备。计算各科标准差:
第三步:计算各初始聚类中心。
第四步:计算与聚类中心最近邻的数据对象,并合并成新类。
第五步:重新计算聚类中心值。
第六步:验证聚类收敛性。
if 聚类中心值無新变化
结束聚类 else 转入第四步 endif
第七步:进行各个类数据分析。
3 结语
总之,聚类分析算法是数据挖掘中一种常用算法,在数据挖掘过程中有很多算法,每种算法都有自己的优缺点,数据挖掘是一项极其复杂过程,一般情况我们都是多种算法结合起来一起应用,目的提高工作效率,提高数据挖掘的准确性,数据挖掘技术在我国应用领域比较广,并且取得一定成绩,在当今大数据时代,研究数据挖掘具有一定的现实意义,具有深远的研究价值。
参考文献
[1]吴多智.基于语义的手机类产品用户评论维度挖掘研究[J].安徽电子信息职业技术学院学报,2016(03).
[2]孙永辉.聚类分析在学生成绩分析中的应用[J].中国管理信息化,2016(06).
[3]巨晓璇,邹小斌,屈直,刘春敏.层次聚类算法在气象客户细分中的应用[J].河南科技,2015(11).
[4]许进文.数据挖掘中聚类分析算法及应用研究[J].计算机光盘软件与应用,2013(06).
收稿日期:2016-08-18
作者简介:张麟(1983—),男,黑龙江哈尔滨人,硕士,工程师,研究方向:数据库、数据挖掘。