数据挖掘中聚类分析算法及应用研究
2017-06-13张超群孟海东
张超群+孟海东
摘 要:聚类分析算法在数据挖掘领域、设备学习领域以及统计学领域等均有着重要的研究和应用意义,同时在实际的应用中也有着广泛的地位。对此,本文详细分析数据挖掘中聚类分析算法及应用。
关键词:数据挖掘;聚类分析算法;应用
DOI:10.16640/j.cnki.37-1222/t.2017.11.148
聚类分析算法是一种将给定数据实现集划分为多个类别的过程,同时同一种聚类当中数据的对象有着较高的相似性,不同的聚类之间的数据对象具备较低的相似度。一般情况下,就使用距离来看,聚类的数据之间有着较高的使用特性,能够让数据使用者更快的掌握更多的可实用性数据。对此,探讨数据挖掘中聚类分析算法及应用具备显著意义。
1 聚类分析算法
1.1 数据挖掘对聚类分析算法的主要要求
就当前的数据挖掘技术以及数据挖掘技术的应用而言,当前对聚类分析算法的主要要求有以下几点:(1)可拓展性。聚类分析算法必须对大数据、小数据都能够实现有效的计算和划分,大至网络数据,小至企业人数数据等;(2)处理不同类型的数据功能[1]。聚类分析算法必须兼备不同的类型数据处理功能,例如能够处理经济数据也可以处理工程类数据;(3)发现任何关联性的聚类。聚类分析算法不仅能够发现具备类似大小、密度的球状聚类或圆形聚类,还能够发现各种任意形状但是具备一定类似性的聚类;(4)降低用户的输入参数两。用户在输入参数量时必然带有一定的主观性,所以在参数量输入得够多时则整体分析结果也就更加主观化,整体分析结果也就显得越发不准确。对于聚类质量而言,输入参数量的大小有着直接性的影响,所以应当尽可能的降低用户的输入参数量,从而最大程度改进聚类分析算法的分析效果,同时降低用户的分析负担;(5)对干扰数据具备较强处理能力。在实际应用过程中,想要真正展现聚类分析算法的使用能力,就必须最大程度降低干扰数据的影响,借助聚类分析算法对干扰数据给予针对性的处理,促使处理对象当中的质量差尽可能控制到最低[2];(6)尽可能降低对输入数据顺序的敏感性。衡量聚类分析算法的优劣势最重要指标之一就是对输入数据的顺序是否存在敏感性,如果不存在敏感性,则说明聚类分析算法的使用特性较好,反之则较差;(7)高维问题。聚类分析算法在处理低维数据以及高维数据的过程中都必须具备较好的性能;(8)约束聚类。聚类分析算法能够在特定的条件以及相应的规律之下约束聚类的质量,从而确保聚类之间有着较高的使用价值相似性;(9)高度可用性和可解释性。聚类分析算法应当和特定的解释以及相应的目标之间有着较高的相似性,这也是确保聚类分析算法实际使用能力的直接性表现。
1.2 主要的聚类分析算法
在实际的应用过程中,因为数据类型、目的以及要求之间的不同,对聚类分析算法的需求也存在明显的差异,所以在实际的应用过程中应当选择适当的聚类算法,这也是非常重要的。应用多种聚类分析算法使用在同一个数据集当中,能够分析出数据潜在的使用价值以及可买搜狐性的特征,并为进一步的数据挖掘以及探索提供有力基础。典型的聚类分析算法主要包含基础的的密度方法、层次方法、划分方法以及基于网格的方法。
划分方式:给予一定具体的数据集,例如其中包含一亿个数据对象,划分的方式就是将数据集划分为多个聚类,例如100个聚类,每一个聚类都应当符合下列的两个条件。首先,每一个聚类至少包含一个数据对象;其次,每一个数据对象只能够属于一个聚类。简单而言,就是一亿个数据对象按照相应的规律被划分在100个聚类当中,同时每一个数据只能够存在在一个聚类当中。但是,在一些模糊划分的方式当中能够适当的放宽限制程度。所构建的聚类应当成为最优化的客观划分,进而促使同一个聚类当中对象的距离最小,不同的聚类之间对象的距离应当尽可能的扩大。聚类的相似度高低一般可以作为衡量划分方法本身质量的直接性标准,有效的划分方式可以促使同一个聚类当中的数据具备较高的相似性,而不同的聚类之间具备最低的相似度,最常用的划分方式主要为K-means和K-medoids算法。划分方式必须具备处理数据集的一次性装入内存功能,从而最大程度的限制在大数据集当中多方面应用。划分方式需要按照用户的需求划分为多个个数据,这也会导致主观判断的因素对聚类质量形成应想,划分的方式只是用某一个固定的规则进行聚类,就会导致聚类的形状不规律,聚类的结果准确率就比较低。
层次方式的输出能够为数据对象形成一个聚类树,层次方式分为自上而下、自下而上的分析方式。但是无论是哪一种方式,其都可以获得在不同粒度之上的多层次聚类结构,但是也存在相应的缺陷,例如在分裂以及合并之后,无法再回溯之前,这也缺陷同样也具备相应的积极性,所以在分裂以及合并的过程中,必须要考虑不同选择而导致组合的分裂问题。
2 聚类分析算法的应用
聚类分析算法就是从给定的数据当中探索出与数据对象具备关联性使用价值的其他数据,研究人员使用这一关联方式能够对聚类当中的数据对象实现统一性的分析处理。应用聚类分析作用在数据集当中,能够准确的识别出数据集的稀疏、稠密程度,从而更好的掌握整体的分布状况,并掌握数据屬性之间的价值关联性。在商业领域当中,聚类分析能够帮助营业部门更好的掌握潜在的用户特点以及群体关联性,并按照不同的特性以及消费心理制定针对性的营销方式,从而提升营销的成功性。在生物学的领域当中,聚类分析法主要是应用在规划动植物的层次结构当中,并按照基因的功能实现分类,并对人类的基因构造有更加深入和全面的掌握。在经济领域当中,聚类分析算法能够对不同地区的经济发展情况进行整体性评价,并且对同一个地区的不同城市之间经济发展的能力实现准确性规划。聚类分析算法还能够应用在挖掘网页信息当中的潜在价值信息之中,在数据挖掘应用的领域中,聚类分析算法既能够成为一个独立的使用工具,还能够对数据对象实现合理的分类和规划,从而作为其他数据挖掘算法的首要处理手段,让整个数据挖掘过程更加有效。
3 结语
综上所述,伴随着数据挖掘技术的快速发展,企业、部门必须时刻掌握全新的数据挖掘技术,其中也必然包含聚类分析算法,借助聚类分析算法,快速的掌握大量想关联并且有使用价值的信息数据,从而实现数据分析和数据挖掘的目的。
参考文献:
[1]焦亚召.基于多核函数FCM算法在数据挖掘聚类中的应用研究[D].昆明理工大学,2015.
[2]浦慧忠.基于数据挖掘的一种聚类分析方法在PDM系统中的应用研究[J].计算机与数字工程,2016,44(11):511-512.