APP下载

基于数据挖掘的聚类分析算法研究

2019-11-30刘卫华广东司法警官职业学院史婷婷仲恺农业工程学院信息科学与技术学院

数码世界 2019年8期
关键词:数据挖掘聚类分层

刘卫华 广东司法警官职业学院 史婷婷 仲恺农业工程学院 信息科学与技术学院

前言

在互联网科技飞速发展的背景下,尤其是大数据技术的不断发展和数据量的快速增加,其技术的使用率和使用效果以及数据挖掘能力都显著提升。只有在大量的数据中得到有利信息,找出发展的趋势,研究数据海洋中存在的规则和规律,才能找到存在数据内的知识和特点。因此,数据挖掘(Data Mining,DM)新技术诞生。

一、主要聚类分析算法介绍

(一)分层聚类方法

分层聚类算法是利用完善系统图形的方式实施分类的,在不同的叶结点中都有相符的样本,不同的树结点也会对应不同的分类,聚类算法依据使用者的需求在不同环节进行分析。在分层聚类算法中包含了凝聚算法与分裂算法。凝聚算法和分裂算法的区别就在于一个是自底向上,而另一个是自顶向下。凝聚算法是把样本视为一个整体,之后依据有关条件把附样本进行融合变成全新的一类,按照这种规律进行,一直循环到全部样本融合变成一个整体类为止;若是想使用分裂算法就有很大不同,首要进行的是把全部样本视为一个整体类,之后在其中选取距离比较远的样本实施分裂,一直开展到全部中只有一个样本的时候为止。

(二)分割聚类算法

在聚类算法中,分割聚类算法(PartitionalClustering,PC)是当前使用最为广泛的一种算法,在一般情况下使用数据样本进行板块的划分,之后在针对不同的评价指标对板块数据实施掌控,对于不符合板块中的数据分类到其他板块中,使用不间断聚类方法完成过程。比较常见的方法有K-Medoids 以及K-Means 等。其中K-Means 是利用随机和数据收集的方式进行板块分割的,分割完成后的板块是K 块,根据类中不同的权均值,来分别表示此类特点,并且计算其中的距离,把集中的数据分别调至附近的类中,针对M 实施重新计算,计算完后和之前计算结果进行对比,最终完成聚类过程。K-Medoids 在整个算法中属于类的代表项,在样本选取之后,把样本附近的子集融合变成一个类,目标函数指的是样本附近的距离有着相似性。

(二)大规模聚类方案

BIRCH 是利用分支因子调控来设置B 与门槛值T,在根点出发不断对数据和节点进行分析,依据符合门槛值数据的状况来完成吸收与构造修正,得出CF 数值而且通过有关聚类算法对有关数据进行聚类分析。这种算法只具备一次的扫描数据,在时间算法方面有着比较复杂的性质,所以在数据量比较的情况下得到了比较广泛的应用。CURE 算法基本使用的都是数据抽样的方式,对相关数据进行样本分析,把不同的类和附近距离较短的类型联合起来,建立一个较大的heap。如果类的数值在大于k 的情况下,要使用较小的类进行融合使用,一直到满足需求条件为止。CURE 算法使用的基本上都是抽样技术,所以时间的难度是O(K2),其中K 是抽样中的样本数量。

(三)模糊聚类

模糊聚类是使用点和类的数值来完成衡量的,点在类中属于一种程度的表达,该表达对于类界限不清楚具有非常良好的应用效果。在这种算法中,比较常见的类型有PCM 和FCM(Fuzzy c-means) 等。其中PCM 算法是对每个数据点进行计算与比较,只要是数值在满足条件的基础上,还要在产生隶属度的过程中符合基本公式,在这种基础上就没有归一化的约束条件了。利用这种方式形成了每个类之间有了相互独立的特点。FCM 算法是利用迭代计算聚类来完成目标函数不断变化的,在新函数和函数之间出现了不一样的情况时,当新的目标函数与上一次目标函数值之差小于或迭代次数大于T,若是没有发生上述情况就要对矩阵运算进行修正。

(四)基于栅格的聚类

在栅格聚类算法的基础上对拓扑构造进行继承,把点的处理变成空间方面的处理,利用空间划分来实现聚类的效果,其中最大的优势就在于数据排序方面和敏感程度,能对属性不同的数据进行处理和挖掘。STING 算法主要针对的是区域查询,利用数据构造和信息存放,将每个节点划分到分层数中。对STING 算法不断完善与改进,得到STING+算法,两者在分层构造上有着很多相似之处,主要应该在动态变化和数据挖掘方面。在信号处理部分使用Wave Cluste 算法比较便捷,其对数据和数字的结构识别方面有着较强的分辨率,突出的优势有:(1)可以对高维空间数据进行处理;(2)具有较强的抗干扰性;(3)聚类效果非常好。栅格的分层构造可以通过Fractal Clustering 算法,此计算方法的优势在于:(1)可以找出不规则的类;(2)使用的处理方式符合在线处理要求。

二、新发展的聚类算法

在当今时代中,机器学习和人工智能等技术都不断涌现,因此,聚类算法变成了数据挖掘方面的热门算法。要想不断提升数据处理的范围和能力,部分研究人员对聚类开展了更加深入的分析,从而产生了很多新的聚类计算方式。其中使用较为广泛的有:聚类集成算法、核聚类算法、不确定聚类算法、基于熵的聚类算法、包括模糊聚类、粗糙聚类、谱聚类算法、球壳聚类算法、基于粒度的聚类算法以及量子聚类算法等。为了得到大量的聚类数据,马文萍等人在这种背景下,把差分免疫克隆聚类中的硬聚类变成模糊聚类。为了实现非规则程序的不断划分,李远成等人研究出一种模糊聚类形式的划分方法。由于在时间方面有着很多限制,为了使其在时间算法方面具有简单性质,刘解放等针对此问题,在贝叶斯模糊聚类中引入加权机制,提出了加权贝叶斯模糊聚类算法,提升了此方法的有效性。

三、结论

聚类算法在完善与创新过程中,不断融合机器学习、数据挖掘、程序识别等方面的知识。在未来的发展中,智能聚类会与支持向量机、模糊逻辑以及神经网络等先进技术融合的更加紧密,把聚类分析和群智能两者实施更好融合将是未来研究的重点。

猜你喜欢

数据挖掘聚类分层
一种傅里叶域海量数据高速谱聚类方法
改进支持向量机在特征数据挖掘中的智能应用
高中分层走班教学模式探究
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
有趣的分层现象
雨林的分层
面向WSN的聚类头选举与维护协议的研究综述
改进K均值聚类算法
软件工程领域中的异常数据挖掘算法