基于文化—聚类混合算法处理海量数据问题的研究综述
2019-09-19贾丽丽
贾丽丽
文献[1-9]分别提出了基于核心集的模糊聚类算法、随机抽样的聚类算法、基于平衡树结构的一种增量式聚类算法、基于单元和密度的GARDENHD聚类算法、增量式的聚类算法、基于谱聚类的增量式聚类算法来处理海量数据问题,但上述聚类算法都是使用硬聚类方法,这种算法与现实问题不够匹配。为克服以上缺陷,文献[10]提出模糊聚类中的隶属度表示一个数据属于所有类的程度解决现实问题更符合。文献[11-12]分别提出了单通模糊C均值聚类算法、在线模糊C 均值聚类算法,这两种算法都是将整个大规模数据分块后对每个块处理,最后从中获取到的信息构成数据集的中心点。文献[13-15]提出了有效的并行聚类算法,都是处理对象型的海量数据,也存在着通信代价高,总体效率低,算法太过简单、聚类精度受限于原始数据的空间分布等问题。为了克服以上缺点,陈爱国等研究使用多个代表点的适用于海量数据处理的聚类算法,提出了基于多代表点的LS-FMMdC 模糊聚类算法应用于海量数据问题,但LS-FMMdC 算法相对于聚类初始化具有敏感性。
综上,国内外学者提出了一些海量数据的分析方法,并取得了一定进展,但已有的方法主要是采用聚类算法,然而聚类算法存在两个缺点:1)对初始值选取非常敏感,会导致不能聚类的结果;2)容易陷入局部极值。上述两个缺点导致基于聚类算法来分析海量数据具有一定的局限性。随着物联网、“互联网+”等技术的广泛应用,各行业的数据规模将进一步扩大,数据类型也变得多样复杂,基于聚类算法来处理海量数据问题的局限性越显突出。因此,在已有成果基础上深入开展海量数据分析方法的研究具有重要的理论价值和科学意义。
1 基于文化-聚类混合算法处理海量数据问题的算法研究
1.1 基于文化算法的K-均值聚类混合算法研究(图1)
图1 文化-K均值聚类混合算法框架
传统的K-均值聚类算法存在两个固有的缺点:1)可能会导致不同的聚类结果,主要是由于初始值选取的敏感性;2)该算法很容易陷入局部优化,主要原因是该算法采用梯度下降法,搜索方向是沿着能量减少的方向进行。这两个缺点,限制了该算法的范围。为了克服K-均值聚类算法初始化敏感性和容易陷入局部优化两大缺点,引入文化算法加以改进,以文化算法为框架,K 均值算法为聚类模型的混合聚类算法,针对聚类问题建立文化算法的双层空间进化模型,设计适合于聚类问题的知识空间、群体空间、接受函数和影响函数,并使用多种知识进行指导,使得该问题在求解过程中能够利用经验知识来指导搜索过程,对于获得全局最优解有较好的效果,在聚类中起到了良好的指导作用,从而具有较好的全局寻优性能,能够有效地克服K-均值算法的两大缺点。适用于求解海量数据分析中的聚类问题。
1.2 基于文化算法的LS-FMMdC 新模糊聚类算法研究(图2)
图2 文化-LS-FMMdC新模糊聚类混合算法框架
LS-FMMdC 方法是一种新的能够有效处理大规模数据的模糊聚类算法,该算法具有更优越的聚类性能和参数的鲁棒性,但LS-FMMdC 算法在聚类初始选取时具有敏感性,需要进一步减少其敏感性。引入文化算法加以改进,以文化算法为框架,LS-FMMdC新模糊聚类算法为聚类模型的混合聚类算法,设计适合于LS-FMMdC 新模糊聚类问题的知识空间、群体空间、接受函数和影响函数,提高LS-FMMdC 方法的全局优越性,同时克服聚类初始化的敏感性。
2 基于文化—聚类混合算法处理海量数据问题的应用研究
2.1 文化—聚类混合算法在天文台海量数据分析中的应用研究
文化-聚类混合算法可以在云南天文台NVST(New Vacuum Solar Telescope)海量数据的计算与推理中,对NVST 海量数据进行深度挖掘,提取蕴含在异构数据中的模式和知识,聚合各种时间、空间模式,分析模式之间的相关关系,辨识各种模式的发展和演化机制,建立“由因导果”及“执果溯因”推理模型。
2.2 文化—聚类混合算法在医疗诊断海量数据分析中的应用研究
在医院图像灰度密度的研究基础上,文化算法的LS-FMMdC 新模糊聚类混合算法可以提出基于图像带修正的密度构造聚类算法,对现有图像数据挖掘算法加以比较筛选和改进,深入研究医学图像数据的核密度函数、数据分箱等,使图像更精确。