大数据中数据挖掘模型的模糊改进聚类算法研究
2020-11-25张博
张博
(深圳博十强志科技有限公司 广东省深圳市 518000)
模糊聚类算法在数据挖掘模型中的主要作用为通过对比不同集群的相似度,实现对数据的分析,为数据的深入挖掘提供依据,因此,为了提高大数据分析的效率、准确性,应深入探讨模糊聚类算法的改进方法,并根据算法的形成构建,找准算法改进切入点,以搭建出更加优质的模糊聚类算法体系,促进数据发掘模型性能水平的优化发展。
1 模糊聚类算法的常规运行步骤
模糊聚类算法是一种基于模数学理论体系,形成的数学方法。其从基础理论上来看,与经典集合论中所强调的非黑即白理念存在显著的差异,同时,也能突破该理念,对具备不确定性特质的数据,进行精准的筛选与分析。但从本质上来看,模糊聚类算法的作用原理是将差异较小的数据划分为一类,并确保类与类之间具备明显差异,以实现数据聚类分析的目的。在此过程中,人们需要基于模糊算法,建立模糊矩阵以描述对象的属性,然后根据该属性进行聚类处理,再利用模糊数学理论、算法,总结出样本之间的模糊关系,以达到精准聚类的效果,因此,从整体来看,该算法的常规运行应分为以下四个步骤:
(1)计算出数据样本的距离矩阵;
(2)将矩阵中的元素缩到0 与1 中,使其成为一个模糊矩阵;
(3)构建模糊矩阵的等价性,并使用褶积,基于之前得出的模糊矩阵,构建一个模糊等价矩阵;
(4)使用样本数据,对矩阵进行赋值,实现模糊聚类,落实基于模糊算法的数据分析。
2 模糊聚类算法数据中心点确立改进
2.1 增量型结构算法
增量型模糊聚类算法的最显著特点是能够支持相对庞大的数据聚类分析,因此,从大数据的视域下来看,数据挖掘模型所用的模糊聚类算法主要为增量型。在此过程中,该类型模糊聚类算法的运行原理为,先对大规模的数据进行拆分,使其转化为多个小数据块,以便于将其顺利地读入内存,此后,通过找出小数据块的中心点,结合相应的算法,确立原有大规模数据的中心点,为后续距离矩阵的构建提供依据。而其中,中心点确立过程中应用的算法有两种,需要合理选择算法,以优化模糊聚类算法的落实效果,因此,可以以此为改进切入点,通过对比两种方法,来进行科学的选择,达到算法改进的效果。在算法的选取应用中,其中一种应用方法是,先逐一找出小数据块的中心点,再采用聚类算法,建立中心点的集合,以找出所求的中心点,而在模糊聚类算法中,这种中心点计算方法的应用主要体现在OFCMD 这一增量型算法中。另一种中心点计算方法是,将迭代计算应用在小数据块的中心计算上,即基于某一小数据块中心,采用迭代算法,计算出下一中心点,直至求出所需中心点为止,而该种应用方法则通常应用在SPFCM 这一增量型模糊聚类算法中。由此可以看出,以OFCMD 为代表的聚类算法相较于SPFCM 算法,所需的迭代计算步骤更少,适宜运行更加快捷,因此,可以通过选用OFCMD 算法,来达到模糊改进聚类算法的效果。
2.2 OFCMD算法
在OFCMD 算法中,需先计算出小数据块的中心点,然后用聚类算法,用这些中心点,构建出一个新集群,继续使用聚类算法,对该集群进行计算,以得出最终的中心点。在此过程中,该算法所选取的小数据块中心点数量,通常是用户提前确定的,所以,而一般情况下,用户往往难以明确小数块,在整体数据中的分布情况,导致其无法准确确定选取多少个中心点,才能保证最终的中心点确定结果正确,影响了OFCMD 算法优势的发挥。为此,在该算法的实际应用中,需采取相应的改进措施,以优化该算法的应用效果,提升模糊聚类算法的运行水平。在改进过程中,可以基于实际需求设置固定比例,并将整体数据中心点选取权重与整体数据权重之间的比值,与固定比例进行对比,以选出具有代表性的中心点,进而将对个数的要求,转化为对权重的要求,来减少数据块分布问题对中心点选取的影响,达到算法改进的目的,提升模数聚类算法的运行效果。
3 模糊聚类算法矩阵改进
3.1 距离矩阵的形成机理
在模糊聚类算法中,距离矩阵需要通过对数据的相似度,才能做出相应的类别划分,因此,距离矩阵的形成原理涉及到大量的相似度概念。从距离矩阵的形成机理来看,其主要是由一组点间两两相互距离所组成的矩阵,并能够通过衡量点间相似度、相异度来描述距离。其中,相似度的区间为[0,1],数值越小相似度越小,相异度区间也为[0,1],数值越小相异度越小。基于此,采用距离计算度量方法,来描述数据间的相似、相异程度,即可形成距离矩阵。在此过程中,需要采用相应的度量计算方法,构建相似度、相异度矩阵,以代替算法运行所需的原始数据,形成具有通用性的距离矩阵,因此,可以将相似度、相异度矩阵建设,以及度量方法应用作为模糊聚类算法的改进切入点,并通过准确地求取相似度、相异度矩阵、合理应用距离度量方法,达到算法改进的效果。
3.2 欧氏距离度量方法
在距离矩阵的建设中,为了提高距离矩阵建设的效果,可以选用欧氏距离度量法、余弦相似度度量法这两种度量方法,来描述距离的类型,并用相似、相异度为两点间的距离提供更加详尽的描述,实现算法的改进。其中,欧氏距离度量法,即欧几里得度量,其是指对m 维空间中两点实际距离的度量方法。在该度量法背景下,二维空间中的两点间距离可以表示为,其中,两点坐标分别为(x1,x2),(y1,y2),三维空间两点间距离可以表示为,其中,两点坐标分别为(x1,y1,z1),(x2,y2,z2),由此可以推断出,m 维空间中,两点间的距离可表达为,其中,两点坐标分别为(x1,x2,x3……,xn),(y1,y2,y3……,yn)。借助该种度量方法,人们可以基于上述两点间距离表达式,推导出闵氏距离表达式,即当P 为1 时两点间呈曼哈顿距离、P 为2 时两点间呈欧氏距离、当p →∞时两点间呈切比雪夫距离。
3.3 余弦相似度计算
在距离矩阵的改进建设中,余弦相似度计算是指一种通过计算两个向量间夹角余弦值,来度量数据间相似度的距离度量方法,其度量结果为以相似度作为描述工具的数据间距离情况,能够较为全面、准确地反映出数据间的距离状态,增强距离矩阵运行性能。在此过程中,可以基于欧里几得点积公式,即其中,a、b 表示两点向量,来进行余弦值的计算。在计算过程中,需根据点积公式,推导出相似性计算公式,即:,其中,当余弦值为1 时说明两个数据之间的相似度达到最大,两者距离最小,当余弦值为0 时,则说明两个数据之间不存在相似性,两者的距离最大,且相互独立。
4 模糊聚类算法问题改进措施
4.1 增量型算法的局限性问题
根据上述描述,在增量型算法的改进中,将对中心点个数选取的要求,转变为对权重的要求,以达到优化中心点确立准确性的效果。但该措施在实际应用中,虽然该措施在很大程度上,降低了数据对象分布状态对中心点确立的影响,但当数据对象均分布在集的边缘位置,那么就会形成全部数据对象权重均较小的情况,因此,无法找出具有明显代表性的数据,导致该种算法依然缺乏普适性,影响了该改进方法的落实效果,造成了增量型算法的局限性问题,需要采取相应的措施,针对该问题,进行深入优化,以实现模糊改进聚类算法的目的[1]。
4.2 增量型算法改进措施
在改进措施中,为了优化增量型算法性能,可以采用最小权重阈值法,对中心的确立加以把控,并待小数据块模糊聚类处理完毕后,按照此过程中,得出的中心点权重与整体数据权重比,确定中心点的最小权重阈值,然后基于此,得出中心点选取个数,再按照这个个数,组建中心点新集群。此后,再次进行模糊聚类计算,得出权重矩阵,并从中选取权重最大者作为整体数据的中心,最后,围绕该中心,按照距离度量结果,对数据进行分类,实现模糊聚类计算。在此过程中,由于该最小权重阈值的形成是以所有小数据块的模糊聚类结果为基础,因此,其能够描述整体数据的中心点权重范围,避免了数据对象集中分布在边缘的情况,以确保中心点的选取具有足够的代表性,改善了上述增量算法中存在的局限性问题,提升了模糊聚类算法的运行水平。基于此,经过改进后的增量算法步骤为:
(1)定义中心点集合,并将集合中的中心点定义为每个数据块中权重最大的三个数据;
(2)通过权重矩阵算法、隶属度矩阵算法,处理数据块,构建权重、隶属矩阵;
(3)借助上述矩阵得出最小权重阈值,再根据最小权重阈值,确定集合中中心点数量的最小值;
(4)从每个数据块中选择3 个中心点,组成新集合;
(5)得出该集合的距离矩阵,并基于此,实现增量型模糊聚类算法的改进优化,保证聚类结果的准确性[2]。
5 模糊改进聚类算法改进验证
5.1 验证用算法确定
根据上述论述,最终确定的模糊改进聚类算法思路为,首先,将整体数据划分为小数据块,并计算出其权重矩阵V、隶属矩阵U,并将其作为最小权重阈值的基础依据。其次,按照中心点权重与整体数据权重比,确定最小权重阈值,再根据与最小权重阈值的接近程度,从每个小数据块中选取m 个数据的权重,构建出一个新的集群。再次,从集群中选择三个权重最大的数据,作为中心点,再将该中心点与其他小数据块的中心点组成一个新的数据块。最后,再次采用最小权重阈值法,确定该数据块的中心点,此时,该中心点即为整体数据的中心点,利用该中心点,结合距离矩阵,即可对整体数据进行模糊聚类。在此过程中,需要注意,确立改进算法之前,应做好相应的参数定义,并基于传统方法,结合改进措施,采用拉格朗日乘数法,针对权重矩阵、隶属度矩阵的计算公式,进行更新推导,使其能够适用于新的增量型模糊聚类算法的运算思路,以保证该算法的顺利落实,增强数据挖掘模型的运行效果[3]。
5.2 验证用算法应用结果分析
待算法改进思路明确后,还要将经过改进后的算法投入到实际应用中,以验证其在实践上的可行性与正确性,以保证此次算法改进的有效性。在实验中,将经过改进后的算法与传统的算法进行了对比,以检验算法的改进措施是否产生了显著的效果,达到算法验证的目的。在此过程中,实验参数值为0.1、最小权重阈值为1.5、数据集聚类数为k、停止阈值为1*10-5、用户模型数据聚类数为3,同时,计算遵循的规则为传统增量型模糊聚类算法规则,且所划分的数据块依次占总体数据比例的10%、20%、40%、60%。实验结果显示,经过改进后的算法,其聚类准确性相较于传统算法,高出了10%左右,而且呈现出了更强的普适性,因此,经过改进后的算法对原数据的要求不高,可以适用于各类数据分析环境。将其用于数据挖掘模型的建设,能够增强模型的数据分析能力,深入优化大数据的挖掘效果,有助于大数据技术水平的发展[4]。
6 结论
综上所述,增强算法改进策略的落实效果,能够提高模糊聚类算法的数据分析能力。在数据挖掘模型中,改进模糊聚类算法可以增强算法类型选用的准确性、保证距离矩阵建设效果、改善传统算法中的问题、明确改进后算法的可行性,从而提升大数据技术的运行水平,为信息化时代的发展提供助力。