APP下载

基于高维聚类的文本大数据挖掘算法仿真

2023-07-29郭红建陈一飞梅轶群

计算机仿真 2023年6期
关键词:数据挖掘聚类数值

郭红建,陈一飞,梅轶群

(南京审计大学信息工程学院,江苏 南京 211815)

1 引言

当前数据挖掘领域发展迅速,其面临的问题与挑战也越来越多。多媒体时代的到来,全球各地的用户通过多种载体模式交流和获取信息,但是在数据挖掘时经常会碰见高维数据[1],这些高维数据中包含冗余、空间维度复杂的信息,挖掘其中并获取自己想要的信息较为困难[2],导致时间、资金和精力的巨大损失。因此,如何有效地从高维数据中提取到想要的信息成为研究的重点。

目前相关学着已经提出了很多经典的文本挖掘方法,例如:黄文秀等人[3]提出一种基于改进的k最邻近算法的海量数据挖掘方法。以文本大数据集合为样本集,确定密集样本的分布区域,并对其精准划分,使文本数据分布更加均衡。基于此,利用改进的k最邻近算法对处理后的文本大数据分类,完成文本的挖掘。但是该方法在挖掘文本前,会将数据对象进行相似编码,数据对象需要迭代几百次,步骤复杂,运行效率低。牛奉高等人[4]提出一种基于加权网络改进的短文本相似性挖掘方法。首先,在语义网范围内对文本共现频次实现加权,针对短文本的权重识别效率偏低的问题,计算短文本中每个词语的加权复杂网络综合特征值,并通过聚类处理最终得到文本挖掘结果。但此方法对初始数据点较为敏感,易出现剧烈合并错乱的现象,风险较大,其次,在处理高维数据时,目标函数运算过程中会发生收敛的状况,导致算法结果不精准。

为此,提出一种基于高维聚类算法的文本大数据挖掘方法。通过等距离特征映射算法[5]将多维数据转换到低维空间中,得到全局最小值,降低了空间的维数。并在传统的模糊聚类方法上作出改进,为减少独立数据对聚类中心的影响,从数据类型的隶属性上提高权值系数[6];以信息熵作为衡量聚类项目的标准;通过密度函数提取原始聚类中心[7],当平均信息熵达到做小数值时,此时的聚类中心为最佳聚类数,聚类技术的操作有效,精度准确。

2 大数据降维

等距离特征映射算法能够在保证多维数据的几何特征不变条件下,将多维数据转换到低维空间中。通过计算数据节点间距离,保证在最小损失原始信息的同时降低数据维数。构建邻居图、嵌入维层得到全局距离最小值,对于距离相近的两个点,用空间最短距离表示;对于距离较远的两个点,用相邻的空间最长距离表示。

第一步建立邻居图G,Y表示输入空间,I,J表示输入空间内的任意两个点,M表示距离的流形,通过一个独立的点连接所有相邻的点。

第二步计算邻居图G中最短直径空间距离dG(I,J),推导出流形M里所有相对两点之间的测量距离dM(I,J)。当I,J两点相连时,可以描述为dY(I,J);当I,J两点不相连时,则dG(I,J)=∞。对于K=(1,2,…,N)的任意数值,使用min{dG(I,J),dG(I,K)+dG(K,J)}来替换输入dG(I,J)。最后用DG=dG(I,J)数值矩阵描述邻居图G中点对之间的最短距离。

第三步嵌入d维,凭借图距离矩阵[8]DG=dG(I,J),在d维度的空间Y内,空间Y可以最大限度的保证数据流形的几何特征。

在Y的坐标向量yi内,通过误差函数[9]降低两点之间测量距离的错误率。

(1)

式中,L2代表矩阵模式,将距离转换为内积,DY代表{dy(I,J)}的矩阵,DG代表{dG(I,J)}的矩阵,基于上述在保证原本数据的几何特性前提下,得到了全局的最小数值,降低了原始高维大数据空间的维数。

3 关键特征提取

编程模型[10]是一种并行计算模型,由于降维后数据内会包含一部分用户隐私信息,这部分信息被加密了,很难提取其特征和文本数据挖掘,难以保证挖掘结果的F1值,为此,凭借编程模型中的汇编程序与再生产两个过程,实现对加密大数据关键特征映射估计。

汇编程序函数将(密钥中心,估计值)作为输入,通过一系列的处理,将新的(密钥中心,估计值)作为输出,具体操作过程如图1所示:

图1 映射任务执行过程

在生产函数将密钥中心作为输入,经处理后,输出结果最终形成最佳估计值,具体操作过程如图2所示:

图2 导出任务执行过程

为更好地提取大数据内关键特征,以便获得最佳文本聚类中心,对其相空间重建[11],避免在特征提取时破坏降维后的数据特征。

设定{q1,q2,…,qN}为一维空间序列,重建的相空间为:

(2)

r≥2a+1

(3)

其中,r代表嵌入维数,a代表奇异吸引子的维度,ε代表时延,当发生r≥2a+1的情况,就会破坏数据内的几何结构特征。

关联维[12]可以描述数据在多维空间中稀疏浓密程度。在大数据相空间重新构造的基础上,使用关联维提取相空间矢量,通过两个矢量[13]的最高限度分量差计算两个矢量之间的距离,建立公式如下

|QI-QJ|=max1≤δ≤r|QIδ-QJδ|

(4)

其中,δ表示常数。将I,J两点间隔低于正数l的矢量作为关联矢量,在重建空间中发现h点,那么在h2组内的占比为关联积分,H表示海维赛德函数,计算出矢量对数。

(5)

(6)

关联积分Sh(l)在发生l=0的状态下与l有关联,描述公式如下

(7)

式中,C表示为关联维数,基于此可选取合理正数l,近似值为

(8)

在空间内数据样本相对应的关联度低、分布散乱、不集中,不同数据样本点数值与实际数值之间存在大幅度偏差,σI表示点I序列分解的标准差,z表示倍频因子,重新组建的空间分布XI关系

(9)

在提取的特征样本中,若XI数值较大,说明数据特征样本分布稀疏,关联性低;若XI数值较小,说明数据特征样本分布密集,关联性高。通过重建空间分布关系能够识别不同信息类型特征集合。

4 文本大数据挖掘

4.1 聚类中心密度函数的计算

(10)

得到样本点密集程度后,提取样本中均方根测量距离的二分之一,计算公式如下

(11)

其中,样本点xi的分布越密集,说明Fi数值越大,使Fi=max(Fi,i=1,2,…,N),计算改进后的初始数据聚类中心的密度函数描述为:

(12)

聚类的分类越完善,任意数据点在其聚类上的归属感越高,所提方法使用信息熵为衡量聚类数目,迭代中转换聚类中心,更改聚类数,当平均信息熵转换到最小数值,其相对的聚类项目为最有效。uij代表在i空间类别的j数据样本的聚类程度,B代表聚类中心数量,最小值的平均信息熵ϖ所对应的聚类数量为最优。平均信息熵的计算公式如下:

(13)

4.2 改进隶属度

为了实现最佳聚类结果,基于数据类型隶属度提高权值系数,改进隶属度[15]可以将聚类中心范围变大,计算公式如下

(14)

当y等于1时,表示Nij=uij;当uij等于0时,表示Nij=0;当uij等于1时,表示Nij=1。在聚类算法迭代中,隶属度数值降低导致数据对象对聚类中心的影响范围变小。当y数值越大,隶属度的上下浮动越低,聚类结果精准清晰;相反,当y数值越小,隶属度的上下浮动越高,聚类结果收敛且不精准。

4.3 文本挖掘

为实现文本的最终挖掘,需优化聚类数目以及模糊加权系数的不足,在数据对象本身增加一个隶属权值Nij,使相应数据中,隶属度高的特征可以提升对聚类挖掘中心的影响程度,隶属度低的特征可以减少对聚类中心的影响程度,算法步骤如下:

1)初始化聚类数c=2,对其迭代,当迭代次数为b=0,提取指数权重数值m。

2)计算数据的隶属度:

(15)

3)通过对隶属度的改进,降低对聚类中心的影响。

4)更新聚类中心:

(16)

5 研究方法性能验证

5.1 实验环境

文本聚类算法的性能受多因素影响,为证明提出聚类算法的文本挖掘有效性。使用自建源代码文件夹检验,此文件夹含有视频数据、声音数据、图像数据、代码模式数据、文本数据。分析每个源程序数据信息,完成大数据问卷的总列表,建立实验软件环境如图3所示。

图3 实验的软件环境

由图3可以得出,此实验软件环境的主体界面含有菜单栏、页面显示、查询列表、关键词语提取。通过输入关键字,可清晰查询到文本聚类算法相对应的功能函数。

5.2 指标量化测试结果与分析

在文本挖掘过程中,选定指标来验证所提方法的挖掘性能。评价挖掘可描述为混淆矩阵,TP表示被挖掘出的文本数据,FP表示被挖掘的非文本数据,FN表示未被挖掘的文本数据,TN表示未被挖掘的非文本数据。

1)查准率为文本被正确挖掘出的数量与预测文本数据数量的比值,准确率计算公式为

(17)

2)查全率为文本被正确挖掘出的数量与实际文本数据数量的比值,查全率计算公式为:

(18)

3)F1值表示查准率与查全率之间的调和平均值,因为二者里面存在非线性关系,会存在查准率高但查全率低的情况。通过计算得到的F1值越大,代表查准率与查全率之间不一致结果越小,计算过程为

(19)

实验选取文献[3]提出的基于改进的k最邻近算法的海量数据挖掘方法和文献[4]提出的基于加权网络改进的短文本相似性挖掘方法作为实验对照组,与所提方法的指标测试结果相比较,三种方法挖掘结果的调和平均指标F1值如图4所示。

图4 不同方法挖掘结果准确率对比

图4中能够看出,基于改进的k最邻近算法的海量数据挖掘方法的F1值在0.90到0.94之间;基于加权网络改进的短文本相似性挖掘方法的F1值虽然波动更为平稳,但是F1值总体较低;所提方法F1值随着实验次数增加出现小幅度的波动,但是可稳定在0.96到1之间,证明所提方法的数据挖掘精准。

5.3 聚类可视化效果评价

将采集的5组实验数据放置在降维后的空间内,深度数据聚类。不同方法的文本聚类结果如图5所示。

图5 不同方法的文本数据聚类结果

分析图5可知,由于视频数据集与图像数据集相似度高,文献方法在聚类过程中会出现错分的问题,且使代码模式数据、文本数据聚类中心过近,难以明确挖掘各类数据信息。应用所提方法完成本文聚类处理时,不仅聚类边界清晰,而且相似点的聚类中心距离最远,最大程度避免了后期发生数据挖掘错误的情况。

6 结论

本文将多维数据转换到低维空间后提取数据的关键特征信息,利用改进模糊聚类方法对大数据环境下文本信息挖掘,得到文本数据的特征向量,使用密度函数得到聚类中心,输出最终挖掘结果。通过实验证明了本次研究对文本数据挖掘实际应用具有重要意义。

猜你喜欢

数据挖掘聚类数值
数值大小比较“招招鲜”
探讨人工智能与数据挖掘发展趋势
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
基于Fluent的GTAW数值模拟
一种基于Hadoop的大数据挖掘云服务及应用
基于MATLAB在流体力学中的数值分析
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例