多节点网络时序数据聚类挖掘方法

2021-03-08贺萌

电子技术与软件工程 2021年23期

贺萌

（常州信息职业技术学院江苏省常州市 213164）

当前互联网已经逐渐渗透到了人们的日常生活和工作当中，在医疗、社交、购物等各个领域当中均有涉及，同时也进一步提高了对大规模时间序列数据的获取难度。随着网络当中时序数据的不断产生，通过对其进行合理的数据挖掘能够找出用户所感兴趣的知识、模式以及规律等重要信息，进一步为人们的生活提供便利条件。但由于时序数据与以往传统统计数据相比，仍然存在着较大的不同，使得当前大部分针对经典数据类型的挖掘算法和方式无法直接应用到网络中时序数据的挖掘中，尤其是对于多节点网络而言，其特殊的网络环境更是进一步增加了时序数据挖掘的难度[1]。针对时序数据的聚类分析是时序数据挖掘当中的一项重要内容，可将聚类看作是一种对时序数据分类和处理的手段。在多节点网络环境当中，时序数据普遍存在自相关性大、相似度高的特点，因此挖掘难度相对更大。针对这一问题，相关领域的研究人员进行了不断深入研究，并提出了多种针对这类型数据的挖掘方法，但目前在各个挖掘方法实际应用中均存在对数据的相似性度量自适应性差的问题[2]。基于此，本文开展了多节点网络时序数据聚类挖掘方法研究。

1 多节点网络时序数据聚类挖掘方法设计

1.1 构建时序数据存储结构模型

由于时序数据存在多种特有的属性，因此造成现有经典聚类算法无法直接在该数据当中应用的问题。针对这一问题，需要根据其特点为其重新构建相应的存储结构模型[3]。在对多节点网络环境当中的时序数据进行聚类挖掘时，首先应当对其存储结构的模型进行构建，通过模型对时序数据的模糊隶属度进行表达，以此方便后续各项操作的顺利开展。采用空间结构优化重组的方式完成模型构建，假设多节点网络当中存在的时序数据分布标量时间序列为x，则x的集合为：x=x1，x2，…，xn。在进行挖掘的过程中首先需要给定一个时序数据的统计属性和分类属性，以此获取到相应模糊关联规则分布序列。在聚类中心当中，通过稀疏矩阵的方式可实现对数据存储结构的表达，因此，将该稀疏矩阵作为数据的存储结构模型。由于在多节点网络环境当中，存在大量分布相对散乱的稀疏节点，因此为了模型构建的完整性，将各个稀疏节点引入到上述矩阵当中，得到如公式（1）所示的时序数据存储结构模型

公式（1）中，n表示为多节点网络节点；P表示为分布相对散乱的稀疏节点测能值；xn表示为多节点网络节点能量开销。完成上述对结构模型的构建后，再结合混合属性聚类方法将规模已知的数据集划分为多个聚类簇。同时，在实际操作过程中，为了能够捕获时序数据的特殊性质，在构建完数据存储结构模型后，采用循环神经网络的方式，根据时间发生的先后顺序，对该模型进行训练[4]。由于时序数据属于二维数据，因此为了保证训练的效率，选择利用长短记忆网络的方式对其进行降维表达，并结合序列学习方法，利用当前时刻下的数据对下一时刻数据进行预测的方式，完成对整个模型的训练，并得到相应的分布式重构训练结果，为后续相似度度量提供依据。

1.2 时序数据聚类挖掘分块相似性度量

为了确保后续在对时序数据进行多分辨融合聚类时，能够将相同聚类簇当中的时序数据全部归类，聚类前还需要对挖掘到的数据分块进行相似性度量[5]。针对多节点网络的运行特点，采用空间网格聚类的方式完成，并针对聚类得到的结果进行结构重组，重组后的输出结果可用如下公式表示：

公式（2）中，q表示为分块相似性度量结果；f表示为聚类挖掘分块相似性门限概率；k表示为相似隶属度。在按照公式（2）计算时，根据参数的协商策略，针对时序数据进行聚类处理。在虚拟数据库当中，针对各个时序数据的二元结构调整进行重组。在重组的过程中，综合时序数据的特点，采用二维结构的方式组合，并得到量化特征分布结果，实现对时序数据聚类挖掘分块相似性的量化。

1.3 基于多节点网络的多分辨融合聚类

在完成上述操作后，利用协同滤波方法对多节点网络环境当中的时序数据集进行提纯处理，将其中含有的干扰成分过滤，假设在该环境当中通过统计时序数据的到期时间窗口的函数如公式（3）所示：

公式（3）中，d表示为融合聚类中存在的干扰噪声；m表示模糊化程度的指数权重。通过上述公式可以看出，当d的取值为0时，则此时时间窗口函数的取值最小，此时通过协同滤波的方式能够实现对时序数据相似性特征和模糊度特征的提取。再利用干扰成分过滤的方式，将完成聚类挖掘后数据集合当中无关信息进行剔除，并针对多个聚类中心点之间的数据进行特征提取，结合能量剩余和簇首位检测的方式实现对时序数据的协同滤波。针对完成过滤后的数据，将其节点划分到各个聚类簇当中，实现模糊聚类，同时此时通过聚类输出的结果即为多分辨融合聚类结果。

2 应用实验效果分析

结合上述论述内容，从理论方面对挖掘方法进行了设计研究，为了进一步验证该方法在实际多节点网络环境当中的应用效果，选择将该方法代入到某多节点网络环境当中。在该多节点网络当中引入Visual Studio统计软件，并对实验开始时该网络环境当中的时序数据进行采样，设置数据采样长度为1100，按照本文上述挖掘思路，对数据进行聚类，并将其迭代次数设置为250次，将邻居数据集设置为220，将数据的聚类中心设置为（2.5,4.8）。已知在该多节点网络环境当中，用户与用户之间的相似性系数高达0.91，考虑到不同网络用户之间的共同评分，对其进行相似性度量，并将实验过程中时间采样的长度设定为20s，将节点数设置为150。结合上述各项参量的设定条件，对该多节点网络环境当中的时序数据进行挖掘，并得到如图1所示的原始时序数据分布图。

图1：原始时序数据分布图

图1中数据A～D表示为四种不同类型的原始时序数据，X表示为数据横轴分布坐标，Y表示为数据纵轴分布坐标。从图1可以看出，四种数据类型的分布主要集中在数据A：（0,0）、数据B：（1,1）、数据C：（2,2）和数据D（3,3），四个节点上，但同时各个数据在其相邻的位置上也存在少量的分布，分界区域不明显，并且两个相邻数据的分解上均存在两种或三种不同的数据类型。针对上述四种数据类型的分布，利用现有数据聚类挖掘方法无法实现，因此利用本文提出的挖掘方法对其进行聚类。在按照本文上述设计思路完成对该实验数据的挖掘后，针对最终得出的挖掘结果进行数据关联匹配度计算，其公式为：

公式（4）中，δ表示为聚类挖掘数据结果的关联匹配度；W表示为所有参与被正确聚类分配的时序数据总和；n表示为原始时序数据类型；x表示为多节点网络当中的总节点数。根据上述公式（4）计算得出四种不同原始时序数据在本文聚类挖掘方法处理后的数据关联匹配度，并将结果记录如表1所示。

表1：聚类挖掘后时序数据关联匹配度

表1中除数据C类型在样本为50Gbit时出现了时序数据关联匹配度小于0.9的情况产生，其余几种条件下，聚类挖掘后时序数据关联匹配度均达到了9以上。同时，针对关联匹配度小于0.9的情况进行分析得出，其主要是由于在挖掘过程中受到数据本身存在残缺问题的影响，与本文挖掘方法本身性能无关。同时在实验过程中，通过本文提出的聚类挖掘方法引入了循环神经网络结构，在实现提高时序数据信息价值的同时，降低了数据维度，保证了挖掘方法的运行效率。因此，结合上述实验及结果可以进一步得出，本文提出的聚类挖掘方法在实际应用中，能够实现对海量时序数据的高精度挖掘，提高了多节点网络中对数据的检测识别能力，并进一步促进了数据存储结构的优化。

3 结束语

综合本文上述论述得出，在对多节点网络当中的时序数据进行聚类挖掘时，可通过本文上述论述思路实现，并且得到更加符合多节点网络运行环境的挖掘结果。但由于研究能力有限，在进行应用实验时发现，本文提出的全新的聚类挖掘方法在运行过程中容易造成网络卡顿的问题，使得网络运行的流畅性受到影响，造成不利后果产生。因此，针对这一问题，在今后的研究当中，还将针对多节点网络的流畅运行问题，对聚类挖掘方法进行不断地优化和创新，从而进一步提高该方法的适用性。