基于模糊聚类的网络敏感数据流动态挖掘
2024-05-06鲁江
鲁江
(西安医学院,陕西西安 710021)
网络敏感数据流具有不确定性、差异性和无序性的特点。为了提高网络敏感数据流挖掘效率,有必要设计网络敏感数据流动态挖掘方法。在国外所研究的数据挖掘方法中,大多集中在敏感数据静态挖掘方面,这种挖掘方法所挖掘到的数据量较少,而随着网络数据分析要求的不断提高,必须深入研究敏感数据动态挖掘方法。文凯等人提出了基于BTA算法的挖掘方法,在数据高效压缩进位表中采用区域覆盖方法,实时更新数据挖掘窗口,通过频繁k-项集产生候选项集,由此挖掘网络敏感数据[1];康耀龙等人提出了基于谱聚类的挖掘方法,利用属性阈值量化方式,通过构建亲和矩阵计算样本与目标之间距离,获取特征向量,结合特征向量提取网络敏感数据特征。通过长距离特征挖掘方式实现网络敏感数据流的高效挖掘[2]。然而使用上述两种方法只能处理静态数据流,对于动态数据流挖掘的效果不佳,因此提出基于模糊聚类的网络敏感数据流动态挖掘方法。
1 网络敏感数据流模糊聚类
聚类是数据挖掘中非常关键环节,它将一个群体按相似原则分成几个类,其目标是尽量减少同类间距,从而提高了数据挖掘准确性[3]。模糊聚类是统计中的一种多变量分析方法,它可以量化地判断各样本间的关系,利用数学方法对样本进行客观聚类[4]。
网络敏感数据流中的每个论域集都会对数据模糊聚类效果产生影响[5]。当一个关键论域集的值较大时,则表明该数据流动异常;当它们是一个孤立点时,则表示该数据流不容易被挖掘[6]。将论域集元素分类,并构建模糊矩阵,具体如下:
式中,α表示论域参数;d表示马氏距离;xij表示第i行j列论域;m表示论域内模糊子集个数;n表示子集序号。
为了衡量两个样本间的相似性,将马氏距离作为衡量标准,其计算公式如下:
式中,T表示计算周期;yij表示与xij不同的第i行j列的样本论域;S表示样本分布协方差矩阵。马氏距离越短,两个样本之间的相似度就越高[7]。充分考虑网络敏感数据流往往涉及复杂、异常和敏感的性质,因此需通过模糊聚类精确地查找出各个类别特征[8]。
为了提高模糊聚类速度,引入一种速度收敛阈值,表示为:
式中,ε表示敏感数据占总数据量的比例;dmin、dmax分别表示马氏距离最小值和最大值。如果该公式计算结果偏大,则会把所有分类都归入一个类别[9-10]。以各个样本为初始聚类中心,分别计算收敛阈值,将两个样本之间的分类量小于收敛阈值的样本合并,从而得到新的聚类中心,由此完成网络敏感数据流模糊聚类[11]。
2 数据流动态挖掘
根据网络敏感数据流模糊聚类结果,获取新的聚类中心,并对数据动态挖掘结果进行分类,通过分析最大散度解决挖掘过程中的随机性和非线性问题[12],从而保证数据挖掘质量与效率。敏感数据流动态挖掘过程如下:
步骤一:网络敏感数据流动态分类
由于模糊关系没有传递性,因而不能将其归类为模糊等值,必须将其转化为模糊等值矩阵,具体表示为:
式中,随着ε比例增加,模糊等值矩阵数据流类别越来越多[13]。对于不同等价关系,能够获取精准分类结果。动态聚类过程如图1 所示。
图1 动态聚类过程
结合图1 动态聚类过程,实时调整模糊等值矩阵,由此得到网络敏感数据流分类结果。当数据属于同一类别时,表示数据之间的相似性很高,可以合并处理,从而简化网络敏感数据流[14]。根据模糊聚类原理,将各类型信息和两个子类的隶属度进行聚类,将满足隶属度之差大于0、小于0和等于0的样本分别存入不同的集合。对于样本论域xij,如果存在:
式中,nij表示类间散度;γ表示设定阈值。式(5)的计算结果越大,说明两个样本重复数量也就越多。从初始训练节点开始,生成各个节点模糊聚类结果,在各个模糊分类中直接选取隶属度低于1 的样本[15],以此保证数据的分类效果。
步骤二:最大散度迭代处理
在获取网络敏感数据流分类结果后,利用遗传迭代算法对敏感数据流进行迭代处理,得到最优离散性迭代值,利用最优离散性动态地挖掘敏感特征,从而得到敏感数据流动态挖掘结果,该方法能够有效克服传统挖掘方法无法实现动态数据挖掘的弊端[16]。采用模糊遗传算法对网络敏感信息进行最大散度迭代处理,则xij、yij两个样本论域基元结构可表示为:
由此得到网络敏感数据流特征,完成最大散度迭代处理。
步骤三:数据流动态挖掘
根据最大散度迭代处理结果,对可挖掘特征点进行聚类以及均匀分配,分配路径如图2 所示。
图2 分配路径
将挖掘到的特征点分配至聚类o中,可表示为:
式中,u表示可挖掘特征点;z表示聚类中心。聚类中心更新公式如下:
式中,k表示挖掘到的特征点数量。
步骤四:动态挖掘误差拟合
在网络敏感数据流动态挖掘过程中,两个论域子集中存在不对称关系,对于两个论域之间形成的差值序列,可表示为:
式中,ra(xij) 表示论域xij的第a个节点;rb(yij)表示论域yij的第b个节点。根据该计算结果,计算差值序列的拟合误差,公式为:
式中,r0表示初始差值序列;m表示拟合次数。
通过上述步骤能够完成对可挖掘特征的模糊聚类处理,结合拟合误差实现网络敏感数据流动态挖掘。
3 实验
3.1 实验装置
在IBM 工控异构网络机上展开相关的实验,使用数据采集装置通过配置方式解析不同通讯报文,使用统一命令驱动采集装置,捕获不同频度的数据。数据采集装置结构如图3 所示。
图3 数据采集装置结构
由图3 可知,利用传感器采集相关数据,能够实现对于多个维度的敏感数据的收集。通过对传感器的遥控,可以实现对传感器的远程管理,并可以对所收集到的数据进行实时查询。
3.2 实验数据集
实验数据来自自动化工作流系统数据库,在数据库中随机采集250 个真实网络数据集。网络闭环工作过程中存储的数据均为网络敏感数据流,统计2020 年12 个月的数据量,每隔5 min 更新一次,由此得到的敏感数据流结构如图4 所示。
图4 网络敏感数据流结构
由图4 可知,网络敏感数据流主要包括局域网计算机终端数据、移动设备上网行为数据和共享文件权限管理数据,数据流较多且复杂性较高。
3.3 实验结果与分析
设置两种实验条件,一种是数据相似性较高,另一种是数据差异性较大。在这两种条件下,分别对比文献[1]方法和文献[2]方法以及所提方法挖掘到的数据量,对比结果如图5 所示。
图5 不同方法的挖掘数据量对比分析
分析图5(a)可知,文献[1]方法的最大挖掘量为45 000 个,最小挖掘量为15 000 个,并没有挖掘到全部的数据;文献[2]方法的最大挖掘量为40 000 个,最小挖掘量为15 000 个,也没有挖掘到全部的数据;所提方法的最大挖掘量为60 000 个,最小挖掘量为30 000 个,能够挖掘到全部的数据。
由图5(b)可知,文献[1]方法、文献[2]方法的最大挖掘量分别为27 000 个和20 000 个,最小挖掘量均为10 000 个,这两种方法均没有挖掘到全部数据;所提方法的最大挖掘量为70 000 个,最小挖掘量为20 000 个,能够挖掘出全部数据。
4 结束语
网络敏感数据流论域子集较多,使用传统挖掘方法受到数据相似性和差异性影响,导致无法挖掘到全部数据,因此提出基于模糊聚类的网络敏感数据流动态挖掘方法,以期解决该问题,并通过实验证明了该方法的正确性。该方法能有效挖掘出网络敏感数据流,促使网络更加高效运行,通过最大类间散度确定最优迭代计算次数,由此提升数据流挖掘效率与质量,为数据深入分析与研究奠定基础。