基于改进遗传算法的计算机网络数据聚类方法

2023-07-21许丽媛

计算机应用文摘·触控 2023年14期

摘要为提高计算机网络数据的聚类效果提出了一种基于改进遗传算法的计算机网络数据聚类方法其采用改进遗传算法构建初始种群利用目标函数提取计算机网络特征构建计算机网络数据信息流模型聚类计算机网络数据仿真结果表明该方法的数据流处理任务完成总时间较短负载均衡性较稳定cpu 占用率较低由此证明该方法数据聚类效果较优

关键词改进遗传算法计算机网络数据聚类

中图法分类号tp399 文献标识码a

１引言

现阶段，人工智能技术得到了飞速发展，计算机网络已经广泛应用于各个领域［１］，由此产生了海量的计算机网络数据，如何有效处理计算机网络数据成为目前的研究热点［２］。对计算机网络数据进行聚类处理［３～５］，可以了解计算机网络数据之间的相似程度，为后续计算机网络数据的分类、存储、查询等实际应用提供理论基础。目前，也有相关学者进行了相应的研究，潘继财［６］针对混合属性数据，在考虑样本同聚类中心距离基础上，提出了一种基于广义线性模型的混合属性数据聚类方法。通过计算混合属性数据的相异度、样本与聚类集间距实现数据聚类。实验发现该方法聚类适应度较好，可以有效体现样本间差异，且具有较高的准确度，所需迭代次数也较少。李立生等［７］提出了一种基于稀疏自编码的故障数据聚类清洗方法，主要对电网中录波型故障指示器上传的海量故障数据进行特征学习与降维，对故障数据的特征进行聚类与清洗，实现去除冗余数据的目的，以便运维人员获取故障信息及进行后续处理。

遗传算法可以对海量个体进行种群处理，但传统的遗传算法容易陷入局部最优，无法获取全局最优解。为此，本文提出了一种基于改进遗传算法的计算机网络数据聚类方法，以期为海量计算机网络数据的后续处理提供借鉴。

２计算机网络数据的数据方法设计

２．１构建初始种群

遗传算法中初始种群是随机形成的［８］，在实际计算过程中若没有充分考虑解空间分布情况，则会导致大量个体全部集中在一个区域内，不利于最优解的搜索。为有效解决上述问题，改进遗传算法并确保个体均匀分布在求解空间，且保留个体之间差异性。在设定数量以及染色体长度的情况下，随机２个染色体之间的相似度为：

３仿真实验

为了能够进一步验证该方法（基于改进遗传算法的计算机网络数据聚类方法）的有效性，与文献［６］方法（基于广义线性模型的混合属性数据聚类方法）和文献［７］方法（基于稀疏自编码的故障数据聚类清洗方法）进行对比实验分析，对比内容为数据流处理任务完成总时间、负载均衡性、计算机数据聚类过程ＣＰＵ占用率。

３．１仿真环境设置

此实验过程中的全部实验环节将在下述实验环境中完成。

（１）硬件。

内存：５０ＧＢ

ＲＡＭ：１６ＧＢ

ＭＥＭ：４ＧＢ

硬盘：２５６ＧＢ

主频：３．３ＧＨｚ

显卡：５１２ＭＢ独立显卡

（２）软件。

操作系统：Ｗｉｎｄｏｗｓ８以上

开发语言：Ｃ＋＋

数据库：ＳＱＬｓｅｒｖｅｒ２０１９

语料提取工具：ＮＬＰ

向量训练工具：ＦａｓｔＴｅｘｔ

３．２仿真数据选择

在此次网络中存在６个数据服务器以及２０个数据处理节点。将ＫＤＤ数据集中１０％作为训练集，ｃｏｒｒｅｃｔ文件作为验证集，共计６组数据集，具体设定结果如表１所列。

３．３仿真分析与结果

３．３．１数据流处理任务完成总时间分析

在此次实验过程中，为增加实验的对比性，在实验网络节点固定的条件下，将任务数设定为１０，２０，５０，１００，２００５组，对比应用不同方法的计算机网络数据聚类任务完成总时间，具体实验结果如图１所示。

对比上述实验结果可以看出，随着任务量的增加，不同方法的计算机网络数据聚类任务完成总时间存在明显的差异。本文方法的数据量处理完成总时间相对稳定，整体呈线性关系，无较大波动。与本文方法相比，文献［６］方法和文献［７］方法的任务完成总时间波动较大，且均长于文中方法的任务完成总时间。综合上述实验结果可以确定，应用本文方法可有效控制聚类时间，从而进一步提升数据流处理速度。

３．３．２负载均衡性分析

对任务量增加后的计算机网络数据聚类的负载均衡性进行分析，所得结果如图２所示。

对图２中内容进行分析可以看出，应用３种方法后，计算机网络数据聚类的负载均衡性存在明显的差异。随着数据聚类任务不断增加，各数据节点的负载均衡性呈现出下降状态。但应用本文方法后，计算机网络数据聚类的负载均衡性系数下降速度较为缓慢，且整体均衡性相对较高。与本文方法相比，应用其他２种对比方法后，计算机网络数据聚类的负载均衡性下降较为迅速且波动较大，存在负载均衡系数激降的情况，严重影响了数据流处理效果。

３．３．３计算机数据聚类过程ＣＰＵ占用率分析

在上述２实验环节的基础上，对应用不同方法后的计算机网络数据聚类任务执行ＣＰＵ占用率进行分析，所得实验结果如图３所示。

从图３所示内容可以看出，当应用本文方法后，实验网络中各物理机的ＣＰＵ占用率虽然存在细微的差异，但整体较为稳定。应用文献［６］方法后，各物理机的ＣＰＵ占用率虽无明显波动，但整体较高。应用文献［７］方法后，各物理机的ＣＰＵ占用率存在较大差异。根据上述实验结果可以确定，本文方法具有较高的应用价值，可进一步提高大数据流处理网络的稳定性。

４结束语

本文利用改进遗传算法将计算机网络数据进行分布式聚类。通过改进遗传算法构建初始种群均匀分布数据；利用目标函数描述特征选择最优化，提取计算机网络特征；构建计算机网络数据信息流模型计算數据特征向量属性，聚类计算机网络数据。实验结果表明，该方法可以有效聚类计算机网络数据。

参考文献：

［１］芦建兰．计算机网络数据库安全问题研究［Ｊ］．电子测试，２０２１（１４）：１３３?１３４．

［２］谌英敏．数据加密技术在计算机网络安全中的应用［Ｊ］．通讯世界，２０２１，２８（４）：１３０?１３１．

［３］曾祥银，郑伯川，刘丹．基于深度卷积神经网络和聚类的左右轨道线检测［Ｊ］．计算机应用，２０２１，４１（８）：２３２４?２３２９．

［４］赵博宇，张长青，陈蕾，等．生成式不完整多视图数据聚类［Ｊ］．自动化学报，２０２１，４７（８）：１８６７?１８７５．

［５］廖静倩，张道文，高立，等．基于ＮＡＩＳ事故数据聚类的丁字路口危险场景研究［Ｊ］．汽车安全与节能学报，２０２１，１２（３）：３３６?３４５．

［６］潘继财．基于广义线性模型的混合属性数据聚类方法［Ｊ］．信息技术，２０２１，４５（８）：６?１１．

［７］李立生，刘洋，卢文华，等．基于稀疏自编码的故障数据聚类清洗方法［Ｊ］．科学技术与工程，２０２１，２１（１５）：６３３０?６３３６．

［８］肖钊，邓杰文，刘晓明，等．基于运行规律和ＴＩＣＣ算法的风电ＳＣＡＤＡ高维时序数据聚类方法［Ｊ］．机械工程学报，２０２３，５８（２３）：１９６?２０７．

［９］窦圣霞，程志强．基于混沌关联维特征的电能表计量多维数据聚类方法［Ｊ］．电力需求侧管理，２０２２，２４（２）：１００?１０４．