基于改进遗传算法的计算机网络数据聚类方法
2023-07-21许丽媛
摘 要 为提高计算机网络数据的聚类效果 提出了一种基于改进遗传算法的计算机网络数据聚类方法 其采用改进遗传算法构建初始种群 利用目标函数提取计算机网络特征 构建计算机网络数据信息流模型聚类计算机网络数据 仿真结果表明 该方法的数据流处理任务完成总时间较短 负载均衡性较稳定cpu 占用率较低 由此证明 该方法数据聚类效果较优
关键词 改进遗传算法 计算机网络 数据聚类
中图法分类号tp399 文献标识码a
1 引言
现阶段,人工智能技术得到了飞速发展,计算机网络已经广泛应用于各个领域[1] ,由此产生了海量的计算机网络数据,如何有效处理计算机网络数据成为目前的研究热点[2] 。对计算机网络数据进行聚类处理[3~5] ,可以了解计算机网络数据之间的相似程度,为后续计算机网络数据的分类、存储、查询等实际应用提供理论基础。目前,也有相关学者进行了相应的研究,潘继财[6] 针对混合属性数据,在考虑样本同聚类中心距离基础上,提出了一种基于广义线性模型的混合属性数据聚类方法。通过计算混合属性数据的相异度、样本与聚类集间距实现数据聚类。实验发现该方法聚类适应度较好,可以有效体现样本间差异,且具有较高的准确度,所需迭代次数也较少。李立生等[7] 提出了一种基于稀疏自编码的故障数据聚类清洗方法,主要对电网中录波型故障指示器上传的海量故障数据进行特征学习与降维,对故障数据的特征进行聚类与清洗,实现去除冗余数据的目的,以便运维人员获取故障信息及进行后续处理。
遗传算法可以对海量个体进行种群处理,但传统的遗传算法容易陷入局部最优,无法获取全局最优解。为此,本文提出了一种基于改进遗传算法的计算机网络数据聚类方法,以期为海量计算机网络数据的后续处理提供借鉴。
2 计算机网络数据的数据方法设计
2.1 构建初始种群
遗传算法中初始种群是随机形成的[8] ,在实际计算过程中若没有充分考虑解空间分布情况,则会导致大量个体全部集中在一个区域内,不利于最优解的搜索。为有效解决上述问题,改进遗传算法并确保个体均匀分布在求解空间,且保留个体之间差异性。在设定数量以及染色体长度的情况下,随机2 个染色体之间的相似度为:
3 仿真实验
为了能够进一步验证该方法(基于改进遗传算法的计算机网络数据聚类方法)的有效性,与文献[6]方法(基于广义线性模型的混合属性数据聚类方法)和文献[7]方法(基于稀疏自编码的故障数据聚类清洗方法)进行对比实验分析,对比内容为数据流处理任务完成总时间、负载均衡性、计算机数据聚类过程CPU 占用率。
3.1 仿真环境设置
此实验过程中的全部实验环节将在下述实验环境中完成。
(1)硬件。
内存:50 GB
RAM:16 GB
MEM:4 GB
硬盘:256 GB
主频:3.3 GHz
显卡:512 MB 独立显卡
(2)软件。
操作系统:Windows 8 以上
开发语言:C++
数据库:SQL server 2019
语料提取工具:NLP
向量训练工具:FastText
3.2 仿真数据选择
在此次网络中存在6 个数据服务器以及20 个数据处理节点。将KDD 数据集中10% 作为训练集,correct 文件作为验证集,共计6 组数据集,具体设定结果如表1 所列。
3.3 仿真分析与结果
3.3.1 数据流处理任务完成总时间分析
在此次实验过程中,为增加实验的对比性,在实验网络节点固定的条件下,将任务数设定为10,20,50,100,200 5 组,对比应用不同方法的计算机网络数据聚类任务完成总时间,具体实验结果如图1 所示。
对比上述实验结果可以看出,随着任务量的增加,不同方法的计算机网络数据聚类任务完成总时间存在明显的差异。本文方法的数据量处理完成总时间相对稳定,整体呈线性关系,无较大波动。与本文方法相比,文献[6]方法和文献[7]方法的任务完成总时间波动较大,且均长于文中方法的任务完成总时间。综合上述实验结果可以确定,应用本文方法可有效控制聚类时间,从而进一步提升数据流处理速度。
3.3.2 负载均衡性分析
对任务量增加后的计算机网络数据聚类的负载均衡性进行分析,所得结果如图2 所示。
对图2 中内容进行分析可以看出,应用3 种方法后,计算机网络数据聚类的负载均衡性存在明显的差异。随着数据聚类任务不断增加,各数据节点的负载均衡性呈现出下降状态。但应用本文方法后,计算机网络数据聚类的负载均衡性系数下降速度较为缓慢,且整体均衡性相对较高。与本文方法相比,应用其他2 种对比方法后,计算机网络数据聚类的负载均衡性下降较为迅速且波动较大,存在负载均衡系数激降的情况,严重影响了数据流处理效果。
3.3.3 计算机数据聚类过程CPU 占用率分析
在上述2 实验环节的基础上,对应用不同方法后的计算机网络数据聚类任务执行CPU 占用率进行分析,所得实验结果如图3 所示。
从图3 所示内容可以看出, 当应用本文方法后,实验网络中各物理机的CPU 占用率虽然存在细微的差异,但整体较为稳定。应用文献[6]方法后,各物理机的CPU 占用率虽无明显波动,但整体较高。应用文献[7]方法后,各物理机的CPU 占用率存在较大差异。根据上述实验结果可以确定,本文方法具有较高的应用价值,可进一步提高大数据流处理网络的稳定性。
4 结束语
本文利用改进遗传算法将计算机网络数据进行分布式聚类。通过改进遗传算法构建初始种群均匀分布数据;利用目标函数描述特征选择最优化,提取计算机网络特征;构建计算机网络数据信息流模型计算數据特征向量属性,聚类计算机网络数据。实验结果表明,该方法可以有效聚类计算机网络数据。
参考文献:
[1] 芦建兰.计算机网络数据库安全问题研究[J] .电子测试,2021(14):133?134.
[2] 谌英敏.数据加密技术在计算机网络安全中的应用[J] .通讯世界,2021,28(4):130?131.
[3] 曾祥银,郑伯川,刘丹.基于深度卷积神经网络和聚类的左右轨道线检测[J] .计算机应用,2021,41(8):2324?2329.
[4] 赵博宇,张长青,陈蕾,等.生成式不完整多视图数据聚类[J] .自动化学报,2021,47(8):1867?1875.
[5] 廖静倩,张道文,高立,等.基于NAIS 事故数据聚类的丁字路口危险场景研究[J] .汽车安全与节能学报,2021,12(3):336?345.
[6] 潘继财.基于广义线性模型的混合属性数据聚类方法[J].信息技术,2021,45(8):6?11.
[7] 李立生,刘洋,卢文华,等.基于稀疏自编码的故障数据聚类清洗方法[J] .科学技术与工程,2021,21(15):6330?6336.
[8] 肖钊,邓杰文,刘晓明,等.基于运行规律和TICC 算法的风电SCADA 高维时序数据聚类方法[J].机械工程学报,2023,58(23):196?207.
[9] 窦圣霞,程志强.基于混沌关联维特征的电能表计量多维数据聚类方法[J] .电力需求侧管理,2022,24(2):100?104.
作者简介:
许丽媛(1989—),硕士,研究方向:信息管理。