基于K-means算法的网络安全智能防御模型研究与设计

2021-05-31

中文信息 2021年3期

（赤峰学院附属医院，内蒙古赤峰 024000）

云计算、大数据、人工智能等技术的快速发展，促进了人们进入到“互联网+”时代，政务办公、金融银行、科研卫生、工业制造、旅游住宿等许多领域均引入了互联网，开发了关联的分布式管理系统，因此互联网给人们带来了许多的便利，但是也面临着严重的安全攻击，许多非法分子利用勒索病毒、网银木马或网游木马等，盗取网络用户的信息进行大肆破坏，严重威胁网络用户的隐私信息安全。本文为了提高网络安全防御水平，提出了一个基于K-means算法的网络安全智能防御模型，提高网络安全防御水平。

一、网络安全面临的威胁及防御技术现状

1.网络安全面临的威胁分析

目前，互联网保存的数据非常多，比如金融账户信息或科研机密信息，很多不法分子为了牟利，通常利用网络攻击的手段，开发勒索病毒、盗号木马、网银木马、蠕虫木马等，非法窃取互联网信息，给网络用户带来严重的经济损失，侵犯网络用户的合法权益，直接影响“互联网+”普及力度[1]。比如，2018年爆发的勒索病毒侵入了很多的互联网服务器，导致互联网无法正常使用，入侵者要求网络用户支付昂贵的勒索赎金才能解开密钥，但是很多用户支付赎金之后也没有正常恢复数据，带来的损失不可估量。盗号木马可以根据网络用户登录的账号密码记录，非法获取互联网信息系统登录的权限，从而破坏互联网信息系统的数据，给互联网用户带来严重的金钱损失[2]。

2.网络安全防御技术现状

目前，网络安全研究学者和企业经过实践，提出了很多的安全防御技术，比如防火墙、杀毒软件、访问控制列表、加密技术和入侵检测工具。比如入侵检测一种基本的网络访问控制保护工具，该工具能够部署于网络关口，查看通过关口的访问信息是否存在病毒或木马。深度包过滤是在入侵检测的基础上进行升级的版本，入侵检测只检测网络数据包的包头，不检测包的数据部分，因此许多病毒利用这个缺陷，将病毒潜藏在包内。深度包过滤不仅可以检查包头，还可以检查包内数据部分，分析包内的数据是否存在木马或病毒。但是，传统网络安全防御工具需要病毒或木马爆发之后才可以启动防御，因此属于被动防御模式，因此无法提高网络安全防御的实时性、预测性。本文提出引入人工智能技术——K-means算法，提高网络安全防御的主动性。

二、基于K-means的网络安全智能防御模型设计

本文基于K-means算法构建一个网络安全智能防御模型，利用人工智能算法挖掘病毒或木马的特征基因片段，提高网络安全防御水平，K-means算法的执行流程如下：首先，网络安全防御系统采集数据流，这些数据流发送给K-means算法，算法对其数据流进行分片，构建一个个的网络数据基因片段；第二，K-means算法将划分好的网络数据片段初始化为K个组，每一个组采用合理的度量方法获取K个聚类中心，在这个度量方法计算过程中，可以引入启发式规则，提高初始化聚类中心的准确度。第三，将所有的数据打乱，重新计算数据到K个聚类中心的距离，然后按照最近原则将相同数据划分为K个聚类中，同时根据划分好的数据对象进行重新计算，获取K个新的聚类中心；第四，重复上述第三个步骤，直到所有的聚类中心不再发生变化。K-means算法训练学习完毕之后，用户可以将训好的模型嵌入到系统中，这样系统就可以根据新来的数据，将其划分到最近的簇中，有病毒的数据划分到有数据的簇，无病毒的数据划分为到无病毒簇。

本文为了能够获取提出的K-means算法准确度，构建了一个网络安全防御效果实验模型，该模型同时引入支持向量机算法，以便能够进行对比分析每一种算法的准确度。具体的，实验模拟六个模拟终端，每一个终端都发送包含有病毒基因特征的数据，这些数据包含的病毒基因包括勒索病毒、网银木马、弼马温病毒、灰鸽子、网游木马、蠕虫病毒、下载类木马等，每一个模拟发送的数据包设置如下：模拟终端1发送的数据包为100万个，包含的木马或病毒基因特征为2万个；模拟终端2发送的数据包为200万个，包含的木马或病毒基因特征为6万个；模拟终端3发送的数据包为400万个，包含的木马或病毒基因特征为10万个；模拟终端4发送的数据包为600万个，包含的木马或病毒基因特征为16万个；模拟终端5发送的数据包为800万个，包含的木马或病毒基因特征为20万个；模拟终端6发送的数据包为1000万个，包含的木马或病毒基因特征为30万个。本文将模拟终端数据输入到安全防御系统中之后，发现三种实验算法的准确度如表1所示。

表1 网络安全实验结果

结语

网络安全实验结果表明K-means算法网络安全防御准确度可以达到99.91%，即使在数据量非常大的情况下，准确度也可以达到93.69%，高于BP神经网络算法和遗传算法的准确度。同时，基于人工智能的网络安全防御系统具有自主学习机制，能够学习到新型的病毒或木马基因片段，将其保存到网络安全识别模型中，从而可以持续地改进人工智能的识别准确度。