基于大数据的网络安全防御系统研究与设计

2021-04-21李英

网络安全技术与应用 2021年3期

◆李英

基于大数据的网络安全防御系统研究与设计

◆李英

（鞍山市广播电视学校辽宁 114200）

网络安全防御是一项非常复杂的工作，传统的防火墙、加密技术或杀毒软件均采用被动防御模式，无法提高网络安全防御的感知水平，因此亟须引入更加先进的大数据技术，也即是K-means算法，利用该算法构建一个网络态势感知与防御模块，这样就可以提高网络安全防御主动性、智能化程度，提高网络安全防御的水平。实验结果表明，K-means算法能够提高判断网络数据中的木马或病毒的准确度，网络安全防御水平达到了99.4%，高于支持向量机和贝叶斯理论算法，同时还不需要设置过多的参数，不需要管理人员拥有丰富的网络安全防御知识。

大数据；K-means算法；网络安全防御系统；杀毒软件

1 引言

目前，随着云计算、大数据和数据库等技术的快速发展，全球已经进入到了数字化和“互联网+”时代，基于互联网开发了许多的分布式应用软件，覆盖了政务服务、工业控制、金融银行、在线学习、智能旅游等多个行业，提高了人们工作、学习和生活的便捷性。但是，伴随互联网而生的木马或病毒，导致网络安全事件频繁发生，比如勒索病毒等。360网络安全公司统计报告显示，2019年勒索病毒类攻击占全网攻击的62%，比2018年高近6个百分点，平均每39秒就会发生一次勒索病毒攻击，为大中型企业带来了数以百亿的经济损失[1]。目前，网络安全防御采用的技术多为防火墙、杀毒软件和加密技术，在一定程度上可以阻止网络病毒入侵，但是勒索病毒变异快，很容易导致系统在损失发生后才能够启动防御工具，不利于提高互联网防御水平[2]。因此，本文提出引入先进的K-means算法，利用大数据技术提高互联网安全防御的主动性、智能化水平，实现防患于未然的目标。

2 网络安全防御技术应用现状

网络安全防御系统是保护用户正常使用信息系统或网络的工具，有效地避免用户产生经济损失或固定资产损失。常用的网络安全防御技术非常多，比如防火墙和杀毒软件等，本文结合当前的应用模式，重点介绍这两种防御工具。

2.1 防火墙

防火墙作为一种主流的网络安全防御技术，经过数十年的发展和应用，已经诞生了很多先进的改进版本，比如状态防火墙、包过滤防火墙、应用层代理防火墙等，不同类型的防火墙适用于互联网的不同层次，比如包过滤防火墙部署于传输层和网络层之间，是一种网络层的互联网访问控制技术，可以在路由器设备上配置ACL的方式实现，检查数据包的协议字段，但是其不需要考虑网络连接状态。状态防火墙则可以部署于传输层，能够跟踪网络连接状态，可以区分合法或非法的数据包，只有合法的主动连接数据包能够通过状态防火墙，不允许其余的数据包通过。应用层防火墙则可以针对不同的应用设计不同的防护规则，比如可以针对社交软件微信、QQ或“微博”设计防御规则，也可以针对办公管理系统、金融银行软件等设计防控规则，应用层防火墙可以有效地监控每一个应用软件的数据流，从而有效隔离外部网络和内部网络。虽然防火墙是主流的安全防御软件，但是其也有很多的缺点，比如需要预先设置防御规则，无法动态地、实时地升级和改变，因此需要用户掌握丰富的计算机专业知识。

2.2 杀毒软件

杀毒软件则是一个非常常用的木马或病毒查杀工具，其可以集成各种网络监控、文件扫描和病毒清除、系统自动化升级等功能，还可以帮助用户进行数据恢复，减小病毒或木马带来的损失。杀毒软件针对已知的病毒或木马进行设计，引入了许多的先进技术，比如脱壳技术、自我保护技术、修复技术等。脱壳技术可以分析压缩文件、封装类文件、水印文件等，从而识别网络病毒。自我保护技术可以保护杀毒软件不被病毒或木马侵袭，避免杀毒软件停止运行或崩溃，并且可以及时地提升杀毒软件的性能。目前，世界众多企业开发了很多专业的杀毒软件，比如360安全卫士、“腾讯管家”、卡巴斯基杀毒软件、瑞星杀毒软件等，一定程度上为网络用户提高了防御性能。但是杀毒软件也存在一定的缺陷，一般是在病毒侵袭网络之后才可以启动杀毒工具，仅可以对已知的木马或病毒进行查杀，不利于对携带已知病毒基因片段且变异后的病毒进行查杀，因此不能够提高网络安全防御的主动性。

3 大数据在网络安全防御中的应用及其设计

3.1 新型网络安全防御系统设计

传统的防火墙、杀毒软件等属于被动防御工具，因此对网络病毒的防御无法得到理想的结果，因此本文提出引入K-means算法，利用大数据分析技术，识别网络数据包中的病毒基因，从而做到智能主动化防御，防患于未然[3]。基于K-means的网络安全防御系统的主要操作流程如图1所示。

图1 基于K-means的网络安全防御系统

网络安全防御系统引入了K-means算法，其是一种迭代求解的聚类分析算法，该算法的执行步骤如下：第一步，将采集到的网络数据包划分为K个组，同时按照一定的规则选取K个对象作为初始化聚类中心，这个规则可以按照启发式模式配置，比如预先获取网络病毒基因特征，以此为依据选择数据的中心。第二步，计算采集到的数据对象到K个中心点的距离，然后将每一个对象分配给距离最近的聚类中心。第三步，根据划分好的K个组，重新获取聚类中心。第四步，重复上述三个步骤的功能，直到聚类的中心不再发生变化。

3.2 系统应用效果分析

网络安全防御系统引入K-means算法之后，其可以利用大数据的处理能力，感知网络中的病毒或木马片段特征，及时地识别网络中的病毒或木马，然后及时启动杀毒工具，比如360安全卫士等，将病毒或木马从网络中清除，从而可以提高网络防御的性能[4]。本文为了验证提出的防御系统的性能，构建了一个模拟实验环境，利用模拟终端发起木马和病毒攻击，然后将K-means算法、支持“向量机”和贝叶斯理论的识别准确度进行比较，以验证本文提出的安全防御效果。具体地，本文引入的木马和病毒包括“网游木马”、“网银木马”、FTP木马、灰鸽子、弼马温病毒、下载类木马、勒索病毒等360种病毒。这些病毒提取的基因特征片段高达数十万个，模拟终端1发送数据包100万个，病毒特征片段1万个；模拟终端2发送数据包200万个，病毒特征片段2万个；模拟终端3发送数据包300万个，病毒特征片段3万个；模拟终端4发送数据包400万个，病毒特征片段4万个；模拟终端5发送数据包500万个，病毒特征片段5万个。本文将模拟终端数据输入到安全防御系统中之后，发现三种实验算法的准确度如表1所示。

表1 网络安全防御系统实验结果

本文提出将K-means算法应用于网络安全防御系统，实验结果表明K-means算法识别病毒基因特征的准确度达到了99.91%，支持“向量机”的准确度为95.31%，贝叶斯理论的准确度为84.61%，实验结果表明K-means算法高于另外两种算法，因此可以应用于网络安全防御系统。本文提出的网络安全防御模型可以预先感知病毒的存在，及时地启动杀毒软件将其清除掉，避免病毒爆发产生严重的经济等损失，提高网络安全防御的实时性、主动性和智能化水平。