基于最小生成树改进K-means聚类的网络入侵检测技术
2022-02-04陈功平
王 红 陈功平
(六安职业技术学院, 安徽 六安 237158)
0 前 言
计算机和互联网作为当下信息传递的主要工具,已经被广泛应用于各行各业中。全球范围内的计算机和便携式上网设备都通过互联网进行连接,这给我们带来便捷的同时,也带来了许多安全隐患。网络安全问题已逐渐成为人们重点关注的问题。网络安全具有机密性、完整性等特征,应对网络攻击行为进行识别和检测[1]。网络入侵一般会留下痕迹,但具有一定的隐藏性,需要经过信息处理才能被识别[2]。现有的网络入侵检测技术需要对聚类数目和聚类中心进行人工设定,容易造成误差[3-4]。因此,本次研究利用最小生成树对K-means聚类算法进行改进,设计了一种新型网络入侵检测技术。
1.1 数据预处理
网络入侵数据一般混在正常数据中,若要挖掘出入侵数据,就需要使用聚类算法对数据进行预处理[5-6]。K-means是一种典型的聚类算法,其迭代基础是聚类中心,需要提前确定聚类数量和聚类中心位置,得到的结果往往受人为因素的影响较大,因此本次研究利用最小生成树改进 K-means聚类算法。
K-means聚类算法一般通过评价函数来判断簇之间能否合并或聚类。评价函数如式(1)所示:
(1)
式中:I—— 评价函数;
J—— 聚类解的常用目标函数;
n—— 簇的数量。
基于最小生成树改进的K-means聚类算法中,数据对象的簇数量是提前给定的,利用经典的Prim算法得到一棵最小生成树,将其划分为若干个部分,并把每个部分看成一个簇[7]。因此,根据经验随机给出的簇数量会在很大程度上影响聚类结果。
在最小生成树的改进机理下,对操作数据组成的集合进行处理,集合数量为m-1。通过距离计算,把树分裂成m棵子树,并将其看作独立的簇,选择包含较多元素的簇作为开始节点[8-9]。本次研究基于密度进行聚类划分,不同密度的聚类筛选过程如图1所示。
图1 不同密度的聚类筛选过程
图1a中的圆形中心点表示4个高密度点的分布情况,其中空心点表示密度最小,可以将其作为第1个聚类中心;在筛选过程中,将距离中心点最远的高密度点作为第2个聚类中心,即图1b中增加的空心点;根据不同的筛选规则,得到第3个聚类中心,即图1c中增加的空心点[10-12]。基于最小生成树改进的K-means聚类算法中,不同高密度点之间的距离应尽可能远。通过预处理得到的有效聚类数据集对入侵结果的影响很大,若要保证入侵检测结果的准确性,就要消除数据冗余。
1.2 入侵检测模型设计
通过上述聚类分析法划分网络行为数据,并进行数据挖掘,以实现网络入侵检测[13]。网络入侵检测模型示意图如图2所示。
图2 网络入侵检测模型示意图
在网络入侵检测模型中,对字符型特征数据进行编码,将其转化为数值型数据,以消除字符之间的差异性,如表1所示。
表1 字符型特征数值的转换
为了保证网络入侵检测模型的稳定性和可靠性,应提升模型泛化能力,以抑制过度拟合现象,网络入侵检测流程如图3所示。
图3 网络入侵检测流程
2 实验结果分析
2.1 实验准备
实验环境为Windows 10系统,选择Python语言进行代码编写。网络数据一般为多维度数据,应在优化过程中以距离为基础,使用数值型数据集。采用的数据集包括Iris数据集、Wine数据集和4k2_far数据集,共计612条数据。数据集特征说明如表2所示。
表2 数据集特征说明
将基于最小生成树改进K-means聚类的网络入侵检测技术与基于K-means聚类的网络入侵检测技术进行对比分析。选取聚类纯度作为聚类有效性指标,聚类纯度的计算如式(2)所示:
(2)
式中:Pc—— 聚类纯度;
N—— 数据总量;
K—— 聚类数量;
Ck—— 任意一个聚类中的对象数量。
一般情况下,Pc的取值范围为[0,1],Pc越大,聚类效果越好。实验参数说明如表3所示。
表3 实验参数说明
2.2 聚类结果对比分析
分别使用基于最小生成树改进K-means聚类的网络入侵检测技术和基于K-means聚类的网络入侵检测技术进行对比测试,聚类结果如图4和图5所示。
由图4和图5可知,相较于基于K-means聚类的网络入侵检测技术,基于最小生成树改进K-means聚类的网络入侵检测技术的数据分布更均匀,不同数据库之间的分布差异更明显,与实际情况相符。
图4 基于最小生成树改进K-means聚类的网络入侵检测技术的聚类结果
图5 基于K-means聚类的网络入侵检测技术的聚类结果
2.3 性能评估分析
采用检测率和误报率等指标进行性能评估,检测率的计算如式(3)所示:
(3)
式中:DR—— 检测率;
Nad—— 检测到的异常数量;
Nta—— 实际异常数量。
误报率的计算如式(4)所示:
(4)
式中:FR—— 误报率;
NM—— 被误判为异常的数量;
Nnr—— 实际正常数量。
检测率越大,误报率越小,说明技术性能越好。入侵检测评估指标结果如表4所示。
由表4可知,基于最小生成树改进K-means聚类的网络入侵检测技术的检测率为70%,误报率为0.472%;基于K-means聚类的网络入侵检测技术的检测率为44%,误报率为0.615%。因此,基于最小生成树改进K-means聚类的网络入侵检测技术的性能更优,检测效果更好。
表4 入侵检测评估指标结果
3 结 语
本次研究从网络入侵检测技术存在的问题入手,利用最小生成树改进K-means聚类算法,设计了一种新型网络入侵检测技术。利用最小生成树改进K-means聚类算法,对入侵检测数据进行预处理,设计不同密度的聚类筛选过程,去除冗余数据。构建网络入侵检测模型,将字符型特征转化为数值型数据,优化入侵检测流程,以实现网络入侵检测。实验结果表明,与传统网络入侵检测技术相比,本技术的性能更优,检测效果更好。