基于K-means聚类的软件定义网络异常流量分类研究
2022-12-23王彬彬
王彬彬
基于K-means聚类的软件定义网络异常流量分类研究
王彬彬
(阜阳幼儿师范高等专科学校,安徽 阜阳 236015)
考虑到软件定义网络异常流量分类受到网络复杂特性的影响,导致分类效果变差,提出了基于K-means聚类的软件定义网络异常流量分类研究。利用权重属性,划分了软件定义网络异常流量的频度,在网络异常流量的分布形式转化过程基础上,根据软件定义网络异常节点出现的概率,计算了异常流量的特征值,提取出软件定义网络异常流量特征,根据软件定义网络异构值差的度量,初始化软件定义网络的参考向量值,通过更新分类属性的邻域半径,计算网络异常流量的参考向量,选择出软件定义网络异常流量分类属性,利用K-means聚类算法过滤软件定义网络异常流量,对软件定义网络异常流量进行检索,通过定义网络异常流量分类的目标函数,利用K-means聚类算法理论,构建软件定义网络异常流量的加权临界函数,结合对角矩阵的求解,设计了软件定义网络异常流量分类原理,实现了软件定义网络异常流量的分类。实验结果表明,文中分类方法的查全率、差准率较高,适应度以及收敛性能较好。
K-means聚类;软件定义网络;异常流量;分类方法;特征提取;属性选择
在信息化的发展背景下,软件定义网络的应用越来越广泛,网络流量的异常变化严重影响着用户的体验,软件定义网络在互联网中的应用十分重要,在保障网络安全性的同时,还具有一定的可用性,合理分类软件定义网络中的异常流量至关重要[1]。在软件定义网络中,流量数据的形式并不是静态的,一直都是在不断变化着,同时也引起了不同领域专家学者的高度重视。软件定义网络都是在高速运转下传输流量数据的,其速度和传输量都是无法预估的,因此,软件定义网络异常流量的分类在网络安全性保障中具有重要作用[2]。在科技的迅猛发展下,产生的网络流量信息逐渐增加,根据网络异常流量类别,对其进行防护,可以为软件定义网络提供一个安全的运行环境,保证软件定义网络的安全性[3]。
针对软件定义网络异常流量分类的研究,国内外学者展开了大量研究,其中董书琴等[4]根据深度特征学习网络理论,设计一种异常流量分类方法,通过优化粒子群算法计算了网络流量的检测准确率,寻找网络层数和节点数的最优值,确定最优网络结构,提高特征提取的准确性,将梯度下降法应用到网络训练中,通过对含噪数据的最小化处理,提取出异常流量特征,引入异常流量检测分类器,对异常流量进行分类,最后通过实验分析,验证了所提方法的性能;杜臻等[5]利用小波分析原理,研究并设计了网络异常流量分类方法,先在Windows系统上采用Python语言编写了流量的功能代码,将异常流量从数据中提取出来,利用小波分析理论提取出异常流量特征,利用支持向量机算法训练了分类器,识别出网络异常流量,采用定性与定量结合的实验方式,验证了该分类方法的分类精度。
基于以上研究,本文将K-means聚类应用到了软件定义网络异常流量分类方法设计中,从而提高软件定义网络异常流量的分类精度。
1 软件定义网络异常流量分类方法设计
1.1 提取软件定义网络异常流量特征
根据K-means聚类的原理,将软件定义网络异常流量作为特征项,由于软件定义网络中存在很多种网络流量[6],本文利用权重属性,划分软件定义网络异常流量的频度,如式(1):
式中,异常流量的频度等级为;第个软件定义网络节点的频度划分时间为;异常流量的特征集合为;网络异常流量的特征量为;第层网络中异常流量特征项为0的可能性为。
要想保证网络异常流量特征提取的准确性,需要提前了解软件定义网络节点的分布形式,借助K-means聚类原理[7],量化处理软件定义网络的节点数据,对网络异常流量的分布形式进行转化,具体过程如图1所示。
根据软件定义网络异常节点出现的概率,计算了异常流量的特征值,公式为
利用权重属性,划分了软件定义网络异常流量的频度,根据软件定义网络异常节点出现的概率,计算了异常流量的特征值,提取出软件定义网络异常流量特征。
1.2 选择软件定义网络异常流量分类属性
通过度量软件定义网络的异构值差,选择软件定义网络异常流量分类属性,具体步骤如下:
Step2:准备好初始化之后的网络异常流量,便于分类属性的选择[9];
根据以上计算步骤,利用式(5)可以实现异常流量参考向量的动态更新,式(6)可以实现异常流量分类属性参考向量的更新,即:
根据式(5)的计算,可以得到:
通过更新分类属性的邻域半径,计算网络异常流量的参考向量,选择出软件定义网络异常流量分类属性。
1.3 检索软件定义网络异常流量
利用K-means聚类算法过滤软件定义网络异常流量,实现软件定义网络异常流量的检索,具体过程如下:
利用网络异常流量模型库过滤软件定义网络异常流量的分类结果[11],经过过滤之后,得到网络异常流量检索的候选模型集,即:
在上述计算过程的基础上,引入并行计算的模式,检索软件定义网络异常流量,即:
根据以上计算过程,实现了软件预定义网络异常流量的检索。
1.4 设计软件定义网络异常流量分类原理
在K-means聚类算法中,主要目的就是寻找软件定义网络中异常流量的局部特征映射[14],从而实现网络异常流量的分类。将网络异常流量分类的目标函数定义为
根据K-means聚类算法理论,结合式(12)的计算,假设软件定义网络中异常流量是均匀分布的,那么K-means聚类算子可以根据异常流量分布情况逐渐逼近。
由于软件定义网络中异常流量的结构为图结构,完全不需要构造邻接图[15],那么软件定义网络异常流量的分类过程可以描述为
构建软件定义网络异常流量的加权临界函数,即:
利用K-means聚类算法,将软件定义网络异常流量的分类结果表示为
通过定义网络异常流量分类的目标函数,利用K-means聚类算法理论,设计了软件定义网络异常流量分类原理,实现了软件定义网络异常流量的分类。
2 实验分析
为了验证本文所设计的基于K-means聚类的软件定义网络异常流量分类方法的实际应用效果,进行了实验测试。测试过程中,将软件定义网络后台运行数据作为实验样本数据,采用两台计算机分别通过攻击方式以及正常方式访问软件定义网络,以此生成软件定义网络异常以及正常流量数据,利用这些数据进行实验测试,以验证不同方法的应用效果。
2.1 设置评价指标
表1 评价指标参数解释
结合上述指标,为了进一步验证不同算法的收敛性,进行了收敛性比较测试,以验证本文方法的有效性。
2.2 实验结果分析
引入基于深度特征学习的分类方法和基于小波分析的分类方法作对比,选择软件定义网络中的网络流量数据库作为实验样本,对3种分类方法的查全率、差准率和适应度进行测试,结果如下。
3种分类方法的查全率测试结果如图2所示。
图2 查全率测试结果
从图2的结果可以看出,随着实验的进行,3种分类方法的查全率在整体上都呈现出上升的趋势,但是基于深度特征学习的分类方法得到的查全率始终都是缓慢上升的趋势,最大查全率为29.5%,基于小波分析的分类方法得到的查全率呈现出上升下降交替的趋势,最大查全率为70%,而基于K-means聚类的软件定义网络异常流量分类方法得到的查全率在实验开始阶段就达到了70%,到实验中期下降到40%,但是在实验结束时,最大查全率达到了96%,说明本文分类方法的分类效果更好。
3种分类方法的查准率测试结果如图3所示。
图3 查准率测试结果
从图3的结果可以看出,在查准率方面,基于K-means聚类的软件定义网络异常流量分类方法基本都在95%以上,基于深度特征学习的分类方法得到的查准率是最低的,最大查准率也只有80%,而基于小波分析的分类方法得到的查准率在80%~90%之间,综合分析,可以得到本文分类方法具有更好的查准率,分类效果也比较好。
3种分类方法的适应度测试结果如图4所示。适应度是评价异常流量分类效果的指标,适应度值与最优值越接近,说明分类效果越好。
从图4的结果可以看出,采用基于深度特征学习的分类方法和基于小波分析的分类方法时,随着实验的进行,软件定义网络异常流量分类的适应度与最优值之间的误差比较大,且当实验超过20min以后,两种分类方法的适应度都低于最优值,采用基于K-means聚类的软件定义网络异常流量分类方法时,测试得到的适应度与最优值之间非常接近,说明本文分类方法对软件定义网络异常流量进行分类时,得到适应度更高,分类效果更好。
图4 适应度测试结果
不同算法的收敛性测试结果如图5所示。
图5 收敛性测试结果
分析图5中的数据可知,基于深度特征学习的分类方法所使用的算法在执行过程中始终未收敛,基于小波分析的分类方法所使用的算法在执行过程中可以实现收敛,但是与基于K-means聚类的软件定义网络异常流量分类方法相比,所得结果的均方误差较高,因此证明该算法具有较好的收敛性能,实际应用效果好。
3 结束语
本文提出了基于K-means聚类的软件定义网络异常流量分类研究,结果显示,该分类方法可以提高软件定义网络异常流量的分类效果。但是本文的研究仍然存在很多不足,在今后的研究中,还应该引入分类精度指标进行测试,避免无法分辨软件定义网络中的异常流量与正常流量,提高异常流量分类方法的适用性。
[1] 张嘉誉,章坚民,杨才明,等. 基于信息物理融合的智能变电站过程层网络异常流量检测[J]. 电力系统自动化,2019, 43(14): 173-181.
[2] 黎佳玥,赵波,李想,等. 基于深度学习的网络流量异常预测方法[J]. 计算机工程与应用,2020, 56(06): 39-50.
[3] 孟永伟,秦涛,赵亮,等. 利用残差分析的网络异常流量检测方法[J]. 西安交通大学学报,2020, 54(01): 42-48, 84.
[4] 董书琴,张斌. 基于深度特征学习的网络流量异常检测方法[J]. 电子与信息学报,2020, 42(03): 695-703.
[5] 杜臻,马立鹏,孙国梓. 一种基于小波分析的网络流量异常检测方法[J]. 计算机科学,2019, 46(08): 178-182.
[6] 张艳升,李喜旺,李丹,等. 基于卷积神经网络的工控网络异常流量检测[J]. 计算机应用,2019, 39(05): 1512-1517.
[7] 赵博,张华峰,张驯,等. 基于EMD的电厂网络流量异常检测方法[J]. 计算机科学,2019, 46(S2): 464-468.
[8] 蒋华,张红福,罗一迪,等. 基于KL距离的自适应阈值网络流量异常检测[J]. 计算机工程,2019, 45(04): 108-113, 118.
[9] 孙旭日,刘明峰,程辉,等. 结合二次特征提取和LSTM-Autoencoder的网络流量异常检测方法[J]. 北京交通大学学报,2020, 44(02): 17-26.
[10] 陈铁明,金成强,吕明琪,等. 基于样本增强的网络恶意流量智能检测方法[J]. 通信学报,2020, 41(06): 128-138.
[11] 任俊玲,王承权,王海婷. 基于自相似指数变化率的网络数据流异常分析[J]. 中国科技论文,2019, 14(10): 1154-1160.
[12] 郝成亮,陈明,孙伟,等. 电力信息系统网络数据的实时流量监控分析[J]. 电测与仪表,2019, 56(08): 119-123.
[13] 李源,谢一臻,王永建,等. 面向车联网泛洪攻击的流量异常检测方法[J]. 南京理工大学学报,2020, 44(04): 454-461.
[14] 王晓东,赵一宁,肖海力,等. 线上多节点日志流量异常检测系统的研究[J]. 计算机科学与探索,2020, 14(11): 1828-1837.
[15] 徐玉华,孙知信. 软件定义网络中的异常流量检测研究进展[J]. 软件学报,2020, 31(01): 183-207.
Research on software defined network abnormal traffic classification based on K-means clustering
WANG Bin-bin
(Fuyang Preschool Teachers College, Anhui Fuyang 236015, China)
Considering that the classification of software defined network abnormal traffic is affected by the complexity of the network, resulting in the poor classification effect, a research on software defined network abnormal traffic classification based on K-means clustering is proposed. Using the weight attribute, the frequency of software defined network abnormal traffic is divided. Based on the transformation process of the distribution form of network abnormal traffic, the eigenvalues of abnormal traffic are calculated according to the probability of network abnormal nodes defined by software, the characteristics of software defined network abnormal traffic are extracted, and the measurement of network heterogeneous value difference is defined according to software. Initialize the reference vector value of the software defined network, calculate the reference vector of network abnormal traffic by updating the neighborhood radius of the classification attribute, select the software defined network abnormal traffic classification attribute, filter the software defined network abnormal traffic by using K-means clustering algorithm, retrieve the software defined network abnormal traffic, and define the objective function of network abnormal traffic classification. Using the theory of K-means clustering algorithm, the weighted critical function of software defined network abnormal traffic is constructed. Combined with the solution of diagonal matrix, the classification principle of software defined network abnormal traffic is designed, and the classification of software defined network abnormal traffic is realized. The experimental results show that the classification method in this paper has better classification effect in recall rate, difference rate and fitness index.
K-means clustering;software defined network;abnormal flow;classification method;feature extraction;attribute selection
2021-08-20
阜阳幼儿师范高等专科学校校级质量工程——常态化疫情防控下的高职计算机基础教学探讨(ZLGC2020JY011)
王彬彬(1984-),男,安徽阜阳人,讲师,硕士,主要从事高职计算机基础及高职高专大数据技术教学研究,bbwang8888@yeah.net。
TP393.08
A
1007-984X(2022)02-0050-06