基于SPCSE与WKELM的网络入侵检测方法研究
2022-07-20肖耿毅
肖耿毅
(桂林师范高等专科学校数学与计算机技术系,广西 桂林 541199)
1 引言
互联网具有开放性和包容性,但是容易受到外部入侵。入侵检测是一种及时检测和报告未经授权的访问或异常的技术,网络入侵检测系统是用于保护系统免受非法攻击的重要网络防御工具。入侵检测系统主要包含三种手段:第一种为基于特征的检测方法,这种方法具有较高的预测和检测精度,但需要入侵和攻击的先验知识或经验;第二种为基于统计算法的检测方法,这种方法对于常规网络入侵检测率高,但其学习能力较差;第三种为基于机器学习的检测方法,其有效性完全取决于机器学习算法的有效性。建立一个有效的网络入侵检测系统,充分利用新的机器学习方法是一项具有挑战性的任务。从对象的角度来看,与正常的网络行为相比,不同类型的恶意攻击具有相当不平衡的分布。网络入侵行为复杂的、冗长的特征给构建有效的检测系统带来了严峻的挑战。为了解决这些问题,本文提出一种新的网络入侵检测方法,即基于稀疏主成分空间嵌入与加权核极限学习机的网络入侵检测方法,它包含了稀疏主成分空间嵌入算法以及加权核极限学习机。
网络入侵数据的较多特征不仅会影响检测速度,还会影响检测精度。由于高维空间的信息数据是可以以非常小的信息损失在低维空间中进行表示的,因而降维可能会产生较低维度的数据,从而可以减少网络入侵数据的特征,当前的降维算法有主成分分析法、局部线性嵌入法、核主成分分析法等等。由于网络入侵数据中有很多是稀疏的,这些降维算法对网络入侵数据处理效果不佳,难以很好地提取稀疏数据的信息。因此,本文提出稀疏主成分空间嵌入算法(SPCSE)以约简网络入侵数据的特征,稀疏主成分空间嵌入算法是基于稀疏主成分的特征约简的降维算法,稀疏主成分空间嵌入可以减少特征提取后的数据信息丢失,从而不仅提高算法提取的特征准确度,还能提高算法的效率。
极限学习机(ELM)是一种求解单隐层神经网络的算法,极限学习机在保证学习精度的前提下比传统的单层神经网络有着更高的效率。为了改进极限学习机的网络入侵的检测效果,提出一种加权核极限学习机算法(WKELM),在加权极限学习机中引入了核函数,通过采用核函数代替包含激活函数的加权极限学习机隐层随机特征映射,这些隐层随机特征映射可以提高加权极限学习机的非线性处理能力和鲁棒性。由于粒子群优化算法存在局部优化等问题,提出采用柯西粒子群优化算法进行加权核极限学习机的参数优化。采用KDDCUP99数据集样本作为本文的实验数据,网络入侵类型主要为Dos、Probe、R2L、U2R,通过实验测试基于稀疏主成分空间嵌入与加权核极限学习机的网络入侵检测方法用于识别正常、Dos、Probe、R2L、U2R这5种网络状态的可行性。
2 稀疏主成分空间嵌入
高维空间的信息数据是可以以非常小的信息损失在低维空间中进行表示的。对于给定的数据集,降维可能会产生较低维度的数据,从而可以减少网络入侵数据的特征。由于网络入侵数据中有很多是稀疏的,这些降维算法对网络入侵数据处理效果不佳,难以很好地提取稀疏数据的信息,对此,本文提出一种稀疏主成分空间嵌入算法以约简网络入侵数据的特征。稀疏主成分空间嵌入算法是提取稀疏主成分并对特征约简的降维算法,稀疏主成分就是以主成分为基础将主成分的系数向量进行稀疏化,使绝对值较小的系数压缩为零。
(1)
解决下述优化问题以产生稀疏回归系数
(2)
约束条件:DD
=I
式中:D
,E
是最小化准则的参数矩阵,β
是范数-2惩罚参数。由稀疏主成分空间嵌入算法构造的抽样误差遵循关于零均值的对称分布,这导致稀疏主成分空间嵌入在降维后更好地保留了欧氏距离。因此,稀疏主成分空间嵌入可以减少特征提取后的数据信息丢失,同时降低特征提取的计算复杂度。
3 加权核极限学习机
极限学习机是黄广斌提出的一种求解单隐层前馈神经网络的算法,其输入层和隐层之间的连接是随机分配的。与传统的单层神经网络相比,极限学习机在保证学习精度的前提下保证更高的效率。经过训练的极限学习机模型将会比反向传播神经网络具有更高的精度和速度。极限学习机的数学模型表达为
(3)
式中:h
(x
)为特征映射函数矩阵,H
=[h
(x
),…,h
(x
)]为隐含层特征映射矩阵,T
=[t
,…,t
]为训练目标矩阵。对于加权极限学习机算法,为了最小化输出权重并最小化每个样本的加权累积误差,非平衡学习的加权极限学习机优化问题可以描述为
最小化
(4)
约束条件
式中:α
为输出权重向量,α
=H
T
,W
是用于加权的对角矩阵。对于加权极限学习机,采用核函数代替包含激活函数的加权极限学习机隐层随机特征映射,有利于提高加权极限学习机的非线性处理能力和鲁棒性。
(5)
式中:C
为惩罚因子,I
为单位矩阵。引入核函数代替特征矩阵HH
,核极限学习机数学模型表达为(6)
加权极限学习机定义一个内核矩阵,因而,加权极限学习机分类器的输出函数为
(7)
式中:C
是加权极限学习机算法的正则化系数。加权极限学习机的惩罚因子C
以及高斯径向基核函数的参数ε
需要优化。粒子群优化算法是一种群体智能优化算法,它从鸟群在多维搜索空间中的社会行为演化而来。一旦找到了食物的来源,领头的鸟就会传送这些信息,以便其它鸟群也能找到食物。粒子群优化算法随机生成一组粒子,这些粒子根据式(8)与式(9)在搜索空间中移动以更新每个粒子的位置和速度以搜索最佳结果。
v
(t
+1)=λ
·v
(t
)+c
·rand
·(pbest
(t
)-x
(t
))+c
·rand
·(gbest
(t
)-x
(t
))(8)
x
(t
+1)=x
(t
)+v
(t
+1)(9)
式中:λ
是权重系数,pbest
是单个粒子的最佳先前经验,gbest
是所有群中的全局最佳经验,c
、c
是加速度常数,c
、c
取值为2,rand
是0与1之间的随机数。该算法采用柯西分布进行初始粒子的选取,标准柯西密度函数表示为
(10)
由于加权核极限学习机的惩罚因子C
以及高斯径向基核函数的参数ε
的选择对其的识别能力有很大的影响,所以应用柯西粒子群优化算法选择加权核极限学习机的惩罚因子C
以及高斯径向基核函数的参数ε
。首先定义一个粒子,该粒子包括加权极限学习机的惩罚因子C
以及高斯径向基核函数的参数ε
,利用标准柯西密度函数,产生一组初始的粒子;其次,定义适合度函数,评估每个粒子的适合度;再次,根据式(8)与式(9)更新每个粒子的位置和速度,评估当前粒子的适合度;最后,如果满足终止条件,优化过程结束,同时获取加权核极限学习机的惩罚因子C
以及高斯径向基核函数的参数ε
。4 基于SPCSE与WKELM的网络入侵检测流程
图1描述了基于稀疏主成分空间嵌入与加权核极限学习机(SPCSE-WKELM)的网络入侵检测流程,该网络入侵检测流程中将网络入侵数据高维特征集分为训练样本集与测试样本集,通过稀疏主成分空间嵌入算法分别将训练样本集与测试样本集进行降维,从而分别获取低维特征集训练样本集与低维特征集测试样本集,利用低维特征集训练样本集以及柯西粒子群优化算法对加权极限学习机的惩罚因子C以及高斯径向基核函数的参数ε进行优化,从而获取稀疏主成分空间嵌入与加权核极限学习机的网络入侵检测模型,采用低维特征集测试样本集对稀疏主成分空间嵌入与加权核极限学习机的网络入侵检测模型进行测试。
图1 基于SPCSE-WKELM的网络入侵检测流程图
5 实验测试与结果
网络入侵类型主要为Dos、Probe、R2L、U2R。本文采用500个KDDCUP99数据集样本作为本文的实验数据,该实验数据包含正常、Dos、Probe、R2L、U2R这5种网络状态。其中300个KDDCUP99数据集样本作为本文的训练数据,200个KDDCUP99数据集样本作为本文的测试数据,这200个KDDCUP99数据集样本包括正常样本40个,Dos入侵样本40个,Probe入侵样本40个,R2L入侵样本40个以及U2R入侵样本40个。通过稀疏主成分空间嵌入算法分别降低训练样本以及测试样本的特征维数,选定柯西粒子群优化算法参数,采用柯西粒子群优化算法选择加权核极限学习机的惩罚因子C以及高斯径向基核函数的参数ε,建立SPCSE-WKELM网络入侵检测模型。分别采用WKELM网络入侵检测模型、ELM网络入侵检测模型与网络入侵SPCSE-WKELM检测模型进行比较。WKELM网络入侵检测模型、ELM网络入侵检测模型与SPCSE-WKELM网络入侵检测模型分别对正常、Dos、Probe、R2L、U2R的识别率如表1所示。图2展示了SPCSE-WKELM的网络入侵检测结果,SPCSE-WKELM对正常样本识别率100%,Dos入侵样本识别率95%,对Probe入侵样本识别率97.5%,对R2L入侵样本识别率100%,对U2R入侵样本识别率100%。图3展示了WKELM的网络入侵检测结果,WKELM对正常样本识别率100%,Dos入侵样本识别率95%,对Probe入侵样本识别率87.5%,对R2L入侵样本识别率95%,对U2R入侵样本识别率97.5%。WKELM对Probe入侵样本识别率较低。图4展示了ELM的网络入侵检测结果,ELM对正常样本识别率97.5%,Dos入侵样本识别率92.5%,对Probe入侵样本识别率87.5%,对R2L入侵样本识别率90%,对U2R入侵样本识别率92.5%。ELM对Probe入侵样本识别率以及对R2L入侵样本识别率较低。从表2可以看出,SPCSE-WKELM对于网络入侵的检测精度98.5%,WKELM对于网络入侵的检测精度95%,ELM对于网络入侵的检测精度92%。可以看出,SPCSE-WKELM对于网络入侵的检测精度远高于WKELM以及ELM对于网络入侵的检测精度。
图2 基于SPCSE-WKELM的网络入侵检测结果
图3 基于WKELM的网络入侵检测结果
图4 基于ELM的网络入侵检测结果
表1 各模型对正常、Dos、Probe、R2L、U2R的识别率
表2 各模型对网络入侵的检测精度
6 结论
为了解决网络入侵行为复杂的、冗长的特征给构建有效的检测系统带来的问题以及提高网络入侵检测效果,本文提出一种新的网络入侵检测方法,即基于稀疏主成分空间嵌入与加权核极限学习机的网络入侵检测方法,给出基于稀疏主成分空间嵌入与加权核极限学习机的网络入侵检测流程,并通过实验结果表明本文提出的基于稀疏主成分空间嵌入与加权核极限学习机的网络入侵检测方法对于网络入侵的检测结果优于传统的极限学习机和加权核极限学习机,从而证明了本文提出的基于稀疏主成分空间嵌入与加权核极限学习机的网络入侵检测方法的有效性。本文贡献在于:
1) 提出一种稀疏主成分空间嵌入算法以约简网络入侵数据的特征。这种算法是基于稀疏主成分的特征约简的降维算法,稀疏主成分空间嵌入可以减少特征提取后的数据信息丢失。
2) 提出一种加权核极限学习机算法,它采用核函数代替包含激活函数的加权极限学习机隐层随机特征映射,有利于提高算法的非线性处理能力和鲁棒性,采用基于柯西粒子群优化算法进行加权核极限学习机的参数优化。