基于加权极限学习机的网络入侵检测
2018-02-26冯洛银
冯洛银
摘要
网络入侵检测系统是一种主动防御系统,现在信息安全领域都缺少不了网络入侵系统。针对传统入侵检测对不平衡样本分类能力的不足,提出了一种加权极限学习机的分类算法,给予两类不平衡数量的样本不同的分类权值,从而克服分类平面受到样本不平衡而产生的偏移。实验结果表明,本文的算法在计算速度上、分类精度、以及Recall、Fmeasures、以及Gmeas等指标上都要优于传统的SVM、RBF、ELM等算法。
【关键词】网络入侵检测系统 主动防御系统极限学习机
1 引言
网络入侵检测系统是一种主动防御系统,现在信息安全领域都缺少不了网络入侵系统。在网络入侵系统中,采集到的网络状态实际上是可以分为正常和异常两种状态,所以网上入侵系统可以转为为一个二分类的模式识别问题。在当前基于模式识别的网络入侵系统已经取得了很多的研究。
传统的基于模式识别的网络入侵系统往往采用神经网络或者支持向量机。
神经网络主要是基于梯度下降法的BP神经网络等,该算法有如下缺点:
(1)它需要设置合适的训练步长和收敛误差,或者就会存在欠拟合和过拟合的问题,导致识别精度不高。
(2)它需要不断的迭代完成求解,对于大规模的网络入侵数据,它训练速度慢,训练代价高。
而支持向量机同样存在如下几点问题:
(1)它需要设置合适的核参数才能完成最佳性能,这个参数往往需要大规模的交叉验证获得,代价较高。
(2)SVM需要求解一个庞大的二次规划问题,训练速度很慢,在数据庞大时对计算设备要求较高。
针对上述问题,本文提出了采用极限学习机的网络入侵检测方法。但是网络入侵检测问题是一个不平很分类问题,往往正常训练样本数量远大于异常训练样本,采用传统的极限学习机算法会导致异常样本分类精度偏低。针对这个问题,本文提出了改进的加权极限学习机算法用于克服不平很样本分类问题。
2 极限学习机
黄等在论文中提取前馈神经网络的神经网络的输入权值无需迭代求解,只需要求得输出权值的最小二乘解即可完成网络的训练。于是极限学习机的求解方程,可以构造如下的计算公式。
上述可以用公式表达成下式
其中是训练样本xi对应的网络输出和真实值之间的误差。
上面的正则极限学习机对于所有样本给予了一个固定的正则化参数,本文考虑另外一种情况,对于不平衡样本和有噪声的样本,我们应该针对不同的样本有一个不同的权值:
用同样的方法求解,同样可以定义lagrange函数求解上面的问题:
最终可以求解得出:
其中W=diag[s1,s2…sN]为样本的权值矩阵。
3 不平衡分类的指标
以往的研究中大多假设各类样本分布均衡,因此常使用“分类准确率“或“错误率”作为分类器性能的评估指标。但是对于不平衡数据集,当两类样本分布严重不均衡时,即使少数类全部错分,仍然可能会出现分类准确率较高的情况,因此用分类准确率作为不平衡数据集分类器的性能的指标并不准确。基于此问题,学者们提出了一些对于不平衡数据集分类性能估的方法,分别是:基于混淆阵的精确度(Precision)、召回率(Recall)、正确率(ACC)、F-Recall、G-means等。
混淆矩阵(Confusion Matrix)如表1所示,其中TP(Ture Positives)表示正类样本判别为正类的个数,TN(Ture Negatives)表示负类样本被判别为负类的个数,FN(FalseNegatives)表示判决错误的负类样本数目,FP(False Positives)表示判决错误的正类样本数目。
可以定义二分类的混淆矩阵如表1所示。
利用混淆矩阵可以定义“正类分类准确率”和“负类分类准确率”的公式:
几何平均准则(G-means)是通过不平衡数据集的均衡程度来体现算法的分类性能,因此被广泛用于评价不平衡数据集分类算法的性能。
由上述定义可以看出,ACC+(ACC-)越小,G-means就会越小,同时也说明少数类样本被错分越多,错分代价越大。
事实上在大多数应用中,我们更关注分类器对少数类样本的分类性能。F-measure就是评价不平衡分类问题中少数类别分类性能的指标。
4 实验与分析
本文实验所选取的数据来源于KDDCUP99数据集,kddc包含4种大攻击类别、22种小攻击类别的数据集,以及正常数据。
我们把攻击数据进行合并作为一个大类,把正常数据作为另外一个类别,使得KDDCUP99数据成为一个二分类的过程,其中正常数据25000条,异常数据10000条,不平衡比例为2.5:1,其分类是一个典型的不平衡分类的过程。我们提取其中的80%的样本数据作为训练,剩下的20%的数据作为测试数据进行测试。
给出了RBF神经网络、支持向量机(SVM)、普通的极限学习机(ELM)、随机森林算法和本文提出的WELM算法进行的性能指标对比,实验结果如表2所示。
从表2可以看出,在不平衡入侵数据的分类问题上,本文提出的算法在各个指标上都要优越于普通的极限学习机算法及其其他经典算法。同时本文的算法取得了第二的训练速度,和最快的ELM算法训练速度相近,且速度远快于其他的算法。
5 结论
针对传统入侵检测对不平衡样本分类能力的不足,提出了一种加权极限学习机的分类算法,给予两类不平衡数量的样本不同的分类权值,从而克服分类平面受到样本不平衡而产生的偏移。实验结果表明,本文的算法在计算速度上、分类精度、以及Recall、Fmeasures、以及Gmeas等指标上都要优于传统的SVM、RBF、ELM等算法。
参考文献
[1]李丛,闫仁武,朱长水,高广银.融合FAST特征选择与ABQGSA-SVM的网络入侵检测[J].计算机应用研究,2017,34(07):2172-2179.
[2]井小沛,汪厚祥,聂凯.基于修正核函数SVM的网络入侵检测[J].系统工程与电子技术,2012,34(05):1036-1040.
[3]高海華,杨辉华,王行愚.基于PCA和KPCA特征抽取的SVM网络入侵检测方法[J].华东理工大学学报(自然科学版),2006(03):321-326.
[4]包潘晴,杨明福.基于KPCA和SVM的网络入侵检测[J].计算机应用与软件,2006(02):125-127.
[5]Guang-Bin Huang,Qin-Yu Zhu and Chee-KheongSiew.Extreme Learning Machine:Theory and Applications[J].Neurocomput ing,2006,70(1-3):489-501.
[6]Peng Y,Wang S,Long X,et al.Discriminative graph regularizedextreme learning machine and itsapplication to face recognition[J].Neurocomputing,2015,149(PA):340-353.
[7]Sun Z L,Choi T M,Au K F,et al.Salesforecasting using extreme learningmachine with applications in fashionretailing[J].Decision SupportSystems,2009,46(01):411-419.