基于数据挖掘的网络入侵检测规则提取方法研究
2016-02-06◆郑军
◆郑 军
(包头师范学院网络信息中心 内蒙古 014030)
基于数据挖掘的网络入侵检测规则提取方法研究
◆郑 军
(包头师范学院网络信息中心 内蒙古 014030)
本文应用数据挖掘技术以KDD CUP99数据集作为实验数据,对网络入侵检测规则提取的方法进行了研究和实验。本文深入探讨了数据预处理的方法;研究了高维度网络数据降维的方法;研究了使用决策树模型提取出入侵检测规则的方法;最后对算法模型进行了交叉验证,实验表明本方法具有较高的精确度。
入侵检测;数据挖掘;决策树;检测规则提取
0 引言
当今世界,互联网的应用已经深入到了各行各业,社会影响力十分重大,网络安全问题备受关注。随着计算机网络规模的不断扩大,网络安全审计数据也呈指数级增长。面对海量的审计数据,传统的入侵检测方法根本无力应对,因此必须采用数据挖掘的技术手段来进行网络安全的研究。
1 数据的准备
本研究采用KDD CUP99数据集作为研究对象,KDD CUP99数据集是进行入侵检测研究的一个标准数据集。它包含了5,000,000多个网络连接记录,模拟了各种用户类型、各种网络流攻击手段。KDD CUP99数据集中每个连接用41个特征属性和一个标记属性共42个属性来描述。其具体名称和含义参见参考文献[1-2]。
2 数据的处理
为了提高算法的执行效率,本研究采用抽样的方法抽取了KDD CUP99原始数据10%的数据作为算法运算数据。每个网络连接异常标记有4大类共39种攻击类型,为了使提取出的检测规则简洁,我们将这些异常标记统一处理为unnormal,网络连接正常标记仍为normal。
本研究采用的KDD CUP99实验数据有41维度的特征,维度过高一方面会造成检测太慢,产生“维度灾难”,另一方面,也会给算法带来很多噪声,使算法的准确率下降。因此,必须要提取出数据的主成分,对数据进行降维处理。本研究采用主成分分析进行降维处理,其具体算法参见参考文献[3-5]。
3 实验结果
我们采用主成分分析算法提取出了数据的主成分,其各个主成分的信息分布如下表1所示:
表1 实验数据主成分的信息分布
由表1可知pc_1一个主成分就可以涵盖原始数据0.999的信息,因此,我们只选取pc_1一个维度作为降维后的结果进行入侵检测规则提取研究。
将主成分pc_1的数据进行决策树分析可以挖掘出如图1所示的检测规则。
得到的入侵检测规则描述为:
图1 入侵检测规则
将KDD CUP99数据带入以上规则进行交叉验证(其具体过程参见参考文献[6-8])得到如表2所示的准确率和召回率:
表2 验证准确率和召回率
4 结语
本文深入探讨了数据预处理的方法,研究了高维度网络数据降维的方法,研究了使用决策树模型提取出入侵检测规则的方法,最后对算法模型进行了交叉验证,实验表明本方法具有较高的精确度。
[1]csdn博客.KDD CUP 99数据集[EB/OL].http://blog.csdn.net/com_stu_zhang/article/details/6987632.
[2]163博客.KDD CUP 99数据集之特征描述[EB/OL].http://blog.163.com/li_205213/blog/static/11789679320137298058110/.
[3]梁胜杰,张志华,崔立林,钟强晖.基于主成分分析与核独立成分分析的降维方法[J].系统工程与电子技术,2011.
[3]田野,赵春晖,季亚新.主成分分析在高光谱遥感图像降维中的应用[J].哈尔滨师范大学自然科学学报,2007.
[5]高宏宾,侯杰,李瑞光.基于核主成分分析的数据流降维研究[J].计算机工程与应用,2013.
[6]王家华,高海余.利用循环交叉验证法确定变异函数[J].西安石油大学学报(自然科学版),1992.
[7]闻斌,江其保.通过交叉验证准则选择线性模型[J].华东交通大学学报,2005.
[8]高红.基于交叉验证的错误率估计分析[J].科技信息,2011.
内蒙古自治区高等学校科学研究项目(项目编号:NJZY16238)资助。