APP下载

基于数据挖掘的网络入侵检测规则提取方法研究

2016-02-06◆郑

网络安全技术与应用 2016年8期
关键词:降维数据挖掘规则

◆郑 军

(包头师范学院网络信息中心 内蒙古 014030)

基于数据挖掘的网络入侵检测规则提取方法研究

◆郑 军

(包头师范学院网络信息中心 内蒙古 014030)

本文应用数据挖掘技术以KDD CUP99数据集作为实验数据,对网络入侵检测规则提取的方法进行了研究和实验。本文深入探讨了数据预处理的方法;研究了高维度网络数据降维的方法;研究了使用决策树模型提取出入侵检测规则的方法;最后对算法模型进行了交叉验证,实验表明本方法具有较高的精确度。

入侵检测;数据挖掘;决策树;检测规则提取

0 引言

当今世界,互联网的应用已经深入到了各行各业,社会影响力十分重大,网络安全问题备受关注。随着计算机网络规模的不断扩大,网络安全审计数据也呈指数级增长。面对海量的审计数据,传统的入侵检测方法根本无力应对,因此必须采用数据挖掘的技术手段来进行网络安全的研究。

1 数据的准备

本研究采用KDD CUP99数据集作为研究对象,KDD CUP99数据集是进行入侵检测研究的一个标准数据集。它包含了5,000,000多个网络连接记录,模拟了各种用户类型、各种网络流攻击手段。KDD CUP99数据集中每个连接用41个特征属性和一个标记属性共42个属性来描述。其具体名称和含义参见参考文献[1-2]。

2 数据的处理

为了提高算法的执行效率,本研究采用抽样的方法抽取了KDD CUP99原始数据10%的数据作为算法运算数据。每个网络连接异常标记有4大类共39种攻击类型,为了使提取出的检测规则简洁,我们将这些异常标记统一处理为unnormal,网络连接正常标记仍为normal。

本研究采用的KDD CUP99实验数据有41维度的特征,维度过高一方面会造成检测太慢,产生“维度灾难”,另一方面,也会给算法带来很多噪声,使算法的准确率下降。因此,必须要提取出数据的主成分,对数据进行降维处理。本研究采用主成分分析进行降维处理,其具体算法参见参考文献[3-5]。

3 实验结果

我们采用主成分分析算法提取出了数据的主成分,其各个主成分的信息分布如下表1所示:

表1 实验数据主成分的信息分布

由表1可知pc_1一个主成分就可以涵盖原始数据0.999的信息,因此,我们只选取pc_1一个维度作为降维后的结果进行入侵检测规则提取研究。

将主成分pc_1的数据进行决策树分析可以挖掘出如图1所示的检测规则。

得到的入侵检测规则描述为:

图1 入侵检测规则

将KDD CUP99数据带入以上规则进行交叉验证(其具体过程参见参考文献[6-8])得到如表2所示的准确率和召回率:

表2 验证准确率和召回率

4 结语

本文深入探讨了数据预处理的方法,研究了高维度网络数据降维的方法,研究了使用决策树模型提取出入侵检测规则的方法,最后对算法模型进行了交叉验证,实验表明本方法具有较高的精确度。

[1]csdn博客.KDD CUP 99数据集[EB/OL].http://blog.csdn.net/com_stu_zhang/article/details/6987632.

[2]163博客.KDD CUP 99数据集之特征描述[EB/OL].http://blog.163.com/li_205213/blog/static/11789679320137298058110/.

[3]梁胜杰,张志华,崔立林,钟强晖.基于主成分分析与核独立成分分析的降维方法[J].系统工程与电子技术,2011.

[3]田野,赵春晖,季亚新.主成分分析在高光谱遥感图像降维中的应用[J].哈尔滨师范大学自然科学学报,2007.

[5]高宏宾,侯杰,李瑞光.基于核主成分分析的数据流降维研究[J].计算机工程与应用,2013.

[6]王家华,高海余.利用循环交叉验证法确定变异函数[J].西安石油大学学报(自然科学版),1992.

[7]闻斌,江其保.通过交叉验证准则选择线性模型[J].华东交通大学学报,2005.

[8]高红.基于交叉验证的错误率估计分析[J].科技信息,2011.

内蒙古自治区高等学校科学研究项目(项目编号:NJZY16238)资助。

猜你喜欢

降维数据挖掘规则
混动成为降维打击的实力 东风风神皓极
撑竿跳规则的制定
数独的规则和演变
探讨人工智能与数据挖掘发展趋势
降维打击
让规则不规则
基于并行计算的大数据挖掘在电网中的应用
TPP反腐败规则对我国的启示
一种改进的稀疏保持投影算法在高光谱数据降维中的应用
一种基于Hadoop的大数据挖掘云服务及应用