基于数据挖掘的网络入侵检测规则提取方法研究_参考网

基于数据挖掘的网络入侵检测规则提取方法研究

2016-02-06◆郑军

网络安全技术与应用 2016年8期

关键词：降维数据挖掘规则

◆郑军

（包头师范学院网络信息中心内蒙古 014030）

基于数据挖掘的网络入侵检测规则提取方法研究

◆郑军

（包头师范学院网络信息中心内蒙古 014030）

本文应用数据挖掘技术以KDD CUP99数据集作为实验数据，对网络入侵检测规则提取的方法进行了研究和实验。本文深入探讨了数据预处理的方法；研究了高维度网络数据降维的方法；研究了使用决策树模型提取出入侵检测规则的方法；最后对算法模型进行了交叉验证，实验表明本方法具有较高的精确度。

入侵检测；数据挖掘；决策树；检测规则提取

0 引言

当今世界，互联网的应用已经深入到了各行各业，社会影响力十分重大，网络安全问题备受关注。随着计算机网络规模的不断扩大，网络安全审计数据也呈指数级增长。面对海量的审计数据，传统的入侵检测方法根本无力应对，因此必须采用数据挖掘的技术手段来进行网络安全的研究。

1 数据的准备

本研究采用KDD CUP99数据集作为研究对象，KDD CUP99数据集是进行入侵检测研究的一个标准数据集。它包含了5，000，000多个网络连接记录，模拟了各种用户类型、各种网络流攻击手段。KDD CUP99数据集中每个连接用41个特征属性和一个标记属性共42个属性来描述。其具体名称和含义参见参考文献[1-2]。

2 数据的处理

为了提高算法的执行效率，本研究采用抽样的方法抽取了KDD CUP99原始数据10%的数据作为算法运算数据。每个网络连接异常标记有4大类共39种攻击类型，为了使提取出的检测规则简洁，我们将这些异常标记统一处理为unnormal，网络连接正常标记仍为normal。

本研究采用的KDD CUP99实验数据有41维度的特征，维度过高一方面会造成检测太慢，产生“维度灾难”，另一方面，也会给算法带来很多噪声，使算法的准确率下降。因此，必须要提取出数据的主成分，对数据进行降维处理。本研究采用主成分分析进行降维处理，其具体算法参见参考文献[3-5]。

3 实验结果

我们采用主成分分析算法提取出了数据的主成分，其各个主成分的信息分布如下表1所示：

表1 实验数据主成分的信息分布

由表1可知pc_1一个主成分就可以涵盖原始数据0.999的信息，因此，我们只选取pc_1一个维度作为降维后的结果进行入侵检测规则提取研究。

将主成分pc_1的数据进行决策树分析可以挖掘出如图1所示的检测规则。

得到的入侵检测规则描述为：

图1 入侵检测规则

将KDD CUP99数据带入以上规则进行交叉验证（其具体过程参见参考文献[6-8]）得到如表2所示的准确率和召回率：

表2 验证准确率和召回率

4 结语

本文深入探讨了数据预处理的方法，研究了高维度网络数据降维的方法，研究了使用决策树模型提取出入侵检测规则的方法，最后对算法模型进行了交叉验证，实验表明本方法具有较高的精确度。

[1]csdn博客.KDD CUP 99数据集[EB/OL].http：//blog.csdn.net/com_stu_zhang/article/details/6987632.

[2]163博客.KDD CUP 99数据集之特征描述[EB/OL].http：//blog.163.com/li_205213/blog/static/11789679320137298058110/.

[3]梁胜杰，张志华，崔立林，钟强晖.基于主成分分析与核独立成分分析的降维方法[J].系统工程与电子技术，2011.

[3]田野，赵春晖，季亚新.主成分分析在高光谱遥感图像降维中的应用[J].哈尔滨师范大学自然科学学报，2007.

[5]高宏宾，侯杰，李瑞光.基于核主成分分析的数据流降维研究[J].计算机工程与应用，2013.

[6]王家华，高海余.利用循环交叉验证法确定变异函数[J].西安石油大学学报（自然科学版），1992.

[7]闻斌，江其保.通过交叉验证准则选择线性模型[J].华东交通大学学报，2005.

[8]高红.基于交叉验证的错误率估计分析[J].科技信息，2011.

内蒙古自治区高等学校科学研究项目（项目编号：NJZY16238）资助。

猜你喜欢

降维数据挖掘规则

混动成为降维打击的实力东风风神皓极

撑竿跳规则的制定

数独的规则和演变

探讨人工智能与数据挖掘发展趋势

让规则不规则

基于并行计算的大数据挖掘在电网中的应用

TPP反腐败规则对我国的启示

一种改进的稀疏保持投影算法在高光谱数据降维中的应用

一种基于Hadoop的大数据挖掘云服务及应用

网络安全技术与应用

网络安全技术与应用的其它文章