APP下载

基于数据挖掘技术的网络入侵检测技术研究

2016-05-14周立军张杰吕海燕

现代电子技术 2016年6期
关键词:粒子群优化算法BP神经网络数据挖掘

周立军 张杰 吕海燕

摘 要: 在此对基于数据挖掘技术的网络入侵检测技术进行研究。考虑到常规BP神经网络建立的网络入侵检测技术存在由于BP神经网络容易陷入最小值导致检测效率和准确率低下等问题,使用粒子群算法对BP神经网络模型进行优化,使用动态惯性权重系数以确定BP神经网络的参数,并将网络入侵流量特征与BP神经网络的参数组合并编码成一个粒子以实现网络入侵流量特征与BP神经网络的参数的同步选取。通过使用KDD CUP99数据库的入侵流量数据对使用该方法以及常规BP神经网络建立的检测模型进行训练和测试,结果表明,研究算法建立的检测模型具有更高的检测效率以及检测准确率。

关键词: 数据挖掘; BP神经网络; 网络入侵检测; 粒子群优化算法

中图分类号: TN915?34; TP393 文献标识码: A 文章编号: 1004?373X(2016)06?0010?04

Research on network intrusion detection technology based on data mining technology

ZHOU Lijun, ZHANG Jie, L? Haiyan

(Naval Aeronautical and Astronautical University, Yantai 264001, China)

Abstract: The network intrusion detection technology based on data mining technology is studied in this paper. On account of low detection accuracy and efficiency of the network intrusion detection technology established by the common BP natural network which is easy to fall into least value, the particle swarm algorithm is used to optimize the BP natural network model, the dynamical inertia weight coefficient is adopted to define the parameters of BP natural network, and the parameter of BP neural network are integrated with the characteristics of network intrusion rate, and encoded to a particle in order to realize the synchronous selection of the characteristics of network intrusion rate and parameter of BP neural network. The detection model established with this method and the common BP natural network are trained and tested by using the intrusion flow data in CUP99 KDD database. The results show that the detection model established with this algorithm has advantages of high detection efficiency and accuracy.

Keywords: data mining; BP neural network; network intrusion detection; particle swarm optimization algorithm

0 引 言

随着计算机互联网环境的日益复杂化,以及网络技术的日益普遍化,使得互联网入侵攻击方法日益多样化、智能化以及复杂化,因此使用传统的防火墙以及操作系统加固的方式无法抵挡现如今的入侵攻击,无法满足网络安全的要求,故入侵检测系统应运而生[1?2]。入侵检测系统能够针对网络流量数据进行检测分析,从中分辨出异常流量,检测入侵等危害计算机安全的行为。然而网络流量数据庞大,导致了检测系统在需要数据对决策进行支撑时,往往对海量数据无从下手,不能快速而有效率地从中提取出需要的信息和有价值的知识。顺应此需求,数据挖掘技术在近年来发展十分迅速。作为一种高端的数据分析工具,数据挖掘技术具有强大的数据处理和分析能力,而目前通信、计算机和网络等技术的合并使得数据量进一步扩大,所以数据挖掘技术在信息化管理中的地位进一步提升[3?4]。

BP神经网络等机器学习算法属于数据挖掘技术中常用的技术手段,能在大量样本集训练和学习后自动找出运算需要的参数和模式,有极好的数据处理能力和自组织学习能力,并且能准确进行识别,但是常规BP神经网络建立的网络入侵检测技术存在由于BP神经网络容易陷入最小值导致检测效率和准确率低下等问题,本文使用粒子群算法对BP神经网络模型进行优化,使用动态惯性权重系数以确定BP神经网络的参数,并将网络入侵流量特征与BP神经网络的参数组合并编码成一个粒子以实现网络入侵流量特征与BP神经网络的参数的同步选取[5]。

1 改进型BP神经网络

1.1 BP神经网络

训练样本设定为[xk,yk],其中[xk]为输入向量,[yk]为期望的输出向量,即实际类型。则BP神经网络的输出和实际类型[yk]的误差之和表示为:

[E=k=1mEk] (1)

式中:[Ek]表示为:

[Ek=i=1n?(eik)=12i=1n(yik-y)2=12i=1neik2] (2)

BP神经网络的输出和实际类型[yk]的误差通过对权值的调整而改变。设定BP神经网络隐层中第[i]个输出表示为:

[yik=σ0(yik),yik=Wik(o)TH(l)k=j=1nlw(0)ijh(l)jk] (3)

BP神经网络调整权值方法如下:

[?Ek?Wpk(0)=?Ek?epk??epk?ypk??ypk?ypk??ypk?y(0)pk =-epk?σ0′(ypk)?H(l)pk] (4)

[ΔW(0)pk=W(0)pk-W(0)pk-1=-α?Ek?W(0)pk] (5)

BP神经网络中第[r]层的进行权值调整方法如下:

[ΔW(r)pk=W(r)pk-W(r)pk-1=α?ε(r)pk?H(r+1)pkε(r)pk=σr′(h(r)pk)?i=1nr-1εik(r-1)w(r-1)ip] (6)

由于使用BP神经网络建立的网络入侵检测模型在实际应用中,会由于BP神经网络的梯度下降算法优化权值而导致陷入局部最优解等问题,使得网络入侵检测模型的误差逐渐增加,降低检测准确率,因此本文使用粒子群优化算法对BP神经网络的权值进行优化[6]。

1.2 改进粒子群算法

粒子群优化算法是人们受到鸟类觅食行为启发而演化出来的。设定粒子群优化算法中第i个粒子的位置为[Xi=xi1,xi2,…,xin],第i个粒子的飞行速度为[Vi=vi1,vi2,…,vin],粒子最优位置向量表示为[Pi=pi1,pi2,…,pin],整个粒子群的最优位置向量表示为[Gi=gi1,gi2,…,gin],则粒子群更新速度和更新位置方法表示为:

[Vk+1id=wVkid+c1r1(pbkid-xkid)+c2r2(gbkd-xkid)Xk+1id=Xkid+Vk+1id] (7)

由于粒子群优化算法的搜索效率和准确率取决于粒子群优化算法中的惯性权值,因此本文使用动态惯性权重系数以确定BP神经网络的参数:

[w=wmin-(wmax-wmin)*(f-fmin)(favg-fmin), f≥favgwmax, f

式中:[wmax]表示惯性权值的最大值;[wmin]表示惯性权值的最小值;[favg]表示适应度函数的平均值;[fmin]表示适应度函数的最小值[7?8]。

本文将网络入侵流量特征与BP神经网络的参数组合并编码成一个粒子以实现网络入侵流量特征与BP神经网络的参数的同步选取。粒子的位置向量表示为:

(1) 入侵流量特征,“1”表示特征被选择,“0”表示特征没有被选择;

(2) BP神经网络参数。

粒子的适应度函数表示为:

[f=w×precison+(1-w)i=1Nffi-1] (9)

式中:[fi]为特征状态;[w]为检测率权值。

本文研究的网络入侵检测方法步骤如下:

步骤1:对网络入侵流量数据进行采集,提出特征,并对入侵流量特征进行归一化处理;

步骤2:对BP神经网络以及粒子群优化算法的模型进行设置,对粒子群进行初始化,粒子群的粒子是由网络入侵流量特征与BP神经网络的参数组合并编码而成;

步骤3:对各个粒子适应度值进行计算,更新粒子历史及粒子群的最优位置;

步骤4:自适应调节粒子群算法的惯性权重以及对粒子的速度和位置进行更新;

步骤5:如果更新迭代满足终止条件,则由粒子群最优位置得到BP神经网络的最优参数;若不满足终止条件,则从步骤3继续进行迭代更新;

步骤6:根据得到的BP神经网络的最优参数建立网络入侵检测模型。

本文研究的网络入侵检测方法工作流程如图1所示。

2 实验研究

本文使用KDD CUP99数据库数据对本文研究的网络入侵检测技术进行实验研究,使用Matlab建立上述研究的入侵检测模型。KDD CUP99数据库包含了各类入侵流量数据,选取较为经典的Probe(扫描攻击)、DOS(拒绝服务攻击)、U2L(未授权使用本地超级权限访问攻击)以及U2R(远程用户未授权访问攻击)这4类入侵类型。针对4类入侵类型各选取200条数据流,其中随即抽取100条用于对检测模型进行训练,另外100条用于对检测模型的检测性能进行测试。针对数据流进行归一化处理以简化模型数据处理[9]:

[S*=0.9(S-Smin)Smax-Smin+0.05] (10)

式中:[S]为归一化处理之前的值;[Smax]为归一化处理的最大值;[Smin]为归一化处理的最小值。

为了对比研究本文提出的粒子群优化BP神经网络算法的网络入侵检测模型的检测性能,使用常规BP神经网络建立同样的检测模型,并使用同样的训练和测试数据进行模型训练和性能测试。

基于两种算法建立的检测模型的检测结果如图2,图3所示。

其中横纵坐标表示的含义如表1所示。

通常使用误报率、检测率以及检测时间对网络入侵检测方法的检测性能进行评价[10]:

[误报率=被误报为入侵的正常样本数量正常样本总数×100%] (11)

[检测率=检测出入侵样本数量入侵样本总数×100%] (12)

则两种方法的检测率和误报率结果如表2所示。

使用本文研究的算法以及使用常规BP神经网络算法建立的检测模型的检测效率对比如表3所示。

从实验数据可以看出,使用本文改进的粒子群优化BP神经网络算法建立的网络入侵检测模型相比于常规BP神经网络算法建立的网络入侵检测模型,其准确率明显提高。针对4种入侵类型的平均检测率为91.9%,平均误报率为仅8.1%,而常规算法的平均检测率为80.975%,平均误报率为18.95%。同时,本文研究的算法的检测效率也要高于常规算法,针对4种入侵类型,平均训练时间仅为13.98 s,检测时间仅为8.3 s,而常规算法的平均训练时间为37.6 s,检测时间为16.67 s。

3 结 语

本文针对使用传统的防火墙以及操作系统加固的方式无法抵挡现如今的入侵攻击,无法满足网络安全的要求等问题,本文对基于数据挖掘技术的网络入侵检测技术进行了研究。BP神经网络等机器学习算法属于数据挖掘技术中常用的技术手段,能在大量样本集训练和学习后自动找出运算需要的参数和模式,有极好的数据处理能力和自组织学习能力,并且能准确进行识别,但是常规BP神经网络建立的网络入侵检测技术存在由于BP神经网络容易陷入最小值导致检测效率和准确率低下等问题,本文使用粒子群算法对BP神经网络模型进行优化,使用动态惯性权重系数以确定BP神经网络的参数,并将网络入侵流量特征与BP神经网络的参数组合并编码成一个粒子以实现网络入侵流量特征与BP神经网络的参数的同步选取。通过使用KDD CUP99数据库的入侵流量数据对使用本文方法以及常规BP神经网络建立的检测模型进行训练和测试,结果表明,本文研究的算法建立的检测模型具有更高的检测效率以及检测准确率。

参考文献

[1] 左申正.基于机器学习的网络异常分析及响应研究[D].北京:北京邮电大学,2010.

[2] 吕曼.基于数据挖掘的入侵检测方法的研究[D].大庆:大庆石油学院,2007.

[3] 胡秀.基于Web的数据挖掘技术研究[J].软件导刊,2015(1):149?150.

[4] 李仕琼.数据挖掘中关联规则挖掘算法的分析研究[J].电子技术与软件工程,2015(4):200.

[5] 宋国峰,梁昌勇,梁焱,等.改进遗传算法优化BP神经网络的旅游景区日客流量预测[J].小型微型计算机系统,2014(9):2136?2141.

[6] 胡天骐,单剑锋,宋晓涛.基于改进PSO?LSSVM的模拟电路诊断方法[J].计算机技术与发展,2015(6):193?196.

[7] 孙卫红,童晓,李强.改进PSO优化参数的LSSVM燃煤锅炉NO_X排放预测[J].数据采集与处理,2015,30(1):231?238.

[8] 郭通.基于自适应流抽样测量的网络异常检测技术研究[D].郑州:解放军信息工程大学,2013.

[9] 张磊.三种神经网络识别P2P流量的方法比较[D].重庆:重庆大学,2010.

[10] 彭皎龙.改进蚁群聚类算法优化的RBF神经网络控制研究及其应用[D].郑州:郑州大学,2013.

猜你喜欢

粒子群优化算法BP神经网络数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
基于改进SVM的通信干扰识别
基于自适应线程束的GPU并行粒子群优化算法
基于混合粒子群算法的供热管网优化设计
基于改进支持向量机的船舶纵摇预报模型
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
BP神经网络算法在数值预报产品释用中的应用
一种基于Hadoop的大数据挖掘云服务及应用