蚁群算法选择特征与WSVM融合的网络入侵检测
2014-10-24冯庆华
冯庆华
(江苏建筑职业技术学院 实验实训与职业技能管理中心,江苏 徐州221116)
蚁群算法选择特征与WSVM融合的网络入侵检测
冯庆华
(江苏建筑职业技术学院 实验实训与职业技能管理中心,江苏 徐州221116)
为了提高网络入侵检测率,提出一种蚁群算法选择特征与加权支持向量机的网络入侵检测方法.利用蚁群算法选择网络数据的关键特征,计算信息增益获得各个特征权重,根据特征权重构建了加权支持向量机的网络入侵分类器,并通过KDD CUP 99数据集验证了其有效性.结果表明:该算法能够有效降低特征维数,提高网络入侵检测率和检测效率.
网络入侵检测;蚁群优化算法;特征选择;特征加权;支持向量机
在互联网发展历程中,由于网络入侵手段复杂多变,攻击量和危害程度日益严重,网络入侵检测一直是网络安全研究的重点.原始网络入侵包含一些冗余特征和对检测结果起“反作用”的噪声特征,如果将其直接输入到分类器进行学习,对入侵检测率将产生不利影响,因此需要选择与网络入侵检测结果强相关的关键特征,降低其特征维数[3].因网络入侵分类器影响着最终的检测正确率和计算复杂度,分类器设计已成为与特征选择并重的内容.目前广泛使用的主要有Fisher线性判别(FLD)、支持向量机(SVM)和神经网络等分类器.SVM通过映射能解决高维空间的学习问题,具有很好的推广能力,成为当前主要的网络检测算法[6-7].但由于SVM算法基于全部网络状态特征重要程度相同,当特征中含有对网络入侵检测结果不利影响时,将导致学习精度降低,阻碍网络入侵分类器的推广能力[8].因此,必须对不同特征赋予不同权值,以体现其对入侵检测的贡献[9].
为了提高网络入侵检测效果,本文提出一种蚁群算法选择特征与WSVM融合的网络入侵检测方法(ACO- WSVM).即利用蚁群优化算法(ACO)选择特征,用信息增益算法计算特征权重,进而建立特征选择和加权支持向量机(WSVM)的网络入侵检测,并可通过KDD CUP 99数据集对算法的优劣进行仿真测试.
1 特征选择和加权
1.1 ACO选择特征
在ACO进行网络入侵检测特征选择时,需要将网络入侵检测特征作为蚂蚁要访问的一个地点,从而将特征优化问题转化为路径搜索问题[10].
1)建立适应度函数.适应度函数定义为:
式中:d为选择特征子集s的维数;D为网络入侵检测候选特征集的维数;e为分类错误率;λ为分类错误率权重系数.
2)确定蚂蚁状态转移概率.蚂蚁从特征i转移至j的概率为:
式中:ηij为启发因子;τij(t)为信息素;u k为蚂蚁k的禁忌表;α为信息素的权重;β为启发因子的权重.
3)局部细化搜索过程.设蚂蚁经过k个次重要特征搜索,得到了k个重要特征.为了防止冗余特征保留在特征子集中,在k个特征搜索最优子集uj,满足:
式中:Si=Sm∪u i∪{f n},u i为任意特征子集.
4)更新路径上的信息素.每完成一轮搜索后,各条路径上信息浓度需要更新,具体为:
式中:n为迭代轮数;ρ为信息素残留因子;k为蚂蚁编号;F(sk)为适应度值;Q为信息素增长浓度.为强化最优路径影响,对信息素进行额外的附加激励,即有
式中:F(sopt)为本轮最优特征子集的适应度函数.
1.2 特征加权
通过网络特征选择后,得到一些对入侵检测结果有作用的特征,但每一个特征对分类结果的影响程度不同,需要对它们赋予不同的权值.在特征加权过程中,权重ω的求取是关键,本文通过信息增益方法度量特征的重要性,即以信息增益代表特征的权值大小,信息增益表示为:
式中:p(ci)为任意样本属于ci的概率;H为熵值函数.由式(6)、式(7)可以得到:
通过上述方法可以计算数据集D的每个特征信息增益,具有最高信息增益的特征对分类贡献最大.
假设数据集D中的每个样本由n个m维特征描述,则各特征的信息增益I G可以准确地描述各个特征的权重.
2 加权支持向量机
1)以加权核函数对支持向量机进行设计,这样的支持向量机称为特征加权支持向量机(WSVM),特征加权核函数k p定义为:
式中:P为特征加权矩阵.
采用特征加权高斯径向基核函数为:
式中:σ2为高斯径向基核宽度.
2)WSVM算法可描述如下:
式中:C为惩罚参数,ω为权值向量.
采用Lagrange乘子对式(11)进行求解:
式中:a i为lagrange乘子,b为偏移量.
分别对ω、b、ξ求偏导,并令其等于0得到:
将式(13)代入式(12),得式(11)的对偶问题为:
3)网络入侵检测的ACO- WSVM构造步骤如下:
(1)收集网络数据训练样本集{(x1,y1),…,(x i,y i)},其中xi=(x1i,x2i,…,x di)是d维向量,y i∈(+1,-1),i=(1,…,l).
(2)通过ACO选择关键的网络连接特征.
(3)根据信息增益法计算出每个特征的权重,并构造特征权向量β=diag(β1,β2,…,βn)T.
(4)选择适当的惩罚参数C>0,根据式(14)构造并求解最优化问题求得最优解α=(α1,…,αl)T.
(5)选择α的一个分量αj(0<αj<C)所对应的样本点(xi,x j),并据此计算b,构造网络入侵检测的最优决策函数f(x)=sgn((ω·x)+b).
3 仿真测试
3.1 数据来源
实验数据选用KDD CUP 99数据集,包含4类攻击方式:DoS(拒绝服务攻击)、R2L(未经授权的远程访问)、Probe(扫描与探测)和U2R(对本地超级用户的非法访问).
3.2 结果与分析
1)特征选择前后的性能比较.(1)随机选择5 000个训练集和1 000个测试集,并将其特征进行归一化处理,缩小至[0,1]范围内.(2)将训练集输入到SVM中进行训练,并对测试集进行检测,得到特征选择前的入侵检测结果.(3)将训练集输入到SVM中,采用ACO结合SVM算法进行特征选择,得到最优特征如表1所示.(4)根据步骤(3)的特征选择结果,对训练集和测试集进行筛选.(5)将训练集输入到SVM进行训练,得到入侵检测结果.
表1 ACO选择的特征Tab.1 features of ACO selection
采用5组实验,取检测结果的平均值,得到特征选择前后的入侵检测率见表2,运行时间见表3.从表2中可知,特征选择后的平均网络入侵检测率上升了3.10%,结果表明,进行特征选择消除了冗余特征,入侵检测性能明显提高.
表2 特征选择前后的平均入侵检测率对比Tab.2 Comparison of average intrusion detection rates before and after feature selection %
由表3可知,特征选择后网络入侵检测模型的运行时间大幅度减少,表明了通过ACO进行网络特征选择,可以取得一些关键特征,减少了输入维数和计算时间,加快了检测速度,网络特征选择能够更加满足网络入侵检测的实时性要求.
表3 特征选择前后运行时间对比Tab.3 Comparison of runtime before and after feature selectionms
2)特征加权前后的网络入侵性能比较.首先采用信息增益法计算出每个特征的权重,然后对特征进行权重处理,并构建加权支持向量机的网络入侵分类器,得到检测结果见表4.由表4可知,在相同实验条件下,ACO-WSVM的网络入侵检测方法无论在时间效率还是网络入侵检测率上,较原始支持向量机分类方法均有明显提高,对Normal的侵检测达到了99.13%,这主要是根据特征对分类结果的影响进行合理加权处理,有效减少了被错分的样本,而原来分类正确样本不变.结果表明,通过加权后,网络入侵各类入侵检测正确率得到不同程度地提高.
表4 加权前后的入侵检测率对比Tab.4 Comparison of intrusion detection rates before and after weighting %
因为SV能够代表整个特征集,对SV集合的划分实际就是就对整个特征集的划分,结果表明ACO- WSVM具有一定的优越性.特征加权前后SV集的比较结果如图1所示.
图1 特征加权前后支持向量集比较Fig.1 Comparison of support vector set before and after feature weighting
从图1可以看出,加权后ACO- WSVM的SV数量为578,远低于未加权时的915,边界支持向量(BSV)下降了70.17%,并大幅度降低了错分样本数,对比结果显示,通过加权后,位于分类面边界样本明显少,检测效率得以提高,表明ACO -WSVM对特征进行加权处理,可以提高网络入侵检测速度.
4 结 语
针对当前网络入侵检测问题,提出一种蚁群算法选择与特征加权支持向量机相融合的网络入侵检测方法.仿真结果表明,ACO- WSVM能够选择与检测结果关联程度较高的特征子集,有效地对特征进行降维,提高了网络入侵检测效率和检测正确率.
[1] 姜春茂,张国印,李志聪.基于遗传算法优化SVM的嵌入式网络系统异常入侵检测[J].计算机应用与软件,2011,28(2):287- 289.
[2] Denning D E.An Intrusion Detection Model[J].IEEE Transaction on Software Engineering,2010,13(2):222- 232.
[3] Huang C L,Wang C J.A GA-based feature selection and parameters optimization for support vector machines[J].Expert Systems with Applications,August 2009,31(2):231- 240.
[4] Durga P M,Nikhil R P,Jyotirmoy D.Genetic programming for simultaneous feature selection and classifier design[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B,February,2009,36(1):106- 117.
[5] Kennedy J,Eberhart R C.Particle swarm optimization[C].Proc of IEEE International Conference on Neural Networks,USA:IEEE Press,2005:1942-1948.
[6] 彭义春,牛熠,胡琦伟.基于IRBF的入侵检测系统的研究[J].计算机应用与软件,2013,30(9):187- 190.[7] 李烨,蔡云泽,尹汝泼,等.基于证据理论的多类分类支持向量机集成[J].计算机研究与发展,2008,45(4):571- 578.
[8] 龚明朗,许榕生.一种改进的PSO算法在网格入侵检测系统中的研究[J].计算机应用与软件,2011,28(3):274- 278.
[9] Helmi M R,Zulaiha A O,Abdul R H.Improved dynamic ant colony system on symmetric traveling salesman problem[C].International Conference on Intelligent and Advanced Systems,2011:43- 48.
[10] Montemanni R,Smith D H,Gambardella L M.Ant colony systems for large sequential ordering problems[C].Proceedings of the 2007 IEEE Swarm Intelligence Symposium,2007:478- 482.
Network intrusion detection with ant colony optimization feature selection and WSVM
FENG Qing-hua
(Management Center of Experimental Training and Vocational Skills,Jiangsu Jianzhu Institute,Xuzhou,Jiangsu 221116,China)
In order to improve the detection rate of network intrusion,this paper proposes a network intrusion detection method with ant colony optimization feature selection and weighted support vector machin.By selecting the key features of network data with ant colony optimization,we calculates information gain to get each feature weight,establishes network intrusion classifier of weighted support vector machine according to feature weight,and verifies the validity through KDD CUP 99 dataset.Results show that ACO-WSVM can reduce the feature dimension effectively and improve network intrusion detection rate and efficiency.
network intrusion detection;ant colony optimization;feature selection;feature weighting;support vector machine
TP 393.08
A
2095- 3550(2014)03- 0038- 04
2014- 04- 28
冯庆华,男,江苏江都人,实验师,硕士.
E- mail:240169709@qq.com
(责任编辑:赵国淮)