APP下载

模糊推理结合Michigan型遗传算法的网络入侵检测方案

2016-09-26马勇四川工程职业技术学院电气信息工程系四川德阳618000

电子设计工程 2016年11期
关键词:分类器遗传算法种群

马勇(四川工程职业技术学院 电气信息工程系,四川 德阳 618000)

模糊推理结合Michigan型遗传算法的网络入侵检测方案

马勇
(四川工程职业技术学院 电气信息工程系,四川德阳618000)

针对计算机网络中安全性问题,提出一种融合模糊推理和Michigan型遗传算法的网络入侵检测方案。首先,通过一种启发式过程来确定每个模糊if-then规则后件类和确定性分数。然后,利用Michigan型遗传算法,通过交叉和变异操作来进化模糊系统的规则,产生高分类率的模糊规则。最后,通过协同进化后的模糊系统实现入侵检测。在DARPA数据集上进行实验,结果表明该方案能够精确的检测U2R、R2L、DoS和PRB类网络攻击,具有很高的安全性。

网络入侵检测;模糊推理;Michigan型遗传算法;规则进化

当前计算机网络尽管具有多重安全策略,譬如,访问控制、加密以及防火墙的应用,然而,网络安全的漏洞还是与日俱增。因此,迫切需要智能的入侵检测系统(Intrusion Detection System,IDS)来自动地检测新型的入侵行为[1]。

目前,主要有两种入侵检测方法:误用检测和异常检测[2]。误用检测的检测速度快、误报警率低,但其只能检测出数据中已知的入侵模式,无法检测新出现的入侵行为,且需要实时的更新数据库[3]。异常检测系统能够检测出新的入侵行为,但通常具有较高的误报警率[4]。为此,学者们提出了多种混合IDS,例如,文献[5]提出一种基于增量式神经网络的入侵检测系统,解决了神经网络离线训练所带来的问题,对在线检测过程中新出现的攻击类型进行增量式学习,实现对入侵检测模型的动态扩展。文献[6]提出了一种非监督异常检测框架,其利用集群估算、K-邻近和支持向量机(SVM)进行入侵检测。然而,该系统所需的特征维数很高,计算效率低。

基于模糊if-then规则[7]的模糊推理系统在很多应用领域已得到成功应用。一般情况下,若模糊模型的精确性较高,其解释性相对较差。而具备较高解释性的模糊模型,其精确性又较低。精确性与解释性较好折衷的模糊模型,具有简单的结构和较少的参数,运算量低,泛化能力强。由于模糊逻辑的知识表达能力与进化计算的全局自学习能力可以互补[8]。所以,可引用进化计算来改进模糊系统。其中,遗传算法是进化计算理论体系中最具代表性的算法,因此可形成一种有效的遗传模糊推理系统。文中基于遗传模糊推理系统的思想,提出一种融合模糊推理和Michigan型遗传算法的网络入侵检测系统。首先,通过一种启发式过程来确定每个模糊if-then规则后件类和确定性分数。然后,利用Michigan型遗传算法进化模糊系统的规则,进行协同进化,最终通过获得的最优模糊规则实现入侵检测。实验结果表明,文中方案能够精确的检测网络攻击。

1 基于模糊规则的模式分类

1.1模糊规则分类

本文假设模式分类问题为具有连续属性的n-维模式空间中的c-类问题。同时还假设给定m个实向量xp=(xp1,xp2,…,xpn),p=1,2,…,m,并将其作为来自c个类的训练模式c≤m。

由于模式空间为[0,1]n,所以每种模式的属性值为xpi∈[0,1],p=1,2,…,m;i=1,2,…,n。在本文中,将每个数据集的属性值规范化到单位区间[0,1]。

文中提出的模糊分类器系统中,使用如下形式的if-then规则。

规则Rj:If x1为Aj1…,xn为Ajn,Then类Cj满足CF=CFj。

其中,Rj为第j个if-then规则的标签,Aj1…,Ajn为单位区间[0,1]上的前件模糊集,Cj为后件类(即给定C类中的一类),CFj为模糊if-then规则Rj的确定性分数。本文将一组典型的语言值用作图1中的前件模糊集,并通过把每种属性域划分为对称的三角模糊集,明确图1中每个语言值的隶属函数。值得注意的是,对于特定模式分类问题,文中在模糊分类系统中可以使用任何定制的隶属度函数。

图1 五个语言值的隶属度函数(S:小,MS:中小,M:中,ML:中大,L:大)

在n维模式分类问题中,模糊if-then规则的总数为5n。当属性的数量(即n)很大时(如n=41的入侵检测问题),有可能在单模糊规则库中使用所有5n个模糊if-then规则。

文中模糊分类系统搜索相对数量较小的具有高分类能力的模糊if-then规则(如100个规则)。由于每个模糊if-then规则的后件类和确定性分数可以通过简单的启发式过程从训练模式中确定,所以本文模糊分类系统的任务是,为一个模糊if-then规则集生成前件模糊集的组合。然而,该任务对于高维模式分类器问题来说是很难的,因为搜寻空间涉及5n个组合(如在n=13时,多于1 000万个)。

为此,在本文模糊分类器系统中,通过利用启发式过程来确定每个模糊if-then后件类Ci和确定性分数CFj。步骤如下描述。

1.2Ci和CFj的确定

步骤1:通过下式运算,计算具有模糊if-then规则Rj的每个训练模式的兼容性。

上式中,μji(xpi)为第p个模式中第i个属性的隶属度函数。

步骤2:对于每个类,计算具有模糊if-then规则Rj的训练模式的兼容性分数:

上式中,βClass(Rj)为类h中具有模糊if-then规则Rj的训练模式的兼容性分数总和。NClass为对应类为h的训练模式的数量。

步骤3:找出具有最大βClass h(Rj)值的类hˆj。

如果两个或更多的类具有最大值,则不能确定唯一模糊if-then规则的后件类Cj。在这种情况下,令Cj为φ。如果没有与模糊if-then规则Rj相配的训练模式(即,对于h=1,2,…c,βClass h(Rj)=0)则还将后件类Cj指定为φ。

步骤4:如果后件类Cj为φ,则令模糊if-then规则Rj的确定性分数CFj=0。否则,用以下公式计算确定性分数CFj。

通过本文提出的启发式过程,可以指定任意前件模糊集组合的后件类和确定性分数。

本文模糊分类器系统的任务是生成前件模糊集的组合,用以生成具有高分类能力的规则集S。然后,通过S中的单优先规则Rj来分类xp=(xp1,xp2,…,xpn),其确定如下:

也就是说,优先原则选出具有最大兼容性和确定性分数CFj。如果不存在与输入的模式xp一致的模糊规则(即,对于∀Rj∈S,μj(xp)=0),则拒绝分类。

文中,将每个模糊if-then规则编码为字符串。利用下面的符号来表示五个语言值:1:小;2:中小;3:中;4:中大,5:大。例如,若模糊if-then规则被编码为“1342”,即x1为小,x2为中,x3为中大,x4为中小,则cj类满足CF=CFj。

入侵检测是一个高维度的分类问题,在该问题中,将41维的特征向量作为输入,将5个类作为其输出。所以在本文中,种群中和每个规则集中的所有规则的类标签都相同。因此,在分类问题中,对于每个类重复遗传模糊规则生成算法。

文中目标分类器由个分类器组成。每个分类器独立发展,将获得的模糊规则集组合用于最终分类器系统的结构中。图2为目标分类器的结构。

图2 本文目标分类器结构

2 融合Michigan遗传算法的模糊系统

Michigan型遗传算法[9]中,每一条染色体代表单条模糊规则,因为模糊模型的规则库是由多条模糊规则组成,所以多条模糊规则在遗传优化过程中需要相互竞争与合作以形成性能较好的模糊模型,模糊规则之间的这种竞争与合作的关系,使得模糊模型难以从整体上确定单条规则的优劣性,因此Michigan型遗传算法需要较好的权值分配策略以确定每一条染色体的适应度值[10]。

文中提出一种融合Michigan型遗传算法和模糊系统的入侵检测方案,其算法的执行步骤如下:

步骤1(初始化):初始化生成模糊if-then规则的原始种群。

步骤2(遗传操作):通过遗传操作生成新的模糊if-then规则。

步骤3(替换):利用新生成的规则替换一部分当前种群。

步骤4(重新初始化):通过重新初始化种群,提高if-then规则的性能。

步骤5(停止):如果满足停止条件(最大遗传代数),则终止该算法,否则,回到步骤2。

该模糊分类器系统的每个步骤详细描述如下:

1)步骤1:初始化

文中用表示种群中模糊if-then规则数。为了产生初始种群,根据训练数据集中的随机模式生成Npop个模糊if-then规则。对于分类问题的每一个类,分别执行遗传模糊系统。因此,根据训练数据集的模式,提取随机模式。这里,训练数据集的后件类与算法运行的类相同。接着,对于这个随机模式,本文仅使用5个语言值来确定前件模糊集的最合适组合。

利用方程(2)测试具有随机模式的前件模糊集的兼容性。在生成每个模糊if-then规则之后,根据模糊系统确定这个规则的后件类。只有它的后件类与其相应的随机模式类相同时,才接受生成的模糊规则。否则,拒绝该生成的模糊规则,并重复规则生成过程[11,12]。

在生成Npop个模糊if-then规则之后,使用当前种群中模糊if-then规则集,通过分类所有给出的训练模式来评估每个规则的适应值。利用如下方程来评估模糊if-then规则的适应值:

上式中,NCP(Rj)为被Rj正确分类的训练模式的数量。

2)步骤2:遗传操作生成新种群

为了生成下个种群的新模糊if-then规则,需要先从当前种群中选择一对模糊if-then规则。本文通过下式的选择概率来选择当前种群中的每个模糊if-then规则。

上式中,fitnessmin(S)为种群中模糊if-then规则的最小适应值。迭代该过程,直到选择到预设对数的模糊if-then规则。

将交叉操作应用到随机选择的具有预设交叉概率Pc的模糊if-then规则对上。需注意,为交叉操作所选的两个个体应不同,另外,本文使用单点交叉[13]。在执行完交叉操作之后,确定生成个体的后件类。如果这些类与它们的父代的类相同,则接受生成的个体;否则,重复交叉操作。

预先确定变异概率Pm,在交叉操作之后,利用不同的前件模糊集替换模糊if-then规则中的每个前件模糊集。在执行完变异操作之后,确定变异个体的后件类。如果该后件类与变异操作之前的个体的类相同,则接受变异个体;否则,重复变异操作直到预设的迭代数Mrepeat。在执行完选择、交叉和变异步骤之后,根据方程(7)评估每个生成个体的适应度值。

3)步骤3:替换

利用新生成的规则替换当前种群中预设数目的模糊if-then规则。在本文模糊分类器系统中,从当前种群中移除百分之PrepR具有最小适应度值的较差规则。并添加具有百分之(100-PrepR)新生成的模糊if-then规则(PrepR为替换百分比)。

在执行完上面的替换程序之后,根据方程(7)评估每个个体的适应度值。

4)步骤4:重新初始化

为了提高当前种群的分类率,文中利用拒绝训练模式生成的新模糊if-then规则,并替换当前种群中的一些较弱的模糊if-then规则。替换的新规则数取决于当前种群中较弱个体的数目[14]。较弱个体的适应度阈值定义如下:

上式中,Pweak为阈值的百分比;Fmax是一个数,表示输入个体的最大可能适应度值。通过降低Pweak,可以使更多的个体执行重初始化操作。

在执行完重新初始化步骤之后,根据方程(7)评估每个个体的适应度值。

3 实验及分析

3.1实验环境

文中利用国际标准入侵检测评估数据集DARPA[15]上进行实验。数据库由正常和恶意通讯相关的大量网络连接组成,每条连接用41维的特征向量表示,并将连接标记属于五类中的哪一类。这些类中的一个子类为正常类,其余为4个为不同的入侵类。4种入侵类分别为:探测(PRB)攻击、拒绝服务(DoS)攻击、非法远程闯(R2L)攻击和非法提升权限(U2R)攻击。这些入侵类中包含了计算机网络中22种不同的攻击,4个入侵类的样本数如表1所示。

文中从这些数据集中选择650个样本作为训练集,选择6 500个样本作为测试集,训练和测试集样本数量如表2所示。

在提出的基于遗传模糊系统的IDS中,设定遗传算法所使用的参数如下:种群大小为20;交叉概率(Pc)为0.9;变异概率(Pm)为0.1;变异迭代数(Mrepeat)为20;替代率(PrepR)为20;最大遗传代数为20。

3.2性能分析

首先,对文中IDS系统进行入侵检测性能分析实验,表3为文中遗传模糊系统分类网络的混淆矩阵。可以看出,文中系统对于正常类、U2R、R2L、DoS和PRB类的分类准确率分别为99.2%、78%、79.4%、92.9%和88.2%,整体平均准确识别率达到了87.54%。这说明,文中IDS具有较高的正确检测率。

表1 4种不同入侵类中的攻击

表2 训练和测试集样本数量

表3 本文IDS分类检测的混淆矩阵

然后,将文中系统与现有入侵检测方案:文献[5]和文献[6]方案进行比较。表4列出了各种IDS的性能比较,可以看出,文中IDS的在正常类和PRB类的分类率明显高于其他方案,整体准确分类率也远远高于其它方案,分别比文献[5]和文献[6]方案性能提高了10.24%和6.68%。这是因为本文使用的基于遗传模糊推理系统的IDS比其他方法更可靠[16-17]。

表4 各种IDS的入侵检测分类准确率比较

4 结论

文中提出一种融合模糊推理和Michigan型遗传算法的网络入侵检测方案。通过一种启发式过程来确定每个模糊if-then规则后件类和确定性分数。利用Michigan型遗传算法协同进化模糊推理系统的规则。实验表明,本文方法对U2R、R2L、DoS和PRB类攻击的整体检测率达到了87.54%,具有很高的性能。

在今后工作中,将考虑使用多目标演化模糊系统来提取一个易于理解的模糊分类器,进一步提高本文IDS性能。

[1]肖寅东,王厚军,田书林.高速网络入侵检测系统中包头解析方法[J].仪器仪表学报,2012,33(6):1414-1419.

[2]高苗粉,秦勇,李勇,等.网络入侵检测系统自体集检测中的概率匹配高效寻优机制[J].计算机应用,2013,33(1):156-159.

[3]Elngar A A,El A M D A,Ghaleb F F M.A Real-Time Anomaly Network Intrusion Detection System with High Accuracy[J].Information Sciences Letters,2013,35(3):49-56.

[4]Subaira.A S,Anitha.P.A Survey:Network Intrusion Detection System based on Data Mining Techniques[J].International Journal of Computer Science&Mobile Computing,2013,2(10):174-185.

[5]赵建华,李伟华.有监督SOM神经网络在入侵检测中的应用[J].计算机工程,2012,38(12):110-111.

[6]Hsieh C F,Cheng K F,Huang Y F,et al.An Intrusion Detection System for Ad Hoc Networks with Multi-attacks Based on a Support Vector Machine and Rough Set Theory [J].Journal of Convergence Information Technology,2013,26 (5):269-281.

[7]周豫苹,方建安.神经模糊理论在入侵检测系统中的应用研究[J].微电子学与计算机,2010,27(9):126-129.

[8]李晶皎,许哲万,王爱侠,等.基于移动模糊推理的DoS攻击检测方法[J].东北大学学报:自然科学版,2012,33(10):1394-1398.

[9]Mehta S B,Chaudhury S,Bhattacharyya A,et al.Tissue classification in magnetic resonance images through the hybrid approach of Michigan and Pittsburg genetic algorithm. [J].Applied Soft Computing,2011,11(4):3476-3484.

[10]Li W,Gong Z.Michigan-based variable-length encoding of genetic algorithm for k-anonymization[C]//Information Science and Engineering(ICISE),2010 2nd International Conference on.2010:1295-1298.

[11]马永杰,云文霞.遗传算法研究进展[J].计算机应用研究,2012,29(4):1201-1206.

[12]Dai F,Zheng K,Binwu,et al.Using Genetic Algorithm for Optimal Security Hardening in Risk Flow Attack Graph[J]. Ksii Transactions on Internet&Information Systems,2015,9 (4):3476-3484.

[13]Babbar-Sebens M,Minsker B S.Interactive Genetic Algo-rithm with Mixed Initiative Interaction for multi-criteria ground water monitoring design[J].Applied Soft Computing,2012,12(1):182-195.

[14]鲁立,刘颂.基于自适应遗传算法的入侵检测方法[J].科学技术与工程,2012,12(33):9075-9078.

[15]Wanwarang T,Ongtang M.Elitism Enhancements for Genetic Algorithm based Network Intrusion Detection System[J]. Journal of Convergence Information Technology,2013,38(5): 137-140.

[16]叶勃宏.基于FPGA的SATAⅡ协议物理层实现[J].电子科技,2014(6):17-21.

[17]赵旭,江晋.一种面向网络入侵检测系统的多媒体链表结构[J].西安工业大学学报,2015(3):186-191.

A network intrusion detection schemer based on fuzzy inference and Michigan genetic algorithm

MA Yong
(Department of Electrics and Information Engineering,Sichuan Engineering Technical College,Deyang 618000,China)

For the issues that the security problem of computer network,a network intrusion detection schemer base on fuzzy inference and Michigan genetic algorithm is proposed.Firstly,a heuristic procedure is set to determine the consequent class and the certainty score of each fuzzy if-then rule.Then,the rules of fuzzy system are evolved by crossover and mutation operations of the Michigan genetic algorithm,to generate the fuzzy rules of high classification rate.Finally,the intrusion detection is realized by the fuzzy system after cooperative evolved.Experiments on DARPA data sets show that the proposed scheme can accurately detect U2R,R2L,DoS and PRB attacks,and has high security.

network intrusion detection;fuzzy inference;Michigan genetic algorithm;rule evolution

TN918

A

1674-6236(2016)11-0108-04

2016-01-20稿件编号:201601167

国家自然科学基金(40701146);四川省高校重点实验室项目(2014WZY05)

马 勇(1959—),男,四川什邡人,副教授。研究方向:网络安全、web挖掘等。

猜你喜欢

分类器遗传算法种群
山西省发现刺五加种群分布
中华蜂种群急剧萎缩的生态人类学探讨
BP-GA光照分类器在车道线识别中的应用
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于改进的遗传算法的模糊聚类算法
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别