模糊数据挖掘和遗传算法的网络入侵检测方法

2017-03-27吕峰

电子技术与软件工程 2017年4期

摘要本文旨在设计出整套崭新网络入侵检测系统来表明遗传算法、模糊数据挖掘技術检测网络入侵具有有效性。该系统综合运用了在模糊数据挖掘技术和专家系统的基础上的异常检测和滥用监测两种模式。本文首先简要介绍了新式入侵检测系统的体系结构，随后从模糊逻辑、数据挖掘这两方面对模糊数据挖掘技术下的异常检测进行分析，说明模糊逻辑频率集可使入侵检测误判率降低。最后用遗传算法对模糊数据隶属函数进行调整，证明遗传算法在识别各种入侵类型时十分有效。

【关键词】遗传算法数据挖掘检测方法

网络入侵检测通常氛围异常检测和滥用检测两种方法，滥用检测技术通常是以专家知识鉴别入侵出现与否，这就导致它检测伪装后入侵模式和新入侵模式的检出率较低。为此，人们尝试采用异常检测技术处理该问题，采取异常检测会检测出同正常行为有别的行为，并发布相应警报。

1 新式入侵检测系统的体系构造

故此，我们向模糊逻辑理论转变检测理念。事实上，模糊逻辑理论十分适合解决网络入侵检测难题。

（1）模糊逻辑中拥有大量定量特性可以对应网络入侵检测的特征；

（2）用模糊逻辑理论对网络入侵检测问题进行处理安全性会更高。

本文中我们运用模糊逻辑来使数据挖掘技术性能增强，并以此创建新智能入侵检测系统，并且将模糊数据挖掘技术和遗传算法技术运用在其中。

将一个新式、智能的网络入侵检测系统设计和创建出来是我们的终极目标，该系统应具备灵活、精准、及时、分布性等特性，不会由于极小的差别就会出现检测失误，且拥有适应新状况的能力。

该种新式的系统体系结构在逻辑模糊论的基础上，机器学习组件对网络系统的正常行为展开学习。最后，采用模糊和非模糊这两种频率集储存正常行为。

审计试验监测数据时采用异常入侵检测模块，且在对比正常行为和新行为之后判定出异常是否产生。假若与提供的阙值相比，模式集合相近度低，就可以判定为异常行为产生，则系统就要将这一入侵警告发出。

作为使用模糊集合和专家知识这两种规则的滥用入侵检测模块，要使新行为匹配已知的攻击行为，从而对新行为是否为入侵行为做出判断。

该系统不但可以综合运用异常检测和滥用检测模式，而且可使用模糊逻辑方式。在各检测模块中，运用模糊逻辑，能够更为灵活、敏捷的判定入侵行为之规则，使其遭受损坏的概率大幅降低。

系统在机器学习组件的支持下能够很快的与新环境相适应，实行该检测方式时可视作入侵检测模块集合。而某入侵检测模块不但能对一种入侵类型进行处理，还能处理融合若干入侵的类型。而若干个入侵检测模块彼此协作可对繁琐入侵行为进行检测，该种协作式检测具有松耦合的特性，它们依然相对独立的展开作业，模块不同运用的方式也有较大差异。比如，某模块入侵检测基本规则可设定为专家系统，而另外模块在进行入侵检测时可运用神经网络分类器展开。该种松耦合形式的协作，对系统扩张的抑制有益，也就是在持续增加入侵行为种类时，可采用各模块间的恰当协作来抑制，不用再增添新检测模块。

通信模块是决策和入侵检测这两大模块的桥梁，而某一入侵检测是否激活或者对各模给出的评估结果进行整合则取决于决策模块。

2 在模糊数据挖掘基础上的异常检测

在庞大数据中将有用信息挖掘出来是数据挖掘技术应履行的职能。模糊逻辑集合论在该技术协助下，更为灵活的满足入侵检测要求。

2.1 模糊逻辑

在对入侵检测功能进行履行的过程中，能进行两秒内“目的各异的IP地址”数目进行检测，下面就这一数据对以下规则进行编制：

If“秒内“目的各异的IP地址”数目”为高；

Then该异常状况就此生成；

在标准集合逻辑论之下，务必要确定目的IP地址数目最高的是哪个分类器，应当离散规划典型地址的可能值，各集合则是由相应的范围代表。并且其中各值隶属度则是由Y轴表示。比如：“10”这一值比该集合“低”，那么集合隶属度就是1，然而之于“高”集合和“中”集合来说，0就是其隶属度。

在模糊集合逻辑论中，某数据的一部分或者全部隶属于若干个类种，也就是隶属度不是唯一性。比如“9”这一值要比该集合“低”，而0.35是其隶属度，然而之于集合“中”却有0.7的隶属度。在该例子中，分段线性函数是模糊集合隶属函数种类。运用模糊逻辑属于，模糊变量是目的端口数目，其在模糊集合的整个集合中，不但有在中、低区间的可能，还有可能出现在高区间。

2.2 数据挖掘

2.2.1 关联规则

为了方便表明关联规则，运用零售行业中的审计数据间的相关性进行阐释。比如，消费者在购买饮料A的同时还会采购薯片B，进而就能够用A—>B的形式进行两种零售食品的关联。假设四分之一的销售者同时购买两种物品，这就会有一般的消费者在买完薯片后再去买薯片。那么S=0.25是A—>B的支持度，而可信度C则为0.5。在文献[1]中，对某一迅速推测算法在进行关联规则挖掘进行表述，该算法只要有最小的支撑度和可信度这两个阙值即可。然而受到挖掘的规则关联程度维持与否取决于这两个阙值。

2.2.2 模糊关联规则

为了运用文献[1]中的迅速使用在关联规则挖掘的推测算法，应当将定量变量向离散的类别划分。这就需要对敏锐的“边界问题”进行考量，即即便是改变极小的数值就会使类别产生巨变。故此，在资料[2]中引入模糊关联规则定义来处理该问题。在该资料中，准许某值对若干个模糊集合的支撑度发挥作用。

在该次研究的系统中，我们修复了资料[2]中的算法，也就是将归一化因数引入来保证所有处理均只进行一次计算。而本文研究的系统采用模糊关联规则对某审计数据集合进行挖掘的详细案例为：{FN=低，SN=低}—>{RN=低}，s=0.49，c=0.924，然而在该例子中，SYN标记量用SN表示，FIN标记量用FN表示，RST在第二阶段标记量用RST表示。

假若将全套审计数据确定后，系统能从本组数据中将模糊管理规则之集合挖掘出来，而此类规则是精准对该集合的行为模式的描绘。

在异常检测过程中，首先在未入侵的数据中将规则性的一个集合挖掘出来，作为表述正常行为模式的集合，可视其为参照集合。当对某组数是否属于入侵行为进行检测时，应当将新数据集合相应的规则集合同参照集合间展开相近度核算，假若有较低的相近度就意味着这一集合为异常行为，同时发布警报。

而入侵未发生和入侵发生后的规则集合分别对比参考集合得出的相近性结果，可在表1中看出它们具有差异性。

设定本次模糊规则集合中最小支撑度和可信度分别为0.1和0.6。有入侵网络1是仿真端口扫描入侵网络，而有入侵网络2则是仿真IP展开欺骗型入侵。

2.2.3 频率集

在参考资料[1]中，频率集是以产生率最小为基础、在事件序列中找出的最具简洁性序列频率集的一种算法。而在审计数据中对暂时模式問题进行频繁表征就使用了该办法。在本系统中，我们在对参考资料[1]的方式进行改良的基础上展开模糊频率集的挖掘。在参考资料[2]中，[t，t]这一事件窗格内产生的事件序列则是P（e1，e2……，ek）这一集合。假若在该这一时间间隔的子区间中没有产生事件，则视该集合为最小。提供某一窗口阙值，在某一事件序列中，在所有比事件窗口间隔小的发生率最小之和为频率P（e1，e2……，ek）。故此，如果提供的频率阙值最小，假若频率P/n比最小频率要大或者等于最小频率，那么P（e1，e2……，ek）的集合就是频繁集合。

2.2.4 模糊频率集

在本次所使用的系统中，是综合频率集和模糊逻辑之后进行运用。与过去使用方法相比，本次所使用的方法改良了最小发生率。以下就是本次研究中对模糊频率集规则展开挖掘的其中某一实例。

{E1比PN为低，E2比PN为中}->{E3比PN为中}，其中s为0.108，c为0.854，w为10秒，在这个例子中E1、E2、E3是按着顺序出现的事件，各种目标端口在两秒钟之内的端口数则是PN。为确保本次方法准确，还分别使用模糊和非模糊这两种频率集对入侵检测误判率进行检测。而结果可知模糊逻辑频率集可降低入侵误判率。

3 遗传算法对模糊集合隶属函数的调整

遗传算法是对优化问题进行处理的常见方式，在模糊集合中使用时，遗传算法的各个体对象涵盖了隶属函数的参数序列，能够采用其使参照规则几何与入侵行为相近度降低、与正常行为的相近度提升，采用遗传算法对适当的函数进行定义之后，一旦处理某一入侵数据与参考数据高相似度的失败时，那么该函数就会得到某正常数据高相似与参考数据，遗传算法采用逐步进行好解决办法个体对象群体，实现最后最佳目标。在图1中是遗传算法调整适应度函数的整个流程。

在图1中呈现了采用遗传算法是如何改变适应度函数值的。最顶端的一条线是适应度最好的个体，我们一直保留一代至下一代中最佳个体，故此，最好个体的适应度值在群体中绝对不会降低。中间线则展现出群体均适应度，说明该群体所有适应度呈现出持续提升的态势，一直到其趋于稳定为止。最低的线则表述了适应度最差的个体适应度水平，应当持续运用交叉、突变的遗传作业将变量引入到群体中。

从审计痕迹中要想掌握哪项能够将最理想的信息供给入侵检测一般难度较大，确定最理想项的流程在机器学习领域叫做特征选择。在若干实验之后，运用遗传算法在各种入侵行为的最佳指标对轨迹进行审计，将调整和估测模糊变量的隶属函数筛选出来。根据挖掘规则各种结果为据：规则一：特征筛选和最优化均无，规则二无特征筛选只有最优化；规则三，特征筛选和最优化均有。这三种结果说明遗传算法对隶属函数进行调整时，均可以对入侵检测的整套特征值进行筛选，同时得知遗传算法能识别出各种入侵种类的特性。

4 结论

数据挖掘技术与模糊逻辑进行有机融合之后，将整套新式系统方略提供给网络入侵检测。该系统的结构不但对异常检测给以支持而且在滥用检测中使用，不但可以在个人工作站中使用，而且在复杂网络同样适用。非模糊和模糊规则均可用使用该系统进行检测。另外，还可以运用遗传算法对系统中运用模糊变量的隶属函数进行调整，且筛选最具成效的特殊入侵的特征集合，因此遗传算法和模糊数据挖掘的网络入侵检测法值得广泛推行。

（通讯作者：贾婧蓥）

参考文献

[1]王晟，赵壁芳.基于模糊数据挖掘和遗传算法的网络入侵检测技术[J].计算机测量与控制，2012（03）：660-663.

[2]蔡文君.基于数据挖掘的入侵检测方法研究[D].长沙：中南大学，2008.

作者简介

吕峰（1978-），男，云南省昆明市人。硕士学位。现为云南中医学院信息技术学院副教授。研究方向为中医药与教育信息化、医学高等教育、数据挖掘与云计算、智能医疗系统设计。

叶东海（1978-），男，云南省昆明市人。博士学位。现为云南中医学院信息技术学院讲师。研究方向为中医药计算机教育、中医药信息挖掘。

杨宏（1977-），男，云南省昭通市人。硕士学位。现为云南中医学院信息技术学院副教授。研究方向为计算机网络、多媒体及数据库的教学及研究。

通讯作者简介

贾婧蓥（1979-），女，四川省泸州市人。硕士研究生学历。现为云南中医学院信息技术学院讲师。研究方向为中医药数掘挖掘、思想政治教育。

作者单位

云南中医学院信息技术学院云南省昆明市 650500