基于粗糙集理论的网络入侵检测方法研究
2009-10-26马姝商美妮
马 姝 商美妮
[摘要]数据挖掘能从大量数据中提取出潜在的有应用价值的模式,而粗糙集理论作为一种分析不确定知识的强有力的数学工具,为数据挖掘提供一种崭新的工具。建立网络入侵检测的系统结构,通过粗糙集方法在预处理中属性约简的应用,减小处理数据的规模,通过测试集上的实验得到验证粗糙集适用于入侵检测这样大数据集的问题。
[关键词]粗糙集理论入侵检测属性约简
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0710119-01
一、引言
互联网正在不断地高速发展,与此同时互联网的开放性和安全漏洞带来的安全风险也无处不在,网络安全问题变得更加错综复杂。为了保证网络系统的安全,就需要有一种能够及时发现并报告系统中未授权或异常现象的技术,即入侵检测系统(Intrusion Detection System,简称IDS),它可在一定程度上预防和检测来自系统内、外的入侵。
二、粗糙集理论的基本概念
粗糙集理论是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。
(一)知识的含义与表示方法
定义1 设U是我们感兴趣的对象组成的非空有限集合,称为论域(全域)。任何子集XU,称为U中的一个概念或范畴。U的一组概念称为U上的抽象知识,简称为知识。
定义2 U上的一个划分称为关于U的一个知识库(Knowledge Base)。一个知识库就是一个关系系统K=(U,R),(U,R)称为近似空间,其中U是非空有限集,R为U上等价关系的一个族集。U/R表示R的所有等价类(或者U上的分类)构成的集合,称为关于U的一个知识,[X]R表示的是包含元素x∈U的R等价类。
(二)粗糙集
定义3 令x U,当X能用属性子集P确切的描述(即是属性子集P所确定的U上的不可分辨集的并)时,称X是P可定义的,否则称X是P不可定义的。P可定义集也称作P精确集,P不可定义集也称为P非精确集或P粗糙集。
定义4 设集合X U,RIND(K),定义两个子集: X=∪{Y∈U/R|Y
X},X=∪{Y∈U/R|Y∩X≠Ø}。
分别称它们为X的R下近似集和R上近似集。
集合BNR(X)=X-X称为X的R边界域;
POSR(X)=X称为X的R正域;
NEGR(X)=U-X称为X的R负域。
(三)知识的约简与核
定义5 知识约简就是在保持知识库分类能力不变的条件下,删除其中不必要的知识。
定义6 令P为一族等价关系,R∈P,如果IND(P-{R})=IND(P),则称关系R在P中是不必要的;否则称关系R在P中是必要的。
定义7 设U是一个论域,P为定义在U上的一个等价关系族,P中所有必要关系组成的集合,称为族集P的核(core),记作core(P)。
三、基于粗糙集理论的网络入侵检测系统模型及工作流程
(一)训练阶段
训练数据是带有攻击类型的网络连接记录,首先由数据预处理模块对训练数据进行预处理,产生符合数据挖掘要求的特定格式的记录;属性约简模块消除冗余的记录和无关的属性,以加快系统的效率;然后进入规则挖掘阶段,可以利用数据挖掘的不同算法形成新的规则,为了使规则更具有一般性,可以进行规则合并,来减少规则的数目,从而提高匹配的效率。
(二)监测阶段
从网络上捕获的当前行为记录首先经过数据预处理、与已建立的入侵模式库中的规则进行匹配,如果匹配成功,说明此种入侵发生。
四、实验测试(在入侵检测中应用粗糙集理论进行属性约简)
属性约简可以去除大量信息中的多余属性,降低信息空间的维数和属性数量,既大大简化了样本数量,又缩短了训练时间。本文运用约简算法,把原来的42个属性约简为15个属性。
为了验证约简以后数据集的分类能力并没有降低,我们采用以下方法验证:
实验采用Weka系统提供的分类器,选取了4个分类器RBF Network、Bayes Net、ID3、Decision Table,依次编号。每个分类器的检测率是在测试集上成功预测的实例占总实例的百分比,采用训练集方法估计分类器的检测率,结果见表4-1。
约简后的数据集的分类检测率与约简前不相上下甚至略高,说明属性约简对检测准确度并没有太大的影响。但是运行时间却缩短了很多。
五、总结及展望
本文讨论了粗糙集理论在网络入侵检测中的应用,用粗糙集理论对条件属性进行约简,从众多的状态属性中选择了最有效的条件属性,简化了网络入侵检测需要处理的数据。实践表明,基于粗糙集理论的网络入侵检测方法提高了入侵检测的速度。但是在利用粗糙集理论寻找较优约简数据表时仍存在计算量较大的问题,同时,怎样优选属性还需在理论上进一步论证和探讨。
参考文献:
[1]苗夺谦、李道国,粗糙集理论、算法与应用,清华大学出版社,2008.4.
[2]张文修、仇国芳,基于粗糙集的不确定决策,清华大学出版社.
[3]罗敏、张焕国、王丽娜,基于数据挖掘的网络入侵检测技术:研究综述,计算机科学,2003,30(2):105-107,117.