APP下载

基于数据挖掘的入侵检测系统研究

2010-04-11王雅轩

制造业自动化 2010年13期
关键词:数据挖掘关联规则

王雅轩,顼 聪

WANG Ya-xuan, XU Cong

(大连外国语学院 软件学院,大连 116044)

基于数据挖掘的入侵检测系统研究

The study on intrusion detection system based on data mining

王雅轩,顼 聪

WANG Ya-xuan, XU Cong

(大连外国语学院 软件学院,大连 116044)

数据挖掘技术在网络安全领域的应用已成为一个研究热点。入侵检测系统是网络安全的重要防护工具,近年来得到广泛的研究与应用,但入侵检测系统自身的误报漏报及海量信息的出现,使得人们必须谋求突破,以使入侵检测系统实现更高的可用性和稳定性。本文构建了应用数据挖掘技术的入侵检测系统模型,以改善入侵检测的精确性和速度。

数据挖掘;入侵检测;网络安全

0 引言

随着对IDS 的研究与应用的愈加深入,人们在享受IDS带来的安全的同时,也越来越多地感受到了由其误报和漏报等所带来的困扰。我们知道,IDS的警告是根据对网络中异常情况的察觉,以及对主机日志的检测。随着网络传输速度和海量数据的增长,对IDS的数据处理速度也提出了更高的要求。目前很多IDS,在海量数据出现的情况下,系统性能低下,已经不能满足实时性的要求,同时也缺乏对新型攻击的检测能力,而新兴的数据挖掘技术的应用可以弥补这一缺陷,因此本文将数据挖掘的方法引入到了IDS中,以改进IDS 的性能。

1 入侵检测系统

入侵检测(ID) 就是对入侵行为的检测,它通过收集和分析计算机网络或计算机系统中若干关键点的信息,检查网络或系统中是否存在违反安全策略的行为和被攻击的迹象[1]。入侵检测的软件与硬件的组合便是入侵检测系统(IDS)。按照检测对象的不同,可以将入侵检测技术划分为“基于主机的检测”、“基于网络的检测”、“基于内核的检测”和“基于应用的检测”等多种类型。

2 数据挖掘的功能与技术

2.1 数据挖掘的功能

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是用户感兴趣的信息和知识的过程[2]。打个比方,可以把数据看作是形成知识的源泉,数据挖掘就好比从矿石中采矿或淘金一样。数据挖掘的过程并不是一个直线型的过程,而是一个螺旋上升、循环往复的多步骤处理过程。

2.2 数据挖掘的技术

数据挖掘技术主要有: 1)分类,就是将数据项映射到一种或者多种事先定义好的分类中去。通常采用决策树或规则来区分数据是属于“正常”还是“不正常”。2)关联规则分析,就是找出一个数据集中数据记录间的不可见或者不可估计的属性关联,即找出具有给定的最小支持度和最小置信度的关联规则。现在已有多种关联规则算法如Apriori算法[3]等用于入侵检测。3)频度序列分析,就是分析并找出数据流中时间上先后的多个事件的模式。时间频度模式可以为建立事件轮廓提供指导。例如:在DOS 攻击中,目标机在一定时间的连接次数的分析。

3 应用数据挖掘技术的IDS 模型

3.1 IDS系统的框架结构

本文根据数据挖掘的思想,利用数据挖掘中的关联分析技术,提取出程序或用户的行为模式,构造与安全相关的系统特征属性,并根据系统特征属性生成安全事件的分类模型,用于对安全事件的自动鉴别。

关联规则分析利用Apriori方法来获得系统审计数据中各属性之间的关系,确定构造IDS所需要的合适属性,或者提取出某种操作和入侵行为之间或各种入侵行为之间的相互关系,或两种入侵行为通常相伴发生等知识。

频繁序列分析算法用来发现系统审计事件中频繁发生的事件序列[4]。该算法可以为最后生成入侵检测模型提供时间统计属性,即使用序列分析方法对各种入侵行为和某些操作发生的先后关系做出归纳。

分类算法主要用来构造入侵或正常行为规则,通过从关联规则的Aporiri挖掘和频繁序列模式挖掘所提取的一系列属性,用易于人们理解的启发式规则,来描述攻击特征并构建分类器。

最后使用训练好的分类器来执行检测功能。基于数据挖掘的入侵检测系统的框架结构如图1所示。

图1 基于数据挖掘的IDS的框架结构图

3.2 IDS系统的工作流程

1)在训练分类模型阶段,搜集网络和主机训练数据,进行数据预处理,形成系统和网络行为集。

2)采用关联规则挖掘和基本的频繁序列模式挖掘得出频繁模式,进行模式合并、分析,进而构造出入侵模式库和正常行为模式库。

3)利用特征构造算法为模式添加附加特征,送入分类器形成分类规则,通过规则的合并和添加处理,形成入侵规则库和正常行为规则库。

4)检测引擎通过规则匹配和规则相似度比较来检测入侵。

3.3 IDS系统的实时监测过程

在分类器已训练完成的检测过程中,收集实时审计数据,进行预处理后形成系统和网络行为集,统计连接属性的特征,送入检测引擎,利用入侵规则库和正常行为规则库,进行规则匹配和规则相似度比较,以此方式来进行检测。同时挖掘模块对其进行在线更新挖掘,对行为集中未出现过的用户模式,利用分类规则,及时更新正常和异常模式库。对于行为集中已有的行为模式,则可直接丢弃。这样,既可节约系统资源,又可使系统具有一定的自学习能力。IDS系统的实时监测过程如图2所示。

3.4 IDS系统预处理模块

入侵检测的基本前提是系统行为可以观察到(如通过审计)、并能对正常和入侵行为进行区别。在进行关联分析之前进行数据预处理,对数据挖掘的性能和效率有着至关重要的影响。数据预处理主要完成数据清洗和特征子集选择两个任务。对原始数据进行数据清洗和特征子集选择,可以去掉冗余的数据,集中检测有用的数据集,以适应网络速度和流量的成倍增长,保证检测的实时性和准确性。

数据特征子集选择的主要过程是对检测变量的筛选,即在原始的P个检测属性中, 筛选出具有P'(P'

图2 IDS系统的实时监测过程示意图

3.5 IDS系统数据挖掘模块

数据挖掘模块对收集的数据进行挖掘, 本系统分别采用关联规则和序列模式挖掘技术。关联规则挖掘技术采用了以下几个步骤:

1)预先确定初始最小支持度和最小置信度阈值。

2)找出满足最小支持度和最小置信度阈值的频繁项集,可用采用改进的Apriori算法。

3)由频繁项集,生成关联规则。

4)剔除无用规则。

5)将服务类型作为分类标签,其他属性作为判定树的分支节点,按照判定树对规则进行分类,建立入侵分类模型。

6)将新生成的规则按判定树的方法插人规则库。

3.6 IDS系统中规则库的建立和维护模块

入侵检测产品的有效入侵检测的关键在于入侵知识库。入侵知识库中存放着系统挖掘出的各种已知攻击模式和正常模式。将数据挖掘算法提取出的数据包的模式与知识库中的模式进行比较,以确定该数据包是正常的数据传输还是已知的恶意攻击,或是未知模式。

入侵规则的来源主要有三种:1)对于已知的攻击行为模式和利用已知系统漏洞进行的攻击行为模式,可由人工把这些特征加入规则库;2)在统建立的初始阶段,通过收集足够的训练数据来训练数据挖掘模块而得到规则;3)在系统检测过程中,对于检测得到的新的正常或异常规则,由决策模块控制加入规则库。

规则库的维护要求规则库能及时更新,并尽可能包含所有的正常和异常规则。可以采用以下几种方法来更新规则库:

1)引入相似度的概念来表述规则之间的吻合程度。对异常检测而言,如果检测到的规则与正常规则库中现有规则的相似度小于用户规定的阀值,可能有异常行为。再把该规则与异常规则库中的规则进行匹配检测得到相似度,若该相似度小于用户规定的阀值,说明该规则已存在,无须加入。对误用检测的原理与此相似。

2)对规则库中的每条规则设置计数器,在检测过程中每检测到一条相似的规则,该规则计数器加1。系统运行一段时间后,检查规则库中的计数器情况,对于计数器值较低的规则,说明与此相对应的行为发生频率低,可考虑把该规则从规则库中删除,以减小规则库中的规则量,提高系统的检测效率。

3)根据某条规则的误报情况,重新制定该规则的支持度和置信度,以减小误报率。

4 IDS系统的实验结果与分析

本文描述的系统,在实验室进行了简单的测试。实验过程由两个阶段组成:数据收集阶段和模拟攻击阶段。

4.1 数据收集阶段。

收集尽量完备的正常网络数据,建立正常行为轮廓。数据收集工作是在局域网内进行的,因而获得了较简洁的数据。前后历时7小时,共获得16070条数据。上述数据进行挖掘,产生合并后的关联规则830 条、序列规则1060 条。对规则进行分类,产生分类判定树。

4.2 模拟攻击阶段。

收集准入侵数据,建立入侵检测分类规则。将入侵规则同数据收集阶段产生的正常行为轮廓库规则进行比较,结果表明具有较好的效果。其误警率及检测率分别为3.4% 及81.6%。

通过对的数据进行分析,表明本文提出的结构模型增强了入侵检测的防范能力,明显地降低漏报率和误报率,提高了入侵检测的精确性和速度。

[1] 邹仕洪,阙喜戎,龚向阳,等.基于数据挖掘与CIDF 的自适应入侵检测系统[J].计算机工程与应用,2002(11):184-1861.

[2] 陶力.Data Mining:Efficiently Extracting Interpretable and Actionable Patterns[R].北京:计算机科学与技术系列学术报告,2008.

[3] 蒋嶷川,田盛丰.入侵检测中对系统日志审计信息进行数据挖掘的研究[J].计算机工程,2002,28 (1):159-161.

[4] 侯伟,吴晨生,杨炳儒等.一种高效的离线数据流频繁模式挖掘算法[J].计算机科学,2009(7):253-257.

TP312.08

A

1009-0134(2010)11(下)-0156-03

10.3969/j.issn.1009-0134.2010.11(下).53

2010-08-07

王雅轩(1969 -),女,副教授,研究生,研究方向为软件理论与应用。

猜你喜欢

数据挖掘关联规则
撑竿跳规则的制定
数独的规则和演变
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
奇趣搭配
让规则不规则
基于并行计算的大数据挖掘在电网中的应用
智趣
TPP反腐败规则对我国的启示
一种基于Hadoop的大数据挖掘云服务及应用