APP下载

数据挖掘在入侵检测中的应用

2014-12-28冯莹莹

关键词:数据挖掘关联规则

冯莹莹

(阜阳师范学院信息工程学院,安徽 阜阳 236041)

入侵检测技术作为一种动态防护安全技术,主要通过对计算机网络节点定期搜集数据并加以分析,找出其中被攻击的迹象和违反安全策略的行为[1]。入侵检测技术处于不断完善中,仍存在许多问题。

首先入侵防御能力较低。入侵检测系统的任务重点是对入侵行为进行识别,现有技术对黑客行为的检测和内外攻防能力不强,入侵防御实时性差导致现有入侵检测系统缺乏有效性。其次,误报率和漏报率高。入侵检测系统通常采用的检测方法有特征检测、异常检测、状态检测等,这些检测方式都存在某方面缺陷。在高速网络时代,入侵检测系统不能检测所有的数据包并且分析不准确,新的攻击没有对应的检测规则,检测手段的更新永远跟不上入侵攻击手段的更新,经常发生误报或漏报。同时,入侵检测系统应向开放性、分布性方向发展。分布式协同攻击是一种极具威胁的攻击方式,随着网络攻击形式的不断更新,分布式入侵行为的破坏性与隐蔽性也越来越强。现有的入侵检测系统基本上采用IDS体系结构,各个IDS之间无法交换信息,很难在新的计算条件下重新使用或者定制入侵检测系统。IDS体系结构应向分布式,协同式方向发展,加强各IDS之间的相互协作,全力防御所有攻击。

1 数据挖掘概念及基本算法

数据挖掘是指借助于数学、统计学、人工智能等多种科学方法,从大型数据库中提取出隐含的、先前未知且有潜在价值的信息的决策支持过程[2],其数据挖掘的过程如图1所示。

图1 数据挖掘过程

目前应用到入侵检测技术中的数据挖掘算法主要有关联分析、聚类和概念描述。

(1)关联分析。关联分析可以分析出在大型数据库中数据之间的联系,序列模式和关联规则是两种最主要的表现形式。序列模式会根据前因推断出后果,比如某顾客买了电脑不久可能要买其他配件。关联规则是分析出多个事件的相互联系,比如某用户买了牙刷的同时是否会买牙膏。

(2)聚类。聚类是在对数据对象不了解的前提条件下,把多个事物划分成多个类别。在同一类别中的多个事物间具有相似性。

(3)概念描述。用户期待用简洁的语言描述数据库中庞杂的数据集合。概念描述是对同一类对象特征的提取和抽象。

2 基于关联规则的入侵检测技术

在入侵检测系统中应用数据挖掘技术,有效克服了传统入侵检测系统的一些缺点,使获得的异常行为模式具有精确性以及可适应性,并自动从纷繁的网络数据中提取出与系统安全特性相关的属性,据此自动生成挖掘模型,并能自动鉴别安全事件,最终建立一套能用于数据采集、预处理、特征变量选取、挖掘结果比较分析等过程的入侵检测模型。数据挖掘是整个过程中的核心,而对数据进行分析是入侵检测的基本工作。

关联规则挖掘是指从数据库表中找出属性相关、频繁出现的模式,演变成关联规则[3],依据生成的关联规则进行入侵检测。应用关联规则进行入侵检则数据挖掘分为3个步骤:

(1)对训练数据进行预处理(包括离散化、缺失值处理等);

(2)挖掘关联规则:包括频繁项集挖掘和关联规则生成及对规则进行处理;

从目前孤儿救助方式、孤儿需求以及民间组织自身优势等方面分析来看,民间组织介入孤儿救助有很大的空间可拓展。

(3)入侵检测器用于检测不正常的网络数据包,从中挖掘出网络异常数据包中潜在的入侵行为模式,生成关联规则集并更新到规则库中。

2.1 关联规则在入侵检测中的应用

参数关联模型应用分为训练阶段和检测阶段,训练阶段需要找出正常事件的模型参数,检测阶段需要报告异常事件的概率。

令T为程序的所有参数名集合,T1为必定定出现的参数集合,T1-2为T1中所有枚举参数名集合,则存在 T1-2≤T1≤T[4]。R 为测试集,I是 R 中所有参数名T1-2的参数—值对应的集合,于是有:

在此q表示一个请求所包含的参数,即q=(p1,v1),(p2,v2),(pn,vn)。如果 R 中任意一条记录的参数q与I有交集,那么此交集产生一个事务T,集合D指的是由R中所有记录构成的事务T。

引入参数关联的目的是在集合D上分析出I中多个参数之间可能存在的关联规则。在检测阶段,Passociation为记录输出不正常时的概率,M是待检测关联规则列表,(ai,bi)是M列表中的任意有序规则对,则Passociatio可以计算如下:可见,从分析关联规则的角度来看,违反规则的数量与规则的置信度及该请求异常的可能性成正比。违反的规则越大,置信度越大,产生异常请求的可能性就越大。

2.2 异常检测

图2所示为异常检测流程,分为2个阶段。第一阶段为训练初始阶段,正常事件的模型参数及异常概率阂值在系统中已知[5]。第二阶段为实施检测算法阶段,系统获得HTTP请求并解析HTTP请求数据后,将URL的程序名和各参数的参数值进行分离,从而获得一定数量的异常概率。如果异常概率大于系统设定的阂值,判决单元认定此次访问不合法,为入侵行为,反之,为正常访问。

图2 异常检测流程图

2.3 一种基于数据挖掘的入侵检测模型

入侵检测模型包含嗅探器、原始数据库、数据预处理、知识库、模式规则、数据差异分析、结果与验证等7部分,如图3所示。

图3 一种基于数据挖掘的入侵检测模型

(1)嗅探器的任务是对网络上的原始信息进行定期搜集,并提供一个向网络简单抓取信息的接口[6]。

(2)原始数据库主要用于按照指定格式存放由嗅探器搜集的信息。

(3)数据预处理,是指对搜集到的网络原始数据进行过滤、清理,去除影响系统安全的“脏”数据,为数据挖掘内核提供更有针对性的有效数据,能更好地起到决策和预测作用。

(4)知识库,用于存储挖掘好的信息、规则,并与数据挖掘引擎实现交互。

(5)模式规则,此部分任务是将搜集到的历史信息和训练数据集数据利用相关的挖掘算法进行特征提取,形成模式规则,添加到知识库中。

(6)数据差异分析,是由事件分析器根据模式规则库中的关联规则,将当前事件与历史事件使用凝聚算法进行关联分类,从模式中计算新的行为轮廓,对知识库中的知识特征进行回归分析,更新知识库,判断此行为是否为协同入侵的分支,并做出相应处理。

(7)结果与验证,指对上述步骤中得到的结论进行分析和验证。

此入侵检测模型的运行机理是,嗅探器负责搜集主机活动信息并在初始化数据库中进行保存,然后对此数据进行过滤、清洁等形成数据挖掘算法需要的格式。当入侵检测系统发现攻击行为时,如果是已知的入侵行为,必定匹配成功;如果是未知的入侵行为,送到异常检测器进行检测,得到新的规则,最终存入模式库,以便检测器有效利用该规则。

3 实验分析

实验环境采用P4中央处理器,内存2G,Windows2000环境,硬盘320G的系统。实验数据集采用KDD Cup 99网络入侵检测数据集。此数据集是目前应用的最为广泛的用于测试入侵检测的有效数据。主要包含以下4类入侵攻击类型:拒绝服务DOS(Denial-Of-Service),如 ping-of-death,syn flood,smurf等;远程未授权访问R2L(Remote-to-Local),例如guessing password;未授权提升权限访问U2R(User-to-Root),例如 buffer overflow attacks;PROBE–端口监视或扫描,例如port-scan,ping-sweep等。

实验主要采用5组实验数据集,得出不同类型的异常模式,最终形成规则库。实验检测数据如表1所示。

表1 实验数据

由图4可见,DOS攻击的检测率接近三分之二,攻击检测率保持在50%左右的为R2L、PROBE类攻击,对于未知U2R攻击检测率相对较低,此算法有待进一步改进。

图4 攻击检测结果

4 结语

本文讨论了传统入侵检测的主要缺点,分析了将数据挖掘应用到入侵检测的必要性并提出了一种新的基于数据挖掘的入侵检测模型。最后通过实验表明,该模型从数据采集、数据预处理、数据差异分析方面实现了入侵检测的协同处理,能有效检测出已知的攻击类型,提高了入侵检测系统的能力,有一定的可行性和有效性。

[1]刘勇国,李学明.基于数据挖掘的入侵检测[J].重庆大学学报,2002,25(10):128-131,135.

[2]唐正军.网络入侵检测系统的设计与实现[M].北京:电子工业出版社,2002.

[3]戴英侠,连一峰,王航,等.系统安全与入侵检测[M].北京:清华大学出版社,2002:99-137.

[4]茅洁,蒋雄文.基于数据挖掘的入侵检测技术[J].现代电子技术,2004,27(6):25-27.

[5]张银奎,廖丽,宋俊,等.数据挖掘原理[M].北京:机械工业出版社,2003:93-105.

[6]李志波,李远清,胡刚.基于数据挖掘的入侵检测系统[J].工业工程,2003,6(3):36-39.

[7]向继,高能,荆继武.聚类算法在网络入侵检测中的应用[J].计算机工程,2003,29(16):1-3.

[8]刘莘,张永平,万艳丽.决策树算法在入侵检测中的应用分析及改进[J].计算机工程与设计,2006,27(19):3641-3643.

[9]王雨晨.系统漏洞原理与常见攻击方法[J].计算机工程与应用,2001(3):62-64.

[10]龚俭,陆晟,王倩.计算机网络安全导论[M].南京:东南大学出版社,2000(8):212-236.

[11]曾志峰,杨义先.网络安全的发展与研究[J].计算机工程与应用,2000(10):1-3.

猜你喜欢

数据挖掘关联规则
撑竿跳规则的制定
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
数独的规则和演变
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
奇趣搭配
让规则不规则
基于并行计算的大数据挖掘在电网中的应用
智趣
TPP反腐败规则对我国的启示