浅谈基于数据挖掘的入侵检测技术的研究
2012-08-15汪莉
汪莉
(长江大学工程技术学院 湖北 荆州 434020)
0 引言
入侵检测的目的是为了发现系统或用户行为的异常,其实质归结为对从各种渠道获得的反映网络状况和网络行为的安全审计数据的分析处理。然而,操作系统的日益复杂化和网络数据流量的急剧膨胀,导致了安全审计数据同样以惊人的速度递增。骤增的数据背后隐藏着许多与安全有关的重要信息,如何从包含大量冗余信息的数据中提取出具有代表性的入侵模式是入侵检测的关键,而靠传统数据检索机制和统计分析方法不能满足安全信息有效提取的需要。数据挖掘能够从海量数据中提取出隐含的、事先未知的、潜在有用的信息和知识,很好地解决了这些问题。
1 目前存在的问题
尽管将数据挖掘引入入侵检测研究,以此建立的检测模型在适应性和可扩展性方面具有优势并得到实验验证,但进行检测时仍存在一定困难:
1.1 检测有效性方面
此类模型通过训练集中的行为特征学习,对已知入侵和攻击行为具备较高的检测率和较低的误报率;而对于未在训练集出现的和全新的入侵行为,则出现较低的检测率和较高的误检率,这种现象对于大多数检测模型有普遍性。
1.2 检测效率方面
由于现有入侵检测中的数据挖掘算法需要对大量已标识的历史数据进行训练学习,然后才能进行测试数据集的检测,造成了对训练集数据的强烈依赖性,训练集数据的分布特征决定了检测算法的性能;而训练集数据的获取及其真实性在现实环境中不能完全保证,造成了检测模型较高的计算成本和相对局限性。
2 入侵检测系统中采用数据挖掘的可行性
现在国内外已有一些研究机构利用数据挖掘进行入侵检测,针对一些入侵行为获得了较为理想的结果。采用数据挖掘技术来构造入侵检测模型,优势在于:
2.1 提高了入侵检测的精确性
基于数据挖掘的检测方法可以从大量数据中挖掘出不易被明显看出的重要特征和规则,能分析大量审计数据并提取对入侵行为的最具概括性的描述,使得构造出的特征能够更加精确、有效地区分用户的正常行为和异常行为。
2.2 适应数据量增大的趋势
在入侵检测中,收集到的数据越多,分析结果就越准确。如何从海量数据中提取出入侵行为和正常行为的最显著区别,传统方法对此无能为力,而数据挖掘技术能从海量数据中提取有价值的信息,很好地解决了这个问题。
2.3 有良好的适应性
应用数据挖掘方法的检测系统不是基于预定义的检测模型,而是通过机器学习算法从审计数据中学习到的模型,因此对于新型攻击及已知攻击的变种具有适应性。
2.4 具有较强的可扩展性
同样的数据挖掘工具能用于多个数据源,不依赖于任何系统而存在,因而当检测环境变化时检测系统不需要做什么改动,具有较强的可扩展性。
3 常用于入侵检测的数据挖掘算法
近年来数据挖掘技术的快速发展已从很多领域中得到了大量的算法,一些算法尤其适用于入侵检测。目前有以下几种常用于入侵检测的数据挖掘算法:
3.1 关联规则分析
关联规则分析方法的目的是以规则的形式给出隐藏在数据中各属性间的相互关系。在入侵检测系统中,用户的正常行为和恶意的入侵行为都将反映到审计记录数据中,不论是正常行为还是异常行为,都将留下一条或多条记录。这些记录都不是孤立的,记录内部的属性或记录之间都存在某些必然的联系。利用关联分析找出入侵行为的各种属性之间的相关特性,或者是提取出某种操作和入侵行为之间或各种入侵行为之间的相互关系等知识。
3.2 序列模式分析
序列分析发现不同数据记录之间的相关性,获取序列模式模型。序列模式分析和关联分析相似,其目的也是为了挖掘数据的联系,但序列模式分析的侧重点在于分析数据间的前后关系,发现系统审计事件中频繁发生的事件序列。可以为最后生成入侵检测模型提供时间统计属性,即使用序列分析方法对各种入侵行为和某些操作发生的先后关系做出归纳。
3.3 分类分析
分类分析是一种有监督的学习方法,它通过分析实例数据,提取数据项的特征属性,并建立一个分类函数或分类模型,该函数或模型能把数据集中的数据映射到某个给定的类上。分类过程首先考察分类数据的属性,通过训练数据集对系统进行训练,找出描述并区分数据类或概念的模型,以便将收集到的数据归类到某个预定义的类标记下。为了构建这样的一个分类模型,需要一个样本数据库作为训练集,样本数据库中的每一个元组与大型数据库中的元组包含着同样的属性集,并且每一个元组有一个已知的类标记。
3.4 聚类分析
聚类分析是将数据集分成由类似的对象组成的多个类的过程,由聚类所生成的同一类中的对象彼此相似,不同类中的对象相异。聚类算法用于对未经标记的训练数据进行特征分析,把具有相似特征的数据归于一类,可以在不具备完整领域知识背景的情况下执行入侵检测功能。与分类分析方法不同,聚类分析的输入集是一组未标定的记录,也就是说此时输入的记录没有被进行任何分类,而是通过聚类算法采用全自动方式获得的,而所依据的这些规则是由聚类分析工具定义的。
4 结束语
在网络安全问题日益突出的今天,如何迅速而有效地利用基于数据挖掘的入侵检测系统发现各种入侵行为,对于保证系统和网络资源的安全十分重要。传统的基于人工建模的入侵检测技术已经越来越无法适应新的网络环境,而基于数据挖掘的入侵检测系统能从大量的审计数据中自动产生精确适用的检测模型,使入侵检测系统适用于任何计算环境。
[1]唐正军.网络入侵检测系统的设计与实现[M].北京:电子工业出版社,2002.
[2]李守国.数据挖掘技术在入侵检测中应用研究[D].南京航空航天大学,2005.
[3]郭爱伟.入侵检测系统分类算法的研究[D].中北大学,2006.