基于数据挖掘的自适应入侵检测模型研究
2015-12-25岳强胡中玉刘渝妍
岳强++胡中玉++刘渝妍
摘要:针对当前入侵检测系统的局限性,提出将数据挖掘技术引入到入侵检测中,研究了Apriori关联算法、ID3分类算法和FHCAM聚类算法在入侵检测中的应用,建立了一个基于数据挖掘的自适应入侵检测模型。该模型能够识别已知和未知的入侵,降低检测的漏报率和误报率,有效的提高检测效率。
关键词:入侵检测;数据挖掘;关联;聚类
中图分类号:TP393
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2015.09.013
0 引言
随着计算机网络和互联网的迅速发展,网络安全问题日益突出,网络安全机制在信息社会中扮演着极其重要的角色,它直接关系到个人隐私、企业经营和国家安全。互联网所具有的开放性和自由性在增加应用自由度的同时,对安全提出了更高的要求。入侵检测系统是近年来发展起来的一种动态监控和预防网络入侵行为的安全机制。与传统的安全机制相比,入侵检测具有明显的优势,它所具备的智能监控、配置简单、实时探测等特点使得网络的安全性得到进一步的提高。当前网络安全研究机构提出了很多入侵检测的解决方案,如统计分析、模式匹配、专家系统和数据挖掘等方法,其中数据挖掘方法因其具有良好的可扩展性和自适应性,得到了广泛的重视,将数据挖掘的核心方法和技术应用于入侵检测已成为入侵检测技术领域研究的热点。
1 入侵检测系统
入侵检测系统(Intrusion Detection System,IDS)是检测入侵行为,实现安全监视的技术。由于防火墙无法防御来自内部的攻击,入侵检测技术成为防火墙的合理补充,帮助系统预防网络入侵,扩展了系统管理员的安全管理范围。入侵检测系统按照检测方法划分,可以分为基于误用的入侵检测系统和基于异常的入侵检测系统。
基于误用的入侵检测系统优点是可以有效地检测到已知入侵,误报率比较低,缺点是只能检测到已知的攻击类型,当出现针对新漏洞的攻击手段或针对旧漏洞的新攻击方式时,就需要添加新的入侵规则,才能够检测出新的入侵行为,因此系统的灵活性和自适应性比较差。目前,异常检测是入侵检测系统的主要研究方向,其特点是根据使用者的行为或资源使用状况来判断是否存在入侵行为,这种检测系统的基本思想是分析系统的正常行为,建立一个正常特征状态模型,检测时将用户当前的行为与这个正常特征状态模型进行模式比较,如果存在较大的出入,则认为系统遭到入侵。异常检测的优点是能够检测到未知的攻击,缺点是检测的误报率和漏报率比较高。近年来,由于入侵方法和入侵特征的不断变化,入侵检测系统必修不断自学习,以便更新检测模型,一方面能及时检测出未知的攻击,另一方面要降低检测的误报率和漏报率。
2 数据挖掘技术
为了克服传统的入侵检测系统的缺陷,现有的入侵检测系统大都利用数据挖掘、机器学习等智能方法来分析和处理网络数据,在看似杂乱的数据中找出内在的联系,从而发现网络和系统的不安全之处,提出决策建议。数据挖掘是从海量的、不规则的数据集中识别有效的、可信的以及隐含信息的处理过程,其本身是一项通用的知识发现技术。数据挖掘的内涵非常丰富,是一个多学科交叉领域。本文将数据挖掘的常用技术应用于入侵检测领域,利用数据挖掘中的关联、分类和聚类等算法提取出与网络安全相关的特征属性,然后根据这些特征属性建立起划分网络行为的分类模型,用于对安全事件的鉴别,准确的区分实际的入侵和正常行为模式。这种自动化的方法不需再手工分析和添加入侵行为模式,从而更加有利于建立适应性强的入侵检测系统。
2.1 Apriori关联算法
关联规则是描述在一个事务中项目之间同时出现的规律的知识模式。一个事务中的关联规则挖掘可以描述如下:递归方法。首先选择训练数据的某个属性作为根结点,对测试属性的每个值(离散化),创建一个分支,并据此划分样本。算法使用同样的过程,递归形成每个分支下的子分支。一旦一个属性出现在一个结点上,就不必考虑该结点的子结点。构造出的决策树的好坏关键在于如何选择合适的产生分支的属性,我们称之为分裂属性,ID3算法选择信息增益值最大的属性做为分裂属性。决策树剪枝是一种克服噪声的有效手段,同时能使决策树得到简化,更利于进行新的数据分类,可以采用预先剪枝策略,在生成决策树的同时决定是继续对不纯的训练子集进行划分还是停机。ID3分类算法可以利用大量的入侵数据加以训练,生成表示入侵规则的决策树。
2.3 FHCAM聚类算法
聚类是将数据对象分成为多个类或簇,划分的原则是在同一个类中的对象之间具有较高的形似度,而不同类中的对象差别较大。与分类不同,聚类划分的类是未知的,类的的形成是由数据分析得到的。
在网络访问中,正常访问行为记录数要远高于异常访问行为记录数,把记录对象多的类归为正常行为集合,把记录对象少的类归为异常行为集合,就可以采用聚类算法区分不同的类。针对当前的一些聚类算法对非数值类型数据属性无处理、对先验知识的过多依赖等问题,本文采用了一种新的融合数值和字符类型数据的快速启发式聚类算法(Fast Heuristic Clus-tering Algorithm for Mixed data,FHCAM)。FHCAM算法在分析了传统聚类算法在划分系统和网络访问行为记录时存在的缺陷的基础上,结合行为记录的特征提出的一种改进聚类算法。FHCAM算法对数值型属性采用欧几里德距离的度量方法,对字符型属性采用相异度的度量方法,然后计算记录中所有数值型属性和字符型属性间的相异度来对大流量的系统和网络行为记录划分聚类,将挖掘入侵模式所需要的正常行为库和异常行为库划分出来。
各部分功能详细列下:
1.事件处理引擎
首先,按照一定策略提取关键主机上的事务日志或捕获网络数据报文,其次通过解码器进行解析后转换成具有特定格式的数据结构,最后对解码后的数据包进行预处理,转换成适合模式匹配和挖掘的系统数据格式。采用分类算法ID3对训练数据进行挖掘,将挖掘到的规则添加到入侵模式库中。
2.行为库划分模块
采用面向混合类型数据的快速启发式聚类算法FHCAM对系统网络行为记录进行聚类划分,自动构造正常行为库和异常行为库。
3.规则挖掘模块
使用关联算法Apriori对正常行为库进行挖掘,将挖掘出的关联模式和入侵模式库进行模式比较,无异常的情况下再添加正常模式库,这样能降低检测的漏报率;同时,对异常行为库也进行关联规则挖掘,挖掘出的模式与正常模式库进行模式比较,如不匹配则生成新的入侵模式,添加到入侵模式库中,这样能降低检测的误报率。通过Apriori算法挖掘频繁项集,智能构建和维护入侵模式库,挖掘出的模式可利用主子表的结构存储在关系数据库中,这样可以减少数据存储的冗余。
4 结束语
本文将数据挖掘技术和入侵检测技术相结合,详细分析了3种数据挖掘中的常用算法:Apriori关联算法、ID3分类算法和FHCAM聚类算法。ID3分类算法可以利用大量的入侵数据加以训练,生成表示入侵规则的决策树,用于入侵检测。FHCAM聚类算法可以对系统网络行为进行聚类划分,自动构造正常行为库和异常行为库。Apriori关联算法则可用来从异常行为库中挖掘出表示入侵模式的关联规则,通过这些规则识别入侵。建立了基于数据挖掘技术的自适应入侵检测模型,该模型能够智能构建和维护入侵模式库,有效的识别已知和未知的攻击,降低入侵检测的误报率和漏报率,是一种具有白适应性和可扩展性的入侵检测系统模型。