APP下载

机器学习在入侵检测中的应用

2011-08-15河南刘征孙汉卿

职业技术 2011年4期
关键词:马尔可夫贝叶斯遗传算法

河南 刘征 孙汉卿

机器学习在入侵检测中的应用

河南 刘征 孙汉卿

机器学习是人工智能的一个核心研究领域,现正被广泛的应用在机器学习中,但这种技术方法目前还不是很完备。本文首先介绍了入侵检测的基本概念,然后介绍了几种基于机器学习的入侵检测技术,最后列举了当前异常检测系统所要面临的挑战。

入侵检测;异常入侵检测;机器学习

1 介绍

入侵检测就是对企图入侵,正在进行的入侵或者已经发生的入侵进行识别的过程。所有能够执行入侵检测任务的系统,都可称为入侵检测系统。入侵检测方法的分类有多种。从数据来源看,入侵检测可以分为基于主机的入侵检测和基于网络的入侵检测。从数据分析手段来看,入侵检测通常可分为误用入侵检测和异常入侵检测。误用检测对比已知的攻击所构成的数据库中的数据和当前数据来发现入侵。而异常检测是通过观察当前活动与历史正常活动之间的差异来发现入侵。

2 基于机器学习的入侵检测技术

机器学习综合了人工智能、概率统计、神经生物学、认知科学、信息论、控制论等学科的优点,现在被广泛应用于异常入侵检测中,其基本方法是,用检测对象的正常行为实例样本进行学习机训练,一旦训练完成,就建立了该检测对象的正常行为特征轮廓;在检测中,将检测对象当前行为的特征度量输入学习机,学习机经过运算输出一个异常判别值,从而实现对检测对象的异常检测。机器学习的主要技术有:贝叶斯网络、马尔可夫模型、人工神经网络、模糊逻辑技术、遗传算法、数据挖掘等。

2.1 贝叶斯网络

贝叶斯网络是根据各个变量之间的概率关系建立的图论模型,实际应用中,网络中每个节点代表一种测度及其概率分布,对于根节点,概率分布是不依赖其他测度的(客观概率);对于子节点,它是以根节点为条件的条件概率,输入各测度的当前值后,该网络就能输出一个综合异常评价结果.

利用贝叶斯网络进行入侵检测是非常高效得,但其主要问题是先验知识的重要性.但问题是我们不可能对所有的人侵形式进行计算,必须在现有知识下尽可能精确地确定先验概率,这样计算量会很大,这些都是我们今后需要解决的问题。

2.2 马尔可夫模型

马尔可夫模型应用到入侵检测中主要有两种不同的方法:马尔可夫链模型和隐马尔可夫模型。一个马尔可夫链就是由状态转移概率相关联的一系列状态变换,由此构成了该模型的拓扑结构。在初始的训练数据阶段,通过正常的系统行为得到概率。在随后的异常检测阶段,通过对检测行为序列评估得到一个数值(主要与概率相关)与我们事先设定的门限值比较判断是否发生入侵。而隐马尔可夫模型将状态及其转换隐藏,仅仅能看到其观察值。与贝叶斯网络相比,马尔可夫模型不依赖于先验概率,因此检测效果较好。

2.3 神经网络

神经网络是模拟人脑加工、存储和处理信息机制而提出的一种智能化信息处理技术,他是由大量简单的处理单元(神经元)进行高度互连而形成的复杂网络系统。人工神经网络实现的是一种从输入到输出的映射关系。利用神经网络检测入侵的基本思想是用一系列信息单元训练神经元,通过训练和学习过程来修改网络互连权值,这样在给定一组输入后,就可能预测输出。

神经网络应用到异常检测中,主要是由于他的灵活性和适应性。这种方法已被应用到创建用户配置文件,从先前的命令序列来预测下一个命令,以及确定入侵行为的流量模式等。神经网络不依赖于任何有关数据种类的假设,能处理噪声数据,实现简单,但神经网络拓扑结构的形成不稳定,且易陷于局部极小,学习时间长,而且对判断为异常的事件不能提供解释或说明信息。

2.4 模糊逻辑技术

模糊逻辑来源于模糊集理论。其主要研究近似推理,而不是我们经典谓词逻辑中的精确推导。由于异常检测技术的特点我们可以考虑使用模糊变量来判别是否发生入侵。如果模糊变量在给定的范围内,则认为系统正常。

模糊逻辑技术在异常检测中被证明是高效的,尤其是端口扫描和探测中。但是其较高的资源消耗率是我们目前亟待解决的问题。另外,还有一些研究人员始终认为只有概率才是唯一用来严格的描述数学中的不确定性。

2.5 遗传算法

遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。因此,遗传算法构成另一种类型的机器学习的技术,它能产生的分类规则或选择适当的功能或最佳参数的检测过程。

遗传算法是解决多目标优化问题的算法,对于求解最优化问题效率高。它的优点是灵活,不用事先了解系统的活动的先验知识。而它的缺点也很明显,就是资源消耗率高。

2.6 聚类和孤立点检测

聚类技术就是将数据集根据给定的相似度或者距离进行归类。聚类算法的一般过程是选择一个点作为该簇的中心点,选择几个点就是分为几簇。然后新的数据点根据和这些中心点的邻近程度划分到那个簇中。最后某些点可能不属于任何簇,这些店被命名为离群点,代表检测过程中的异常活动。

一般认为,将聚类应用到异常检测中关键是如何寻找到孤立点。现在有很多技术可以实现,例如,k-近邻算法利用欧式距离来确定给定簇中的点,另外的一些方法使用马氏距离。当然也可以使用其他的的关联变量,比如密度。

聚类的数据来源于主机的审计记录,系统学习过程较慢,难于进行实时检测。

3 总结和展望

入侵检测技术的不断发展,其目标是不断改善网络安全状况和保护计算机基础设施免遭破坏。尽管异常检测技术充满希望,但是其目前来看,还存在着巨大的挑战,其主要如下:

3.1 检测率低,特别是高误报率仍然存在。

3.2 高成本,低吞吐量。

3.3 入侵检测系统本身不能保护自己不受入侵。

异常检测技术尚没有完全成熟,其应用还有较大的局限性。这就需要我们不断探索研究,以便在不久的将来开发出一种完美的入侵检测系统。

[1]唐正军,李建华.入侵检测技术[M].北京:清华大学出版社,2004:7-28.

[2]林果园,黄皓,张永平.入侵检测系统研究进展[J].计算机科学.第35卷第2期,2008:69-74.

[3]Mitchell TM.Machine Learning[M].北京:机械工业出版社,2003:60-69.

(作者单位:河南商业高等专科学校计算机系)

(编辑 王旸)

猜你喜欢

马尔可夫贝叶斯遗传算法
基于贝叶斯解释回应被告人讲述的故事
基于马尔可夫链共享单车高校投放研究
基于马尔可夫链共享单车高校投放研究
基于遗传算法的智能交通灯控制研究
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
基于马尔可夫链的光伏发电系统输出功率短期预测方法
基于改进的遗传算法的模糊聚类算法
基于灰色马尔可夫模型的公务航空市场需求预测