基于机器学习的入侵检测方法研究

2015-12-15汪世义

巢湖学院学报 2015年6期

关键词：结点决策树贝叶斯

汪世义

(巢湖学院信息工程学院，安徽巢湖 238000）

基于机器学习的入侵检测方法研究

汪世义

(巢湖学院信息工程学院，安徽巢湖 238000）

入侵检测技术是几年来快速发展的一种动态的网络安全技术，应用机器学习方法处理入侵检测问题，是把它对应成一个模式识别与分类问题来处理的。因此讨论几种机器学习的分类方法的原理，为下一步把机器学习算法应用到入侵检测系统中提供了相关的思路与方法。

网络安全；机器学习；入侵检测

1 引言

网络安全防护体系中，入侵检测是一种动态的主动防护技术，能在网络及其系统受到攻击时提供实时安全保护，这些攻击行为包括内部或外部攻击行为以及误操作，入侵检测技术的应用能在主机或网络系统受到危害之前对相应入侵行为进行拦截并作出相应处理，目前把机器学习算法应用在入侵检测技术中是一个研究的热点问题。

机器学习是从大量的和数据中自动或半自动地寻找模式的过程，而且这个模式必须是有用的；而学习可理解为：当事物以令其自身在将来表现更好为标准来改变其行为时，它学到了东西。作为一个快速发展的新的交叉学科，它与多学科联系紧密，成为人工智能的一个重要分支。把数据挖掘的相关理论应用到入侵检测系统中，是基于机器学习理论的入侵检测技术和方法的重要体现。这个过程主要包括三个方面：一是对从主机或网络获取的入侵或正常的特征数据进行特征提取或行为分析；二是对获取的不同类别的数据进行学习；三是利用入侵检测决策支持系统对获取的数据进行深层次地分析与判断。在这个过程中，选用的机器学习算法主要是对不同的分类的特征数据进行了自适应调整。

从本质上来说，机器学习方法在入侵检测问题中的主要应用，是把它对应成一个模式识别与分类的问题来进行处理，主要是对系统的正常行为和异常行为作出分类，其中分析的数据包括网络流量特征和相关的主机审计信息记录[1-3]。因此下面讨论几种机器学习的分类方法在入侵检测中的应用，是一项很有意义的工作。

2 应用在入侵检测中的两种机器学习方法

朴素贝叶斯分类器是产生概率估计来替代类预测的。对于每个类值，它们都是估计某个实例用于属于这个类的概率。前提是给定其他属性的值，所估计的是类属性的条件概率分布。Bayes网络是变量集合的连接概率分布的图形模型，可用来挖掘和发现数据间的内在关系[4]。

P中的每一元素为数据变量Xi的条件概率密度表示为p(Xi|Pai，ζ）。则由概率的链规则得

这样对于任一数据变量Xi，一定可以找到一个与Xi条件都不独立的最小子集使得

此时，πi中的变量就为Bayes网络中的Xi的父结点，所以

由(S，P）就构成了一个Bayes网络。

2.1.1 Bayes网络的学习

Bayes网络的学习的过程[4]就是建立一种学习算法，主要是定义两个组成部分：一个是基于某个数据集的网络进行评估的评估函数，另一个是在所有的可能的网络空间中搜索的搜索方法。Bayes网络的学习是要找出一个网络模型，数据库中各数据变量之间的依赖关系能在这个模型中能够最理想地表现。例如对一个数据变量集记为，对于每一个Xi，它的值域为。D为数据样本，其中的元素Ci则称为一个事例。Dl为l-1个事例集。数据样本D由Bayes网络结构S所产生的事件记为Sh。Bayes网络的学习过程也就是找出后验概率p(Sh|D，ζ）最大的Bayes网络结构S的过程，主要是根据数据样本D和先验知识ζ来实现的。由Bayes概率公式得：

样本D的先验概率p(D|ζ）不依赖于网络结构S，所以只需找出联合概率p(Sh，D|ζ）最大的网络结构S。记先验概率的参数变量：

2.1.2 贝叶斯分类器

贝叶斯分类算法是一类利用概率统计知识进行分类的算法，如NB(NaÏve Bayes）算法，这些算法是主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性即概率大小。选择其中可能性最大的一个类别作为该样本的类别归属。换句话说，贝叶斯分类器就是利用贝叶斯公式需要很强的独立性假设为前提，由对象的先验概率得到对象的后验概率，然后以最大后验概率确定对象所属的类别，然而这种独立性的假设在实际情况中经常是不成立的，因而对其分类准确性产生影响，因此在应用中如何设计降低独立性假设的Bayes分类算法是值得研究的问题。

决策树从某种意义上来说相对于是对原决策表规则集的一个树型表示，创建一个规则对应其中的每个叶子结点，而每个分割都成为一条规则中的一个条件，所以只要采用某种搜索规则对生成的决策树进行搜索，就可以得到一个规则集。决策树归纳学习算法中ID3算法通过对一个样例集使用属性信息熵增益进行学习生成一棵判定树[4]。从根结点开始，在每个结点处选择一个属性C，需要检查每个记录上对应于C的属性值计算剩余熵，时间复杂度和决策树中叶结点的最大数目、属性个数和属性最大可能的属性值个数相关，基于剩余熵的属性排序策略使生成的决策树越小越好在ID3算法中得到应用。

定义1 如果根据一个属性把一个元素集T划分为不相交子集合C1，C2，…，Ck，那么Info(T）=I(P）是识别T中元素的类属所需要的信息，其中P是划分(C1，C2，…，Ck）的概率分布

定义2 如果先依据非分类属性X将T划分成互不相交的子树T1，T2，…，Tn，那么识别Ti中元素的类属所需要的信息的权平均就成为T中元素的类属所需要的信息。权平均表示为：

定义3 属性X信息墒增益Gain(X，T）为识别T中元素的类属所需要的信息与获取属性X值后识别T中元素的类属所需要的信息之差，记为：

ID3算法以属性的信息墒增益进行决策树新结点的构造，采用递归的方法对全部候选属性进行比较，构建决策树的过程中，选择从根结点到当前结点未被选择而且属性信息墒增益最大的结点作为新结。这种决策树中规则相对于粗糙集算法生成的规则来说，由于搜索和匹配路径的唯一性，算法效率较高，但渐近式学习的问题成为这一算法在应用中的问题之一。

3 总结

首先讨论了入侵检测作为一种快速发展的动态网络安全技术，提出了把机器学习算法应用在入侵检测中进行分类，是把入侵检测对应成一个模式识别问题来进行处理的；然后主要详细讨论和分析了Bayes网络的学习和贝叶斯分类算法以及决策树学习算法作为分类器的基本原理，为后继的研究进一步把机器学习方法更好地应用在入侵检测中做了一定的前期准备工作。

[1]张义荣，肖顺平，鲜明，等.基于机器学习的入侵检测技术概述[J].计算机工程与应用，2006，（2）∶7-10.

[2]杨善林，倪志伟.机器学习与智能决策支持系统[M].北京∶科学出版社，2004.

[3]朱芳芳，李志华，王士同.改进的WSVM入侵检测方法[J].计算机仿真，2008，（11）：157-159.

[4]董琳，邱泉，于晓峰，等.数据挖掘实用机器学习技术[M].北京∶机械工业出版社，2006.

A RESEARCH OF INTRUSION DETECTION METHOD BASED ON MACHINE LEARNING

WANG Shi-yi
（School of Information Engineering，Chaohu College，Chaohu Anhui 238000）

Intrusion detection is a kind of dynamic network security technology which has developed quickly in recent years.Appling the machine learning methods to the intrusion detection is a way of treating it as a pattern recognition and classification problem to deal with.Therefore，discussing the principles of classification of several machine learning methods can provide relevant ideas and methods for the following application of machine learning algorithm to the intrusion detection.

network security；machine learning；intrusion detection

TP393

1672-2868（2015）06-0025-03

责任编辑：陈侃

2015-07-11

安徽省高校省级自然科学研究项目(项目编号：KJ2012Z266）；安徽省省级教学研究项目(项目编号：2014jyxm331）；巢湖学院博士科研启动基金资助项目

汪世义(1974-），男，安徽桐城人。巢湖学院信息工程学院，副教授，博士。研究方向：模式识别与智能计算。