机器学习算法在网络入侵检测系统中的应用

2019-04-04普华迅光北京科技有限公司

数学大世界 2019年4期

普华迅光北京科技有限公司杨宁

一、基于机器学习算法的网络入侵检测系统

以机器学习为基础的入侵检测系统的组成主要是：模块的捕捉、处理数据以及机器学习，其中系统运行的核心便是机器学习这一模块。监测以及验证网络工作的状态的模块是网络数据捕捉，该模块的主要功能便是截获处在传输控制协议模型中各个协议层次上的数据，而实现网络入侵监测的基础也在于此。该部分主要利用数据包的嗅探来实现其功能。数据的预先处理部分是对网络数据包中的数据进行更进一步的分析处理，其中包括解码数据包的数据，以实现重复数据以及错误数据的过滤，并将该过程所产生的特征值作为机器学习部分的输入值输入。入侵检测系统的核心便是机器学习，通过针对性的实现，以保证其功能的实现。基于机器学算法的入侵检测系统如图1 所示。

图1 入侵检测系统结构

机器学习理论自提出以来，尤其是近些年来，机器学习这一技术发展势头正猛。该理论常用到的技术主要是人工神经网络技术、决策树、贝叶斯以及规则性学习和遗传算法等等。机器学习在入侵检测系统中的应用，用到更多的主要是领域和经验知识，在系统中主要采用的技术有遗传算法、决策树和神经网络以及贝叶斯这四种。

二、基于机器学习算法的网络入侵检测技术支持

1．决策树

该算法主要是通过将实例从根节处排列到该树上的某一个节点来分类，所谓叶子的节点便是所用到的实例的分类。而树上各个节点则规定了各个特征的测试，而且每个节点后续的分支都与该特征的可能值一一对应。分类实例这种方法的起点是该树的节点，通过该节点指定属性的测试，接着根据给定的具体属性值移动，然后在这个过程中以新的节点为根重复上述操作。Quinlan 在1986 年发明了ID3 算法，该算法在决策树方法中堪称最为经典的一种算法。不过因为这种算法解决的问题有一定的局限性，仅仅能够做到离散型数据问题的解决，这远远达不到解决入侵检测问题的程度。不过在1993 年，Quinlan所提出的C4.5 算法对于这种算法来讲是一种延续，该算法不仅仅涵盖了ID3 算法的各种优点，即解决离散型数据的问题，还能够等价划分数据属性的取值集合。在对被划分在一个类别里的属性进行判断之后，走向同一分支。在完成决策树的构造之后，把各种入侵情况列出，可省略合理的叶节点。将决策树写成诸如“if…then”等语句则是决策树的规则化处理。因为占到入侵数据大部分的是离散值，这便有助于其决策树的构造，接着可以通过属性的比对实现入侵行为的准确判断。

2．贝叶斯理论

该理论的原理是通过概率进行推理，而贝叶斯理论对于机器学习来讲至关重要，这一理论给许多假设的置信程度提供了可行的方法，是许多算法学习的基础。这种理论的算法是通过变量之间的概率关系而建立的模型，也就是说该算法能够解决入侵检测系统中许多难以确定的问题。贝叶斯网络能够统计异常的检测，研究人员应尤其注意该方法在入侵检测中的应用。贝叶斯分类是极为高效的一种机器学习算法，其会将极有可能入侵的行为列入序列，而且还能根据已知序列检测疑似入侵序列。贝叶斯是一种高效的处理庞大数据的方法，该方法能将确定入侵的事件检测出来，还能够将有潜在入侵风险的事件检测出来，而且能够学习以及鉴别新的入侵行为，通过概率进行分类，而不是简单归类。

3．神经网络

所谓神经网络，是通过人脑的模拟加工、处理存储信息的机制而制定出的一种智能化的处理技术。其组成单位是大量简单单元。这些简单的处理单元会互相连接形成复杂的网络结构。函数的映射权值决定着神经元的输入输出过程。一般神经网络的处理过程主要是神经网络模型的建立以及训练、去除冗杂的网络等阶段。入侵检测系统这一网络的应用能够通过大量简单单位的组合连接实现全职的学习修改，能够在一组数据输入之后，实现数据输出的预测。

该神经网络的学习算法有误差补偿的原则，在神经网络输出的结果出现差错时，能够通过阈值以及权重的调整实现误差的补偿。神经网络的基本结构由节点的学习算法以及拓扑结构组成。系统能够通过神经系统的学习算法记住合法用户的基本特点，以便于在用户输入时根据其特征进行分类辨别，如果出现系统未记录的用户的行为，则会认定该行为为异常行为。比如合法用户可以通过留下自己的特征（如：指纹、签名）使用系统，如果入侵者使用用户信息登录时，系统会通过指纹的比对查找入侵者。因为用户在登录时，其行为特征不易记忆，为了避免用户忘记自己行为数据的尴尬，神经网络会将用户行为转变成输入变量，通过神经网络的输出，能够找出输出和输入之间的关系，以实现用户身份的认定。不过该神经网络系统也存在着诸如系统结构不稳定、学习时间过久等弊端。

4．遗传算法

该方法也被称为基因算法，是基于自然选择的优化搜索方法。该方法的思想基础是达尔文的进化论和孟德尔的遗传学说。这种算法会把待解决的方法编码为基因，而编码数列被称为染色体。这种算法的执行过程为编码、构造适应的函数以及随机选择变异或者交叉的方式产生新的解决方法。在最有个体的适应度不再继续上升时，算法结束。否则则用辨析、选择等得到的新个体取代最初的个体，再进行循环操作。

三、基于机器学习算法的网络入侵检测模型

以机器学习为基础的入侵检测示意图如图2 所示：

图2 以机器学习为基础的入侵检测系统的指示框架

首先是对已收集的网络上的调查数据进行预分析处理，根据网络数据的特征进行选取，以助于将有着正常和非正常区分开来的重要信息特点送进学习机器里进行规范化的学习，而分类机器便是学习输出机。接着通过数据集的测试对分类机器进行评估测试，以得到入侵检测系统各个性能指标，在各项规定的指标都满足的情况下，入侵检测系统则可以运行。如果入侵检测系统不符合指标要求，那么则应重新进行部分计算以及特征选取，直至各项性能指标满足要求。

在采集数据以及预处理数据时，要注意对网络状态的监视与验证，并且取每个协议层的数据进行进一步的分析处理，以便得到所需的特征值。在选取特征以及模块构造过程中，也就是将选取的模块构造以及特征值和特征值进行比对分析，如果行为被判断为入侵性行为，那么就将该行为输入分类机器里去，否则将其送入机器学习模块进行处理，再进一步判断其是否有入侵性行为，接着再对结果处理。所谓机器学习这一部分是通过系统的训练提高机器的学习能力，以便应付入侵，在这一模块的训练之后，其检测能力会得到一定程度的提升，对于不正常的攻击，其判断也会更精确。

入侵检测这种技术是一种计算机主动出击来使自己免受伤害的网络安全技术，随着计算机以及网络的进步，这一系统的缺陷更加彰显。笔者在这里针对其不足之处，创造性地提出了机器学习理论的应用。尽管现在以机器学习为基础的入侵检测系统的研究已获得了不少进展，但是在很多地方还是存在着较多问题亟待解决。基于上述阐述，以机器学习为基础的入侵检测系统通过及时更新知识储备、进一步提升系统的适应能力以及自主学习能力来应付复杂状况，不过每种机器学习方法都有着自己的不足之处，为了保证入侵检测系统性能的进一步提高，可以通过将多种机器学习方式整合的方法，保证各种机器学习都能够充分发挥自己的所长，使入侵检测系统的功能更加完善。