基于增量式决策树算法在入侵检测中的研究
2023-06-25张军刘亚茹
张军 刘亚茹
摘要:为了更好地提高入侵检测的准确率,节省检测时间,文章提出了一种基于增量式的决策树检测算法。该方法采用了基于粒度决策熵和改进的主成分分析方法对数据集中的冗余以及不相关属性进行归类、降维。该方法将数据挖掘增量学习技术与决策树分类算法相结合,在属性降维后的决策树基础上,对于新的测试样本实例,引入扩展贝叶斯结点,比较贝叶斯分类方法与决策树分类方法的准确率,返回更新后的决策树。针对属性降维,主成分分析方法在约简属性的基础上,能够有攻击分类结果准确率高、耗时少的特点。将增量式决策树算法与贝叶斯算法、ID3算法进行对比,发现在检测精确率、检测效率的指标下,增量式决策树算法在一定程度上优于其他算法,并且误报率有效降低。
关键词:粒度决策熵;贝叶斯算法;增量学习;入侵检测
中图分类号:TP3文献标志码:A0引言 随着互联网快速发展,数据泄露、病毒肆虐等问题对社会发展产生了极大的危害。如何设计一套安全访问资源和数据的系统,是当前网络安全领域的一个十分重要而迫切的问题[1]。入侵检测系统能积极主动防御外部入侵,而被广泛应用到网络安全领域[2]。
针对入侵检测导致的网络安全事件。李军豪等[3]提出了多通道高速数据安全传输方法,利用FPGA配合高速串行收发器实现四路通道的高速数据安全传输。但由于该方法稳定性较差,不能保证涉密信息在网络传输中的机密性。邢璐等[4]提出了改进UDT協议的传输方法。通过分析带宽下的UDT传输瓶颈、优化系统参数、增强UDT可靠性和减少系统调用代价等方式实现数据传输,而该方法没有分类,导致传输效率过低、完整性差。
在已有入侵检测技术中,决策树分类算法模型简单,能有效对入侵检测数据分类,但有新的样本数据时,在构造决策树模型的过程中需要对网络连接数据集进行多次顺序扫描和排序[4],导致检测效率低,为此引入增量式决策树算法,对已学习到的知识库进行更新、纠正,不用重新对数据进行学习,提高入侵检测的效率。本文所做工作如下:(1)在初始决策树的基础上,对自顶向下构造决策树算法进行优化,在叶子结点处插入贝叶斯结点,比较贝叶斯分类方法和决策树分类方法的准确率,更新修正决策树模型。(2)对于数据集中连续属性需离散化问题,本文采用无监督离散化算法Equal-width Binning方法离散化连续属性。(3)对于传统决策树算法ID3和C4.5得到的决策树子树重复、属性存在大量冗余的问题,本文通过引入粒度决策熵和主成分分析法来选择分裂属性,降低数据集合的数量级和数据量[5]。实验结果表明,模型的入侵检测效率性、机密性、完整性相比目前的研究方法都有很大的提高。
1增量式决策树算法模型
1.1决策树归纳算法
1.2贝叶斯算法原理
1.3增量式决策树算法描述网络入侵检测分为两种,一种是将数据信息与数据库中已有的入侵行为对照匹配规则检测,若匹配成功则判定为入侵行为。另一种是数据库中无数据信息的入侵行为,则需要使用贝叶斯结点将数据信息插入数据库。
贝叶斯结点:设一个样本数据集的决策树的某个结点A,对新的到达A结点的样本数据进行朴素贝叶斯分类,A称为贝叶斯结点。
贝叶斯参数:决策树的某个结点属性空间D和分类情况称为贝叶斯参数。
贝叶斯结点插入决策树的叶子节点上的思路是对于新的数据样本到达决策树叶子节点P,通过设置flag,当需要对P插入贝叶斯结点时,才将P改为贝叶斯结点。即只有部分叶子结点是贝叶斯结点。
1.4增量式决策树算法实验使用UCI数据库中部分数据集对算法进行实验测试,选择的对比算法是扩展前贝叶斯分类器的增量式决策树算法、ID3算法和贝叶斯分类算法,针对3种算法的准确率和耗时指标,分别从非增量和增量两种情况进行比较分析,测试两者的分类效果。
从表1看出,实验硬件配置为Core(TM)i5-8250U,使用的软件开发平台为Eclipse4.2,JDK版本为1.8。实验软硬件环境符合实验要求。
从表2中UCI数据集信息看出,Letter数据集的样本规模最大,达到20 500;Banding数据集的样本规模最小为146。数据集Soybean的样本属性个数最多为41个;Monk1的样本属性个数最少为9个。在6个数据集中,Banding,Crx,Monk1,Vote数据集归为类别2。Letter,Soybean归为其他类别。
3种算法在非增量的情况下准确率和耗时结果如表3所示。从表3看出,在非增量情况下,增量式决策树算法的分类准确率比ID3算法提高了3.75%,比贝叶斯算法提高了8.64%,说明增量式决策树算法在分类准确率方面优于ID3和贝叶斯算法。
使用同样的数据集,在增量学习的情况下,比较两种算法的效果如表4所示。
从表4看出,在增量情况下,增量式决策树算法的分类准确率比ID3算法提高了2.65%。可以发现增量式决策树算法的不足,算法的开销比ID3算法和贝叶斯算法较大,这是因为算法主要集中对叶子结点进行贝叶斯分类学习,所以会有一定的时间花费。
2结语针对在入侵检测重复计算效率低下的问题,本文提出了增量式决策树归纳算法。首先,针对属性冗余问题,通过粒度决策熵和主成分分析法对属性精简和降维。其次,在构造决策树中引入扩展贝叶斯结点,在一定程度上可以避免重复计算的问题。通过贝叶斯算法、朴素贝叶斯算法和增量式决策树算法在正确率、精确率、召回率3个方面进行比对,发现增量式决策树算法比其他算法提高了10%。本文实验部署在基于Windows的电脑上,结果表明使用增量式决策树算法能够在较短的时间内有效甄别入侵检测。虽然本方案能够在一定程度上有效识别入侵检测,但是随着现在技术更新发展,入侵检测的防范技术会不断更新,只使用一种算法很难做到有效地分类识别,所以需要做进一步的改进,以扩大本方案的适用范围。
參考文献
[1]蒋建春,马恒太,任党恩,等.网络安全入侵检测:研究综述[J].软件学报,2000(11):1460-1466.
[2]李贝贝,宋佳芮,杜卿芸,等.DRL-IDS:基于深度强化学习的工业物联网入侵检测系统[J].计算机科学,2021(7):47-54.
[3]李君豪,毕丽霞,王永利.多通道高速数据安全传输系统的设计与实现[J].电子技术应用,2018(9):125-128.
[4]邢璐,严明,吴承荣.高速网络环境中适合大数据传输的改进UDT协议[J].计算机应用与软件,2018(6):138-145.
[5]张昊,张小雨,张振友,等.基于深度学习的入侵检测模型综述[J].计算机工程与应用,2022(6):17-28.
[6]解滨,董新玉,梁皓伟.基于三支动态阈值K-means聚类的入侵检测算法[J].郑州大学学报(理学版),2020(2):64-70.
[7]OGHENEOVO E,NLERUM P.Iterative Dichotomizer 3(ID3) Decision Tree:A Machine Learning Algorithm for Data Classification and Predictive Analysis[J].International Journal of Advanced Engineering Research and Science,2020(4):514-521.
(编辑王 永超)
Research on intrusion detection based on invremental decision tree algorithm Zhang Jun, Liu Yaru
(Henan Vocational College of Water Conservancy and Environment, Zhengzhou 450008, China)Abstract: In order to improve the accuracy of intrusion detection and save detection time, an incremental decision tree detection algorithm is proposed. This method adapts attribute reduction algorithm based on granularity decision entropy to classify redundant and irrelevant attributes in data set.Then the paper combines incremental learning technology of data mining with decision tree classification algorithm. On the basis of initial decision tree, Bayesian nodes are introduced to compare the accuracy of Bayesian classification method and decision tree classification method, and the updated decision tree is returned. For attribute reduction, the granular decision entropy algorithm can ensure high accuracy and recall on the basis of reducing attribute. Compared with Bayes algorithm and ID3 algorithm, it is found that the incremental decision tree algorithm is better than other algorithms in detection accuracy and detection efficiency, and the false alarm rate is significantly reduced.
Key words: granular decision entropy; Bayesian algorithm; incremental learning; intrusion detection