APP下载

集成异种分类器在数据流入侵检测中的应用

2018-09-10陈猛洪伟

河南科技 2018年29期
关键词:数据流入侵检测

陈猛 洪伟

摘 要:本文提出了一种集成异种分类器的数据流入侵检测模型EDKCDS(Ensemble of Different Kind of Classifiers on Data Stream),目的是在适应概念漂移的前提下,利用多个时间段的数据学习生成异种分类器,并集成各个异种分类器,检测入侵行为,使其能达到目标类召回率和精度的平衡,并且能取得较高的分类准确率。

关键词:入侵检测;组合分类器;数据流

中图分类号:TP393.08文献标识码:A文章编号:1003-5168(2018)29-0021-02

Abstract: This paper proposed a new integration approach, called EDKCDS (Ensemble of Different Kind of Classifiers on Data Stream). The purpose is to generate heterogeneous classifiers based on multi-time data learning and integrate heterogeneous classifiers to detect intrusion behavior under the premise of adapting to conceptual drift. It can achieve a balance between recall and accuracy of target class, and achieve higher classification accuracy.

Keywords: intrusion detection;ensemble;data stream

1 研究背景

当今社会已进入网络时代,如何保障计算机系统的安全是尤为突出的问题。入侵检测技术能保护系统免受攻击,也能把给定数据分为正常数据和异常数据,其本质上是一个分类问题。

集成学习方法利用多个弱分类器的组合来改善算法的分类性能,同时数据流环境又有其特点,如在信用卡事务流等类似的应用中,连续产生出海量的数据,并且数据的分布会随着时间的更迭而发生变化(概念漂移[1])。如何在海量数据流中选择出充分的数据并训练出分类模型以进行有效预测,正是数据流入侵检测所要解决的难点。

本文提出一种集成异种分类器的数据流入侵检测模型EDKCDS,该模型首先利用数据流中不同时间段的训练样本构造不同类型的分类器(称为基分类器)。当对数据进行分类预测时,EDKCDS取各个基分类器的预测结果加权投票,根据表决的结果进行分类,从而发现异常数据。

2 入侵检测的性能评价

在入侵检测问题中,一般称攻击类为目标类,正常类为非目标类。评估标准可使用召回率(recall)、精度(precision)。定义如下:

3 分类方法

3.1 决策树分类

决策树采用自顶向下的分治方法构造。随着树的构造,数据集集合空间被分割成两个或多个块。在树结构模型中,每个叶子节点代表一个类,而由根节点到一个叶节点的路径则构成一类分类规则。决策树分类模型被广泛应用在数据挖掘和机器学习等领域。本文构造基分类器用的是C4.5算法。

3.2 朴素贝叶斯分类方法

贝叶斯分类是利用统计学知识进行分类的方法。由贝叶斯公式可知,可以利用先验概率(Prior Probability)来计算后验概率(Posterior Probability),而后验概率能提供更多的信息,可以作为分类的标准。在本文中,笔者利用朴素贝叶斯算法构造基本分类器,其假定一个属性值对给定类的影响独立于其他属性的值,这个假定称作类条件独立。

3.3 K-最临近分类

K-最临近分类用n维数值属性描述一个训练样本,对应n维空间中一个点。当要分类一个未知样本时,该算法会在n维空间中找出最接近未知样本的K个训练样本,也称为K个“近邻”,根据这K个最“近邻”进行分类。K-最临近分类是基于类比学习的分类方法,也是一种懒散的学习法。

3.4 神经网络分类

神经网络模型包括输入层、隐藏层、输出层。每一层由若干单元组成,网络的输入对应元组的属性,每个连接都与一个权值相关联。在本文中,笔者使用后向传播算法在神经网络上进行学习构造,迭代地得到一组权重用于元组类标号预测。

3.5 基于eEP的分类方法

在基于显露模式的分类方法中,EP是一个项集,其支持度从类A(B)到类B(A)显著地增加,因此具有很好的区分能力。给定支持度和增长率阈值,基于EP的分类方法挖掘满足支持度和增长率阈值的EP。若要对数据S进行分类,基于EP的分类方法会聚合S中的[Ci]类EP的区分能力,计算出S属于[Ci]类的得分,根据得分高低预测S类别。本文构建基分类器采用的基于eEP的分类算法是对CAEP的改进算法CEEP[2]。

4 算法基本思想

由于数据流是不断流入的,不可能存储所有的数据来建立模型,而是考虑使用距离最近的[SW]个窗口的数据,为此引入了滑动窗口的机制:假设BW是一个基本窗口,对应一个数据流子序列;SW是一个滑动窗口,对应一个连续的基本窗口序列,表示为SW=bw1,…,bwi,…,bwk,在基本窗口bwi训练得到對应的基分类器为Ci。

本文提出的集成异种分类器的数据流入侵检测模型EDKCDS(Ensemble of Different Kind of Classifiers on Data Stream)在滑动窗口SW内训练5个基分类器的集合E。假设初始时,EDKCDS分别使用决策树(C4.5)、朴素Bayes(NB)、最近邻(k-NN)、后向传播(BP)和eEP构造分类器C1…C5。当滑动到第K+1个基本窗口时,先让每个基分类器Ci独立地作出预测,然后,根据基分类器Ci的F-度量计算其权重,将权重最小的基分类器Ci移出集合E,在基本窗口K+1上按照Cl的算法学习得到分类器CK+1,加入集合E,以E中基分类器加权表决的方式确定待分类样本所属的类。算法如下:

EDKCDS( D, E) //  其中D:bwK+1的数据;E:基分类器集合。方法如下:

①对基本窗口BW1,BW2,BW3,BW4,BW5分别按照C4.5、NB、k-NN、BP、eEP构造基分类器C1、C2、C3、[Us]、R0。

②while (bwK+1数据到达) {

③for (Ci∈E ) { 计算Ci在[Tn2]上的F-度量;//公式(3)

计算[Ci]对应权重[wi];}

④将权重最小的基分类器[Cl]移出集合E;

⑤在D上按照[Cl]的算法学习得到分类器[CK+1],加入集合E;

[Ci]权重[wi]用式(4)计算:

5 结语

本文提出一种集成异种分类器的数据流入侵检测模型EDKCDS(Ensemble of Different Kind of Classifiers on Data Stream)。该模型利用多个时间段的数据学习生成异种分类器,并集成各个异种分类器,检测入侵行为。入侵检测是现在应用领域多、研究比较热的方向,如何找到更好的方法在海量数据流上快速分析检测是一个值得研究的问题。

参考文献:

[1] Widmer G, Kubat M. Learning in the Presence of Concept Drift and Hidden Contexts[J]. Machine Learning,1996(1):69-101.

[2]范明,刘孟旭,赵红领.一种基于基本显露模式的分类算法[J].计算机科学,2004(11):213-216.

猜你喜欢

数据流入侵检测
优先级驱动的泛化航电网络实时性能分析
数据流和波形诊断技术在发动机故障诊断中的应用
数据流安全查询技术综述
多Agent的创新网络入侵检测方法仿真研究
基于入侵检测的数据流挖掘和识别技术应用
艺术类院校高效存储系统的设计
发动机高压共轨电控系统的故障码分析
利用数据流进行电控故障诊断的案例分析
基于关联规则的计算机入侵检测方法
基于Φ—OTDR的分布式入侵检测系统的应用综述