网络入侵识别方法比较研究

2012-08-10陈洪泉

舰船电子对抗 2012年6期

陈洪泉

（海军大连舰艇学院，大连116018）

0 引言

计算机网络安全已经越来越多地被人关注，作为网络安全的一个重要组成部分，入侵检测[1]受到越来越多的重视。目前的入侵检测模型可以分为2类：误用检测和异常检测，误用检测通过识别入侵特征来检测入侵，如参考文献[2]、[3]、[4]。误用检测能够较为准确地检测出已知模式的入侵，但在检测未知入侵方面则无能为力。而异常检测则基于对正常数据的建模，通过实际数据对正常轮廓的偏离来识别异常，它能检测出未知入侵，但不能准确识别出是何种入侵，且具有一定的误报率，异常检测例子为参考文献[5]和[6]。入侵识别需要综合异常检测和误用检测的优点，通过异常检测来确定检测样本是否为异常数据，并通过误用检测技术来识别出该样本对应的入侵类别。

目前，基于机器学习和数据挖掘的入侵识别方法成为研究的热点，其中较为关键的一步是特征的选取，特征选取的方法主要集中在特征选择和特征提取。目前公开的文献主要集中在单独利用特征选择方法或特征提取方法来进行入侵识别，并没有对基于2种特征选取方法的识别效果进行比较分析。本文利用同样的训练样本集和检验样本集对基于信息增益特征选择的识别方法和基于主成分分析（PCA）特征提取的识别方法的识别效果进行比较分析，为入侵识别的进一步研究提供借鉴。

1 入侵识别方法

1.1 基于信息增益（IG）的特征选择方法

信息熵是信息不纯度的最佳评估方法，信息增益则是指信息熵的有效减少量。设特征A具有v个不同值｛a1，a2，…，av｝，训练样本被划分为n类，S为训练集中样本的总数，可以用特征A把样本S分成v 个子集｛S1，S2，…，Sv｝。其中，Sj包含S 中的这样一些样本，它们在A上具有值aj。设Sij是子集Sj中类为Ci（i＝1，2，…，n）的记录个数。那么，这时根据A划分成子集的熵或期望信息为：

熵值越小，子集划分的纯度越高。对于给定的子集Sj，有：

在A上将获得的信息增益是：

1.2 基于主成分分析（PCA）的特征提取方法

主成分分析方法能够较好地处理高维数据，使得低维数据能够在平方和最小的意义下描述高维原始数据，它利用输入样本点空间的主成分元素，归纳和提取其中的结构信息，从而最终实现降维。给定样本x1，x2，…，xn，每个样本为m 维向量，则数据集合可以表示为矩阵Xn×m：

通过计算样本协方差矩阵C的特征值和特征向量，依次选择最大特征值对应的k个特征向量，就可以得到m×k的矩阵U，其列为k个特征向量，原始数据就可以通过公式：

向k维特征子空间投影得到，从而达到了降维的目的。

1.3 入侵识别的基本步骤

使用50近邻的KNN算法来以离群点检测的方式进行入侵识别。识别的基本步骤为：

（1）特征生成，将待识别数据通过IG特征选择或PCA转换到新的数据表示空间。

（2）异常检测，用KNN方法判断该样本是否为normal类数据，区分其正常或异常性。

（3）误用检测，对于非normal类的样本，通过KNN方法判断其是否为具体的各种入侵样式，此为具体的识别阶段。

注意在基于PCA的识别方法中，在判断其是否为各类数据时，待检测样本需要分别向相关类的特征空间进行投影。

2 实验结果比较与分析

2.1 数据集

本文采用MIT林肯实验室的KDD99数据集进行测试，此数据集为入侵检测的标准数据集，已经被广泛地应用到入侵检测方法的评估中。数据包括41个特征，其中34个为数值特征，7个为符号特征。

2.2 入侵识别结果

为计算简便，在特征选择中，选择了信息增益不为零的特征作为新的特征集合；在PCA特征提取中，选择了大于零的特征值对应的特征向量作为新的特征空间。在KDD99的训练样本集中抽取出normal类数据1 000条、ipsweep类数据300条、portsweep类数据300条、satan类数据300条、smurf类数据800条、back类数据500条来作为训练用数据样本。测试数据集共4 172条，其中包括normal类1 000条、back类500条、ipsweep类306条、portsweep类354条、satan类500条、smurf类1 000条、neptune类500条、teardrop类12条。在选定新的特征空间后，使用weka工具对检验样本进行入侵识别后的接收机操作特征（ROC）曲线绘制见图1～图6。

从实验结果可以看出，基于信息增益的特征选择方法在入侵识别方面较之PCA方法具有明显的优势，且由于其计算量大大低于基于PCA的识别方法，因此更适合于对KDD99数据集合的入侵识别。在试验中也发现，PCA在阈值较小时即可达到较高的检测率，但同时具有较高的虚警率，其对各类数据的区分性并不好，该识别结果同文献[7]中得到的结果并不十分符合，值得进一步研究。

3 结束语

图1 Normal类样本识别ROC曲线

图2 back类样本识别ROC曲线

图3 ipsweep类样本识别ROC曲线

图4 portsweep类样本识别ROC曲线

总而言之，通过分析比较发现：基于信息增益的特征选择方法在检测率和虚警率方面有较好的表现，较之直接使用PCA特征提取的入侵识别方法在KDD99的各类数据之间具有更好的区分性能，在各类入侵的检测识别中，均能够达到检测率96%以上且虚警率保持在0.5%以下的较好效果，下一步的主要工作是利用多种入侵识别方法进一步比较特征选择和提取在KDD99数据集上的识别性能。

图5 satan类样本识别ROC曲线

图6 smurf类样本识别ROC曲线

[1]Denning D E.An intrusion detection model[J].IEEE Transaction on Software Engineering，1987，13（2）：222－232.

[2]Kumar S，Spafford E H.A Software architecture to support misuse intrusion detection[A].Proceedings of The 18th National Information Security Conference[C]，1995：194－204.

[3]Ilgun K，Kemmerer R A，Porras P A.State transition analysis：a rule－based intrusion detection approach[J].IEEE Transactions on Software Engineering，1995，21（3）：181－199.

[4]Caswell Beale J.Snort 2.1Intrusion Detection[M].Waltham：Syngress publishing Inc，2004.

[5]Lunt T，Tamaru A，Gilham F，et al.A Real－time Intrusion Detection Expert System （IDES）[R].California：Computer Science Laboratory，SRI International，1992.

[6]Porras P A，Neumann P G.ERALD：Eventmon－itoring enabling responses to anomalous live disturbances[A].Proceedings of National Information Systems Security Conference[C].Bal－timore MD，1997.

[7]Wei Wang，Roberto Battiti.Identifying intrusions in computer networks with principal component analys[A].Proceedings of The First International Conference on Availiability Reliability and Security[C]，2006：270－277.