基于可视化图形特征的入侵检测方法
2017-01-13黄芝平刘纯武
陈 实,黄芝平,刘纯武
(国防科学技术大学机电工程与自动化学院,长沙 410073)
基于可视化图形特征的入侵检测方法
陈 实,黄芝平,刘纯武
(国防科学技术大学机电工程与自动化学院,长沙 410073)
入侵检测是保障网络安全的重要措施,网络攻击手段的多样性和隐蔽性不断增强导致入侵检测愈加困难,迫切需要研究新的入侵检测方法;结合可视化技术和k近邻分类算法,提出一种基于图形特征的入侵检测方法;采用信息增益方法对原始特征进行排序选择,并进行雷达图可视化表示,提取雷达图的图形特征构成新的数据集并送入k近邻分类器进行训练和测试;通过KDDCUP99数据集仿真实验表明,该方法不仅能直观显示攻击行为,而且获得较好的攻击检测性能,对DOS攻击的检测率可达97.9%,误报率为1.5%。
入侵检测;雷达图;图形特征;可视化
0 引言
随着计算机网络的高速发展,网络安全问题也显得越加突出。虽然许多网络安全技术已经被运用于提高网络的安全水平,比如防火墙技术、防病毒软件、安全扫描技术等,但仍有一些安全问题未能解决,所以从上世纪八十年代开始,许多研究人员致力于研究一种新的安全系统——入侵检测系统(IDS)[1]。为了提高入侵检测的准确性和稳定性,模式识别的方法被广泛地应用于入侵检测系统,比如模糊逻辑方法[2]、支持向量机[3]、人工神经网络[4]、贝叶斯网络[5]等。将模式识别引入到入侵检测系统中,不但能够对已知的入侵进行检测,而且能够检测未知的攻击行为,极大地提高了入侵检测系统的实时性和有效性。这些典型的模式识别方法中,特征通常包括物理特征、统计特征和结构特征。本文中,我们使用图形特征来描述模式识别中的数据。
另外,多维数据的可视化技术随着大数据时代的带来越来越显得重要。目前,在模式识别领域主要形成了星座图、散点图、平行坐标系、雷达图等绘制高维数据的可视化表示方法[6]。通常,可视化图形特征表示和分析方法主要有两方面的优势[7]:1)可以将高维特征数据变换为简单有效的2D或3D图形化特征数据;2)提供一种直观且易于理解的方式来直接分析数据集中的有效信息。其中,雷达图常常被用于分析经济、银行利率、企业风险等。而在模式识别领域,雷达图被用于表示数据,并取得了一系列成果[8-10]。因此,本文基于雷达图表示原理,结合可视化技术和k近邻(k-Nearest Neighbor,k-NN)分类算法,提出一种基于可视化图形特征的入侵检测方法,并通过仿真实验对算法有效性和可行性进行验证。
1 多维数据雷达图表示原理与图形特征提取
1.1 多维数据的雷达图绘制
雷达图表示法是一种表达多维空间中数据点的几何投影方法[11]。假设多维数据集D={D1,D2,…,Di,…,Dn}中的数据Di为一个N维向量,即Di=(di1,di2,…,diN),N≥3,则雷达图的几何作图方法如下:
1)先作一个单位圆,圆心代表0,圆周代表1;
2)将圆周2π弧度等分为N个部分,并画出这N个半径,相邻半径之间的角度用弧度ωi=2π/N(i=1,2,…,N)来表示,这N个半径就作为N个变量的坐标轴;
3)将第i个样本的归一化特征D′i的N维变量值d′i1,d′i2,…,d′iN依次画在N个均匀刻度的半径上;
4)将所有半径上的N维变量值所产生的点依次连接起来得到一个N边形,这样就产生了一个样本的雷达图。n个样本数据能够产生n个N边形。
1.2 雷达图特征提取
雷达图围成了二维平面里的一个封闭的不规则多边形。明显的一个结构特征就是有多个三角形组成的多边形,每个三角形都是由相邻变量组成。还有一个明显的视觉特征就是多边形的面积和重心,此外,三角形还有很多特殊点,如垂心、内心、外心等,以及雷达图圆心到各点的幅值都可以作为图形特征。
在入侵检测系统中,所获得的数据集的维数比较高,若采用各个三角形的面积或重心来形成新的特征数据,那么新数据的维数并没有降低。为了达到数据降维、降低算法计算量的目的,本文选取新数据的平均值¯di、雷达图中多边形的总面积S以及周长L构成新的特征数据集,从而将维数降为3维。其中,多边形的面积和周长可由式(1)和(2)求出。
2 基于雷达图特征的入侵检测模型
本文提出的入侵检测模型如图1所示。主要包括数据预处理、特征排序、雷达图特征提取、训练和测试等阶段。
图1 基于雷达图特征的入侵检测模型
2.1 数据集
本文实验采用的数据集是目前入侵检测领域比较权威的数据集KDDCUP99(下载于Http://kdd.ics.uci.edu/databases/kddcup99)。完整的KDDCUP99数据集含有大概包含5,000,000多个网络连接记录,每条数据具有41个特征属性和一个决策属性。考虑到实验的便利性,本文只采用一个10%的子集——kddcup.data_10_percent,该子集包含494,021个样本。除了标记为正常(Normal)的样本外,该子集还包括4类攻击样本:拒绝服务攻击(DOS);远程用户未授权访问攻击(U2R);未授权使用本地超级权限访问攻击(U2L);扫描攻击(Probe)。
2.2 数据预处理
在进行图形特征提取之前,需要对原始数据集进行预处理。首先将10%KDDcup99数据集中的大量冗余重复的样本删除,得到只有145,585个样本的子集,但该子集中仍含有87,832个正常样本和54,572个DOS样本,为了减少实验时间,本文分别随机选取10%的正常样本和DOS样本,而另外3种攻击样本保持不变。最后,用于实验的样本数量减少为17,421个,见表1所示。
表1 用于实验的各类样本的数量
因为10%KDDcup99数据集中各特征属性的取值范围各异,比如“logged in”只有0和1值,而“source bytes”的取值范围为0到693,375,640。为了消除属性之间的差异性对分类性能的影响,本文采用归一化方法对数据集的样本进行处理。首先将标称型的属性转换为数值型属性,即将每个标称型属性下的m个标称值依次转换为0,1,2,…,m的数值。然后根据式(3)将所有属性的值映射到区间[a,1]。
式中,a=0.2,1≤j≤N,n为样本数,N 为每个样本向量的维数。
2.3 特征排序
由于KDDcup99数据集含有41个特征属性,文献[11]对图形分类器分析研究发现:当所要研究的数据集维数在3~20维时,采用雷达图不仅可以确保在不丢信息的情况下对数据分类,而且可以提高分类精度。因此,在进行雷达图绘制前需要进行特征选择。本文通过衡量相对于分类的信息增益,来评估每个属性的价值,根据信息增益的大小对41个特征属性进行排序。然后选择前M个属性绘制雷达图,通过实验分析所获得最好分类性能的最佳M值。
若D为训练集,则信息熵:
式中,pi(i=1,2,…,m)为具有m个类别属性C在所有样本中出现的频率。假设用属性A来划分D中的数据,因为经过预处理后数据变成连续型数据,所以按属性A的取值递增排序,将每对相邻值的中点看作可能的分裂点,对每个分裂点,计算:
式中,|DL|和|DR|分别对应于该分裂点划分的左右两部分子集。则信息增益定义为按属性A划分数据集D的信息增益Gain(D,A)为样本集D的熵减去按属性A划分D后的样本子集的熵,即:
2.4 基于雷达图特征的k-NN分类器
基于特征排序结果,通过选取排序靠前的不同数量特征属性进行雷达图表示,然后提取雷达图特征构成新的数据集。在新的数据集上,采用k-NN分类算法对样本进行训练和测试,采用十折交叉试验对模型的性能进行评估和验证。
k-NN分类算法是一种理论上比较成熟的方法,也是最简单的机器学习算法之一。所谓k-NN算法,即是给定一个训练数据集,对新的输入样本,在训练数据集中找到与该样本最邻近的k个样本,这k个样本的多数属于某个类,则把该输入样本分类带着个类中。具体算法可参考文献[12]。
3 实验结果和分析
实验平台采用主频为2.90 GHz,内存为4 GB的计算机,操作系统为Window7,采用开源软件Weka进行实验仿真。实验中采用攻击检测率 (Detection Rate,DR)、误报率(False Positive Rate,FPR)来评估实验结果。
表2 基于信息增益的特征排序结果
表2给出了基于信息增益的特征属性排序结果,只给出了排在前25位的特征属性。限于篇幅,本文针对每种类型各选取一个样本进行25维特征的雷达图绘制,雷达图见图2。
从图2可看出,25维的特征数据可以在雷达图上围成一个封闭的不规则多边形,而且不同攻击类型雷达图差异明显。
基于表2的排序结果,分别选取不同数量的特征属性进行雷达图绘制,然后根据1.2节所述提取图形特征构成新的数据集,在新的数据集上采用k-NN算法进行十折交叉验证,所获得的结果见图3和图4。
从图3可以看出,该方法对DOS攻击的检测率能够保持在95%左右,对R2L和Probe攻击的检测率低于对DOS攻击的检测率,而且随着特征属性数量的增加而有所降低。同时,虽然对U2R攻击的检测率相对最低,这主要是因为U2R的样本数只有52个,只占到了总样本数的0.3%,但在属性数量为14个时,对U2R的检测率也达到了最大值(61.5%)。图4给出了不同特征属性数量下的误报率,在属性数量为14个时,4种攻击的误报率都低于1.5%。以上分析说明了,基于不同数量特征属性构成的雷达图特征会对攻击检测性能产生较大影响,选取的特征属性数量达到一定个数时,检测性能会降低。表3给出了在特征属性数量为14时的详细检测结果。
图2 正常和攻击样本雷达图
图3 不同数量特征属性情况下的攻击检测率
图4 不同数量特征属性情况下的误报率
表3 特征属性数量为14时的检测结果
4 结论
结合可视化技术与k-NN分类算法,提出了一种基于雷达图特征的入侵检测方法。通过该方法将高维数据维数降低为3维。从实验结果表明,雷达图不仅能够实现入侵数据的可视化显示,而且根据其提取的图形特征能够获得较好的攻击检测性能,其中对DOS攻击的检测率能够达到97.9%,四类攻击的误报率不高于1.4%。但是,本文只选取了数据平均值、多边形面积和周长作为新特征属性,其它图形特征未予考虑,是否存在其它更好的图形特征组合,有待于进一步研究。
[1]Liao H J,Lin C H R,Lin Y C,et al.Intrusion detection system:a comprehensive review[J].Journal of Network and Computer Applications,2013,36(1):16-24.
[2]Tajbakhsh A,Rahmati M,Mirzaei A.Intrusion detection using fuzzy association rules[J].Applied Soft Computing Journal,2009,9(2):462-469.
[3]康松林,周玖玖,李 琼.入侵检测中支持向量机参数选择方法[J].中国科技论文,2012,7(10):762-765.
[4]Fisch D,Hofmann A,Sick B.On the versatility of radial basis function neural networks:a case study in the field of intrusion detection [J].Information Sciences,2010,180(12):2421-2439.
[5]Baig Z A,Sait S M,Shaheen A.Gmdh-based networks for intelligent intrusion detection[J].Engineering Applications of Artificial Intelligence,2013,26(7):1731-1740.
[6]洪文学,王金甲,李 昕,等.可视化模式识别[M].北京:国防工业出版社,2014.
[7]Luo B,Xia J B.A novel intrusion detection system based on feature generation with visualization strategy[J].Expert Systems with Applications,2014,41(9):4139-4147.
[8]刘文远,李 芳,洪文学.基于多维数据雷达图表示的图形分类器研究[J].计算机工程与应用,2007,43(22):161-164.
[9]李惠君,李志全.基于改进雷达图的可视化聚类方法研究[J].燕山大学学报,2013,37(1):58-62.
[10]陆汝华,李盛欣,段 盛.基于雷达图重心特征提取的轴承故障诊断方法[J].轴承,2014,(12):54-57.
[11]刘文远,李芳,王宝文,等.基于雷达图表示的多维数据可视化分类方法[J].系统工程理论与实践,2010,30(1):178-183.
[12]Liao YH,Vemuri V R.Use of K-Nearest Neighbor Classifier for IntrusionDetection[J].Computers& Security,2002,21 (5):439-448.
An Intrusion Detection Method Based on Visualization Graphical Feature
Chen Shi,Huang Zhiping,Liu Chunwu
(College of Mechatronics Engineering and Automation,National University of Defense Technology,Changsha 410073,China)
Intrusion detection is one of the important measures to guarantee the security of network.The growing diversity and concealment of network attacks lead to the difficult of intrusion detection,which make the research for new intrusion detection method is urgent.Combined with visualization technology and k-Nearest Neighbor classifier,an intrusion detection method based on graphical feature is proposed in this paper.The information gain method is used to rank the original features,and the front features are selected for radar chart visualization presentation.After a new dataset based on the graphical features is generated,k-Nearest Neighbor classifier is applied to train and test it.The results of experiment based on KDDCUP99 dataset show that the proposed method can not only visualize the attacks,but also has really satisfactory performance of intrusion detection,with 97.9%detection rate and 1.4%false positive rate for DOS.
intrusion detection;radar chart;graphical feature;visualization
1671-4598(2016)08-0049-03
10.16526/j.cnki.11-4762/tp.2016.08.013
:TP393.08
:A
2016-03-11;
:2016-04-09。
国家自然科学基金(61374008);“863”项目(2015AA7115089)。
陈 实(1986-),男,广西玉林市人,博士研究生,主要从事网电空间测控方向的研究。
黄芝平(1965-),男,湖南郴州人,教授,博士研究生导师,主要从事网电空间测控方向的研究。