基于特征选择的网络入侵检测模型研究

2017-11-01李文

计算机测量与控制 2017年8期

关键词：特征选择子集向量

李文

(广东科贸职业学院信息工程系，广州 510640)

基于特征选择的网络入侵检测模型研究

李文

(广东科贸职业学院信息工程系，广州 510640)

为了有效从收集的恶意数据中选择特征去分析，保障网络系统的安全与稳定，需要进行网络入侵检测模型研究;但目前方法是采用遗传算法找出网络入侵的特征子集，再利用粒子群算法进行进一步选择，找出最优的特征子集，最后利用极限学习机对网络入侵进行分类，但该方法准确性较低;为此，提出一种基于特征选择的网络入侵检测模型研究方法;该方法首先以增强寻优性能为目标对网络入侵检测进行特征选择，结合分析出的特征选择利用特征属性的Fisher比构造出特征子集的评价函数，然后结合计算出的特征子集评价函数进行支持向量机完成对基于特征选择的网络入侵检测模型研究方法;仿真实验表明，利用支持向量机对网络入侵进行检测能有效地提高入侵检测的速度以及入侵检测的准确性。

特征选择；网络入侵；Fisher比；支持向量机

0 引言

随着互联网技术应用的日渐广泛，互联网络的安全性以及可靠性越来越受到人们的关注[1]。互联网络平台是一个双边平台，具有共享性与开放性的特点，由于互联网络的开放性，加上入侵手段的多样化[2]，网络的恶意入侵越来越频繁。在这种情况下，如何提高网络入侵的检测率和检测速度，保证互联网络的正常通信与数据运输安全成为了网络管理领域中急需解决的主要问题[3]。对于现有的网络恶意入侵的检测方法有很多，这是在不断更新、不断发展的网络主动式的自我防御策略技术，利用网络相互之间发生联系时的动态特征来准确描述此时网络是否受到了入侵，这项技术在当前网络安全保护技术的发展中起着至关重要的作用[4]。随着网络复杂度的增高以及网络需求速度的提升，恶意入侵行为日益增加，这是出现的明显问题为不能对网络传输的数据进行实时处理，网络入侵检测的复杂混乱特征的提纯以及对入侵过程信息处理分析导致了对入侵检测过程复杂度的增高，致使检测时间加长[5]。而有效地对特征选择的网络入侵进行检测是解决上述问题的有效途径。已引起了该领域专家和学者的关注与重视，由于网络入侵检测具有广泛的发展空间，因此，成为了计算机网络检测研究的核心，具有较大的发展潜力[6]。

近年来取得了一定的成果，裴恩斯提出了网络入侵检测系统的创建模型，根据该模型对网络恶意入侵行为进行有效快速的检测，利用在入侵过程主动记录下的数据信息来构建关联系统框架，通过对该框架的变化程度来对网络入侵行为进行监测[7]。郎恩提出了基于神经网络的检测入侵系统，该系统利用图论对网络执行检测入侵功能，解决大多数入侵识别检测系统的稳定性不够的问题，利用数据信息统计表来对不同种类入侵攻击行为下存在的联系以及区别，创建不同攻击类型之间关系模型。王宇航提出了基于数据挖掘框架自适应的入侵检测方法，通过审计程序对网络会话连接的特征集进行提取，然后利用数据挖掘算法在数据特征集上表达入侵行为模式，采用这种模式对入侵进行指导。文献[8]提出一种基于遗传算法选择特征的网络入侵检测方法，通过遗传算法找出网络入侵的特征子集，再利用粒子群算法进行进一步选择，找出最优的特征子集，最后利用极限学习机对网络入侵进行分类，但该方法存在准确性较低的问题。文献[9]提出一种参数优化的特征选择网络入侵检测方法。该方法首先将检测的准确率作为问题优化的主要目标函数，网络特征与参数作为约束条件建立检测模型，通过对检测模型进行求解，找出最优的特征子集和最优参数，但该方法存在过程较为复杂的问题。文献[10]提出一种特征优化耦合的网络入侵检测模型。首先通过径向函数将网络特征映射到高维空间内对此进行计算，建立网络特征和网络入侵分类器间的联系，在特征提取阶段解决了分类器参数的设计问题，建立网络入侵的检测模型，但该方法存在检测速度较慢的问题。

针对上述问题，提出一种基于特征选择的网络入侵检测模型研究方法。该方法首先以增强寻优性能为目标对网络入侵检测进行特征选择，结合分析出的特征选择利用特征属性的 Fisher 比构造出特征子集的评价函数，然后结合计算出的特征子集评价函数结果进行支持向量机完成对基于特征选择的网络入侵检测模型研究方法。仿真实验表明，利用支持向量机对网络入侵进行检测能有效地提高入侵检测的速度以及入侵检测的准确性。

1 基于特征选择的网络入侵检测模型研究

首先以增强寻优性能为目标对网络入侵检测进行特征选择，结合分析出的特征选择利用特征属性的 Fisher 比构造出特征子集的评价函数，然后结合计算出的特征子集评价函数结果进行支持向量机完成对基于特征选择的网络入侵检测研究方法。具体步骤如下：

1.1 网络入侵检测特征选择

网络入侵检测的特征可用二进制字符来表示：S={s1,s2,…,sn}，si∈{0,1},i=1,2,…,m，其中“1”代表较优特征，且被选中，反之，“0”代表没有被选择上的特征，m代表网络入侵数据特征的整体维数，因此特征选择的数学模型为：

(1)

由该公式可以推断出，在网络受到入侵的情况下，对满足约束的最优特征子集的寻找是该问题中较为典型的组合优化问题。对网络入侵中特征求取过程无法实现对特征的选择，所以需要先对网络入侵数据特征进行编码。

特征选择的目标是选择较少的特征，获取更高的网络入侵检测的检测率，由此适应度函数的定义为：

(2)

公式(2)中，ωa为特征数量的权重，本文的取值是0.6，Nf为特征的总数，Acc为验证集网络入侵检测的正确率，ωf是权重，本文的取值是0.4，fi为特征选择的状态，即：

(3)

(4)

(5)

(6)

(7)

为对特征选择进行简化计算，将网络入侵检测的数据样本分为两类：正常数据类与入侵数据类，称为正类样本和负类样本，将网络入侵检测问题简化为二分类问题。对上述的网络样本数据集X={x1,x2,…,xn}，将X正类数据样本集记为X1，负类数据样本集X2，n1为正类样本数，n2为负类数据样本数，依据公式(6)，公式(7)得：

(8)

(9)

Fisher比可以反映出网络入侵特征检测对数据分类的影响以及作用，该比值可大可小，比值越大，那么相对应的特征子集的分类能力就越强。因此，特征子集评价函数为：

(10)

1.2 基于支持向量机的入侵检测模型

结合上述分析出的网络特征选择为基础，利用支持向量机对选择出的特征进行分类，支持向量机为训练数据集的子集，定义了超平面，把数据集分成2类。对于不能分成2类的情况，可把数据映射到高维特征空间中进行解决。支持向量机为凸优化问题，局部的最优解就是全局最优解。

假设有2类线性可分的数据样本集合：(xi,yi),i=1,2,…,n，xi∈Rd，yi∈{+1,-1}，满足条件：

yi[(ω·xi)+b]-1≥0,i=1,2,…,n

(11)

(12)

其中:

a1≥0,i=1,2,…,n

(13)

约束条件为：

(14)

公式(14)中，a1表示Lagrange乘子，为二次函数寻优的问题，存在唯一的解。可证明，在方程解中存在部位0的a1，且不唯一，这些a1所对应的向量即为是支持向量机。根据以上的求解，得出最优分类面函数为：

(15)

假设最优分类面不能把2类点分开时，可通过引入松弛因子ξ(ξ≥0)，这种情况下允许错分数据样本的存在。此时：

(16)

公式(16)中，C表示惩罚因子，可得出广义的最优分类面。广义最优分类面的对偶问题与线性分类情况完全相同，只是把公式(13)改为：

0≤ai≤C,I=1,2,…,n

(17)

对于分线性分类问题，可把相关关联数据组进行映射处理，映射到高维空间后，进而实现关联特征的线性分类来解决问题。此时特征相对应的分类函数为：

(18)

2 实验结果与分析

为了证明基于选择特征的网络入侵检测模型研究方法的有效性，需要进行一次仿真实验。选择KDD2016数据集作为仿真对象，数据集包括拒绝攻击(DoS)、未授权远程访问(Probe)、扫描与探测(R2L)以及对本地用户非法访问(R2R)4种攻击方式，其余数据为正常数据。实验采用Intel奔腾43.0CPU、内存为2 G的计算机上进行，在Matlab2016上进行编程实现。

为了使检测结果更具有说服力，在相同的实验下与相同的数据集进行对比实验，在实验中主要对文献[8]给出的遗传算法和文献[9]给出的方法和本文方法进行特征选择时的性能差异。在测试实验中选取100次运行的平均值作为性能差异对比结果。

利用下述公式计算检测率：

WA=NBce/NBei×100%

(19)

利用下述公式计算漏检率：

CN=BAsd/BAfg×100%

(20)

其中:NBce表示网络入侵数据次数、NBei表示网络入侵异常次数、BAsd表示网络入侵漏检次数、BAfg表示网络入侵全部次数。

表1 不同方法性能对比

图1 不同方法的检测率(%)

从表1和图1 可看出，本文提出的基于特征选择的网络入侵检测方法与文献[8]中给出的遗传算法和文献[9]中给出方法相比较，在检测时间方面，本文方法的时间最少、表现最好，网络入侵的检测率明显高于文献[8]和文献[9]两种方法，区别很明显，能看出本文的方法能更有效地对网络数据进行精简，在检测的时间以及检测的准确性方面的表现明显优于文献[8]和文献[9]中的方法，能有效地解决网络入侵检测特征选择存在的问题，保证较高的准确率。

图2 不同方法的网络入侵适应度对比

由图2可知，文献[8]中给出的遗传算法的适应度较差，虽然浮动很均匀，但随着数据数目的增加，适应度越来越低，文献[9]给出的方法虽然比文献[8]的适应度会高一些，但总体来说可行性较差，本文所提方法的适应度较强，随着数据数目的增加适应度也越来越高，虽然也略有波动，但和文献[8]、文献[9]相比，本文方法的网络入侵检测的适应度较高。

图3 不同方法的数据漏检率(%)对比

由图3可看出文献[8]给出方法的漏检率随着数据数目的增加，漏检率越来越高，那么该方法检测的准确性就会降低，文献[9]给出方法的漏检率相对于文献[8]较低，但随着数据数目的增加，漏检率也在逐渐的提高，由此看出文献[8]和文献[9]给出的方法可行性较低，而本文方法随着数据数目的增加漏检率越来越低，由此可说明本文方法的准确性较高。

仿真实验表明，本文所提方法能有效地提高对网络入侵行为进行检测，并且保证了入侵检测的准确率。

3 结论

采用遗传算法找出网络入侵的特征子集，再利用粒子群算法进行进一步选择，找出最优的特征子集，最后利用极限学习机对网络入侵进行分类，但该方法准确性较低。为此，提出一种基于征选择的网络入侵检测模型研究方法。并通过实验证明，本文所提方法能有效地提高特征选择的网络入侵检测模型的准确性，具有广泛的实用价值。

[1] 唐成华,刘鹏程,汤申生,等.基于特征选择的模糊聚类异常入侵行为检测[J].计算机研究与发展,2015,52(3):718-728.

[2] 张拓,王建平.基于CQPSO-LSSVM的网络入侵检测模型[J].计算机工程与应用,2015,51(2):113-116.

[3] 刘白璐,杨雅辉,沈晴霓.一种基于遗传算法的入侵早期特征选择方法[J].小型微型计算机系统,2015,36(1):111-115.

[4] 黄春虎,努尔布力,解男男,等.基于Re-FCBF的入侵特征选择算法研究[J].激光杂志,2016,37(1):103-107.

[5] 唐喆,曹旭东.网页分类中特征选择方法的研究[J].电子设计工程,2016,24(5):120-122.

[6] 武小年,彭小金,杨宇洋,等.入侵检测中基于SVM的两级特征选择方法[J].通信学报,2015,36(4):19-26.

[7] 姜宏,陈庶樵,扈红超,等.基于GAIG特征选择算法的轻量化DDoS攻击检测方法[J].计算机应用研究,2016,33(2):502-506.

[8] 黄亮,吴帅,谭国律,等.基于EPSO-RVM的网络入侵检测模型[J].计算机工程与应用,2015,51(3):85-88.

[9] 梁辰,李成海,周来恩.PCA-BP神经网络入侵检测方法[J].空军工程大学学报:自然科学版,2016,17(6):93-98.

[10] 余文利,余建军,方建文.一种新的基于KPCA和改进ε-SVM的入侵检测模型[J].计算机工程与应用,2015,51(11):93-98.

Network Intrusion Model Based on Feature Selection Research

Li Wen

(Department of information Engineering, Guangdong Polytechnic of Science and Trade,Guangzhou 510640,China)

In order to effectively extract features from the malicious data collected to analyze, security network system security and stability, the need for network intrusion detection model is studied. But the current approach is to use genetic algorithm to find out the characteristics of the network intrusion subset of recycled for further selection of particle swarm optimization (pso), find out the optimal feature subset, finally using extreme learning machine classifying network intrusion, but this method has the problem of accuracy is low. Therefore, proposes a network intrusion detection methods based on feature selection. This method firstly in order to enhance optimal performance as the goal to feature selection of network intrusion detection, combined with analysis of characteristics of feature selection using the attributes of the Fisher than feature subset evaluation function is constructed, and combining with the feature subset of calculated results of evaluation function for support vector machine (SVM) to network intrusion detection based on feature selection methods. Simulation experiments show that support vector machine (SVM) is used to analyse the network intrusion detection can effectively improve the accuracy of the speed of intrusion detection and intrusion detection.

mobile application platform; Network security; Assessment

2017-04-15；

2017-04-26。

医学院校课程考试与学业评价管理通用系统的改革与研究(桂教科研[2003]22号)。

李文(1963-)，男，广西钦州人，硕士研究生，副教授，主要从事计算机网络应用、软件应用、网络安全、大数据、云安全、软件开发等方向的研究。

1671-4598(2017)08-0214-04

10.16526/j.cnki.11-4762/tp.2017.08.055

TP393