APP下载

萤火虫群算法优化高斯过程的网络安全态势预测

2015-05-25李纪真孟相如温祥西康巧燕

系统工程与电子技术 2015年8期
关键词:协方差态势高斯

李纪真,孟相如,温祥西,康巧燕

(1.空军工程大学信息与导航学院,陕西西安710077;2.空军工程大学空管领航学院,陕西西安710051)

萤火虫群算法优化高斯过程的网络安全态势预测

李纪真1,孟相如1,温祥西2,康巧燕1

(1.空军工程大学信息与导航学院,陕西西安710077;2.空军工程大学空管领航学院,陕西西安710051)

针对共轭梯度法获取高斯过程超参数存在迭代次数难以确定及预测不精准等问题,提出一种萤火虫群算法优化高斯过程的预测方法,并将其应用于网络安全态势预测研究。采用萤火虫群优化算法对高斯过程超参数进行智能寻优,建立基于高斯过程回归的网络安全态势预测模型。实验结果表明新方法的平均相对预测误差较共轭梯度法、粒子群优化算法和人工蜂群优化算法分别降低了近29.46%、10.37%和4.22%,且新方法收敛较快。另外,分析对比了3种单一类型和2种复合类型的协方差函数对高斯过程预测的影响,实验结果表明采用神经网络与有理二次的复合协方差函数(neural network and rational quadratic composite covariance function,NN-RQ)的平均相对预测误差较其他4类协方差函数降低了1.65%~7.51%。

态势预测;高斯过程;萤火虫群;粒子群;人工蜂群

0 引 言

网络安全态势感知(network security situation aware-ness,NSSA)是第三代网络安全技术代表之一,主要研究网络安全态势要素提取、态势理解和态势预测等3个方面的内容,是实现网络安全监测和预警的新技术,对于提高网络主动防御和应急响应能力具有重要作用[1-3]。态势预测是NSSA的重要环节,能够加强网络管理者对网络发展趋势的认知与理解,进而为安全分析和网络规划提供决策支持[4]。

Tim Bass等国外学者首先开展了NSSA方面的相关研究,国内相关机构和学者也随后进行了跟踪研究。其中,文献[3]提出了一种基于Markov博弈分析的网络安全态势感知方法,文献[4]提出了基于集对分析的网络安全态势评估与预测方法,文献[5]将支持向量机回归预测方法应用于故障检测,文献[6-7]将神经网络应用到网络安全态势感知研究中。上述研究虽都取得了不错的效果,但仍然存在问题,如Markov和集对分析方法的参数设置依赖于所处的网络环境,网络环境的不确定性使得参数难以确定,进而不能准确体现态势感知结果;支持向量机和神经网络等方法参数设置更为复杂,且容易出现局部最优问题,也限制了其在网络安全态势感知中的应用。

高斯过程凭着可调整参数少和训练过程就是超参数选择过程等优点[8],使其在机器学习领域受到越来越广泛的关注,因此相关研究机构和学者将其应用于预测方面的研究,并取得了一定的研究成果[9-12],但在网络安全态势预测研究中的应用较少。另外,采用传统的共轭梯度法获取高斯过程最优超参数存在迭代次数难以确定和预测结果不够精准等问题,为此,文献[10]采用粒子群优化算法(particle swarm optimization,PSO)寻找高斯过程最优超参数,但PSO算法容易在迭代过程中陷入局部最优,导致预测结果并不一定是全局最优解;文献[11]采用人工蜂群算法(artificial bee colony,ABC)优化高斯过程超参数,但未考虑协方差函数的类型对预测结果的影响且ABC算法实现相对较为复杂。针对上述问题,本文尝试采用萤火虫群优化算法(glowworm swarm optimization,GSO)对高斯过程超参数进行智能寻优,GSO最大优点是能同时获取全局最优解和多个局部最优解,不易陷入局部最优。另一方面,不同类型的协方差函数对高斯过程预测结果会产生不同的影响,针对这一问题,本文分别测试3种单一类型和2种复合类型的协方差函数对预测结果产生的影响,以寻找能够对网络安全态势进行有效预测的最优方法。

1 高斯过程

1.1 高斯过程回归

高斯过程又称正态随机过程,对处理小样本、非线性、高维等复杂问题具有良好的适应性[8]。给定训练数据集D=其中输入向量xn∈Rd,输入数据矩阵X∈Rd×N,观测输出向量y∈RN×1。给定测试数据集D*=其中输入向量x*∈Rd,输入数据矩阵X*∈Rd×N*,观测输出向量y*∈RN*×1。D和D*输入向量的均值分别为m和m*,可以根据先验知识建立D的观测输出值y和D*的观测输出值y*所形成的联合高斯先验分布[12],如式(1)所示

式中,C(X,X)为协方差矩阵;K(X,X)为核矩阵,且C(X,X)=K(X,X)+σ2nI。在给定训练集D和输入数据矩阵X*的条件下,可以通过后验概率公式计算出与X*相对应的y*,即高斯过程回归方程[13]为

1.2 高斯过程超参数的选择

高斯过程回归模型最大优点是可调整的参数只有协方差函数,由于高斯过程中的协方差函数满足积分算子理论中的Mercer定理,因此协方差函数也等价于机器学习中的核函数。本文主要应用以下3种单一类型和2种复合类型的协方差函数,用以验证不同类型协方差函数对高斯过程预测的影响。

(1)平方指数协方差函数

(2)有理二次协方差函数

(3)神经网络协方差函数[10],其中~x=(1,x)T

(4)神经网络协方差函数与平方指数协方差函数的复合变换形式

(5)神经网络协方差函数与有理二次协方差函数的复合变换形式

令θ={H,σ2f,σ2n}为包含所有超参数的向量,其中,H=l2I表示超参数l2与I得乘积矩阵,l为关联性测度超参数;σ2f为核函数的信号方差,是控制局部相关性的程度;σn为噪声的方差;α为核函数的形状参数;δij为狄拉克(Dirac Delta)函数[14]。

2 萤火虫群优化高斯过程的预测模型

2.1 萤火虫群优化算法

GSO由Krishnanand和Ghose于2005年提出,核心是利用萤火虫发光的特性向邻域空间内亮度高于自己的个体位置移动,通过位置更新实现优化[15]。

GSO中第i个个体由当前位置xi(t)和该位置的萤光素值li(t)确定(t为迭代次数),每次迭代都包括以下两个阶段[16]。

(1)荧光素值更新:更新公式为

式中,ρ为荧光素挥发因子;γ为荧光素更新率;f(xi(t))为该位置所对应的目标函数适应度值。

式中,s为移动步长;‖xj(t)-xi(t)‖为个体j与个体i之间的距离。最后,更新个体i的动态决策域半径,更新公式如式(10)所示,β为动态决策域更新率,|Ni(t)|为邻域范围内的个体数,rs为感知半径[17]。

2.2 安全态势预测算法描述

本文提出的方法采用萤火虫群优化算法对高斯过程最优超参数进行智能搜索确定,迭代训练过程中利用高斯过程回归方程对测试样本进行测试,计算目标函数适应值,通过对每只萤火虫荧光素值和位置的反复比较更新,得到最优萤火虫,即最优超参数;最后,返回最优超参数对应的测试结果,进而得到高斯过程模型对于测试数据样本的输出结果,即网络安全态势的预测值,进一步绘制出安全态势预测曲线并对实验结果进行深入对比分析。预测算法框图如图1所示,具体详细描述如算法1。

算法1

输入:学习样本集D,测试样本集D*的输入x*。

输出:测试样本集D*的观测目标值y*。

步骤1 初始化萤火虫群算法荧光素值和位置等基本参数;

步骤2 初始化高斯过程回归模型,利用高斯过程回归方程对群体所有萤火虫进行测试,并根据目标函数计算出每个萤火虫的适应度值f(xi(t));

步骤3 根据式(8)更新萤火虫个体的li(t);

步骤5 计算个体i移向邻域集内个体j的概率pij(t);

步骤6 向pij(t)值最大的方向,按式(9)进行位置更新;

步骤8 若满足停止条件,执行步骤9。否则,返回步骤2继续执行;

步骤9 停止搜索,返回最优的萤火虫,找到最优超参数解,输出预测结果y*,进行深入对比分析。

图1 基于萤火虫群优化高斯过程的预测算法框图

3 网络安全态势预测与分析

3.1 数据处理与参数设置

3.1.1 数据处理

实验测试环境为某一未划分VLAN的简单局域网,包括1台服务器和16台主机,其中服务器操作系统为Windows Server 2003,主机操作系统为Windows XP。实验的基础数据需要通过安装一些软件工具来得到,如cacti监测软件、ovaldi漏洞扫描器、日志分析软件、简单网络管理软件等等。

本文将网络安全指标体系重新划分为内部安全指标Safety、外部安全指标Security和用户类别指标User-Type(该指标体系研究已作为专项研究发表在其他刊物上,此处仅做简要概述)。Safety指标更强调网络系统及其主机本身的可靠性,各指标{Sa1,…,Sai,…,Sam}对应的影响因子为{R1,…,Ri,…,Rm},且满足;Security指标更强调对于外界攻击的防护水平,各指标{Se1,…,Sej,…,Sen}对应的影响因子为{T1,…,Tj,…,Tn},且满足=1;User-Type指标指各类用户的安全等级,可以根据用户需要进行划分,影响因子由原始数据来源的用户等级所决定。态势值获取过程描述如下:

步骤1 计算内部安全态势值Safety,指各项内部安全指标与其对应影响因子的内积

步骤2 计算外部安全态势值Security,指各外部安全指标与其对应影响因子的内积

步骤3 计算整体安全态势值S’,是内部态势值与外部态势值的加和

网络安全态势是一个长期持续且具有突发性特征的过程,为简化实验分析,本文采用等时间距的方法对网络安全态势实验数据进行采样,仅获取某主机30个时间序列的原始数据进行实验分析,并根据上述方法计算时间序列T1~T30的网络安全态势值如表1所示。

表1 时间序列T1-T30网络安全态势值

3.1.2 参数分析与设置

(1)高斯过程参数设置

将高斯过程超参数转换为萤火虫个体并对其进行编码,即每个萤火虫个体代表一个高斯过程超参数,不同超参数对应不同的高斯过程回归模型。分别采用表2中所示的5种类型核函数进行对比实验,以观察不同核函数对高斯过程预测所产生的影响。

表2 相关算法主要参数设置

(2)PSO算法参数设置

PSO算法的目标函数是在综合考虑相对预测误差的均值和标准差两个方面因素条件下确定的,如式(14)所示,其中,均值E(yn*-yn)主要体现整体相对预测误差的大小,而标准差{E{[(yn*-yn)-E(yn*-yn)]2}}1/2则主要体现相对预测误差的平稳性。PSO其他主要参数参考文献[10]进行设置,详细如表2所示。

(3)ABC算法参数设置

ABC算法目标函数为式(14)。ABC其他主要参数参考文献[11]进行设置,详细如表2所示,其中D为可行解维数,即超参数维数,最大迭代次数t=100,蜜源最大开采数目limit=t×D=300。

(4)GSO算法参数设置

GSO算法目标函数为式(14)。另外,Krishnanand和Ghose通过大量仿真实验对GSO算法的相关参数进行分析研究,得出各参数的参考取值,如表2所示。其中,nt为邻域集内包含的萤火虫数目的阈值,l0为初始荧光素值。

3.2 实验结果与分析

预测模型的实验数据集由时间序列T1~T30的整体网络安全态势值构成,其中取T1~T10态势值为学习样本,T11~T20态势值为测试样本。预测模型通过对样本数据的训练和预测,寻找高斯过程模型最优超参数,并返回最优超参数对应测试数据集的预测结果,从而得到时间序列T21~T30的预测态势值,最后通过与真实安全态势值的对比分析来验证本文预测方法的准确性及有效性。经过对多个试验样本数据的反复验证,得知实验样本的差异对实验结果并没有产生非常明显的差异和变化,因此本文仅选择表1所示的一组实验样本数据进行分析。

实验方法是将基于共轭梯度优化的高斯过程模型预测方法(Gaussian process,GP)、基于粒子群优化的高斯过程模型预测方法(particle swarm optimization-GP,PSO-GP)、基于人工蜂群算法优化的高斯过程预测方法(artificial bee colony-GP,ABC-GP)和基于萤火虫群优化的高斯过程模型预测方法(glowworm swarm optimization-GP,GSO-GP)分别进行实验,以通过实验预测结果对比4种方法的优劣。另外,高斯过程应用不同的核函数会对实验效果产生不同的影响,因此本文尝试将表2中所示的5种核函数分别应用到上述4种方法中,以寻找哪类核函数能够使预测结果更加精准。计算各种方法在分别采用5种类型核函数情况下相对预测误差的均值和标准差,实验结果如表3所示。为了更直观的对实验数据进行比较分析,将表3所示的相对预测误差均值和标准差图形化,如图2所示。

表3 相对预测误差对比

图2 预测误差均值与标准差对比

通过上述实验结果,做如下两个比较分析:

比较1 萤火虫群优化、人工蜂群优化、粒子群优化及共轭梯度优化方法性能优劣的比较

由表3及图2(a)所示的实验结果可以看出:不论采用哪一种类型的核函数,基于萤火虫群优化GP模型的相对预测误差均值比基于共轭梯度优化的GP模型、基于粒子群优化的GP模型和基于人工蜂群优化的GP模型都更优秀,且前者的平均相对预测误差较后三者分别降低了29.46%、10.37%和4.22%;由表3及图2(b)所示的实验结果可以看出:除了NN-SE核函数以外,其他核函数情况下,基于萤火虫群优化的GP模型的相对预测误差标准差比另外3种优化方法都更优秀。据此可以验证萤火虫群算法优化的高斯过程模型对网络安全态势预测的优越性和精准性。

比较2 3种单一类型和2种复合类型协方差函数对实验结果影响的比较

由表3、图2(a)及图2(b)所示实验结果可以看出:不论是基于萤火虫群优化的GP模型、基于人工蜂群优化的GP模型、基于粒子群优化的GP模型还是基于共轭梯度优化的GP模型,核函数类型为神经网络与有理二次的复合协方差函数(neural network and rational quadratic composite covariance function,NN-RQ)的相对预测误差均值和标准差要比其他类型核函数更优秀。

在基于萤火虫群优化的GP模型预测的情况下:通过图2(a)所示的实验结果对比可以得出核函数类型对于相对预测误差均值的优越性能从大到小依次为:NN-RQ、NN、NN-SE、RQ、SE,且采用神经网络与有理二次的复合协方差函数(NN-RQ)的平均相对预测误差较其他4类(NN、NN-SE、RQ和SE)核函数分别降低了1.65%、3.24%、4.63%和7.51%;通过图2(b)所示的实验结果对比可以得出核函数类型对于相对预测误差标准差的优越性能从大到小依次为:NN-RQ、NN、SE、RQ、NN-SE。

总之,通过上述两个比较可以看出,当基于萤火虫群优化高斯过程的网络安全态势预测方法采用复合协方差函数NN-RQ时,网络安全态势预测的结果是最优秀的,通过实验得到时间序列T21~T30的安全态势预测曲线与真实曲线对比如图3(d)所示。另外3种方法在采用复合协方差函数NN-RQ时的预测结果如图3(a)、图3(b)和图3(c)所示。

可以看出,基于萤火虫群算法优化高斯过程的网络安全态势预测结果与真实值在大小及变化规律上基本一致,为了更加明显的查看实验结果,图4所示为4种方法采用NN-RQ时的预测误差,可见新方法80%的预测结果误差小于其他3种方法。

另外,图5给出了粒子群优化算法、人工蜂群优化算法和萤火虫群优化算法在迭代预测过程中目标函数最优适应值与迭代次数的关系,可以看出,粒子群优化算法在迭代40~50次以后趋于平稳,人工蜂群优化算法在迭代30~40次以后趋于平稳,萤火虫群优化算法在迭代25~35次后趋于平稳,由此可以证明萤火虫群优化算法比其他算法收敛更快。

图3 时间序列T21-T30安全态势预测结果对比曲线

图4 4种方法在NN-RQ下相对预测误差对比

4 结 论

针对基于共轭梯度优化的高斯过程回归预测方法存在迭代次数难确定及预测不精准的问题,尝试采用萤火虫群优化算法对高斯过程回归超参数进行智能寻优,在网络安全态势预测实例分析中,本文算法将平均相对预测误差较共轭梯度法优化方法、粒子群优化方法和人工蜂群优化方法分别降低了29.46%、10.37%和4.22%,验证了萤火虫群算法优化的高斯过程模型对网络安全态势预测的精准性和有效性。通过对5种类型核函数的实验对比,验证了采用神经网络与有理二次的复合协方差函数时,预测效果是最理想的,且其平均相对预测误差较其他4类核函数最多降低了7.51%。尽管如此,本文开展的理论研究距离在实际网络中的应用还有很多工作要做,这也是今后进一步研究的重点。

[1]Zhang H L,Shi J Q,Chen X J.A multi-level analysis framework in network security situation awareness[J].Procedia Computer Science,2013,17:530-536.

[2]Mohsen N,Lu J,Zhang G Q.An intelligent situation awareness support system for safety-critical environments[J].Decision Support Systems,2014,59:325-340.

[3]Zhang Y,Tan X B,Cui X.Network security situation awareness approach based on Markov game model[J].Journal of Software,2011,22(3):495-508.(张勇,谭小彬,崔孝林.基于Markov博弈模型的网络安全态势感知方法[J].软件学报,2011,22(3):495-508.)

[4]Wu K,Bai Z Y.Trusted network security situational awareness and forecast based on SPA[J].Journal of Harbin Institute of Technology,2012,44(3):112-118.(吴琨,白中英.集对分析的可信网络安全态势评估与预测[J].哈尔滨工业大学学报,2012,44(3):112-118.)

[5]Meng L M,Zhu J H,Yang Y.A fault detection algorithm for wireless sensor networks based on support vector regression[J].Journal of Beijing University of Posts and Telecommunications,2014,37(s1):23-29.(孟洛明,朱杰辉,杨杨.支持向量机回归预测在网络故障检测中的应用[J].北京邮电大学学报,2014,37(s1):23-29.)

[6]Tang C H,Xie Y,Qiang B H.Security situation prediction based on dynamic BP neural with covariance[J].Procedia Engineering,2011,15:3313-3317.

[7]Xie L X,Wang Y C,Yu J B.Network security situation awareness based on neural network[J].Journal of Tsinghua University(Science and Technology),2014,53(12):1750-1760.(谢丽霞,王亚超,于巾博.基于神经网络的网络安全态势感知[J].清华大学学报(自然科学版),2014,53(12):1750-1760.)

[8]Chen K M,Zhou Z X,Huo C L,et al.A semi supervised context-sensitive change detection technique via Gaussian process[J].IEEE Geoscience and Remote Sensing Letters,2013,10(2):2.

[9]Wang S W,Gu H L.Multiuser detection with sparse spectrum Gaussian process regression[J].IEEE Communications Letters,2012,16(2):164-167.

[10]Xu C,Liu B G,Liu K Y.Intelligent analysis model of landslide displacement time series based on coupling PSO-GPR[J].Rock and Soil Mechanics,2011,32(6):1669-1675.(徐冲,刘保国,刘开云.基于粒子群-高斯过程回归耦合算法的滑坡位移时序分析预测智能模型[J].岩土力学,2011,32(6):1669-1675.)

[11]Zhang L,Liu Z,Zhang J Q.Optimized improved Gaussian processmodel based on artificial bee colony algorithm[J].Journal of National University of Defense Technology,2014,36(1):154-160.(张乐,刘忠,张建强.基于人工蜂群算法优化的改进高斯过程模型[J].国防科学技术大学学报,2014,36(1):154-160.)

[12]Kou P,Gao F,Guan X H.Sparse online warped Gaussian process for wind power probabilistic forecasting[J].Applied Energy,2013,108:410-428.

[13]Wu Q,Rob L,Xu X.A sparse Gaussian process regression model for tourism demand forecasting in Hong Kong[J].Expert Systems with Applications,2012,39(15):4769-4774.

[14]Alexander Y.S,Wang D B,Xu X L.Monthly stream flow forecasting using Gaussian Process Regression[J].Journal of Hydrology,2014,511(16):72-81.

[15]Krishnanand K N,Ghose D.Glowworm swarm optimization for simultaneous capture of multiple local optima of multimodal functions[J].Swarm Intelligence,2009,3(2):87-124.

[16]Wu B,Qian C,Ni W,et al.The improvement of glowworm swarm optimization for continuous optimization problems[J].Expert Systems with Applications,2012,39(7):6335-6342.

[17]Ibrahim A,Simone A L.A new clustering approach based on glowworm swarm optimization[C]∥Proc.of the IEEE Congress on Evolutionary Computation,2013:2642-2649.

Network security situation prediction based on Gaussian process optimized by glowworm swarm optimization

LI Ji-zhen1,MENG Xiang-ru1,WEN Xiang-xi2,KANG Qiao-yan1
(1.School of Information and Navigation,Air Force Engineering University,Xi’an 710077,China;2.School of Air Traffic Control and Navigation,Air Force Engineering University,Xi’an 710051,China)

A prediction method based on the Gaussian process optimized by glowworm swarm optimization(GSO)is proposed to solve the problems of difficult determination of iteration steps and less accuracy of prediction which are caused by searching the hyperparameters of the Gaussian process with the conjugate gradient algorithm.And it is applied to the research of network security situation prediction.The hyperparameters of the Gaussian process are intelligently searched by the GSO algorithm for establishing the network security situation prediction model based on Gaussian process regression.The analysis results of the experiment show that the average relative prediction error of this new method is reduced by about 29.46%,10.37%and 4.22%compared with the conjugate gradient algorithm,the particle swarm optimization(PSO)algorithm and the artificial bee colony(ABC)algorithm separately,and the new method has a better convergence.In addition,the impact of the prediction results are analyzed and compared by three single type covariance functions and two composite type covariance functions,and the analysis results of the experiment show that the average relative prediction error with neural network and rational quadratic composite covariance function(NN-RQ)is reduced by 1.65% to 7.51%compared with other four covariance functions.

situation prediction;Gaussian process;glowworm swarm optimization(GSO);particle swarm optimization(PSO);artificial bee colony(ABC)

TP 393

A

10.3969/j.issn.1001-506X.2015.08.26

李纪真(1986-),男,博士研究生,主要研究方向为网络安全预警决策。

E-mail:lijizhen1986@126.com

孟相如(1963-),男,教授,博士,主要研究方向为宽带通信网络。

E-mail:mengxr1963@126.com

温祥西(1984-),男,讲师,博士,主要研究方向为网络故障预测与健康管理。

E-mail:wenxiangxi1984@126.com

康巧燕(1980-),女,副教授,博士,主要研究方向为宽带通信网络。

E-mail:kangqy2012@163.com

1001-506X201508-1887-07

网址:www.sys-ele.com

2014-09-17;

2014-10-20;网络优先出版日期:2014-10-31。

网络优先出版地址:http://www.cnki.net/kcms/detail/11.2422.TN.20141031.1028.003.html

国家自然科学基金(61201209)资助课题

猜你喜欢

协方差态势高斯
2019年12月与11月相比汽车产销延续了增长态势
汇市延续小幅震荡态势
数学王子高斯
天才数学家——高斯
我国天然气供需呈现紧平衡态势
用于检验散斑协方差矩阵估计性能的白化度评价方法
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
二维随机变量边缘分布函数的教学探索
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器
县乡一体化探索呈加速态势