基于HHGA-RBF算法的网络态势预测模型研究*
2014-11-23杨美兰张大鹏宋世延
杨美兰 张大鹏 宋世延 罗 悦
(1.国防信息学院研究生管理大队 武汉 430010)(2.92493部队 葫芦岛 125000)(3.海军工程大学电子工程学院 武汉 430033)(4.解放军161医院 武汉 430010)
1 引言
现阶段网络安全问题愈发严重,一方面是由于互联网的应用范围越来越广泛,规模越来越庞大,另一方面由于系统脆弱性不断发现,简单易用的攻击工具越来越普及,使得网络安全事件层出不穷[1~3]。网络安全态势评估技术能够从整体上动态反映网络安全状况,并对其发展趋势进行预测和预警,为增强网络安全性提供可靠的参照依据。因此,网络安全态势评估模型及关键技术已成为目前网络安全领域的研究热点[4]。为了应对未来出现的网络战争,需加强对军内网络安全防护措施。传统的网络安全防护大多是从防御角度对网络资源进行保护,而网络安全态势评估技术则是一种主动的网络防护技术。目前在该领域的研究还处于起步阶段,大多数的研究还停留在理论上。
网络在不同时刻的安全态势彼此相关,安全态势变化有一定的内部规律,这种规律可以预测网络在将来时刻的安全态势[5],从而可以有预见性地指导管理员进行安全策略的配置,实现动态的安全管理,预防大规模安全事件的发生。本文采用的预测方法是基于时间序列分析的方法,时间序列分析是利用态势评估得到的结果,通过曲线拟合和参数估计,建立相应的模型进行预测,具体实施时采用HHGA-RBF模型。
军用网络安全态势评估技术研究和系统开发[6],对于提高军用网络的安全防护能力,进一步保证军用网络资源不被非法获取和破坏具有重要意义。通过系统的实现与测试,证明该模型能够有效地对当前的网络安全态势实现量化评分,并对安全态势的发展趋势具有一定的预测能力。
2 相关理论基础
2.1 网络态势预测基本理论
态势感知最早是起源于航空应用领域,用于对当前空域中的飞行流量进行研究、判断、预测。蒂姆贝斯将这一研究理论和成果应用于网络安全的研究领域,最早提出了网络安全态势感知的相关理论和定义[7~8]。在以之后,各个国家的专家和学者从各个不同的角度对这一技术进行了研究,给出了自己的定义。到目前为止,尚未形成一个统一的,被普通承认的定义。本文中采纳的对于网络安全态势的定义为:通过对目标网络中所有节点设备的信息采集,获取节点的运行情况,通过对网络中数据的分析,获取网络的活动情况,以及网络用户的行为等信息,综合以上信息和数据,实现对当前网络状况的准确定义和及时判断,并以此为基础,对目标网络未来一段时间内的安全状况进行预测。对于网络安全态势的研究而言,其目的是为了能够在网络的安全状况发生变化时,通过对以上主要影响因素的获取和及时响应,实现对系统中资源的安全保护。
现有的为数不多的态势预测手段以神经网络为主,这是因为神经网络尤其是径向基神经网络具有良好的逼近性能和处理非线性数据的优势[9]。大部分都是基于离线学习的思想,且学习过程漫长,精度有限,对大规模网络安全态势的预测效果不理想。针对以上问题,本文重点研究网络安全态势预测。
2.2 网络安全态势感知中的关键技术
态势预测基于过去和当前的态势评估结果,对网络整体或局部的安全态势在未来某个时间点或一段时间的发展趋势进行预测[10]。目前,有很多成熟的预测算法可用,比如人工神经网络、灰色理论和时间序列分析等等,它们有各自的特点和适用范围。
人工神经网络是一种模拟人的认知过程,将信息分布式存储和并行协同处理的非线性动力系统[11],其实质是将当前时刻的输出表示为前几步输入和输出值的非线性函数。常用的ANN 是三层BP神经网络,包含输入层、隐含层和输出层,首先确定输入和初始权值,然后正向计算每一层的输出,接着根据计算结果反向调整每一层的权值,然后再从新计算,如此反复调整权值直到计算结果满足需求。
目前对此方面的研究主要有两种思路:第一种基于单个入侵攻击事件,利用单次预测结果,结合每种攻击的威胁程度,计算相应的下个或多个时刻的态势值,此种方法在确定每种攻击威胁程度时需要主观经验判断;第二种基于非线性时间序列进行预测,综合分析历史安全态势规律以预测未来某一时刻或某一时间段内的安全态势。
在对第二种方法的研究中,文献[12]初步探讨了一种基于RBF 神经网络的网络安全态势预测方法,通过大量实验和训练来建立RBF神经网络模型用于态势预测,但仅使用了报警的数量、类型等作为预测的依据,没有考虑网络整体状态趋势,并且选择的是基本的RBF 神经网络,没有进行数据训练,存在基函数选择困难和数据量大的问题。
Liu Xiao[13]等利用小波神经网络解决非线性时间序列预测问题,所表现出了收敛速度和容错能力等方面的优势。文献[14]提出了一种基于小波神经网络的动态定量预测网络安全态势的方法,并用改进后的遗传算法进行优化。本文的研究方法同样基于时间序列,提出了在用RBF 神经网络对态势值进行预测的同时,使用HHGA 对RBF神经网络进行了训练。
2.3 与传统网络安全防范技术的对比
网络安全态势评估系统是一种新的基于主动防御的网络安全技术。在网络安全的保障方面,目前主要采用的是防火墙、入侵检测系统等,这些传统的网络安全技术与网络安全态势评估技术有着联系,但也存在着较大的不同。从网络安全防御的机制上看,防火墙技术和入侵检测系统都是针对于已经发生的非法入侵事件或者是网络攻击行为进行处理,在功能上较为单一,主要是针对特定的网络攻击形式进行防范。网络安全态势评估则是一种主要防御的技术,它的研究重点是基于当前采集到的各类数据,对网络的安全态势进行评估,从而达到防患于未然的目标。防火墙和入侵检测系统主要是通过对网络数据信息的分析来实现安全防御,而网络安全态势评估的数据来源则较为广泛,包括网络中各节点主机的状态信息、网络用户的操作信息、杀毒软件的病毒检测信息、网络通信包分析数据等。
3 基于HHGA-RBF 算法的网络态势预测模型
3.1 构建网络态势预测模型
因为遗传算法具有全局搜索、收敛速度快等特点,将其与神经网络结合起来,不仅能发挥神经网络的泛化映射能力,而且能克服收敛速度慢和易陷入局部最优的缺点[15]。但是较大的时间代价的引入,也妨碍了通过采用遗传算法来学习RBF 网络的发展,因此一般在用遗传算法来优化RBF 网络的同时,需要和其他一些传统的方法相结合,如回归方法、聚类方法或最小二乘法等,以弥补遗传算法的不足。本文的研究中选择将遗传算法与最小二乘法相结合,利用前者确定了中心和扩展宽度后,再用后者设计输出层权值。
此外,递阶遗传算法(Hierarchy Genetic Algorithm,HGA)也是近年来提出的一种较为流行的新型遗传算法,采用二进制编码和实数编码相结合的混合编码方法,可以在对神经网络参数优化求解的同时对神经网络的结构进行优化,具有较高的学习效率。
基于HGA 的RBF 神经网络算法能够根据样本数据确定RBF 神经网络的结构和参数,但在学习过程中算法的收敛速度较慢。它将输出层神经元的连接权重放到染色体中用遗传算法进行搜索,分析RBF神经网络的结构可知,RBF神经网络输出层为线性神经元,因此在确定了中心和扩展宽度后,输出层权值可以采用最小二乘法进行设计。为此,将HGA 与最小二乘法相结合,采用基于混合递阶遗传算法(Hybrid Hierarchy Genetic Algorithm,HHGA)的RBF 神经网络学习算法,其中递阶染色体中只包含隐层参数,输出层的设计在GA 的评价函数中完成。混合递阶遗传算法优化神经网络的算法流程如图1所示。
图1 HHGA-RBFNN 流程图
3.2 网络态势预测模型分析
1)采用HGA 的编码方法
HGA 中染色体由两部分组成:控制基因和参数基因。控制基因采用二进制编码,编码长度为最大隐层节点个数,每一位对应一个隐层节点,“1”表示隐层节点存在,对应的参数基因处于有效状态;“0”表示隐层节点不存在,对应的参数基因处于无效状态。控制基因中“1”的个数即为隐层节点的个数。为了加强遗传算法在解空间的搜索能力,参数基因釆用实数编码,表示隐层节点中心和宽度。
2)初始化
确定种群大小为Q。合适的群体规模对遗传算法的收敛具有重要的意义。群体太小难以求得满意的结果,群体太大则计算复杂。依据经验,群体规模一般取20~160。
控制基因和参数基因分别初始化,控制基因设置最大值M,即最大隐层节点数为M,最小值为1。参数基因初始化为[0,1]区间的随机数;
3)适应度函数
训练RBF神经网络的目标是使其在满足一定精度的要求下具有最简单的网络结构,也就是使得网络的精确度和网络的复杂度的综合指标达到最小。
网络的精度目标函数:
其中,SSE为网络输出与期望输出之间的误差平方和。
网络复杂度由隐层节点数决定,目标函数:F2=L
为使递阶遗传算法有效地训练RBF 网络,需要建立能同时反映这两个目标的适应度函数。本文采用了最小信息量准则(AIC)适应度函数。
其中,N为样本数,L为隐层节点数,yi为期望输出值,y′i为训练RBF网络输出值,b为一足够大的值。SSE越小,L越小,f将越大。
4)遗传操作
(1)选择与复制
选择若干适应度值最大的染色体作为父本,直接遗传给下一代。HHGA 与GA 的选择操作一样,适应度越大的个体被选择的概率也越大。
采用期待值法来求个体的期望值:
其中,f为个体i的适应度,为适应度平均值,fsum为种群的总适应度,N为种群规模。
个体期待值确定种群中的个体是否进入下一代进行优化,个体i被复制的个数为初始化种群经过选择与复制由P1成为P2。
(2)交叉与变异
交叉的目的在于产生新的基因组合,交叉后形成种群P3。
由于控制基因和参数基因使用不同的编码方式,所以分别进行交叉处理。控制基因的交叉遵循二进制编码的交叉规则:一点交叉操作,即在个体串中随机设定一个交叉点,实行交叉时该点前后的两个个体的部分结构进行交换,并产生两个新个体。
参数基因采用的是实值编码,因此需要采用模拟二进制交叉操作。模拟二进制交叉从父代群体中随机选取两个个体x1和x2,按下式定义的线性组合交叉方式,将x1、x2对应交叉位的值相组合产生新后代公式:
其中,a是一个随机数,a∈[0,i]。
变异运算用来模拟生物在自然的遗传环境中的基因突变,通过变异操作,可确保种群中遗传基因类型的多样性,以使搜索能在尽可能大的空间中进行。变异操作是按一定的概率从种群P3中每次随机选取一个个体,随机变化选定个体的某一个或某些基因位,形成种群P4。
对于控制基因,即染色体以二进制编码的系统中,以一定的概率对其进行求反运算,随机地将染色体的某一个基因由1变成0,或由0变成1。
对于参数基因的实值编码,用偏置变异,以一定概率给该位加上一个随机偏置值变。
交叉率和变异率采取自适应选择,交叉概率Pc和变异概率Pm按下式随适应度自动改变。
式中,fmax为当前种群最大适应度为该代种群的平均适应度,f′为待交叉父母个体中适应度较大者,为变异个体的适应度。其中,k1,k2,k3,k4取值范围为(0,1),给定ki=k3=1,k2=k4=0.5。
由此可见,当种群各个个体的适应度趋于一致或局部最优时,Pc和Pm增加,而当种群适应度比较分散时,Pc和Pm减小。
3.3 网络态势预测流程
网络安全态势的变化是一个典型的非线性复杂系统,其变化的规律有着随机和不确定的特点,但其网络安全态势的指标在其时间序列上有着相关性。利用艾尔曼神经网络对于非线性复杂系统预测方面的强大能力,课题经过研究,以该类神经网络为基础,构建了一个网络安全态势的预测模型。遗传算法主要步骤如下:
1)随机产生一个初始种群,其中每个个体都是确定长度的染色体。
2)按预定的目标函数(或评价指标)对染色体种群中的每个染色体进行评价,并根据结果给出一个适应度的值。
3)根据适应度对每个染色体进行选择复制、交叉、变异等遗传操作,去除适应度低的染色体,留下适应度高的染色体,从而得到一个新的种群。由于新群体的成员是上一代种群的优秀者的继承者,有着上一代的优良性态,因而明显优于上一代。
4)再次对染色体种群中的每个染色体进行评价,计算适应度值。如果满足预定的目标函数或评价指标,则停止优化搜索;若仍不满足,则执行步骤3),循环操作,直到满足停止准则。
4 结语
传统的网络安全防护大多从防御的角度出发对网络资源进行保护,而网络安全态势评估技术则是一种主动的网络防护技术。它从网络自身的特点和外界对网络的攻击手段两个方面进行考虑,利用相关技术实现对网络系统潜在问题以及外界对网络的威胁进行评估,目的是为了实现对网络安全威胁的及早发现,及时处理,降低损失。目前在该领域的研究还处于起步阶段,大多数的研究还停留在理论上。本文对目前在该领域的研究成果进行了讨论和分析,重点是现有的网络安全态势评估的关键技术;然后从网络自身的特点入手,建立了网络安全态势评估模型,明确了网络安全态势评估的方法和步骤。网络安全态势评估技术的研究和系统的开发,对于提高网络的安全防护能力,进一步保证网络资源不被非法获取和破坏具有重要意义,同时也对网络安全主动防护的理论与实践研究具有重要意义。随着网络技术的发展,还会不断出现新的安全问题,网络安全各项技术也需要不断的发展。本文基本实现了军用网络态势的预测功能,能帮助网络管理员提前预判网络变化趋势,从而调整安全策略。但还有许多问题需要经过实践不断完善。
[1]Michael Howard,James Whittaker.Network Security Basies[J].The IEEE Computer Society,2009(5):1540-1593.
[2]黄莉,费金龙.科技期刊网络化保密问题的思考和对策[J].中国科技期刊研究,2010,21(2):145-147.
[3]胡铮.网络与信息安全[M].北京:清华大学出版社,2006:318-323.
[4]Sean Conve.Network Security Architectures[M].北京:人民邮电出版社,2005:90-94.
[5]魏永红,李天智,张志.网络信息安全防御体系探讨[J].河北省科学院报,2011,23(1):25-28.
[6]秦宗全,于咏梅,郭大春.校园网络安全防范体系研究[J].计算机时代,2010(2):16-18.
[7]Stephen Northeutt.深入剖析网络边界安全[M].北京:机械工业出版社,2009:4-11.
[8]Merike Kaeo.Designing Network Security[M].Indiana:Cisco Press,2011:11-19.
[9]Greg Holden.防火墙与网络安全—入侵检测与VPN[M].北京:清华大学出版社,2010:66-68.
[10]John V.Harrison,Hal Berghel.A Protocol Layer Survey of Network Security[J].Advances in Computers,2005,64(1):109-158.
[11]Matt Bishop.Introduction to computer security[M].北京:电子工业出版社,2010:212-213.
[12]赵光耀,邹鹏,韩伟红.基于遗传算法和LSSVM 的网络安全事件发生频率预测[J].信息网络安全,2010,10:26.
[13]刘晓,曾祥虎,刘春宇.边坡非线性位移的神经网络-时间序列分析[J].岩石力学与工程学报,2005,24(19):3499-3504.
[14]赖积保.基于异构传感器的网络安全态势感知若干关键技术研究[D].哈尔滨:哈尔滨工程大学,2009.
[15]David Allen,Adnan Darwiche.Online value network linkages:integration,information sharing and flexibility[J].Electronic Commerce Research and Applications,2011,4(2):100-112.