计算机网络安全评估与预测关键技术研究
2019-11-13徐星辰
徐星辰
(1.中共怀宁县委党校,安徽 安庆 246121;2.宁波大学 信息科学与工程学院,浙江 宁波 315211)
0 引言
近年来随着互联网技术的不断进步,网络与人民大众的联系越来越密切[1]。从日常的信息处理、网上购物到互联网金融,网络已经深入到了与经济和民生息息相关的各处[2]。我国互联网用户的数量因国家的政策倾斜和日常的刚需而有着井喷式的增长,到目前为止我国互联网用户总量已超过8亿[3]。换言之,全国有着超过一半的人口通过互联网保持着与外界的信息互联,互联网已经可以称得上是新时代的公共基础设施[4]。互联网为广大网民提供了海量信息交互的平台,为资源的优化配置和海量信息的快速传递提供了极大的便利[5]。由于我国互联网相关产业发展过快,相关的安全机制并未及时跟进。虽然互联网方便了信息的传递、保存以及检索等,但是在互联和共享的过程中的安全性却没有得到足够的保障。安全的威胁主要来自于网络自身的漏洞和恶意者的蓄意攻击,网络的开放性和互联性反而使得广大网民的信息安全暴露在了不法之徒的威胁之下。
另一方面,随着大众需求的日益提高,操作系统也逐渐在进行大数据化的发展,随着技术革新不可避免的会留有大量的漏洞。而作为每个网络用户进行网络活动的基础组件,操作系统受到威胁使危害更加严重。相较于过去通过病毒以及钓鱼网站等传统方式,网络的威胁已经不仅仅局限于这些危害较小的手段,攻击者对网络薄弱环节的利用也趋于更加的复杂化、更加隐蔽。这使得网络的防御工作更加困难。尤其是当下的网络攻击都是具有明确的以非法经济利益为目标的,组织化的行为。传统的网络防御与监控手段已经无法对网络安全实现有效的防护。如何对网络的安全状况进行准确以及全面的评估和预测已经成为了当前互联网安全领域的重大课题。
1 网络安全态势量化评估
网络安全状况不能仅仅停留在定性分析的阶段,需要实时对当前网络的安全态势进行合理有效且准确的量化评估,才能及时纠察网络中所存在的隐患,才能为网络安全走势的预测提供强有力的依据,将网络安全威胁降低至最小。当下对于网络安全态势的量化评估方法虽然取得了已有的成果,但是有着各自的缺陷和局限。简而言之,模型设定过于复杂则响应的及时性大打折扣;反之,则评估的准确性不佳。
针对性地建立问题分析的体系,实现对于安全态势的量化评估。评估模型为了保障较强的适应性,需要针对网络中所存在的单体和群体攻击形式均能够评估,并且对于安全态势通过数字形式直观表达。
1.1 网络安全态势评估概述
网络安全态势的基本评估流程是:通过收集传感器或安全设备的警报信息,并将之进行整合、解析,建立与网络危害的关联性,据此来获得网络安全态势。要求评估后产生的数值能够直观量化当前网络所处的安全状况,进而获知网络所面临的威胁,为指导网络安全防御工作提供坚实的依据。值得注意的是,网络安全态势的数值并不能孤立地呈现网络的安全状况,且单一的态势值也无法用于对网络的安全走势的预测工作。需要通过对一段时间内网络安全的数据进行采集分析,形成一条曲线,而曲线的变化规律则可明确地表达网络安全的发展态势。
结合现有的研究成果,评估的方法主要可以分为如图1所表示的几个类型。
图1 典型网络安全态势评估方法
1.2 量化评估模型建立
1.2.1 人工免疫系统
该框架的目的是获得各领域人工免疫的实用方法,识别和获取免疫学的重要加工机制,并通过详细的生物学研究和分析进行定期验证实验,可用于推导新的算法设计思路。整个框架被反复实施,包括生物系统测试,观察,实验,结果简化,抽象,表示和模型构建。该框架可以为类似应用算法提供更好的灵感,如图2所示。
图2 免疫系统框架
事实上,计算机网络安全系统和免疫系统有很多共同之处。换句话说,系统必须在动态环境中稳定。生物免疫系统通过系统免疫细胞识别并杀死病毒抗原,抗体数量随抗原达到阈值后进行克隆,浓度上升;相反,在去除抗原的同时,抗体受到限制并且其浓度相应的降低,最终使生物免疫系统状态几乎稳定。因此,通过测量每种抗体的浓度,可以估计抗原侵入的类型和由抗原引起的风险水平。类似的,人工免疫系统通过继承生物免疫系统的多样特征,提供高强度的适应性和见状性。
如图3所示,通过感知系统中表征安全态势的元素,建立安全态势评估系统。系统可在大量的网络数据包中解析出有用的信息,以实现对网络安全态势的整体把控。
图3 网络安全态势评估模型
1.2.2 检测器的进化过程
检测器的进化机制为:当非成熟检测器的耐受到达α时进化为成熟检测器,当成熟检测器的抗原数到达β,其对自己进行克隆以进化至记忆检测器;当成熟检测器的抗体监测到抗原后,检测器中为其所克隆者归并至成熟检测器和非成熟检测器。这就是检测器的耐受和克隆。
当处于耐受阶段时,非成熟检测器的免疫耐受条件为成熟检测器在α内没有匹配自我集合的元素;若非如此,其被剔除掉。检测器与抗原或自我集合的亲和力通过Hamming距离匹配方法来获得。
fmatch(x,y)={1faffinity/ld>γ
0others
(1)
式(1)解析了自我集合元素x对非成熟检测器y的识别。其中,ld表示检测器长度,fmatch的取值0和1用于描述非成熟检测器与x的匹配情况,faffinity表征x和y的亲和力。
ftolerance(x,y)={1 ∃x∈Self,fmatch(x,y)=1
0others
(2)
式(2)描述了y对x的耐受情况,当ftolerance(x,y)的值为1时,非成熟检测器的耐受值进行累加,直到t≥α时,非成熟检测器进化为成熟检测器。
1.2.3 威胁检测
网络的活动在抗原监测阶段由成熟检测器和记忆检测器进行监控。在初始阶段,记忆检测器进行抗原监测。抗原在非自身抗原与抗体配对成功后,从抗原集合AG中剔除。若自身抗原成功匹配其抗体,则其集合MD将会剔除掉记忆检测器。抗原监测则改由成熟检测器进行,并将其从AG中剔除。如果成熟检测器在生命周期λ内对抗原的匹配次数大于β,成熟检测器变异为记忆检测器,β为匹配次数阈值。反之,成熟检测器在其生命周期内未激活或抗体与抗原成功匹配时被剔除掉。自我集合将添加余下的抗原,并对非成熟检测器进行匹配,以实现自我集合的更新,这也可以保障检测器的动态进化。
设记忆检测器的抗体浓度为η1,记忆检测器的抗体判定因子为η2。成熟检测器的匹配次数大于β时,其被激发,并被添加到记忆检测器中克隆:
Md=Md∪{d|d∈Td,d·p=η1d.age=0}
(3)
记忆检测器的抗体浓度如式(4),表征其相对应的抗原被消灭。
其中,θ>0是记忆检测器稳定后的抗体浓度值。
据此可得到网络安全威胁的检测模型如图4。
图4 威胁检测模型
1.2.4 网络安全态势评估模型的建立
在t时刻的网络攻击强度用st(t)表征,st(t)的值域为[0,1]。st(t)值域的上下界1和0分别表示最高威胁与完全没有威胁。st(t)可用于描述网络威胁的态势。
网络中的第i号主机在承受第j攻击时,其网络安全态势为:
(5)
其中φj(0≤φj≤1)用于描述危险程度,μj(0≤μj≤1)用于描述服务权重,ωi(0≤ωi≤1)用于描述主机的权重。
则在式(5)的基础之上,主机i对应的网络态势为:
进行攻击形成的网络安全态势为:
全网的总安全态势为:
2 网络安全态势量化预测
网络安全态势的量化预测一般有两种方式。
1.通过主观经验判断。基于某次入侵的预测结果,结合每种网络威胁分布比例,对后续的网络安全态势进行预测;
2.通过历史安全态势数据,对后续的网络安全态势进行预测。
相较之下,第一种方法更加依赖于系统设计者的经验,对结果的导向控制不够客观。
2.1 RBF神经网络
RBF神经网络,即径向基函数神经网络,其于80年代提出。RBF神经网络是一种典型的前馈神经网络,在它的结构中总共有三层,其中包含一个隐藏层。作为一种前馈神经网络,RBF神经网络具有局部的最佳逼近性能。
该神经网络的三个层分别负责:
1)输入层:隐藏层的信号来源;
2)隐藏层:通过径向基函数处理来源信号,并将结果输送至输出层;
3)输出层:对来自于隐藏层的信号重新聚合输出。
其结构如图5所示。
图5 RBF神经网络结构
输入层的输入用向量X=(x1,x2,……,xn)T∈Rn表示,输出层的输出用向量y∈Rm表示,wjk为权值矩阵W的元素,用以调整隐含层到输出层的输出信号,该信号用Φ=(φ1,φ2,……,φn)T表示,Φ为径向基函数向量。Φ中元素取值为:
(9)
式(9)所描述的φi是一个高斯函数,ci为其中心,σi为其宽度,L为隐藏层节点个数。
隐藏层到输出层的信号需要进行加权调整,最终网络输出为:
(10)
2.2 遗传算法
由于RBF神经网络的输出为局部最佳逼近结果,想要获得全局最佳逼近还需要经过处理。而遗传算法刚好可以胜任这个工作。遗传算法通常用于进行全局搜索,可在搜索过程中进行自适应寻优。
下面描述遗传算法求解问题的流程,具体流程图如图6所示。
图6 遗传算法流程
2.3 混合递阶遗传算法—径向神经网络预测模型
鉴于径向神经网络方法的收敛速度较慢且获得的是局部最佳逼近结果,将其与混合递阶遗传算法相结合可以将局部最优延拓至全局最优改善全局搜索性能。
神经网络结合混合递阶遗传算法的优化流程如下:
1)对控制基因和参数基因进行编码;
2)初始化种群P1;
3)对基因进行组合和解码构造RBF隐藏层;
4)最小二乘法确定输出层权值;
5)计算个体适应度;
6)如果满足终止条件则停止训练得到优化后的RBF神经网络,否则继续下一步骤;
7)选择、复制:确定各父代种群中的个体是否进入下一代种群P2;
8)交叉:对父代以概率Pc进行交换操作得到种群P3;
9)变异:对父代以概率Pm进行变异操作,得到新种群P4,并回归到第5步。
2.3.1 HGA编码
控制基因和参数基因共同构成了HGA中的染色体。控制基因编码为二进制方式,隐藏层节点的存在用1表示,反之,不存在用0表示,两种状态分别对应了参数基因是否有效。HGA编码如图7所示。
图7 HGA编码
2.3.2 初始化
遗传算法的收敛依赖于合适的种群规模,初始化设定种群规模为Q,在计算的复杂度和计算结果的理想程度之间取得一个折中。控制基因初始化为M,参数基因在[0,1]上随机初始化。
2.3.3 适应度函数
网络的精度目标函数:
(11)
网络复杂度的目标函数为:
F2=L
(12)
式(12)中可见网络的复杂度由隐藏层节点数决定。则为保障RBF神经网络的训练效果,适应度函数为:
(13)
其中,yi为期望输出,N为样本容量,y'i为训练网络输出,L为隐藏层节点数量。f的值与SSE和L负相关。
2.3.4 遗传操作
个体的期望值为:
(14)
式(14)中,通过个体适应度和平均适应度描述了个体的期望值的取值。
种群中个体是否进行多一次优化是由个体期望值决定的,种群由P1变为P2。进而通过交叉变异过程,使得新种群P3出现,因此需要对二者进行交叉以确保种群基因多样性。选取父代中的个体x1和x2,产生新的后代:
{y1=αx2+(1-α)x1
y2=αx1+(1-α)x2
(15)
α为[0,1]上的一个随机数。
在自然的生物环境中,种群的基因多样性是由基因突变造成的,类似地在遗传算法中,变异可以模拟出基因突变来确保更广阔的搜索空间。种群P3中的变异个体选择是随机的,并对该个体的基因进行随机的变异来形成新的种群P4。
变异概率Pm和交叉概率Pc均与种群内部的适应度有关:
式(16)和式(17),其中k1,k2,k3,k4在(0,1)上取值,最终选定k1=k3=1,k2=k4=0.5。Pc和Pm的值与种群的适应度的分散程度是负相关的。
3 实验
为验证本文所设计的评估预测模型的有效性,并且对于网络安全态势的预测具有较高的精度。采用HoneyNet数据集作为模型的学习样本。基于该数据集,对其中的15天网络安全态势进行预测,真实值与预测值如图8所呈现。
图8 原始数据与预测值对比图
从图8对比可知,基于混合递阶—RBF神经网络预测模型的网络安全态势预测值与样本实际值较为接近。平均相对误差、均方根误差均可用来衡量两组数据的差异性,同时将预测值视为对原始值的拟合结果,通过求解预测值曲线的可决系数可评估预测值对于原始值的还原程度。其结果如下表1所示
表1 预测值精度
从表1可见,平均相对误差以及均方根误差的值很小表示预测值与实际数据的总偏差很小,而可决系数高达0.9613的含义是,预测值中有96.13%的值符合真实值的走势,具有代表意义,由此可见采用本文所设计的评估预测模型对网络安全态势的预测是可靠的
4 结论
本文所设计的基于人工免疫系统的网络安全态势评估模型和基于混合递阶算法—RBF神经网络的安全态势预测模型相结合可完成对网络安全状况的整体把控和态势走向的准确预测。实验结果表明预测的平均相对误差和均方根误差均较小,而代表整体预测准确度的可决系数为0.9613,可简单理解为预测的准确度达到96.13%,这个结果已经可以非常精确地刻画网络安全状况的走势。