APP下载

基于智能计算的网络偏差数据提取数学仿真

2021-11-17陈艳君陈婷婷

计算机仿真 2021年8期
关键词:信息熵偏差样本

陈艳君,陈婷婷

(南昌大学科学技术学院,江西南昌330029)

1 引言

网络技术得到了飞速的发展,大众普及程度也在逐渐提升,网络业务种类也随之增多,成为了人们必不可少的工具[1]。根据调查研究可知,Internet已经是现今全世界范围内最大的资源共享平台,渗透到了经济、政治、教育、军事等多个领域,成为了现今整个社会的基础设施。随着网络的不断发展,用户经历了由网页时代→网游时代→网商时代的变化,其对网络安全性与性能的需求也在提升[2]。由于网络环境复杂程度的增加,如何有效的管理网络成为现今制约网络发展的关键问题之一。

网络发展为人类带来便捷的同时,也产生了新的危机,网络攻击事件越来越频繁,安全漏洞修补速度远远跟不上网络攻击方法的更新速度,极大的威胁着网络的稳定运行,也降低了网络的性能,为网络管理带来严峻的挑战。在网络遭受到攻击过程中,攻击初期网络数据会产生一定的偏差,后期则会导致网络信息泄露,严重情况还会导致局域网络瘫痪。由此可见,若是可以及时的发现并提取网络偏差数据,即可为网络防御提供充足的时间以及原始数据支撑,为网络管理质量的提升提供了一个新的方向。相关学者也对此进行研究。邵光远,刘凯[3]提出了一种基于统一计算设备架构(CUDA)的GS流和IP数据的提取方法,从任务划分,降低耦合度,负载均衡的角度进行了设计和优化,基于CUDA的解决方案获得了极大的性能提升,在GTX 1050Ti平台上达到了20~22倍的加速比,但是提取覆盖率较低;金海波,马海强[4]提出一种基于统计深度方法的函数曲线特征分段提取算法.利用数据平滑技术对离散观测的数据进行平滑化处理,同时引入函数型数据的一阶和二阶导函数;然后,分段计算函数本身及其低阶导函数的马氏积分深度值,在此基础上构造函数曲线特征向量,给出三种选择调节参数的搜索方案,并进行分类研究,所提算法能有效提取函数曲线特征,提高分类的准确性,但是提取用时较长。

就现有研究成果来看,现有网络偏差数据提取方法在网络吞吐量达到10000Mbps以上后,有偏差数据提取覆盖率较低、时间消耗较多的缺陷,无法满足目前网络性能的需求,故提出基于智能计算的网络偏差数据提取数学仿真研究。智能计算指的是一种经验化的计算机思考性程序,主要功能为辅助人类解决复杂问题,其包含多种智能计算算法,例如遗传算法、进化算法、人工鱼群算法等[4]。此研究依据网络偏差数据提取需要,选择适当的智能计算算法,以此来改善文献[3]方法的局限性,为网络管理提供保障。

2 网络偏差数据提取方法研究

2.1 检测网络偏差数据

网络由大量的节点构成,并且具备着数据量庞大的特征,若想快速的、精确的提取网络偏差数据,首要的任务就是实时的检测网络偏差数据。由于常规算法存在着空间复杂度高的问题,容易导致偏差数据检测的缺失,故此研究基于信息熵对网络偏差数据进行检测[5]。

基于信息熵的网络偏差数据检测程序如图1所示。

图1 基于信息熵的网络偏差数据检测流程图

如图1所示,随着采集时间的不断变化,改变网络节点所获取数据的形式[6]。常规情况下,时间t处采集的数据与历史数据与后继数据存在着时间相关性,故此研究设置时间间隔为ΔT,则网络数据时间序列可表示为

X(T)=[…,x(t-ΔT),x(t),x(t+ΔT),…]

(1)

以式(1)为基础,计算网络数据信息熵序列,反映窗口内数据序列的分布特征。设置滑动窗口规格为W,窗口内数据序列记为Xj(t),其信息熵记为hj。设定数据序列Xj(t)取值范围为R={x1,x2,x3,…},其信息熵计算公式为

(2)

式(2)中,pi表示的是每个网络数据采样概率;count(xi)表示的是数据xi在窗口内数据序列Xj(t)中出现的次数。

随着窗口[7]的持续滑动,按照顺序计算窗口内数据的信息熵,得到数据信息熵时间序列为H(t)={h1,h2,h3,…,hj,…}。

联合偏差概率计算公式为

P=1-(1-c1p1)(1-c2p2)

(3)

式(3)中,P表示的是联合偏差概率;c1与c2表示的是权重系数;p1与p2表示的是数据偏差概率与信息熵偏差概率[8]。

数据与信息熵偏差概率由窗口内不与某一数据点相邻的数量与窗口规格大小的比值计算而得[9]。而窗口内不与某一数据点相邻的数量由数据之间距离与阈值比较确定,确定规则如下述公式所示

(4)

式(4)中,D表示的是数据之间距离;σ表示的是设置阈值;n表示的是窗口内不与某一数据点相邻的数量。

通过调节权重系数c1与c2,可以控制数据偏差概率与信息熵偏差概率在偏差数据检测中的权重比例,以此来提升网络偏差数据的灵活度。

联合偏差概率需要满足下述公式

(5)

式(5)中,Ee(p)表示的是节点在窗口内偏差概率的数学期望,稳定环境下为常数;En(p)表示的是网络稳定工作时偏差概率的数学期望;σp表示的是联合偏差概率阈值。

2.2 获取网络偏差数据特征响应函数

以上述获得的网络偏差数据检测结果为基础,采用遗传算法对其进行更新与平滑处理,并通过平方差函数值最小机制更新偏差数据的中心点,计算偏差数据的功率谱密度函数,将其作为网络偏差数据特征,从而获取网络偏差数据特征响应函数[10]。

假设网络数据集合X中每个数据均是ρ维矢量,采集时间t处的网络数据变量记为δ。当∂δ=1时,表明网络数据为正常数据;当∂δ=-1时,表明网络数据为偏差数据。则网络偏差数据的频域模型为

(6)

则每一类别网络偏差数据样本属于该类别的隶属均值为

(7)

式(7)中,Kζ表示的是第ζ类别的网络偏差数据样本总数量。

(8)

(9)

将式(9)估计结果代入至式(8)即完成了网络偏差数据特征模型的构建,为后续偏差数据快速提取打下坚实的基础。

设置网络偏差数据训练集为L,样本类别中已知类别为φm,利用遗传算法对偏差数据进行特征优选。定义网络偏差数据融合滤波器函数表达式为

(10)

式(10)中,αt(i)表示的是网络偏差数据的检测节点信道偏差;bj(ot+1)表示的是方差为1,均值为0的高斯函数;Sd(f)表示的是多普勒功率谱。

遗传算法偏差数据特征优选主要通过迭代查询形式,其表达式为

pri(t)=p(t)*qi(t)+H(f)

(11)

式(11)中,pn(t)表示的是迭代查询散布形式;p(t)表示的是时间t处的网络偏差数据特征集合;qi(t)表示的是p(t)提取过程中的变异参数。

则网络偏差数据特征响应函数表达式为

Sri(t)=Sd(t)*q′i(t)+pri(t)

(12)

式(12)中,q′i(t)表示的是网络偏差数据的信道响应函数。

通过上述过程获得了网络偏差数据特征响应函数,为后续网络偏差数据的快速提取提供精确的依据。

2.3 提取网络偏差数据

以上述确定的网络偏差数据特征响应函数为偏差数据判定依据,结合网络偏差数据的距离与密度,改善现有方法的缺陷,基于智能计算算法实现网络偏差数据的提取[11]。

常规情况下,对于网络偏差数据样本点,包含两个参数,即为网络偏差数据距离Φi与密度ρi。其中,网络偏差数据距离计算公式为

Φi=min(dij)

(13)

式(13)中,dij表示的是网络偏差数据样本点i与j之间的距离。

网络偏差数据密度由截断距离来决定,常规情况下,截断距离的选取原理为:将全部偏差数据样本点之间的距离依据从大到小的顺序排列,计算前3%距离数值的平均数值,将其作为截断距离。则网络偏差数据密度计算公式为

(14)

式(14)中,dc表示的是截断距离。

上述过程获得的截断距离未考虑到网络偏差数据的局部特征,故需要对截断距离进行一定的修正。在网络偏差数据集合中,计算某一偏差数据样本点i与其它样本点之间的欧式距离[12],记为d(i,j),依据降序排列,则偏差数据样本点i的κ个最邻近表示为

N(i)=d(i,j)≤d(i,Nκ(i))

(15)

式(15)中,Nκ(i)表示的是第κ个相邻近距离的偏差数据样本。

则偏差数据局部密度计算公式为

(16)

式(16)中,κ由网络偏差数据样本数量的百分比决定。以式(16)计算结果为基础,计算精确的网络偏差数据欧式距离为

(17)

式(17)中,N表示的是网络偏差数据样本数量。

3 数学仿真分析

为了验证提出方法与文献[3]方法、文献[4]方法之间的性能差异,采用数学仿真软件——CSDN软件设计仿真,具体实验过程如下所示。

3.1 数学仿真方法简介

数学仿真指的是以近似数学方程式为基础的仿真方法,实质上就是采用数学公式来表示被仿真对象。数学仿真基本步骤如下所示:

步骤一:依据实验目的构建系统的数学模型;

步骤二:依据构建数学模型的特点选择适当的计算机作为仿真工具;

步骤三:将数学模型转换成选择计算机能够接受的形式,也将其称为仿真模型,同时将转换后数学模型输入至计算机中;

步骤四:构建计算机输入数学模型,同时记录各个状态量的变化情况;

步骤五:输出实验结果,同时形成实验报告。

依据网络偏差数据提取的需求,选择CSDN软件作为数学仿真工具,以此来进行网络偏差数据提取实验。选取计算机配置如表1所示。

表1 计算机配置表

3.2 实验数据准备

实验所用网络数据来源于英特尔伯克利研究所,其数据集合由35个传感器节点构成的网络采集所得,其网络部署结构如图2所示。

图2 网络部署结构图

将偏差数据注入实验网络中,为了提升实验的客观性,对实验网络数据进行随机打乱,提高后续实验进行的公正性。

另外,设置滑动窗口规格为1000,窗口滑动设置为持续滑动形式。在时间t处滑动窗口内包含100个网络数据。

为了显示偏差数据注入后网络节点的变化,给出某一时刻的滑动窗口内网络数据信息熵变化情况示意图,如图3所示。

图3 网络数据信息熵变化示意图

3.3 实验结果分析

依据上述选取的数据仿真软件,准备的实验数据进行网络偏差数据提取实验。自变量选择网络吞吐量,其区间为10000-50000Mbps,通过偏差数据提取覆盖率与时间消耗数据反映方法性能。

通过实验得到偏差数据提取覆盖率数据如表2所示。

表2 偏差数据提取覆盖率数据对比结果

通过实验得到偏差数据提取时间消耗数据如表3所示。

表3 偏差数据提取时间消耗数据对比结果

如表2、表3数据显示,在网络吞吐量10000-50000Mbps背景下,与文献[3]方法、文献[4]方法相比较,提出方法的偏差数据提取覆盖率更大,时间消耗更少,充分表明提出方法具备更好的网络偏差数据提取效果。

4 结束语

此研究引入智能计算技术,并依据网络偏差数据提取需求,选择了适当的智能计算算法——遗传算法,提出了全新的网络偏差数据提取方法,采用数据仿真形式验证了提出方法的性能,发现提出方法极大的提升了偏差数据提取覆盖率,降低了时间消耗,可以为网络管理提供更加有力的支撑。

猜你喜欢

信息熵偏差样本
基于信息熵可信度的测试点选择方法研究
50种认知性偏差
如何走出文章立意偏差的误区
加固轰炸机
规划·样本
近似边界精度信息熵的属性约简
真相
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
基于信息熵的承运船舶短重风险度量与检验监管策略研究