含噪声混合云大数据流量SDN控制方法仿真
2023-09-20潘志安王茂发陈亚睿
潘志安,王茂发,陈亚睿
(1. 防灾科技学院信息工程学院,河北 三河 065201;2. 桂林电子科技大学计算机与信息安全学院,广西 桂林 541004)
1 引言
互联网的普及,使网络负载及网络传输效率以及系统容量都面临巨大考验。为尽快解决当下面临的问题,提出一种将LTE网络与IEEE 802.11网络相结合的方案,该方案虽然可以解决适当增加系统容量,在一定程度上减轻网络负载,但仍存在各类流量控制的难题,这也使得大数据流量的实时控制成为当下研究的热点。
谷保平等人[1]利用SDN控制器实现信息收集,通过构建分类功能,找到一个调度值输入到TX节点中,以此减少对于lcore的占用,实现流量控制的目的,该方法吞吐量大,但丢失率较高。闫伟等人[2]将网络传输数据分类,提取对时延敏感的数据输入至最小时延的网络中,将其余数据依据时延敏感程度分别放入对应时延大小的网络中,以此达到控制流量的目的,该方法数据传输速率较高,但时延较大。王新语等人[3]利用模拟节点的方式构建流量控制复杂模型,并结合迭代算法获取数据取值集合,结合Agent技术建立控制系统,通过划分对应区域的方式达到流量管理的目的,该方法具有较高的适应性,但流量输送总量较少。
为了解决上述问题,提出基于SDN技术的混合云大数据流量实时控制方法。将大数据流量中的噪声去除,采用SDN网络实现对数据流量的控制,同时学习并优化流量控制器,达到流量实时控制的目的。
2 方法
2.1 数据流量去噪
为了对大数据流量精准控制,利用变形检测数据噪声分离法对其含有的噪声分离去除,其过程如下:
将包含噪声的流量数据y(u)采用改进的完备集合经验模态分解(ICEEMD)的方式分解[4],通过计算获取y(u)与各个IMF分量间的相关系数。当处于L1-1阶的系数出现局部极小值时,则将位于L1-1阶的IMF分量判定为噪声分量。
对未实施判定的L1-1阶分量重构处理,并以此作为虚拟噪声,假设n为观测信号,其得到的函数如下所示:
(1)
当重构得到的虚拟噪声越接近于真实噪声,则可以分离获取出的原信号就越准确。但只经过一次分解的分量不可能将原信号完整有效的完全分离出,需要利用ICEEMD方法对分解过后的noise信号二次分解,并剔除其中所含的有效信息,在此基础上构建二次分解后的噪声分量,得到更为准确的噪声信号,其以noise2代表。
将得到的噪声分量与序列y(u)组合,得到多维观测通道,并以此作为输入数据输入至ICA中,在此基础上结合FastI-CA算法去噪分离,以此得到含有有效信号的独立数据分量y′(u)。
据研究表明,ICA中存在三大不确定性的问题,为了解决其三大问题所带来的影响,需要利用MDP准则与相关系数结合的方法处理其得出的独立分量[5],其过程如下:
通过计算得到y(u)与y′(u)间的相关系数如下所示:
(2)
通常情况下,0≤σy′y≤1。y(u)与y′(u)的相似度与σy′y值的大小成正比,可以此作为判别ICA分离出的y′(u)是否需要重新排序的依据,从而得到确定的排序,解决其不确定性的问题。
经过上述操作后,并不能完全消除分量与原信号间的不确定性,即相位不确定性,也就是说二者之间可能处于同向或反向位置。当两者处于反向位置(-1≤σy′y≤0)时,其得到的波形互为镜像。由此可以得到σy′y不仅可以解决排序不确定性的问题,同时还可以确定相位。综上所述,反向时y′(u)可直接取负值。
将得到的X2与ICA的输入观测信号相乘,获取幅值确定的y′(u)。在消除流量数据噪音时,不需要对其相位处理,根据上述步骤可以确定y′(u)的准确值。由此可以对噪声精确提取并消除。
2.2 流量控制器布置条件
在得到去噪后的流量数据结果后,将得到的精确数据流量输入至SDN网络实现对于数据流量的控制。在操作过程中,为满足不同用户对于网络的需求,还需要使SDN的相应时间应尽量缩短[7]。想要缩小控制时延,可以将控制器均匀分布,为此需要得到控制器分布的最远距离,以求得最优的控制时延。
假设控制器分布的最远距离为E,E的值越大,表示局部节点与控制器距离较远,控制器分布集中;反之则分布均匀。由此可以得到E的数学模型如下:
(3)
其中,T表示交换机集合,D为控制器集合,ej,k表示任意两节点间的最短路径。将时延用U表示,用Uj,k代表交换机tk与dj之间实行信息交换所需时间,qj表示控制器dj的处理能力,其表达式如下所示:
(4)
(5)
其中,O代表节点总数。Uj值与控制器的控制效果越好。以负载均衡作为前提条件[9],将控制时延U表示为各个dj控制时延之和,若用rj表示dj的负载,则可以得到如下表达式:
(6)
其中,N代表网络中所有控制节点总数。由上述计算可以得出,控制时延与负载大小成正比。在处理器不同的情况下,当各处理器拥有相同的处理能力,负载的大小决定处理器的时延大小,即负载越大,时延越长,因此在网络中出现过载现象时,网络的控制时延将无限增长。综上所述,负载加权方法不仅降低网络时延,更平衡了网络控制器的负载。
在部署控制器实行网络规划时,还需要考虑的一个重要因素是控制链路的可靠性[10]。将控制链路的失效概率记作sf,其与链路长度成正比,即链路越长,sf越大。由此可以得到sf的数学模型如下所示:
sf=(1-βv)ef
(7)
其中,βv代表单位长度的失效概率,ef表示链路长度。由于各链路间存在差别,因此不同链路所拥有的失效概率βv也不同。位于轨道间的链路由于在极点附近时会被卫星关闭,频繁的开关使得其比轨道内的链路的βv要高。
将节点失效概率记作so,其代表的是位于网络中的节点无法正常工作的概率。将控制节点的失效概率记作ψ。在部署控制器时,需将其放置在so较小处,以此保证网络可靠性。由此得到ψ的数学模型为:
(8)
假定控制链路的可靠系数用S表示,其是由sf与so共同决定的,由此可以得到tk与dj之间的Sj,k的数学模型如下所示:
(9)
其中,Fj,k表示两节点间最短路径经过的直连链路集合,Wj,k为两节点间最短路径经过的节点集合。dj所对应的可靠系数Sj为其所处区域各个可靠系数的平均值。在考虑负载均衡的情况下[11],各个控制域内可靠系数按负载加权的和可以得到整个网络的可靠系数S,由此可以得到Sj与S的数学模型分别为:
(10)
2.3 流量控制器部署
在明确了最优的控制器部署位置后,便可以对流量控制器部署。在已知的网络环境H(W,F)中,W代表其中所有节点集合,假设集合中含有o个节点,那么可以得到|W|=o,假定用F∈W×W表示链路集合,用边权重表示网络时延。想要准确的对流量控制,需要拥有较小的平均时延以及布置较少的控制器数量(用l表示)。网络中各控制器的平均时延Mb的数学模型如下所示[13]:
(11)
其中,w表示节点,t为控制器,且w,t∈W,则e(w,t)表示w到t的最短路径。在实现控制器部署之前,需要获取其部署集合T′,且|T′|=l,其中Mb的大小与l的大小成正比。
将所有节点编号处理,用{D}代表t的集合,且|D|=D。用{T}表示交换机集合,且|T|=o。若控制器与交换机位置重叠,则∀j∈{T},∀k∈{D},当yjk取值为1时,则表示在k交换机处部署控制器,当yjk取值为0时,则不部署。
利用BPSO算法将各粒子的局部以及全局最优限制为0或1[14],其它不作限制,可以得到粒子Yj=[yj1,yj2,…,yjk,…,yj,o],以此作为部署控制器的一种方案,其中的j表示粒子编号,k代表交换机编号。若在一个交换机位置只能部署一个控制器,并且一个控制器至少要控制一个交换机,那么可以得到的优化目标的数学模型为:
(12)
其中,g1(Yj)和g2(Yj)分别代表控制器总数与各节点到控制器的平均时延。
(13)
式中:rmax表示各交换机到控制器的平均跳数,通常情况下为大概数值,mr代表r跳的物理链路[15],ib则表示各节点的平均跳数。由此可以引申出控制器部署的约束条件为:
(14)
假定网络环境中一个控制器对应一个交换机,且二者间流量流通时延为0,则当∀j,k,k=j时,ek,j=e(k,j)=0,由此可以得到:
(15)
反之当网络中只有一个控制器时,交换机与控制器间的流量流通时延最大,则可以得到:
(16)
根据上述约束条件实现流量控制器的部署,得到最优的流量控制效果,以此实现对网络云大数据流量实时控制的目的。
3 实验与分析
为验证基于SDN技术的混合云大数据流量实时控制方法的整体有效性,需对其测试。选取15台PC机作为实验对象,利用所提方法、交换网络流量控制方法(参考文献[1]方法)、数据分类和最小时延流量控制方法(参考文献[2]方法)和复杂网络的流量控制方法(参考文献[3]方法)对其流量实时控制的稳定性展开对比实验,得到的结果如图1所示。
图1 各方法流量控制稳定性对比
从上图可以看出,随着时间的推移,使用交换网络流量控制方法、数据分类和最小时延流量控制方法和复杂网络的流量控制方法控制的网络流量数据流速均有较大波动,而使用所提方法控制的网络流量数据流速波动幅度平缓。这是因为所提方法学习并优化了流量控制器布置所需条件,降低控制器时延。因此在实际应用过程中可以有效降低网络数据流量流速的波动,更好的实现实时控制网络流量的目的。
采用不同方法对流量控制过程中单位时间内的网络数据吞吐量对比,每个方法各取1流、3流和5流对比,得到的结果如下所示。
表1 各方法网络数据吞吐量对比(B/s)
由上表可以看出,在同一流为前提的条件下,所提方法在单位时间内的数据吞吐量均大于其它三种方法在单位时间内的数据吞吐量,因此在实际应用过程中,利用所提方法对网络云数据流量控制所输送的数据总量更多,更能满足大众需求。
利用不同方法对流量控制过程中数据丢失率展开对比实验,实验结果如图2所示。
图2 各方法数据丢失率对比
由上图可以看出,在时间条件相同的情况下,所提方法的数据丢失率低于0.02%,比其它三种方法数据丢失率低且变动较为稳定,因此所提方法可以更好的适用于实际情况下的流量实时控制服务。
4 结束语
为解决网络大数据吞吐量较低、丢失率较高且对于流量实时控制的稳定性较差的问题,提出基于SDN技术的混合云大数据流量实时控制方法,该方法对现有数据网去噪处理,明确并优化控制器的部署条件,部署控制器以达到控制流量的目的,该方法很好的避免了目前方法存在的问题,能更好的满足大众的需求,为互联网的普及提供保障。