APP下载

多线程电子通信网络数据流冗余量消除方法

2021-12-10梁振宇

计算机仿真 2021年11期
关键词:数据流字节样本

李 菲,梁振宇

(1.中国人民武装警察部队辽宁省总队,辽宁 沈阳 110000;2.沈阳大学建筑工程学院,辽宁 沈阳 110000)

1 引言

电子通信网络具有多线程性,用户在不断地交换、传输数据流的过程中,会产生大量的冗余流量或数据碎片,这些冗余的数据流会不断增加存储负担,降低网络速度。因此,消除电子通信中数据流的冗余是十分必要的,目前,它在信息技术领域受到了广泛的关注,是现阶段的研究热点之一。

文献[1]为减少测试变异数,缩短测试运行时间,研究了变异测试优化技术,提出了基于数据流分析的冗余变异概念和冗余变异识别方法。通过11 C程序对该方法的可行性和有效性进行了分析,但由于过于注重数据之间的相关性,容易忽略网络环境的约束,影响冗余数据关联规则的准确性,增加冗余数据的误判率,降低了消除效率。文献[2]冗余消除方法是将数据分割成数据块。该方法需要建立一个基于冗余数据特征的关系空间,将切割后的数据片段输入到该空间中,然后利用特征关系属性找到与冗余特征相关的数据块,最后逐个剔除,完成对冗余数据的清理。但是,由于需要对所有的数据逐一进行剪切,任务庞大,目标范围过大。对于数据量大的网络环境,会出现冗余干扰等现象,降低了消除效率。

本文基于上述问题,提出一种多线程电子通信网络数据流冗余量消除方法。

2 冗余数据流特征提取

网络信息环境下数据特征具有相似性,在剔除冗余数据时,特征相似的数据往往会导致多重分类处理的现象,容易产生错误,影响剔除的准确性。此时,有必要对具有相似特征的数据进行查找和分类,有助于提高后续冗余数据流消除的速度,减少相似性对消除过程的干扰,提高整体效率。

分类前需要提取数据的特征,并采用假设和主动抽样的方法提取数据的特征,并以计算出的特征值作为判断依据来确定相似数据。

首先,假设对初始数据进行采样的所有样本合集数目为N,则样本合集的最大类别表示为Nmax;最小类别表示为Nmin,基于此可引出,当包含初始数据的最大类别的样本合集数量多于最小类别的样本数量时,可表示为Nmax≻Nmin,设ρl为每类数据样本集合中的分类密度特征[5],计算公式为

ρl=Ml/K(l=1,2,…,Nmin)

(1)

其中,K表示活跃在数据特征空间中,且最符合欧式距离关系的邻近数据值[6-7],Ml表示包含此邻近数据值K的最大类别的特征样本合集,以此可以准确判断出ρl∈[0,1],与其相关的分类密度ρl可表示为

(2)

假设,第p个数据特征的样本集合在第j次提取表现时的特征目标数值为dpj,输出数值为ypj(τ),根据此关系,推导出符合约束条件的数据特征表达式为

(3)

其中,τ表示数据进行多次迭代的次数[8],n表示最终输出的特征数据数量,m表示最后一个样本训练合集包含数据的数量,根据数据迭代的所有次数将其表示为

w(τ+1)=w(τ)+ηΔw(τ)+α(w(τ)-w(τ-1))

(4)

其中,η表示数据迭代的效率,α表示基于相似特征的动态变量因子[9],根据式(4)进行数据提取时的特征收缩量表示为[10]

(5)

式中,φpj(τ)表示输入初始数据的总数目,o(τ)表示输出相似特征数据的总数目,以此为基础,完成基于网络大环境下的相似性数据特征提取。

设含有正常数据的训练样本集合表示为Nh,线性激励函数表达关系为g(x),包含相似特征数据的样本表示为(xq,tq),且符合以下约束条件

xq=[xq1,xq2,xq3,…,xqn]T∈Rn

(6)

tq=[tq1,tq2,tq3,…,tqm]T∈Rm

(7)

根据上述两种公式关系,可建立最终的相似性特征数据的提取公式如下

(8)

其中,f表示相似数据的数量。

3 冗余数据流特征分类

基于相似特征数据的有效提取,采取数据动态特性的频谱分析法对其进行有效分类。

冗余数据的特征会呈现一种离散状态[11],根据此特性建立相关分析公式,设数据采集空间关于时间的关系为z=z0,其冗余数据特征在空间内的离散状态表示为

S+(zm)=W+(zm,z0)S+(z0)

(9)

其中,W+(zm,z0)表示空间内时间点z0到zm的特征分类的数据算子,S+(z0)表示冗余数据的分类合集,在进行有效分类时,可以通过减去前M阶级再进行逐一分类,M阶级前的分类处理结果为

p(z0)S+(z0)

(10)

其中,p(z0)表示初始数据,t(z0)表示冗余数据的关键特征。

假设,f0表示原始数据的离散动态频率,冗余数据的分类处理结果为

(11)

基于上述过程,利用频谱关系[12]的线性分析法可以得到最终的适应函数,能实现对大量冗余数据的分类,其表示为

F=XmaxA+(1-Xmax)B

(12)

其中,A表示分类精准度,B表示消除的比例,对此实现加权操作,得出最终分类处理结果

(13)

基于上述步骤可完成最终的冗余数据分类方法,为后续消除处理打下良好基础。

4 结合冗余数据流特征的冗余量消除算法

4.1 冗余数据流动态查找

根据上述过程中相似特征数据的计算和分类,可以根据相似特征阈值快速确定数据的离散状态,在一定程度上保证了后续冗余数据流搜索和消除的效率。

利用网络环境中冗余数据的动态变化特性和更新状态,进行实时跟踪记录,标记网络中字节频率变化最大的数据流,实时观察其变化情况,并且所有数据流状态表现最相似的数据都可以判断为冗余数据,从而完成多线程电子通信,查找网络中所有冗余数据流的具体操作步骤如下。

1)首先,假设在多线程电子通信网络中有256种不同类别的冗余数据流,且在实时状态下出现的频率为[p0,p1,p2,…,p255],而在这之中,所有数据流的字节值在初始时表现的不同状态的概率为[f0,f1,f2,…,f255],挑选在其中表现状态不同的字节值表示为x0,x1,x2,…,x255,并将其进行串联合并就可得到

(14)

此公式代表,挑选出的所有经过标记后的冗余数据的出现概率都要小于且等于此数值1/p。

(15)

其中,fi表示动态查找的最大限度值,且利用greedy算法,对此公式进行求解即可得到离散状态下的实时冗余数据位置。该算法的计算特征是不考虑整体的数据情况,只以其中某一个测量点为选择重点,进行计算,在一定程度上可减少耗用时间,增强查找效率。

4.2 冗余量数据流消除实现

利用加权算法对冗余数据进行有效消除,步骤如下所示:

首先,建立冗余数据消除空间,然后将上述过程中发现的冗余数据放入空间,实时跟踪记录冗余字节值的数量和频率,并对冗余频率不同的数据片段进行加权和集成,以去除重复数据片段。具体步骤如下:

假设,在对冗余数据进行统计计算时,将标记的首个字节为A的冗余数据片段的左右距离表示为L,其中,挑选左右距离为L的有效数据片段,表示为LS。这时如果选中前一位数据,后一位就会被覆盖,此时就需要进行消除处理,步骤如图1所示。

图1 重复覆盖数据处理流程

在实际的网络冗余数据消除过程中,其数据流在离散状态下的贡献频率为

(16)

式中,cA表示重复冗余数据的修正频率。

处理重复数据后,通过随机映射的方式将冗余数据包与正常数据包进行交换,设BF为随机映射函数,长度为m,其网络代码的二进制数目为q,e表示随机映射合集。当将其输入至冗余数据空间时,可以通过映射检测得出其中的比特元素编码,该编码可以对冗余数据实现有效替换,它们的替换关系表示为

p≈(1-e-qn/m)q

(17)

其中,n表示替换元素。为了有效保证冗余数据替换消除的时效性,需要选取距离长度为m=2.5MB的二进制数据编码,可以在最大程度上实现冗余数据的消除。

在多线程电子通信网络中对冗余量的整体消除流程下所示。

图2 冗余数据的消除流程

5 实验研究

5.1 实验背景

为了确认多线程电子通信网络中冗余消除过程的有效性,采用数据配置为Intel XeonE3-1230V2的终端服务器,4核配置的CPU处理器,8G内存,128G固态硬盘等作为实验工具。采取某地区的三种电子通信网络,将其引入大小为70.2GB的流量包,进行冗余数据的特征和查找以及最后的消除,确保实验环境的可实施性。

将文献[1]和文献[2]方法与本文进行对比分析,保证实验结果的真实性及合理性,其网络环境及流量参数如表1所示。

表1 实验环境及流量参数

5.2 字节节省空间对比分析

挑选表1中的1号和5号大范围跟踪数据作为实验背景,其目标范围较大,可以保证实验的直观性。通过三种方法分别对两种跟踪数据下的所有冗余数据进行消除,得出实验的字节数据节省空间对比结果如图3所示。

图3 跟踪数据1号的字节数据节省空间

从图3和图4的对比分析结果可以看出,无论在哪种流量环境下,基于本文的冗余数据消除方法的字节节省率都要高于其它两种算法30GB以上。其它两种方法中,字节节省率曲线呈现出波动大、状态不稳定的下降趋势。这主要是因为它过于依赖冗余数据的特征属性,而忽略了原始数据造成的冗余干扰。数据之间的相似性会导致多次分类处理无果的现象,导致离散状态的冗余数据频繁出现,无法消除或残存,数据完整性较差,从而降低了准确率和效率。但是因为本文方法在搜索和消除冗余数据之前,该方法首先计算并分类原始数据相关特征的相似度,可以有效地对特征相似数据进行区分,而不存在冗余干扰,从而减少后续消元过程中的判断误差,提高整体准确度,保证消元过程的有效实施。

图4 跟踪数据5号的字节数据节省空间

5.3 加速比分析

以表1中的4号跟踪数据作为实验背景。通过三种方法分别对两种跟踪数据下的所有冗余数据进行消除,得出消除过程的整体加速比指标的对比结果如图5所示。

图5 跟踪数据4号的加速比对比

加速比表示基于同一项目任务的任意两种处理系统的数据运行耗用与时间消耗的比值,其表达公式如下所示

(18)

式中,p表示CPU耗用数量;T1表示整体耗用时间;Tp表示任务处理时整体耗用的时间。

从图5的对比分析结果可以看出,使用本文方法的加速比曲线整体走势平缓,稳定性较强,

表明消除过程耗用时间较少,速度较快,可以降低网络的延迟性,改善数据储存问题。

6 结论

1)对原始数据进行特征相似度搜索和分类的预处理,可以有效地改善原始数据造成的冗余干扰和处理的恶性循环,加速比最高可达8,大幅提高后续的消除效率和处理难度。

2)采用数据替换的方法可以有效地消除冗余数据流量,同时又不破坏数据的原有特性,保证数据的完整性,高于其它两种算法30GB以上,可以节省大量的网络空间,优化多线程电子通信网络。

猜你喜欢

数据流字节样本
优先级驱动的泛化航电网络实时性能分析
No.11 字节跳动计划自研芯片:仅供内部使用
No.8 字节跳动将推出独立出口电商APP
汽车维修数据流基础(上)
汽车维修数据流基础(下)
数据流安全查询技术综述
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
“官员写作”的四个样本