网络流量时延特征数据的识别方法仿真

2022-06-14周家恺綦方中

计算机仿真 2022年5期

周家恺，綦方中

(浙江工业大学，浙江杭州 310023)

1 引言

近年来，我国互联网接入技术的基础设施不断完善，智能终端设备开始大范围普及[1，2]，各种应用服务持续创新。手机作为典型的通信设备，主要通过链路方式和互联网进行连接，在不同的接入条件下[3]，各个用户的行为和偏好存在明显差异。现阶段，只有运营商才有资格控制大规模的流量，但是专家没有权利公开获取数据。未来阶段深度网络特点的分析和预测是互联网发展的主要趋势，尤其是网络流量时延特征识别。

国内外相关专家针对该方面的内容进行了大量的研究，例如黎佳玥等人[4]优先训练网络，获取网络流量的特征变化趋势，将其作为判定依据进行网络安全事件识别。武思齐等人[5]分别从硬件特点和用户的行为偏好等角度出发获取具有代表性的数据流，针对各个特性进行处理和分析，采用集成学习算法构建识别模型，完成移动流量识别。由于上述两种方法未能在网络流量时延特征识别过程中构建极端梯度提升模型，导致识别结果不理想，响应时间也较长。

为解决上述问题，设计并提出一种基于朴素贝叶斯的网络流量时延特征识别方法。测试结果表明，所提方法能够获取高精度高效率的识别结果。

2 方法

2.1 网络流量时延特征

网络流量时延产生的原因是多种多样的，利用图1给出网络时延产生的主要因素[6]。

图1 网络时延形成因素

当数据从发送端发出到接收端收到，导致时延产生的主要原因有：

1)通信链路限制

主要是受访问链路以及路由等相关因素的限制。

2)网络负载变化

网络负载变化主要是由网络波动和用户流量等因素造成的，若时延波动较大，说明网络负载抖动较为明显。在通信链路中由于其特性导致时延的形成，不同类型的通信方式会对网络时延产生不同程度的影响。在实际研究的过程中，设定网络负载引发的时延为噪声，以此为依据分析通信链路限制对网络流量时延特征的影响，为后续的识别奠定基础[7，8]。

当用户进行互联网访问时，需要优先接入网络运营商，利用运营商的核心业务连接互联网的骨干网络。其中，通信链路是由接入链路和互联网路由链路组成。

若网络负载对数据时延产生的影响不明显，此时网路流量中的时延主要是由通信链路噪声产生的。另外，网络和固定网络两者之间是完全不同，区别在于通信链路的接入方式。

由于电量是影响设备运行的主要因素，但是设备并不是时时刻刻都在进行数据传输，若设备处于高速传输时，需要将状态调整为高功率状态；反之，则将其调整为空闲状态，有效降低电能损耗。若系统终端一直处于空闲状态，说明无数据传输，网络呈IDLE状态，优先连接无线网络，同时进一步转换为CELL—FACH状态，确保网络通信的顺利进行，但是产生的时延较长。当网络中数据传输速率高于阈值时，RRC会自动调整到最佳运行状态。由于网络终端流量的使用情况并不规律，运行状态也需要不断变换。其中，RRC状态下阈值的变换和时延标准两者之间存在较为明显的差异，其中在IDLE状态下进行数据传输的时延可能会更高一些[9]。

网络系统是一个时变系统，时延无法采用精准的函数描述，但是网络流量时延和固定网络时延的特征是不同的。

其中，链路时延极小值代表通信链路在理想条件下的时延下限。当处于固网高速运行状态时，使网络流量时延的取值和0更接近；若处于无线通信状态下，需要保证网络流量时延不会小于阈值。

由于网络内部结构十分复杂，因此导致网络流量时延产生的因素也有很多，时延的波动性也较大。其中主要原因为天气以及移动设备的性能等。由于固网主要通过安全可靠的有线进行连接，有效消除网络负载产生的影响，确保其一直处于相对稳定的状态。

在网络环境中，若终端应用在不同状态下进行数据传输时，IP数据会出现各种长度的时延。

采用ping指令，分别设定不同的时间间隔，同时传输ICMP报文，同时在国内不同的网络环境中进行测试。

根据TCP/IP网路协议中的确认机制，得到网络流量时延主要特征。为更加精准描述网络通信链路对不同属性的影响，需要优先消除负载产生的噪声，选取符合条件的网络流量时延，同时还需要满足式(1)中的约束条件

(1)

式中，pktdata代表数据报；pktcak代表回应数据；fi代表得到指定数据在流量文件中的序号函数；fr代表得到指定数据报的重传次数。

传输链路时延能够表示为

Delaypkt=ft(pktcak)-ft(pktdata)

(2)

式中，ft代表得到指定数据报的捕捉时间；Delaypkt代表传输链路时延[10]。

在式(1)中，需要确认是否存在数据反复传输的情况。假设存在反复传输的情况，则无法确定pktcak/pktdata数据报，同时时延也无法精准计算，因此需要将这样的数据全部剔除。而式(2)要求尽量降低网络负载，假设网络一直处于忙碌状态，说明存在大量的数据需要进行传输，其中部分数据可能处于等待状态。若网络中没有数据进行传输，则说明此时网络处于通畅的状态。当N的取值越小，则说明网络发生拥堵的可能性越小；反之，N的取值越大，则说明网络拥堵的可能性也就越大。

在上述分析的基础上，结合网络往返时延计算结果，获取和数据时延相关的网络流量特征。同时利用特征描述各个网络节点接入互联网技术后形成的时序特征进行匹配。

2.2 基于朴素贝叶斯和极端梯度提升模型的网络流量时延特征识别

本研究通过朴素贝叶斯和极端梯度提升模型两者结合组建分类器。主要目的是为了获取符合网络需求的样本特征值(x1，x2，…，xn)，其中符合最高需求的样本表示为

Vmap=arg maxP(Ci|x1，x2，…，xn)

(3)

式中，P(x1，x2，…，xn)代表任意常数。由于不同属性的取值是相互独立的，则有

(4)

通过朴素贝叶斯将式(3)进行简化，则有

(5)

式中，P(Ci)代表先验概率。

极端梯度提升模型主要利用决策树，决策树包含多种不同的类型，以下主要采用决策树中的回归树，无论处理什么类型的问题，都能够获取很好的效果。回归树算法的核心思想为获取网络流量时延特征的全部权值。

当完成回归树建立完成后，输入空间包含多个输出值。因此，每一次的输入全部对应到输出空间中，方便获取模型的预测输出。其中回归模型的表达形式为

(6)

式中，Rm代表输出空间中包含的单元总数；cm代表输出值。

输入空间确定后，由于输出数据是连续的，因此计算平方误差最小就是二叉树建立的基本准则。针对于确定后的二叉树各个单元输出值，单元的平均值设定为最优结果，具体如式(7)所示

cm=avg(yi|xi∈Rm)

(7)

接下来划分输入空间，经过划分后获取两个区域，具体如式(8)所示

(8)

式中，j代表第j个变量；s代表第j个变量的取值。

通过最小化平方误差准则，能够获取j和s的取值，即

(9)

其中，集成学习主要利用多个学习器完成任务，因此有时候也能够被划分为多个分类器系统。通常情况下，学习器是一个个独立的个体，将全部个体利用某种方式构成一个整体[11]，即集成学习。整体中包含的个体就是基础模块，其中集成学习的示意图如图2所示。

图2 集成学习示意图

对集成学习的全部思想和理论进行分析总结，同时将有使用价值的策略全部组合在一起，构建一个功能强大的学习器。集成学习中包含三类，具体如图3所示。

图3 集成学习的组成

假设包含的是相同的分类器，则学习器被称为基学习器，具体组成框架如图4所示。

图4 集成学习基本框架

提升算法主要采用加法模型，将决策树设定为基础算法，同时也是一种前向分布算法。其中初始的提升树为f0(x)=0，通过加法模型累加起来，第m步能够表示为

fm(x)=fm-1(x)+T(x；Θm)

(10)

上式中，fm-1(x)当前决策树的线性组合。

利用经验风险极小化的方式确定下一棵决策树的参数Θm计算公式为：

(11)

将多棵树线性组合起来，获取更好的拟合数据，因此提升树是一个高功能的学习算法。其中，CART树的表达形式为

(12)

通过前向分布算法，当进行到第m步骤时，模型可以表示为fm-1(x)，通过式(10)获取的参数即为第m棵参数。假设损失函数为平方差，则具体的表达形式为

L(y，f(x))=(y-f(x))2

(13)

将式(10)代入计算能够获取网络流量时延特征识别模型为

r=y-fm-1(x)

(14)

上述的回归问题，对于文本所需要的分类问题只需要在回归问题的基础上方便进行修改[12]。训练阶段对于训练集D以及不同类型的攻击都训练一棵分类回归树。其中样本属于各个类别的概率为

(15)

(16)

(17)

(18)

(19)

结合上述分析，将极端梯度提升树模型和朴素贝叶斯两者进行有效结合，构建一种全新的分类器，同时对分类器进行训练，采用分类器对分类网络流量时延特征，最终实现识别。

3 仿真研究

为验证所提基于朴素贝叶斯的网络流量时延特征识别方法的有效性，实验选取200台主机作为实验平台，将各台主机接入150Mbps的以太网。

实验对200个测试样本的网络流量时延特征进行识别分析，选取所提方法、文献[4]方法以及文献[5]方法作为对比方法，实验的主要目的是验证各个识别方法的识别性能，其中选取识别正确的肯定比率和绝对误差作为测试指标，具体的实验结果如图5和图6所示：

图5 识别正确的肯定比率

图6 相对误差

分析图5和图6中的实验数据可知，随着运行时间和实验次数的增加，各个方法识别正确的肯定比率呈现初始阶段高、后期下降的趋势，而绝对误差呈直线上升趋势。相比另外两种方法，所提方法识别正确的肯定比率明显更高一些，而绝对误差也明显更低一些。这主要是因为所提方法加入了极端梯度提升模型构建了分类器，全面提升了识别结果的准确性。

在识别的过程中，由于各个方法的操作流程不同，导致各个方法的识别速率存在较为明显的差异，以下主要通过响应时间衡量不同方法的识别速率，具体实验结果如表1所示。

表1 不同方法的响应时间对比

分析表1中的实验数据可知，随着测试样本数量的快速增加，各个方法的响应时间也开始增加。由于所提方法在研究过程中加入了极端梯度提升模型，通过构建的分类器进行网络流量时延特征识别，全面优化了识别流程，同时有效降低响应时间，促使所提方法的性能明显优于另外两种方法。

4 结束语

由于传统网络流量时延特征识别方法的性能较差，提出一种基于朴素贝叶斯的网络流量时延特征识别方法。经过实验测试可知，所提方法能够全面提升网络流量时延特征识别结果的准确性，同时还能加快识别速率。由于时间以及环境等多方面因素的限制，导致所提方法仍然存在一定的弊端，后续将对其进行更加深入地研究，使其综合性能得到全面提升。