APP下载

基于时空融合的网络流量预测模型研究

2023-06-09罗永华王敏竹

现代计算机 2023年6期
关键词:网络流量流量预测

罗永华,王敏竹,宁 芊

(四川大学电子信息学院,成都 610065)

0 引言

随着物联网、云计算和超级大数据等各种新型技术的更新换代和不断普及,网络的异构型和复杂性不断增强,全球通信数据量呈爆炸式增长[1]。如何对这样巨大的复杂网络系统进行运行管理、行为监控和安全保障也就成为了亟待解决的问题[2]。

流量预测技术通过对网络中的数据量进行精准预测,可实现网络资源的合理预分配,有利于管理复杂的网络系统,同时也可以对网络中的业务流量进行预测,有助于针对不同业务提供差异化网络服务[3⁃4]。

为了解决上述问题,研究人员提出了一系列的预测模型,旨在对网络流量进行准确预测。传统的网络流量预测模型,如自回归模型(AR)[5]/差分整合移动平均自回归(ARIMA)模型[6]和HoltWinters 算法[7]等,这些模型虽然结构简单,但都是基于线性的模型,其特点是需要人工依据经验设置多种参数来拟合数据,适用于短期流量预测。网络流量实际上具有非线性、周期性、自相关性和突发性等,仅依靠传统的线性模型很难拟合准确预测。因此研究人员陆续提出了相应的非线性模型,如支持向量机[8]和深度学习[9⁃10]等方法。

为了提高网络流量预测精度,本文提出基于时空融合的GAT⁃LSTM 模型,用以解决网络中的流量预测问题。GAT⁃LSTM模型集成了图注意力网络GAT 和长短期记忆循环网络LSTM。GAT 用于捕捉网络流量的网状拓扑关系,LSTM用于捕捉网络流量在时间上的动态变化关系。GAT⁃LSTM模型也可以拓展到其他的预测任务上运行。实验阶段,本文在数据集GEANT和Abilene上与传统的流量预测算法进行对比,以验证GAT⁃LSTM模型的优势。

1 理论分析

1.1 问题定义

网络流量预测任务是指通过对输入的历史流量信息进行分析和处理,预测未来时刻的网络流量。本文将网络流量预测任务的目标定义为预测网络未来时刻的端到端流量。为推导本文的网络流量预测任务,我们将通信网络表示为G(V,E)。其中V表示网络中的节点集合,V={u0,u1, …,uN-1},N表示网络中的节点数,E表示网络中的通信链路集合。同时引入邻接矩阵A∈ℝN×N表达网络的拓扑关系,其中A由0 和1组成,1 表示两节点间存在通信链路,0 表示两节点之间不存在通信链路。我们将通信网络中的端到端流量数据定义为XN×N×H,作为预测模型的输入特征,其中H表示输入历史流量序列的长度。对于t时刻的端到端流量信息,我们可以将其表示为Xt∈ℝN×N×i。

因此,网络G的流量预测任务可以看作为,在综合分析历史流量信息XN×N×H下,通过映射函数f来预测下一T时刻网络流量的过程,表示如下:

式中:n是历史流量数据的长度,T是需要预测的流量序列的长度。

1.2 实验数据集

GEANT:该数据集是由萨里大学研究团队收集并整理的来自GEANT 网络的流量信息,GEANT 网络将整个欧洲的国家研究和教育网络(NRENs)互相连接起来,其主要由23个路由器,38 条链路组成。GEANT 数据集每隔15 min 记录一次,时间跨度为5个多月,共167天。

Abilene:Abilene 开源数据集描述了美国主干网的12 个节点之间的流量信息,网络节点间存在15 条链路,该数据集时间跨度从2004 年5月1日到2004年9月10日。

2 研究方法

2.1 ARIMA模型

Hyun 等[6]早期提出了差分整合移动平均自回归模型(ARIMA),通过分析网络流量时间序列的自相关性,可以捕捉到网络流量的时间特性,ARIMA(p,d,q)模型可表示为

式中:L是滞后算子,d∈ℤ,d> 0。

ARIMA 模型要求时间序列是平稳的,若为非平稳时间序列,则需要将时间序列转换为平稳时间序列,并求取最佳的阶层和阶数。

2.2 LSTM长短时记忆网络

LSTM 与一般的前馈神经网络不同,LSTM能够合理运用当前输入时刻及以前的特征信息,能够处理好时间维度的特征,常被用于时间序列预测问题。

如图1所示,LSTM 由遗忘门、记忆门以及输出门组成。遗忘门的作用是选择性过滤掉之前单元状态中的某些分量,避免过多的记忆信息影响网络。记忆门是用来提取当前输入数据的有效信息,并将筛选后的信息并入到单元状态的控制单位。输出门是用于计算当前时刻输出值的神经层。LSTM模型可表示为

图1 LSTM长短时记忆网络

2.3 GAT⁃LSTM模型

图注意力网络GAT 是VELICKOVIC P 等[9]于2018年提出的一种图神经网络模型,该模型将注意力机制引入到图神经网络中,每一层通过邻居对新特征的贡献度进行特征聚合,以此生成节点的新特征,能够有效学习信息的空间特征。

如图2所示,GAT⁃LSTM 模型通过多组GAT学习网络流量的空间特征并赋给网络中的节点,LSTM 将带有空间特征的时间序列预测输出,其模型实现过程如下:

图2 GAT⁃LSTM 架构

首先,我们定义t时刻输入的任意单个时间片的流量数据为Xt={h1,h2, …,hN},其中hi∈ℝN×F,N是节点个数,F是节点特征的维度,通过式(7)、(8),我们可以得到不同节点之间的注意力系数αi,j:

式中:ei,j表示节点i对节点j的权重;a→∈ℝ2F'是神经网络中连接层与层之间的权重矩阵;W∈ℝNF×F'是待学习的权重矩阵;‖ 表示连接操作;⋅T表示转置;Ni表示节点i的邻居节点集合。

单个时间片的输出可以通过k组独立的注意力机制来拼接每一组注意力聚合的结果,并延迟最终的非线性函数,其过程表示如下:

GAT⁃LSTM 模型对于当前时刻输入历史流量中的每一个时间片都通过多组GAT 提取空间特征,并将其t时刻的输出定义为

式中:Ls=H是历史流量数据的长度;fs=F'是经过多组GAT后节点特征的维度。

GAT⁃LSTM 模型将St序列送入到LSTM 模型中获取最终输出,可表示如下:

式中:LSTM表示经过LSTM模型。

3 实验分析

3.1 评价指标

为了定量分析ARIMA、GAT、LSTM、GAT⁃LSTM 模型的评估性能,我们选择了平均绝对误差MAE、均方根误差RMSE、误差ERROR、决定系数R2四个评价指标去评估真实流量与预测流量的差异,R2越接近1模型性能越好,RMSE、MAE、ERROR 越接近于0,模型性能越好。下述评价指标的计算公式中,Ŷt表示预测值,Yt表示真实值,Yˉ表示真实值的平均值,n是真实值的数量。

3.2 结果分析

实验中,本文将网络流量数据集归一化到[0, 1]中,并按照7∶2∶1的比例划分为训练集、验证集和测试集。同时用历史的十组数据去预测未来15 min,30 min,45 min,60 min的流量。本文设置学习率为0.001,batch size 为64,优化器采用Adam 优化器,训练迭代次数为500 次,GAT⁃LSTM 模型中注意力头数设置为n=2,神经元个数设置为[8, 16, 64]。

表1显示了GAT⁃LSTM 模型与传统基线模型在数据集GEANT和Abilene下,预测未来15 min,30 min,45 min,60 min 的性能对比。从表1 可以看见,ARIMA 的预测性能最差,例如基于数据集GEANT 下的15 min预测任务中,ARIMA 的RMSE 大约是0.044117,R2大约是0.525201,这是因为ARIMA 作为经典的时间序列预测模型,本质上仅能提取网络流量序列的时间特性。相比于ARIMA,基于神经网络的模型具有更好的预测性能,这是因为神经网络能够较好地提取网络流量序列的非线性关系和空间特征。GAT⁃LSTM同时考虑了网络流量序列的空间依赖性和时间相关性。因此相比于传统的ARIMA,GAT⁃LSTM模型获得了更好的预测性能。

表1 评价指标

为了评估GAT⁃LSTM 捕获网络流量序列的能力,如图3、图4 所示,我们将GAT⁃LSTM 与ARIMA 在数据集GEANT 和Abilene 上不同的预测范围内进行对比。结果表明,相比于只考虑了时间特征的模型(ARIMA),GAT⁃LSTM 在不同的预测尺度上都具有更好的预测性能,并且随着预测尺度的增大,GAT⁃LSTM模型能够保持稳定的预测性能,相比于ARIMA,GAT⁃LSTM更适合应用于长期预测。

图3 基于数据集GEANT上的时空预测能力

图4 基于数据集Abilene上的时空预测能力

为了更直观地观察GAT⁃LSTM 与传统基线模型预测性能的对比,我们从数据集GEANT中抽取出一条网络流量进行可视化分析。图5、图6 分别展示了GAT⁃LSTM 和ARIMA 基于数据集GEANT 和Abilene 下30 min 预测任务的性能。从图中可以看出,GAT⁃LSTM 能够准确描述网络流量序列的局部最小值/最大值,ARIMA 随着预测尺度的增加,预测局部最大值/最小值的性能降低。

图5 基于数据集GEANT下30 min的预测性能

图6 基于数据集Abilene下30 min的预测性能

4 结语

本文通过组合LSTM 和GAT,形成了GAT⁃LSTM 模型。将该模型应用于网络流量数据集GEANT 和Abilene中,并与传统的时间预测模型进行了比较,就结果而言,GAT⁃LSTM 获得了较好的预测性能。同时,为了验证GAT⁃LSTM 模型对于时空特征的敏感性,本文以RMSE 为评价指标,实验证明相比于单一特征提取的模型,GAT⁃LSTM 能够更好地学习到时间序列的时空特征。综上,GAT⁃LSTM 模型在一定程度上补足了现有研究的不足,同时也能为网络流量预测精度提升提供必要的参考依据。

猜你喜欢

网络流量流量预测
无可预测
基于多元高斯分布的网络流量异常识别方法
冰墩墩背后的流量密码
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
张晓明:流量决定胜负!三大流量高地裂变无限可能!
基于神经网络的P2P流量识别方法
寻找书业新流量
AVB网络流量整形帧模型端到端延迟计算
不必预测未来,只需把握现在