APP下载

基于局部信息增强注意力机制的网络流量预测

2023-11-23何迎利胡光宇张浩曲志坚王子灵

科学技术与工程 2023年30期
关键词:网络流量注意力局部

何迎利,胡光宇,张浩,曲志坚,王子灵

(1.南京南瑞信息通信科技有限公司,南京 211100; 2.国网山东省电力公司,济南 250012;3.山东理工大学计算机科学与技术学院,淄博 255049)

灵活以太网(flexible ethernet,FlexE)是实现网络业务隔离和网络切片的新技术,通过解耦以太网MAC(media access control)和PHY(physical layer)速率,实现对资源的灵活和精细化管理,满足高速网络传送、灵活带宽设置等需求[1]。基于FlexE技术的大型互联网切片智能管控平台在对网络资源进行分配和调度以及业务动态编排之前能够提前预测FlexE Client设备的网络流量情况将会显著提高资源分配和业务动态编排算法的性能[2-3]。

对不同设备的网络流量进行准确预测成为业界关注的热点问题之一。开始,大多采用传统的统计模型来预测网络流量,如以时间点为基础建立的多元线性自回归模型(autoregression,AR)、自回归移动平均(autoregressive moving average,ARMA)和自回归综合移动平均(autoregressive integrated moving average,ARIMA)等线性模型。这些模型通过设置未知参数去拟合多项式函数,从而逼近网络流量的真实值以达到预测的目的。线性模型的特点是需要人工凭借经验设置多种参数来拟合数据,仅适用于短期流量预测且对于周期性较小和非线性的流量数据预测效果较差[4]。

近年来,随着机器学习尤其是深度学习的不断发展,利用机器学习模型预测网络流量成为目前的主流方法。为了充分提取交通流中复杂的时空依赖关系,宋瑞蓉等[5]基于卷积神经网络设计了一种能够融合多维时空特征的流量预测模型,提高了预测性能。Valkanis等[6]提出了一种基于强化学习的新型流量预测机制,并利用该预测机制设计了一种弹性光网络内的启发式路由和频谱分配算法以高效公平地分配网络资源。Nie等[7]提出了一种基于强化学习的机制预测物联网内部的网络流量,通过将网络流量预测问题建模为马尔可夫决策过程实现预测算法。Yu等[8]针对长期流量预测的误差积累问题,通过将5个双向循环神经网络集成到一个框架中,设计了一个多时间间隔特征学习网络来处理长期网络流量预测任务,该网络具有在不同时间间隔提取长期流量特征的强大能力。Zhang等[9]针对网络预测过程中用户行为的复杂性以及网络应用程序的多样性提出了一个基于深度学习的加密数据包分类器来识别网络应用程序,并以此为基础提出一种基于深度学习的网络流量预测方法。Zhang等[10]提出了一种基于长短期记忆的网络流量预测模型,为了避免突发性对模型的负面激励,还提出了一种滑动窗口梯度下降的神经网络权值优化算法以适应不同网络应用程序引起的流量模式的突发性变化。高志宇等[11]提出一种基于生成对抗网络的流量预测方法,利用生成网络与判别网络的博弈对抗实现高精度的预测流量。王菁等[12]提出了一种结合动态扩散卷积模块和卷积交互模块的预测模型,该模型可以同时捕获网络流量中的空间特征和时间特征,提高了预测性能。薛自杰等[13]为了捕获网络流量中复杂的时空特征,基于编码器-解码器结构提出一种时空特征融合的神经网络模型用于网络流量预测。

综上所述,网络测量和管理对于未来的智能网络服务质量和提高用户体验质量至关重要。准确预测网络状态可以支持网络测量,并为网络资源管理提供额外的时间。随着网络数据规模越来越大,深度学习技术在网络测量和管理中发挥了关键作用。然而,由于网络频繁更新的流量拓扑结构,不同网络应用程序引起的流量模式的动态变化,使得网络中的设备流量具有复杂的非线性特征和空间依赖关系,网络流量的分布特性也已经超出传统意义上认为的泊松分布或者 Markov分布。这些问题导致目前的网络流量预测方法在预测性能以及预测方法适应性方面仍然有待进一步提高。

为了实现一种局部信息增强的注意力机制以增强网络流量时序数据中局部的上下文信息,同时将该注意力机制引入经典时序数据预测模型(long short term memory,LSTM)和门控循环单元(gate recurrent unit,GRU)模型以提高经典模型在网络设备流量预测方面的性能,现通过两个从运营商网络中采集的网络设备数据验证所提出方法的有效性。

1 经典网络流量预测模型简介

1.1 LSTM结构

LSTM是一种时间循环神经网络,是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的,其能够对时间序列中长短期依赖的信息进行学习,从而对时间序列中的间隔和延迟事件进行处理和预测。

如图1所示,LSTM网络由输入门(input gate)、遗忘门(forget gate)和输出门(output gate)3个门构成。输入门将新的信息选择性的记录到细胞状态中。遗忘门对细胞状态中的信息进行选择性的遗忘,从而保留下来最具有特征的记忆细胞状态。输出门对结果进行选择行输出。

t为时间片,表示第t个时刻;xt为t 时刻的输入;h为隐藏状态,表示的是短期记忆;ht-1为t-1时刻的隐藏状态;ht为t时刻的隐藏状态;C为细胞状态,表示的是长期记忆;Ct-1为t-1时刻的细胞状态;Ct为t时刻的细胞状态; ft为t时刻遗忘门的输出;it为t时刻输入门的输出;Ot为t时刻输出门的输出;tanh为单元状态更新值的激活函数

1.2 GRU结构

GRU是LSTM的变体,结构如图2所示,同样使用门控机制。GRU与LSTM不同的是它只有重置门和更新门。重置门决定了之前信息的遗忘程度,更新门选择新的信息。

图2 GRU单元结构

1.3 注意力机制

在机器学习领域注意力机制的核心操作是从序列中学习每一个元素的重要程度,得到一串权重参数,然后按重要程度将元素合并。这个权重参数就是注意力分配系数。具体而言,把元素看作由键(Key,K)和值(Value,V)组成的键值对,Q表示查询值。注意力机制就是通过计算Q与K的相似度获得每个V值的权重,并对Value值进行加权求和得到最终的Attention值。

注意力机制的计算过程可分为3步。首先,如式(1)所示,计算Q和K的相似度;然后,如式(2)所示,利用softmax函数对注意力得分进行数值转换;最后,如式(3)所示,根据权重系数对V进行加权求和得出Attention值。

Si=F(Q,ki)

(1)

(2)

(3)

式中:si为第i个位置序列的注意力得分;F为相似度计算函数;ki为第i个位置序列的关键字;注意力得分si用softmax函数进行归一化后,得到注意力概率分布αi;vi为第i个位置序列的数值。

2 基于局部信息增强注意力机制的预测模型

2.1 局部上下文信息增强的注意力机制

传统注意力机制虽然可以学习序列中某时刻信息在序列整体中的相关性,但是在突出某时刻对于序列整体感知的同时,局部信息被弱化的缺点也显露出来。网络流量序列的局部信息能够从微观角度对时间序列进行解释,是时间序列中相邻元素之间的依赖性、趋势性、随机性以及多种特性变动的叠加和组合,这是传统注意力的整体感知所不能涉及的问题。这里通过对注意力机制的内部进行改进从而提升注意力机制的局部感知能力。

传统的注意力机制计算过程中对一个序列点的Q、K和V进行单独投影计算,不能充分利用到序列上下文的信息,导致序列数据中的一些局部信息无法被提取到。这一问题体现在对于时间序列上两个差别较大的特征,利用传统注意力机制计算出来的两个特征的绝对值可能一样,也即对这两个特征有相同的注意力打分值。

然而,事实上单独局部特征信息得出来的注意力打分值可能是不同的。针对传统注意力机制存在的这一问题,这里使用卷积计算作为注意力机制的计算规则,将输入转换为Q和K,增加模型的局部感知能力。结合卷积操作的注意力机制生成的Q和K可以更好地学习局部的上下文信息,充分发挥时序序列中某一时刻承上启下的作用。通过局部信息来计算它们的相似度,有助于提高模型预测的准确性。局部上下文信息增强的注意力机制计算规则如式(4)~式(6)所示,其结果框架如图3所示。

output为输出

Q=conv(Q′)

(4)

K=conv(K′)

(5)

(6)

式中:conv为卷积计算函数;Q和K为初始状态的Q′和K′经过卷积后得到的;KT为K的转置;Q与KT经过相乘生成了相似度矩阵;对相似度矩阵每个元素除以dk,dk为K的维度大小。

2.2 融合局部上下文信息增强注意力机制的LSTM模型

LSTM模型和GRU模型都是RNN(recurrent neural network)系列的模型,该类模型虽然在处理时间序列上有较好的性能,但是这些模型在捕捉序列的长期依赖性方面还存在困难。注意力机制可以在一定程度上弥补这些模型捕捉序列长期依赖关系困难的问题。此外,通过对局部上下文信息增强可以进一步增强模型捕获局部信息的能力。因此注意力机制与该类模型的融合能够更好地捕获序列数据的全局和局部特征,提高模型的预测精度。

LSTM模型与局部上下文信息增强注意力机制集合模型ALSTM(attention long short term memory)框架结构如图4所示。

如图4所示,输入的原始序列Xi通过LSTM处理后可获得序列中的局部上下文依赖关系,再经由局部上下文信息增强注意力机制(Attention)促使LSTM的输出结果在全局和局部进行整合,得到模型的最终输出结果。

2.3 融合局部信息增强注意力机制的GRU模型

GRU模型与局部上下文信息增强注意力机制集合的模型AGRU(attention gate recurrent unit)框架结构如图5所示。

Vi+T为在第T个时刻,第i个位置的序列值V;input为序列输入;GRU processing为GRU的过程流程;GRU output为经过GRU模型的输出;Attention为注意力机制模块;output为输出

如图5所示,AGRU模型的工作过程与ALSTM工作过程类似,输入的原始序列Xi通过GRU处理,可获得序列中局部的上下文依赖关系,再经由局部上下文信息增强注意力机制(Attention)机制可以使GRU的输出结果在全局和局部角度进行整合形成AGRU模型。

3 实验方法

3.1 实验数据

实验使用某运营商提供的两个不同的设备流量数据集Dataset_1和Dataset_2。两个数据流量数据的具体信息如表1所示。

其中,数据集Dataset_1规模较小但是数据较为完整,基本没有缺失值和异常值。实验过程中将数据集Dataset_1中的前4天的数据作为训练集,第5天的数据作为测试集使用;数据集Dataset_2的数据量较大,但是数据集量具有一定的缺失。并且由于该数据集中存在连续4 d的数据缺失,由于数据缺失量较大,实验过程中选择前20 d的数据作为训练集,最后7 d的数据作为测试集。

从图6可以发现,数据集Dataset_1的数据质量较好,基本没有缺失数据。在数据集Dataset_2中除了12月26—30日这4 d的数据整体缺失以外,该数据集在其他时间上还存在少量缺失,在实验过程中对缺失数据进行了简单的插补处理。需要注意的是数据集Dataset_2中的数据量较大,在图6(b)中流量的波动性和周期性展示并不明显。另外,由于两个数据集中数据流量的数值量级都比较大,在实验中对流量数据进行了归一化处理。流量数据归一化处理公式如式(7)~式(9)所示。

(7)

(8)

(9)

式中:xi为网络流量序列中的第i个元素;n为序列中元素个数;μ为该序列的平均值;s为该序列的方差;x_nori为归一化后序列的第i个元素。

3.2 评价指标

实验中使用以下4种评价指标评估预测模型在网络流量预测任务中的性能。

均方根误差(root mean square error,RMSE)表示的是预测值与其真实值之间的偏差。其值越小说明模型预测效果越好,如式(10)所示。

(10)

平均绝对误差(mean absolute error,MAE)表示的是预测值与其真实值之间绝对误差的平均值。其值越小说明模型预测效果越好,如式(11)所示。

(11)

准确率(accuracy,ACC)表示的是预测值与其真实值之间的准确度。其值越小则说明模型预测效果越差,如式(12)所示。

(12)

决定系数R2的取值范围是[0,1],衡量了模型对因变量变化的解释程度,即模型能够解释因变量的变异性。其值越大说明模型性能越好,公式为

(13)

解释回归模型的方差得分Var其值取值范围是[0,1],越接近于1说明自变量越能解释因变量的方差变化,值越小说明模型预测效果越差,如式(14)所示。

(14)

3.3 预测结果及分析

实验采用经典的(history average,HA)、支持向量回归(support vector regression,SVR)模型以及传统的时序模型LSTM和GRU[11]作为基本对比模型。通过对同一时间段内不同预测粒度的网络流量进行预测分析,分别验证了所提出的AGRU和ALSTM模型的性能。不同模型在数据集Dataset_1和Dataset_2的预测性能如表2和表3所示。

表3 数据集Dataset_2在不同模型上的预测结果

从实验结果可知,改进后的ALSTM模型和AGRU模型的预测性能比传统的LSTM模型和GRU模型有显著的提升,证明了所提出的局部上下文信息增强注意力机制的有效性。主要在于改进后的模型不仅能捕捉时间点对整体序列的依赖关系,同时也增强了模型捕捉序列局部信息以及序列内在联系的能力。

图7分别给出了在某一台具体设备上不同预测模型在测试集上的流量预测结果与该设备真实流量值的可视化结果。

True为正确的结果;predicted value by GRU为GRU模型的预测结果;predicted value by ALSTM为ALSTM模型的预测结果;predicted value by LSTM为LSTM模型的预测结果;predicted value by AGRU为AGRU模型的预测结果

图8给出了不同预测模型在数据集Dataset_1上所有不同预测粒度的评价指标可视化结果。

图9给出了不同预测模型在数据集Dataset_2上所有不同预测粒度的评价指标可视化结果。

从上述实验结果中可以发现,改进后的预测模型ALSTM和AGRU较其他基本对比模型都具有较好的预测性能。需要注意的是,在数据集Dataset_1中所提出的ALSTM模型较AGRU模型具有稍好一些的预测性能,这是因为数据集Dataset_1中的数据量较少导致AGRU模型的训练并不充分,影响了其预测性能,这也从一个侧面说明了ALSTM模型较AGRU模型更适合用于数据量较少的场景。在数据量更充分的数据集Dataset_1中AGRU模型的预测性能显著高于ALSTM模型,并且所有模型的预测性能都有一定的提升,充分说明了数据量对于模型训练的重要性,此外在数据较为充分的条件下AGRU模型较ALSTM模型具有更好的性能。

综上所述,提出的局部上下文信息增强注意力机制能够有效捕获时序数据中的局部信息,更好地融合全局和局部特征并区分不同的流量特征值,从而促进预测模型的预测性能。

4 结论

在传统注意力机制的基础上设计实现了局部上下文信息增强的注意力机制,提高了网络流量的预测精度,得到以下结论。

(1)通过在注意力机制中借助卷积计算促使改进后的注意力机制既能够突出当前时刻对流量序列的整体感知,也能够捕获到序列的局部依赖关系。

(2)在传统GRU和LSTM时序预测模型的基础上,引入改进后的局部上下文信息增强注意力机制,可以有效提高模型的预测性能。

(3)引入改进注意力机制后的AGRU和ALSTM模型与传统的GRU模型和LSTM模型相比,具有更小预测误差和更高的预测准确度。

猜你喜欢

网络流量注意力局部
基于多元高斯分布的网络流量异常识别方法
让注意力“飞”回来
局部分解 巧妙求值
非局部AB-NLS方程的双线性Bäcklund和Darboux变换与非线性波
基于神经网络的P2P流量识别方法
AVB网络流量整形帧模型端到端延迟计算
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
局部遮光器
吴观真漆画作品选