APP下载

高斯过程混合模型应用于网络流量预测研究

2020-03-11周亚同何静飞张世立

计算机工程与应用 2020年5期
关键词:网络流量模态样本

李 松,周亚同,池 越,何静飞,张世立

河北工业大学 电子信息工程学院,天津300401

1 引言

网络流量预测是网络管理和流量业务的基础,对于控制、优化网络上的各种资源起着至关重要的作用。精准的网络流量预测可以帮助管理者设计网络拥堵控制策略,合理进行资源分配与调度,保证网络的流畅度,提高网络资源的利用率[1-3]。近年来提出了越来越多针对网络流量的预测模型和方法。

针对网络流量序列,许多学者采用线性预测模型。一般广泛使用自回归(AR)、滑动平均(MA)及其改进模型预测。如:党小超等[4]以时间点为基础,建立多元线性AR 模型预测网络流量。段智彬等[5]采用分段自回归滑动平均(ARMA)模型预测网络流量。陈晓天等[6]进一步改进将差分自回归求和滑动平均(FARIMA)模型引入网络流量的预测中。张凤荔等[7]依据网络流量的自相似和平稳性特征,分别采用ARMA模型、差分自回归滑动平均(ARIMA)模型和FARIMA模型预测。

此外还有学者采用非线性模型预测网络流量。其中神经网络(NN)、支持向量机(SVM)、灰色模型等应用十分广泛。Wei[8]提出了一种基于改进的引力搜索算法优化的径向基函数(RBF)神经网络模型预测网络流量。Gowrishankar等[9]基于循环径向基函数网络(RRBFN)和回声状态网络(ESN)进行网络流量预测,准确率可达96%以上。刘杰等[10]采用BP神经网络模型对网络流量预测。Liu 等[11]结合SVM 和混沌理论对网络流量预测。殷荣网[12]采用参数优化的SVM 算法预测网络流量。刘渊等[13]将最小二乘支持向量机(LS-SVM)应用于贝叶斯框架下对分解的网络流量序列预测。此外,还有许多学者的研究基于灰色理论。Jiang 等[14]利用灰色模型对网络流量建模预测。曹建华等[15]在GM 模型的基础上提出了改进残差的灰色模型预测网络流量。

上述模型在预测过程中虽然取得了不错的效果,但仍存在一定不足。对于ARMA 等线性模型,随着网络复杂度的增加,网络流量特性已经超出传统意义上认为的泊松或者Markov 分布[16],因此利用线性模型进行预测存在理论上的不足,很难保证预测的准确性。对于非线性模型,神经网络容易陷入局部最小点,网络结构难以确定。SVM 虽然需要的样本数小,但其关键参数很难确定且无法输出置信区间。而灰色模型只适合数据变化不剧烈的情况。GPM 模型是在GP 模型基础上发展起来的模型,兼具人工神经网络和支持向量机等传统模型的优点,不仅具有良好的泛化能力且能够输出置信区间[17]。因此本文采用GPM模型对网络流量进行预测。

2 GPM模型的原理及学习算法

GPM 模型是针对GP 模型对于多模态序列拟合效果不够好的缺点提出的一种混合模型,其中每个组分用一个GP 刻画。GPM 模型对样本依概率划分时首先设定一个隐变量Z 作为样本的标签集合。本文采用多项式分布的门限函数生成隐变量zi。即:

πic为各样本按照各自概率的分布列。则输入样本X ,输出样本Y 和隐变量Z 之间的关系如下:

其中,c 为GPM模型中混合成分的总个数,c=1,2,…,C 表示第i 个样本属于第c 个GP分量。接下来,设隐变量Z=[ ]z1,z2,…,zN,输入样本与输出样本间总的分布为:

其中mc和Sc分别表示第c 个GP分量的均值和协方差函数。本文采用平方指数协方差函数[18-19]。 K 为核函数k 的矩阵形式。因此第c 个GP分量的超参数集合表示为对于输入时间序列的不同区域,用不同参数的GP模型刻画,从而更好地体现出时间序列的多模态特性。

在GPM 模型中,参数学习采用的是一种分类迭代学习算法。如图1所示,此算法关键是求出隐变量Z 的后验概率以保证将样本高效分配,从而通过最大似然估计得到学习样本参数。具体步骤如下:

步骤1 输入学习样本,通过K-means算法将这些样本聚类,当作样本最原始的分配,并将分配的结果记录在标签zi中。

步骤2 针对每一组GP 分量。采用最大似然估计(MLE)计算出它们的参数估计值。各分量比例系数、均值、协方差和核参数的计算如下所示:

步骤3 按照最大后验概率准则,重新对学习样本进行分组,并将分配结果记录在标签zi中。即:

步骤4 若重新分组的结果与上次相同,则终止并输出学习参数和样本标签Z。否则,返回步骤2重新迭代。

图1 GPM模型学习算法流程图

参数学习结束后,给定新的测试样本X*,同样依据最大后验概率准则将其分配到指定的组别中。然后通过以上算法最后一次迭代计算出的GP 分量参数,根据GP模型预测表达式即可获得测试样本的预测值Y*。

3 GPM模型用于网络流量序列预测分析

本实验数据来源于某互联网服务提供商收集的两段网络流量序列,分别记录了两个不同地区网络流量的分时使用情况,如图2所示。其中序列一记录了从2005年7 月7 日到2005 年7 月31 日共25 天采样间隔为10 min的7 386个数据;序列二记录了从2004年11月到2004 年12 月采样间隔为15 min 的3 000 个数据。网络流量序列反映的是人们对流量的使用情况,受人们工作与生活规律的影响。由图2可知,网络流量序列在不同时间段呈现不同的变化规律,存在时段差异性,即多模态特性。例如对于以“周”为周期的网络流量序列,周一到周五为工作日,设备运行、人员工作等对网络流量需求巨大。而周六和周天为休息日,消耗的网络流量将减少。因此一周内不同时间段的网络流量使用情况不尽相同。其次对于以“天”为周期的网络流量序列,网络流量的使用会随着人们作息时间而起伏,且分布规律各不相同。如对于网络流量序列一,周一至周五序列和周六、周天序列分别具有很强相似性;当前周序列与前几周序列具有很强相似性。整个序列反映出了此地区流量的使用具有明显的周期性;对于网络流量序列二,周一至周五序列和周六、周天序列仍分别具有各自周期性,但以“天”为周期的流量序列差异较大,尤其表现在前两周的序列中。因此网络流量序列二的规律性相对较弱。

对于这两段以“周”或“天”为周期的网络流量序列,用单个GP模型难以很好刻画其不同时间段间的细微差异。因此,本文提出用高斯过程混合(GPM)模型预测网络流量。其思路是首先基于网络流量序列构建学习样本集,然后将样本集进一步细分成多个样本组,对每个样本组分配一个GP模型进行学习预测。这样既能通过大规模的GPM 协方差矩阵分解简化参数学习过程,又精确刻画了网络流量不同时间段间的差异,提高了预测准确度和速度。因此将GPM模型用于网络流量预测可以较好反应网络流量序列内部特性,从而使预测更加准确高效。

为了更好地展示两段序列的规律性和GPM模型对不同规律网络流量序列的预测能力,本次实验分别选取两个序列中的前1 600 个数据构建样本集。其中,序列一选取前600 个作为学习样本,后1 000 个作为测试样本;序列二选取前950 个作为学习样本,后650 个作为测试样本。

4 网络流量序列的预处理及预测评价指标

由于网络流量序列为真实采集的实验数据,不可避免会存在奇异值问题,需要对其进行归一化处理。处理后的数据将落在(0,1)区间上。这样在很大程度上消除了量纲影响,减小了因奇异值而造成的误差。归一化完成后,需要将网络流量序列转化成可应用于高斯过程混合模型回归预测的序列对。本文基于相空间重构理论[20-21],目的是将网络流量序列信息在高维空间中充分展现出来。在重构过程中,合适地嵌入维数d 和时间延迟τ 对于预测结果具有重要意义。它们不仅可以在高维空间中充分展现出网络流量序列的信息,以便GPM模型获得更高的预测精度,而且还不易引入过大噪声。由于假近邻法和自相关法获取d 、τ 时比较耗时,本文通过建立( )d,τ 二元组,采用网格遍历法取值,通过评价指标得到最优的d 和τ。

为了展示GPM 模型预测效果的好坏,本文采用以下两个评价指标:

图2 网络流量序列

其中,yp( i )为预测值,yt( i )为真实值,ym为预测样本均值。 RMSE 为均方根误差,对过大或过小误差较灵敏,能够反映模型的预测精度,RMSE 越小表示预测效果越好。 R2为决定系数,反映了模型的拟合程度,R2越大表示预测效果越好。

5 实验结果及比较

5.1 网络流量序列一预测

GPM 模型用于网络流量预测时,主要待求参数为模态数C,相空间重构的嵌入维数d 和时间延迟τ。它们的好坏直接影响着GPM模型预测准确度。本文采用网格遍历法获取最佳参数。首先固定C 不变,d 从1到8,τ 从1 到6 遍历取值,通过比较RMSE 和R2大小选择出最佳的d 和τ,结果如图3。

如图3 所示,参数d 取7、τ 取1 时的RMSE 值最小,R2值最大,由此可知在较大嵌入维数d 和较小时延τ 下模型的预测准确度最优。在此参数取值的前提下,设置模态数C 从1 到6 遍历取值,通过比较RMSE 和R2大小选出最佳的模态数C,结果如图4。

图4 RMSE、R2 随C 的变化取值

如图4 所示,模态数C=2 时,RMSE 值取得最小,R2值取得最大,此模态下的预测效果最佳。在获得模型最优参数后,对网络流量序列一预测,得到图5 所示的预测结果。图5(a)中红色星线为预测值,蓝色曲线为真实值。从图中可以看出真实值曲线与预测值曲线的贴合度很高,表明GPM 具有较高的预测准确度。图5(b)为网络流量序列一真实值与预测值对比点状图,横、纵坐标分别表示网络流量序列一真实值和预测值。图中蓝色点越接近主对角线说明预测效果越好。红色直线为蓝色点拟合直线,坐标方程y=0.987 8x+0.003 2,与主对角线方程y=x 非常接近,证明GPM模型的预测结果非常可靠。

图6给出了网络流量序列一预测置信区间图,对预测不确定性范围给出了定量限制,更好地表示了网络流量预测结果可信性。其中蓝色曲线代表置信区间的上界,红色曲线代表置信区间的下界。由图可以看出,在曲线的上升和下降部分置信区间的贴合度十分紧密,表明此部分的预测可靠性高、效果好。在曲线拐点部分,由于此处数据抖动幅度较大,平稳性较差,贴合度弱于上述两部分,GPM模型的预测可靠性稍弱。

GPM模型优势是采用多个GP模型来刻画数据,而网络流量序列随着时间变化存在着时段间的差异。为了更好展示GPM 模型的预测效果和网络流量序列的特性,图7给出了测试样本多模态预测效果展示。图中不同颜色的点代表了网络流量不同模态的数据划分。图7(a)为C=1 时模态效果图,此时GPM 模型退化为GP 模型。图7(b)为C=2 时模态效果图,由图5 可知,此时RMSE 最小,R2最大,预测效果最佳。由于工作日晚上和周末属于人们休息时间,网络流量的使用相对较少,用红色模态来描述。而工作日的白天人们处于工作状态,大量的互联网设备消耗着巨大的网络流量,因此蓝色模态对其进行了很好的描述。图7(c)中C=3时,对非工作日状态下网络流量使用的高、低峰值进行了模态划分。图7(d)中C=4 时,则又加入了对工作日中网络流量使用高、低峰值的模态划分。相比于C=2模态,C=3 和C=4 模态的拟合效果细碎,反而整体的预测精度略低于C=2 模态。

图5 网络流量序列一预测结果

图6 网络流量序列一预测置信区间

图7 网络流量序列一在不同模态下的预测结果

为了更好地表现出GPM 模型的优势,在不同参数下将GPM模型与传统模型分别用于网络流量序列一预测。本文选取的传统模型为SVM、核回归(KR)、最大最小概率机回归(MPMR)和单个GP模型。其中SVM[22]是一种非常典型的机器学习模型。它基于结构风险最小化原则,通过有限个学习样本获得最小的预测误差,已广泛应用于风电功率、网络流量、股市预测。KR[23]是一种基于核的预测模型,通过设置核函数作为权值的分布函数并优化核参数,得到误差最小的最佳预测结果,一直作为预测模型的基础。MPMR[24-25]对于序列分布不需要提前假设,是在最大化预测值介于实际回归函数某个界的最小概率下建立起来的模型,对于非线性时间序列具有良好的预测效果。GP模型是GPM模型的基础,也广泛用于单一模态的时间序列预测。表1通过选择8组不同的d 和τ 组合,对比SVM、KR、MPMR、GP 和GPM模型对网络流量序列一的预测效果。

由表1 可以看出,通过比较RMSE 和R2,GPM 模型在网络流量序列一中的预测效果均好于其他四种模型。此外,通过对比发现随着d 的增加和τ 的减少,模型的预测效果越来越好。在d=7、τ=1 时RMSE 取得最小值为0.020 9,R2取得最大值为0.994 0。

表1 网络流量序列一的五种模型预测对比

如图8 所示为抽取一个周期区间上的五种模型预测误差对比曲线图,通过对比可以更直观地表现五种模型预测细节与能力。为了更清晰地展示曲线效果,图8(a)~(d)区间大小均为35。其中红色曲线为GPM模型预测误差曲线。在多数情况下,无论在波峰处或波谷处,GPM预测误差值都要优于其他模型,整体预测效果最优。

图8 五种模型部分区间预测误差对比

5.2 网络流量序列二预测

与网络流量序列一预测相同,本实验同样采用网格遍历法取得最佳参数d=5,τ=1,c=2。然后将GPM模型用于网络流量序列二预测,得到如图9所示预测结果,表明GPM模型仍取得良好的预测效果。

图9 网络流量序列二预测结果

图10 网络流量序列二在不同模态下的预测结果

图10 为GPM 模型用于网络流量序列二预测时的多模态效果图。模态数C=2 时,GPM模型达到最佳预测效果。

在最佳d 和τ(d=5,τ=1)下,将5.1节中五种模型分别用于本实验的网络流量序列二预测。现将预测的RMSE 值和R2值列于表2。可以看出GPM模型预测效果要好于其他四种模型,最佳结果为RMSE=0.021 2、R2=0.988 1。

表2 网络流量序列二的五种模型预测对比

6 结论

本文将GPM 模型用于网络流量的多模态预测,并通过采集的两组网络流量序列验证。模型采用分类迭代学习算法,此算法很好地实现了模态分配和模型参数学习。对序列进行相空间重构时,通过网格遍历法搜寻到最佳d 和τ 。发现d 的增加和τ 的减少会增加预测准确度,当增加和减少到合适值时到达最佳。模态数反映了网络流量序列不同部分的内在规律,最优模态数的选择没有明显规律,本文通过网格遍历法得到两组网络流量序列的最佳模态数。最后在选取的d 和τ 下,本文将SVM、KR、MPMR和GP模型分别用于两组网络流量序列预测,并通过RMSE 和R2与GPM模型对比,发现GPM模型优于其他四种模型。

猜你喜欢

网络流量模态样本
基于BERT-VGG16的多模态情感分析模型
基于多元高斯分布的网络流量异常识别方法
大数据驱动和分析的舰船通信网络流量智能估计
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
用样本估计总体复习点拨
推动医改的“直销样本”
AVB网络流量整形帧模型端到端延迟计算
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本