基于CS-HRVM的网络流量预测
2014-07-08李融
李融
温州广播电视大学,浙江温州 410205
基于CS-HRVM的网络流量预测
李融
温州广播电视大学,浙江温州 410205
为了获得更加理想的网络流量预测结果,准确刻画网络流量的变化趋势,提出一种基于布谷鸟搜索算法优化组合核相关向量机的网络流量预测模型(CS-HRVM)。首先针对网络流量的混沌特性,采用相空间理论建立网络流量的多维学习样本,并采用组合核函数构建相关向量机,然后将学习样本输入到相关向量机中进行训练,并采用布谷鸟搜索算法对模型参数进行优化,从而建立网络流量预测模型,最后采用仿真实验对模型性能进行仿真对比实验。结果表明,CS-HRVM获得了比其他网络流量预模型更高的预测精度,而且可以对含噪网络流量进行准确预测。
网络流量;相空间重构;相关向量机;组合核函数;布谷鸟算法
随着互联网规模的不断扩大,网络用户急剧增加,网络拥塞的频率越来越高,成为一个令网络管理员头疼的难题,因此网络流量预测是网络管理的基础和关键,因此建立性能优异的网络流量预测模型,精确对网络运行状态进行准确跟踪,以提高网络流量的预测精度,成为网络研究中的一个热点问题[1]。
针对网络流量预测问题,许多学者和专家对其进行了广泛的探索,提出一些性能较好的网络流量预测算法[2]。线性算法主要有:滑动平均、指数平滑、多元回归等[3-4],它们可以对短期的网络流量进行准确预测,但由于网络流量受到很多因素综合影响,具有混沌性、强烈的时变性,这样导致线性模型难以准确反映网络流量的变化特点,预测精度与实际要求有一定的差距[5]。另一类算法为非线性算法,它们主要包括神经网络、马尔可夫链、支持向量机、极限学习等[6-8],相对于线性预测算法,它们具有较好的非线性学习能力,可以对网络流量变化特点进行准确预测,网络流量得到进一步提高,但是这些方法均存在各自的不足,网络流量预测精度有待进一步提高。相关向量机(Relevance Vector Machine,RVM),其结合稀疏贝叶斯学习理论优点,相对于支持向量机,RVM只需设置核参数,且核函数不用满足Mercer条件,为网络流量提供了一种新的预测工具[9]。
为了提高网络流量预测精度,准确刻画网络流量的变化特点,综合布谷鸟搜索算法和相关向量机的优点,提出一种布谷鸟搜索算法优化组合核相关向量机的网络流量预测模型(CS-HRVM)。首先针对网络流量的混沌性,通过相空重构构建RVM的学习样本,然后将学习样本输入到RVM进行训练,采用组合核函数构建RVM网络流量预测模型,并通过谷鸟搜索算法找到模型的最优参数,最后进行了仿真实验,实验结果表明,CS-HRVM提高了网络流量的预测精度,并且具有一定的鲁棒性。
1 相关向量机和改进布谷鸟搜索算法
1.1 RVM模型
式中,wi为模型的权值;N为样本数;K(x,xi)为核函数。RVM模型的结构如图1所示。
图1 RVM模型结构
假定目标函数是独立的,且来自带噪声的模型:
式中,εn为噪声。
训练样本集的似然函数为:
为了避免通过最大似然法求解最优w导致的过拟合现象,采用稀疏Bayesian方法对权值w赋予先验的条件概率分布:
根据Bayesian公式,对所有未知参数有如下后验公式:
则权值w的后验概率可以表示为:
利用delta函数来做近似运算,将相关向量学习转变成寻求超参数后验模式问题,即α最大化p(α,δ2|y)∝p(y|α,δ2)p(α)p(δ2)。用delta函数的峰值来逼近超参数后验p(α,δ2|y),在先验情况一致条件下,仅需p(y|α,δ2)取最大值,即
式中,N为样本数据的个数;μi为第i个后验平均权;γi=1-Σij;Σij为第i个对角元素。
从计算过程可以看出,随着迭代次数的增加,大部分αi将趋于无穷大,与之相对应的wi将趋于0,使大部分核函数矩阵的项不会参与到实际预测计算中,实现模型的稀疏化。
1.2 布谷鸟搜索算法
布谷鸟搜索(Cuckoo Search,CS)算法模拟布谷鸟种群的寄生繁衍策略,并结合了鸟类及果蝇特殊的Levy flight模式,全局搜索能力强,适合用于多目标优化问题求解。为了模拟布谷鸟的寻巢行为,CS设定了三个规则,具体为:
(1)布谷鸟一次下一个蛋,代表待求解问题的一种解决方案,并随机放在一个鸟巢中进行孵化。
(2)一部分鸟巢放着优质蛋,即好的解决方案,这些鸟巢将被保留到下一代。
(3)可利用鸟巢的数量是固定的,布谷鸟蛋被寄主鸟发现的概率为Pa∈(0,1),一旦某个鸟巢被发现,寄主鸟就丢弃鸟蛋或者鸟巢,寻找新的鸟巢,以免影响寻找优问题的解。
式中,∂表示步长控制量;⊕表示点对点乘法。
位置更新后,随机产生一个[0,1]的数r,如果r>Pa,那么x就进行随机改变,反之不变,最后保留测试值较好的一组鸟巢位置y,此时仍然记为x[11]。
2 布谷鸟搜索算法优化组合核相关向量机
2.1 组合核函数
相关向量机通过核映射实现了数据空间、特征空间和类别空间的非线性变换,因此核函数及核参数的选取至关重要,当前RVM使用的核函数很多,如多项式核函数,Sigmoid函数,径向基函数等,但归纳起来大致可分为全局核函数和局部核函数两类[12]。全局核函数的一个典型是多项式核函数,局部核函数的一个典型是RBF核函数。鉴于全局核函数泛化能力,学习能力弱,而局部核函数学习能力强,泛化能力弱,为了提升RVM的性能,得到学习能力和泛化能力都较强的核函数,核函数组合的方法很多,但最终的组合核函数要满足mercer条件。本文将通过组合两种具有代表性的局部核函数(RBF核函数)和全局核函数(多项式核函数)的映射特性,构造一种组合核函数,此组合核函数满足Mercer条件,其表达式为:
2.2 布谷鸟算法的组合核参数寻优步骤
步骤1设置RVM的参数d、δ、λ取值范围和CS算法相关参数。
步骤4根据Levy flight对其他鸟巢进行更新,得到一组新的鸟巢位置,并对鸟巢位置优劣进行评价。
步骤7找出步骤6最后找到pt中最优的一个鸟巢位置x(t)b,并判断其是否达到结束条件,如果满足,则停止搜索,反之,则返回步骤3继续寻找最优权值。
步骤8将最优鸟巢位置进行解码,得到RVM的最优参数(d、δ、λ)值。
综合可知,CS-HRVM的工作流程如图2所示。
图2 CS-HRVM的工作流程
3 仿真实验
3.1 仿真环境
为了测试CS-HRVM的网络流量预测模型的有效性,在P4核2.8 GHz CPU,4 GB RAM,window s XP操作系统的电脑,采用VC++编程实现仿真实验。数据来源于http://new sfeed.ntcu.net/~new s/2013/的主节点路由器2013年5月1日到6月21日的每小时访问流量,得到1 200个数据,选择前100个数据作为训练样本集,建立网络流量预测模型,然后采用最后200个网络流量数据对网络预测模型的性能进行测试,网络流量数据具体如图3所示。
图3 网络流量数据
在RVM训练过程中,过大或过小的网络流量数据对训练效率产生不利影响,为此对其进行预处理,具体如下:
式中,x(i)和x′(i)分别表示原始和预处理后的值;max()和m in()分别为取最大和最小值函数。
3.2 对比模型及评价指标
为了使CS-HRVM的预测结果更具说服力,CS优化RBF核函数RVM(RBF-RVM)、CS优化多项式核函数RVM(poly-RVM)、粒子群算法优化组合核RVM(PSO-HRVM)、遗传算法优化组合核RVM(GA-HRVM)进行对比实验,并采用绝对误差ERR,平均绝对误差MAE和相对误差PERR作为评价指示,它们具体定义如下:
式中,xi和x分别为网络流量真实值和预测值,Np为测试样本数。
3.3 重构网络流量样本
网络流量受到多种因素的影响,具有混沌性,同时收集到的网络流量是一维时间序列,因此需要通过相空间重理想的延迟时间(τ)和嵌入维数(m)对重构网络流量学习样本,得到最优τ=1,m=5时,从而采用τ=1,m=5对预处理的网络流量数据进行重构,得到RVM的网络流量学习样本。
3.4 结果与分析
3.4.1 不含噪的预测结果分析
首先将1 000个训练样本进行归一化处理消除样本值差异太大的不利影响,然后输入到HRVM中进行学习,并采用布谷鸟算法搜索参数d、δ、λ的值,得到的值见表1,然后采用表1的参数建立网络流预测模型,其中CS-HRVM拟合和预测结果如图4。对图4进行分析,可以看出,CS-HRVM可以对网络流量的变化趋势进行准确的跟踪,预测值与真实值之间的偏差相当小,偏差变化范围相当小,获得比较高精度的网络流量拟合和预测结果。
表1 不同网络流量模型的参数值比较
图4 CS-HRVM的网络流量预测结果
CS-HRVM、GA-HRVM、PSO-HRVM、RBF-RVM以及poly-RVM网络流量预测结果的MAE、PERR值见表2。对表2进行分析可知,可以得到如下结果:
(1)RBF-RVM以及poly-RVM的预测误差比较大,预测精度高,这表明单一核函数的RVM只能够对网络流量的线性或非线性变化趋势进行预测,无法建立精度高的网络流量预测模型。
(2)相对于单核的相关向量机,CS-HRVM、GA-HRVM、PSO-HRVM的网络流量预测精度得到不同程度的提高,这表明它们可以从多个方面对网络流量的变化趋势进行预测,预测结果更加理想。
(3)相对于GA-HRVM、PSO-HRVM,CS-HRVM的网络流量预测效果更优,这主要是由于布谷鸟算法可以获得更优的模型参数,较好地克服遗传算法、粒子群优化算法存在的局部极优缺陷,证明了本文采用布谷鸟算法对模型参数进行优化是有效的、可行性,有利于建立更优的网络流量预测模型。
表2 不同网络流量模型的预测误差比较
表3 不同模型的含噪网络流量预测误差比较
3.4.2 含噪的测结果分析
采用CS-HRVM、GA-HRVM、PSO-HRVM、RBF-RVM以及poly-RVM对含噪的网络流量数据预测,预测结果如图5所示。从图5可以看出,CS-HRVM的预测误差较小,预测结果稳定可靠,模型的鲁棒性较强。
图5 CS-HRVM的含噪网络流量预测结果
不同模型的含噪网络流量预测误差见表3。从表3可知,对于含噪网络流量,CS-HRVM同样可以获得更优的网络流量预测结果,证明了CS-HRVM的优越性。
4 结束语
网络流量是一个复杂、多变的系统,具有非线性、混沌性和突变性变化规律,采用传统网络流量难以准确建立相应的预测模型,同时单一核函数的相关相向量也无法全面、准确刻画网络流量的变化趋势,为了获得更加理想的网络流量预测结果,提出一种基于布谷鸟搜索算法优化组合核相关向量机的网络流量预测模型,并通过仿真对比实验测试本文模型的性能。仿真实验结果表明,CS-HRVM是一种预测精度、鲁棒性强的网络流量预测模型。
[1]Ames T,Rego C,Glover F.Multistart tabu search and diversification strategies for the quadratic assignment problem[J].IEEE Transactions on Systems,Man,and Cybernetics:Part A Systems and Humans,2009,39:579-596.
[2]王升辉,裘正定.结合多重分形的网络流量非线性预测[J].通信学报,2007,28(2):45-50.
[3]Silva C G.Time series forecasting with a nonlinear model and the scatter search meta-heuristic[J].Information Sciences,2008,178(16):3288-3299.
[4]Este A,Gringoli F,Salgarelli L.Support vector machines for TCP traffic classification[J].Computer Networks,2009,53(14):2476-2490.
[5]Qi H L,Zhao H,Liu W W,et al.Parameters optimization and nonlinearity analysis of grating eddy current displacement sensor using neural network and genetic algorithm[J].Journal of Zhejiang University Science A,2009,10(8):1205-1212.
[6]党小超,郝占军.基于改进Elman神经网络的网络流量预测[J].计算机应用,2010,30(10):2648-2652.
[7]王俊松,高志伟.基于RBF神经网络的网络流量建模及预测[J].计算机工程与应用,2008,44(13):6-11.
[8]罗赟骞,夏靖波,王涣彬.混沌-支持向量机回归在流量预测中的应用研究[J].计算机科学,2009,6(7):244-246.
[9]张颖路.基于遗传算法优化支持向量机的网络流量预测[J].计算机科学,2008,35(5):177-179.
[10]赵春晖,张燚.相关向量机分类方法的研究进展与分析[J].智能系统学报,2012,7(4):294-301.
[11]Tipping M E.Sparse Bayesian learning and the relevance vector machine[J].Journal of Machine Learning Research,2001,12(1):211-244.
[12]Yang X S,Deb S.Engineering optimization by cuckoo search[J].International Journal of Mathematical Modeling and Numerical optimization,2010,11(4):330-343.
LI Rong
Wenzhou Radio & Television University, Wenzhou, Zhejiang 410205, China
In order to obtain good forecasting results and describe the change rules network flow, a novel network flow forecasting model is proposed based on Hybrid kernels Relevance Vector Machine and Cuckoo Search algorithm(CS-HRVM).Firstly, the learning samples are obtained by using phase reconstruction theory, and the hybrid kernels function is used to establish the relevance vector machine, and then the learning samples are input into relevance vector machine to train, and the cuckoo searching algorithm is used to optimize the parameters of model and build the model of network flow, finally,the simulation experiments are carried out to test the performance of the model. The results show that CS-HRVM has obtained higher forecasting accuracy compared with other network flow forecasting model, and can forecast accurately network flow which includes noise.
network flow; phase space reconstruction; relevance vector machine; hybrid kernel function; cuckoo search algorithm
LI Rong. Network flow forecasting based on hybrid kernels RVM and cuckoo search algorithm. Computer Engineering and Applications, 2014, 50(17):90-94.
A
TP391
10.3778/j.issn.1002-8331.1312-0394
浙江省教育科学规划研究课题(No.2014SCG344)。
李融(1977—),男,讲师,主要研究领域:计算机应用、远程教育、网络与信息安全、高校智能化建设。
2013-12-26
2014-03-10
1002-8331(2014)17-0090-05