基于云计算和极限学习机的网络流量预测研究

2018-07-25王柯

山东农业大学学报（自然科学版） 2018年4期

王柯

湖南城建职业技术学院,湖南湘潭 411101

随着网络规模的急剧增加，网络信息流量呈现指数级增加，给网络管理带来严峻挑战，对网络流量进行高精度预测对网络管理和规划具有重要的实际价值和理论意义。传统流量预测方法主要集中在回归分析法[1]、时间序列法[2]、神经网络[3]和支持向量机[4]等。由于网络数据的复杂性和不确定性，传统的方法存在一定局限性，存在预测误差大和预测存在滞后性的问题，针对网络流量数据，本文将云计算和极限学习机相结合，提出一种基于云计算和极限学习机的网络流量预测方法。研究结果表明，本文方法可以有效提高网络流量预测的精度，为网络流量预测提供新的方法和决策依据。

1 云计算

Hadoop云计算平台是由Apache基金会开发的开源软件工程，其由MapReduce框架和分布式文件系统组成。MapReduce是一个程序模型，可以用来在集群中处理海量数据集，适合解决分布式存储问题、运算问题。MapReduce框架可以被抽象为两个函数，分别为Map和Reduce函数，这两个函数可以由用户编写完成。MapReduce模型的运行机制如图1所示，具体流程如下：

图1 MapReduce运行机制Fig.1 Operation mechanism of MapReduce

（1）Input。读取分布式文件系统中的输入数据，将数据切分为数据片。MapReduce框架中每一个Map函数可以分配一个数据片；

（2）Map。将数据片当作一组键值对，根据Map函数程序逻辑，运行、处理MapReduce框架分配的键值对，最后产生新的中间键值对；

（3）Shuffle。该阶段将中间键值对从Map节点转移到Reduce节点中，同时合并相同的中间键值对，形成中间键链和键值排序等工作；

（4）Reduce。执行Reduce函数；

（5）Output。输出Reduce函数的处理结果，将结果保存在指定的分布式文件系统中。

2 极限学习机

极限学习机[5]（Extreme Learning Machine，ELM）是在Moore-Penrose矩阵理论基础上所提出的一种新型的单隐含层前馈神经网络(Single-hidden Layer Feed-forward Neural Networks，SLFNs)，其结构模型图如图2所示。

图2 ELM结构模型图Fig.2 ELM structural model

对于N个不同样本(xi,ti)，其中，隐含层神经元个数为，激励函数为g(x)的SLFN的数学模型可表示为[6]：

其中，αi=[αi1,αi2,…,αin]T、βi=[βi1,βi2,…,βim]T和bi分别表示第i个隐含层神经元的输入权值、输出权值和偏置；ai·xj表示ai和xj的内积。公式（1）可表示为矩阵形式：

其中：

求解该问题是在保证期望值与实际值之间的误差平方和E(W)最小的前提下，寻找最优的权值W=(a,b,β)使代价函数E(W)最小的过程，其数学模型为[7]：

其中，εj=[εj1,εj2,…,εjm]表示第j个样本的误差。

3 基于云计算和极限学习机的网络流量预测

随着网络规模的急剧增加，网络信息流量呈现指数级增加，给网络管理带来严峻挑战，对网络流量进行高精度预测对网络管理和规划具有重要的实际价值和理论意义。将云计算和极限学习机结合，利用MapReduce框架，将网络流量数据进行切片处理，之后再切片处理的基础上，利用ELM极限学习机进行分布式并行处理实现网络流量的高精度预测。通过Map和Reduce函数实现并行化设计和计算，基于MapReduce的分布式MR-ELM的网络流量预测过程如下：

（1）读取云计算平台分布式文件系统中的网络流量数据训练集，通过MapReduce框架的底层机制，实现网络流量数据训练集的分割，获取k个不同的网络流量数据训练子集，其中k表示并行Map的个数；

（2）网络流量数据的训练子集根据Map函数的程序逻辑运行，即ELM的训练算法逻辑，对网络流量数据的训练集并行训练，也就是k个不同的ELM；

（3）将k个不同ELM网络流量预测结果，通过MapReduce框架的Shuffle阶段传输到Reduce阶段，在此基础上，计算不同ELM预测结果的权重确定各Map操作输出的网络流量预测的权重，最后确定网络流量预测结果。

4 实证分析

4.1 实验环境

本文实验搭建的Hadoop平台由32个节点构成，每个节点电脑配置均为Intel(R)Core(TM)i5-24004-core，中央处理器CPU的主频为2.60 GHz，内存8 GB，云计算平台如图4所示。

图3 基于云计算和ELM的预测流程图Fig.3 Flow chart of ELM prediction on cloud computing

图4 云计算平台Fig.4 Platform of cloud computing

4.2 数据来源

为了验证MR_ELM进行网络流量预测的有效性，选择2018年4月15日-2018年4月25日11天的流量文库流量数据为研究对象[8,9]，其中每天每间隔1 h采集一点流量数据，一共采集264组流量数据，流量数据如图5所示。

图5 流量数据Fig.5 Traffic data

4.3 评价指标

为评价访问流量的预测结果，选择MAE、RMSE和nRMSE作为流量预测的评价指标[9-11]：

其中，Xi为模型的第i样本点流量实际值，Xj为模型的第i样本点流量预测值;为Xi的平均值；n表示样本数量。

4.4 结果分析

为了证明本文算法MR_ELM进行网络流量预测的优越性，将其与ELM、和LSSVM进行对比，对比结果如图6～8所示和表1所示。

图6 对比结果Fig.6 Comparative results

图7 绝对误差Fig.7Absolute error

图8 相对误差Fig.8 Relative error

表1 不同算法结果对比Table 1 Comparative results of different algorithms

结合图6-图8和表1不同算法进行网络流量预测结果可知，在RMSE、MAE和nRMSE三个评价指标上，与ELM和LSSVM相比较，MR-ELM具有更高的预测精度；其次，ELM的预测精度优于LSSVM；最后，LSSVM的预测精度最差，RMSE、MAE和nRMSE分别比MR-ELM低0.5032、0.4421和5.1042%，通过对比可知，本文提出的算法MR-ELM可以有效提高网络流量预测的精度，效果较好，为网络流量预测提供新的方法和途径。