APP下载

大数据环境下基于小波神经网络和ARMA模型的流量异常检测

2019-11-15陈易平

重庆理工大学学报(自然科学) 2019年10期
关键词:网络流量神经网络流量

陈易平,俞 龙,谌 颃

(1.广东技术师范大学天河学院 计算机科学与工程学院, 广州 510540;2.华南农业大学 电子工程学院, 广州 510642)

随着互联网的快速发展,全球信息共享已经逐步成为现实,社会大众在在日常工作和生活中,通过各种联网设备进行办公和娱乐,大大提高了工作的效率和生活的便利性。随着互联网用户数量的快速增加,网络信息量也急剧增长,意味着全世界已经进入了大数据信息化时代[1-4]。数据规模的增加也导致运维的难度逐渐变大。如果运维不当可能导致故障或者异常,从而造成经济上的巨大损失,例如蠕虫攻击、网络的配置错误或者服务器负载异常等。如何高效地维护大数据环境下的众多网络设施成为目前网络维护领域急需解决的重要问题[5]。

面对当前庞大数据量的网络设备运维任务,传统的方法需要人工根据经验完成。工程师需要通过时刻监控网络设备的硬件、性能状态等参数来掌握当前网络系统的运行状况,以便对网络服务的质量进行评估。但人工操作的准确性依赖于经验,且稳定性较差。因此,对网络服务设备的准确故障预警是运维管理中必不可少的任务[6-7]。针对网络流量的预测和异常检测,国内外已经有不少研究成果,如时间序列分析、小波分析、拟合、神经网络等。如文献[8]提出了含自适应阈值的ARMA网络流量异常检测算法。该算法利用滑动平均模型预测网络流量,利用中心极限定理确定动态的阈值区间,通过判断网络流量误差是否落在阈值区间作为检测点是否异常的准则。文献[9]将传统的ARIMA预测模型和BP神经网络模型结合来进行精确的无线网络流量预测,并使用粒子群优化算法对BP神经网络预测模型进行优化以解决局部最小值陷入和训练收敛速率低等问题。文献[10]证明了网络流量的自回归短期预测是个NP问题,并分析了小波神经网络预测算法的时间复杂度。研究结果表明:相比BP神经网络和GRNN,小波神经网络在解决此类NP问题时具有良好的预测效果和收敛速度。

通过上述研究结果分析,可以看出基于预测模型的智能化网络流量监测已经得到应用,但是其预测精度和适用性还有待提高,特别是大数据环境下。因此,本文提出了一种基于小波神经网络和ARMA的流量异常检测方法。使用序列预测偏差拟合正态分布来构建异常可置区间,从而对时间序列分析法中的ARMA模型进行了改进。采用贝叶斯组合理论把小波神经网络预测与ARMA时间序列预测相结合,建立了组合模型来实现流量异常预警。组合模型的依据是对具有近似平稳特征的网络流量ARMA预测模型效果较好,而对于变化较多的网络流量小波神经网络预测模型效果较好。因此提出了组合预测思路,实验结果表明:提出组合预测模型的相对误差较小、精度较好。

1 小波神经网络和改进ARMA模型原理

1.1 网络流量模型分析

不同于传统的网络设备,大数据应用的规模和自动化程度更高,导致大数据环境下的网络设备管理和维护需要解决更加复杂的问题。如何有效实现网络流量监测成为了目前相关研究领域的热点方向。检测到异常后需要发出预设的报警通知,并下载日志进行统计分析判断,通常把异常请求的IP加入防火墙的黑名单中,并更改端口号。网络流量模型通常采用信道传输速率的时间序列来表示,单位是Mbit/s。在统计学中,一般通过一组随机变量X1,X2,…,Xt,…来表示某种随机事件时间序列,即{Xt,t∈T}。

图1 小波神经网络的原理结构

一般通过网络流量的自相似性和周期性来区分异常,主要方式是构建异常检测置信区间。对于ARMA模型来说,{Xt}的定义如下所示:

Xt=φ1Xt-1+…+φpXt-p+

εt-θ1εt-1-…-θqεt-q

(1)

1.2 小波神经网络模型

本文采用的小波神经网络由m个输入层节点、n个输出层节点和s个隐含层节点构成[11]。其中,φ表示一个单独的函数φ(x)生成的小波基函数。φ可以通过变换与平移操作得到,计算方法如式(2)所示[12]。

(2)

式中:φ(x)表示一个位于时间空间和频率空间的母小波;向量aj={aj1,aj2,…,ajm}表示尺度参数;bj={bj1,bj2,…,bjm}表示转换参数;x={x1,x2,…,xm}表示小波神经网络的输入。

神经元j的网络内部活动可通过式(3)表示:

(3)

式中:Wij表示输入i和隐藏节点j之间的权重。通过母小波φ(v)计算第j个神经元的输出。

选取Morlet小波函数作为激励函数[13]。Morlet母小波可通过式(4)计算得到。

(4)

因此,第j个神经元的输出取决于:

(5)

显然,隐藏层第j个单元取值由频率参数aj和时间参数bj来决定。初始化小波的变换与平移参数:

ai=0.2(xmax-xmin)

(6)

bj=0.5(xmax+xmin)

(7)

式中xmax、xmin分别表示最大和最小输入值。

1.3 改进的ARMA模型设计

F1:Xt=φ1Xt-1+…+φpXt-p+

εt-θ1εt-1-…-θqεt-q

(8)

(9)

利用式(8)对流量序列进行预测,式(9)则能对在线流量数据进行异常检测。首先,对采集到的数据序列进行对数处理以降低标准差,然后通过差分析方法实现流量序列平稳化处理,具体方式如下:

lnSij=μ+αi+βj+yij

(10)

式中:Sij为7天中第j天第i个5 min的观测值,j=1,2,3,4,5,i=1,2,3,…,288;μ为7天观测值的平均值;αi为在第i个时刻的平均值与μ的偏差,∑iαi=0;βj为第j天的平均值与μ的偏差,∑jβj=0;yij表示测值的余值。

ARMA模型的(p,q)参数识别采用了Box-Jenkins提出的方法[14],也就是通过样本的自相关函数和偏自相关函数的截尾性来给(p,q)参数定阶。然后,通过序列的观察值初步估计模型的未知参数φ1,…,φp,θ1,…,θq,μ。

一般采用矩估计方法计算参数μ的估计值:

(11)

2 基于小波神经网络和ARMA组合模型的流量异常检测

如果有一个段网络信号在时刻t的时间序列为yt,那么多个预测模型的输出如下[15-16]:

(12)

(13)

式中k=1,2,…,K;t=1,2,…。

(14)

(15)

因此,K个组合模型对(t+1)的预测值为:

(16)

(17)

3 实例分析

为了验证本文提出的组合模型在大数据环境下的性能,在Hadoop平台上进行了性能测试分析。

3.1 实验配置

测试集群机器环境参数为:10台网络服务器节点,具有Intel i7处理器,CPU主频为 3.2 GHz,8 GB内存。所有服务节点通过1 000 M光纤实现相互通信。在所有服务节点上均安装了2.2.0版本的Hadoop,JDK版本为1.8。其中1个节点设置为Jobtracker,其他的9台计算节点设置为tasktracker。每个tasktracker均具有1个reduce工作槽和2个map工作槽。每个服务节点的软硬件参数如表1所示。

表1 实验环境软硬件参数

3.2 评估指标

为了对提出组合模型的性能进行量化分析,选择最常用的综合评价指标[19-20]:相对误差E,其计算方式如下:

(18)

3.3 数据预处理

以1台网络服务器节点上24 h内缓存的网络流量数据为例,样本为每5 min的平均流量速率,共计288个样本点,其实际网络流量曲线如图2所示。可以看出,凌晨1点到6点时的流量最低,晚上8点至12点时流量最高,这与网络服务器的实际正常运行情况相符合。但是,由于网络流量的数值较大,因此如前面所述,将要对采集到的数据序列进行对数处理以降低标准差,平滑处理后的序列如图3所示。

图2 1 d的流量曲线示例

图3 处理后的流量曲线

3.4 (p,q)阶数确定

使用自相关函数(ACFA)和偏自相关函数(PACF)来估计F1模型的p与q的阶数[19]。根据最小二乘参数估计、拟合结果及BIC最小化准则[15],综合分析得出模型F1(1,3)拟合的效果最好,即p=1,q=3。

3.5 异常测试结果

以每5 min的平均流量速率为采样点,采集了10 d的流量数据作为数据集,共2 880个数据点,其中包含观测到的异常点47个。使用BP神经网络、小波神经网络(WNN)、ARMA和组合模型对该数据集进行了网络流量监测。通过式(18)计算得出4种模型的相对误差,如表2所示。从表2可以看出:相比其他3种单一预测模型,所提出的组合模型能得到更好的监测效果,相对误差更小,模型精度最佳。此外,BP神经网络、WNN和ARMA模型正确检测出异常点的数量分别为33、40和37,而组合模型正确检测出异常点的数量较多,得到44个,异常检测率达到93.6%。综合以上结果得出:所提出的组合模型在流量的异常检测上具有显著的效果。

表2 不同模型的误差对比

4 结束语

本文提出了一种基于小波神经网络和ARMA的流量异常检测方法。使用序列预测偏差拟合正态分布来构建异常可置区间,从而对时间序列分析法中的ARMA模型进行了改进。采用贝叶斯组合理论把小波神经网络预测与ARMA时间序列预测相结合,建立了一个组合模型来实现流量异常预警。实验结果验证了所提出组合模型的有效性。但是,相比单一预测模型,组合模型在实际大数据环境中的实时性有所降低,且并不能反映出故障的种类。因此,未来研究重心将会向网络故障定位和并行化实施方向发展。

猜你喜欢

网络流量神经网络流量
基于多元高斯分布的网络流量异常识别方法
大数据驱动和分析的舰船通信网络流量智能估计
冰墩墩背后的流量密码
张晓明:流量决定胜负!三大流量高地裂变无限可能!
寻找书业新流量
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
AVB网络流量整形帧模型端到端延迟计算
基于神经网络的拉矫机控制模型建立
基于支持向量机回归和RBF神经网络的PID整定