APP下载

支持向量机补偿的多因素灰色模型话务量预测

2014-08-03贾振红覃锡忠

计算机工程与科学 2014年7期
关键词:话务量残差灰色

郭 勤,贾振红,覃锡忠,盛 磊,陈 丽

(1.新疆大学信息科学与工程学院,新疆 乌鲁木齐 830046;2.中国移动通信集团新疆有限公司,新疆 乌鲁木齐 830063)

1 引言

话务量的需求预测在移动通信网络运营商中有着举足轻重的地位,话务量的过去、现在,尤其是将来的需求是移动运营商十分关注的问题,移动运营商需要根据移动用户对话务量需求的预测来规划未来的企业发展战略。话务量预测是指导基本建设规模的一项重要依据,话务量的预测对网络管理、规划和设计都有重要的指导意义,关系着企业的经济效益,因此提高话务量预测的精度成为我们研究的方向。

目前话务量预测采用的是用历史的话务量来预测未知话务量,常见传统预测方法有线性回归分析、时间序列法,季节模型和卡尔曼滤波等。文献[1]提出通过回归分析得出实时话务预测的趋势;文献[2]针对不同时间类型的话务量序列分别研究了指数平滑方法中的Holt模型和开放预测技术中的ARIMA模型;文献[3]利用自相关函数对其周期性和趋势性方面的规律进行了探测,并在此基础上提出应用乘积季节ARIMA模型进行建模和预测的方案;文献[4]提出了一种基于卡尔曼滤波的移动网实时话务量预测算法。以上传统的预测方法预测精度低,近些年一些学者提出了新的智能预测方法,有模糊逻辑、神经网络、支持向量机等。文献[5]提出BP神经网络和基于Elman神经网络的话务量预测模型;文献[6]提出基于模糊C均值聚类和支持向量机的多元回归话务量预测模型;文献[7]提出了用隐马尔科夫链对功率分配进行预测,以及灰色与神经网络结合、灰色与马尔科夫链结合的模型等一些组合模型。新发展的智能预测方法同传统预测方法相比,精度较高。

上述的预测方法只是针对历史话务量这一个因素来预测,而话务量是多因素综合的结果,话务量的影响因素具有灰色性和不确定性,且灰色模型具有所需样本少、建模简单的特点,因此可把话务量系统看为一个灰色系统,但灰色系统对波动较大的数据预测精度低,适合线性预测。支持向量机能较好地解决小样本、非线性、局部极小点等实际问题。实际中话务量是受多种因素影响的,不仅需要考虑历史的话务量还要考虑其它影响因素。由于影响因素间呈现复杂的非线性关系,单一的预测模型难以达到较高的预测精度。本文提出一种组合模型,结合灰色预测模型和支持向量机预测模型各自的优点,通过基于支持向量机补偿的多因素灰色模型来预测话务量。

2 多因素灰色模型以及最小二乘支持向量机预测原理

2.1 灰色关联分析法

灰色关联分析是一种多因素的统计分析方法,其基本原理是根据序列曲线几何形状的相似程度来判别其联系是否紧密,通过计算数据间相关度的大小来判别其相关性的大小[8],具体步骤如下:

(1)设系统特征序列为X1,相关因素序列Xk为:

X1=(x1(1),x1(2),…,x1(m))

(1)

Xk=(xk(1),xk(2),…,xk(m)),k=2,3,…,m

(2)

(2)对各序列进行无量纲化处理:

k=1,2,…,m

(3)

(3)计算特征序列与相关因素序列之间相关系数:

ξk(j)=

(4)

(4) 综合各关联系数,计算关联度:

(5)

其中,γk的大小反映了数列之间相关程度的大小,γk越大说明数列之间的关系越密切。

2.2 多变量灰色模型

多变量灰色模型MGM(1,n)就是利用n元一阶常微分方程组来描述n元相关关联的变量的状态并预测它们发展趋势的灰色系统模型,它是单变量灰色模型MGM(1,1)在多个变量情况下的扩展,应用于相互影响、相互制约的多变量状态和发展趋势分析。该模型通过对生成序列建立n个一元微分方程组,将优化目标函数设定为相对误差最小,然后优化求解模型的最佳参数从而实现模拟状态和预测的目的。其内容如下[9]:

在这个模型中,n为变量的个数,每个变量有m个数据,记为:

(6)

(1)经过1-AGO后得到一组新的数据,记为:

(7)

(8)

其中,i=1,2,…,n;j=1,2,…,m。

(2)多变量MGM(1,n)模型对累加后的数据建立n元一阶微分方程组:

(9)

(3)将式(9)简写为:

(10)

其中,

(11)

(4)为辨别参数A和B,故将式(1)离散化为:

(12)

其中,0≤θ≤1,一般情况下取θ=1/2。i=1,2,…,n;j=1,2,…,m。

(5)令H=[ai1ai2…ainbi]T,i=1,2,…,n,由最小二乘法可得到的H辨识值H′。

i=1,2,…,n

(13)

(14)

(6)得到A、B的辨识值A′、B′:

(15)

(4)现在从式(10)可得到预测值:

(16)

(5)预测值:

(17)

其中,j=2,3,…。

2.3 最小二乘支持向量机回归原理

最小二乘支持向量机LS-SVM[10]是Suykens J A K等在标准支持向量机(SVM)的基础上提出的一种新的人工智能学习算法,是对标准支持向量机的改进。与标准支持向量机相比,LS-SVM把二次规划问题转化为解线性方程组问题,将损失函数设定成误差平方和,以减少模型需要优化的参数,降低求解的复杂性[11]。

设训练样本有k个,则样本记为T= [(Xi,Yi)],其中Xi∈Rn为n维样本输入,Yi∈Rn为样本输出,回归预测就是通过样本训练找到合适的函数f(x)。对于非线性回归问题,在非线性条件下利用非线性映射Φ(x)将样本映射到一个高维特征空间,建立线性模型:

f(x)=(w·Φ(xi))+b

(18)

其中,w表示权值向量,b表示偏差量。

LS-SVM函数估计问题可转化为求解如下问题:

yi-wTΦ(xi)+b=ri,i=1,2,…,n

(19)

上式中,c表示惩罚参数,ri为模型的预测误差。

通过引入拉格朗日乘子,将式(11)转化为对偶优化问题,即:

L(w,b,ri,α)=J(w,ri)-

(20)

其中,αi表示拉格朗日乘子,分别对变量w、b、ri、a求偏导,令等于0,写成矩阵形式,并消去w、ri得:

(21)

其中,Ω=φ(xi)Tφ(xj)=K(xi,xj),若有矩阵Δ:

(22)

若Δ可逆,求解式(21)可得:

(23)

对于非线性问题,可通过引入核函数转换为非线性预测,本文采用径向基核函数[12],其中σ表示径向基核函数的宽度,所以LS-SVM回归模型为:

(24)

由于核函数和惩罚参数影响最小二乘支持向量机的预测精度,故本文采用粒子群算法来求解最小二乘支持向量机的参数最优解[13],在参数寻优时可有效避免陷入局部最优,且运算速度快,预测精度较高。

2.4 预测流程

(1)用灰色关联分析法计算出特征序列与各相关因素序列之间相关度的大小,根据相关性的大小,找出与话务量有关的主要因素。

(2)将与话务量影响较大的因素作为MGM(1,n)模型的输入,以实现对话务量基本规律的预测,并得到预测的残差序列。

(3)利用粒子群优化的LS-SVM模型建立残差序列预测模型,从而实现对残差序列的预测。

(4)将MGM(1,n)的预测结果与粒子群优化的LS-SVM的残差序列预测结果叠加,即为对MGM(1,n)预测结果的修正,以达到对话务量的预测,具体流程图如图1所示。

Figure 1 Model of traffic prediction based on MGM and LS-SVM compensation 图1 基于LS-SVM补偿的多因素话务量预测模型

3 模型实验验证及结果分析

本文收集了新疆伊犁州2008年~2012年每年5月1日之前20天的话务量以及影响因素的资料。影响话务量X1的相关因素有短信X2、资费水平X3、GPRS上行流量X4、GPRS下行流量X5、开机用户X6以及忙时用户X7、EGPRS上行流量X8和EGPRS下行流量X9。可利用该资料对2012年5月1日这一天的话务量进行预测,算法在Matlab 2010a平台上实现。

(1)应用灰色关联分析确定影响话务量的主因素变量。首先计算出各因素对话务量的关联度大小,如表1所示,显示与话务量影响较大的因素的关联度的大小。

Table 1 Traffic influence factors and correlation in traffic表1 对话务量影响较大的因素与话务量间的关联度

(2)建立MGM(1,4)模型。由表1可知,与话务量相关度较大的因素有短信、忙时用户数和开机用户数,因此可以建立MGM(1,4)模型进行话务量的预测,即把每一年的影响话务量的因素(短信,忙时用户数和开机用户数)作为MGM(1,4)的输入变量,进行预测,把真实值与预测值相减得到残差序列。图2为用多因素灰色模型得到的2012年5月1日预测结果。

Figure 2 Multi-factor grey model of traffic forecast on May 1, 2012图2 基于多因素灰色模型2012年5月1日的话务量预测值

(3)利用粒子群优化的最小二乘支持向量机残差预测模型,使用2008年到2011年共4年的5月1日前15天的数据以及5月1日数据的残差序列作为已知数据训练模型。SVM模型采用径向基函数,粒子群算法的基本参数为:粒子群种群规模m=100,最大迭代次数为1 000,惯性权重ξ=0.9,松弛因子ε=0.54,各粒子的初始化速度为0,最小适应值£=0.01,通过粒子群优化算法确定C=0.6160,g=10.9836作为模型参数值。利用训练好的模型对2012年5月1日的残差进行预测,预测结果如图3所示,显示的是利用最小二乘支持向量机预测2012年5月1日的残差预测值。

Figure 3 Least squares support vector machine prediction residual May 1, 2012图3 2012年5月1日的最小二乘支持向量机残差预测值

(4)最后将MGM(1,4)模型的2012年5月1日的预测结果与粒子群优化的最小二乘支持向量机得到的2012年5月1日的残差预测结果相加,相加后的最后结果与单一多因素灰色模型相比,更接近真实值。最终预测结果如图4所示,显示的是支持向量机补偿的多因素灰色模型与多因素灰色模型真实值的对比图(图4中最上面的曲线代表的是真实值,中间的曲线为支持向量机补偿的多因素灰色模型的预测值,最下面的曲线为多因素灰色模型的预测值)。

Figure 4 Multi-factor grey model and support vector machine (SVM) compensation of multi-factor grey model and the real value contrast figure图4 多因素灰色模型与支持向量机补偿的多因素灰色模型以及真实值的对比图

为了验证本文提出模型的预测效果,取灰色系统预测模型作为对比模型,采用相对误差μ来评价模型的预测功能。

Table 2 Performance comparion between two kinds of prediction表2 两种预测方法的相对误差比较

由表2可知,传统的灰色模型建模简单,但在数据波动较大的情形下,预测精度不高。相对于传统的多因素灰色模型,本文提出的基于支持向量机的残差补偿灰色预测模型的预测效果更好,与原数据更加相似,由此表明本文提出的方法更适用于话务量的预测。

4 结束语

由于话务量具有时变性、随机性、周期性等特点,传统的线性预测难以达到高精度的预测效果,且以往话务量预测只考虑用历史话务量来预测未来话务量,而实际的话务量是受多种因素的影响。单一的多因素灰色模型难以达到较高的预测精度,且灰色模型对数据波动较大的数据,预测精度较低。针对话务量的特点,本文提出了支持向量机残差补偿的多因素灰色话务量预测模型,创新之处在于首次提出用最小二乘支持向量机对多因素灰色模型进行补偿预测。先利用关联分析法找出与话务量相关度较大的因素,把相关度较大的因素作为多因素灰色模型MGM(1,n)的输入变量进行话务量趋势预测,再采用粒子群优化的最小二乘支持向量机进行残差预测,把残差预测的结果与多因素灰色模型预测的结果相加,即实现残差补偿,从而实现对话务量较为精确的预测。文中对话务量进行了仿真实验,仿真结果表明:该模型相较于传统的多因素灰色模型,预测精度高,对波动较大的数据同样适用,为话务量的预测提供了新的方法。但是,此方法有一定的局限性,适应于小样本的预测,下一步将对复高斯小波核函数进行深入的研究,以提高残差的预测精度。

[1] Zhang Lei. The linear regression analysis of traffic forecast telecom revenue research[D].Guangzhou:Sun Yat-sen University, 2009.(in Chinese)

[2] Jiang Jian-zhong. Time series analysis in the application of mobile telephone traffic forecasting [D]. Beijing:Beijing University of Posts and Telecommunications, 2005.(in Chinese)

[3] Yu Yan-hua,Wang Jun.Application of product seasonal ARIMA model of traffic forecast and result analysis[J]. Computer Engineering and Application, 2009,45(20):99-102.(in Chinese)

[4] Liu Jun-bo, Sun Yan, Wang Da-ming, et al. A Kalman filter-based algorithm for real-time forecasting of communication traffic[J]. Journal of Communications Technology, 2012,45(6):86-88.(in Chinese)

[5] Deng Bo,Li Jian, Sun Tao. Traffic prediction based on neural network [J]. Journal of Chengdu Information Engineering College, 2008,23(5):521-518.(in Chinese)

[6] Chen Dian-bo, Xu Fu-cang, Wu Min. Traffic based on clustering and support vector machine forecasting model [J]. Journal of Control Engineering, 2009,16(2):195-198.(in Chinese)

[7] Subhrakanti N G. A dynamic quantization and power allocation for multisensor estimation of hidden Markov model[J]. IEEE Transactions on Automatic Control, 2012,57(7):1641-1656.

[8] Geng Li-yan,Zhang Wei,Zhao Peng.LS-SVM based on grey correlation analysis of railway freight volume prediction[J]. Journal of Railway, 2012,34(3):1-6.(in Chinese)

[9] Shen Ji-hong, Zhang Chang-bin, Li Ji-de. The prediction of ship motion via updating MGM(1,n) model[C]∥Proc of the IEEE International Conference on Grey Systems and Intelligent Services, 2009:533-537.

[10] Chen Wei-min, Chen zhi-gang. Network traffic prediction based on PSR-LSSVM measurement [J]. Journal of Computer Science, 2012,39(7):92-95.(in Chinese)

[11] Wu Chih-Hung, W-H S, Ya-Wei Ho. A study on GPS GDOP approximation using support-vector machines[J]. IEEE Transactions on Instrumentation and Measurement, 2011,60(1):137-145.

[12] Fu Li-hua, Li Hong-wei, Zhang Meng,et al. With multiple multi-scale kernel functions, the radial basis function networks[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2010,38(1):39-42.(in Chinese)

[13] Varshney S, Pandit L S M. Comparison of PSO models for optimal placement and sizing of statcom[C]∥Proc of Sustainable Energy and Intelligent System(SEISCON 2011), 2011:125-133.

附中文参考文献:

[1] 张蕾. 基于线性回归分析的话务预测电信收入的研究[D]. 广州:中山大学, 2009.

[2] 蒋建忠. 时间序列分析在移动话务量预测中的应用[D].北京:北京邮电大学,2005.

[3] 于艳华,王军. 应用乘积季节ARIMA模型的话务量预测及结果分析[J]. 计算机工程与应用, 2009,45(20):99-102.

[4] 刘军搏,孙岩,王大鸣,等. 一种基于Kalman的实时话务量预测算法[J]. 通信技术, 2012,45(6):86-88.

[5] 邓波,李建,孙涛. 基于神经网络的话务量预测[J].成都信息工程学院学报,2008,23(5):518-521.

[6] 陈电波,徐福仓,吴敏. 基于聚类和支持向量机的话务量预测模型[J]. 控制工程, 2009,16(2):195-198.

[8] 耿立艳,张伟,赵鹏. 基于灰色关联分析的LS-SVM铁路货运量预测[J]. 铁道学报, 2012,34(3):1-6.

[10] 陈卫民,陈志刚. 基于PSR-LSSVM的网络流量预 测[J]. 计算机科学, 2012,39(7):92-95.

[12] 付丽华,李宏伟,张猛,等. 带多个核函数的多尺度径向基函数网络[J]. 华中科技大学学报(自然科学版), 2010,38(1):39-42.

猜你喜欢

话务量残差灰色
基于双向GRU与残差拟合的车辆跟驰建模
基于残差学习的自适应无人机目标跟踪算法
浅灰色的小猪
基于递归残差网络的图像超分辨率重建
基于时间序列模型的异常话务量分块建模和预测
灰色时代
她、它的灰色时髦观
S1240交换机实时话务量统计的分析与实现研究
感觉
平稳自相关过程的残差累积和控制图