改进的LS-SVM算法在入境旅游客流量预测上的应用
2011-07-09张朝元
张朝元,陈 丽
(1.大理学院 数学与计算机学院,大理 671003;2.大理学院 工程学院,大理671003)
随着社会的不断发展和旅游资源的不断开发,各地入境游客流量得到了迅速发展,这引起了各级政府和旅游事业的极大重视.为了应对迅速发展的旅游流量和跟上国际旅游事业步伐,采用先进的方法及时准确地掌握未来游客流量就变得尤其重要.对各地游客流量的及时了解是各地旅游事业决策经营、宏观管理的重要基础工作,具有十分重要的意义.通过对各地旅游未来时期旅游客流量的预测,可以科学地估算旅游的需求规模,便于对旅游形势做出应变策略和行动方案,以促进各地旅游业的发展.国内对旅游力量的预测研究还起步比较晚,以前大多数采用的是传统的统计学方法,但是预测精度不是很高.本文提出采用改进的最小二乘支持向量机方法来建立旅游流量的时间序列预测模型.近年来,最小二乘支持向量机器法(Least Squares Support Vector Machine,简记为LSSVM法)被提出来并被用于分类问题[1、2]和非线性函数的估计问题[3],LS-SVM法将SVM法中的不等式约束修改为等式约束,并将误差平方和(Sum Squared Error,简记为SSE)损失函数作为训练集的经验损失.但是,LS-SVM法有其自身的缺点[3],文献[3]提出了一种修正的LS-SVM法以克服其缺点.尽管LSSVM法有缺点,但用于函数估计仍然是一种十分可行的方法.
然而,用于函数估计的标准LS-SVM在求解大规模问题时存在学习速度过慢的问题.因此,如何减少计算时间和存储空间成为用于函数估计的 LSSVM学习算法的研究热点[4].由于O.L.Mangasari等人提出的用于模式识别的SOR(Successive Over Relaxation for Support Vector Machine)算法[5]适合迭代求解并能用于解决大规模问题.因此,本文考虑将这一方法推广到函数估计问题中,对用于函数估计的LS-SVM算法的优化式加以改造,得到了一种函数估计的LS-SVM的改进算法.这一新的算法具有能减少计算复杂性、提高学习速度和在一定程度上能提高回归估计的精度性等方面的优点.
1 标准的LS-SVM函数估计
函数估计问题最终就是求解待估计的未知函数f(x).作非线性映射:φ:Rn→H,其中 φ称为特征映射,H为特征空间(一般,H为高维空间或无穷维空间),则被估计函数 f(x)有如下形式:y=f(x)=wTφ(x)+b,其中w为空间H 中的权向量,b∈R为偏值.于是,LS-SVM法估计非线性函数为如下特征空间中的最优问题:
一般地,由于w可能为无限维的,于是直接计算规划(1)是非常困难的,因此将这一规划问题转化到其对偶空间中.定义Lagrange函数
这些条件除了αk=γek之外,与标准的SVM 最优条件很相似.其中αk=γek使得 LS-SVM 不再具有SVM所具有的稀疏性.
利用(3)消去w与ek得规划(1)的解的方程:
注意到(4)为一线性方程组,利用(4)可求得α与b的值,于是获得被估计函数 f(x)的表达式为:
2 改进的LS-SVM函数估计
本文将O.L.Mangasari等人提出的用于模式识别的SOR算法推广到函数估计问题中,对目标函数(1)进行简单的改进得到如下优化问题:
注意到(9)为一线性方程组,利用(9)可求得α的值,于是获得被估计函数 f(x)的表达式为:
我们可以看出,改进得到的方程组(9)式明显比改进前的方程组(4)要简单,而且很容易求解,在某种意义上就是提高了速度、减少了复杂性.同时,得到了估计函数表达式(10)与(5)比较也可以看出,估计函数也变得简单明了.
3 基于改进的LS-SVM的入境旅游客流量预测
预测的目的就是试图寻找一个函数以确定未来值与过去值之间的关系,也就是说预测问题与函数逼近和估计问题在本质上是等价的[6].本文将选择利用云南省大理州入境旅游客流量为例来进行预测.
一般而言,每年游客的流量都与前几年的游客流量紧密联系在一起的.因此,可以认为游客当年的流量应是游客前一年、前两年、…、前若干年的流量的函数,故有如下预测模型.假设游客流量xt,xt-1,…,xt-m分别表示第 t年 、第 t-1年 、…、第 t-m 年的游客流量,其中参数m的确定可参考文献[7].
表1 预测所得各项误差指标
图1 预测结果和真实结果的比较曲线图
本文利用上面建立的改进的最小二乘支持向量机模型来对大理州旅游客流量进行预测和模拟.本文选择m=2,γ=2,000和核函数取径向基核函数,以大理州1998-2006年的入境旅游客流量为基础进行了预测和模拟.应用MATLAB编程实现,并对数据进行计算分析.预测结果和误差指标[6]值见预测结果误差表1和曲线图1.表1中的误差指标值(marerr)也显示出了较低的平均误差为3.47%,而且表中的误差指标值EC达到了0.9780的高拟合度.可见,基于改进的最小二乘支持向量机方法的游客流量预测能取得较好的效果.
4 结 论
基于O.L.Mangasari等人提出的用于模式识别的SOR算法,本文对用于函数估计的LS-SVM算法加以改造,得到了一种新的函数估计的LSSVM算法.该算法具有能减少计算复杂性、提高学习速度且能提高函数估计的精确度等方面的优点.本文以大理州旅游客流量为例建立了基于改进的LS-SVM的入境游客流量的预测模拟模型.仿真结果表明,该模型比较全面的反映了游客的变化特征,并对游客的未来状态特征具有较高的预测精度,可以作为各地入境游客流量预测的有效工具.这一方法有望在旅游客流量时间序列预测模拟方面得到广泛的推广和应用.
[1]Vapnik V N.The Natureof Statistical Learning Theory[M].New York:Springer,1995..
[2]Vapnik V N.Statistical Learning Theory[M].New York:Wiley,1998.
[3]J.A.K.Suykens,J.De.Brabanter,L.Lukas and J.Vandewalle.Weighed Least Squares Support Vector Machines:Robustness and Sparse Approximation[J].Neurocomputing.2002,48:85-105.
[4]杜树心,吴铁军.用于回归估计的支持向量机方法[J].系统仿真学报,2003,15(11):1580-1585.
[5]O L Mangasarian,David RMusicant.Lagrangian Support Vector Machine[J].Journal of Machine Learning Research,2001,(1):161-177.
[6]张朝元,胡光华.支持向量机改进的神经网络的函数逼近[J].昆明理工大学学报(理工版),2004,29(6):148-152.
[7]张朝元,陈 丽.基于LS-SVM的大理州入境游客流量时间序列预测[J].科学技术与工程,2008,8(20):5694-5696.