APP下载

基于ARIMA-SVR的福建省入境游客人数预测

2022-04-28江雨兮

科技创新与应用 2022年11期
关键词:残差入境福建省

江雨兮

(上海理工大学 中英国际学院,上海 200000)

随着人们生活水平的提高,旅游业得到高速发展。为了优化配置旅游行业的市场和资源,精确预测旅游人数,把握旅游业发展趋势是有必要的[1]。

目前,我国旅游市场趋势的预测研究主要采用定量分析的方法来预测旅游业的发展趋势。国内学者关于旅游业发展研究的文献分析,对旅游客流量的研究大多是从时间或空间的角度进行的[2]。主要使用方法是传统的统计模型,如引力模型[3],灰色模型[4]。

从国际研究的角度看,国外旅游业发展趋势的研究主要集中在定量分析统计数据上,再与定性方法相结合来预测。在人工智能模型得到广泛应用之前,主要用传统的回归模型预测旅游业的发展趋势;如运用时间序列、神经网络、计量经济模型等方法对旅游业发展趋势的预测[5-6]。随着近年来先进技术的飞速发展,越来越多的研究集中在具有更高预测精度的测量技术上[7-8]。模型逐渐由单一化向多样化发展。Wong等[9]对香港入境游客分别采用ARIMA、ADLM、ECM和VAR四种不同的单一模型以及三种不同方法的组合模型(平均分配权重法;方差——协方差法;折现均方预测误差法)进行预测,比较指标,获得组合模型对于预测旅游人数具有较高的预测精度的结论。

一般来说,无论在国内还是国外,由于旅游市场本身是一个复杂的系统,具有许多不确定的、不可控的影响因素,仅仅使用单一模型来预测难以取得较为精确的预测结果。因此国内外学者开始尝试将模型组合的预测方法,使用新的组合模型来提高预测的精度。而在此之前还未有人对福建省入境游客人数变化趋势进行研究。游客人数数据的动态性和非线性性,该数据是非平稳的、复杂的难以预测的时间序列。因此,本文考虑将ARIMA模型与SVR模型组合来预测,将通过ARIMA-SVR组合模型分析研究福建省入境游客人数的变化趋势,对线性预测模型与非线性预测模型的关系进行探讨。

1 研究方法

本文收集了福建省1979-2020年的旅游人数数据。主要采用ARIMA模型以及SVR模型分别研究福建省入境游客人数变化趋势的线性、非线性部分。接着将线性建模结果与非线性预测得到的残差相结合,得到的结果即采用ARIMA-SVR模型预测的福建省入境游客人数。最后在与对比模型的比对下,通过判断模型预测评价指标的大小,得出ARIMA-SVR组合模型能够更为精确地预测福建省入境游客人数变化趋势。

2 ARIMA和SVR模型特点

2.1 ARIMA模型

ARIMA(Autoregressive Integrated Moving Average)模型,是一种常见的时间序列预测模型。其特点:只要由内生变量进行构造,简单易于实现;在ARIMA模型用于时间序列时,要求序列必须是平稳的。如果序列不平稳,则必须多次微分将其平稳化。多阶整体也就是通过多次微分变换的非平稳时间序列;ARIMA模型能勾勒出时序数据的大局线性趋势。ARIMA模型对非稳定的数据以及数据非线性部分无法精确拟合。ARIMA(p,d,q),p、q被称为自回归项的滞后阶数和移动平均项的滞后阶数,差分时间序列使其平稳化所造成的次数用d表示。ARIMA(p,d,q)被称为差分自回归移动平均模型[10]。

2.2 SVR模型

SVR(Support Vector Regression)算法是常用的机器学习算法且模型性能优秀。它最早由Vapnik教授在20世纪90年代时提出。随着计算机技术的发展,支持向量机模型得到了快速的发展和广泛的应用。支持向量机的算法原理是确定特定的核函数(kernel)使得特征空间能够得到扩展,使得样本进行线性可分性的分析;对于线性不可分割的情况,要使用线性算法处理样本的非线性特征,最终使得样本在高维特征空间中能实现线性可分[11]。SVR模型的特点:仅用部分支持向量来做超平面的决策,无需依赖全部数据;对缺失数据较敏感;可以使用多种多样的核函数灵活解决非线性回归问题,对于小样本有很好的预测精度,泛化能力强。

3 ARIMA-SVR模型原理

本文将采用如下步骤构建组合模型来进行福建省入境游客人数的预测。

(1)输入1979-2012年数据作为ARIMA模型的训练集,构建ARIMA模型对线性部分进行分析,假设预测结果为根据2013-2018年的测试集数据得出序列的残差为Nt,Nt中容纳了序列Yt的非线性关系;

(2)通过重构前一步得到的序列Nt得到SVR样本集,并利用SVR模型预测残差以得到预测结果

由于ARIMA和SVR的单一模型各有不同的优点和缺点,但在解决线性模型和非线性模型的问题时,两者具有不同的优点。因此,这两种模型是相辅相成的。因此,为了预测旅游人数可以将两个结合起来得到精度更高的结果。假设线性自相关部分Lt与非线性残差Nt两个部分被看作时间序列Yt的组合,用公式表示就是Yt=Lt+Nt。利用组合后的ARIMA-SVR组合模型来期望得到预测精度更优的结果。

组合预测原理如图1所示:

图1 ARIMA-SVR组合预测模型原理

4 ARIMA-SVR模型的福建省入境游客人数预测

4.1 数据来源

本文从福建省统计年鉴中获取1979-2020年的福建省入境游客人数的年度数据,共42条记录,数据真实可靠,见表1。

表1 1979-2020年福建省入境旅游人数表

在数据处理方面,将1979-2020年福建省入境游客人数时间序列绘制成时序图,如图2所示。通过绘图展示,我们可以初步从1979-2019年从福建省入境游客人数数据中看出序列是否有着明显的长期增长的趋势。除2020年新冠疫情的出现,导致福建省入境游客数量急剧减少。

图2 1979-2020年福建省入境游客人数时序图

4.2 ARIMA-SVR模型预测结果

福建省入境游客人数容易受到各种因素的影响使用单一模型来预测福建省入境游客人数的变化趋势可能是困难的,并且在预测精度方面,也难以达到预期的效果。因此,在单一模型预测精度不高的情况下,我们采用ARIMA-SVR组合模型对福建省入境游客人数进行预测。

我们能够清晰地从图2的时间序列图中看出,福建省的旅游人数有长期的增长趋势,因此我们需要对福建省入境游客人数时间序列做差分运算。一阶差分后的序列也能明显显示出了长期的增长趋势。

如图3所示,福建省入境游客人数时间序列经过一阶差分后的时间序列呈现出长期的稳定性,基本上在0附近波动上下均匀波动。

图3 福建省入境游客人数一阶差分时序图

为了更准确地描述数据稳定性,可以使用ADF检验单位根来进行检验是否平稳。若序列是平稳的,则可以直接用ARIMA模型来拟合,反之则要经过差分转换。ADF单位根检验结果见表2。

表2 福建省入境游客人数二阶差分的单位根检验结果

我们可以从ADF检验看出,序列的p值等于0.021 8,p值小于显著性水平α(α=0.05),以上计算结果表明,单位根检验结果显著,一阶差分后的序列不存在单位根,所以我们可以说一阶差分序列是稳定的。为了更加准确地确定模型的阶数,我们利用AIC准则,通过AIC值来说明模型拟合度越高。分别计算各模型的AIC值,结果可知ARIMA(1,1,1)的AICc值最小,可以求出ARIMA(0,1,1)的AIC值、AICc值以及BIC值分别为1 266.11、252.71以及255.07。再对ARIMA(0,1,1)模型进行检验拟合得出模型参数的显著性,结果见表3。

表3 模型参数的显著性检验结果

最后将所得的ARIMA(1,1,1)模型进行参数的显著性检验。检验结果显示,估计出的系数除以其的标准差(s.e.)得到的商的绝对值大于1.96,落入拒绝域,拒绝原假设。因此,没有必要重新修正所建立的模型。最后选持的时间序列模型为ARIMA(1,1,1)模型。

现在我们利用所建立的ARIMA(1,1,1)模型对2013-2020年福建省全年的旅游人数进行预测,结果如图4所示。

图4 2013-2020年福建省入境游客人数ARIMA模型预测

利用模型预测值与测试集比较求出误差,分析 模型的均方根误差、平均绝对误差、平均百分比误差等几个用来衡量精度指标,来进行对比分析模型的预测精度,见表4。

由表4得知,模型预测值与实际值的误差较小,平均百分比误差为2.269 8。模型的平均绝对百分比误差值为9.601、平均绝对比例误差为0.653。表明ARIMA(1,1,1)模型拟合的效果较为良好,精度满足要求。

表4 评价预测精度指标

然而,由于福建省入境游客客流量受到国家政策、经济形势、突发事件等因素的影响,要想利用单一的ARIMA模型进行长期的、绝对准确的预测较为困难。因此我们仍需对该模型进行一些改进。

为了选择一个最优个数能够使得循环残差数据的误差最小,我们采用第N次选择N个残差数据,保留误差为它的第N+1个残差数据作为模型输出的方法。所以最优个数定为4时能让模型循环残差的误差最小。

通过模型选定的最优循环残差个数,可以得出结论,福建省入境游客人数的残差与前4年旅游人数的残差高度相关。在R软件中调用e1071程辑包来实现SVR建模,核函数为高斯核函数。参数采用十折交叉验证获得,通过择优选择惩罚系数C=10 000以及gamma=0.000 01,作为最优参数来对2016-2020年福建省入境游客人数残差进行预测。

表5 基于ARIMA-SVR福建省入境游客人数预测结果

4.3 对比模型

为了引入对比模型,我们分别采用单一的SVR模型以及ARIMA模型对福建省入境游客人数进行了预测分析。利用滑动窗口对SVR模型进行训练,训练集为1979-2016年福建省入境游客人数序列x(t)。

运用通过训练集构建好的SVR模型和ARIMA模型对2017-2020年的福建省入境游客人数进行预测,得出来的预测结果与测试集,即2017-2020年实际数据做比较,计算得出误差,结果如图5和表6所示。通过折线图和误差表比对,我们可以清晰地看出,单个ARIMA和SVR模型在短期预测可能得到更精确地效果。但是ARIMA-SVR组合预测模型在较为长期预测中,能够结合ARIMA模型在求解线性问题以及SVR模型在解决非线性问题上的优势。使得预测出来的结果具有更高的预测精度和更小的误差。

表6 2017-2020年3个模型预测误差对比

图5 2017-2020年3个模型预测折线图对比

这表明虽然单一模型短期预测比较有优势,但对于解决复杂且不稳定的时间序列问题,它们都必定不是最优模型。而本文使用的ARIMA-SVR组合模型分别结合了ARIMA模型和SVR模型各自独有的优点,使得预测精度有效地提高,预测误差大幅度减小。

4.4 ARIMA-SVR模型预测福建省入境游客人数

根据模型精度评价可以得出,相比与单个的ARIMA和SVR模型,我们所建立的更高精度、误差更小的ARIMA-SVR组合预测模型,克服了单一模型只能对序列线性或者非线性部分进行预测的弊端,更能充分地捕捉已知福建省入境游客人数数据中隐含的信息,从而来预测未来几年的数据。因此我们利用ARIMA-SVR组合模型以及1979-2020年福建省入境游客人数序列来预测每年的旅游人数。

从实际数据可以看到,2019、2020两年间,福建省入境游客人数仍在趋增,两年间福建省入境游客人数将增长到每年千万人次级别,分别为9 194 023、5 815 290人次,结果说明ARIMA-SVR组合模型预测的数据具有一定的科学性和一定的参考意义。能够为有关部门及早地、准确地制定旅游规划,优化旅游市场资源配置提供依据。

5 结束语

经济的高速发展使得旅游业大力兴起,随着福建省颁布一系列促进旅游业发展的政策,福建省入境游客人数将必将呈现出持续增长的趋势。虽然游客数量的增加给景区带来了丰厚的利润,但也不可避免地带来了一连串的交通、安全、服务质量问题,和疫情防控方面的高度要求,从而导致旅游服务质量急剧下降,市场趋于混乱。针对上述问题,本文对福建省入境游客人数进行预测,综合过去的信息,并使用定性和定量的方法来揭示旅游人数数据的变化趋势,以便为社会和经济发展提供判断的方向,提前制定相应的政策来促进社会的稳定发展。

然而,在现实生活中福建省入境游客人口的波动规律与其他数据不同,包含数据之间的线性关系以及其非线性特征。因此以往单一的预测方法存在一定的限制,不能很好地满足我们所需求的预测精度。组合预测的方法能够较好地吸取单一模型的特点,互补模型之间的不足,基于这一点我们选择使用ARIMA-SVR组合模型来预测福建省入境游客人数的变化趋势,此模型较好地结合了单一模型各有的优势,构建ARIMA模型处理福建省入境游客人数的线性趋势,SVR模型预测福建省入境游客人数变化的非线性规律。最后引入对比模型,根据对比模型精度结果表明,该组合模型相比于单一模型能够提高预测的准确性,准确把握福建省入境游客人数的变化趋势,并且比单一模型更合理、更可靠,可作为一种有效的工具用于福建省入境游客人数时间序列的预测。

猜你喜欢

残差入境福建省
基于残差-注意力和LSTM的心律失常心拍分类方法研究
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
融合上下文的残差门卷积实体抽取
福建省“两会”上的“她”声音
基于深度残差网络图像分类算法研究综述①
第四届福建省启明儿童文学双年榜揭榜
中华人民共和国出境入境管理法
中华人民共和国出境入境管理法
第三届福建省启明儿童文学双年榜揭榜
警查證截獲非法再入境男