APP下载

基于缺失值的海南旅游总收入的季节A RIM A模型及预测

2014-10-12陈传钟汪文俊缪光美

关键词:中位数差分季节

陈传钟,汪文俊,缪光美

(海南师范大学 数学与统计学院,海南 海口 571158)

随着旅游业在世界各地的迅猛发展,有关旅游业可持续发展的研究越来越受到人们的重视,近年来,定量分析及统计方法被广泛应用到旅游发展研究中,本文拟采用时间序列的方法对含缺失值的海南旅游总收入数据,统计建模,并对海南旅游收入的具体情况进行分析讨论.

时间序列分析是一种对动态数据处理的时域参数方法,目的是研究所给的动态数据序列的统计规律,以用于解决实际问题.海南旅游收入变化趋势受到季节影响,每年7月-9月,10-12月、1月都是高峰期,然而并没有文献对变化的趋势具体研究,本文考虑利用“海南省旅游政务网”[1]提供的可靠数据,对海南省旅游总收入进行处理和预测.

1 缺失值处理

由于2011年1月和2011年2月数据缺失,首先考虑序列均值、临近点的均值、临近点的中位数、线性插值法、点处的线性趋势五种不同方法对缺失值进行处理.通过先期的计算比较,最终选定临近点的中位数、线性插值法两种方法[2].

临近点的中位数表示缺失值邻近的几个点的中位数,具体几个点由附近点的跨度来决定.临近点中值弥补缺失值前后对比见图1、图2.

线性插值法表示应用线性插值法填补缺失值,即缺失值前一个数据和后一个数据建立插值直线,然后找到缺失点在线性插值函数的函数值作为该缺失值,线性插值法弥补缺失值前后对比见图3、图4.

从以上对比图可以看到,临近点的中位数插值法和线性插值法都能很好的拟合原始数据的变化趋势.下节我们将利用此两种方法获得的完整数据进行统计建模.

图1 弥补缺失值前的序列图Fig.1 Graph of time series without imputation for missing values

图2 弥补缺失值后的序列图Fig.2 Graph of time series with imputation for missing values

图3 弥补前的序列图Fig.3 Graph of time series without imputation for missing values

图4 弥补后的序列图Fig.4 Graph of time series with imputation for missing values

2 数据统计建模

2.1 模型建立的理论基础

从图2和图4中观察到数据具有明显的周期性(以12个月为一周期),和趋势性,因此可以尝试时间序列的季节ARIMA(p,d,q)(P,D,Q)s(可乘季节ARIMA)[3-4]进行拟合.

一个一般的具有非平稳(通常的)阶数p,d,q,季节阶数P,D,Q及周期s可乘季节ARIMA(SARIMA)模型为

具体结构如下:

2.2 对临近点中值处理的数据进行建模

1、根据图2的趋势性和周期性,对数据做一次季节性差分和一阶逐期差分,观察自相关图和偏自相关图,确定ARIMA模型的相关系数(见图5、图6).

图5 自相关图Fig.5 ACP

图6 偏自相关图Fig.6 PACP

从自相关图(ACP)中,看到自第二个延迟数目开始,自相关落在虚线内,一阶以后函数值明显趋于0,呈拖尾性,因此取q=2.同时,第13阶显著不为0,因此取Q=2.

偏自相关图中,前两阶函数显著不为0,之后趋于0并呈拖尾性,因此取p=3,而第12阶显著不为0,取P=1.

因为以上讨论的是一阶季节性差分和一阶逐期差分,所以取D=1,d=1.又从图7中可以看到,序列图稳定,所以可以构建模型ARIMA(3,1,2)(1,1,2),S是季节周期,它的取值为4式12.

图7 一次逐期差分和一次季节性差分后的序列图Fig.7 Graph of time series with first order successive and first order seasonal difference

图8 模型拟合图Fig.8 Model fitting diagram

2)按照所求参数进行建模,得到图形见图8.

明显看到ARIMA(3,1,2)(1,1,2)拟合的效果尚佳.

2.3 对线性插值法处理的数据进行建模

线性差值法的数据处理步骤同上,相关图形数据见图9、图10、图11.

以上的图表中得到的线性插值法的模型为ARIMA(3,1,2)(1,1,2).

3 比较分析及预测

3.1 两种方法模型的比较

从表1、表2,观察到,线性插值法的平稳R方0.651>0.519(临近点中值法),p值0.582>临近点中值的0.286,而正态化的BIC模型值小于临近点中值,因此判断线性插值法所得的模型更佳,其模型为ARIMA(3,1,2)(1,1,2).

图9 自相关图Fig.9 ACP

图10 偏自相关图Fig.10 PACP

图11 模型拟合图Fig.11 Model fitting diagram

表1 临近点中值的模型统计量Tab.1 Model statistics with near median value

表2 线性插值法的模型统计量Tab.2 Model statistics with linear interpolation

3.2 基于线性插值法处理缺失值的预测结果

从表中可以看到预测较实际值误差较小,但是从2012年10月到2012年12月预测值偏高,根据2011年同期数据的比较,在表5中发现,2012年整体数据上升趋势并没有2011年那么明显,说明目前国内海南游人数出现一定的疲软状况.因此该模型按照趋势拟合具有一定的误差,但是在允许的范围内.

表3 实际值与预测值的对比Tab.3 Comparison of actual and predicted values

表4 海南入境游人数表Tab.4 The number of inbound in Hainan

表5 入境游人数对比Tab.5 Contrast of the number of inbound

表6 文章所用的数据Tab.6 The data

4 结论

海南旅游总收入受到季节的影响,本文基于线性插值法处理缺失值的数据,建立的季节ARIMA(3,1,2)(1,1,2)模型,较为准确的拟合海南省旅游总收入的变化趋势,其预测值亦可以为研究海南旅游变化动态提供参考意见.

[1]海南省旅游发展委员会[EB/OL].[2013-10-04]http://tourism.hainan.gov.cn/goverment/govPrePic/govBelow -Pic1/.

[2]薛薇.spss统计分析方法及应用[M].2版.北京:电子工业出版社,2011:454-462.

[3]王燕.应用时间序列[M].3版.北京:中国人民大学出版社,147-148.

[4]吴喜之.复杂数据统计方法-基于R的应用[M].北京:中国人民大学出版社,2012:176-181.

猜你喜欢

中位数差分季节
数列与差分
我喜欢的季节7
季节蠕变
季节的变换
中位数计算公式及数学性质的新认识
花的季节
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
导学案不能沦落为“习题单”:以“中位数和众数”的导学案为例
差分放大器在生理学中的应用