延安市旅游收入预测及影响因素分析
2019-10-11任芳玲
任芳玲,左 童
(延安大学 数学与计算机科学学院,陕西 延安 716000)
延安一直是红色教育和革命情怀的培养地,所以每年都会有大量的游客来进行观光和革命熏陶,据统计局数据显示,延安市近十年来旅游收入占延安市财政收入的比重明显增高,为了进一步使得旅游收入再创新高,分析其各方面的影响因素非常有必要[1]。本文选取居民消费水平,旅游人口总数,延安市年度旅客周转量,私人汽车拥有量以及居民可支配收入作为参数,通过多元线性回归分析、逐步回归法进行优化,最终得出结论。
多元线性回归在分析多因素模型时,具有简单和方便等优点,在各类分析问题中都得到应用。如文献[2-5]在对旅游收入影响因素分析过程中都用到了线性回归法,本文会在此基础上对基本的回归方法进行改进。文献[6-7]对旅游收入影响因素进行了分析和评价,文献[8]在进行回归分析中对模型进行了多重共线性的诊断并解决多重共线性问题,文献[9]使用逐步回归法对得到的结果进行优化,最后分析得到结论。本文在参考了以上相关论文的基础之上,选用延安市旅游收入作为因变量来研究,使用改进的多元线性回归法和逐步回归法对延安市旅游收入影响因素进行分析,并得出相应结论。
1 模型介绍
1.1 多元线性回归模型
在现实问题中,因变量的变化往往受多个因素影响,就要用多个自变量来解释因变量的改变,这就是多元回归。当多个自变量和因变量之间呈线性相关,对其回归就是多元线性回归[2-3]。设x1,x2,…,xk为自变量,y为因变量,则回归模型为:
y=b0+b1x1+…+bkxk+ε。
b0为常数项,b1,b2,…,bk为系数,b1为x1,x2,…,xk固定值时,y随x1的单位改变量,即x1对y的偏回归系数。
为检验方程的显著性,需要进行F检验,现提出如下假设:
H0:b1=b2=…=bk=0,
H1:b1,b2,…,bk不全为0。
经分析计算,由F分布定义,得检验统计量:
SR为离差平方和;SE为残差平方和。若F≥Fα(k,n-k-1),则拒绝H0,该回归显著。若F<
Fα(k,n-k-1),则接受H0,该回归不显著。
F检验完成,进行t检验。在SPSS中,对t值的检验只需看sig.的值就行,sig.意为显著性(significance),sig.是一个最终值。sig.<0.05则表示t检验通过。
1.2 逐步回归模型
逐步回归是将变量依次引入模型,每引入一个就要对其进行F检验,对所有入选的变量进行t检验。若原来的变量变得不再显著,则将其删除。以此类推,直到模型中没有不再显著的变量,也没有变量从方程中剔除为止。逐步回归法包含向前法和向后法。
向前法:对k个回归自变量x1,x2,…,xk分别同因变量y建立一元回归模型
y=b0+bixi+ε,i=1,…,k。
向后法的步骤与向前法相反,它先全部选入,随后逐个剔除。
2 模型建立
2.1 变量选择与数据来源
在对影响旅游收入因素的分析中,本文选取旅游人数,居民消费水平,旅客周转量,私人汽车拥有量,以及可支配收入5个主要因素来进行分析[4]。其中旅游收入为因变量,其他因素为自变量。通过延安统计局官网和国家统计年鉴,得到2005—2014年表1数据:
表1 延安市旅游收入及影响因素表
其中:y为延安市旅游年收入总值(亿);x1代表的是延安市每年旅游人数总量(万);x2代表居民消费水平(元);x3代表旅客周转量(亿人公里);x4私家汽车拥有量(万);x5代表可支配收入(元)。建立回归模型:
y=b0+b1x1+b2x2+b3x3+b4x4+b5x5+ε。
2.2 多元线性回归模型
通过SPSS进行回归分析,统计结果显示,所有的自变量都在考虑范围之内,共同决定因变量,没有进行变量的剔除,继续查看模型拟合度。
模型汇总结果显示,变量间的线性相关系数R=1,R2=1,调整之后的R2=1,标准估计的误差为0.87083,表示拟合度良好,变量相关程度高。然后进行方差检验,结果如表2所示。
表2 方差分析表
a.预测变量:(常量),旅客周转量,旅游人数数量,居民消费水平,私人汽车拥有量,可支配收入。b.因变量:旅游收入
由表2,对给定的显著水平α=0.05,F临界值为Fα(k,n-k-1)=F0.05(5,4),F=6997.348>F0.05(5,4)=6.256,于是拒绝零假设,变量之间线性关系显著,于是建立线性模型[7],再查看正态分布。
如图1,该直方图基本符合正态分布。
图1 标准化残差直方图
如图2,通过分析标准化残差图是在一条直线上的散点图,基本上都在一条直线上,因此符合正态分布,具有统计意义。于是得到如下结果:
图2 标准化残渣图
表3 回归系数表
a.因变量:旅游收入
由表3可得到回归方程为:
y=-37.332+0.044x1-0.013x2+1.029x3-
0.007x4+0.003x5
(1)
3 模型检验与修正
1)拟合度检验:R2=1.000代表该模型线性拟合度良好。
2)F检验:由表2可知,F值大于显著水平H0,拒绝原假设,总体回归显著。
3)t检验:由表3可知,t统计量所对应的检验值分别为:0.016,0.656,0.012,0.031,0.000,0.042与检验α=0.05比较,其中居民消费水平这一项所对应的检验值不符合,且符号的经济意义也不合理。说明各变量之间有可能存在多重共线性[8],于是对该模型进行共线性诊断。
表4 共线性诊断
如表4所示,特征值约为0和部分条件指数大于10表明存在多重共线性。以及相关系数矩阵中,居民消费水平系数为0.99接近于1,证明存在多重共线性[9]。
现使用逐步回归法解决该问题,对自变量逐个进行一元回归:
表5 一元回归结果表
如表5所示,一元回归结果如下:
旅游人数数量:y=-3.248+0.055x1,
R2=0.998,F=3272.166;
居民消费水平:y=-117.213+0.180x2,
R2=0.980,F=383.329;
旅客周转量:y=-66.556+6.347x3,
R2=0.976,F=322.411;
私人汽车拥有量:y=-16.000+0.017x4,
R2=0.981,F=423.321;
可支配收入:y=-74.061+0.006x5,
R2=0.982,F=448.324。
结果表明,y与x1的回归可决系数最大,选用y与x1为初始回归模型[10]。然后建立自变量与因变量的二元回归模型,通过SPSS软件可得各个变量之间回归的模型拟合度,即x1与x2,x3,x4,x5之间的模型拟合度分别为0.999,0.998,0.998,0.999。可见,x1和x2变量集与x1和x5变量集的可决系数大于其它变量集,通过观察两者的系数表,发现后者的模型比前者更优,于是选用x1和x5作为新的回归模型,以此类推,重复以上步骤,继续进行逐步回归的变量引入,得出如下最终结果。
表6 逐步回归后的系数表
如表6所示,所有的值均小于0.05,检验通过。
表7 模型汇总表
a.预测变量:可支配收入,旅游人数数量,旅客周转量,私人汽车拥有量。
如表7所示,R2=1,表明模型拟合度良好。
表8 方差分析表
a.预测变量:(常量),旅客周转量,旅游人数数量,居民消费水平,私人汽车拥有量,可支配收入。b.因变量:旅游收入
如表8所示,F值大于显著水平,拒绝零假设。
以上结果是在剔除不显著变量后得出的结果,F和t检验都通过,且R2=1,得到新的回归方程为:
y′=-38.144+0.044x1+1.082x3-0.007x4+
0.003x5
(2)
对于x4系数为负的原因进行考虑,原因可能如下:首先私人汽车拥有量确实一直都在提高,但是提高的车数量并不代表车主会去旅游。其次,旅游是较高消费支出的活动,有的家庭由于买了车所以可支配收入减少旅游支出减少,于是旅游收入可能降低。因此,x4系数为负就很正常。
4 结论
将表1中数据分别带入(1)式和(2)式,利用历史数据检验两种模型的优势,得到如下结果:
由表9可见,(1)式平均相对误差为2.76%,远远小于(2)式,说明后者比前者更优。于是采用逐步回归后的模型进行研究,从回归结果可得出以下结论:
从回归结果来看,旅游收入与旅游人数,旅客周转量,私人汽车拥有量以及可支配收入相关。其中,旅游人数数量和旅客周转量对延安市旅游收入的影响较大,意味着旅游人数数量的多少将直接影响到延安市旅游收入的多少。旅客周转量的多少也决定了旅游收入,因此延安市既要加大旅游投资,也应该加大延安交通建设,交通方便,旅客周转量会增大,旅客人流量也会变大,延安市旅游人数数量会相应增加,收入也会提高。
表9 结论检验表
其次,私人汽车拥有量和居民可支配收入也对旅游收入有一定的影响,但效果不太显著。原因可能是汽车私有量人数的增多导致居民消费水平结构变化,具体原因上文已经分析过。而居民可支配收入是由居民决定的,具有随机性和不可控制性,因此影响较小。