APP下载

民航客运量的多元线性回归分析

2012-07-09李盈科

兵器装备工程学报 2012年8期
关键词:客运量回归系数回归方程

张 艳,苗 刚,李盈科

(新疆农业大学 数理学院,乌鲁木齐 830052)

在实际问题中,常遇到研究一个随机变量与多个变量之间的相关关系,如,某产品的销售额不仅受到投入的广告费用的影响,还与产品价格、消费者收入状况、社会保障及其它可替代产品的价格等其他因素有关系。研究这种一个随机变量同多个变量之间关系的方法主要是多元回归分析法。

目前,我国国民收入实现了快速增长,民航业蓬勃发展,为了对民航业务量做出准确地评估和预测,民航客运量的变化趋势及成因成为航空公司关心的主要问题。影响我国民航客运量的因素,不仅有经济因素、政治因素,还有天气因素、季节因素,这些因素对我国民航客运量的变化影响程度各有不同,而这些因素的不同组合也会产生不同的效果。本文从国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数等几个方面出发,运用多元回归分析法来研究其变化趋势及成因问题。

1 多元线性回归模型

1.1 多元线性回归模型的一般形式

设影响因变量y 的自变量个数为m 个,记为x1,x2,…,xm,多元线性模型是指这些自变量对y 的影响是线性的,即关系式

其中:β0,β1,β2,…,βm是m+1 个未知参数,β0为常数项,β1,β2,…,βm称为回归系数;x1,x2,…,xm是m 个可得到精确值并能够控制的一般变量,称为解释变量,称y 为对自变量x1,x2,…,xm的线性回归函数。当m=1 时,式(1)为一元线性线性回归模型,m≥2 时,称为多元线性回归模型。ε 是随机误差,通常认为ε ~N(0,σ2)。

在实际问题中,获得n 组关于(xi1,xi2,…,xim,yi)(i =1,2,…,n)观测数据,则

其中i=1,2,…,n,这个模型称为多元线性回归模型。

则上述数学模型的矩阵形式为

其中ε 是n 维随机向量,它的各个分量相互独立同分布。

1.2 多元线性回归模型的基本假定

一般认为回归模型应满足以下几个基本假设:

1)解释变量x1,x2,…,xm,是随机变量,观测值(xi1,xi2,…,xim)为常数。

2)方差齐性及不相关的假定条件为[1]

这个称为高斯-马尔柯夫(Gauss-Markov)条件,简记为G-M条件。在此条件下,可以得到关于回归系数方程一些重要性质,比如,得到关于回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等[7]。

3)正态分布的假定条件为

在此条件下可以得到关于回归系数的估计及σ2估计的进一步的结果,比如,它们分别是回归系数及σ2的最小方差无偏估计等,而且还可以作回归的显著性检验及区间估计[7]。

1.3 回归方程的显著性检验

1.3.1 回归系数的t 检验

在多元线性回归问题中,回归方程显著并不能说明每个自变量对y 的影响都显著,所以总想从回归方程中去除一些相关度比较低的变量得到其精简的回归方程。这时就需要对每个自变量进行显著性检验。

显然,若某个自变量xi对y 的作用不显著,那么在回归模型中,它的系数βi就取值为0。因此检验变量xi是否显著,等价于检验假设

如果接受原假设H0i,则xi不显著;否则xi是显著的。

可以知道[3]

于是有

据此构造t 统计量

其中

是回归标准差。

当原假设H0i:βi=0 成立时,式(10)构造的ti统计量服从自由度为n-m-1 的t 分布。给定显著性水平α,查出双侧检验的临界值tα/2。当时拒绝原假设H0i:βi=0,认为βi显著不为0,认为βi显著不为0,自变量xi对因变量y的线性效果显著;反之认为βi为0,自变量xi对因变量y 的线性效果不显著[4,8]。

1.3.2 回归系数的F 检验

对多元线性回归方程的显著性检验就是看随机变量x1,x2,…,xm从整体上对y 是否有明显的影响。因此提出原假设

如果原假设被接受,则表明随机变量y 与x1,x2,…,xm之间的关系由线性回归模型表示不合适。一般用F 检验来判别,为了建立对H0进行检验的F 统计量,用总离差平方和的分解式,即

简写为

此时用F 检验统计量

在正态性假设下,当H0:β1=β2=… =βm=0 成立时,F服从自由度为(m,n -m -1)的F 分布,于是可利用F 统计量对回归方程的总体显著性进行检验。对于给定的数据,当i=1,2,...,n,计算出SSR 和SSE,进而得到对应F 的值,见一般列在下面的方差分析表中,再由给定的显著性水平α,查F 分布表,得到临界值Fα(m,n-m-1)。

表1 方差分析表

当F >Fα(m,n-m-1)时,拒绝H0,认为在显著性水平α 下,y 对x1,x2,…,xm有显著的线性关系,也即回归方程的检验是显著的,就是接受“自变量全体对y 有显著线性影响”这一结论犯错误的概率不超过5%;反之,当F≤Fα(m,n-m-1)时,接受H0,则认为回归方程不显著[8]。

1.4 置信区间和拟合优度

按照一元线性回归系数区间估计的推导过程,可得βj置信水平为1 -α 的置信区间为

1.4.2 拟合优度

拟合优度用于检验回归方程对样本观测值的吻合程度。在多元线性回归中,定义样本相关系数为

样本决定系数R2的取值在[0,1]区间内,R2距离1 越近,表明拟合的效果越好;R2距离0 越近,表明拟合的效果越差。与F 检验相比,R2检验可以更清楚直观的反映回归拟合的效果,但是并不能做为严格的显著性检验。称为y 关于x1,x2,…,xm的样本复相关系数[5]。

2 民航客运量模型的建立与求解

2.1 民航客运量模型的建立与求解

1)数据来源

以预测值y 表示民航客运量(万人),x1表示国民收入总值(亿元),x2表示消费金额(亿元),x3表示铁路承载量(万人),x4表示民航航线距离(万公里),x5表示境外旅客人数(万人)。根据《2010 年统计摘要》获得1995—2010 年统计数据,见表2。

2)研究方法

建立y 与各自变量xi,1≤i≤5 的多元线性回归模型如下

基底节及脑白质多发腔梗还需与其它低密度病变如肝豆状核变性、病毒性脑炎、中毒性脑病等鉴别,这些病变往往基底节对称发病,肝豆状核变性为铜代谢障碍及肝硬化史,病毒性脑炎临床中毒症状,中毒性脑病有毒气吸入及药物过度使用及体内代谢中毒等以鉴别[4]。

3)实证分析

利用原始数据资料,用SPSS 软件计算相关阵,输出结果见表3,并作相关分析。

从相关矩阵可以看出,y 与x1,x2,x3,x4,x5相关系数都比较高,在0.9 以上,说明所选自变量与y 具有高度线性相关,用y 与自变量x1,x2,x3,x4,x5作多元线性回归是可以的。y 与x3的相关系数ry3=0.226 偏小,P 值=0.398,x3是铁路客运量,这说明铁路客运量对民航客运量无显著影响。

4)计算结果

本例对原始数据作回归分析,并用SPSS 软件计算,输出结果见表4 ~6。

5)回归诊断

a.回归方程为

b.复相关系数R =0.999,决定系数R2=0.988,由相关系数来看回归方程高度显著。

c.方差分析表中,F =1 128.303,P 值=0.000 表明回归方程高度显著,说明x1,x2,x3,x4,x5整体上对y 有高度线性关系。

d.回归系数的显著性检验。自变量x1,x2,x3,x4,x5对y均有显著影响,其中x3铁路客运量的P 值=0.006 最大,可是仍然在1%的显著性水平上对y 具有高度显著,这充分说明在多元回归分析中,不能仅凭相关系数的大小而决定变量的取舍。

6)回归应用

预测值的点估计为

其精确置信区间的表达式较为复杂,也不可能用手工计算,可以仿照一元线性回归的情况用SPSS 软件计算。其置信水平为95%的近似置信区间为

另外,x2的回归系数-0.561 是负的,x2是消费额,负的回归系数显然是不合理的,其主要原因可能是由于自变量之间存在的共线性,因而回归方程式(2)还要在多重共线性部分作一步改进,或用其他消除共线性的方法重新建立回归方程,就不再讨论了。详见参考文献[5]。

表2 各主要因素统计数据表

表3 相关阵表

表4 常用统计量表

表5 方差分析表

表6 回归系数分析

3 结束语

1)“国民收入”和“消费额”与民航客运量均具有正线性相关关系。这表明近年来我国国民收入的较快增长,乘飞机进行旅游和商务活动的比例就有所提高,这又进一步刺激了经济的发展。

2)“铁路客运量”与民航客运量呈一种线性负相关关系。这一点是显然的。

3)“民航航线里程”与民航客运量也呈一种线性正相关关系。这表明随着我国民航航线的增加,民航客运量也在不断的增加。

4)“入境旅游人数”与民航客运量呈一种线性正相关关系。这表明来华旅游入境人士生活条件基本上都很好,再加上路途遥远,他们就选择了飞机作为主要交通工具。

[1]何晓群,刘文卿.应用回归分析[M].北京:中国人民大学出社版,2001:18-19.

[2]方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1989:87.

[3]刘润幸.利用SPSS 进行多元线性回归分析[J].北京:中国公共卫生,2001(8):746-748.

[4]陶勤南.回归分析与回归设计[J].北京农业科学,1984(专集):1-76.

[5]何晓群,刘文卿.应用回归分析[M].北京:中国人民大学出社版,2001:76-77.

[6]周复恭,黄运成.应用线性回归分析[M].北京:中国人民大学出社版,1989:90.

[7]马小光.供电系统背景谐波电压辨识的研究[D].保定:华北电力大学,2007:24-27.

[8]李伟.保定地区电力市场需求预测分析研究[D].保定:华北电力大学,2003:20-30.

猜你喜欢

客运量回归系数回归方程
基于线网稳定期的地铁客运量预测方法研究
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
走进回归分析,让回归方程不再是你高考的绊脚石
东北地区轨道交通日客运量探究
基于生产函数模型的地区经济发展影响因素分析
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
城镇居民收入差距主要因素回归分析