两变量线性相关与线性回归中三种统计推断的等价性
2017-11-11张雁磊
张雁磊
【摘要】相关分析与回归分析是统计学中研究两个变量或多个变量之间关系的重要工具。在做两个变量的线性相关分析时,要通过样本统计量r对线性相关系数进行假设检验;在做两变量的回归分析时,既要对整体回归效应进行方差分析,又要对回归系数进行假设检验。然而,在对两个变量进行相关和回归分析中,尽管上述三种统计推断的目的各不相同,所选的统计量也不同,但它们的效果却是等价的。
【关键词】线性相关 线性回归 统计推断 等价
【中图分类号】G642.1 【文献标识码】A 【文章编号】2095-3089(2017)39-0219-02
一、两变量的线性相关及假设检验
在线性相关中我们只研究两变量之间是否存在关联,如果存在关联它们之间的关联方向(的符号)及密切程度(与1的接近程度)如何。
定义1:随机变量设X、Y之间呈线性趋势的关系,称为线性相关,又称简单相关或相关。
线性相关系数,又称Pearson积矩相关系数[1],是定量描述两个变量间线性密切程度和相关方向的统计指标,其定义为:
当样本数据为,其中、分别表示X、Y的样本均数。则样本的相关系数可用下面公式计算:
式中、、分别表示X的离均差平方和、Y的离均差平方和、X与Y的离均差乘积和。
相关系数的统计推断:
根据假设检验基本原理,原假设和备择假设分别为:,采用检验,检验统计量为:,其中为样本相关系数的标准误,,由概率论可知[2]:成立时,服从自由度的分布。
二、两变量整体回归效应的方差分析和回归系数的假设检验
相关分析只研究两变量之间线性关系的强度和方向,两变量为同时测得的结果变量,不分主次。但在实际研究中,虽然我们知道两变量之间存在线性关系,但常常其中一个变量不可测量或难以测量,这样我们常常需要通过可测或易测的变量对不可测或难测的变量进行估计,以达到预测的目的。回归分析就是研究一个变量如何随另一个变量的常用方法。而回归分析的统计推断有两种,一是对整体回归效应的方差分析,一是对回归系数的假设检验。
定义2:把研究变量X与Y之间的统计学关系的数学方法称为回归分析。
線性回归模型:
其中:X为自变量,Y为因变量,为Y依赖于X的均值。为回归模型的截距,为回归系数或回归模型的斜率。
样本的线性回归方程为:
其中,分别为的估计值;是与X相对应的实测值Y的总体均数的估计值。
当样本数据为,其中、分别表示X、Y的样本均数,则按照最小二乘原则可得和的计算公式:
1.整体回归效应的方差分析:
Y值的变异可用来反映,而每个[2]都可分解为经数学推导可得下式:
式中,为Y的离均差平方和,表示应变量Y的总变异,用来表示;称为回归平方和,表示在Y的总变异中,可以用Y与X的线性关系解释的那部分变异,用来表示;称剩余平方和或残差平方和,用于说明除了X对Y的线性影响之外的其他随机因素对Y的变异的影响,用表示。于是有:。
回归方程检验的基本思想是:如果X与Y无线性回归关系,则与都只包含随机因素对Y的影响,因此其均方与应近似相等,如果两者差别较大,并超出能够用随机波动解释的程度,则认为回归方程具有统计学意义。因此可用方差分析方法对其进行检验。相应的计算公式为:,,;它们三个的自由度分别为:,(自变量的个数),(,为自变量的个数);。利用方差分析的基本原理,我们建立,的假设,并构造检验统计量:。由概率论可知:在成立时,统计量F服从的的分布。
2.回归系数的统计推断:
根据假设检验基本原理,原假设和备择假设分别为:,采用检验,检验统计量为:,其中为样本回归系数的标准误,,。由概率论可知:在成立时,服从自由度的t分布。
从三种统计推断的目的来看它们之间有着本质的区别。相关系数的统计推断是为了检验两个变量之间是否存在线性相关的关系;回归方程中回归系数的统计推断是为了检验单个自变量与反应变量之间是否存在线性关系;而整体回归效应的统计推断是为了检验回归方程对反映变量的解释程度。但从三个假设检验的统计量构造的过程来看,它们之间存在一定的关系;就两个变量而言它们就是等价关系,也就是说它们从不同的角度解决了同一个问题。
三、三种统计推断的等价性证明
1.线性相关系数与回归系数统计推断的等价性证明:
证:对于线性相关系数的统计推断,在成立时,检验统计量服从自由度的分布。由,所以;又,代入上式可得: ⑴
对于一元回归分析中回归系数的统计推断,在成立时,检验统计量服从自由度的分布。由,,可推得,把此式代入可得: ⑵
所以统计量,又因为与都满足自由度为的t分布,所以在时与对应的P也相等。从而,在同一检验水准下做出的统计推断也应相同。证毕。
2.回归系数统计推断与整体回归效应的等价性证明:
证:对于一元回归分析中整体回归效应的统计推断,在成立时,检验统计量F服从自由度第一自由度为1,第二自由度为的F分布。由,,可得:;由,可得:
所以, ⑶
显然,即:。
又因为若随机变量,则随机变量[3],即:在统计量时,所对应的P值与F所对应的P值相等。从而,同一检验水准下做出的统计推断也应相同。证毕。
综上,两变量的线性相关系数的假设检验、回归系数的假设检验以及整体回归效应的方差分析三者是等价的;也就是说在解决实际问题时,三种统计推断任选择一种便可;但鉴于线性相关系数假设检验的简便性,我们常常用相关系数的假设检验来解决回归系数的假设检验和整体回归效应的方差分析的问题。
参考文献:
[1] 贾俊平.统计学[M].中国人民大学出版社,2015.
[2] 方积乾.卫生统计学[M].人民卫生出版社,2015.
[3] 魏宗舒.概率论与数理统计教程[M].高等教育出版社,2008.endprint