APP下载

协方差、相关系数、 回归系数的内在关系探讨

2022-05-30曹昭

中国集体经济 2022年25期
关键词:相关系数回归系数协方差

曹昭

摘要:协方差、相关系数和回归系数是衡量两个定距变量之间相关方向和程度的三个不同指标。尽管这三个指标有着不同的含义和计算方法,但是它们之间有着极为严密的逻辑关系。阐释这种逻辑关系具有非常重要的理论和现实意义。

关键词:协方差;相关系数;回归系数

变量之间的相关关系,特别是定距变量之间的相关关系是社会科学的重要研究内容之一。在社会学研究中,我们一般用三个数量指标来衡量两个定距变量之间的相关程度。这三个指标分别是:协方差、相关系数和回归系数。虽然这三个指标的计算方法和具体含义有着明显的区别。但是,经过仔细分析,会发现它们之间有着逻辑上的内在统一性。对协方差、相关系数与回归系数的计算方法、数学含义进行分别阐释的基础上,揭示出三者之间的内在逻辑关系,对大部分统计学的初学者而言,具有非常重要的理论和现实意义。在本文接下来的内容中,将分别对协方差、相关系数、回归系数的计算方法、数学含义做出说明并进一步揭示三者之间的内在联系。

一、协方差的计算方法和数学含义

在日常的工作和生活中,会经常面对两个定距变量是否相关的问题:比如人的身高与体重、人的受教育年限和工资收入、某一商品的定价与销售量之间是否存在一定的相关性呢?为了验证或判断两个定距变量之间的相关程度,常用的方法就是绘制“散点图”。要想绘制两个变量的散点图,首先要做的工作就是收集和整理两个变量不同观测值的原始数据。比方说,要探索人的体重与身高两个变量的相关程度,首先必须收集这两个变量不同观测值的原始数据。为了研究的方便,可以把人的体重作为因变量Y,把人的身高作为自变量X。假定已经获得了因变量Y(人的体重)和自变量X(人的身高)的n组观测值,如表1所示。我们来具体讨论散点图的绘制和协方差的计算方法,然后说明它们蕴涵的数学思想。

根据上面表格提供的数据,可以把上面的每一对观测值(xi,yi)作为不同的点在直角坐标系中表示出来。当然,这一直角坐标系的纵轴表示体重,横轴表示身高。这样,就得到了能大致揭示人的身高和体重两个变量之间相关程度的散点图。令人遗憾的是,通过散点图我们只能对两个变量是否存在线性相关关系做出模糊的判断。要想进一步了解两个变量的相关程度,还需要对搜集的数据进行进一步的处理和加工。一般说来,通过计算两个定距变量的协方差,能够使人对它们变化方向的一致与否做出较为明确的判断。接下来,我们就对协方差的计算方法及其数学含义进行简单的分析和说明。

就上面的例子来说,我们可以在因变量Y(体重)和自变量X(身高)的散点图上,通过点( , )分别作平行于纵轴和横轴的两条直线。(其中 =∑x /n,  =∑y /n)那么,这两条支线就把原来的散点图划分为四个象限。

此时,如果原来散点图中的点落在一、三象限部分的数量超过落在二、四象限部分的数量,就意味着自变量X和因变量Y具有正的线性相关关系。这表明,当自变量X的取值高于其自身的平均值 时,因变量Y的取值也大多数高于其自身的平均值 ,当自变量X的取值低于其自身的平均值  时,因变量Y的取值也大多数低于其自身的平均值 。因此,两个变量X、Y总的来说具有大致一致的变化方向,即因变量Y随着自变量X的增加而增加;反之,如果原来散点图中的点落在二、四象限部分的数量超过落在一、三象限部分的数量,就意味着自变量X和因变量Y具有负的线性相关关系。这表明,当自变量X的取值低于其自身的平均值  时,因变量Y的取值却大多数高于其自身的平均值 ,当自变量X的取值高于其自身的平均值   时,因变量Y的取值却大多数低于其自身的平均值 。因此,两个变量X、Y总的来说具有大致相反的变化方向,即因变量Y随着自变量X的增加而减少。当然,如果原来散点图中的点均匀分布在四个象限内,则说明自变量X和因变量Y没有线性关系。

以上的分析,只是从直观上对两个定距变量是否相关的判断方法,为了对两个定距变量的相关性进行更充分的分析和说明,人们提出了“协方差”这一概念指标。协方差指标所蕴含的数学思想是:如果散点图中的点分布在一、三象限内,那么(xi- )与(yi- )必然是同号的,要么同时为正,要么同时为负,两者的积(xi- )(yi- )一定是正数;反之,如果散点图中的点分布在二、四象限内,那么(xi- )与(yi- )必然是异号的,两者的积(xi- )(yi- )一定是负数。因此,我们可以把n个(xi- )(yi- )的值加起来求平均数,如果平均数大于零,说明散点图中的点大多数在一、三象限,此时,两个定距变量具有正的线性相关关系;如果平均数小于零,说明散点图中的点大多数在二、四象限,此时,两个定距变量具有负的线性相关关系。(xi- ),(yi- )以及(xi- )(yi- )的取值情况可以用表2表示。

根據上面的说明,协方差的计算公式可以表示为:

Cov(Y,X)=∑(xi- )(yi- )/n,根据它的符号我们能够大致判断两个定距变量的相关方向。但是,由于协方差的大小会随着自变量与因变量取值单位的变化而变化,它不能精确反应两个定距变量的相关程度。就上面我们所举事例来说,如果我们要计算体重和身高两个变量的协方差,在体重以“千克”为单位、身高以“厘米”为单位的情况下与体重以“千克”为单位,身高以“毫米”为单位的情况相比较,协方差会扩大近10倍。为了克服协方差这一指标,受变量取值单位影响的弊端,统计学上通常用“相关系数”这一指标来衡量两个定距变量的相关程度。接下来,我们就对相关系数的计算方法和数学思想进行简单的分析、说明。

二、相关系数的计算方法和数学含义

为了克服协方差受两个变量取值单位影响的弊端,可以把数据(xi- )和(yi- )进行“标准化”处理。具体的方法是把每一个(xi- )和(yi- )都分别除以其自身的标准差。这样,两个变量的每次变化都摆脱了取值单位的影响。因为无论两个自变量的计量以何种单位为标准,其自身的标准差也必然以同样的单位为计量标准。为了说明相关系数的计算方法,我们先把(xi- )与(yi- )的取值标准化,并把两者以及它们的积,用表3列示出来。

在表3中,我们可以把第二列的每一行看作是:以标准差为单位,自变量X每次变化的数量。在n取值较大的情况下,我们可以假定,总的说来,在n个观测值的情况下,自变量X的变化总共为n个标准差(这就是第二列的最后一行为n的原因)。同理,上表第四列的每一行则可以看作,以标准差为单位,由于自变量X的每次变化,所带来的因变量Y的变化量。在以各自标准差为单位的情况下,如果我们计算由于自变量X的变化,所带来的因变量Y的变化的加权平均数,所得到的结果就是相关系数。其表达式为:

R=∑(xi- )(yi- )/nSxSy,相关系数R的数学含义为:平均来说,自变量X每变化其自身的一个标准差,所导致因变量Y变化其自身标准差的数量。就上面我们所举的例子来说,如果我们根据收集的观测数据计算出体重和身高两个定距变量的相关系数R为0.75,就表示,平均来讲,如果人的身高每增加或减少其自身的1个标准差,那么人的体重就相应变化其自身的0.75个标准差。

与协方差相比,相关系数这一指标有效克服了两个定距变量的取值单位对相关关系计算的影响,能够有效衡量两个定距变量之间的相关方向和相关程度,是统计学中较为常用而有效的指标之一。需要注意的是,相关系数的取值范围必然在-1和1之间。当相关系数为零时,并不表示两个变量不相关,而只是说明这两个变量之间没有线性相关性。

通过计算相关系数,能够对两个定距变量的相关程度进行一般把握。但是,在实际的社会调查研究就中,我们对两个定距变量关系的探讨往往是在特定的取值单位下进行的,需要明确,某一变量一定单位的变化,所可能导致的另一个变量的具体变化情况。具体来说,如果要探索体重和身高的相关关系,我们往往想知道的是,平均来讲,人的身高每增加或减少1厘米,体重的变化相应是多少千克。在这种情况下,需要计算的是回归系数,而不是相关系数。在接下来的内容中,我们进一步对回归系数的计算方法和数学含义进行说明。

三、回归系数的计算方法和数学含义

由上文对相关系数的分析得知,如果两个定距变量的相关系数为R,就意味着平均起来,每当自变量变化其自身的1个标准差,因变量就相应变化其自身的R个标准差。也就是说,如果以各自的标准差为单位,因变量与自变量变化量的比值为R/1。假如现在我们面临的问题是,在自变量与因变量都有特定取值单位的条件下,自变量每发生1个取值单位的变化,因变量发生的变化是多少。此时,我们只要对相关系数进行适当的转换,就可得出答案。

因为,在以各自的标准差为单位的情况下,因变量与自变量变化量的比值为R/1,那么在自变量和因变量都有特定取值单位的条件下,因变量与自变量变化值的比例可以写为:RSy/SX,这一比值的大小就是回归系数B,把相关系数R=∑(xi- )(yi- )/nSxSy代入,可得回归系数的表达式为:

B=∑(xi- )(yi- )/nS

=∑(xi- )(yi- )/∑(xi- )2

=∑xiyi- n  /∑x  - n 2

回归系数B的数学含义为:平均而言,自变量X每变化1个取值单位,因变量Y相应变化的取值单位的数量。以本文开始的事例来说,如果根据收集到的体重和身高的观测数据(假设身高的单位是厘米,体重的单位是千克)计算出的回归系数为2,就表明,平均来讲,如果人的身高每增加1厘米,体重就会相应增加2千克。当然,对于两个定距变量的其回归系数B,也可以用最小二乘法求出其表达式。在这里,我们之所以根据相关系数R求得其表达式,目的是为了更好地揭示相关系数与回归系数的内在联系及其各自的数学与统计学蕴涵。

通过本文的分析,可以看出:协方差、相关系数与回归系数三者之间有着极为严密的内在逻辑关系。相关系数可以看作是标准化了的协方差。通过“标准化”,相关系数克服了协方差受两个变量取值单位影响的弊端。相关系数表示的是,在以各自标准差为单位的条件下,两个定距变量平均变化量的比值;而回归系数则表示在两个定距变量都有特定取值单位的条件下,平均而言,自变量每变化1个取值单位,因变量的相应变化量。而且,两者是可以相互推出的。

参考文獻:

[1]布莱洛克.社会统计学[M].沈崇麟,等,译.重庆:重庆大学出版社,2010.

[2]查特吉,哈迪,普赖斯.例解回归分析[M].郑明,等,译.北京:中国统计出版社,2004.

[3]S.韦斯伯格.应用线性回归[M].王静龙,等,译.北京:中国统计出版社,1998.

[4]翁定军.社会定量研究的数据处理——原理与方法[M].上海:上海大学出版社,2004.

[5]贾俊平,等.统计学[M].北京:中国人民大学出版社,2012.

[6]卢淑华.社会统计学[M].北京:北京大学出版社,2009.

[7]李沛良.社会研究的统计应用[M].北京:社会科学文献出版社,2001.

[8]袁卫,等.统计学[M].北京:高等教育出版社,2009.

*本文系商丘师范学院科研启动经费资助项目(编号:7001/700146)暨河南省高校哲学社会科学创新团队项目(编号:2020-CXTD-11)的研究成果。

(作者单位:商丘师范学院)

猜你喜欢

相关系数回归系数协方差
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
人口老龄化对我国消费结构影响研究
南京市能见度变化趋势及其影响因素
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器
秦皇岛海域夜光藻种群密度与环境因子的关系
电子鼻传感器阵列优化对猪肉新鲜度法的检测
纵向数据分析中使用滑动平均Cholesky分解对回归均值和协方差矩阵进行同时半参数建模
关于协方差的U统计量检验法