谈统计相关与回归分析中的关联性问题
2022-06-15宋斌
[摘 要] 相关分析与回归分析是统计学中重要的概念,在二者的知识体系中涉及很多关联性问题,如相关分析与回归分析、相关关系与函数关系、相关系数与估计误差、线性回归与曲线回归、真实相关与虚假相关等。从上述五组关联性问题的各自概念入手,解剖了它们之间的内在关联性,即内在联系与区别,从数学本质上认识了它们之间的对立统一性,对深刻理解相关与回归分析提供帮助。同时,站在课程思政角度,指出关联性分析所蕴含的思政价值。
[关 键 词] 统计;相关;回归;关联
[中图分类号] C81 [文献标志码] A [文章编号] 2096-0603(2022)21-0097-03
相关与回归分析提供了研究相关关系的方法,在相关与回归分析知识体系中,存在很多值得研究的关联性问题,这些关联性问题中也不乏思政话题。
一、相关分析与回归分析
(一)相关分析与回归分析的概念
相关关系的分析方法主要有两种:相关分析和回归分析。
相关分析,是对现象之间数量关系的分析研究,目的在于探讨变量之间相互关系的密切程度及其变化规律,以便作出准确的判断,对其进行必要的预测和控制。
相关分析的基本步骤:(1)绘制散点图。观察变量间是否呈规律变化。(2)选择系数类别。根据变量类型或数据的正态性检验,选择合适的相关系数公式。(3)检验异常值。对于出现的异常值,要充分考虑它存在的合理性,如果经分析,异常值不适合存在,检测前应把异常值清除,以便保证数据的稳定性。(4)计算相关系数。计算相关系数r,评估相关程度。(5)显著性检验。由于r一般是从样本数据得來的,不保证可靠,会存在随机性的抽样误差,因此对相关系数r需进行显著性检验。(6)得出相关结论。根据以上分析,得出变量之间的相关程度的结论。
回归分析就是依据相关分析得出的结论,确定回归模型(即数学方程)描绘变量间的相关关系,以便进行估计或预测的统计方法。
回归分析的基本步骤:(1)确定变量。首先根据对问题的分析判断,将变量分为自变量和因变量。(2)建立回归模型。依据自变量和因变量的统计资料,建立数学方程式,即回归模型,描述变量间的关系。(3)对回归模型统计检验。由于涉及的变量具有不确定性,还要对回归模型进行检验。回归模型只有通过各种检验,且预测误差较小,才能用回归模型进行预测。(4)确定预测值。对获得检验通过的回归模型,用自变量的取值来估计或预测因变量取值。
相关分析与回归分析的区别:相关分析侧重研究变量间的相关性;回归分析侧重于研究变量间的回归模型,以便运用模型进行预测。
(二)相关分析与回归分析的关联性
一般来说,相关分析与回归分析是相关关系分析中整个完整过程的两个阶段,相关分析是回归分析的前提和基础,回归分析则是相关分析的深入和继续,只有当变量之间存在高度相关时,进行回归分析才有意义。
相关分析中,各变量均是随机变量,变量间处于平等地位,他们之间的关系类似于方程关系。而回归分析中,明确了自变量和因变量,自变量可以是确定性变量,因变量处于被解释的地位,它们之间的关系类似于函数关系。
教科书中习惯把相关分析与回归分析分开论述,但实际上二者互相补充构成了相关关系研究的一个整体。因此只有把二者结合起来,往往才能达到研究的目的。
通过相关分析与回归分析的关联性学习,可培育学生科学把握事物之间联系的思维,同时坚持一分为二看问题的思维习惯。
二、相关关系与函数关系
(一)相关关系与函数关系的概念
客观现象之间的关系可分为两类:一是函数关系,二是相关关系。
函数关系是指现象之间是一种确定性的数量依存关系,表现为某一变量发生变化另一变量有确定的数值与之对应。如,正方形的面积与边长之间就是函数关系。
相关关系是客观现象存在的一种非确定的相互依存关系,表现为某一变量发生变化另一变量也发生变化,但变化的数值是不确定的。如价格与销售量、广告费投入与广告收益等都属于相关关系。相关关系可分为一元相关(单相关)和多元相关(复相关)、线性相关和非线性相关、正相关和负相关。相关关系覆盖了我们生活的全部,它符合世界是普遍联系的观点。
(二)相关关系与函数关系的关联性
相关关系与函数关系具有数学意义下的内在的关联性。看下面的多元函数:
y=f(x1,x2,…,xn),(x1,x2,…,xn)∈D (1)
上面的多元函数(n≥2)中,如果某些自变量缺失,那么其余变量与y之间便构成相关关系。(1)式中,不妨设剩余变量为x1,x2,…,xr(r<n)相关关系用f来表示,那么此时相关关系可以表示为y=f(x1,x2,…,xr),当r=1时为一元相关,当r≥2时为多元相关。类似地,可以定义多个因变量与自变量之间的相关关系。
从数学意义上说,相关关系与函数关系是一个问题的两个方面。由于我们缺乏对世界的真正认识以及研究工具的不足,客观世界的很多现象之间很难确定出准确的函数关系。因而函数关系往往仅是一种理想状态,而研究变量之间的相关关系成为一种可能。随着相关关系研究的深入,相关关系的极限目标就是函数关系。
相关关系与函数关系的关联性分析,其思政价值是能让学生进一步理解世界是普遍联系的观点,以及普遍性與特殊性、理想与现实等的辩证关系。
三、相关系数与估计误差
(一)相关系数与估计误差的概念
相关系数是用量化的方式描绘线性相关条件下变量之间相关关系密切程度的指标。相关系数有很多种,不同的数据特征和分析需求会选择不同的相关系数。这里所指的相关系数是应用最广泛的皮尔逊相关系数。
相关系数公式与方差,两者均来自协方差。协方差用于衡量两个变量的总体误差,协方差的计算公式为:
式中:σx为变量x的标准差;σy为变量y的标准差。
估计误差,本文特指估计标准误差。估计标准误差,它是说明实际值与其估计值之间相对偏离程度的指标,主要用来衡量回归方程的代表性。
估计标准误差可从另一角度显示回归模型拟合的优劣状况。估计标准误差越小,表明模型拟合越好。反之,正好相反。
(二)相关系数与估计误差的关联性
相关系数和估计标准误差从公式设计的结构及推理上,均体现了二者之间的关联性。当n充分大时,相关系数与估计标准误差在数值上存在推理关系。即
从以上推算公式可知,相关系数越大,对应估计标准误差的值越小,回归直线的代表性越好。反之,正好相反。
相关系数与估计误差的关联性,一方面使学生认识到回归分析涉及误差问题的重要性,另一方面其思政价值在于培育学生对数学本质的洞察力和科学探索精神。
四、线性回归与曲线回归
(一)线性回归与曲线回归的概念
线性回归是当两变量的增量按一定比例变化,或者说两个变量增长率为常数时,就认为两个变量符合线性关系,可建立线性回归方程。
曲线回归是两变量的增量不按一定比例变化,即两变量属于非线性关系的变量,这时的回归就是曲线回归。曲线回归是为了弥补普通线性回归不擅长处理非线性问题而设计的,它给自变量加上一些适合当前问题的非线性特征(比如指数等),让模型可以更好地拟合当前非线性问题。
统计学具有过程导向性,需要每一步都要满足相应的数学逻辑。不管哪种回归,分析的时候需要关注假设条件是否满足、模型拟合是否达标、参数是否显著、自变量之间是否存在多重共线性等问题。
(二)线性回归与曲线回归的关联性
在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计,这些模型被称为线性模型。对于一些可线性化的曲线类型,可通过变换等方法转化为线性模型,利用线性回归的方法求出相应的回归方程。
例如,经过散点图观察,一组数据的两个变量符合指数类函数曲线:y=aebx(a,b∈R,a>0)
对方程两边取对数,得lny=lna+bx令y′=lny?圯y′=lna+bx.即化为了一元线性方程的形式,然后利用公式计算出lna与b的值,再把最后a和b的值代入所设方程。
可见,上述几种类型的曲线,都可通过变换将曲线回归转化为线性回归来解决。
线性回归与曲线回归的关联性,体现复杂问题简单化,用简单定义复杂。其思政价值在于教学中深入解读这一科学方法,培育学生的科学思维。
五、真实相关与虚假相关
(一)真实相关与虚假相关的概念
回归分析的目的是为了找到自变量和因变量之间的相关性,这种相关变量之间如果确实存在一定的“因果关系”,并具有研究意义,这样的相关就是真实相关。
虚假相关,也称伪相关,它指的是自变量和因变量之间本来没有任何现实的逻辑关系,但由于某种原因,相关分析却显示出它们之间存在统计意义上的相关性,让人错误地认为两者之间有关联,这种相关就是虚假相关。虚假相关,在生活中随处可见。
例:冰淇淋销量和溺水儿童数。某个夏天,人们发现镇上的冰淇淋销量和溺水儿童数量同步上升,进而拿冰淇淋销量对溺水儿童数量进行相关分析,得到的结论是二者相关。但其真实的原因是夏天高温的天气,同时引起两者数量的增长。
虚假相关的成因一般有两个:一个是存在第三变量(干扰因素)同时对这两个事件造成影响。例子1中夏天炎热的高温是引起虚假相关的第三变量。虚假相关的另一个成因是纯属巧合,如例子2,不受第三方干预的两个独立个体产生相关巧合。
(二)真实相关与虚假相关的关联性
真实相关与虚假相关在数据上都满足相关的条件,而虚假相关虽有数据支撑,但缺乏数据之外的逻辑支撑。
当变量A和B相关时,有以下三种可能:(1)A导致B,或B导致A。A和B真实相关,二者有逻辑关系;(2)C导致A,C导致B,共同干扰因素C引起A和B虚假相关,A与B没有逻辑关系;(3)D导致A,E导致B,两个独立因素D和E引起A与B的虚假相关,A与B没有逻辑关系。
虚假相关需要通过某种手段检测分辨。如设计检测“X→Y”的相关关系,则下列三个条件都成立,才可得出X与Y相关:(1)X发生在Y之前;(2)若X不发生则Y也不发生;(3)若X发生则Y一定发生。如“汽车行驶的速度与刹车距离”满足上面三个条件,二者相关。“冷饮的销量与泳池溺水的人数”不满足上面三个条件,无法确认二者相关。
虚假相关是有危害的,但也不能一概而论,如果相关因为第三变量(成因一)引起,那么这种相关可能是有用的。原因很简单,很多情况我们无法追根溯源,无法依靠纯粹的“因果推断”,这时通过间接手段获取信息就是有价值的。还拿冰淇淋例子来说,假设我们无法得到任何季节或气温等信息,那么仅靠冰淇淋的销售数同样可以推断溺亡人数的趋势。
实际中,因相关与回归分析关乎数据的来源与数量的多少、模型的选择,以及计算的精准度等因素,都可能产生虚假相关,因此需采取综合方法研究。
在数据泛滥的当今时代,真实相关与虚假相关的问题提示我们:要相信数据但不能迷信数据,特别是一些缺乏论证的数据,对其可靠性我们要善于提出质疑。课堂上,围绕这一点要启发学生善于明辨是非,树立严谨、求实的科学态度。
六、结语
统计学相关与回归分析知识体系中,关联性问题很多,他们具有数学本质的一致性。关联性问题的研究有助于发现事物之间的内在联系,把复杂问题简单化。同时,关联性分析,又可以为我们课程思政找到更多资源。
参考文献:
[1]宋立新.概率论与数理统计[M].北京:人民教育出版社,2003.
[2]王孝玲.教育统计学[M].上海:华东师范大学出版社,2001.
[3]刘宏伟.统计学原理[M].北京:中国传媒大学出版社,2008.
[4]赵海荣.统计学基础[M].北京:教育科学出版社,2018.
[5]刘泽.统计学基础[M].北京:人民邮电出版社,2017.
◎编辑 马花萍
作者简介:宋斌(1968—),男,汉族,黑龙江五常人,教育硕士,副教授,研究方向:经济数学、统计学和桥牌。