浅论相关分析与回归分析的联系与区别
2018-05-02◆
◆
(江苏省盐城中学)
一、相关关系与相关分析
1.相关关系
在数理统计学中,回归分析与相关分析是两种常用的统计方法,可以用来解决许多生产实践中的问题,虽然二者之间关系密切,但在具体原理和应用上面有许多不同。首先从总体来说,两者均是对具有相关性的变量或具有联系的标志进行分析,可以借助函数和图像等方法。当一个变量固定,同时另一个变量也有固定值与其相对应,这是一种一一对应的关系,也叫做函数关系。而当一个变量固定,同时与之相对应的变量值并不固定,但是却按照某种规律在一定范围内分布,这两者之间的关系即为相关关系。这里函数关系与相关关系是不同的。例如,正方形面积与其边长是一种函数关系,因为正方形面积是边长的平方,可用确定的数学表达式来描述。而相关关系通常没有这种准确的一一对应的线性函数表达,如子女的身高与父母身高之间有关系,这其中仅考虑遗传因素不考虑后期客观影响等,从生物学角度来讲,两者的身高相关但不能根据父母的身高求出子女准确身高。相关分析与我们的生活联系十分密切,许多问题都可以用相关关系来描述,如一个同学看书的时间与学习成绩,收入水平和受教育程度等均可以利用相关分析。
2.相关分析分类
相关分析有许多分类,按相关的因素分为单相关与复相关(多元相关)、按相关形式可分为线性相关(直线相关)和非线性相关(曲线相关)、按相关的方向可分为正相关和负相关、按相关的程度可分为完全相关、不完全相关和不相关。针对不同情形,按需求选取合适的相关方法可以更好的描述变量之间的关系。在评价相关性时通常引用相关系数r,一般来讲,相关系数介于-1~1之间,若r为正则表明两者正相关,反之为负相关。同时,如果相关系数越接近与1(或-1),则表明两者相关性越强;越接近与0,则表明两者相关性越弱(r=0意味着不相关)。相关分析常常用到相关图,又可称为散点图。它在笛卡尔坐标系内标量x表示横坐标,标量y表示纵坐标,把两个变量之间的对应关系用坐标点直观的描绘出来。
二、回归分析原理及分类
1.回归分析
“回归”是英国生物学家高尔顿提出,他在研究人类遗传问题时对试验数据进行了分析,发现了许多数据间具有回归效应。回归分析研究因变量对于一个或多个其他变量的依赖关系,并在过程中依据现象之间的相关形态,利用数学模型进行模拟,通过数学表达式来反映数据之间的回归关系,并可以得到与之对应的回归方程,来近似地反映变量之间联系的紧密程度,可以从数量上近似地反映变量之间变动的一般规律,是一种常用的统计分析方法。建立的数学模型也就是回归方程,实际上它将相关关系之间的不确定和不规则的数量一般化,从而更好的适用实际问题的解决。回归分析又称为因素分析法,属于多元统计分析方法之一。从本质上来讲,它通过收集样本数据然后利用一定的统计方法,来讨论分析自变量与因变量之间的关系,即原因对结果影响的程度。总的来说,回归分析可以说是统计学中内容最丰富、应用最广泛的分支。
2.回归分析分类及应用
回归分析按照涉及自变量的多少,分为一元回归分析和多元回归分析。其中,一元回归分析是对一个因变量和一个自变量建立回归方程;与之对应,多元回归分析是对两个或两个以上的自变量和一个因变量建立回归方程。按照回归方程的表现形式,分为线性回归分析和非线性回归分析。如果自变量和因变量之间的关系是线性相关的,建立直线方程便可以反映,这种分析称为线性回归分析。如果自变量和因变量之间的关系是非线性相关的,那么通过建立非线性回归方程可以较为准确的反映两者之间关系,即非线性回归分析。常用的回归分析方法有线性回归、logistic回归、cox回归、poission回归、probit 回归,等等。同时,卡方检验可以用logistic回归代替,t检验以及方差分析也可以归到回归分析当中。
回归分析可以依据不同需求对数据进行处理和分析,可以利用回归方程可以进行回归预测也可以计算或估算标准误差。进行回归预测时当自变量发生变化,由于回归方程通常来说反映了变量之间的一般性关系,可以依据回归方程估计出与自变量相对应的因变量可能发生相应变化的趋势、范围以及数值。因变量的回归估计值不是一个必然的对应值,但从一般性角度来讲可以反映因变量可能发生的数量变化。 计算或估算标准差需要通过估计标准误差这一指标,来分析实际值和回归估算值之间的差异以及联系来反映估计值的准确性,同时还可以利用估计标准误差对因变量估计值进行区间估计。
三、相关分析与回归分析的异同
1.相关分析与回归分析的联系
相关分析和回归分析均是研究变量之间的相互关系,测定他们之间联系的紧密程度,并可以描述因变量随自变量变化的具体形式和规律的数理统计方法。它们通常基于两个正态连续变量的假设,从研究数据内在关系的角度来讲,相关分析是回归分析的基础,而回归分析是相关分析的延伸,回归分析是以相关分析为前提条件。我们在研究几组变量之间相互关系时,首先要计算相关系数r也就是进行相关分析。根据相关系数的大小,判断能否运用线性相关等分析方法。比如,在研究同学们的考试成绩y与学习时间x之间的关系,通常来讲二者之间具有极强的相关性,相关系数r较大。但是,考试成绩y与学习时间x并不具有因果性,因变量考试成绩还会受到学习效率,心态,考试发挥等等因素的影响,这时便不能利用回归分析来处理问题。所以变量相关是回归分析的必要不充分条件,相关分析可以表现变量之间的数量的相关程度,而回归分析往往需要利用这种相关程度给出他们之间的具体形式。
在进行回归分析时,回归的效果可以用简单的相关系数r来衡量。相关系数的平方值 即决定系数,与消减误差和全部误差之间的比值相等。而决定系数可以反映因变量在变化的过程中有多少组分是由自变量引起的,具有消除误差比例的意义。以考试成绩y与学习时间x为例,那么y的变化等于x变化引起的部分加上未被解释的变差,也就是学习效率等其他因素。回归分析使用的数学关系的对应系数往往也可以与相关系数互相变换。假设考试成绩与学习时间回归模型为y=kx+b,考试成绩y与学习时间x之间的相关系数r与k之间的关系为k=r(Sy/Sx),Sy是考试成绩y的标准差,Sx是学习时间x的标准差。同时回归分析得到的数学模型或方程可能适用于多种情况,在不同组数据间也可能同样实现回归拟合。如果在做出回归分析之前,没有对变量之间是否相关,以及变量之间的相关方向和程度做出正确判断,会造成“虚假回归”的现象。因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。
2.相关分析与回归分析的区别
首先,在相关分析中,变量不会划分为自变量和因变量,它的目的是检验两个变量共同变化程度,且这两组或者多组变量均是随机变量,变量之间的关系是平等的。而回归分析中需要将变量划分为自变量和因变量,用以通过研究自变量的变化来预测因变量的结果,几组变量中只有因变量是随机变量,自变量在研究的过程中是确定的。也就是或在把自变量带入回归分析数学关系中得到的因变量的值不是唯一的,而是在一定区间内呈随机波动,变量之间的关系是不平等的。由于相关分析本身所限,如果两组或几组变量中的一个变量不是随机变量,那么就不能进行相关分析。而同理对于回归分析,因变量为随机变量,自变量可以是普通变量也可以是随机变量。
其次,相关相关分析通常利用一个标准也就是相关系数来衡量两个变量之间的相关性,在这个前提下,由于变量之间的关系是平等的,这个衡量标准也是唯一确定的。但是在研究回归分析的问题中,变量之间具有因果关系,而因变量往往受多个自变量的影响,自变量之间还可能具有一定的联系,得到的数学关系也可能有很多个,在进行拟合的过程中需要利用到多个回归方程。如果两组或几组变量之间具有因果关系,利用相关分析时得到的结果一致,而回归分析结果不同。
总地来说,相关分析与回归分析都是研究两个或多个变量间关联性的方法,两者之间有密切的联系,但这两种数理统计方法存在本质的区别。变量之间的相关性是否真实存在也是由他们内在的联系决定的,分析方法通过建立数学关系等方法,只能反映他们之间的关系和密切程度,但不能准确判断他们之间存在的关联性的真实性,也不能通过回归分析方法判断变量之间的因果性。所以我们在使用的时候,不仅仅要依据研究目的选择何种数理统计方法,还需要定性与定量相结合,从本质上分析问题,才能更好地利用相关分析与回归分析等方法,更准确地解决问题。
参考文献:
[1]张林泉.相关分析与回归分析应用辨析[J].哈尔滨职业技术学院学报,2010,(04) :123-124.
[2]王娟.对统计中相关分析与回归分析的论述[J].现代经济信息,2014,(08) :115.
[3]陈玮.大数据时代下的相关分析方法变革[J].无锡职业技术学院学报,2017,(01) :50-52.