APP下载

回归分析的内涵与教学探究

2021-09-11汤向明

数学通报 2021年7期
关键词:平方和纵坐标方差

汤向明 金 蛟

(1.泉州市教育科学研究所 362000;2. 北京师范大学统计学院 100875)

现实生活中,很多变量间存在着一定的关系,描述变量间关系的线性回归模型有着广泛的应用.现行高中教材中包含有相关和线性回归的内容,本文以案例教学的方式分析回归的内涵并对关键问题进行探究,供高中教师教学参考.

1 相关

案例1 身高和臂展

根据直观经验,我们普遍认识到,人的身高和臂展相近.我们收集1024名同学的身高和臂展数据(不同群体身高和臂展数据特点不尽相同,本文采用模拟数据,各授课教师可收集教学班级的数据,提升学生参与度和授课效果),部分数据如表1所示.

表1

从数据中能看出身高和臂展确实非常接近.但我们也会遇到如下情形:某篮球运动员身高226cm,但臂展只有220cm.又比如《三国演义》小说中描写的人物刘备,身高7尺5寸,双耳垂肩,双臂过膝. 身高7尺5寸相当于现在的173cm,刘备的臂展相对于他的身高远远偏长.

如果身高、臂展数据的散点图中所有点(为了直观,取20点展示)在一条线上(图1左),这就是数学上确定的函数关系.而实际收集数据(为了直观,取20名同学)绘制的散点图如图1右,这些点不严格在线上,而是在线附近,这种变量间有影响,又没达到确定程度的关系就是统计上的相关关系.

图1

相关关系的度量方式有多种,英国生物学家、统计学家Pearson定义了线性相关系数:

模拟具有不同相关系数的数据绘制散点图如图2:

图2

由相关系数定义和图2可见,相关系数的取值范围在-1到1之间.相关系数为负时,随着一个变量的增加,另一变量有着相反的降低趋势;相关系数为正时,两个变量之间有着同增同减的相同趋势;相关系数为0时,两个变量间没有线性关系;随着相关系数绝对值的增加,两个变量间的相关关系增强,如果等于1,就严格在一条线上.

探究1 相关与线性相关

两个变量间相关关系的度量方式除了Pearson线性相关系数,还有Spearman秩相关系数、Kendall等级相关系数等(可作为延伸探讨).取数据如表2,变量x和y的Pearson线性相关系数为0.928,而x和y的Spearman秩相关系数和Kendall等级相关系数都为1.可见,常用的Pearson线性相关系数r仅度量两个变量的线性相关程度.

表2

2 回归

案例1续

将数据绘成散点图(如图3),看出身高和臂展很接近,计算得相关系数为0.94,说明二者的相关关系非常强.学生们都经历过入学体检,所以学生一般都知道自己的身高、体重的最新数据,但知道自己的臂展是多少吗?

假定学生们的身高、臂展数据规律和案例1的数据一致,我们提出问题:已经知道学生的身高,能否估计出其臂展?进一步明确问题:假如学生的身高为180cm,我们可否基于数据提供的趋势信息,估计出臂展.这就引出回归.

图3

回归方法应用非常广泛,例如可通过容易测量的树的胸径估计不容易测量的树的高度;通过容易测量的气压估计不容易测量的海拔高度等等.

要讲两个变量的回归,先回顾单个变量的分析方法.比如要研究某学校的全体同学身高的分布规律,我们抽取部分同学的身高数据(案例1的身高)作为样本,绘制了直方图、箱线图,即使推测数据可能来自的总体分布其密度函数有着单峰、对称、钟型曲线特点,但仍无法确定其分布是否为正态分布(因还有其他对称分布,例如t分布等).也就是说严格确定分布是困难的,我们退而求其次,考虑期望、方差等数字特征来描述总体分布特征.

图4

处理两个变量的相关关系,可以用回归分析方法.

案例2 父子身高数据

英国科学家高尔顿研究遗传差异时,收集了1078对成年父子身高的数据,这个研究非常经典,是回归分析的起源.

图5

图5左图横坐标为父亲身高,纵坐标为儿子身高.注意到身高是72英寸时,相当于183cm的父代,他们的子代身高是有变化的一些数据.同样,身高是64英寸,相当于163cm的父代,他们的子代身高也是一些不同的数据.之所以是带状区域,是因为有四舍五入的影响.所以两变量的研究就聚焦到给定一个变量后,另一个变量的条件分布(如父亲身高为72英寸的子代的身高分布)问题,与一维数据分析类似:分布难以确定,就研究期望、方差等数字特征;条件分布同样难以确定,我们就退而求其次,研究条件期望和条件方差这些数字特征.

图5右上图可以帮助理解回归模型,坐标横轴为父亲身高,纵坐标为儿子身高,当父代身高为72英寸时,子代的条件分布有单峰对称轮廓线,同样当父代身高为64英寸时,子代的条件分布有单峰对称轮廓线.回归模型假定:条件期望(不同轮廓线的对称中心)是x的线性函数,就是条件期望成线性.不同轮廓线的形状相同,与x取值无关,就是条件方差等方差.图5右下图展示了不等方差情形,即异方差回归模型(可作为回归分析深入学习的延伸探讨).一般讲解的回归模型可按图5右上图理解.

下面给出回归模型的总体形式:

·均值函数:E(Y|X=x)=β0+β1x.

·方差函数:Var(Y|X=x)=σ2.

就是条件期望成线性,条件方差等方差.待估参数为回归参数β0和β1,及误差方差σ2.

更为大家熟悉的是回归模型的样本形式:

xi,yi为第i个观测数据,β0+β1xi为回归直线,数据点不严格在线上,这个扰动用模型误差ei来表达,模型的具体限定条件分别为误差项期望为0、等方差、不相关,也就是有名的高斯-马尔可夫条件.

探究2 回归名称的由来

这个模型为什么叫回归模型呢?英国科学家高尔顿研究遗传问题时收集了1078对成年父子身高数据,分析发现:平均意义下,身高偏高的父亲,儿子的身高也偏高,但没有父亲那么高.同样,平均意义下,身高偏低的父亲,儿子的身高也偏低,但没有父亲那么低.

图6 图片来自文献[2]

通过图片展示能得到什么结论吗?高尔顿得出结论:子代的身高有向族群平均身高“回归”的趋势.他把分析方法称为回归分析方法,回归这个词就一直沿用至今了.

3 估计

我们主要关注回归参数β0和β1的估计问题.目前手中掌握了数据,假定了回归模型.β0和β1取不同的估计值,就是拟合了不同的直线,如何选择估计值,等价于如何选择最优的拟合直线.

我们给出直观解释:为展示方便,忽略掉横纵坐标的实际含义,绘制了散点图如图7.

图7

参数估计问题直观上看就是最优拟合直线的选择问题, 图7绘制了两条直线,一条实线,一条虚线,哪一条的拟合效果更好?大部分学生会觉得实线更好,因为视觉上我们会主观判断这条线更好地拟合了数据点,也就是所有这些点和这条线更接近.那么引出一个问题:如何度量点到线的接近程度?

把直线记作y=β0+β1xi,先描述一个点到线的接近程度,这点横坐标取为xi纵坐标为yi,在直线上选择xi对应的点,纵坐标为β0+β1xi,二者之间的差异,称作残差,记为ri.如果这个点在直线的下方,那么残差符号为负.

图8

图9

定义了回归模型并给出直观理解后,我们可以给出参数的最小二乘估计方法,残差平方和可以具体写为参数β0和β1的函数:

使得残差平方和达到最小值的自变量的取值就是参数的最小二乘估计.

明确了估计方法,那么最小二乘的具体表达就容易得到.本质上就是一个优化问题,具体而言,就是求函数的极值点.结果为:

其中

探究3 为什么是最小二乘

需要说明的是回归分析中参数估计方法有多种,最小二乘法只是我们介绍的一种常用估计方法.

探究4 为什么是纵向的差异

图10

对于点(xi,yi),在直线上选择xi对应的点,纵坐标为β0+β1xi,二者之间的差异,称作残差,记为:

ri=yi-β0-β1xi.

为什么不是如图10所示的点到直线的垂直距离?这是因为回归模型假定解释变量x是精确值,没有测量误差.

如果有测量误差存在,可以采用测量误差模型:

这时观测数据为(wi,yi),可基于垂直距离,使用正交回归方法.这可作为回归分析深入学习的延伸探讨.

4 预测

最后再回到案例1的问题,使用计算机软件(如Excel等,本文使用R语言)得到回归参数的估计值.进一步可以得到拟合的回归直线,这里我们称为经验回归方程.它就是图11的散点图中的直线,它描述了数据的线性趋势.

图11

5 效果

如何衡量回归模型的拟合效果?残差平方和是个不错的选择,残差平方和越小表明回归直线和所有点越接近,拟合效果越好.但残差平方和与数据的单位有关,比如把身高数据的单位由厘米改为米,那同样的数据,残差平方和就会缩小10000倍.人们常用另外一种指标:

探究5 解释变量和响应变量互换会怎样

模型中的x称作解释变量,或自变量;y称作响应变量,或因变量.解释变量和响应变量互换后使用最小二乘法得到的结果不同,即两个经验回归方程不同.这是因为最小二乘法假定解释变量没有测量误差,只考虑响应变量(因变量)方向的残差变化.

另需说明,回归分析虽然是处理变量间的相关关系的一种统计方法,但在实际使用中,常常考虑解释变量对响应变量一定意义下的影响作用(所以解释变量也称作自变量、响应变量也称作因变量).在应用回归模型进行实际数据分析时,哪些变量作为解释变量,什么变量作为响应变量,是需要结合专业知识谨慎选择的.

6 总结

本文结合案例,旨在为中学师生教授、学习回归分析提供帮助,最后给出本文总结:一个变量:推分布,过犹不及.对单变量的分析,我们想知道它的统计分布,但精确分布难以确定,就退而研究期望、方差.两个变量:用回归,中庸之道.处理两个变量的相关关系,我们想知道它的条件分布,同样关注数字特征,具体描述为条件期望成线性,条件方差等方差,就是线性回归模型.最小二乘:做拟合,众志成城.我们给出参数的最小二乘估计方法,是使得所有点的残差平方和最小的参数取值.统计结论:看效果,衡短论长.参数估计还有最小一乘等其他参数估计方法,同样的数据,采用不同方法,会得到不同的结论,我们要制定标准,比较拟合效果,最终找到更好的统计方法.

另外还有一些探究问题,如为什么采用条件期望?为什么不考虑条件中位数或其他条件分位数?什么是线性?等等,可留待高等教育阶段学习时深入探究.

猜你喜欢

平方和纵坐标方差
·更正·
更正
勘 误
概率与统计(2)——离散型随机变量的期望与方差
方差越小越好?
计算方差用哪个公式
费马—欧拉两平方和定理
利用平方和方法证明不等式赛题
方差生活秀
四平方和恒等式与四平方和定理