概率统计的知识理解之残差与回归模型诊断
2022-05-30王慧鋆胡典顺
王慧鋆 胡典顺
摘 要:残差是观测值与预测值之差,它看似简单却蕴含了回归模型的许多重要信息. 通过对残差知识的深入梳理,介绍残差图,再用四个虚拟数据集探讨残差分析的必要性,最后借助实例展现模型建构与诊断过程,使师生更深入地了解残差和残差分析在回归模型中的重要作用,以便在实际生产、生活中利用数据构建并选取最佳模型.
关键词:残差;残差图;残差分析;回归模型诊断
一、引言
在生产、生活中,人们经常会遇到各种各样的误差. 例如,在超市里购买的食盐其质量和它的标准质量有一定的误差;在化学实验室称量物质时会产生测量误差;工厂加工的零件受工艺影响会产生加工误差. 在众多误差中,有些误差可以避免,而有些误差无法避免. 随机误差就是不能避免的误差,它是由测量实验中许多独立因素的微小变化的总和引起的,无法用实验的方法加以消除. 但总体来说,多次测量中随机误差服从统计规律,最常见的是正态分布规律.
由于随机误差具有总体的统计规律性,即使它的大小、正负不固定,难以消除或减小,人们还是可以运用统计方法分析其对测量结果的影响. 那么,如何运用统计方法进行合理的分析、计算呢?实际上,可以建立适当的统计模型,利用已知数据求出模型参数,再通过计算得到随机误差的估计值残差,这样就方便分析其对测量结果的影响. 在回归分析中,残差蕴含了有关模型基本假定的许多重要信息,在估计随机误差和诊断回归模型上具有重要作用. 本文将围绕残差的知识理解,以及残差之于模型的重要作用进行拓展阐述.
二、残差的知识理解
1. 教材中回归模型与残差的概念定义
人教A版《普通高中教科书·数学》选择性必修第三册(以下统称“教材”)定义回归模型与残差如下.
教材以研究儿子身高和父亲身高之间的关系为例,先由收集的数据做出了两者间的散点图,发现散点落在一条斜率大于0的直线附近,有较强的线性相关关系. 然后,让学生思考两者间的关系能否用一次函数模型刻画. 因为存在父亲身高相同时对应儿子身高不同的情况,所以不能用一次函数模型刻画. 于是给出了能够刻画儿子身高[Y]与父亲身高x相关关系的一元线性回归模型,其表达式为[Y=bx+a+e,Ee=0,De=σ2.]
此模型是对Y与x之间真实关系的一种近似. 其中,Y是因变量(响应变量),x是自变量(解释变量),x是影响Y的主要因素,e是其他相关因素. 模型中关于随机误差e的假定为对自变量x的任意取值,e的均值都为0,方差始终为[σ2,] 即e的均值和方差不随x的变化而变化.
建立回归模型后,为了合理估计模型中参数a,b的值,需要利用收集的成对样本数据[xi,yi]进行分析. 因为[Y=bx+a+e]刻画的是变量Y与x的线性相关关系,所以估计参数a,b相当于寻找一条合适的直线,使表示成对样本数据的点散落在这条直线附近. 为了使“从整体上看,各散点与直线最接近”,教材着重探讨并介绍了最小二乘法,然后应用最小二乘准则得到了经验回归方程[y=bx+a.] 其中,[y]称为预测值,求得的[a,b]叫做a,b的最小二乘估计. 为了检验所求模型的拟合效果,得出预测值与实际观测值之间的偏差,在比较因变量Y的观测值和预测值[y]时给出了残差的概念,观测值减去预测值就是残差.
通过以上梳理可以发现,教材在探究儿子身高与父亲身高的相关关系时引入了一元线性回归模型,并在建立的模型中体现了随机误差. 然后利用最小二乘法求出经验回归方程,代入数据发现预测值与观测值有偏差之后,引出了残差的概念. 因为模型假定主要是针对随机误差e提出的,所以考查所求模型的准确性需要从分析随机误差e的估计量残差入手. 教材将残差放在参数估计这一节,是为了确定模型假定条件的合理性,也是对所求模型的检验或验证.
一般地,在根据实际情况或利用所得数据建立回归模型时,无论建立的是何种模型,都可以通过计算实际观测值与预测值之间的差得到残差. 这体现了残差的普适性和简洁性,其计算简便且适用范围广,看似简单却十分必要.
2. 回归模型中的误差假定
利用散点图,人们可以直观判断两个变量间是否存在线性相关关系,但这只是一种视觉上的判断. 为了从数量上对两个变量的线性相关关系进行严格说明,统计学中常用假设检验法对回归参数进行检验,即提出假设H0:x与Y之间没有线性相关关系. 但是,检验这样的假设,需要进一步完善教材中给出的随机误差假定,完善后的误差假定为:对x的每一个固定值,所有e都相互独立,且它们同时服从均值为0,方差为[σ2]的正态分布. 注意,这句话蕴含了以下4层含义.
(1)随机误差[ei i=1,2,…,n]服从正态分布. 但因为模型中的随机误差难以确定,所以对其正态性的检验往往通过残差进行.
(2)[Eei=0]對[i=1,2,…,n]均成立.
(3)[Dei=σ2]对[i=1,2,…,n]均成立. 这被称为等方差假定或方差齐性假定. 若该假定不成立,说明出现了异方差问题.
(4)随机误差[e1,e2,…,en]相互独立,即[Covei,ej=0]对[i≠j,i=1,2,…,n,j=1,2,…,n]均成立.
在这样的假定下,最小二乘估计[a,b]具有明确的抽样分布,即正态分布. 利用[a,b]的抽样分布,可以分析自变量x对因变量Y的预测能力,体现了回归方程的预测功能. 但因为教材中没有涉及对回归系数进行假设检验的内容,也没有直接给出不同观测误差之间相互独立的概念,所以本节内容是对教材随机误差假定的一个拓展,旨在使师生从理论上对这一内容有更加深入的认识.
3. 残差与残差图
了解残差的生成背景与模型的误差假定后,给出残差的具体定义. 所谓残差,就是人们获得的实际观测值与回归模型拟合(预测)值的差,其数学表达式为[ei=yi-yi.] 这是普通残差,也是最简单的一种残差. 此外,还有学生氏残差(标准化残差)和预测残差. 得到残差的表达式后,在一元线性回归模型中代入经验回归方程,即为[ei=yi-bxi-a.] 由此可知,残差是因变量中未被自变量解释的部分,这就说明了残差与自变量无关. 将样本数据的所有残差相加,还可以得到[i=1nei=i=1nyi-yi=i=1nyi-bxi-a=ny-nbx-na=][ny-bx-a=0.] 这与随机误差均值为0的假设相符,但因为计算过程中有近似,所以残差和一般近似为0.
如图1,以一元线性回归模型为例,在平面直角坐标系中,可以清楚地知道残差的几何意义,即实际观测数据点与其所对应的回归模型数据点间的纵向差异值.
图1中只标明了一个观测点[x4,y4,] 该观测点在预测点上方,它的残差为正值. 通过图1可以看出还有些观测点落在回归直线下方,这说明残差可正可负.
为了使不同观测点的残差数据更加直观,可以绘制残差图. 所谓残差图,就是以某种残差为纵坐标,以观测时间t、观测序号n、预测值[y]或某一自变量xi [i=1,2,…,n]为横坐标绘制的散点图. 下面以残差为纵坐标,以自變量为横坐标的残差图为例,介绍两种不同情况下的残差图,分别如图2和图3所示.
图2中大多数观测点都比较均匀地分布在横轴的上方和下方,满足随机误差均值为0,方差为[σ2]的假定条件,只有一个偏离均值很多的点,这样的点被称为异常点. 图3中的观测点没有均匀地分布在横轴的上方和下方,其分布似开口向上的二次曲线,其表面所建模型不符合随机误差假定条件,即现有模型不成立,可能没有把因变量中蕴含的二次项表达出来. 此时应该考虑在模型中加入自变量的二次项,以完善模型,达到最佳拟合效果.
以上只列举了两个较为简单的残差图. 在回归分析中,绘制残差图有许多优点:放大预测值与观测值之间的差距;提醒我们关注是否在收集数据或模型拟合的过程中遗漏了某些重要的自变量;帮助我们直观高效地诊断模型、改进模型.
三、残差分析的必要性
回归模型在建立时蕴含了模型假定,而回归模型的有效性也依赖于这些假定,在用求出的经验回归方程做出任何分析之前,需要先确定这些假定条件是否成立. 作为一个重要的回归诊断量,残差包含了模型假定的许多重要信息,因此残差分析能够较好地验证所得数据是否满足模型假定. 下面通过一个例子具体说明.
对于不同的数据集,利用最小二乘法求出的回归方程是否会几乎相同?虽然这种情况比较极端,但也不是没有出现的可能. 实际上,对现实数据进行回归分析时会遇到类似的问题. 1973年,耶鲁大学的安斯柯姆教授构建了四个虚拟数据集,这四个虚拟数据集就反映出以上问题,具体数据如表1所示.
不难发现,前三个数据集的自变量取值完全相同,只是对应的因变量取值发生了一些变化;而最后一个数据集中只有一个自变量不同,其他自变量的取值均是8. 表1中的数据看起来比较奇特,并且数据量较大,计算起来较为复杂. 但是交给计算机软件来计算,可以详细地分析数据,也提高了计算效率. 下面利用Excel“数据分析”中的“回归”功能,对四组数据进行一元线性回归. 分别得到了这四个数据集的相关数值统计结果,如表2所示.
在回归分析中,设定模型[y=a+bx+e,] 采用最小二乘法估计模型. 由表2可知,四个数据集的模型参数相近,a的值都略大于3,b的值都在0.5附近,且a的标准误相近,b的标准误也相近(标准误是标准差的估计量,它越小估计精度越高). 各数据集的[R2]和[r]都十分接近,误差不超过千分之一. [R2]是拟合优度判定系数,也叫决定系数,其表达式为[R2=1-i=1nyi-yi2i=1nyi-y2=1-]
[i=1nei2i=1nyi-y2.] 其中,[i=1ne2i]是残差平方和. [R2]反映了自变量解释因变量的比例,取值区间是[0,1.] 一般来说,[R2]越大模型拟合效果越好. 而四个数据集的[R2]相近,说明所建模型的拟合效果相近. 样本相关系数r是度量成对样本数据线性相关程度的量,且[r]越接近1,说明成对样本数据线性相关程度越强. 四个数据集的[r]相近,说明因变量与自变量的线性相关程度相近. 但是,这四个数据集中因变量与自变量的线性相关程度真的差不多吗?因变量与自变量之间真的具有线性相关性吗?数据会不会欺骗了我们呢?如果只看统计分析的数据结果,这四个数据集的回归分析几乎无差异,但事实是这四组数据确实存在很大差别. 这个案例提醒我们不能完全相信数值结果,还要结合适当的图形对数据进行进一步分析. 有时图形方法不但可以揭示数据结构,还可以发现数值结果无法提供的信息.
结合图4 ~ 图7中四个数据集的散点图、拟合直线和图8 ~ 图11中的残差图,可以直观地发现除了第一个数据集的线性回归模型建立正确、残差图表现正常外,其他三个数据集的线性模型和残差图都表现异常,说明这三个数据集不适合进行线性拟合,违背了模型的误差假定.
由这个案例可以看出,在回归分析中,计算残差是用最小二乘法求出模型参数后的必要步骤,残差图是整合分析残差、进行模型诊断的必要工具. 对残差进行残差分析,可以帮助我们确定拟合模型是否正确、验证回归模型假定是否成立,是诊断模型的关键一步. 利用最小二乘法计算不同数据的回归方程之前,一定要画出相应的散点图,判断其走向和趋势,不能一股脑地把学过的模型套用在不同的情境中,必须要考虑实际情况及所建模型的目的等相关问题.
四、建模实例
笔者对教材第120页的练习第2题做了适当改编,下面通过此题阐述残差在模型诊断中的作用.
1. 问题描述
为了了解国内生产总值(GDP)的增长情况,便于对未来国内生产总值(GDP)做出科学合理的预测. 国家统计局收集并统计了1997 — 2006年中国国内生产总值(GDP)的数据,如表3所示.
试作出GDP关于年份的散点图,并根据该图猜想可以用什么模型描述它们之间的关系. 然后利用表3数据对模型参数进行估计,最后说明所求模型是否能较好地刻画GDP与年份之间的关系.
2. 问题分析
在问题中,人们关心未来国内生产总值(GDP)是多少,而表3中只给出了过去每一年对应的GDP数额,要想知道未来的GDP,可以将年份作为自变量,GDP作为因变量进行分析. 但是GDP还可能受全球经济形势、相关政策和社会环境等很多因素的影响,故不能用一个确定的函数来表达年份与GDP之间的关系,用统计方法建立两者之间的回归模型会更加适合.
3. 模型建立
首先,作GDP关于年份的散点图,猜想可以用什么模型描述它们之间的关系. 因为数值较大、数据量较多,所以采用统计软件进行分析. 在Excel中用“数据分析”中的“回归”功能,得到散点图如图12所示. 图12表明,随着时间的推移GDP呈上升趋势,且增长幅度越来越大.
分析图12中的散点图,可以发现散点尾部偏高,数据的倾向是增长的、上凹的. 回顾学过的函数图象,似乎开口向上的二次曲线右侧和此图比较相似. 且圖13中残差分布呈现二次曲线形状,故可以考虑在模型中加入自变量的二次项. 因为表3中的数据年份是从1997年开始的,所以可以认为散点集中分布在曲线[y=a+bt-1 9972]附近. 不妨建立形如[y=a+bt-1 9972+ε]的回归模型,其中a,b为未知参数,ε为随机误差.
建立模型后,如何确定其中的参数呢?实际上,当散点的分布没有呈现线性相关特征时,我们的策略是变换成对样本数据,使散点分布呈现线性相关性,即使散点均匀散落在某条直线附近. 在复杂情况下,具体应该采用哪种变换需要反复试验、不断摸索或结合以往经验和所学函数做出大致估计.
这里令[x=t-1 9972,x]是引入的一个中间变量. 变换后模型[y=a+bt-1 9972+ε]变为[y=a+bx+ε,] 这是一个一元线性回归模型,也是大家所熟知的. 变换后的新的成对数据如表4所示.
根据新数据绘制散点图,如图14所示,发现y对x呈现出很强的线性相关性,说明数据变换正确,建立的回归模型合适. 接下来,利用统计软件得出分析结果,如表5所示. 得到回归方程为[y2=82 329.233+][1 652.851 8x.] 相关系数[r]为0.998 5,说明GDP与年份之间有很强的线性相关关系;[R2]为0.996 9,意味着此模型可以解释数据几乎100%的波动;显著性(p值)小于0.001,说明y与x显著相关. 以上各种数据都说明此模型的拟合效果很好. 接下来绘制残差图(如图15)检验统计分析结果.
观察图15可以发现,散点比较均匀地分布在横轴两侧,没有呈现聚拢或散开的趋势,这说明二次变换的线性化模型比较理想.
将[x=t-1 9972]代入[y2=82 329.233+1 652.851 8x,] 得到由年份预报国内生产总值(GDP)的经验回归方程[y2=82 329.233+1 652.851 8t-1 9972,] 这就是要求的经验回归方程.
对于实际问题,没有人知道真正的模型是什么. 而统计方法就是不断寻找有用的模型,精益求精,力争找出最适合的模型. 在实际教学中,教师可以鼓励学生尝试其他的数据处理方法并建立更好的模型. 学生储备的知识越多,可供选择的方法就越多.
五、总结
回归分析法是统计学中的重要方法,而残差分析是回归分析中检验模型假定、诊断并选取模型的重要方法. 它对应数学建模中“检验结果、改进模型”这两步,是对模型的事后检验,看似微不足道实则意义深远. 残差分析体现了数学学科所要求的思维的严谨性,以及操作的规范性和完整性,提醒我们要在日常的工作、学习和生活中养成良好的检查与验证的习惯.
计算并分析残差不仅能够帮助我们大致观察随机误差对因变量的影响,还能帮助我们直观诊断模型. 借助残差图对残差进行进一步分析,能够发现现有模型的优点和缺点,并根据发现的问题改进模型,对数据进行更为恰当的拟合,以建立“最佳”模型,这也能对未知的数据做出更符合实际的预测.
参考文献:
[1]胡福年,白春艳,李洪美. 电气测量技术实验教程[M]. 南京:东南大学出版社,2009.
[2]刘沛. 回归分析的新进展:回归诊断[J]. 中国卫生统计,1989,6(6):51-55.
[3]SAMPRIT CHATTERJEE,ALI S HADI. 例解回归分析[M]. 郑忠国,许静,译. 北京:机械工业出版社,2013.
[4]胡菊华. 基于残差分析的线性回归模型的诊断与修正[J]. 统计与决策,2019,35(24):5-8.
[5]王敏. 残差分析在统计中的应用[J]. 江苏统计,2000(8):24,11.
[6]FRANK R GIORDANO,WILLIAM P FOX,STEVEN B HORTON. 数学建模(原书第5版)[M]. 叶其孝,姜启源,等译. 北京:机械工业出版社,2014.
收稿日期:2022-08-05
基金项目:教育部人文社会科学研究规划基金项目——中小学核心素养测评的模型建构与实证研究(19YJA880012);
中央高校基本科研业务费项目——新高考分省市命题分学科质量评价指标体系研究(CCNUTEI2021-13).
作者简介:王慧鋆(1999— ),女,在读硕士研究生,主要从事数学教育研究.