回归方程面面观
2016-05-30徐锐
徐锐
回归方程是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,运用十分广泛. 近几年高考所涉及的题目愈发凸显出其应用性和问题设计的新颖、创造性,其时时刻刻在提醒我们“思路决定出路”. 同学们只有充分理解了回归方程,冷静分析问题的本质,才能以不变应万变. 下面我们对高考中的不同题型进行分析和研究.
相关关系
例1 在一组样本数据[(x1,y1),(x2,y2),]…,[(xn,yn)(n≥2),][(x1,x2,…,xn不全相等)]的散点图中,若所有样本点[(xi,yi)][(i=1,2,…,n)]都在直线[y=12x+1]上,则这组样本数据的样本相关系数为( )
A. -1 B. 0
C. [12] D. 1
解析 根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.
所有样本点[(xi,yi)(i=1,2,…,n)]都在直线[y=12x+1]上,故这组样本数据完全正相关,故其相关系数为1.
答案 D
例2 下面的4个散点图中,两个变量具有相关关系的是( )
[④][③] [①] [②]
A. ①② B. ①③
C. ②④ D. ③④
解析 由图可知:①是一次函数关系,不是相关关系;②中所有点在一条直线附近波动,是线性相关关系;③不具有相关关系;④在某曲线附近波动是非线性相关关系,所以两个变量具有相关关系的是②④.
答案 C
点拨 相关关系与函数关系的区别:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.
回归方程的意义
例3 根据如下样本数据:
得到的回归方程为[y=bx+a,]则( )
A. [a>0] ,[b<0]
B. [a>0] ,[b>0]
C. [a<0] ,[b<0]
D. [a<0] ,[b>0]
解析 根据已知样本数判断线性回归方程中的[b]与[a]的符号. 依题意画散点图知,两个变量负相关,所以[b<0,][a>0.]
答案 A
例4 设某大学的女生体重[y](单位:kg)与身高[x](单位:cm)具有线性相关关系,根据一组样本数据[(xi,yi)][(i=1,2,…,n),]用最小二乘法建立的回归方程为[y=0.85x-85.71,]则下列结论中不正确的是( )
A. [y]与[x]具有正的线性相关关系
B. 回归直线过样本点的中心[(x,y)]
C. 若该大学某女生身高增加1cm,则其体重约增加0.85kg
D. 若该大学某女生身高为170cm,则可断定其体重必为58.79kg
解析 由回归方程为[y=0.85x-85.71]知,[y]随[x]的增大而增大,所以[y]与[x]具有正的线性相关关系. 由最小二乘法建立的回归方程的过程知,[y=bx+a=bx+][y-bx(a=y-bx),]所以回归直线过样本点的中心[(x,y),]利用回归方程可以预测估计总体,所以D项不正确.
答案 D
点拨 本题型考查两个变量间的相关性、最小二乘法及正相关、负相关的概念.
线形回归方程
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出[y]关于[x]的线性回归方程[y=bx+a];
(3)已知该厂技术改造前[100]吨甲产品能耗为[90]吨标准煤;试根据(2)求出的线性回归方程,预测生产[100]吨甲产品的生产能耗比技术改造前降低多少吨标准煤?
解析 (1)散点图如下:
(2)由系数公式可知,
(3)当[x=100]时,[y=0.7x+0.35=70.35],所以预测生产[100]吨甲产品的生产能耗比技术改造前降低[19.65]吨标准煤.
点拨 考查散点图与回归方程以及运算能力,属于常规题.
例6 某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm、170cm和182cm. 因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为 cm.
分析 本题主要考查线性回归分析的知识,考查运用线性回归方程解决实际问题的能力.
错解 第一组数据为1,2,3,4,第二组数据为173,170,176,182.
这样拟合求出的回归方程为[y=x+3,]当这个数学老师儿子的身高[x=182]cm时,他孙子的身高[y=185]cm.
点拨 此题错误率较高,大家对线性回归方程的概念理解不够透彻,主要是不确定哪两个变量具有相关关系. 以前学习时对回归直线方程只要求会运用公式进行具体计算[a,b,]求出回归直线方程即可,不要求掌握回归直线方程的推导过程. 所做的题大都已经告诉同学们题中具有相关关系的两个变量,只需依葫芦画瓢地按公式去算线性回归方程和相关问题. 因此,同学们要认真审题,理解本质.
非线性回归方程
例7 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费[x](单位:千元)对年销售量[y](单位:t)和年利润[z](单位:千元)的影响,对近8年的年宣传费[xi]和年销售量[yi(i=1,2,…,8)]数据作了初步处理,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,[y=a+bx]与[y=c+dx]哪一个适宜作为年销售量[y]关于年宣传费[x]的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立[y]关于[x]的回归方程;
(3)已知这种产品的年利率[z]与[x,y]的关系为[z=0.2y-x.]根据(2)的结果回答下列问题:
①年宣传费[x=49]时,年销售量及年利润的预报值是多少?
②年宣传费[x]为何值时,年利率的预报值最大?
附:对于一组数据[(u1,v1),(u2,v2),…,(un,vn),]其回归线[v=α+βu]的斜率和截距的最小二乘估计分别为:
[β=i=1n(ui-u)(vi-v)i=1n(ui-u)2,α=v-βu.]
解析 (1)由散点图可以判断,[y=c+dx]适合作为年销售[y]关于年宣传费用[x]的回归方程类型.
(2)令[w=x,]先建立[y]关于[w]的线性回归方程,
由于[d=i=18(wi-w)(yi-y)i=18(wi-w)2=108.816=68,]
[∴c=y-dw=563-68×6.8=100.6.]
[∴y]关于[w]的线性回归方程为[y=100.6+68w,]
[∴y]关于[x]的回归方程为[y=100.6+68x.]
(3)①由(2)知,当[x=49]时,年销售量[y]的预报值:
[y=100.6+6849=576.6,]
[z=576.6×0.2-49=66.32.]
②根据(2)的结果知,年利润[z]的预报值:
[z=0.2(100.6+68x)-x=-x+13.6x+20.12,]
∴当[x=13.62=6.8,]即[x=46.24]时,[z]取得最大值.
故宣传费用为46.24千元时,年利润的预报值最大.
点拨 本题考查了非线性拟合及非线性回归方程的求解与应用,是源于课本的试题类型. 解答非线性拟合问题,先作出散点图,再根据散点图选择合适的函数类型,设出回归方程,利用换元法将非线性回归方程化为线性回归方程,求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,即可求出非线性回归方程,再利用回归方程进行预报预测.
回归分析的一般步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如观察到的数据呈线性关系,再选用线性回归方程);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等).