多元线性回归模型在学生成绩分析中的应用
2016-10-08王微
王微
摘 要:考试对于学生来说可谓再寻常不过,小至随堂测试,月考大至中考高考. 一名学生无论在哪个阶段学习过程中,都会经历许许多多次测试,每一次测试都会有成绩记录,如若将这些数据搜集起来数量是惊人的.
关键词:多元线性;分析;学生成绩
学生接受教育是连续的,所以评价一名学生不能只依靠某次考试成绩,要纵向地连续观察学生在各阶段情况做综合评价。中考成绩是衡量学生进入高中之前学习情况的一项重要指标,所以选择这两个变量作为二模成绩的解释变量是含有一定的合理性。
图3是学校类别x2,学生性别x3以及班级类别x4的直方图,图4表示的是二模成绩y关于中考成绩x1和一模成绩x3的散点图。通过观察可以对新添加解释变量的情况有初步了解。
R软件对样本数据做多元回归得表4.可以得到多元线性回归模型虽然已经得到回归方程,但还要对模型的合理性进行检验。由上文多元回归模型的理论可知,首先要对回归方程做显著性检验,分析数据发现该检验得到p值很小,与此同时相关系数R2为0.9298,说明建立的多元回归模型比较合理,解释变量能很好解释因变量。
接下来还要对模型的解释变量逐个进行t检验,表4中显示中考成绩、一模成绩的p值很小,说明二者对二模成绩影响很显著。
学生性别这个变量对二模成绩影响的p值为0.0271也很显著。人们通知认为高中男生的学习能力要强于女生,但分析结果表明这种说法不是很正确。学生性别变量的回归系数估计值为3.1393,表明女生成绩普遍较好。高中阶段的学习,不仅要求接受新知识能力强,而且要求有丰富的知识积累量。可能是女生学习态度较好,对知识掌握情况较好。
学校类别变量对因变量影响不是很显著,也就是说学校水平对学生成绩影响不大。样本的五所学校可以分为两个水平:重点高中和普通高中。学校水平不同对学生二模影响的功能贡献率不是很大,这个结果与只有去好学校才有优异成绩的想法不符。
二模成绩与一模成绩的散点图说明一模成绩可以很好的预测二模成绩。图中有很清晰的两条直线,可能是由于学校所处水平不同引起的,重点高中学生成绩整体上要比普通高中要好。图5是多元回归方程的残差图,图中点散乱分布在y轴的两侧,说明所选择的中考成绩,学生性别等5个解释变量可以很好的解释二模成绩,也就是说建立的模型有一定的合理性上述多元回归模型残差平方和,对上文五个解释变量做显著分析时知,学生个人对二模成绩影响很大,学生类别与班额对学生成绩影响不是很显著。残差平方和的意义在于除了学生个人之外其他所有因素对因变量的影响,其中也包括学校的教学质量。因此,我们就可以利用各自学校的残差平方和去比较学校之间教学质量差异。利用上式可以得到每所学校的学校对学生的影响程度表示为
利用样本数据计算得到的结果见表6.
从表6可以看出,C、D两所学校残差平方和比较大,表明与其他几所学校有明显差异。从实际意义上看,说明这两所学校在师资力量、办学条件、生源质量等方面与其他三所学校有很大不同。
模型拓展
本文之前的分析都是在样本数据的基础上,利用数据中包含比较直观的信息(学生成绩、性别等),从学生角度分析影响学生的二模成绩因素。在样本中没有任何关于学校办学条件,师资力量等代表学校教学质量相关信息情况下,是否可以利用简单线性回归模型挖掘出潜藏在样本中的信息,进而估测学校的教学质量的差异为学校排名。
其中表示来自第i所学校的第j学生的第二次模拟考试成绩。
表示来自第i所学校的第j 学生的中考成绩。由最小二乘法估计方法,我们有将样本数据代入上式推导出的公式中,计算结果如表7所示。
数据分析之前,已经大致了解学校的基本情况。其中学校编号为CDE的三所学校为省级示范高中,编号为AB的两所学校为普通高中,实际学校排名情况与上表现是排名大体一致。
本文建立的多元回归模型对三组学生成绩分别从学生以及学校角度进行分析,并结合统计学知识、R软件对数据分析处理的结果进行了有效的分析与合理解释。
当统计学与数据相遇总会有这样那样的火花,不一样的风景。样本只包含几次考试成绩和关于学生自身的一些信息,没有直接关联教学质量的信息。但是简单的分析就可以挖掘到许多隐藏在数据背后的信息,这就是统计学的魅力所在。通过上述分析再一次验证了数据力量是巨大的,合理、高效地利用为教学服务,将具有重大的意义。
参考文献:
[1] 朱姝帆. 湖北省农村居民家庭人均收入影响因素分析——多元线性回归分析[J]. 科技创业月刊. 2009(01).