APP下载

分位回归模型在数学成绩分析中的应用

2019-11-05刘紫璇刘新红郭蕾胡继飞徐英杰

北京石油化工学院学报 2019年3期
关键词:回归系数位点概率

刘紫璇,刘新红,郭蕾,胡继飞,徐英杰

(北京石油化工学院,北京 102617)

高校学生考试成绩往往是检验学生学习效果和教师教学水平的重要依据。《高等数学》、《线性代数》和《概率论与数理统计》(简称概率统计)是全国普通高校理工类专业的公共基础必修课,3门数学课程的成绩往往展现了大学生的某些数学能力。数学成绩不仅关系到学生对后继课程的学习,而且直接关系到学生能力的培养和形成。通常学生的数学成绩取决于多方面的因素,如学生自身的数学基础、学习态度、学习习惯、教师的教学能力以及家庭环境等。

大学数学考试历史悠久,受到社会的高度认可和高等院校师生的极大关注。为提高数学课程的教学效果,帮助学生通过数学类课程考试,专家学者从不同角度研究了学生的数学成绩以及寻找影响数学成绩的因素[1-2],希望通过成绩分析和理论研究,有针对性地进行教学改革,达到提升学生数学成绩的目的。另外,在分析学生成绩时,诸多单个学生成绩呈现出数据冗杂、不直观,为避免因数据庞杂造成分析困难和主观误差,在分析学生成绩时,可通过软件和数学模型解决数据繁多的棘手问题。

笔者以我校材料与工程学院16级学生的数学类课程成绩为研究对象,通过统计软件R并利用分位回归模型,研究了高考数学成绩、高等数学成绩、线性代数成绩、概率统计成绩之间的关系,分析他们之间的影响程度,为提高大学生的数学成绩提供理论支撑。

1 分位回归模型

Koenker和Bassett于1978年提出分位回归(Quantile Regression)模型[3]。该模型较传统线性回归模型更灵活、更实用。根据因变量的条件分位数对自变量X进行回归,这样得到所有分位数下的回归模型。普通最小二乘回归只能描述自变量影响因变量Y局部变化范围,而分位回归模型能精确地描述自变量对因变量的全局影响,而且可以清楚地刻画自变量对因变量条件分布形状的影响。分位回归能够捕捉到分布的尾部特征,当自变量对不同部分因变量的分布产生不同的影响时,如出现左偏或右偏的情况时,能更加全面的描绘分布的特征,从而得到更全面的分析,而且其分位回归系数估计比最小二乘回归系数估计更加稳健。分位回归模型广泛应用于政治、经济、自然灾害等领域[4-8]。

1.1 分位回归模型

设随机变量Y的分布函数为F(y),则Y的第τ分位数为:

Qτ(Y)=inf{y:F(y)≥τ}

对于1组随机样本X,则

Qτ(Y|x)=XTατ

称为τ的条件分位数函数,X为P维向量,ατ是回归系数组成的向量,可以通过

当τ=0.5时,该模型简化为中位数回归,而样本中位数回归是最小化残差绝对值和的解,即

1.2 分位回归模型的参数估计及检验

参数的估计可采用线性规划中的单纯形算法、内点法、预处理内点法、稀疏Frisch-Newton法及罚方法。单纯形算法适合样本量不大和自变量个数不多的变量,其优点是当数据中存在大量离群点时,单纯形算法估计出来的参数稳定性比较好,缺点是在处理大量数据时运算的速度会显著降低。对于样本量比较大时,可采用内点法或预处理内点法。对于样本量大、自变量个数很多时,可采用稀疏Frisch-Newton法。而对于罚方法主要包括“lasso”和 “scad”。这些算法均比较成熟,使用R软件包中quantreg可实现。参数的检验主要是显著性检验。

1.3 模型的检验

模型检验主要包括拟似然比检验、拟合优度及残差形态检验等。拟似然比检验是由Koenker首先提出,用于检验整个模型的显著性。假设所有参数均为0,构造的统计量为:

分位回归模型的拟合优度是Koenker和Machado提出的,其值介于0与1之间,表达式为:

分位回归模型主要有2种模式:(1)位置漂移模型,不同分位点的估计结果之间的斜率相同或近似,只是截距不同。表现为不同分位点下的拟合曲线是平行的;(2)位置—尺度漂移模型,不同分位点的估计结果之间的斜率和截距都不同。表现为不同分位点下的拟合曲线不是平行的。可以通过R软件中KhmaladzeTest函数检验得到[9]。

2 实证分析

数学类课程包括高考数学、高等数学上、高等数学下、线性代数和概率统计。由于各地高考制度不同,评分标准不同,只整理了高考数学考试成绩满分150分的考生成绩,剔除掉特殊生源考生,最后只对我校材料与工程学院16级93名学生的数学类课程成绩进行分析。

2.1 数据处理与分析

5门课程成绩的初步统计分析结果如表1所示,5门课程成绩的箱线图如图1所示。高考数学成绩、高等数学上成绩和高等数学下成绩比较集中,而线性代数成绩和概率统计成绩相对较分散。5门课程成绩的QQ图如图2所示,5门课程成绩的Shapiro检验如表2所示。从表1、表2、图1和图2可以看出,5门数学类课程考试成绩都具有明显的偏态和尖峰的特点,Shapiro检验的P值都小于5%,拒绝原假设正态分布,这些都表明5门课程的成绩都不服从正态分布。

表1 5门课程成绩的基本统计分析

图2 5门课程成绩的QQ图Fig.2 QQ chart of the scores in five courses

图1 5门课程成绩的箱线图Fig.1 Box chart of the scores in five courses

高考数学高等数学上高等数学下线性代数概率统计Shapiro检验0.96650.95640.79750.95750.9510P值0.01400.00270.00000.00320.0012

2.2 相关性分析

通过R软件对5门课程成绩进行相关性分析,得到Pearson相关系数,结果如表3所示。5门课程分别在大学1年级之前、大学1年级和大学2年级时完成,课程顺序为高考数学、高等数学上、高等数学下、线性代数、概率统计。

表3 5门课程成绩的相关分析

Table 3 Analysis of the correlation between the scores in five courses

高考数学高等数学上高等数学下线性代数概率统计高考数学1.00000.14080.20730.24420.1809高等数学上0.14081.00000.68600.45780.6102高等数学下0.20730.68601.00000.42870.5954线性代数0.24420.45780.42871.00000.2925概率统计0.18090.61020.59540.29251.0000

相关分析结果显示:(1)高考数学成绩即学生进入大学学习的数学基础与后继数学课程都有一定的关系,但相关程度并不高,与线性代数相关程度最高,也只有0.244 2。(2)高等数学上的成绩与后期数学类课程相关程度最大,与高考数学的相关程度最低,相关系数只有0.140 8。(3)高等数学上与线性代数的相关程度为0.457 8,高等数学下成绩与线性代数的相关程度为0.428 7,两者基本持平。主要是由于高等数学上、高等数学下成绩与线性代数课程的学习内容不一致造成的。另外,高等数学上、高等数学下成绩与概率统计成绩的相关程度基本相同。

2.3 模型的建立

分位回归模型是处理非正态分布、极端数据、多个变量间相互依赖关系的一种有效的数学方法。利用该方法并借助统计软件R,对概率统计成绩与其他4门数学课程成绩之间建立5%、10%、25%、50%、75%及95%的分位回归模型,并对模型的合理性和系数进行显著性检验。

高考数学、高等数学上、高等数学下、线性代数及概率统计的成绩分别用X1、X2、X3、X4及Y表示,分位回归模型为:

其中:由截距项、X1、X2、X3和X4组成设计矩阵,α0τ、α1τ、α2τ、α3τ、α4τ是相应τ分位数的回归系数。

最小二乘回归模型为:

其中:由截距项、X1、X2、X3和X4组成设计矩阵,α0、α1、α2、α3、α4为最小二乘回归模型系数。

2.4 模型结果的分析

利用R中的quantreg包得到概率统计成绩与其他4门数学类课程成绩之间的分位回归模型,利用R软件中1 m函数得到最小二乘回归模型,参数估计结果如表4所示。

表4 参数估计结果

注:*表示在显著水平是10%的情况下,参数是显著的。

5个回归系数的显著性检验结果如图3所示。由图3可以看出,该结果更为直观,反映的信息也更多。系数的置信带蕴藏着关于因变量条件分布的位置和尺度变化的信息。以高等数学上对应的回归系数α2τ为例,各分位点的系数估计值用黑点表示,而灰色带表示其95%的置信带。观察其纵坐标可以看出,系数估计的置信带在小于85%分位点处都在0以上,所以其系数在小于85%分位点处均显著。其他回归参数的信息分析类似。

图3 5个回归系数的显著性检验Fig.3 Significance test of five regression coefficients

由表4可以看出:(1)不论是低的分位数,还是高的分位数,高考数学成绩对概率统计成绩都没有任何影响;(2)在较低的分位数5%和10%处,线性代数成绩对概率统计成绩的影响是负的,这是由于材料与工程学院学生在大学1年级同时学习线性代数和高等数学上有关,学习数学类课程负担过大,影响高等数学上的成绩,进而影响概率统计的成绩呈现负增长趋势。(3)在5%、10%、25%、50%、75%的分位回归中,高等数学上的成绩对概率统计成绩的影响程度分别为0.759 5、0.545 4、0.546 6、0.666 2、0.393 8,都是显著的,是主要影响因素,但对于概率统计成绩特别好的学生来说,高等数学上成绩基本不影响概率统计成绩,但是高等数学下的成绩对其影响显著,在其他条件不变,高等数学下成绩增加单位1,概率统计成绩增加0.357 9。(4)最小二乘回归模型的估计与中位数回归模型的估计有相同点是高等数学上对概率统计成绩的影响都是正的,不同的是影响程度不同,分别为0.496 1和0.666 2。另外,在最小二乘回归中,高等数学下成绩显著影响概率统计,其他条件不变的情况下,高等数学下成绩提高1分,概率统计成绩平均提高0.422 7。这些区别主要是由这些数据是尖峰厚尾的特点造成的。其模型检验结果如表5所示。

图4 10%分位点和90%分位点之间的比较Fig.4 Comparison between 10% and 90% quantiles

从表5可以看出,似然比检验的P值比较小,每个分位回归模型都是显著的。但从拟合优度可以看出,拟合效果一般。

表5 模型检验

下面检验分位回归模型中斜率是否相等,F值为5.421 3,对应的P值为1.341e-10,P值远小于5%,故不同分位点下高考数学、高等数学上、高等数学下、线性代数对概率统计的影响机制不同。通过KhmaladzeTest检验,位置漂移模型T统计量值3.808 748大于位置尺度漂移模型的T统计量值3.095 953,可见相对而言,拒绝“位置漂移模型”的概率更大,故相对而言“位置尺度漂移模型”更加合适一些。

10%(差)和90%(好)的分位回归估计的概率统计成绩如图4所示。从图4(a)可以发现,对于学习成绩差的学生而言,在不同分位点估计的概率统计成绩差别都很大。而对于学习成绩好的学生而言,低于20%的分位数差别比较大,大于20%分位点的概率统计的成绩差别不大。由图4(b)可以看出学习差的学生和学习好的学生的概率统计成绩的分布曲线。学习差的学生的概率统计成绩集中于60~70,比较分散;而学习好的学生的概率统计成绩集中于90附近,比较集中。

3 结论

高考数学成绩对材料与工程学院学生的数学类课程成绩影响不大,后继数学类课程成绩主要靠学习大学的数学课程的日积月累。

在5%和10%的分位回归模型中,线性代数成绩对概率统计成绩的影响是负的。原因是线性代数与概率统计课程内容基本不相关;其次,材料与工程学院学生在1年级同时学习高等数学和线性代数,高等数学课程内容多、任务繁重,对于较差学生而言,负担过大,建议材料与工程学院学生在大学2年级时再开线性代数课程。

高等数学是概率统计课程的先修课,从分位回归模型中也得到了有效验证。高等数学成绩每提高1分,不同分位点处的概率统计成绩得到不同的提高,可以引导不同分位点处的学生及时调整学习进度,养成良好的学习方法和学习习惯,启发教师进行针对性地教学改革,提升教学效果。该模型不仅可应用于学生数学成绩的预测,同时对学生规划自己的学习和教师的教学辅导起到一定的参考作用。

猜你喜欢

回归系数位点概率
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
概率统计中的决策问题
概率统计解答题易错点透视
基于网络公开测序数据的K326烟草线粒体基因组RNA编辑位点的鉴定与分析
概率与统计(1)
概率与统计(2)
基因型和表现型的快速判断法
一种改进的多聚腺苷酸化位点提取方法
基于生产函数模型的地区经济发展影响因素分析
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较