APP下载

基于Python的高校网络课程数据分析

2022-04-24李钰庄文密

软件导刊 2022年4期
关键词:测验考试变量

李钰,庄文密

(1.昆明理工大学管理与经济学院,云南昆明 650093;2.山东大学控制科学与工程学院,山东济南 250061)

0 引言

新冠疫情影响下,高校无法正常开展线下教学,因此对新型教学模式的需求更加强烈,网络课程已在高校得以广泛推广。网络课程提供了全新的教学方式和参与形式,并且拥有多方面、多类型的基本信息。对于繁多的信息量,要求学生在了解本校网络课程后进行合理选择。在新时期的全国高校教学教育改革工作中,网络教学也可以促进教学方法、教学内容以及管理结构方面的创新性改革。网络课程建设中存在课程资源利用率较低、课程平台互动性较弱和学生对课程设计的满意度有待提高等问题,这对高校教育教学改革提出了挑战。目前,网络课程教学形式也不断被国内众多高校所采用,但是依旧有高校在此方面做得不够完善。因此,对网络课程进行综合分析并对高校提供案例应用支持尤为重要。

1 相关工作

已有研究表明,案例分析方法是一种常见方式。刘豫洲等以具体课程为例进行探讨,对网络教学的优势及不足进行分析,但缺乏对其科学方法的分析;龚永康等同样以课程案例分析为主,从考核方法与结果等方面对网络教学模式进行设计与研究,但未利用结果数据进行关联性分析。同时,问卷调查方法也在网络课程效果研究中被广泛应用。姜玉丽等采用问卷调查法对学生反馈进行统计,这样的方式使得调查内容存在局限;唐卫民等在问卷调查设计方面作进一步细化,并给出具体统计结果,但分析深入程度不足。此外,利用数学模型的分析方法在近年来也得到了更多重视,李斐等运用交叉分析对网络课程的满意程度进行评价并提出相关改进建议,但在数据可视化方面稍有欠缺;徐志平分析MOOC技术对于课程建设过程中的一些局限性,提出相应的解决方法,但缺少实际案例。饶雪峰等针对教学方案的不足,进行改革探索,但对网络课程的自身影响分析较少。综上所述,本文研究基于某高校的教育教学实践,基于Python技术实现数据处理并对学生网络课程现状进行可视化分析,在了解学生网络课程学习情况后,再采用逐步回归分析法,得出影响学生网络课程学习成绩的各项因素,保证了研究方法的有效性、客观性。

2 数据采集与处理

2.1 数据采集

本文采到的原始数据均来自于2018-2019第一学期某高校所有年级学生的《创新思维训练》《个人理财规划》等25门网络课程选修成绩,是根据超星雅尔公司反馈的学生网络课程学习情况表筛选、汇总得到。在百分制的总成绩中,课程视频得分占比35%,课程测验得分占比25%,讨论得分占比5%,考试得分占比35%,总占比课程视频得分=考试得分>课程测验得分>讨论得分。

学生成绩按百分制划分为5个等级,综合成绩90~100分之间为A,综合成绩80~90分为B,综合成绩70~80分为C,综合成绩60~70分为D,综合成绩小于60分为E,即成绩不及格。根据Python中的pandas库计算后可得出,学生选修网络课程的总人数为3 198,综合成绩等级为A的学生有993名,综合成绩等级为B的学生有1 167名,综合成绩等级为C的学生有598名,综合成绩等级为D的学生有209名,综合成绩等级为E的学生有231名。

2.2 数据预处理

在进行数据挖掘之前,不可或缺的一个过程就是数据预处理。本文以学生网络课程选修情况和学习成绩为研究的目标模型,具体数据内容以CSV文件格式存储在相关原始数据文件中,其属性包括课程名、学号、姓名、院系、课程视频得分、课程测验得分、讨论得分、考试得分、成绩等级、各项成绩完成进度等。

3 数据可视化分析

3.1 特征相关性分析

特征相关性性分析目的主要是从多方面研究影响学生网络选修课程总分的主要因素,查看每个特征的相关性,属于直观分析的第一阶段。通过图1可以看出,针对综合成绩,课程视频得分的影响值为0.83,课程测验得分的影响值为0.83,讨论得分的影响值为0.22,考试得分的影响值为0.86,因此,最有可能影响综合得分的特征是课程视频得分、课程测验得分、考试得分,而对比之下,影响相对较小的特征是讨论得分。

Fig.1 Feature correlation analysis图1 特征相关性分析

3.2 综合成绩等级分析

由图2可见,综合成绩为B的人数最多,超过选修网络课程总人数的1/3。综合成绩等级为A和B的人数相接近,而综合成绩等级为D和E的人数相对较少,但也存在。这反映出学生选修的网络课程成绩情况普遍较好,成绩优秀者居多,仅有一小部分人最终综合成绩不通过。

Fig.2 Comprehensive scores grade distribution图2 综合成绩等级分布

3.3 得分分数段频率

根据图3可以直观看出,网络课程的课程视频得分分数段普遍集中在满分35分,这表明绝大多数学生均能完成课程视频的学习,但仍有极少部分学生并未观看课程视频。

课程测验得分分数段集中在15-25分,仍有近100名学生课程测验得分为0分,而满分25分者只有200余人,这表明多数学生网络课程的学习效率较低,学习情况较差。

讨论得分的分数段普遍集中在0分和5分,且0分居多,这表明由于讨论得分在综合成绩中占比较低,多数学生忽视了学习过程中的讨论互动,不重视讨论得分。

考试得分分数段集中在15-35分,且有较大部分学生的考试得分为0分,这表明有部分学生并未参加最终考试。由于前期学习较好的学生综合成绩已经能够合格,导致只有极少数学生考试得分为满分35分。

Fig.3 Scoresegment frequency图3 得分分数段频率

4 回归分析

4.1 逐步回归

逐步回归分析是一种研究随机变量与已知数据之间存在何种关系的常见的数据相关性分析方法。它通过挑选对学生网络课程综合成绩影响较大的物理量进行回归建模,并与实测值比较,以判别学生成绩情况。

逐步回归的基本特征是要在模型中逐个添加变量。解释变量每次被引入后,F检验将被执行,并依次对所选解释变量进行t检验。引入的解释变量会随着后面解释变量的引入而改变。如果它们变得不再显著,则可以删除它们。在插入每个新变量之前,确保回归方程中只包含重要的变量。这是一个迭代的过程,直到回归方程中没有选择显著的解释变量,或者回归方程中没有剔除不显著的解释变量,以确保最后一组解释变量集是最优的。

根据逐步回归分析,计算结果为[[0.687 150 69 0.689 721 38 0.050 477 96 0.737 546 67]]。这表示第4个变量的方差贡献最大,即考试成绩对综合成绩的高低影响最大。而第1个变量和第2个变量的方差贡献保留3位小数后分别为0.687和0.690,几乎接近.因此课程视频成绩和课程测验成绩对综合成绩的高低影响相近。第3个变量的方差贡献保留3位小数后为0.050,影响较小,可以忽略不计。

4.2 线性回归

给定一个随机样本,一个线性回归模型(

Y

X

...,

X

),i=1,…,

n

,假设回归子

Y

和回归量

X

X

之间的关系是除X的影响外,还有其他的变数存在。加入一个误差项

ε

也是一个随机变量)捕获除

X

X

外任何对

Y

的影响。因此,一个多变量线性回归模型可表示为如式(1)所示形式。

由图4可以看出,课程视频得分越高,综合成绩及格率越高。但是如果课程视频得分不高,综合成绩一定不高。由此可见,有些学生可能在看完课程视频后并未进行课程测验或最终考试;有一小部分学生并未观看课程视频,因此综合成绩为0分;而有一部分学生即使课程视频得分为满分35分,综合成绩仍达不到60分及格分,并且此类学生不在少数。

课程测验得分与综合成绩总体呈正相关趋势,即课程测验得分越高,综合成绩越高。尽管课程测验得分占比仅25%,不是最多的部分,但课程测验分数越高,综合成绩及格人数越多。

讨论得分与综合成绩总体没有太多相关性,尤其是综合成绩的及格率与讨论得分没有直接联系。大部分学生的讨论得分均为0分,但不影响他们综合成绩的及格率。

考试得分越高,综合成绩越高,及格率也越高。有部分学生并未参加最终考试,相比于参加最终考试的学生,未参加最终考试学生的及格率相对较低,几乎不能及格。最终考试分数较低的学生也有一小部分综合成绩不能及格。大部分高分学生考试成绩都相对较高。因此,考试得分对综合成绩存在较大影响。

Fig.4 Effect of grades on passing图4 得分对是否及格的影响

综上所述,课程视频成绩和考试成绩对综合成绩起决定性影响,即课程视频成绩和考试成绩越高,综合成绩越高。课程测验成绩决定综合成绩高低,即课程测验成绩越高,综合成绩有可能越高。而评论成绩几乎不影响他们的综合成绩,并无明显趋势。

5 结语

本文针对高校网络教学的真实反馈数据进行深入研究,利用Python实现大数据处理与可视化,结合多种回归方法对影响网络课程教学效果的多种因素进行分析,从科学、客观的角度挖掘出网络课程学习中存在的问题,并提出合理化建议。

本文回归分析结果表明,课程视频得分、课程测验得分和考试得分是影响学生网络课程最终得分的重要因素,三者共同促进了网络课程建设,但实际教学实施中学生重视程度不一,导致最终教学效果达不到预期。对此,可通过优化课程考核机制突出各项内容的重要性,促使学生明确课程学习的全面推进目标。此外,分析发现网络教学过程中的讨论得分对综合成绩的影响较小,容易造成参与学生积极性不高,可适当提高讨论得分的重要程度从而促进学生参与感,进而提升教学效果。

通过对学生课程成绩影响因素的分析与研究,能更客观地展现网络教学的规律性,有助于高校进行专业方向调整、教学资源合理配置和教学质量改进,同时也为高校学生树立端正的学习态度和选择适当的网络课程提供参考。

猜你喜欢

测验考试变量
抓住不变量解题
也谈分离变量
《新年大测验》大揭榜
两个处理t测验与F测验的数学关系
SL(3,3n)和SU(3,3n)的第一Cartan不变量
分离变量法:常见的通性通法