基于慕课堂数据的学生学习行为分析
2021-04-13邓天平
邓天平, 张 林
(华中科技大学 电子信息与通信学院,湖北 武汉 430074)
0 引言
MOOC具有大规模、开放性、网络化和自主性学习等特征[1],因此学习者能够不受时间、空间等条件的约束,获取自己所需的知识资源,对于学生接受的常规课堂教学是极为有益的补充。将在线课程资源纳入到教学方案之中,既可以鼓励学生利用这部分资源进行知识补充与自我提高,同时能够让教师更为便捷地获得学生学习情况的反馈,因为MOOC平台不仅能够提供与课程相关的教学资源,还能作为教师布置作业、进行考核、查阅记录的网络工具。因此,MOOC被引入到高校教学之中,对教、学双方而言都有所帮助。然而,从教师的角度出发,尽管MOOC提供了大量的、丰富的与学生的学习情况相关的数据,但是这些数据并没有得到充分利用。通常,教师们仅仅把这些记录作为学生线上学习表现的统计,并在之后作为学生平时成绩的一部分纳入到学生的综合评价之中,或者只是简单的按照常规的统计方法对学生的线上作业、考核等直观指标进行分析,并据此解答学生出错频率较高的问题[2]。
本文主要目的是抓取和分析基于“模拟电子技术基础”的慕课堂数据,详细地介绍了对两个班级学生数据进行分析研究的过程,通过研究数据的聚类分析与相关性分析的结果,得到了一些有价值的结论,为教师教学持续改进提供依据。
1 数据源
研究过程以数据分析为核心进行延展,包涵着数据获取、数据清洗、聚类分析、相关性分析、预测模型等环节,具体过程如图1所示。
图1 研究过程
课题使用的数据来源于华中科技大学电子信息与通信学院2018级卓越工程师班(以下简称“卓越班”)、数理提高班(以下简称“提高班”) “模拟电子技术基础”MOOC课程的慕课堂数据。数据分为2个班级,其中卓越班、提高班各有26位学生的数据。每组数据由以下字段构成:用户ID、学生昵称、学生姓名、学生学号、学生分组、是否认证为该校学生、出勤情况、点名、课堂练习、参与讨论个数、获赞数、优秀发言次数、视频观看个数、视频观看次数、视频观看时长、测验、作业、考试、讨论区、域外成绩、线上总成绩,共计21项。其中,用户ID、学生昵称、学生姓名、学生学号、学生分组、是否认证为该校学生属于用户标识字段,无法作为分析对象;点名、获赞数、优秀发言次数、作业、域外成绩等字段由于使用频率很低,导致以上字段下的数据大部分或全部为空,分析的意义不大;视频观看次数和讨论区字段的数据统计方式不明确,无法查询后台设定的有效计数标准,因此未将这两个字段纳入分析范围。根据以上判断,最终确定以下8个字段的数据作为后续研究的目标:出勤情况、课堂练习、参与讨论个数、视频观看个数、视频观看时长、测验、考试、线上总成绩。其中前3个字段属于线下数据,其余字段属于线上数据。
2 数据清洗
经过对各组数据的筛查之后,发现了以下问题:
(1)提高班有1位学生期末考试记录为旷考;
(2)提高班慕课堂数据中有2组数据的姓名、学号等字段相同,账号状态分别为“已认证”与“未认证”,初步判断为该学生操作失误导致其数据出现异常;
(3)卓越班、提高班慕课堂数据有多组数据中出现了参与讨论个数、考试等部分字段为空的情况。
针对以上问题,对数据分别进行如下处理:
(1)期末考试卷面成绩显示为“旷考”的学生,无法衡量其学习效果,后续研究中该学生的数据不再纳入,因此将其数据删除;
(2)针对该学生的数据异常,向任课教师询问相关情况之后,将2组数据均包含的出勤情况、课堂练习、参与讨论个数等字段进行综合,其余字段由于“未认证”账号数据显示为空,直接使用“已认证”账号的数据,最终合并为1组数据加入后续研究;
(3)参与讨论个数字段在卓越班数据中没有0值而只有空值,参考提高班数据,将这部分空值全部补0。考试字段数据的缺失是因为学生未在规定时间参加线上考试或者考试结果因故未能被后台记录,因此该字段缺失值不纳入研究范围。由于线上考试的分数在线上总成绩字段中占较大比重,分数为空会直接导致线上总成绩的异常,因此对应的线上总成绩也无法纳入后续分析。
完成数据清洗工作之后,卓越班共计26组数据,其中2组数据部分字段无效,提高班共计24组数据,其中1组数据部分字段无效。
3 数据聚类分析
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类[3]。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类是一种无监督的模式识别技术。它的关键是特征提取和聚类算法,本文采用K-means算法进行分析[4]。
查阅相关资料可知,在K-Means聚类算法中,确定K值的方法主要分为两种:“手肘”法和“轮廓系数”法,本文采用前者[5]。
“手肘”法中的判断标准是误差平方和SSE(Sum of Squared Errors),表达式如式(1)所示。
(1)
其中,Ci表示第i个类,p表示其中的数据对象,mi则表示第i个类的质心。
“手肘”法的思路是,在聚类过程中,随着K值不断增大,即聚类中心的不断增多,数据的分割会更为细碎,根据式(1)可知,SSE的值会因此减小。在K值处于小于真实聚类数的范围内时,SSE随K值的增大而减小的程度会比较大,在坐标轴中会显示为两点之间的连线斜率绝对值较大;而在K值大于真实聚类数之后,SSE随K值的增大而减小的程度较缓,在坐标轴中会显示为两点之间的连线斜率绝对值较小。所以SSE随K值变化的折线图会呈现出“手肘型”,变化趋势由陡峭转平缓的点为“肘部”,即最优K值。
本研究实现“手肘”法的集成开发环境Spyder,程序设计语言是Python 3.7.0。
程序的主要流程可分为3步;
(1)读取数据:将各字段的学习数据与对应学生的期末考试卷面成绩保存为.csv格式的文件,供程序进行读取,存放在数据框结构中。
(2)依次选择各字段数据,利用sklearn库中自带的聚类器,获得K取不同值时的SSE。根据实际情况,K的范围取[1,10]的整数。由于本程序的目标是为了获得理想K值,对聚类的效果并无要求,而只需要保持聚类过程的一致性,因此直接选择了sklearn中的聚类器。
(3)设置坐标轴等信息,画出SSE随K值变化的折线图,读出理想K值,并保存折线图。
通过折线图,可以得到各字段进行K-Means聚类的理想K值,如表3-1所示。
表3-1 各字段K-Means聚类理想K值
再将每个班级的每个字段数据与对应的期末考试卷面成绩作为输入值,每个字段进行10次K-Means聚类过程,共得到160组聚类图与对应聚类中心坐标。然后根据SSE,结合实际聚类效果与结果稳定性,对聚类结果进行筛选,得到每个班级每个数据字段与期末考试卷面成绩的聚类结果,图2慕课堂线上课堂练习的聚类结果图。
(a)卓越班课堂练习聚类图
(b)提高班课堂练习聚类图图2 慕课堂线上课堂练习的聚类结果图
4 数据相关分析
在计算Pearson相关系数、Spearman等级相关系数、Kendall等级相关系数之前,判断数据能否满足各相关系数的适用条件。清洗后的数据与期末考试卷面成绩均成对出现,满足了计算相关系数的基本条件。计算Pearson相关系数时,要求变量是连续数据并满足正态分布或接近正态的单峰分布,而从聚类图中数据点的分布可知,期末考试卷面成绩随学习维度数据的变化基本上不符合正态分布,且某些字段的数据也并不连续。因此,Pearson相关系数在此研究中仅作为参考。
利用Matlab工具,可以快速而准确地得到三大相关系数的值。依次将学习数据的各字段作为集合X,期末考试卷面成绩作为集合Y,计算相关系数。各字段数据与期末考试卷面成绩的相关系数如表4-1所示。
表4-1 卓越班、提高班学习维度与期末考试卷面成绩相关系数
将以上结果通过柱状图形式表示,如图3所示。
(a)卓越班
(b)提高班图3 学习维度与期末考试卷面成绩相关系数柱状图
若将|R|∈[0.7,1)称为强相关,|R|∈[0.4,0.7)称为中度相关,|R|∈(0,0.4)称为弱相关,考察Spearman等级相关系数与Kendall等级相关系数,则认为:
对于卓越班,MOOC平台的课堂练习、参与讨论个数、考试与学习效果之间呈中度正相关,视频观看个数、线上总成绩与学习效果之间呈弱的正相关,出勤情况、视频观看时长、测验与学习效果之间可以近似认为不相关;
对于提高班,MOOC平台的课堂练习与学习效果之间呈中度正相关,参与讨论个数与学习效果之间呈弱的正相关,出勤情况、考试与学习效果之间呈弱的负相关,视频观看个数、视频观看时长、测验、线上总成绩与学习效果之间可以近似认为不相关。
5 分析结果
将聚类分析与相关性分析的结果进行汇总时,需要对数据进行标识。反映相关性分析的结果时,只需对各字段按相关性的强弱进行标识即可。对于聚类分析,由于聚类图中的类别排序比较混乱,各字段的聚类数也不一致,为了便于呈现结果,本文提出一个用于聚类标识的模型。
该模型如图4所示,图中横轴为学生各学习维度的表现,纵轴为期末考试卷面成绩,且聚类数均为2或3,因此该聚类标识模型的主要目标是反映聚类在坐标轴中的相对位置关系。
图4 聚类分析结果标识模型图
坐标轴的数据区域被分为4块,学习维度表现较差且成绩较差为1区域“亟需努力”区,学习维度表现较差但成绩较好为2区域“小有天赋”区,学习维度表现较好但成绩较差为3区域“学而无功”区,学习维度表现较好且成绩较好为4区域“学有所成”区。需要指出的是,以上的区域划分界限并不是绝对的,而是根据聚类之间的相对位置关系确定各个聚类所属的区域。若聚类呈“1-4”形分布,则代表该维度与学习效果呈较强的正相关;反之,若聚类呈“2-3”形分布,则代表较强的负相关关系;同理,若聚类呈“2-4”、“3-4”形分布,则代表相关性较弱。由此,聚类分析与相关性分析的联系得到了构建。
6 讨论
(1)线下的“课堂练习”是一个具有重要参考价值的学习维度,在对两个班级的分析过程中都体现了这一点。结合实际使用经验,在课堂教学过程中使用该功能时,学生需要在规定时间内对教师展示的问题给出答案,其过程近似于考试,因此该维度的表现与考试成绩具有较强的相关性。
(2)其它具备一定参考价值的学习维度包括线下的“参与讨论个数”与线上的“视频观看个数”,前者反映了学生对课堂内容的投入情况,后者反映了学生课后的学习表现。对比这两项分别对标的线下“出勤情况”与线上“视频观看时长”,它们并不能很好地反映学生的学习效果。“视频观看个数”是指学生打开视频并看完的个数,在一定程度上能反映学生对于自己所需学习内容的选择,而“视频观看时长”是对时间的记录,两个班级在这个字段的数据均体现出明显的极端性,两个聚类的横向距离差距很大。
(3)卓越班的学习表现与考试成绩普遍较好。26名学生的学习数据中,每个字段中属于“亟需努力”聚类的数据不超过5个,控制在了20%以内,这个比例在教学中是可以接受的。其他同学的学习表现,大部分比较优秀,考试成绩基本上在80分以上,并且存在数量较多的高分学生。结合聚类分析、相关性分析与预测模型的结果,卓越班的学习效果可以较好作为学习表现的反映。
(4)提高班的考试成绩差距比较大,低分和不及格的人数较多,达到90分的学生只有1个。本班整体学习表现欠佳,主要体现在“学而无功”聚类与“小有天赋”聚类的频繁出现。
(5)线下课堂的教学中,应该提升与学生互动的频率,从而考察学生的课堂参与度。在教学实践中,应该着重关注学生在“签到”之后的表现,相关的统计数据更能够反映学生对于课堂内容的专注程度,并最终体现在他们的成绩上。基于“课堂练习”的参考价值,在教学中应该增加类似的随堂测试数量。通过分析学生在类似测试中的表现,一方面可以直接评估学生的学习效果,另一方面可以提前对学生的学习数据与效果进行分析并使用模型进行预测,提前警示。
7 结语
MOOC改变并影响了我们的课堂教学, MOOC平台上记录的大数据,也是非常宝贵的资源。本文完成了MOOC平台各学习维度数据与学生的期末考试成绩的聚类分析,通过聚类分析算法,从多角度对学生的学习表现进行分类。对学习表现与学习成绩之间进行相关性分析,探究各学习维度在不同班级群体中对学习效果带来的影响。并结合聚类分析的结果,通过与实际成绩的比较,从班级之间的横向与学习维度之间的纵向提出了研究结论,并且根据结论,对未来教学实践提出了针对性建议,也为教师课堂教学持续改进提供理论依据。