基于人工智能的慕课平台学生辍学情况分类预测
2024-10-18方欣雨钱宇航郭红萍张铁成
关键词:慕课平台:辍学预测模型:机器学习;深度学习;分类预测
一、引言
慕课(Massive Open Online Course简称MOOC)是大规模开放式在线课程的总称,慕课平台是在线学习环境的总称。不同于传统在线课程,慕课对所有的潜在学习者开放,学习者可以免费或以较低费用注册并参与课程学习。在信息技术与教育教学深度融合的大背景下,以慕课为契机的教育教学变革已然成为现代教育的大趋势,世界各地的慕课平台迅速发展,引得世界各所知名大学倾情加盟,越来越多的用户也相继加入大规模在线课程的学习,显著增强了知识传播效率,对全球高等教育产生重要影响。2020年受疫情影响,国内也掀起了一场大规模在线学习热潮,各个国内慕课平台陆续出现了大量优质课程。
但随着线上教育普及程度的提高,暴露出慕课在发展过程中存在的问题。相比于传统的课堂授课,线上学习环境更自由,无学习压力,导致慕课辍学现象非常严重,某些平台的辍学率甚至高达90%,严重阻碍了慕课高质量发展。辍学现象的存在,无论是对于平台本身的发展还是学生、授课教师、校方都存在消极影响。
慕课高辍学率问题受到国内外教育界高度重视,其中:王勃然等人基于学习者视域,发现导致慕课高辍学率的主要因素有学习目标、社会互动、学习自主、评价机制和学习期望;刘倩和李颖从投资理论的视角,对在线课程与学习者的关系进行积极的重新诠释,发现在线课程的“辍学”可被视为学习者的主动选择,反映了教学策略和课程资源的局限性;Goopio,J.amp;Cheung,C.对更广泛教育领域的慕课文献进行了系统性回顾,考察了MOOC的辍学现象和保留策略,包括提供更好的学习体验、增加学习支持、加强社交互动等;卢晓航等使用滑动窗口模型,动态地追踪课程学习者辍学行为并进行辍学预测,模型预测准确率高,效果稳定,其中支持向量机(SVM)和长短期记忆(LSTM)方法建模效果较好;孙霞等人使用卷积长短期记忆神经网络(CNN-LSTM)辍学预测模型,追踪学习者在不同学习阶段的状态变化,从而动态地监控学习者在不同阶段的辍学行为:Ram B.Basnet等人发现,在慕课平台辍学率预测问题中,机器学习分类器与深度学习分类器的分类效果相当。
新时代教育对于慕课高质量发展的需要与突出的高辍学率现象之间的矛盾,引发我们的高度关注。本文将使用机器学习和深度学习分类算法,以周为单位,根据学生每周的学习行为特征,对下周学生的辍学情况作出预测,动态地追踪学生在整个课程周期内的辍学情况,以便校方或平台能够采取及时的干预措施,保证学生的学习积极性和完成率,形成良好的线上教育氛围。
二、模型与方法
(一)机器学习方法
1.逻辑回归(LG)
与普通线性回归不同,通常意义上的逻辑回归要求因变量服从二项分布。逻辑回归模型是一种广义的线性回归分析模型,建立在线性回归的基础上,使用逻辑函数估计概率来测量分类因变量与自变量之间的关系。逻辑回归线性回归式:
这个过程也称逻辑变换。
本文的分类模型将因变量y=0记作未辍学,将因变量y=1记作辍学,若经过逻辑变换的结果a(x)≥0.5,则输出结果为该生辍学,若经过逻辑变换的结果a(x)lt;0.5,则输出结果为该生未辍学。
2.支持向量机(SVM)
基础支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其主要思想是找到一个超平面(决策面),尽可能使分类间隔最大化,即分类错误风险最小化和分类边界最大化,如图1所示。
3.决策树(DT)
决策树是一种常见的监督学习算法,一般有两个步骤:一是利用训练集从最顶层的根节点开始,向下依次判断,形成一棵决策树:二是利用建立好的决策树对样本集进行分类。
(二)深度学习方法
1.循环神经网络(RNN)
RNN是一种专门用于处理序列数据的神经网络结构,可以在分层结构中实现预测,也可以利用组成向量对输出进行分类。算法步骤包括参数初始化、前向传播、损失计算、反向传播、参数更新、重复训练、模型评估等。
2.卷积神经网络(CNN)
CNN是一种专门用于处理具有网格结构数据的深度学习模型,通过卷积、池化等操作来提取输入数据的特征,特征经过全连接层进行分类或回归,利用损失函数评估模型输出与真实标签的差异,并通过反向传播更新参数、优化模型。它是一种强大的深度学习模型,在计算机视觉领域有着广泛的应用。
3.长短期记忆神经网络(LSTM)
LSTM是基于RNN的一种改进型结构,更适合处理长序列数据。相较于RNN的隐藏单元,LSTM的隐藏单元的内部结构更加复杂,信息在沿着网络流动的过程中,通过增加线性干预使得LSTM能够对信息有选择地添加或者减少。LSTM能够保持信息的长期储存,因此是实际应用中更为有效的序列模型。
LSTM中每一个神经元内部加入了输入门、输出门和忘记门,LSTM网络的基本单元如图2所示。这些门控单元使得LSTM能够更好地处理长期依赖关系,同时有效地控制梯度流动,从而提高了模型的性能和训练效率。在训练过程中,LSTM使用误差函数计算预测输出与实际标签之间的差异,并利用梯度下降算法调整各个门控单元的参数,使得模型逐渐优化,从而更好地适应序列数据的特征。
4.卷积长短时记忆神经网络(CNN-LSTM)
CNN-LSTM算法将卷积神经网络和长短期记忆神经网络相结合,前者用于提取输入数据的局部特征,后者用于捕获序列中的长期依赖关系。CNN的主要优势在于无需人工监督即可自动识别相关特征,LSTM的主要优势在于能够有效地发掘序列中的时间依赖关系,结合两者可以实现高效的特征提取和序列建模。
三、慕课辍学分类预测模型的建立
(一)数据来源
本文数据集来自KDD Cup 2015(http:∥www.kdd-cup2015. com),来源于中国最大的慕课平台之一——“学堂在线”。该数据集中名为“enrollment-train”的表格记录了学习者在2013年10月至2014年8月的课程注册信息,名为“log_train”的表格记录了来自39门课程的79186名学生的120542条课程活动日志。本文提取学生人数最多的课程“8lUZttljjwBFYMj5u38WNKCSVA4IJSDv”的所有数据进行分类模型训练,所得模型在所有课程间具有可推广性。
本文所提取的数据包含在2013年12月11日至2014年1月9日约五周的时间内12004名学生共652701条学习行为记录,示例数据如表1所示。
本表格包含用户ID、事件发生时间、事件访问来源、事件、事件操作对象,其中事件访问来源有2种,分别是浏览器和服务器,事件有7种,分别是完成作业、观看视频、访问课程内容、查看维基百科、参与课程讨论、访问课程其它内容、关闭页面。
(二)数据预处理
将所有学习者共30天的学习行为数据按照时间分为五周,前28天按照每周七天分为四周,最后两天归为第五周,将五周分别命名为week0-week4。本文欲提取week (t)的学习行为特征,对week(t+1)的学生是否辍学的情况进行预测,五周数据共需要进行四次模型训练。为保障分类的准确率,对于未开始学习的学生,不参与到模型训练当中。
如此便能通过所训练的分类预测模型,根据学生本周的学习行为,预测出下周学生是否会辍学,动态地追踪学生在整个课程周期内的辍学情况,便于平台或授课教师提前采取干预措施,保障下一周的课程出勤率。
(三)因变量提取
本文将辍学定义为:从本周开始不再存在学习行为。若某学生某周存在学习行为,则记为1,若某学生某周不存在学习行为,则记为0,便能得到每名学生每周是否存在学习行为汇总表,示例如表2所示。
不同于根据学生是否存在学习行为直接定义学生是否辍学,本文根据该表格,先进行反向的周辍学标签提取,从week4到week0倒序地查看每周每名学牛是否存在学习行为.杏看该学牛从哪一周开始不存在任何学习行为。再进行正向的周辍学标签提取,从week0到week4顺序地查看每周每名学生是否存在学习行为,查看该学生从哪一周开始学习。最后根据正向反向周学习特征,综合提取学生在整个学习周期内的辍学标签,示例如表3所示。
将标签为“未辍学”记为0,标签为“辍学”记为1,标签为“未开始”则记为2,在后续的预测当中,只有标签为0或1才作为因变量y参与分类模型的训练,即在进行每一周辍学情况的分类预测之前,都根据标签筛选进入分类器训练的样本。
(四)自变量提取
本文根据每名学生的学习行为数据,进行自变量提取。基于原始数据采用频数统计方法,通过7种类型的活动和2种类型的访问来源分别提取第t周的30个典型行为特征,所构建指标体系如表4所示,包含总频数和平均频数。计算总频数和平均频数都有助于更全面地了解学生的学习行为特征,提供了不同层面的信息和视角。
(五)划分训练集和测试集
本文欲使用week (t)的学习行为特征作为自变量,用week (t+1)的学生是否辍学的情况作为因变量,训练分类预测模型,并划分训练集和测试集评估模型的分类效果,因此五周数据共需要进行四次模型训练。本文所提取的自变量和因变量汇总表示例如表5所示,本文一共得到四张汇总表,每个模型都经过四次训练。
设置train-test-split函数中的stratify参数,根据y=0和y=l的原始比例,将数据集按照3:7划分为训练集和测试集。
(六)模型训练和评价指标
本文选用机器学习分类模型LG、SVM、DT和深度学习算法RNN、CNN、LSTM、CNN-LSTM进行分类预测,并选用准确率(Accuracy)作为模型效果的评估指标,由混淆矩阵:
True Positive(TP):将正类预测为正类数;
True Negative(TN):将负类预测为负类数;
四、实验结果分析
不同的分类预测模型的每个预测步骤的准确率如表5所示,其中“0-1”表示用week0的学习行为特征预测weekl是否辍学,绘制折线图如图3所示。
如图3所示,第一步分类预测的准确率基本达到0.68,最后一步分类预测的准确率基本达到0.87,随着课程的持续进行,能够获得更多的样本数据和特征,分类预测模型的准确率越高。
决策树的表现相对较差,准确率最低。这可能是因为决策树在处理数值型数据时容易出现过拟合的问题,而且很难捕捉到不同特征之间的相关性。
逻辑回归和支持向量机的表现相似,准确率高于决策树,但略低于CNN、RNN、LSTM和CNN-LSTM。这可能是因为逻辑回归和支持向量机在处理数值型数据时可以较好地捕捉线性关系,但对于更复杂的关系可能表现不佳。深度学习神经网络可以捕捉到数据中的时间序列信息和空间信息,从而更好地处理本文数据。
五、总结与展望
本文将课程的所有参与者的学习行为数据按时间分为五周,分别进行频数统计提取出与辍学相关的30个自变量,根据每周是否存在学习行为,提取出是否辍学的标签作为因变量,选用传统机器学习模型和深度学习模型进行每周学生辍学情况的预测。以准确率作为模型分类效果的判别标准,总体来说,随着课程的推进分类效果越来越好,决策树的分类效果最差,四种神经网络模型分类预测效果优良,尤其是CNN-LSTM。
对于慕课平台学生辍学情况预测问题,为提高分类的准确率,可以利用网格搜寻法调整模型参数,选取性能最好的参数组合作为最终模型的参数;使用集成学习方法,将多个分类器集成起来;进行特征选择,选择最具有区分性的特征作为自变量;使用更深层次的神经网络模型,如CNN和RNN的变体,注意力机制等,从而更好地处理数据中的关联信息和复杂信息;或使用迁移学习方法,从已有的任务中学习到通用的特征应用于新的任务中。