基于二元逻辑回归模型的MOOC退课预测
2017-12-25郭文锋樊超郭新东
郭文锋 樊超 郭新东
摘 要: MOOC(Massive Open Online Courses)作为一种新的教学模式正发展得如火如荼,但学员退课率一直高居不下,直接影响了MOOC教师以及MOOC平台的发展。本研究以“学堂在线”平台学员的学习行为数据为基础,对影响退课的七种学习行为进行相关性分析,为了避免多重指标带来的多重共线性问题,根据相关性较小的原则选择其中的五种学习行为。最后采用二元逻辑回归模型进行建模并预测学员的退课情况。实验表明,选取的五种学习行为对退课影响显著,预测准确率较高。本研究为MOOC教师尽早采取教学干预提供了一定的理论依据。
关键词: MOOC; 学习行为; 相关性分析; 二元逻辑回归; 退课预测
中图分类号:G434 文献标志码:A 文章编号:1006-8228(2017)12-50-04
Predicting the MOOC dropout rate with binary logistic regression model
Guo Wenfeng1, Fan Chao1, Guo Xindong2
(1. College of Arts and Sciences, Shanxi Agricultural University, Taigu, Taigu 030801, China;
2. College of Information Science and Engineering, Shanxi Agricultural University)
Abstract: Although MOOC develops prosperously as a new teaching model, the dropout rate of trainee remains high all the time. This will directly influence the development of MOOC teachers and MOOC platforms. According to the data from xuetangx.com, this study analyzes the correlation of seven learning behaviors affecting dropout. To avoid multicollinearity generated from multiple indicators between seven learning behavior, five of them are selected based on the rule of little correlation. Binary logistic regression model is used to predict the dropout rate. Experiments demonstrate that the selected five learning behaviors have significant influence to the dropout and the accuracy of prediction is higher. The study offers a theoretic basis for MOOC teachers to take teaching intervention as soon as possible.
Key words: MOOC; learning behavior; correlation analysis; binary logistic regression; dropout prediction
0 引言
MOOC(Massive Open Online Courses),大型開放式网络课程,简称“慕课”,是近几年由美国一些著名大学发起的网络学习平台。与传统的课堂学习相比,MOOC具有如下特点:①采用各种社交网络工具,形式多样化;②课程的学习不受空间和时间的限制;③课程对学员的学历没有任何限制;④更强调学员的学习自主性。
目前对MOOC的研究基本可以归结为三类。
⑴ 通过分析学习行为发现规律,改善MOOC教学活动以及评价体系。
Yousef等通过对在线课程、远程课程和MOOC的相关文献分析,提出了一套包含75个评价指标的MOOC质量保障标准[1]。童小素等在借鉴已有评价规范的基础上,采用文献调研法和专家访谈法,建立了一套质量评价指标体系,其中包括3个一级指标和26个二级指标[2]。秦瑾若等通过MOOC与传统网络课程教学活动的对比,提出基于深度学习理论的MOOC学习活动设计,并将其应用于“现代教育技术”课程中[3]。樊超等从人类动力学的角度对MOOC在线学习行为进行分析发现,用户的选课量和选课人数存在很大差异,在线学习具有阵发和重尾的特征,以及在线学习时间和次数服从幂律分布[4]。
⑵ 通过对学习行为进行统计分析,进而提出整改意见。
李帅等以东北大学MOOC平台上的《高级语言课程设计》课程为数据集,对学生的知识点学习情况、在网站上的逗留时间以及观看视频的行为动作(快进/退、全屏、跳转课程、暂停、滚动条滚动、文本模块间跳转)进行了统计分析[5]。吴江等分别从选课、退课、课程参与和成绩四个方面对爱课程网络平台上的一门课程的学习者行为进行统计分析[6]。王萍等基于edX平台的数据集,采用统计分析方法,对学习者类型、特征、行为进行分析研究[7]。徐舜平等借鉴数据挖掘中的回归分析方法,对“学堂在线”平台的一门课程“电路原理”学习行为数据进行研究[8]。
⑶ 通过对学习行为与学习效果之间的关系进行分析,建立模型对学习效果进行预测。
蒋卓轩等针对北京大学在Coursera上开设的6门慕课,通过分析学习行为特点将学习者进行分类,并通过学习者的若干典型行为特征对学习成果进行预测[9]。伍杰华等以edX在线学习网站上2012-2013年学生学习的信息为基础,对学习者的性别、学历、国籍、课程交互次数、课程访问天数、播放视频次数、学习章节数做了统计分析,最后采用机器学习的SVM和KNN算法进行建模并对完课率进行了预测[10]。李曼丽等以“学堂在线”平台的一门课程的学习数据为基础,采用Tobit和Logit两个定量分析模型,分别对MOOC学习者的课程参与和完成情况进行深入分析[11]。Jiang, S.等以学习者第一周的MOOC完成课后作业和在线讨论为研究对象,采用逻辑回归方法预测学习者获得证书的概率[12]。
综上所述,目前关于学习行为对退课影响的研究比较少, MOOC较高的退课率严重影响了MOOC的持续发展。本文试图通过分析学员的七种学习行为与退课的关系,采用二元逻辑回归模型对学员的退课进行预测,为MOOC的教学改革提供一定的理论依据。
1 逻辑回归模型
逻辑回归模型是机器学习中一种重要的分类模型,由于其算法简单、高效且容易被推广而被广泛应用。例如预测用户点击某商品后是否会购买,预测学生成绩及格与否等。这些都属于二分类问题。除此之外,逻辑回归也被推广至多类的分类问题。本文主要研究MOOC的学员是否会退课,故选择逻辑回归模型的二元逻辑回归方法。
一般地,线性回归函数为:y=f(x)=θTX,其中X=(x1,x2,…,xm)T为样本点,θ=(θ1,θ2,…,θm)T为参数向量。函数是样本X的各个属性的线性组合,参数θ表示了X中各个属性对结果的影响程度。
二元逻辑回归模型可以表示为:,其中y∈{0,1},。决策函数为:。
为了找到参数θ,可以采用最大似然估计,即使得最大。
2 实例研究
本文选取“学堂在线”MOOC平台的学员学习记录(包括选课记录和行为记录)为数据集,采用二元逻辑回归模型对学员的退课情况进行分析,并对退课进行预测。
2.1 MOOC数据描述
“学堂在线”MOOC平台于2013年10月10日正式向全球发布,是教育部在线教育研究中心的研究交流和成果应用平台。本文采用的数据集为“学堂在线”为KDD-2015 CUP竞赛提供的公开数据。
数据记录了2013年10月27日至2014年8月1日“学堂在线”MOOC平台的部分学员的选课记录和行为记录,其中包括112,448名学员、39门课程、200,905人次选课记录和13,545,124条行为记录,且每个学员至少选修过一门课程。
其中,行为记录包括七种学习行为:完成课后作业(problem)、观看课程视频(video)、访问课程内容(access)、访问课程wiki(wiki)、参与课程论坛讨论(discussion)、访问课程其他部分(navigation)和關闭网页(page_close)。为了研究七种不同学习行为对退课的影响,本文对每个学员在整个学习期间的七种学习行为分别进行汇总,得到每个学员每种行为的总次数,分别记为:X1、X2、X3、X4、X5、X6和X7。
2.2 变量选择
首先研究不同学习行为与退课(1表示退课,0表示继续学习)的线性相关性。七种学习行为与退课的皮尔逊积矩相关系数如表1所示。
从表1可以看出,七种学习行为与退课的相关系数都是负数,即学习行为发生的总次数越多,退课率越低,与实际情况相符。按相关系数的绝对值进行排序,X4(wiki)和X5(discussion)与退课相关性最小,说明访问课程wiki和参与论坛讨论对退课影响较小。
其次,为了避免变量之间的多重共线性问题,本文对七种学习行为两两计算皮尔逊积矩相关系数,将相关系数≥0.8认定为高度相关的变量,应将高度相关的一对变量中的一个予以排除。七种学习行为之间的皮尔逊积矩相关系数如表2所示。
从表2可以看出,X2(video)和X3(access)之间的相关系数为0.81,因为观看课程视频可能会涉及课程内容,如观看课程视频与阅读教材相结合,所以观看视频越多,访问课程内容也会越多。X2(video)和X7(page_close)之间的相关系数为0.82,因为观看课程视频与关闭网页高度相关,课程视频位于一个网页上,观看完视频会关闭网页,所以观看视频越多,关闭网页自然越多。
这里我们排除X3(access)和X7(page_close)这两个变量,下一节我们将选取X1(problem)、X2(video)、X4(wiki)、X5(discussion)和X6(navigation)这五个变量(学习行为)对退课进行建模。
2.3 预测模型建立
本文采用二元逻辑回归模型,预测MOOC学员的退课情况。假设P(P∈[0,1])为学员的退课率,则(1-P)为不退课率。P/(1-P)为学员退课的逻辑回归比,对其取自然对数为ln[P/(1-P)]。
假设自变量为Z1(problem)、Z2(video)、Z3(wiki)、Z4(discussion)和Z5(navigation),因变量为P,则逻辑线性回归方程为:,其中θi(i=0,1,2,3,4,5)为逻辑回归系数。则根据上式可得,学员退课发生的概率为:。根据决策函数(见1.逻辑回归模型)可知,当P>0.5时,预测为学员退课(结果为1);否则,预测为学员不退课(结果为0)。
2.4 预测结果
为了评价二元逻辑回归模型对MOOC退课的预测性能,本文采用的评价指标有准确率(accuracy)、查准率(precision)、查全率(recall)、F1和AUC。
为了计算指标值,本文引入二分类混淆矩阵。即把退课(1)作为正类,不退课(0)作为负类。则分类结果的混淆矩阵如表3所示。
从表4可以看出,尽管MOOC数据集存在类别偏斜的情况,即正例与负例的数量之比为95581:24961,但accuray仍然达到了0.84。同时,precision值与recall值比较接近,所以F1值较接近最大值,说明二元逻辑回归模型较好地对MOOC的退课情况进行了预测。
为了评价预测模型的泛化能力,本文引入ROC曲线。ROC曲线的横坐标为假正例率、纵坐标为真正例率。ROC曲线下面积(AUC)的大小决定了模型的泛化能力,AUC越大说明模型的泛化能力越强。
从图1可以看出,实线即为二元逻辑回归模型的ROC曲线(AUC=0.78,即阴影区域面积),虚线为随机模型对应的ROC曲线(AUC=0.5,即虚线下方区域面积)。由于0.78>0.5,说明二元逻辑回归模型较好地预测了实例。同时也说明了本文选取的五个变量(学习行为)是比较合适的,它们较好地反映了数据集的特征。
3 总结与讨论
本文研究七种不同学习行为对退课的影响,通过相关分析,选择其中对退课影响最显著的五种,然后建立预测模型——二元逻辑回归模型并对退课情况作出预测。在这五种学习行为中,①访问课程的其他部分(navigation)、观看课程视频(video)以及完成课后作业(problem)对退课影响最大。可以推断,要完整学完一门课程,除了观看课程视频,还要做课后作业,以及参考课程的其他内容。为了提高课程的完课率,MOOC平台可以针对观看视频次数少,完成课后作业少的学员实施教学干预。②参与课程论坛讨论(discussion)对退课影响较小,原因可能是MOOC平台提供的是文字形式的讨论方式,不利于有效交流与沟通。为此,MOOC平台可以设置视频或语音形式的讨论模式。
本文的不足之处是,MOOC数据集对学员以及课程信息进行隐藏,使得本文无法深入理解学员的不同学习行为对课程退课的影响以及影响程度。今后将选取不同MOOC学习平台以及多学科课程数据作为研究对象,探索学习行为对不同学科课程退课情况的影响,为MOOC教学干预提供借鉴和参考。
参考文献(References):
[1] Yousef A M F, Chatti M A, Schroeder U, et al. What Drives
a Successful MOOC? An Empirical Examination of Criteria to Assure Design Quality of MOOCs[C]// IEEE, International Conference on Advanced Learning Technologies. IEEE,2014:44-48
[2] 童小素,賈小军.MOOC质量评价体系的构建探究[J].中国远
程教育:综合版,2017.5:63-71
[3] 秦瑾若,傅钢善.基于深度学习理论的MOOC学习活动设计
——以“现代教育技术”课程为例[J].现代教育技术,2017.5:12-18
[4] 樊超,宗利永.MOOC在线学习行为的人类动力学分析[J].开
放教育研究,2016.22(2):53-58
[5] 李帅,张岩峰,于戈等.MOOC平台学习行为数据的采集与分
析[J].中国科技论文,2015.20:2373-2376
[6] 吴江,马磐昊.MOOC学习者行为分析研究——以爱课程平
台的一门慕课为例[J].知识管理论坛,2015.3.
[7] 王萍.基于edX开放数据的学习者学习分析[J].现代教育技
术,2015.25(4):86-93
[8] 徐舜平,赵庆刚,许健等.基于数据挖掘的MOOC学习过程监
测指标分析——以“电路原理”课程为例[J]. 现代教育技术,2017.27(3):119-126
[9] 蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预
测[J].计算机研究与发展,2015.52(3):614-628
[10] 伍杰华,付慧平.MOOC学习行为的统计、预测与展望[J].工
业和信息化教育,2017.2:81-89
[11] 李曼丽,徐舜平,孙梦嫽.MOOC学习者课程学习行为分析
——以“电路原理”课程为例[J].开放教育研究,2015.21(2):63-69
[12] Jiang, S., Warschauer, M., & Williams, A. et al.(2014).
Predicting MOOC Performance with Week 1 Behavior[A]. Proceedings of the 7th International Conference on Educational Data Mining[C].Worcester: Worcester Polytechnic Institute:273-275