APP下载

基于AdaBoost算法的MOOC退课预测研究

2019-09-12杨璐郭文锋贺强高宇鹏

计算机时代 2019年8期
关键词:主成分分析

杨璐 郭文锋 贺强 高宇鹏

摘  要: MOOC(Massive Open Online Courses)作为典型的“互联网+教育”模式正在影响着教育发展,但是较高的退课率影响了教学效果。根据“学堂在线”MOOC平台收集的数据,对学习者的学习行为进行统计分析,发现不退课学习者的平均学习次数明显多于退课学习者的平均学习次数。采用主成分分析法分析七种学习行为次数,提取出“完成作业”(problem)和“观看视频”(video)两种学习行为作为影响退课的主要因素。采用机器学习方法AdaBoost算法对学习者是否退课进行预测。结果显示,采用主成分分析法确定的两种学习行为对退课预测具有明显作用。

关键词: MOOC; 主成分分析; AdaBoost; 退课预测

中图分类号:TP399          文獻标志码:A     文章编号:1006-8228(2019)08-33-04

Abstract: As a representative model of teaching via the Internet, Massive Open Online Courses (MOOC) has been influencing the development of education, but the high dropout rate bring out bad teaching effects. According to the data collected by MOOC platform xuetangx.com, the statistical analysis of learners' learning behavior shows that the average learning times of non-dropout learners are significantly higher than that of dropout learners. Principal component analysis (PCA) is used to analyze seven kinds of learning behaviors, and two kinds of learning behaviors, "problem" and "video", are extracted as the main factors affecting dropout. AdaBoost algorithm, a machine learning method, is used to predict whether learners will dropout or not. The results show that the two learning behaviors determined by the principal component analysis method have obvious effects on the prediction of dropout.

Key words: MOOC; principal component analysis; AdaBoost; dropout prediction

0 引言

MOOC(Massive Open Online Courses),中文称为“慕课”,是教学模式借助互联网发展的一种新型教学模式,具有课程免费、内容丰富、学习自由等特点。在过去的六年里,MOOC平台不断涌现,国内外著名高校纷纷在MOOC平台开设精品课程,越来越多的学员通过MOOC平台学习。

对MOOC的研究工作主要基于学习行为的统计进而对MOOC的教学设计提供建议。樊超[1]等采用人类动力学研究方法对用户的学习时间间隔分布和持续时间分布、用户学习的活跃性等进行了分析并提出了合理化建议。伍杰华[2]等使用统计方法对学习者的学习背景、课程完成情况、学习行为特征等进行分析。牟智佳[3]等通过视频学习次数、评价参与次数、文本学习次数和论坛主题发起数分析,将MOOC学习群体分成三类。童小素[4]等通过学习行为分析,建立了MOOC质量评价指标体系,利用该体系进行评价实践。安哲锋[5]等针对MOOC学习质量建立模型,对学习内容的质量、学习支持的质量、学习交互的质量、学习期望的质量以及学习感知的质量五个方面进行分析,以促进MOOC学习质量的提升。王雪[6]等对教学视频的学习评论进行分析,总结了教学设计、教学内容、教师和技术规范等四方面的MOOC教学视频设计。张璐妮[7]等针对某MOOC平台的外形课程和学习者数据,采用回归分析方法对课程参与人数和讨论区帖子关注度等因素进行分析。张润芝[8]等选取了304门MOOC课程的基本信息和授课教师视频语言表达技巧的信息,通过多元线性回归分析法等研究了课程的基本信息对教师视频语言表达技巧的影响。曹晓明[9]等通过MOOC视频的不同组织方式对学习者的学习成绩、认知负荷和专注度的影响进行了研究,为视频制作提供了参考。

综上所述,目前关于MOOC的研究主要集中在对学习行为的分析进而帮助改进教学设计,而对影响学习者学习效果因素的探索比较少,大量的学习者不能完成MOOC课程的学习。因此,本文基于“学堂在线”MOOC平台学习者的学习数据,对影响MOOC退课的七种学习行为进行分析,采用机器学习方法(AdaBoost算法)对MOOC退课进行预测。

1 AdaBoosting算法

集成学习(Ensemble)[10]是在原始数据集上构建多个分类器(每个分类器称为基分类器),然后采用一定的规则(如投票法)对未知样本的类标签进行预测。当各个基分类器之间是相互独立的,且基分类器分类效果好于随机猜测分类器时,集成分类器的性能优于单个分类器。

Boosting算法作为集成学习的一种,首先使用一种学习算法对训练样本进行分类,如果分类性能不高,则不能对所有样本进行正确的分类。对于不能正确分类的样本,则增大其权重,反之,对于正确分类的样本就减小其权重,再重新进行学习。这样迭代多次后,分类器就可以对所有样本进行正确分类了。

AdaBoost算法[11]作为Boosting算法的典型代表,其基本思想是,初始時每个训练样本的权重相同,然后使用一个弱分类器对训练集进行多次迭代训练,根据训练结果为训练样本重新赋予权重,即对不能正确分类的样本赋予较大的权重,这样在下次迭代训练时重点学习那些不能正确分类的样本。每次迭代后都会得到一个预测模型,每个预测模型根据其预测准确率也赋予一个权重。迭代结束后,产生一个预测模型序列。最后,对预测模型采用加权平均法得到最终的预测模型。详细计算流程见算法1。

2 数据描述

本文采用的数据为“学堂在线”MOOC平台2013年10月27日到2014年8月1日部分学习者的选课记录和行为记录,每条记录包括学习者的注册账号、学习时间、学习方式、学习行为和是否退课。其中学习行为包括七种类型:完成作业(problem)、观看视频(video)、访问课程内容(access)、访问wiki(wiki)、课程讨论(discussion)、浏览网页(navigate)和关闭网页(page_close)。

3 数据处理

首先,统计退课学习者和不退课学习者在整个学习期间每种学习行为的平均次数(见表1),其次,为了降低算法的计算复杂度,在不影响预测准确率的前提下,采用主成分分析法PCA[12](Principal Component Analysis)来降低数据的维度。主成分分析法PCA,是一种被广泛使用的数据压缩算法,其目的是在尽量减小信息损失的情况下,通过析取主成分(即方差较大的特征),将高维的数据转换为低维的数据,从而降低算法的复杂度。本文选取方差占比超过80%的特征作为主成分。通过主成分分析法PCA对数据进行降维,每种学习行为的方差及方差占比计算结果见表2。

4 预测结果

本文选取的数据集为二分类非平衡数据集,不退课的学习者数为24961,退课的学习者数为95581,非平衡率为1:3.83。在传统的分类方法中,常采用预测准确率(precision)作为评价指标。但对非平衡数据分类,准确率不能真正评价分类性能。在对非平衡数据分类的评价指标中,ROC(receiver operating characteristic)曲线[13]被认为是一种较全面的指标。ROC曲线取假正例率TPR=TP/(TP+TN)为横坐标,取真正例率TPR=TP/(TP+TN)为纵坐标。分类结果的混淆矩阵见表3。采用ROC曲线下的面积(AUC)作为评价指标,AUC越大说明模型的分类性能越好。

从表4可以看出,采用主成分分析法降维后的数据较好地预测了退课率,预测精度基本未受影响,也反映了采用主成分分析法对原始数据集进行降维,选取的特征较好地反映了原始数据集的特征,保证了主成分分析方法的有效性。在描述学习的七种学习行为中,完成作业(problem)和观看视频(video)是影响退课的两种主要学习行为。MOOC平台可通过分析学习者的这两种行为,及时发现可能会退课的学习者,尽早采取一定的措施(如向学习者推送学习提醒信息)以降低退课率。

5 总结与展望

“学堂在线”作为国内领先的MOOC平台,于2013年10月10日正式启动,经过五年多的发展,已运行了国内外几十所顶尖高校的优质课程。与学习者选课人数相比,完成课程的人数太少。

本文选取“学堂在线”2013年10月27日到2014年8月1日近一年学习者的选课记录,通过分析七种学习行为的平均次数,发现完成课程的学习者的平均次数要明显多于退课学习者的平均次数。因此,本文首先对七种学习行为的次数进行汇总。然后通过主成分分析法进行特征提取,选取其中两种学习行为(观看视频和完成作业),这两种学习行为对学习者是否退课影响最大。最后采用AdaBoost算法对学习者退课进行预测,结果显示其具有较高的准确率。而且对特征提取前后进行对比,采用“观看视频”和“完成作业”这两种学习行为对学习者是否退课的预测,准确率略有下降,但在时间复杂度方面有明显的改善,这也说明了采用主成分分析法对特征提取的有效性。

综合本文分析,当教师设置MOOC课程时,应着重考虑视频的设置、组织,以及作业集的设置、评分等环节。本文不足之处是未研究其余五种学习行为对学习者退课的影响,以及未考虑学习者的学习活跃性等因素对退课的影响。

参考文献(References):

[1] 樊超,宗利永.MOOC在线学习行为的人类动力学分析[J].开放教育研究,2016.22(2):53-58

[2] 伍杰华,付慧平.MOOC学习行为的统计、预测与展望[J].工业和信息化教育,2017.2:81-89

[3] 牟智佳,武法提.MOOC学习结果预测指标探索与学习群体特征分析[J].现代远程教育研究,2017.3:60-68,95

[4] 童小素,贾小军.MOOC质量评价体系的构建探究[J].中国远程教育(综合版),2017.5:63-71

[5] 安哲锋,张峰峰.MOOC学习质量立体模型的构建研究——基于学习者体验视角的研究[J].成人教育,2018.38(6):21-26

[6] 王雪,周围,王志军等.MOOC教学视频的优化设计研究——以美国课程中央网站Top20 MOOC为案例[J].中国远程教育,2018.520(5):47-56

[7] 张璐妮,唐守廉,刘宇泓.MOOC学习者参与行为实证研究——以“中国大学MOOC”外语课程为例[J].北京邮电大学学报(社会科学版),2018.102(3):101-107

[8] 张润芝.大规模开放在线课程教师视频语言表达技巧影响因素研究[J].电化教育研究,2018.5.

[9] 曹晓明,朱姗,薛锡雅.实践型慕课的视频组织方式对学习效果影响的实验研究[J].电化教育研究,2018.5.

[10] Dietterich T G. Ensemble Methods in Machine Learning[J].Proc International Workshgp on Multiple Classifier Systems,2000.1857(1):1-15

[11] Wu X, Kumar V. The Top Ten Algorithms in Data Mining[M].CRC Press,2009.

[12] H?skuldsson A. A combined theory for PCA and PLS[J].Journal of Chemometrics,1995.9(2):91-123

[13] Fawcett T. An introduction to ROC analysis[J].PatternRecognition Letters,2005.27(8):861-874

猜你喜欢

主成分分析
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
服务贸易结构优化路径研究