MOOC辍学研究:近20年文献的系统分析*
2021-12-09常李艳
常李艳,刘 婧,黄 崇
大规模开放式在线课程(MOOC)是一种在线学习环境,学习者可以免费访问、注册和在线学习。从2005年新的学习理论——连接主义的提出[1],2008年MOOC的首次引入[2],到2012年世界范围内的大流行,MOOC创建了一种新的教育范式。MOOC在高校得到广泛应用,尤其是2020年新冠肺炎全球蔓延期间,大量高校开展线上教学活动,MOOC也成为我国教育部在疫情期间主推的线上教学模式和各高校主要的线上教育方式。
MOOC突破地域、时间限制,也解决了与指数级学生数量有关的问题[3];MOOC的完全开放性和大规模特征使MOOC对象可以低成本获得课程视频、学习资料、课程练习、软件工具等资源[4-5];精心的课程设计和MOOC平台完善的学习支持服务体系使参与者可以根据自身要求实现个性化学习[6]。MOOC最初的目标是希望为各领域学习者提供免费、高质、开放的课程[7-8]。但是,MOOC一直存在一个问题:大量MOOC学习者中途辍学(退出学习),只有10%的注册学习者能够完成课程[9]。就辍学率而言,MOOC远远超过传统的在线课程。研究者开展了许多研究,以确定学习者退出MOOC的原因,如从不同对象(大学生、研究生、教师)、课程类型(艺术人文、工科、理科)、MOOC平台研究各种外部因素、课程因素、个人因素等对学习者课程完成度和辍学率的影响。
为了更好地了解MOOC辍学的综合因素,有必要对近年MOOC学习者课程完成和辍学的研究文献进行系统分析,帮助政策制定者从战略上规划MOOC提供的教育机会,指导高校合理配置教学资源、教育者科学设计MOOC内容以及平台方合理规划MOOC网站布局及功能。同时,对MOOC学生保留率的研究进行全面的系统回顾可以帮助研究人员掌握现有研究中的关键问题、常用方法以及研究趋势。文章对2008-2020年间发表的有关MOOC课程保留和辍学的文献进行了系统的综述。
1 研究综述
在现有文献中,MOOC学生辍学的定义主要分为两类:一是以学生是否最终完成课程并获得证书作为判断标准[10];另一类是以学生是否有一段时间的学习行为为判断的标准,也就是说,如果有一段时间没有参加MOOC,那么该学生将被视为退出课程[11]。本文将两种情境均作为辍学标准,以此进行文献收集。
自2008年MOOC出现,2014年左右出现研究热潮,短短十几年内关于MOOC的研究文献激增,因此,近年也有不少学者进行MOOC研究方面的系统性综述[12-13]。这些综述多侧重于MOOC的课程设计、课程评估、学习效果的分析[14-15]。综述文献均覆盖有限的时间段[16]或者针对某一特定学科领域的MOOC进行研究[17]。例如,Bertheau等在研究中重点关注病理学中MOOC的研究成果[18],Paton等仅研究2013-2017年间的MOOC参与相关文献[19]。2014-2020年的综述研究展现了MOOC研究主题和趋势的不断变化,表1展示了先前重要的MOOC研究成果。
表1 2008-2020年间重要MOOC研究成果
鉴于以往MOOC的文献综述中涉及MOOC辍学的研究较少,且MOOC辍学研究综述文献的时间跨度一般为3-5年,主要侧重探讨辍学预测指标的比较,缺少从2008年MOOC首次出现到2020年的全时间段,缺乏对MOOC辍学涉及的研究方法、影响因素、预测方法、技术发展等的综合梳理。为此,本研究搜集2008-2020年间辍学方面的研究文献,对MOOC辍学研究方法、影响因素、辍学率的预测方法、预测技术等提供全面的系统综述,以帮助MOOC研究人员更好地理解典型的研究方法、MOOC辍学原因,并为MOOC的未来研究提供建议。
2 研究方法
系统评价是一种综合的研究方法,能全面理解研究主题。本文使用的系统评价方法基于PRISMA原则[33]。本文遵循Cooper的程序进行系统综述:(1)形成研究问题;(2)收集数据;(3)评估数据;(4)分析数据;(5)展示结果。
2.1 数据采集
本研究的中文数据来自CNKI数据库,英文数据来自Web of Science和Scopus、CNKI数据库。同时,数据的收集必须满足以下条件:第一,文献发表于2008-2020年间;第二,研究涉及MOOC辍学或是MOOC课程完成方面的内容;第三,以学术期刊而不是书籍章节、博客、报纸文章等形式发表;第四,使用“MOOCs”“MOOC”“大规模在线公开课程(massive open online courses)”“辍学(dropout)”“课程完成率(course completion)”“课 程 保 留(MOOC retention)”等关键词来筛选文献;第五,每项研究最好是全文文献,或者是至少可以获得文章完整特征信息(作者、关键字、国家、年份、标题、出版物类型和引用)和研究内容信息(研究目的、研究方法、理论使用、信息收集方法、分析方法、影响因素、编码结果等)的文献。为增强本研究可信度,由常李艳,刘婧两位作者对期刊来源进行初步搜索。其中,一位研究人员直接利用主要的关键词在3个数据库进行搜索,获得相关文献并下载;第二位研究人员搜查5个发布MOOC研究最多的关键刊物(Computers and Education,British Journal of Educational Technology,Computers in Human Behavior,Distance Education和Educational Media International),将与研究相关的文献资料整理出来。在初步搜索后,采用自动搜索和手动搜索来查找重复项,并剔除不相关文献。为了提高有效性,由两名研究人员分别使用纳入和排除标准筛选文章的标题和摘要,然后对数据进行交叉检查,讨论各种差异,并就分析达成共识。图1显示了3个不同的选择方面:识别,筛选和资格评估。2008-2020年间发表的符合要求的研究文章共有181篇。本文研究涵盖MOOC从产生尤其是2013年至今(2013年前对MOOC的研究较少,对MOOC辍学的研究更少)关于MOOC辍学方面的研究方法、研究主题的发展变化。本文主要阐述4个方面的问题:有关MOOC高辍学率问题的研究方向是什么,MOOC辍学问题的研究方法有哪些,MOOC高辍学率的影响因素主要集中在哪些方面,MOOC辍学率预测的方法和技术的发展情况如何?
图1 研究文献选择过程
2.2 数据分析
为了获得MOOC辍学研究方面的研究现状,需要对每项研究进行编码。每项研究记录各种维度,如出版年份、标题、期刊名称、一般研究方法(如定性、定量或混合方法),以及数据分析方法(结构方程模型、简单描述分析、质性分析法、神经网络分析方法),数据收集方法(调研问卷、访谈),平台数据收集(点击流、日志、帖子抓取)、实验法(对照实验、随机实验),研究重点(具体影响因素、评估指标等)和文章网址。此外,收集的其他相关信息还包括作者姓名、机构、地理位置等。编码由两位研究人员同时进行,使用具有协议一致性的代码总数除以代码总数来计算评估者之间的可靠性。所有项目的评分者之间的协议一致率为0.96,表明编码规则和结果良好。第三名研究人员对提取的不一致编码发表见解,通过研究人员之间的讨论解决分歧。
3 结论和讨论
3.1 研究方向和研究方法
3.1.1 研究方向
为对收集到的研究进行科学分析,将研究文献归类为MOOC辍学策略研究、辍学因素分析、辍学预测3个主要方面,以便根据研究目的对这些文献的研究方向进行分类(见图2)。本文依据研究目标侧重点进行准确编码,一般来说每篇研究文献均有较为明确的研究目标,因此一篇文献给定一个研究目的编码类别。如果两个编码人员编码不一致,引入第三者,根据多数赞同原则确定最终编码结果。从现有研究方向统计看到,近50%论文对MOOC的高辍学率的影响因素进行了探索,约35%文献立足通过各种点击流数据和学习者学习行为数据对学习者辍学时间、辍学概率以及MOOC辍学率进行预测,约15%研究从内外部支持、课程设计、政府政策等方面探讨促进MOOC发展以及降低辍学率的策略。
图2 MOOC辍学研究方向分布
降低MOOC辍学率的方法措施的文献主要从整体措施和课程设计等方面进行研究。针对提升MOOC保留率的研究主要是中文文献,时间集中在2015-2016年,通过对辍学现象的分析,从学习者、平台、MOOC课程设计、教师以及社会角度提出改善MOOC高辍学率的措施[34-35]。王甜提出利用微信排名、奖励学分、学习积分等激励措施,以及MOOC网站体系的专业培养计划,避免学生盲目选课等平台措施[36]。更多研究通过设计更加符合学习者需求的MOOC课程体系、平台交互服务(课程论坛、师生互动功能)、游戏化等具体措施来探索降低辍学率[37-38]。例如,Goel等的研究专注于通过增强现实(AR)、自适应学习(AL)和游戏化改进MOOC的内容,提升MOOC对学习者的吸引力[39]。为验证设计方案的优势,研究中常用对照实验或随机实验的方法,通过比较分析和验证分析来验证。例如,Bin等为提高课程保留率,提出一种根据MOOC课程的学习内容和社交网络信息为学生推荐学习伙伴的模型,通过验证分析发现该模型的使用显著降低课程的辍学率[40]。同时,从表2可看出,MOOC策略研究中有34.78%的研究通过实验法进行数据收集,定性分析比例达到约19.23%,简单描述性分析比例为29.63%。
MOOC高辍学率的因素一直是学者研究的重点,尤其是2016年后研究从简单的定性分析、实验分析发展到通过科学量表调研进行结构模型分析或回归因果分析。在MOOC辍学因素分析中涉及最多的理论是期望价值理论、自我调节理论、自决理论(SDT)以及动机理论,这些理论从参与MOOC动机、价值收益等方面解释了学习者持续或放弃MOOC的原因[41]。通过表2看到,辍学因素分析中主要使用结构方程模型(16.47%)、回归分析(17.65%)和简单描述性分析(23.53%)等定量分析方法,希望从因果分析中发现影响MOOC保留或辍学的真实原因。Jordan对221门MOOC课程进行研究后发现,课程长度、课程设计(评估)以及反馈方面的时间因素是MOOC中学生辍学的主要原因[42]。Sun等通过扩展自决理论构建了学生参与MOOC的模型,通过PLS分析验证满足学生的能力需求、自主性需求、交互需求,并提供高质量的人际关系可以有效提升学习者的心理参与和行为参与,从而减少中途辍学[43]。
表2 MOOC辍学研究文献的分析方法和数据收集分类汇总
2015年以后,很多学者开始专注辍学时间、高危辍学学生、MOOC辍学率的预测,希望通过提前预测辍学时间节点和有退出风险的学生,使MOOC领导者和辅导者能够采取有针对性的课程设计和向此类学习者提供个性化的干预措施来提升MOOC保留率。为了开发强大而准确的预测模型,研究人员通常会参考学习者的导航点击以及他们与平台的交互数据流来提取MOOC学习者的特征[33]。点击流数据(63.64%)反映了学习者在MOOC平台上观看视频的点击、时长、转换等各种行为,是研究者最常用的数据来源。然而,辍学现象需要更多的预测因素和广泛的具体变量才能获得更可靠的结果。因此,后来的研究者将学生的论坛交互数据、完成课题测验的频次、正确率等学习行为数据、人口信息数据以及个人态度情感数据(通过调研问卷或访谈收集)等变量加入预测模型,并通过机器学习、生存分析等方法获得预测结果。根据表2统计结果,超69%的文章使用各种机器学习方法进行预测,此外,定量分析是主要的分析策略,基本没有单纯定性分析的研究。
3.1.2 MOOC辍学研究的整体分析方法
MOOC辍学研究从前期的策略研究到最近的影响因素分析和辍学类别预测、辍学时间预测,研究方法从MOOC初期的现象介绍、简单描述分析到通过结构方程模型进行辍学机制研究,通过MOOC平台的用户日志及平台数据进行辍学可能性预测,到通过多维数据(日志数据、过程数据以及调研数据)进行学生辍学的持续预测模型研究,MOOC辍学研究中数据来源和研究方法随着研究发展持续更新。本节对181篇文献的研究方法和数据来源进行统计,展示MOOC辍学研究中研究方法的整体分布(见图3)。基于客观数据的分析是MOOC辍学研究的特色。常用的数据收集方法有:(1)调研问卷,问卷内容包括一般基本信息和测量量表,一般通过网络发放问卷。(2)用户日志或网站的用户点击流数据,点击流数据详细记载了用户的登录、退出、点击、视频中断等信息,是分析用户行为特征,进行用户辍学预测的主要数据源。(3)通过MOOC平台收集用户的测试数据以及通过程序抓取用户的论坛数据信息,这些数据是总结辍学学习者特征、发现辍学原因以及进行辍学预测的数据源[44];(4)访谈和实验数据,二者也是研究中常用的数据来源,访谈主要用来进行影响因素提取,实验法主要通过对照和随机实验验证MOOC平台设计、课程内容等在提升MOOC参与度、降低MOOC辍学率方面的效果。对分析方法按照定性、定性定量、定量等类别划分,发现当前MOOC辍学研究的主流分析法是定量分析。从主要分析方法来看,由于预测分析对机器学习方法的侧重,使其成为使用最多的分析方法;其后是简单描述分析和因果分析中常用的回归分析;再次是探索影响因素中常用的结构方程模型,以及访谈、文献调研采用的人种学、内容分析等质性分析方法。此外,一些学者还使用聚类分析、关联分析、仿真分析、可视化分析等方法进行研究。
图3 研究中的主要分析方法和数据收集方法
3.2 MOOC辍学主要影响因素
对探寻MOOC辍学影响因素为主要目的的88篇研究资料以及策略研究中明确涉及影响因素探讨的26篇文献进行影响因素编码,对编码标准化并汇总后发现,共有23个因素在MOOC辍学研究中反复出现(见表3)。根据Henderik、Josek等对影响因素的总结研究,本研究提取了23个因素,经3位研究人员讨论可分为3个一级类目5个二级类目:用户因素(个人因素33.65%,心理因素41.35%),课程环境因素(课程因素70.19%,平台因素12.50%,教学过程因素14.42%),社会环境因素(49.04%)。由于下一节将对辍学预测进行详细分析,并且辍学预测主体并不在影响因素里探讨,因此本研究中MOOC辍学因素的抽取并未统计MOOC辍学预测类文献中的预测因子和指标。预测MOOC辍学类研究使用的指标和因子主要是点击流以及学习者网络学习行为数据,这些指标应属于个人因素中的MOOC参与度和学术能力。如果添加这类文献资料,那么个人因素将成为最有影响力的因素,其次是课程因素和社会环境因素。
表3 MOOC辍学主要影响因素汇总
3.2.1 用户因素
(1)个人因素。退出MOOC大多与个人特征、环境、社会状况、学习中缺乏互动等有关[45]。个人特征是影响MOOC完成的关键因素。某些个人因素,如学术能力、MOOC的先前经验、性别、年龄、自主性、自我调节与个人辍学有关。Chen等发现在天文学MOOC中年龄较大的学生辍学率较低[46]。Lee等发现最明显的辍学因素可能与个人学术和学习技能、先前的经验有关[47]。Labrador等通过对15种MOOC的辍学情况进行研究,发现个人特征因素,如性别、年龄、受教育水平与MOOC辍学紧密相关[48]。Khalil等发现,个人因素中学习者的先前经验以及学术能力(在线技能、教育水平)是导致MOOC损耗率高的最重要指标[49]。Hone等研究证实个人的MOOC学习经验对其保留水平有影响[50]。
自主性使学生能根据需要和愿望来决定他们选择MOOC中关注的内容。具备自主性的学生更有可能参与课程活动(行为参与),在理解材料方面投入更多精力(认知参与)[51]。而参与是学习动机的体现,意味着学习者将精力投入学习过程中以实现期望的学习目标,MOOC参与包括行为参与(自愿参与学术/课外活动、论坛讨论)、认知参与(概念化为学生对所教授主题内容的理解)[43]。行为参与尤其是课程观看、测试完成等是预测MOOC辍学的关键个人因素[52]。Lan等研究发现,具备认知能力的MOOC参与者完成MOOC的可能性比那些没有认知能力的MOOC参与者高出1.2倍[53]。此外,缺乏自我调节学习(SRL)技能会使学习者在无向导、给予充分自主性的MOOC学习环境中难以成功[54]。自我调节是学习者控制自己的学习过程以实现拟定学习目标的过程,Rostaminezhad等对223名学习者的研究结果表明自我调节与学习者辍学之间存在关联[55],缺乏SRL技能可能是导致MOOC辍学的重要因素[56]。
(2)心理因素。心理因素是学习者进行MOOC学习的动机、情感以及选择MOOC的感知预期。在在线学习环境中,动机起着至关重要的作用。在MOOC环境下同样发现,如果学生有学习的动力,那么更有可能完成课程[42,57]。在MOOC中,关于内在动机、持续性以及成就的积极作用的研究已经达成共识[58]。MOOC学习者具备独特的动机,如参与终身学习、娱乐、便利或体验[59]、获得MOOC证书[38]等。如果学习者认为MOOC内容将对未来职业或研究有所帮助(功利性动机),那么往往会倾向于完成MOOC[60]。情感是指学生与机构、教师、同伴和MOOC内容之间的情感联系,包括学习MOOC的享受、兴趣、满意度、乐趣、好奇心、成就感等,积极的情感可以提升学习者的学习动力,提升MOOC保留率。Dai等从期望确认模型的视角展开研究,发现学习者的态度、好奇心与满意度显著影响MOOC学习的持续性[61]。
3.2.2 课程环境因素
(1)课程因素。与课程因素相关的课程设计、内容难度、课程资源、时间以及承诺被视为导致学生辍学的关键因素[62]。Tang等发现良好的课程设计可以帮助学习者制定合适的学习策略,从而提高MOOC的完成率[63]。在课程设计时引入增强现实、游戏化、协作学习等技术,可以有效提升学习者兴趣,提升MOOC的保留率[64,53]。而学习内容的难度和课程持续时间则对学生完成在线课程产生负面影响[65],较长的课程时间可能会使学习更加困难,从而导致较低的完成率[32]。同时,课程资源的灵活性[38]、丰富性、高质量会对降低课程辍学率有积极作用[66]。多个研究表明内容的质量对学生的动机和整体参与度产生了积极的影响[67]。Feng等发现某些课程因素(如课程设计、时间和课程难度)是MOOC学生辍学率高的关键因素[68]。Greene发现学生的投入水平与高辍学率密切相关,不确定自己对课程投入的学生比打算完成课程的学生更有可能退出课程[69]。此外,MOOC的费用低部分导致了学生的高辍学率,当学生发现课程既不具挑战性又浪费时间,而入门课程低成本或零成本时,可能会从一门课程转向另一门课程。学生对课程的低投入可能是因为该课程是免费的[70]。
(2)教学过程因素。教学过程环境主要从学习者外部探寻影响其辍学的因素,包括学习者学习中收到的教学干预、教师的及时反馈、教师个人特征(如授课质量、教学偏好、独特的教学设计)等。Barak等指出MOOC开发人员可以设计独特的学习环境,并为学习者实现目标提供必要的手段[71]。对MOOC课程的学生进行调查发现,由于动机低、反馈差、时间不足和内容复杂,部分学生无法完成学习。Halawa等指出,教师提供的反馈较差是MOOC课程中学生辍学的重要预测因素[72],从教师处获得的反馈与学生完成在线课程紧密相关。Hone构建MOOC辍学的影响因素模型,证实MOOC的保留情况受MOOC的教师效应(如教师与学习者互动、教师支持、教师反馈以及教师的积极态度)的影响[50]。徐振国等提出教师与学习者缺乏互动、讲课枯燥、解答问题不及时等因素影响学生的辍学行为[73]。Yeomans等在课前调查中实施了一项干预措施,并测量了干预对课程完成的影响[74],而Davis等通过将干预措施整合到课程环境中,而不是整合到课前调查中,使课程内容与干预措施之间的联系更加紧密,对MOOC完成产生显著影响[75]。
(3)平台因素。MOOC平台的设计和服务、可访问性,以及对最新技术的应用也是影响辍学的因素。MOOC平台设计的易用性、内容的个性化等提升了MOOC保留率。很多低速宽带国家学生经常抱怨上网困难[60],随着技术的发展,学习者是否可以通过Internet以及移动设备便捷访问课程[76],MOOC是否集成其他媒体格式(如超链接、文本、图像、图表和动画等)影响到学习者的MOOC保留率。Yousef将MOOC界面设计以及是否有社交功能作为评价MOOC是否成功的质量指标[77],Kaabi提出MOOC提供战略性的个性化设置,有助于成功学习[78]。
3.2.3 社会环境因素
与内容、同伴和导师同步或异步地进行互动能帮助学生加深对学习主题的理解,因此学生社交互动/沟通不足可能会触发他们退出学习活动的意图[79]。MOOC一些研究强调协作、社会学习的重要性[80]。在MOOC背景下,学生与课程的互动水平可以用来预测他们从在线课程中辍学的意愿[71]。Kizilcec等发现与朋友一起注册的学生比同龄人参加课程的可能性更低[81]。Santos等发现当向学生提供互动工具时,他们会更频繁地参与交流并与他人更好地协作,增强学生的学习动机[82]。Appiah-Kubi等认为社交对学生学习体验存在影响[83],从家人、朋友或同事获得的社会支持会直接影响学生完成在线课程的可能性,导致MOOC中的辍学现象。
综上所述,个人、课程、社会等因素是影响学习者辍学的主要因素。一些学者也探讨MOOC平台、网络收益、用户偏好、感知稀缺性等因素。比如,Hone证实学习者对MOOC的感知有效性积极影响MOOC的保留率[50],Chen等发现学生MOOC学习和测试中的错误率与MOOC辍学率正相关,错误率越高的学生越容易辍学[46]。Kim等基于心理反应理论,提出限制在线课程的可访问性和可重复性的措施可能有助于降低辍学率[84]。Li等研究发现,网络外部性(网络规模、感知的互补性、网络收益等)对MOOC完成的影响随MOOC使用时间的长短而变化[85]。
3.3 辍学的预测
MOOC平台生成了足够的数据,其分析可以返回有关学生辍学的相关指标,因此是预测辍学的晴雨表。研究人员利用不同的数据分析方法对数据进行分析研究,找出规律或辍学学生特征。分析方法和数据源的选择(预测指标/变量)是预测研究的主要关注点。下面通过数据源和预测模型算法对MOOC辍学的研究进行阐述。
3.3.1 数据源
MOOC平台拥有大量的注册学生以及来自高校和各种社会机构的丰富课程信息。学习者注册后可以自由选择不同的课程和学习时间,以及决定是否参与课后和课间测验。因此,课程持续一段时间后,MOOC会留下学生学习的大量活动信息,如注册时间、个人特征、访问的课程、视频观看的中断、观看时长、参加测试、参与论坛、课程评估、参与调研、课堂互动等。整体上来说用来进行辍学预测的数据大致可以分为3类:点击流数据、MOOC平台上的其他学习行为数据、外部调研数据。
(1)点击流数据。点击流数据涵盖广泛的学习活动日志信息,也是预测分析中使用最多的数据类型。这些数据包括:访问次数、用户上课的时间段数、学生在课程上花费的周数、上次访问时间、注册时间、总点击次数、课程访问间隔、不同类别资源(视频、练习、课程提纲等)的访问间隔、总参与时间或每个会话的平均参与时间、访问了哪些页面等[86-87]。
(2)MOOC平台上的其他学习行为数据。这些数据基本可以从MOOC平台后台或者用户日志中获得,主要包括前面表2中的学习活动数据、论坛数据、平台数据、日志数据以及注册数据。其中,注册数据中可以获得人口统计学的特征变量(如年龄、受教育程度、地理位置、职业)。AI-Shabandar等开发的预测模型中,预测指标涵盖年龄、性别等,用以预测学生的MOOC保留情况[88]。当然,人口统计学数据也可以通过调查问卷获得,Greene等就使用调研的个人特征数据进行辍学率预测[69]。学习活动数据包括学习者与MOOC进行交互时的各种数据,如回答课中提问数量、回答正确的数据、参与和尝试参与课堂和课后测试的次数、测试的试题数量/类型/正确率以及课后作业的提交情况、课堂综合表现等[72]。论坛数据也是一种常用的数据类型,学者在论坛的参与(如学习者在论坛中的交互频率、发布帖子的情感、收到的评论质量、情感、帖子的内容构成、学习者在课程论坛中的网络地位等)是MOOC学生辍学预测的有效指标。David通过学习者帖子的好评、对课程的评估、尝试测试频率、未通过测试数量等数据进行辍学风险分析[89]。平台数据涉及MOOC整个平台,而不仅仅是某个MOOC课程的数据,如学习者在不同课程间的转换信息、班级辍学的人数、用户退出课程的数量(比例)、登录/退出数据、在MOOC平台上的时间等。Xing等利用辍学周、讨论帖数量、论坛浏览次数、社交网络度、活动天数等数据作为MOOC学生辍学预测的变量[86]。
(3)外部调研数据。为了更加精确地预测,研究者在网络日志数据的基础添加其他影响MOOC辍学的变量,这些变量通常与用户的兴趣、动机、态度、满意度、期望、完成课程或获得证书的投入有关,需要通过调研获得相关数据。
3.3.2 预测模型
MOOC学生辍学预测是MOOC研究的一个趋势,在过去的几年中,一些研究人员通过采用有监督[79]、无监督和半监督的机器学习架构和算法[90],开发了各种预测模型。从表2的统计显示,提高MOOC完成率最常用方法是使用机器学习算法构建辍学预测模型,以根据学生的先前行为来预测学生何时停止上课或者那些学生辍学风险最大。由于各种模型采用的数据源和分析目的不同(风险学生识别、学生MOOC行为预测、辍学时间预测),因此采用不同的机器学习算法来进行预测。有些研究为了发现最优算法,在一个研究中会同时使用几种模型进行预测能力比较。对文章中机器学习算法汇总(见图4),发现截至目前神经网络方法已经成为主要的预测算法,其次是回归分析、随机森林以及支持向量机。不同的算法在预测应用中有所差别。大多数预测研究使用点击流数据作为处理对象,将学习者分为“辍学”和“没有辍学”两类。
图4 预测所用机器学习算法汇总
这类预测一种是将问题视为一般的二元分类问题,然后使用逻辑回归(LR),支持向量机(SVM)[91]、决策树等传统机器学习算法预测[92]。早期的这些预测使用固定时间段内可用的数据来构建预测模,可以预测某个学习者辍学的可能性,但无法在早期识别出那些需要立即干预的学生,也不支持针对这些高危学生的个性化干预,无法满足MOOC这种逐步退出的学习环境[88]。随后随机森林算法、贝叶斯算法等多种算法的不断涌现,一些学者开始比较多种算法模型或使用算法重叠来获得较好辍学预测结果。Ye等将随机森林与其他算法(如逻辑回归、支持向量机和决策树)进行了比较,以预测辍学情况,发现随机森林始终比其他算法表现更好[93]。Feng等提出通过与神经网络等几种模型相比,发现非线性状态空间模型(NSSM)可以取得卓越的性能[94]。而后来的梯度提升树模型就是使用一组弱预测模型来生成一个强预测模型的集成学习算法,典型的用法是决策树和回归分析。
另一种是基于点击流数据探索建立时间预测-辍学模型,以适应MOOC更好的干预设计。它将问题视为时间序列分类问题,并使用隐马尔可夫模型(HMM)、神经网络模型等序列方法来进行预测。这些临时辍学预测模型不是使用固定期限的数据一次性识别所有风险的学生,而是使用前几周收集的数据来检测下一周的高危学生。
在多个领域取得比以往更好的效果后,深度学习也开始应用于MOOC中的辍学预测,而且成为近年来使用最多的方法。为了提升预测精度,一些学者使用更加复杂的递归神经网络(RNN)、卷积神经网络、并行神经网络以及深度神经网络模型进行预测,同时在数据源选择上使用多源数据,如利用用户日志结合调研问卷数据或者利用注册信息结合MOOC学习行为数据等。Qiu等利用DP-CNN(端到端的卷积神经网络)进行预测,实验证明在数据足够的条件下,该预测模型比相关的基线方法取得更好的效果[95]。CNN的最大优点之一是可以从原始数据中自动学习各种不可见的特征,而无需进行过多的手动处理。Moreno等研究发现,在预测中引入点击流数据以外的其他与学习者练习互动相关数据,如自我调节学习序列等数据会获得很好的预测效果[96]。此外,一些研究者将不同的算法进行叠加,获得更加准确的预测。Chen等提出了一种新的决策树和极限学习机(ELM)相结合的混合算法DT-ELM,该算法不需要迭代训练,并且兼具决策树选择分类能力强的特征[90]。Xing等构建两种算法—朴素贝叶斯网络和决策树堆叠的时间序列模型来预测未来几周可能辍学的学生[86]。
4 结语
在线课程尤其是MOOC,在疫情期间为全球学生提供优质的教育,帮助数以千万计的学生在线完成学业。然而,MOOC的高辍学率一直是一个重要问题。本文通过对2008-2020年涉及MOOC辍学研究的相关文献进行系统综述,揭示MOOC辍学的影响因素和预测辍学的主要数据源和算法模型。通过文献分析发现:辍学因素主要集中在用户因素、课程环境因素、社会环境因素等方面。其中研究最多的是课程因素和个人因素,因此在提升MOOC保留率、降低辍学率的策略研究中,研究者提供的策略和措施集中于提升学习者交互、改进课程设计(如增强现实、课程反馈、视频时长设计等)。MOOC辍学的研究方法主要是各种定量分析方法,如探索辍学因素的结构方程模型、描述统计分析等方法以及预测辍学概率的各种机器学习算法。预测算法经历从简单的单一算法(逻辑回归、支持向量机、决策树)向动态的包含时间序列的算法(隐马尔科夫模型、神经网络)以及多重叠加算法(如决策树和极限学习机相结合的混合算法DT-ELM等)转变。同时,算法的数据源也经历了从最初仅采用单一点击流数据到后来采用多种数据源(点击流数据、课程测试数据、人口统计学数据、外部调研数据等)共同进行预测的转变。