在线学习危机精准预警及干预:模型与实证研究
2019-11-09舒莹姜强赵蔚
舒莹 姜强 赵蔚
【摘要】 对学生学习行为进行全面的定量化描述、学业诊断、精准预警、处方干预,有助于准确识别学习危机学生,提供精准教学服务。本研究利用数据挖掘和学习分析技术,跟踪分析在线学习中非干预行为数据,包括过程性结构化外显信息(如学习状态、学习交互、学业水平等)和非结构化内隐信息(如学习者情绪),确定在线学习危机预警因素。本研究采用朴素贝叶斯构建精准预警模型,利用准实验设计对处于学习危机的学生进行聚类分组,并提出采用邮件通知人工干预和在线学习支持环境自动干预两种策略,同时通过信誉积分和预警指标干预制度加以保障。研究结果表明,模型能够准确识别学习者学习状态与趋势,发现学习异常者;干预策略能够有效引导学生学习,化解学习危机,促进个性化教学和学生管理。
【关键词】 学习危机;精准预警;学习干预;学习分析;数据挖掘;在线学习质量;大数据;学习过程
【中图分类号】 G442 【文献标识码】 A 【文章编号】 1009-458x(2019)8-0027-09
一、引言
在线教育不断演进发展,经历“多媒体驱动信息表征多通道个体学习”“以社会性交互为核心的虚拟社区规模化学习”“基于大数据分析的个性化学习”三个阶段,已从IT(Information Technology)迈向DT(Data Technology)时代。然而,目前在线学习仍存在高辍课率、低参与性、难以深度学习等质量危机,保证在线学习质量面临诸多挑战,精准预警与个性化干预可以有效解决这些严峻的现实问题。从预警理论和方法的坚实程度以及对预警结果正确性的信念大致可以把预警分为两类:一类是基于严格理论的预测结果,如基于量子力学理论预测某A粒子在一定时间内衰变成某B粒子的概率;另一类的极端是对未来的预言,多数来源于未来学家和科幻作家,例如托夫勒在《第三次浪潮》中对互联网科技时代的预言、诺查丹玛斯在《诸世纪》中对世界末日的预言以及凡尔纳在《海底两万里》中对潜艇和在《从地球到月球》中对人类登月的预言等(周涛, 2017)。这类预言更像是猜测而非预测,只能定性给出正确与否的判断,而不能在数字上给出精确程度。本研究探究基于大数据分析的在线学习精准预警与干预,是基于跟踪记录学生的学习过程数据,利用数据挖掘方法分析学生的学习特点,对学习发展进行可量化预测。研究一方面有助于识别不同类别学习危机群体,提供更科学合理、差异化的教学决策,适应变化的学习需求,增强在线学习投入,提升学习效果;另一方面能够推动顶层设计和实践探索有机结合,形成基于全学习过程数据的个性化、精准的教学服务,重塑学习观,有利于洞悉数据背后隐藏的学习成长轨迹、教育发展规律,提高决策的前瞻性和科学性。
二、研究现状
国外研究者对于解决大学生在线学习危机、提升在线学习质量进行了大量探索,其研究方向主要分为两类:第一类集中在大学生在线学习危机的预测因素方面,包括对学生的学习目标、学习需要、认知风格等相关数据的收集与分析,基于学生个人、社会、心理和环境等变量对学生在线学习行为表现进行预测。梅扎里等人(Mezzari & Adelina, 2013)通过使用学习情绪数据(如帖文中学生情感的体验与表达)、学习交互数据(如回复和发布)、学业水平数据(如作业成绩和测验成绩)探究在线学习危机的原因,主要包括缺乏动力、缺乏时间、缺乏与在线材料的互动、孤立感、技术知识不足等。余(Yu, 2015)将学生是否处于学习危机的指标分为学生概况(如性别、累积平均分(CGPA)等)和学生参与度(如登录次数、发布讨论数量等)两类。艾哈迈德等(Ahmed & Elaraby, 2014)在研究中使用学生的课程信息、实验室测试等级、研讨会表现、作业成绩、出勤率等数据预测学生的学习表现。科洛等(Kolo, Solomon A. Adepojub, & Alhassan, 2015)收集了尼日利亚教育学院计算机科学专业学生的数据结构课程相关数据进行研究,認为学生的个人属性,如成绩、地位、性别、财务实力、学习态度等是预测学习表现的重要因素。戈加等人(Goga et al., 2015)使用了尼日利亚巴布科克大学的学生数据,在审查文献的基础上将年龄、性别、父母的婚姻状况、父母的职业等学生背景因素纳入设计框架,基于背景因素预测学生第一学年的CGPA。此外,心理学因素也被提出作为指标来辨别具有高辍学率和学习风险的学生(Khalil & Ebner, 2014)。第二类是在线学习危机干预系统的研究。阿尔哈比等(Alharbi, Cornford, Dolder, & Lglesia, 2016)从管理者角度出发,通过使用数据挖掘技术预测处于学习危机的学生构建学习推荐系统,以指导大学生在课程的第一年进行模块选择,帮助学生提高学习效果。普渡大学的“课程信号”干预系统,辅助教师利用学习分析等技术手段为学生提供及时且具有针对性的反馈。不仅预测学生的学业行为表现,而且以可视化的方式向学生呈现其学习特征、学业历史及学习努力过程,使每一位学生都能清楚自己的学习状况与学习表现(Arnold & Pistilli, 2012)。
国内研究者针对在线学习危机的研究主要分为两类:第一类是有关大学生在线学习危机预测模型的研究。武法提等(2016)梳理了当前国内外学习分析模型存在的问题,在此基础上构建了个性化行为分析模型,设计了学习结果预测框架,旨在为个性化学习分析工具的设计提供理论指导。杨现民等(2016)从预警的实现形式、算法与工具、内容与方法等方面比较分析了国外五个典型学习预警系统,提出了学习预警系统的通用设计框架,并构建了学习预警系统的功能模型和过程模型。赵慧琼等(2017)从学习分析的视角出发,利用多元回归分析确定在线学习危机预警因素,在此基础上构建干预模型,将干预模型应用于在线教学过程,及时识别出存在学习危机的学生并提供个性化干预对策,有效提高了大学生在线学习效果。第二类是有关大学生在线学习危机干预方法的研究。杨雪等(2017)基于学习分析对大学生在线学习拖延情况进行描述,采用电子邮件、弹出窗口、学习资源推送等干预策略对学生进行个性化干预,有效减少了拖延次数与时间,改善了在线学习效果。尤佳鑫等(2016)基于多元回归模型预测结果,综合考虑性别、活跃度等因素,对部分危机学生进行干预,干预的方式包括一对一和一对多面谈、在线交流等,干预的内容包括警示、鼓励和知识点答疑等,研究结果表明基于预测的教学干预取得了较好的效果,接受干预的学生成绩进步显著。
综上所述,国内外学术界在在线学习预警和干预方面已积累宝贵经验,但仍有亟待改善的地方:①多数从理论视角构建学习成绩预测和评估框架,有必要加强实证研究;②大部分研究者使用结构化数据建立在线学习预警模型,难以准确解释在线学习行为差异,需要引入非结构化数据;③经大数据分析诊断存在危机的学生,不仅要有技术干预,更需要制度的介入,最终实现由约束转化为提高内在动机、自我效能和情绪的主动学习。
三、大学生在线学习危机预警因素
(一)结构化数据:外显信息
学习管理系统会记录学生在课程学习过程中留下的多种学习痕迹,如任务提交情况和实施互动评价情况等。通过收集这些日志数据并进行数据过滤与筛选,最终选定了包括学生学习状态(包括完成作业时间、完成评价时间、登录总时长等5项数据)、学习交互(包括发帖总次数、发帖总长度、给他人回复总数等6项数据)、学业水平(包括作业得分、测验得分和考试成绩3项数据)三个维度的结构化初始数据集,如表1所示。
(二)非结构化数据:内隐信息
依据朗(Lang, 1980)提出的自我评估人体模型评分量表(采用9分制,其中1分表示非常消极的评论,9分表示非常积极的评论,5分表示中性评论),采用人工注释法对学生的自我反思日志以及学习评价等非结构化数据(306条自我反思日志和112条学习评价)中的情绪强度进行判定。为确保样本数据编码的可靠性,由两名助理共同完成,经过数据比较Kappa系数为0.81,对意见不一致的编码进行再次讨论,以达成100%的共识,结果如表2所示。
通常,学生的情绪随时间而发生改变,教师根据折线图反应的情感变化向情绪波动或持续低下的学生提供实时反馈,如图1所示。
其中,第三周学生的自我反思日志表达了“我对陌生术语感到困惑”,词汇中“困惑”的情感词的效价等级为4(情感强度低于4.5),意味着学生产生了消极情绪。第四周学生自我评估关键语句是“这门课程我很感兴趣”,情感词“感兴趣”词典的评价等级为7(情感强度高于5.5),表明学生后来又产生了积极情绪。
四、在线学习精准预警模型构建
本研究选择朴素贝叶斯分类器作为研究预警模型,识别处于风险中的学生。它是简化的贝叶斯网络,是基于条件独立性概念的图形模型,使用有向图以紧凑方式编码一组变量的联合概率分布来描述概率变量之间的依赖关系。已有研究表明相比逻辑回归、支持向量机、决策树、多层感知器、K-最近邻算法等常用的预测方法,朴素贝叶斯方法识别出处于学习危机学生的精确度最高(Marbouti, Diefes-Dux, & Madhavan, 2016)。计算公式如下:
将全员学生数据随机分为6∶4(30∶21名学生)的训练集和测试集,基于朴素贝叶斯的预警模型分别在第二周、第四周、第六周对大学生在线学习成绩进行预测,目标变量为学生成绩,70分以上作为可以被接受的学业水平。其中,结构化数据包括学生学习状态、学习交互、学业水平数据,而非结构化数据则取自学生自我反思日志和学习评论的情感分析内容。根据预测结果得出TP(预测结果判定为风险学生,事实上也是风险学生)、FP(预测结果判定为风险学生,事实上不是风险学生)和FN(预测结果判定为不是风险学生,事实上是风险学生),根据上述公式(3)、(4)、(5),比较了仅使用结构化数据和结合使用结构化与非结构化数据集两种预测方式的P值、R值和F-Measure值差异,结果如表3所示。
可见,在预测数据集中添加非结构化数据,准确率在第二周从0.65上升到0.77,第四周从0.70上升到0.77,第六周从0.73上升到0.83;召回率在第二周从0.53上升到0.63,第四周從0.59上升到0.72,第六周从0.59上升到0.75;F-measure值在第2周从0.59上升到0.69,第4周从0.64上升到0.74,第六周从0.65上升到0.79。证明了纳入非结构化数据显著提高了预警模型的预测精度。
五、在线学习危机干预实证分析
(一)在线学习危机干预模型
基于预警模型,结合在线学习环境特征设计了在线学习危机干预模型,如图2所示。通过预警模型识别学生是否存在学习危机,若诊断结果为不存在,则继续进行下一轮诊断,实时更新学习者的个人在线学习诊断信息;若诊断结果存在学习危机,将学生分到通知干预组或在线学习支持环境干预组。
1. 通知干预
分配到“通知干预”组中的学生会收到一条消息,指出他们在线学习表现较差,可能无法完成课程,并指导他们如何提高自身的学习表现。学生收到的邮件信息中应该包含以下内容(如图3所示),告知学生通过对其近期作业成绩和其他一些可能预测学业水平的因素进行分析,发现该学生的表现可能会对其学习成绩产生负面影响,并告知学生采取怎样的措施可以改善其在线学习表现,提升自身的在线学习质量。
此外,通过分析学生提交作业的IP地址(如图4所示),如果发现存在学术不端行为的学生,也将通过邮件方式给予提醒。
2. 在线学习支持环境干预
被分配到“在线学习支持环境”小组的学生会收到一份与其学习表现相对应的学习诊断报告,如图5所示。报告包括提供综合评估学习者在线学习风险仪表盘、每周学习风险报告、针对具体学习活动的诊断与建议、每节课后学生情绪分析。其中,仪表盘使用不同的颜色表示学生在线学习状态,包括优秀、良好、普通、危险。每周学习风险报告以纵向线形式呈现,可用于跟踪学期中学生学习表现的变化。学习活动的诊断与建议分为学习水平、学习交互和学习状态三类,每个类别均由一个图标表示,学生可以点击该图标接收教学助理或教师提供的建议和其他与表现相关的信息。每个类别的建议有助于学生理解其学习绩效评估并作出相应的改进措施。情绪分析图表有助于追踪学生的学习状态趋势,情绪状态的下降会引发警报,帮助学生反思他们与课程相关的情绪,从而改善在线学习表现。
除此之外,在线学习支持环境还包含以下四点内容:提高学生对学习支持服务的认识——由在线辅导人员指导学生使用各种由平台提供的在线资源(如辅导服务、在线实验室等);促进点对点互动——由高年级的优秀学生负责组织一个学习讨论区,他们担任同伴导师,从中学生可以获得各种学习技巧,包括时间管理、减压小贴士、如何处理考试焦虑等经验分享;提供自我评估工具,如学习进度条、电子徽章、学习策略清单等,以帮助学生更好地了解自己的学业水平和学习风格,并可据此获得提高学习质量的建议;提供教育脚手架,为学生提供一系列在线开放学习内容,如“网页设计轻松学”“网页设计课程实战”等课程。
(二)在线学习危机干预制度
1. 信用积分
对于出现课程缺席、自评互评活动缺席、学习任务未按照要求完成等行为的学生,系统会扣除相应信誉积分,情节严重者将禁止参与该学习活动。倘若学生因不可抗因素导致信誉积分被扣除,可通过积极完成各项学习活动,并在活动中拥有出色的学习表现来恢复自己的信誉积分,信誉积分过低则无法通过该课程。
2. 预警指标
从学习状态、学习交互、学业水平三个维度对每个任务的在线学习表现进行评价,采用访谈、头脑风暴等方法,由学科领域权威专家制定预警指标。如图6所示,预警阈值能够根据学习者的个性特征进行动态微调,符合任一条件的学生都将作为督导对象,连续三周成为督导对象的学生将无法通过该课程。
(三)干预效果的实证分析
本研究根据“网页设计与开发”课程教学观察周(第1周~第7周)的学生学习诊断结果,选取其中32名学习风险学生作为研究对象,进行为期8周(第8周~第15周)的干预实验,同时比较两种干预策略效果。
1. 任务设计
除了完成作品,学习任务还包括互动评价、课后交流讨论、测验、自我反思日志、课程答疑讨论和考试等,具体安排如表4所示。教师分别在第7周和第15周按照考试分数占50%、互动评价分数占30%、教师评价分数占20%给出学生成绩,做出学习危机判断。
2. 学生聚类分析
基于预警指标,通过Q型聚类分析方法将32名存在学习危机的学生分为三类,如图7所示。其中,21名学生(序号为6、27、……32、22)学习成绩分数较高,接近可接受的参考值,属于轻度学习危机学生,他们的共同特征是具有较高的活动性,登录学习平台次数较频繁,少数任务未完成,表现较为良好;8名学生(序号为4、25、……2、26)属于中度学习危机学生,这个群组的共同特征是活动性一般,学习时间适中,完成部分学业任务,且完成任务平均时间较长,表现一般;3名学生(序号为12、23、1)属于重度学习危机学生,他们的共同特征是具有较低的活动性,学习时间短,学习任务未完成次数较多,且完成任务平均时间长,表现较差。
然后,在准实验研究下,根据聚类结果按照一定比例把学生分为三组,利用单因素方差分析得出组间学生先前知识水平没有显著性差异,p=0.639>0.05。其中,通知干预组11人(轻度学习危机者8人、中度学习危机者2人、重度学习危机者1人),在线学习支持环境干预组11人(轻度学习危机者7人、中度学习危机者3人、重度学习危机者1人),对照组10人(轻度学习危机者6人、中度学习危机者3人、重度学习危机者1人)。
3. 干预效果分析
对干预后三个小组的学习成绩进行单因素方差分析,分析结果显示对照组和通知干预组(p=0.019<0.05)以及对照组和在线学习支持环境干预组(p=0.001<0.05)均存在显著性差异,干预组成绩高于对照组,但两个干预组之间(p=0.203>0.05)没有显著性差异,如表5所示。
另外,研究发现两个干预组中最初被认定为高度学习危机的2名学生学习评价分数均达到了中度学习危机学生水平;最初被认定为中度学习危机的5名学生学习评价分数有2名达到了轻度学习危机学生水平,有1人达到了无风险水平;最初被认定为轻度学习危机的15名学生,有9人达到了无风险水平,如表6所示。
4. 问卷调查反馈
为了进一步验证干预策略的有效性,分别对两个干预组学生发放总计22份问卷,统计结果如表7所示。
从反馈结果来看,在通知干预组中,全部学生都认为通知邮件能够使自己意识到学习问题,90.91%的学生认同通知邮件能够提醒自己按时完成学习任务,避免出现任务逾期未完成的情况。在在线学习支持环境支持干预组中,90.91%的学生认为能够通过查看在线学习诊断报告了解自己的学习状态,及时查漏补缺;72.73%的学生认为学习进度条能够促使他们积极参与学习活动,增强学习动机;仅有54.54%的学生认可学习讨论区中的学习资源以及学习支持人员的指导作用,究其原因,学生C表示“尽管在讨论区中学长学姐分享了学习技巧和学习资源,但由于分类不够明确,难以获取”,学生D表示“不太愿意与学习支持人员交流,会觉得有点麻烦”,由此提醒在后续研究中干预策略的设计需要着重考虑干预措施的用户体验。此外,77.27%的学生认为信誉积分和督导指标制度能够促使其积极参与学习活动,按时完成学习任务,但也有个别学生表示各种约束使自己对学习产生了厌烦情绪,严重影响了在线学习体验。
六、结论
本研究采用朴素贝叶斯网络算法,通过整合学习状态、學习交互、学业水平的14个结构化数据和自我反思日志与学习评论的非结构化数据,提高了在线学习危机预警精度。经大数据分析诊断识别存在学习危机的学生,聚类分析后设置干预组(通知干预组和在线学习支持环境干预组)和对照组,在信用积分与预警指标两种干预制度保障下,准实验研究结果表明两个干预组与对照组均存在显著性差异,干预组成绩均高于对照组,但两个干预组之间没有显著性差异,表明仅通过邮件通知让学生意识到自己有学习危机的风险,就能激励学生寻求帮助、改善自身的学业表现。此外,两个干预组中学习危机学生的表现均有一定程度改善,其中高度学习危机者为0人,无风险学习者达到10人,进而印证了预警精确性和干预对策的有效性。本研究有助于人们理解影响在线学习危机的主要因素,利于教师和同伴及时发现学习异常的学生,采取有效干预和帮助措施,更好地引导学生学习。下一步研究包括:①样本数据的获取。预警的基础是数据,由于本研究受特定教学活动的限制,样本数较少,而且不同地区、不同民族的学习者学习行为存在一定的差异,后期会将成果应用到大规模在线课程学习体系中,增强预测研究的准确性和普适性。②预警指标动态调整与完善。预警指标体系的构建是学业危机预警的重要环节,但本研究在建立指标体系时仅根据数据的可获取性挑选了一些主要指标进行分析,在以后的研究中还将考虑采集学生的脑电、心率等生理数据及人格心理数据,对预警指标进行动态修正、补充和完善,以期获得更为可靠的预警结果,促进学生学业发展。
[参考文献]
武法提,牟智佳. 2016. 基于学习者个性行为分析的学习结果预测框架设计研究[J]. 中国电化教育(01):41-48.
杨现民,叶洋,王林丽. 2016. 基于大数据的在线学习预警模型设计——“教育大数据研究与实践专栏”之学习预警篇[J]. 现代教育技术,26(07):5-11.
杨雪,姜强,赵蔚,李勇帆,李松. 2017. 大数据时代基于学习分析的在线学习拖延诊断与干预研究[J]. 电化教育研究(07):51-57.
尤佳鑫,孙众. 2016. 云学习平台大学生学业成绩预测与干预研究[J]. 中国远程教育(09):14-20.
赵慧琼,姜强,赵蔚,李勇帆,赵艳. 2017. 基于大数据学习分析的在线学习绩效预警因素及干预对策的实证研究[J]. 电化教育研究(01):62-69.
周涛. 2017-05-31. 预测的局限性[EB/OL]. [2018-11-01]. http://blog.sciencenet.cn/blog-3075-1058131.html
Ahmed, Elaraby. (2014). Sayed Elaraby I. Data Mining: A prediction for Students Performance Using Classification Method. World Journal of Computer Application & Technology, 2(2),43-47.
Hanan Khalil, Martin Ebner. (2014). MOOCs Completion Rates and Possible Methods to Improve Retention-A Literature Review. World Conference on Educational Multimedia, Hypermedia and Telecommunications. Chesapeake, VA: AACE, 1236-1244.
Ke Arnold , MD Pistilli.(2012). Course signals at Purdue: using learning analytics to increase student success. International Conference on Learning Analytics and Knowledge. New York: ACM Press, 267-270.
Kolo David Kolo, Solomon A. Adepojub, John Kolo Alhassan. (2015). A Decision Tree Approach for Predicting Students Academic Performance. Education and Management Engineering, 5, 12-19.
Lang P J. (1980). Behavioral treatment and bio-behavioral assessment: Computer applications. Norwood, N. J.: Ablex Pub. Corp.
Marbouti F, Diefes-Dux H A, Madhavan K. (2016). Models for early prediction of at-risk students in a course using standards-based grading. Computers & Education, 103, 1-15.
Mezzari, Adelina. (2013). Strategies for the early detection of evasion propensity. Knowledge Management & E-Learning : an International Journal, 5(1), 104-116.
M Goga, S Kuyoro, N Goga.(2015). A Recommender for Improving the Student Academic Performance [J]. Procedia-Social and Behavioral Sciences, 180(5), 1481-1488.
Yu P T. (2015). The benefits of a challenge: student motivation and flow experience in tablet-PC-game-based learning. Interactive Learning Environments, 23(2), 172-190.
ZahyahAlharbi, James Cornford, Liam Dolder, Beatriz De La Iglesia. (2016). Using data mining techniques to predict students at risk of poor performance. Sai Computing Conference. London: IEEE Computer Society Press, 523-531.
收稿日期:2018-12-25
定稿日期:2019-04-24
作者簡介:舒莹,硕士研究生;姜强,博士,副教授,博士生导师;赵蔚,博士,教授,博士生导师。东北师范大学信息科学与技术学院(130117)。
责任编辑 刘 莉 张志祯