网络学习行为与成绩的预测及学习干预模型的设计
2019-04-01王改花傅钢善
王改花 傅钢善
【摘要】网络学习已成为互联网+时代教育发展的重要组成,如何对网络学习者的学习行为与成绩进行预测,依据预测结果实施学业预警,并为教学决策提供依据,是网络教育需要解决的问题之一,也是教育大数据研究的重要问题。本研究采用数据挖掘技术中的决策树方法对网络学习者的学习行为与成绩进行了预测,构建了适应性学习系统学习干预模型,研究发现总成绩不及格的最高概率是男生、学习时间跨度表现较差的最高概率是硕士生、学习总时长表现较差的最高概率是男生、平均每次在线学习停留时长表现较差的最高概率是男理科生、讨论交流表现较差的最高概率是艺术生、学习笔记表现较差的最高概率是女艺术生、接受反馈数量较高的最高概率是男生。
【关键词】 决策树;数据挖掘;网络学习;学习行为;学习成绩;学习干预;适应性学习;学业预警;教学决策
【中图分类号】 G434 【文献标识码】 A 【文章编号】 1009-458x(2019)2-0039-10
一、引言
截至2017年12月,中国在线教育用户规模达1.55亿,较2016年底增加1,754万人,年增长率为18.8%;在线教育使用率为20.1%,年增长率为12.7%(中国互联网络信息中心, 2018)。网络学习已成为互联网+时代教育发展的重要组成。《教育信息化“十三五”规划》明确指出,依托网络学习空间逐步实现对学生日常学习情况的大数据采集和分析,优化教学模式(中华人民共和国教育部, 2016)。目前关于教育大数据的研究与实践正处于起步探索阶段,推进教育大数据普及应用是当前的研究热点。教育大数据研究与实践一方面对掌握教育发展现状、制定科学教育政策、配置合理的教育资源等具有重要意义;另一方面对实现个性化学习、优化教学、多元学业评价、实时学习预警等具有重要意义。如何对网络学习者的学习行为与成绩进行预测,依据预测结果实施学业预警,并为教学决策提供依据,是网络教育需要解决的问题之一(徐鹏, 等, 2013; Macfadyen & Dawson, 2010),也是教育大数据研究的重要问题(Kostopoulos, et al., 2017)。数据挖掘是大数据采集和分析的重要技术手段。
二、研究综述
对采用数据挖掘方法预测网络学习者学习表现的研究进行分析,可发现如下特点:第一,已有研究主要采用决策树、回归分析、神经网络、朴素贝叶斯、支持向量机、时序分析、聚类等算法,其中决策树与回归分析用得最多。第二,研究内容主要集中在成绩预测理论模型的构建、成绩预测模型的实证研究、算法准确性的对比、算法的开发、预警因素研究、综述研究等。关于成绩预测理论模型的构建,这类研究主要采用数据挖掘技术从理论上构建成绩预测模型(Ohia, 2011;武法提, 2016; 王林丽, 等, 2016; 牟智佳, 等, 2017a);关于成绩预测模型的实证研究,这类研究主要开发成绩预测系统或实现成绩预测模型,并将其应用于教学实践中(Macfadyen & Dawson, 2010; Xing, et al., 2015; 马杰, 等, 2014; 王亮, 2015; 孙力, 等, 2015, 2016; 陈子健, 等, 2017);关于算法准确性的对比研究,这类研究主要是通过对比几种不同的预测算法,来发现预测准确性最高的算法(Kostopoulos, et al., 2017; Romero, et al., 2013; Costa, et al., 2017; 牟智佳, 等, 2017b);关于算法开发,这类研究主要是结合几种数据挖掘的算法构建一种集成分类器,从而提升分类的准确性(Kotsiantis, et al., 2010; Huang & Fang, 2013);关于预警因素研究,这类研究主要是探索哪些属性和因素能够较好地预测学习者学习绩效(Romero, et al., 2013; Pursel, et al., 2016; Barba, et al., 2016; 傅鋼善, 等, 2014; 赵慧琼, 等, 2017; 牟智佳, 等, 2017b);关于综述研究,这类研究主要是对基于数据挖掘的学习预警研究进行文献综述(肖巍, 等, 2018)。第三,研究工具主要是Weka,其次还有SPSS、SQL Sever 2008 Data Mining、SSAS等。第四,使用的预测分析变量主要有人口学变量、个人背景信息、学习行为参与变量,用这些变量来预测学习者的总成绩(通过或未通过),对学习者行为表现的预测相对较少。第五,研究对象主要是大学生,数量大多数是介于100~500人之间,数量相对较小。第六,研究正处于起步阶段,是未来重要的研究领域,但国内研究与国外研究相比,国内研究相对起步要晚,研究的广度与深度有待加强。因此本研究采用数据挖掘技术中的决策树方法对网络学习者的学习行为与成绩进行预测,设计适应性学习系统学习干预模型,以期为教师了解学习者的群体特征与改善教学决策提供数据依据,同时为适应性推送服务和有效学习提供理论基础。
三、研究方法
(一)研究对象
自2002年以来,“现代教育技术”大规模在线开放课程与时俱进、不断更新,先后以国家精品网络课程、国家精品资源共享课、中国大学MOOC、国家精品在线开放课程等多种形式的大规模在线开放课程开展网络学习。2017年被认定为首批国家精品在线开放课程。课程丰富的特色资源,灵活多样的教学方法和行之有效的学习活动,受到学习者的普遍好评。
本研究对象为2012~2013学年第二学期参加“现代教育技术”在线开放课程学习的陕西师范大学2,687名大三师范类本科生和210名教育硕士,共计2,897名。在实际学习过程中,有56名学习者由于种种原因没有成功注册参与在线开放课程的学习,因此有效学习人数为2,841名。通过前期数据清洗(即处理原始数据中的噪声数据、无关数据、缺失值、脏数据、孤立点等),研究对象共剩余2,801名,其中性别分布为943名男生,1,858名女生;学科背景分布为1,399名理科生,995名文科生,407名艺术生;学历分布为2,657名本科生,144名硕士。为了确保研究结果的可信,本研究还进行了两次验证,验证结果与本研究结果一致,本文呈现的是第一次的验证结果。
(二)数据收集与分析
决策树是一种常用的数据挖掘分类方法,常用于预测模型,它通过将大量数据有目的地分类,从中找到一些具有商业价值的、潜在的信息。决策树的结构,顾名思义,就像一棵树,它利用树结构将数据记录进行分类,树的一个叶节点就代表某个条件下的一个记录集,根据记录字段的不同取值建立树的分支;在每个分支子集中重复建立下层节点和分支,便可生成一棵决策树(唐华松, 等, 2001)。决策树方法的优点在于形式简单,计算复杂度不高,易于实现,输出结果易于理解;数据的准备工作简单,能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果;易于通过静态测试来对模型进行评测,可以测定模型可信度(王国平, 2014, p.142)。基于文献综述与决策树的优点,本研究采用决策树方法对网络学习行为与成绩进行预测。
本研究的研究工具为SQL Sever 2008 Data Mining,采用Microsoft SQL Server Analysis Services中的Microsoft决策树算法。该算法是一种混合决策树算法,支持分类与回归两种任务,可以对离散属性或连续属性进行预测性建模,本研究对离散属性进行预测性建模。数据挖掘的过程为问题定义、数据准备、数据预处理、数据挖掘、模型评价。
1. 问题定义
本研究采用决策树挖掘模型对不同性别(UserSex,男、女)、不同学科背景(Department,文科、理科、艺术)、不同学历(Edulevel,本科、硕士)的学习者群体学习行为特征及总成绩进行评估与预测,以期讓教师能够更加清晰深入地了解每类学习者群体的特征,为教育决策提供实证数据依据。
2. 数据准备
为了建立学习者模型,必须收集大量的学习者信息数据,进行数据预处理。因此,需要对模型中所有需要的历史数据进行分析和处理,以便充分挖掘出学习者的关键行为特征。本研究选取了三类特征数据:①学习者基本特征,即学习者资料数据,该特征数据集包括2,841条记录,每条记录包括21个特征;②学习者行为特征,即学习者的学习行为特征数据,该特征数据集包含9张表、2,548,709条记录、137个行为特征;③学习者学习效果特征,即学习者成绩,该特征集包含6张表、55,957条记录。
3. 数据预处理
数据预处理是数据挖掘前期重要的、不可忽视的环节。据统计,在完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅占总工作量的10%左右(元昌安, 2009, p. 40)。数据预处理主要包括数据清洗、数据集成、数据变换、数据规约。通过数据预处理,本研究提取了9个特征,分别为学习时间跨度(TotalTime,简称TT),即学习者从第一次登录系统到最后一次退出系统的时间周期;学习总时长(OnlineMinute,简称OM),即学习者在该网络学习平台上累积的学习时间长短;学习次数(LoginNum,简称LN),即学习者登录学习平台的次数;平均每次在线学习停留时长(AverageTimePerLogin,简称ATPL),即学习者平均每次学习持续的时间长度;重复学习率(KnowledgePerRepeat,简称KPR),即学习者平均对每个知识点重复学习的次数;讨论交流(简称BBS),即参与BBS讨论交流的特征;学习笔记(简称Blog),即学习者参与数字学习笔记的特征;接收反馈数量(SmsInfo,简称SI),即学习者在学习过程中接收督促学习信息的数量;总成绩(ScoreTotal,简称ST),即学习者学习总成绩。
数据清洗,即处理原始数据中的噪声数据、无关数据、缺失值、脏数据、孤立点等。例如:教育硕士的学历信息有误,通过SQL语言改正;删除只注册但并未进行学习的学习者信息、交换生与休学生信息、考试权限为0的学习者信息;删除教师、其他用户(除陕西师范大学)、管理者信息;删除空缺值信息等。
数据集成,即将两个或多个数据源中的数据,存放在一个一致的数据库中,重点考虑数据一致性和冗余。
数据变换,即将数据变换为适合于数据挖掘的形式。包括数据泛化、数据规范化、特征构造、数据离散化。①数据泛化,即使用概念分层,用高层概念替换低层或原始数据。本研究对专业通过高层概念学科背景“理科、文科、艺术”实现泛化。文科包括历史文化学院、文学院、外国语学院、政治经济学院、心理学院、教育学院,理科包括化学化工学院、计算机科学学院、旅游与环境学院、数学与信息科学学院、物理学与信息技术学院、生命科学学院、新闻与传播学院(教育技术学专业),艺术包括音乐学院、美术学院、体育学院。②数据规范化,即将原来的度量值转换为无量纲的值。本研究选取最大—最小规范化,使连续型数据取值范围为[0-1]。③特征构造,即利用已知属性,构造新的属性,以便更好地刻画数据的特性,帮助数据挖掘过程。其目的是帮助提高精度和对高维数据结构的理解。但数据集的特征维数并非越高越好,维数太高容易导致维灾难,维数太低又不能有效获取数据集中的重要信息。本研究构造的特征包括学习时间跨度(如公式1)、平均每次在线学习停留时长(如公式2)、重复学习率(如公式3)、讨论交流(讨论交流与学习者的发主帖数量、点击量、被回帖数量以及回帖数量、点击量特征密切相关,且考虑到不同低维特征反映高维特征的重要性不同,为其设置不同的权重,如公式4)、学习笔记(学习笔记与学习者的学习笔记数量、更新量、点击量密切相关,且考虑到不同低维特征反映高维特征的重要性不同,为其设置不同的权重,如公式5)、总成绩(总成绩由网上作业成绩、实践技能成绩、网上考试成绩、期末笔试成绩构成,如公式6)。④数据离散化,决策树要求数据是分类属性,因此需要对数值进行离散化。无监督离散化方法主要有等宽离散化、等频离散化、K均值离散化,K均值性能最好,因此本研究选取K均值离散化方法,结果如表1、表2所示。
公式1:学习时间跨度=学习者最后一次退出平台时间-学习者第一次登陆平台时间…(1)
公式2:平均每次在线学习停留时长=学习总时长/学习次数…(2)
公式3:重复学习率[=k=0n]学习者每个知识点重复学习次数/学习者学习知识点总数…(3)
公式4:讨论交流=0.6×(0.4×发主题帖数量+0.3×主题帖点击量+0.3×主题帖被回帖数量)+0.4×(0.4×回帖数量+0.6×回帖点击量)…(4)
公式5:学习笔记=0.5×数量+0.3×更新量+0.2×点击量…(5)
公式6:总成绩=0.1×网上作业成绩+0.2×实践技能成绩+0.2×网上考试成绩+0.5×期末笔试成绩…(6)
数据规约,即通过使用编码或变换,得到原始数据的归约或压缩表示。例如将在线总时长数据进行无损归约,将原始数据“005-01-01 17∶09∶03.877”变换单位为分钟的数据。
四、研究结果
(一)总成绩决策树数据挖掘结果
1. 挖掘结构
挖掘结构如图1所示。
2. 挖掘模型
将UserNum设为“键”列,用于唯一标识事例表中的每条记录;将UserSex、Department、EduLevel作为“输入”列,作为发现数据模式的基础;将ScoreTotal作为“可预测”列,对学习者的学习成绩进行预测。将测试事例的百分比设定为30%,即记录中的70%将被用于定型该数据挖掘,30%被用于测试模型。如图2所示。
3. 数据挖掘结果
Microsoft 決策树查看器提供两种视图“决策树”“依赖关系网络”。“决策树”视图结果如图3、图4、图5、图6所示,特点是生成一棵形如二叉或多叉树的决策树。该树是水平布局,根节点在最左边,每一个节点包含一个柱状条,用不同颜色来代表不同的状态。树的叶子节点代表某一类别值,非叶子节点代表某个一般属性的一个测试,测试的输出构成该非叶子节点的多个分支。从根节点到叶子节点的每条路径形成一条分类规则,一棵决策树能够方便地转化为一系列分类规则。可以依据分类规则直观地对未知类别进行预测。各节点的背景色表示所选状态的事例的密集程度,颜色越深表示该事例越多。通过决策树的树形可视化,可以了解每个叶子节点的分类规则所需要的最重要的变量。“依赖关系网络”视图结果,如图7所示,特点是可以显示挖掘模型中输入属性和预测属性间的依赖关系。每条边有一个权值,它与左边的滑块相关。通过调整查看器左侧的滑块可以查看依赖关系强度,若向下拉动滑块,则查看器中只会显示最强链接。通过调整左侧滑块,可以发现,成绩与学科背景的关系最密切,其次是性别,最后是学历。
图3是学习者总成绩为A的决策树,所提取的最重要的规则为1条:IF UserSex='女'AND Edulevel='硕士 ' THEN ScoreTotal='A'。得到以下结论:总成绩得A的最高概率是女硕士生;性别是最重要的变量,其次是学历变量,最后是学科背景。
图4为总成绩为B的决策树,所提取的最重要的规则为2条:①IF Department= '文科' AND UserSex= '女 ' THEN TotalScore= ' B ';②IF Department= '理科' AND UserSex= '非男 ' THEN TotalScore= ' B '。得到以下结论:总成绩得B的最高概率是文科女生,其次是理科女生;学科背景是最重要的变量,其次是性别变量,与学历变量没有关系。
图5所示为总成绩为C的决策树,所提取的最重要的规则为1条:IF Department= '艺术 ' THEN TotalScore= ' C '。得到以下结论:总成绩得C的最高概率是艺术生;学科背景是最重要的变量,其次是性别变量,与学历变量没有关系。
图6为总成绩为D的决策树,所提取的最重要的规则为2条:①IF UserSex= ' 男 ' THEN TotalScore= ' D ' ;②IF UserSex= ' 女 ' AND Department= ' 艺术 ' THEN TotalScore=' D ' 。 得到以下结论:总成绩为D的最高概率是男生,其次是女艺术生;性别是最重要的变量,其次是学科背景变量,与学历变量没有关系。
图7为总成绩决策树依赖关系图。
通过上述“决策树”和“依赖关系网络”能得到以下结论:成绩与学科背景的关系最密切,文科生得较高分的概率高,艺术生得低分的概率高;其次是性别,女生得较高分的概率高,男生得较低分的概率高;学历对总成绩的影响很小,仅与总成绩得A的关系密切,本科生与硕士生并没有显著差异。
根据数据挖掘结果,小结如表3。
(二)行为特征决策树数据挖掘结果
学习者学习时间跨度决策树、学习总时长决策树、学习次数决策树、平均每次在线学习停留时长决策树、重复学习率决策树、学习笔记决策树、讨论交流决策树、接收反馈数量决策树的数据挖掘过程与方法和总成绩决策树的数据挖掘过程与方法一致。由于数据挖掘结果图片与规则较多,故在此不再详细呈现,小结如表4,具体结论如下:
学习时间跨度决策树结论:①学习时间跨度为“高”的最高概率是本科生;学历是最重要的变量,与学科背景、性别无关。②学习时间跨度为“中”的最高概率是本科生;学历是最重要的变量,其次是性别变量,最后是学科背景。③学习时间跨度为“低”的最高概率是硕士生;学历是最重要的变量,其次是学科背景变量,与性别无关。
学习总时长决策树结论:①学习总时长为“高”的最高概率是女文科硕士与女理科硕士,其次是女艺术生;性别是最重要的变量,其次是学科背景变量,最后是学历。②学习总时长为“中”的决策树找不到任何拆分,即学习总时长为“中”与学历、学科背景、性别均无关。③学习总时长为“低”的最高概率是男生;性别是最重要的变量,其次是学科背景变量,最后是学历。
学习次数决策树结论:学习次数决策树找不到任何拆分,即学习次数与性别、学科背景、学历并无关系。
平均每次在线学习停留时长决策树结论:①平均每次在线学习停留时长为“高”的最高概率是女生,其次是男文科生与男艺术生;性别是最重要的变量,其次是学科背景,与学历无关。②平均每次在线学习停留时长为“中”的决策树,找不到任何拆分,即平均每次在线学习停留时长为“中”与学历、学科背景、性别均无关。③平均每次在线学习停留时长为“低”的最高概率是男理科生;性别是最重要的变量,其次是学科背景变量,与学历无关。
重复学习率决策树结论:①重复学习率为“高”的最高概率是文科生与理科生;学科背景是最重要的变量,与性别、学历无关。②重复学习率为“中”决策树找不到任何拆分,即重复学习率为“中”与学历、学科背景、性别均无关。③重复学习率为“低”的最高概率是艺术生;学科背景是最重要的变量,与性别、学历无关。
讨论交流决策树结论:①讨论交流为“高”的最高概率是文科生与理科生;学科背景是最重要的变量,与性别、学历无关。②讨论交流为“中”的决策树与讨论交流为“低”的决策树找不到任何拆分,即讨论交流为“中”或“低”与学历、学科背景、性别均无关。③讨论交流为“无”的最高概率是艺术生,其次是文科女硕士与理科女硕士;学科背景是最重要的变量,其次是性别变量,最后是学历。
学习笔记决策树结论:①学习笔记为“高”的最高概率是女文科生与女理科生;性别是最重要的变量,其次是学科背景变量,与学历无关。②学习笔记为“中”的决策树与学习笔记为“低”的决策树找不到任何拆分,即学习笔记为“中”或“低”与学历、学科背景、性别均无关。③学习笔记为“无”的最高概率是女艺术生;性别是最重要的变量,其次是学科背景变量,与学历无关。
接收反馈数量决策树结论:①接收反馈数量为“高”的最高概率是男生;性别是最重要的变量,与学科背景、学历无关。②接收反馈数量为“中”的决策树找不到任何拆分,即接收反馈数量为“中”与学历、学科背景、性别均无关。③接收反馈数量为“低”的最高概率是男硕士生,其次是女文科生与女理科生;性别是最重要的变量,其次是学历、学科背景。
(三)数据挖掘模型评估
由于数据挖掘选取的测试数据可能存在一定的偶然性和必然性,并不能保证挖掘出的结果是正确和适用的,因此需要对挖掘出的模型进行评估和检验。在Microsoft SQL Server Analysis Services的挖掘准确性图表中提供了用来度量所创建模型质量和精确性的工具,可以通过提升图来进行模型验证。本研究所有挖掘模型的预测概率介于70.25%~95.10%之间,说明建立的所有挖掘模型具有比较高的可靠性和准确性。
五、研究结论与讨论
(一)数据挖掘结果原因分析与讨论
本研究通过建立数据挖掘模型、结果分析、模型验证,发现采用决策树方法可以较好地预测网络学习行为与成绩,能够较好地解释目前网络学习中的一些现象,例如男生或艺术生总成绩容易出现危机,男生接受反馈数量较多等;同時也有一些新的发现,例如女硕士生与文科女生学业成绩表现较好,艺术生讨论交流表现较差,女艺术生学习笔记表现较差等。依据研究结果,下面将从数据挖掘结果原因分析与在线学习群体干预策略角度展开讨论。
第一,男生或艺术生总成绩存在危机的概率高,总成绩与学科背景的关系最密切,其次是性别。已有研究表明沉浸状态对学习有积极影响(Salanova, 2006),本研究行为特征数据挖掘结果表明男生与艺术生的行为参与度相对较差,男生与艺术生总成绩表现较差,容易出现学习危机。对艺术生和男生的干预策略是在课程内容方面提供更多的干预和帮助,为其提供小步调的学习推送服务,包括学习通知、课程内容、学习资源、学习基本情况、学业风险评估等,提高其学习行为参与度,从而提高学业成绩。
第二,硕士生的学习时间跨度表现较差。本研究中的硕士是成人联考硕士,需要兼顾工作、学业与家庭,因此参与网络学习的时间和精力非常有限。对硕士生的干预策略是在硕士生注册学习之后,持续通过短信、微信、邮件等形式提醒硕士生及时参与课程学习。
第三,男生的学习总时长表现较差、接受反馈数量较多,男理科生的平均每次在线学习停留时长表现较差。调查发现男生对待网络学习的态度、自觉性、认真与努力程度相对较弱,且在网络学习中更容易注意力分散,易被无关信息干扰(如网络游戏、新闻、社交等),自控能力较弱。因此对这类学习者就要给其推送更多有意思的资源和活动,提高其对学习课程的兴趣和学习动机,同时通过各种途径加大对其学习的监控与调节力度。
第四,艺术生的重复学习率、讨论交流表现较差,女艺术生的学习笔记表现较差。原因并非艺术生认知能力差,而是学习习惯较差,自我调控能力较弱,因此艺术生在网络学习过程中互动表现也较弱(傅钢善, 等, 2014)。因此,对艺术生的干预策略是设计更多的协作学习活动,采用基于问题的学习、基于项目的学习、基于探究的学习等方法增加交互行为,让其体验协作的乐趣和好处,同时增加参与讨论交流的提醒或奖惩措施;对女艺术生的干预策略是改进学习策略,尤其是提供反思策略的指导与帮助,并设置提醒和奖惩措施提醒其参加学习笔记活动。
(二)创建适应性学习干预模型
通过数据挖掘结果,可以为学习者创建适应性学习系统,在适应性学习系统中搭建学习干预模型,如图8所示。传统学习管理系统通常为所有学习者呈现完全相同的课程,而不考虑学习者的个体特征、情况和需求,这种一刀切的方法往往导致挫败感、学习困难和高辍学率(Dagger, et al., 2005)。适应性学习系统为探索个性化、适应性的学习干预提供了可能。
1. 时间维度视角
在学习的不同阶段(学习前、学习中、学习后)提供不同的干预策略。适应性学习系统中的学习干预模型是不断更新、实时分析、循环进行的,伴随着学习的不同阶段(学习前、学习中、学习后)提供不同的干预策略。学习者在学习的某一阶段不存在学习危机,但有可能在下一阶段存在学习危机。一旦出现学习危机,及时给予恰当的干预,从而实现学习者的有效学习,提高学习效果。在学习前,干预的方式是群体干预。适应性学习系统内仅有学习者的人口学特征数据,根据已有研究(表3与表4)中的学习者群体差异特征给予群体干预,具体干预策略见本文数据挖掘结果原因分析与讨论部分。在学习中,干预的方式有群体干预和个体干预。通过学习者的人口学特征和行为特征进行数据挖掘,根据预测结果,对存在学习危机的学习群体和个体,教师及时做出教学决策并制定干预措施,教学决策包括群体差异指导、因材施教、不同奖惩机制等,干预措施包括学习进度提示器、数字仪表盘、弹幕、提示窗口、资源推送、短信、微信、电子邮件、学习策略指导等。在学习后,干预的方式有群体干预和个体干预,一方面,根据数据挖掘结果与学习者的表现,对学习者的学业成绩进行多元评价;另一方面,对学习者模型进行调节,完善数据挖掘模型,进入新一轮的数据挖掘循环。
2. 课程开发者视角
开发适应性学习系统,完善干预措施小工具,包括学习进度提示器、数字仪表盘、弹幕、提示窗口、资源推送、短信、微信、电子邮件、学习策略指导等。学习进度提示器能够清晰地显示学习进度,并提醒学习是否达标。数字仪表盘能够可视化地呈现学习者学习活动和任务完成情况,帮助学习者自我反思和评价;同时学习者也可以看到其他学习者的数字仪表盘,以便学习者之间互相督促学习。弹幕、提示窗口能够实时或间断地为学习者提供提醒反馈和适应性资源推送,与短信、微信、电子邮件等无缝对接,通过多种途径给学习者以提醒和监督,尤其是对存在学习危机的学习者,提醒其学习活动的表现、知识内容的表现、行为特征的表现。学习策略指导为学习者提供包括信息素养策略、反思总结策略、资源管理策略、合作交流策略、自我调节策略等学习策略的指导,尤其是为容易出现学习危机或行为参与度低的学习者提供学习策略资源推送。
3. 教师视角
首先,教师应实施群体差异指导、因材施教、不同奖惩机制等教学策略。具体干预策略见本文数据挖掘结果原因分析与讨论部分。其次,充分发挥教师的主导作用。网络学习的优势是能够实现自主学习,但是其弊端是弱控制性,包括学习资格获取的弱控制性、管理方式的弱控制性、教学过程的弱控制性、师生关系的弱控制性、考核方式的弱控制性等(衷克定, 2011, pp. 21-25)。网络学习使学习者缺乏时间认知、容易产生惰性、交互行为存在滞后、提交作业存在抄袭等,这些不仅会影响学习者的行为状态,而且会影响网络学习效果。因此要充分发挥教师的主导作用,教师要及时回复学习者的留言,可适当安排即时交流时间或直播,积极对学习者的行为状态进行调控,采用多种途径激发学习者的学习动机等。
4. 学习者视角
首先,建议学习者自觉提高网络学习参与度,增加学习时间跨度,养成记录反思笔记的良好习惯,对于复杂的知识增加重复学习次数,积极参与讨论交流,提高自己对网络学习的归属感和沉浸性以及自身学习效果。其次,建议学习者自觉改进学习策略:根据教师教学安排循序渐进地完成学习任务,在网络学习前确立明确的学习目标,制定明确的学习计划(尤其是学习时间、学习内容等的制定),并严格按照学习计划完成学习任务;积极对自己的情感体验进行调控,尤其是那些对网络学习持消极态度的学习者,要经常参与讨论交流、反思笔记等交互,从中获得学习的成功感和归属感;对自己的行为和心理进行及时控制、调节和评价。
六、结语
本研究采用数据挖掘技术中的决策树方法对网络学习者的学习行为与成绩进行了預测,构建了适应性学习系统学习干预模型,为适应性学习系统提供了实证依据。当然,本研究还存在一些不足,有待改进。首先,研究结论有待进一步验证。本研究的研究对象仅是陕西师范大学参加“现代教育技术”在线开放课程学习的学习者,研究对象的范围有局限性,应在后续研究中扩大研究对象范围,对研究结论进行验证与完善,得到更科学可靠的研究结论。其次,适应性学习系统的学习干预模型有待进一步完善。本研究仅根据实证研究数据从理论上设计了学习干预模型,并没有在网络学习中实际使用,在后续研究中有待开发适应性学习系统,对学习干预模型进行验证与完善,并提高预测的准确性。最后,研究数据有待进一步深度挖掘。本研究尚未对“现代教育技术”在线开放课程后台数据进行完整的数据挖掘,仍然有大量的潜在模式没有被发现,未来研究的重点应该关注多种数据挖掘技术,如利用Web数据挖掘技术对文本信息进行知识发现,利用异常检验技术发现一些特殊的学习者(如网络学习欺诈行为)、利用时间序列分析发现学习者随时间变化而变化的规律等。
[参考文献]
陈子健,朱晓亮. 2017. 基于教育数据挖掘的在线学习者学业成绩预测建模研究[J]. 中国电化教育(12):75-81,89.
傅钢善,王改花. 2014. 基于数据挖掘的网络学习行为与学习效果研究[J]. 电化教育研究(9):53-57.
马杰,赵蔚,张洁,等. 2014. 基于学习分析技术的预测模型构建与实证研究[J]. 现代教育技术(11):30-38.
牟智佳,武法提. 2017a. 教育大数据背景下学习结果预测研究的内容解析与设计取向[J]. 中国电化教育(7):26-32.
牟智佳,武法提. 2017b. MOOC学习结果预测指标探索与学习群体特征分析[J]. 现代远程教育研究(3):58-66,93.
孙力,程玉霞. 2015. 大数据时代网络教育学习成绩预测的研究与实现——以本科公共课程统考英语为例[J]. 开放教育研究(3):74-80.
孙力,张凯,丁波. 2016. 基于数据挖掘的网络教育学习成绩细分预测的研究与实现——以本科成人学位英语考试为例[J]. 中国远程教育(12):22-29.
唐华松,姚耀文. 2001. 数据挖掘中决策树算法的探讨[J]. 计算机应用研究(8):21-22,25.
王国平,郭伟宸,汪若君. 2014. IBM SPSS Modeler数据与文本挖掘实战[M]. 北京:清华大学出版社:142.
王亮. 2015. 学习分析技术建立学习预测模型[J]. 实验室研究与探索(1):215-218,246.
王林丽,叶洋,杨现民. 2016. 基于大数据的在线学习预警模型设计——“教育大数据研究与实践专栏”之学习预警篇[J]. 现代教育技术(7):5-11.
武法提,牟智佳. 2016. 基于学习者个性行为分析的学习结果预测框架设计研究[J]. 中国电化教育(1):41-48.
肖巍,倪传斌,李锐. 2018. 国外基于数据挖掘的学习预警研究:回顾与展望[J]. 中国远程教育(2):70-78.
徐鹏,王以宁. 2013. 大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J]. 远程教育杂志(6):11-17.
元昌安. 2009. 数据挖掘原理与SPSS Clementine应用宝典[M]. 北京:电子工业出版社:40.
赵慧琼,姜强,赵蔚,等. 2017. 基于大数据学习分析的在线学习绩效预警因素及干预对策的实证研究[J]. 电化教育研究(1):62-69.
中國互联网络信息中心. 2018-03-05. 第41次《中国互联网络发展状况统计报告》[EB/OL]. [2018-05-15]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201803/t20180305_70249.htm
中华人民共和国教育部. 2016-06-07. 教育部关于印发《教育信息化“十三五”规划》的通知(教技〔2016〕2号)[EB/OL]. [2018-03-14].http://www.moe.edu.cn/srcsite/A16/s3342/201606/t20160622_2693 67. html
衷克定, 2011. 在线学习与发展[M]. 北京:高等教育出版社:21-25.
Barba, P. G., Kennedy, G. E. & Ainley, M. D. (2016). The role of students motivation and participation in predicting performance in a MOOC motivation and participation in MOOCs. Journal of Computer Assisted Learning, 32(3), 218-231.
Costa, E. B., Fonseca, B., Santana, M. A., de Araújo, F. F. & Rego, J. (2017). Evaluating the effectiveness of educational data mining techniques for early prediction of students academic failure in introductory programming courses. Computers in Human Behavior, 73, 247-256.
Dagger, D., Wade, V. & Conlan, O. (2005). Personalisation for all: making adaptive course composition easy. Educational Technology & Society, 8(3), 9-25.
Huang, S. & Fang, N. (2013). Predicting student academic performance in an engineering dynamics course: a comparison of four types of predictive mathematical models. Computer & Education, 61, 133-145.
Karampiperis, P., & Sampson, D. G. (2005). Adaptive learning resources sequencing in educational hypermedia systems. Educational Technology & Society, 8 (4), 128-147.
Kostopoulos, G., Lipitakis, A. D., Kotsiantis, S. & Gravvanis, G. (2017). Predicting Student Performance in Distance Higher Education Using Active Learning. In G. Boracchi, L. Iliadis, C. Jayne & A. Likas (Eds.) Communications in Computer and Information Science (pp. 75- 86). Cham: Springer.
Kotsiantis, S., Patriarcheas, K. & Xenos, M. (2010). A combinational incremental ensemble of classifiers as a technique for predicting students performance in distance education. Knowledge-Based Systems, 23 (6), 529-535.
Macfadyen, L. P. & Dawson, S. (2010). Mining LMS data to develop an “early warning system” for educators: a proof of concept. Computer & Education, 54 (2), 588-599.
Ohia U. O. (2011). A model for effectively assessing student learning outcomes. Contemporary Issues in Education Research, 4 (3), 25-32.
Pursel, B. K., Zhang, L., Jablokow, K. W., Choi G.W. & Velegol, D. (2016). Understanding MOOC students: motivations and behaviours indicative of MOOC completion. Journal of Computer Assisted Learning, 32(3), 202-217.
Romero, C., López, M. I., Luna, J. M. & Ventura, S. (2013). Predicting students final performance from participation in on-line discussion forums. Computer & Education, 68, 458-472.
Salanova, M., Bakker, A. B. & Llorens, S. (2006). Flow at work: evidence for an upward spiral of personal and organizational resources. Journal of Happiness Studies, 7(1), 1-22.
Xing, W., Guo, R., Petakovic, E. & Goggins, S. (2015). Participation-based student final performance prediction model through interpretable genetic programming: integrating learning analytics, educational data mining and theory. Computers in Human Behavior, 47(C), 168-181.
收稿日期:2018-03-15
定稿日期:2018-08-09
作者簡介:王改花,博士研究生,实验师;傅钢善,教授,博士生导师。陕西师范大学教育学院(710062)。
责任编辑 张志祯