基于数据挖掘的开放教育在线学习者学业行为分析与成绩预测
2022-08-10赵东伟刘法伦张祥龙
○王 娟 赵东伟 刘法伦 张祥龙 熊 炜
一、引言
开放教育是借助现代网络信息技术面向社会成员开展的一种远程网络教育形式,诞生于1999年,其办学主体为国家开放大学及各地开放大学(原为广播电视大学),历经20多年的发展,现已成为我国高等教育的重要组成部分。开放教育的教育对象一直以来主要以在职社会成员为主。为了适应在职学习者的学习规律与特点,国家开放大学于2015年秋季学期开始使用国家开放大学学习网(以下简称国开学习网)进行在线学习及教学活动。以山东开放大学为例,截至2021年春季学期,国开学习网山东分部注册学习者人数超52万人,在籍学习者人数超19万人,注册教师人数超3000人。这些数据都标志着国开学习网已成为开放教育学习者在线学习活动及教师在线教学的主要平台。然而,国开学习网在使用过程中也存在不少弊端,例如,其在分析学习者学习行为数据及教师教学行为数据方面的功能不强,导致无法及时为学习存在问题的学习者形成及时有效的反馈信息,使得学习者最终的学习效果不够理想。
通过对国内外相关文献的研究发现,根据学习者的学习行为数据可进行学业分析及成绩风险预测,也可根据分析及预测结果进行教学干预,达到改善学习者学习效果的目的[1][2];同时,据不完全统计,在相关研究文献中,用教育数据挖掘的研究方法,对在线学习行为的分析研究对象大多集中在MOOC平台、成人继续教育平台的在线学习者[3][4]。基于开放教育学习者的在线学习行为的研究较少。为此,本研究在借鉴国内外研究经验的基础上,基于国开学习网平台的课程数据,运用教育数据挖掘的研究方法,分析开放教育在线学习者学业行为与成绩特点,并探索基于在线学习行为能有效预测在线学习者学业成绩的算法模型,以期为开放教育管课教师了解学习者在线学习情况、学习者提高在线学习效果、管理者优化教育决策提供有益的参考。
二、研究设计
本研究以某开放大学在国开学习网开展的一门思政课程为例,进行在线学习者学业分析,并试图构建学业成绩预测模型,揭示可能蕴含的教学特征,以期提出可操作的教学干预措施。整体研究过程如下图 1 所示[5][6]:①从国开学习网的报表系统采集学习者在线学习行为数据,并从国开学习网的Moodle平台采集学习者的成绩数据,然后使用Excel、SPSS、Python等工具进行在线学习行为数据和学业成绩数据的预处理,包含数据清理、数据集成、数据规约、数据归一化和离散化四个步骤,筛选出输入、输出变量;②基于SPSS统计分析工具,采用Pearson、Spearman和Kendall等统计算法分析在线学习者学业行为与成绩的相关性特点;③基于Python编程工具,借助神经网络、决策树、K最近邻、朴素贝叶斯、支持向量机等5种监督分类算法进行学业成绩的分类预测,并对各分类算法进行评估,确定最优成绩分类预测模型;④根据研究结果给出教学干预的建议,反馈教学过程。
图1 整体研究过程
三、数据采集与预处理
首先,从国开学习网报表系统采集了学习者学习课程的行为数据,原始属性包含学习者行为总数、浏览数、浏览活动数、浏览资源数、发帖数、回帖数等行为数据。然后从Moodle平台采集了学习者取得的成绩数据,原始属性包含形成性考核成绩(以下简称形考成绩)、终结性考核成绩(以下简称终考成绩)和综合成绩。本研究重点分析学习者在线具体学习行为对成绩的影响,所以已排除该课程双及格要求对综合成绩的影响。
其次,对采集到的学习者学业行为数据和成绩数据进行数据预处理,包含数据清理、数据集成、数据规约、数据归一化和离散化四个步骤。①数据清理:删除明显的缺失值数据或异常数据。例如,学习者因各种原因未参加或未完成学习任务,无完整的学习行为或成绩数据。又如,辅导教师未按时提交学习者学习行为表现得分或批阅大作业,导致学习者终考成绩数据缺失,这部分数据的研究意义不大,需要在数据集中剔除。通过数据清理,具有研究价值的数据只有7065个(约占原数据集的60%)。②数据集成:根据学习者学号这一唯一关键值将同一学习者个体的学习行为数据与成绩数据进行整合集成。③数据规约:为了更加明确地确定学习行为的具体影响因素,增加浏览其他信息数和行为动作数两列数据,删除行为总数、浏览数两列数据,同时进行数据降维操作。因在7065个学习者数据中的发帖数(仅占1.3%)、回帖数(仅占0.02%)占比极少,而且学习者的发帖、回帖行为已在行为动作数中有所体现,所以删除发帖数、回帖数两列,最终确定的在线学习者学业行为指标属性集如表1所示。然后利用SPSS的箱线图删除数据的离群值,最终获取5711个学习者数据样本做进一步的研究。④数据归一化和离散化:为了统一各项数据的衡量标准,避免数据类型和单位的影响,利用Phython编程工具[7]对数据进行归一化处理,将数值取值范围映射到[0,1]区间内。同时,为了在学业成绩预测中运用各种监督分类算法,对所有的成绩数据进行离散化处理,将≥60分的及格成绩用1表示,将<60分的不及格成绩用0表示。
表1 在线学习者学业行为指标属性集
四、在线学习行为与学业成绩的相关性分析
在数据采集与预处理的基础上,本研究提取了如上表1所示的4项在线学习行为数据,3项学业成绩数据,共计5711个学习者数据样本进行在线学习行为与学业成绩的相关性分析。根据数据的不同特点,一般来说,通常采用3个系数进行相关性的描述,分别为Pearson相关系数、Spearman相关系数和Kendall相关系数[8]。本研究采用SPSS统计分析工具对归一化后的在线学习行为数据和学业成绩数据进行Pearson相关性分析,并用Spearman相关系数和Kendall相关系数进行分析结果的验证。Pearson相关分析法得到的相关系数矩阵如下表2所示。
表2 在线学习行为与学业成绩相关系数矩阵
为了防止数据的不同特点影响分析结果,本研究继续用Spearman相关系数和Kendall相关系数进行了上述相关性分析结果的验证。Spearman相关系数和Kendall相关系数结果矩阵虽然在数值大小上与Pearson相关系数不同,但是得出的结论却是一致的。所以,本研究将依据Pearson相关系数矩阵结果进行分析,通过上述结果矩阵可知,上述4项在线学习行为与各类成绩之间均呈现相关关系。其中,①浏览活动数、行为动作数与形考成绩的相关系数在0.7以上,说明这两项学习行为与形考成绩之间存在强相关性,浏览其他信息数与形考成绩的相关系数在0.4—0.7之间,说明这项学习行为与形考成绩之间存在显著相关性,浏览资源数与形考成绩的相关系数在0.4以下,说明这项学习行为与形考成绩之间存在弱相关性。由此可见,浏览资源数对形考成绩影响不大,而学习者通过参加作业、测验等学习活动对形考成绩的影响较大。②浏览活动数、浏览资源数、浏览其他信息数、行为动作数与终考成绩的相关系统均在0.4以下,说明这4项学习行为均与终考成绩之间存在弱相关性。这说明终考成绩的取得与学习者本身的学习行为关系不大,受教师在线批阅行为的影响比较大。③浏览活动数、行为动作数与综合成绩的相关系统在0.4—0.7之间,说明这2项学习行为与综合成绩之间存在显著相关性,浏览资源数、浏览其他信息数与综合成绩的相关系统在0.4以下,说明这2项学习行为与综合成绩之间存在弱相关性。如上表1所示,因综合成绩是形考成绩与终考成绩的加权平均值,相关性分析结果也表明各学习行为对综合成绩的影响是介于其对形考成绩、终考成绩的影响之间,所以分析结果是合理的。
五、学业成绩的分类预测
数据挖掘常用的分类算法有:神经网络(ANN)、决策树(DT)、K最近邻(KNN)、朴素贝叶斯(NB)、支持向量机(SVC)等监督分类算法[9]。本研究使用Python数据挖掘工具,采用上述五种分类算法进行学业成绩的分类预测,并对各分类算法模型进行评估,确定最优模型。具体思路:基于数据预处理的结果,将其中4项在线学习行为的归一化数据作为输入,离散化的形考成绩、终考成绩、综合成绩数据分别作为输出,将5711个学习者数据样本随机分为训练集(70%)和测试集(30%),使用Python编程工具,采用不同分类算法实现了对形考成绩、终考成绩、综合成绩的分类预测。预测结果分别如下表3、表4、表5所示。
表3 不同分类算法的形考成绩预测结果
表4 不同分类算法的终考成绩预测结果
表5 不同分类算法的综合成绩预测结果
本研究选取了准确率及宏平均计算方法得出的精确度、召回率、F1值等指标,对上述5种算法模型进行评估。通过在线学习行为与学业成绩的相关性分析,我们得知,浏览活动数、浏览资源数、浏览其他信息数、行为动作数四种学习行为与形考成绩的相关性最强,与综合成绩的相关性次之,与终考成绩(受教师主观批阅行为的影响)的相关性最弱。上表3、4、5分别给出了使用5种不同的分类算法对形考成绩、终考成绩、综合成绩的预测结果。通过上述结果,我们发现,指标之间相关性越强,预测分类效果越好,所以形考成绩的预测效果最好,综合成绩次之,终考成绩最差。
从形考成绩的分类预测结果来看,K最近邻(KNN)和支持向量机(SVC)的预测效果都不错,准确率均达到了0.91。从终考成绩的预测结果来看,模型预测效果都不太理想,其中,部分算法对终考成绩0(不及格)分类预测结果显著不理想。例如:人工神经网络算法对测试样本中不及格分类的预测准确率为0,支持向量机(SVC)对测试样本中不及格分类的预测表现也欠佳,召回率仅为0.27,F1值仅为0.37值,所以,在终考成绩的预测方面,K最近邻(KNN)算法模型最优。从综合成绩的分类预测结果来看,K最近邻(KNN)的各项预测指标相比较而言都是最优值。综合来看,K最近邻(KNN)算法得到的分类器性能在各类成绩的预测中都表现较好。本研究将采用该算法构建的模型进行学业成绩预测,以便揭示在线学习者学业行为与成绩之间的关系,尽早发现潜在风险学习者,进行学业或教学提醒。
六、结论与建议
本研究基于国开学习网平台的课程数据,首先采集了学习者学业行为数据和成绩数据并对其进行了数据预处理;其次,运用Pearson、Spearman和Kendall等统计算法分析了在线学习者浏览活动数、浏览资源数、浏览其他信息数、行为动作数4项在线学习行为与形考、终考、综合成绩之间的相关关系;最后运用神经网络(ANN)、决策树(DT)、K最近邻(KNN)、朴素贝叶斯(NB)、支持向量机(SVC)等监督分类算法进行了学业成绩的分类预测,并对各分类算法模型进行了评估,确定了K最近邻分类预测模型为最优算法模型。主要结论及教学干预建议如下。
第一,在数据采集与预处理阶段,我们发现约有40%的数据不具有研究价值。究其原因,从学习者角度来说,部分在线学习者的学习动机不强或者教师的教学指导不够,导致学习者未按时或正确完成学习任务;从教师角度来说,部分辅导教师责任心不强或者业务不熟练,未按时在线提交学习者学习行为表现得分或批阅大作业,导致学习者成绩数据的不完整。这就既要加强学习者的管理,提高学习者学习积极性,又要加强教师的管理,提高教学指导频次与质量,规范教学指导行为,改革教师工作量评价体系,切实提高教师的业务水平及责任心。同时,我们发现学习者在论坛的发帖、回帖数占比极少,说明学习者参与讨论的积极性不高。并且,研究发现即使学习者存在论坛发帖、回帖行为,但是这部分学习者在论坛发表或回复的帖子基本属于无效贴,说明学习者参与论坛讨论的动机是被动的、功利的,对学业成绩的影响几乎微乎其微,这与远程网络教育对学习者学业表现的研究结果[10]一致。这就需要教学管理者对发帖、回帖的作用重新进行定位。
第二,在学习行为与学业成绩的相关性分析方面,根据与形考、终考、综合成绩从强到弱的相关性,分别依次为浏览活动数、行为动作数、浏览其他信息数、浏览资源数,说明学习者更关注作业、测验等结果性评价学习活动,对教学资源等过程性评价关注不高,但是学习的目的不仅仅为了获取成绩,还需要学习知识。这对教师制作的学习资源提出了更高的要求,教师需制作出更加高质量的教学资源,提高学习者学习的兴趣,激发学习者的学习动机;也对教师采取的课程评价方式提出了更高的要求,作业、测验的难度须适中,并且与教学资源之间要有高度的匹配度;更对教师教学方式的创新提出了更高的要求,教师须创新在线教学设计,让学习者学到有用的知识,实现教学目标的要求。例如,在学习过程中,作业、测验和教学资源之间加入适度的穿插,让学习者在学习教学资源的过程中完成作业、测验等学习活动。同时,本研究发现终考成绩与4项在线学习行为的相关性都低于形考成绩,因为终考成绩除了受学习者学习行为的影响外,还受到教师教学行为的影响。这就要求教师须认真、按时批阅学习者提交的作业,避免影响学习者的成绩。
第三,在学业成绩的分类预测方面,综合准确率、精确度、召回率、F1值四种指标,K最近邻(KNN)算法得到的分类器的性能在各类成绩的预测中优于其他四类算法,通过采用K最近邻(KNN)算法模型进行成绩预测,可以较为准确地揭示出在线学习者学业行为与成绩之间的关系,发现潜在风险学习者,提前进行学业或教学提醒。
七、研究局限与展望
本研究虽然运用教育数据挖掘技术对国开学习网在线学习者学业成绩的分析与预测进行了探究,但仍存在局限性,后期还可以在以下几个方面作进一步的研究。
1.受限于国开学习网在线学习行为数据的统计功能,目前只能采集到在线学习者浏览活动数、浏览资源数、浏览其他信息数、行为动作数4项学习行为,而且也不够具体,在后续研究中可考虑运用更多的技术手段获取开放教育在线学习者的更多学习行为进行综合分析,以挖掘出更多关键信息。
2.本研究只选取了国开学习网一门课程数据进行研究分析,这门课程的考核形式不管是形考还是终考,都是在国开学习网平台进行的。这是开放教育学习者多种考核形式中的一种类型,其他考核形式的课程,例如形考在国开学习网进行,终考采用机考或纸质形式,并未在本研究范围内。后续可扩大研究范围,例如,可对各种考核类型方式下的在线学习者学业行为及成绩进行研究,提高普适性。
3.本研究只采用了神经网络(ANN)、决策树(DT)、K最近邻(KNN)、朴素贝叶斯(NB)、支持向量机(SVC)等5种监督分类算法,在后续研究中,可对采用的算法优化组合,达到更好的预测效果。