基于学习分析的在线学业成就影响因素研究

2019-06-11孙发勤冯锐

中国电化教育 2019年3期

孙发勤冯锐

摘要：如何利用数据和模型来预测学业成功与失败是学习分析领域的核心问题。该文通过对现有文献检索分析出目前研究中主要影响学业成就的要素，结合对原始数据的深度处理，得到和学习相关的高级行为指标，利用机器学习中神经网络、决策树及线性回归算法分别建模分析。研究发现：学习态度、学习及时水平和投入水平是影响在线学业成就的主要因素，耐挫水平为次要因素，而互动水平、积极水平和阶段成效对最终的学业成就无关。该文最后对研究结果进行了反思后认为，课程选取对研究在线学业成就要素有非常大的影响。

关键词：学习分析;在线课程;学业成就;机器学习

中图分类号：G434 文献标识码：A

一、引言

随着大数据的应用普及，很多行业（如金融、零售）都发生了巨大的变化。但一直以来，教育领域是在大数据中受益最少的领域之一，缺乏“数据驱动的思维（Data-driven Mind-set）”是教育领域当今面临的主要障碍。相对于流程清晰规范的金融系统，教育是一个超级复杂的系统，各类教育实践活动产生了比金融行业要多得多的数据。因此，如何利用好教育数据，并从中发掘其背后的教育规律成了研究者最近关注的重点。自2010年起，学习分析（Learning Analytics，简称LA）逐渐从分析领域独立出来，吸纳数据挖掘、社会网络分析、统计分析等多种分析方法，形成了一个独立的新兴领域。从此，学习分析作为分析技术在教育领域中的应用和发展，受到越来越多研究者的关注和重视。运用在教育领域的学习分析主要任务是通过对学习者产生和收集到的相关数据进行分析和阐释，来评估学习者的学业成就、预测其学习表现并发现存在问题的过程。因此如何利用学习分析技术来预测学业成功与失败是该领域核心问题。

二、文献综述

最近几年，围绕学业分析与学业成就这一话题，国内外学者的研究主要聚焦在学业成就模型和指标的研究上。Usamah通过对14个典型的学习分析系统和应用进行研究后指出，学习分析中数据输入应该包含尽可能多的数据，而不应绑定在两种或三种类型的数据中，并最终梳理出包含学习者往期学业表现、课程参与情况、学习者背景、社交表现等多个预测学业表现的重要指标。Bukralia使用学业能力、经济水平、学业目标、技术准备、人口统计、课程动机与参与以及课程特征作为预测学业风险或成就的指标。G.Siemens等对学习者基本情况、学习目标、动机水平、认知风格、学习需要的数据进行收集，并对在线学习影响因素进行分析，其成果为促进学生学业成功提供了有力支撑。武法提和牟智佳基于学习者行为分析提出了以教学目标分类理论、个性化学习理论和社会认知理论为指导的，以“目标-过程-结果”为思想的学习结果分类预测框架，并以edX平台上一门MOOC课程的学习行为数据为研究对象进行探索，通过将视频学习次数、文本学习次数、评价参与时长、评价参与次数和论坛主题发起数作为行为指标组合，发现学习次数的预测效果要好于學习时长，并与学习时长和学习次数结合后的预测效果接近。李爽等基于学习者在线学习行为投入归纳出参与、坚持、专注、交互、学术挑战、学习自我监控等六个在线学业成就评价指标维度。陈子健等通过计算所有单个数据属性和学业成绩类别之间的相关系数及计算所有属性的信息增益率两种方法共同确定学业成绩的影响因素。

通过对以上分析研究发现，在研究内容及数据的处理上，目前大部分研究主要以理论探讨、框架分析为主，部分以数据为基础的实证分析主要是使用了在线平台基础的原始数据，如各类行为的时长、频次等，对同一行为的多条数据的处理方法主要是取均值，如用所有练习的成绩平均值来代表最终成绩等。鉴于在线学习不同用户的学习习惯不同、分配时间的方式不同、每个练习难度也不同，同一个学习者完成相似任务所需要的时间及次数差异都非常大，不同的学习者完成不同任务的次数和时间会相差更大，对原始数据简单的均值处理显然不太合理，因此需要对原始数据进行归一化处理。如Grabe和Sigler通过研究对各类时间进行了估计，所有超过2分钟的学习行为时间将被替换成2分钟，选择题答题时间最高设定为90秒，使用这种简单规则，的确降低了数据的处理难度，在一定程度上对数据进行了归一化处理，但同时也丢失了包含大量用户特征的数据。在研究方法上，很多研究都通过理论分析指出了影响在线学习学业成就的因素，然后通过调查问卷或少量在线数据来建模验证，数据处理的方式多用回归分析或结构方程模型，很少使用大数据研究所采用的机器学习算法来进行建模并对模型进行深入分析。

三、分析框架

本研究参照上述文献中关于学业成就框架的研究结果，对基本的原始数据进行归一化处理后，结合文献中研究得出的影响学业成就指标，选取了及时水平、投入水平、互动水平、耐挫水平、积极水平、学习态度、阶段成效等七个维度作为分析在线学业成绩的指标，并选择了对相关底层数据进行更深入挖掘后所形成的“高级数据”作为以上维度的指标项，构建了学业成绩要素分析的框架，如表1所示。使用线下成绩作为学业成就的标签数据，利用机器学习算法构建模型，分析哪些指标是影响在线学习成就的主要指标。

（一）第一次学习课程时间

考虑到课程的创建与发布时间不一定就是学习者可以学习的时间，因此本研究使用课程第一个学习者开始学习的时间为起始点，其他学习者第一次学习课程的时间与起始点之间的间隔，即为该学习者的第一次学习课程时间，该时间为相对时间，以天为单位。第一次学习课程的时间反映了学习者能否迅速开始学习活动。

（二）平均客观题开始答题时间

客观题开始答题时间：采用和第一次学习课程时间相同的研究方法，将从每个客观题作业第—个学习者开始答题的时间开始，到其他学习者开始作答该客观题作业时间结束，定义为该学习者该客观题的开始答题时间，该时间为相对时间，以天为单位。

平均客观题开始答题时间：某学习者某一门课程全部客观题作业的客观题开始答题时间的平均值定义为该学习者的平均客观题开始答题时间。通过平均客观题开始答题时间，可以反映出学习者开始学习课程新资源的主动性和及时性。

（三）客观题平均答题时长偏移

客观题答题合理时长：本研究以每个客观题任务为单位，基于在线认真学习的学习者成绩大部分都能超过均分的假设，选取所有完成该任务且评分大于本题均分的学习者完成时间为样本计算该任务的答题合理时间。具体做法如下：对于每个课程的客观题，不同学生完成时间相差非常大，如某客观题任务（10道选择题）最短答题时间12秒，最长时间约1200秒，相差近100倍，因此在计算答题平均时间时如果将所有的样本都计算在内，必然有很大误差。在实际操作时，先通过箱线图去除异常值，将剩下的样本时间计算均值，得到某个课程客观题答题合理时长。如果答题时间过长或过短，都可能是学习者完成任务时投入不够，过长的答题时间意味着学习者在完成任务过程中有其他和当前任务无关的行为，过短的答题时间则可能是学习者对所回答的问题缺乏深入的思考。

客观题平均答题时长偏移：将每次任务的时长减去该任务合理时长定义为答题时长偏移，所有的答题时长偏移的绝对值的均值即客观题平均答题时长偏移。该指标项反映了学生的学习投入水平。

（四）观看视频是否中断

视频中断的类型分为2种，一种是暂停视频播放做某个其他事情后继续播放（视频页面没有关闭），另一种是直接关闭视频播放页面后退出视频的播放。鉴于第一种暂停行为页面没有关闭，可能是学习者正在完成某个练习，或者暂停做线下笔记（也可能是做线下和学习无关的事，但无法及时检测），所以认为学习仍在进行。本研究主要关注的是第二种，即是否能在不关闭视频窗口的情况下一次完整看完视频。

观看进度与观看次数：每个视频每次的观看时间和视频长度之比定义为视频的观看进度。某个视频每次观看进度越大，观看次数越少，则说明用户观看视频注意力越集中;而视频每次观看进度越小，观看次数越多则可以认为学习者投入学习活动的程度不够。因此，可以使用课程内所有视频的平均观看进度和观看次数来描述学习者观看视频的精力集中程度。

（五）论坛中发帖、回帖及跟帖

本研究中为了方便描述，对发帖、回帖及跟帖定义界定如下：

发帖：学习者在课程的论坛中，发表一个新话题供大家讨论的行为，定义为发帖。

回帖：学习者在课程论坛对某个发贴发表的自己关于本话题的看法的行为，定义为回帖。

跟帖：学习者在课程论坛中对某发贴的回帖给予一定评价或看法的行为，定义为跟帖。

通过学习者在课程论坛中是否回帖或跟帖及回帖跟帖的数量作为指标来反映学习者主动参与互动的情况。一般可以认为，回帖跟帖的数量越多，学习者参与互动的主动性越强。在论坛中是否能主动发帖，可以反映出学习者在学习过程中遇到问题后，是否能主动向同伴寻求帮助。

（六）坚持度

当学习者遇到较难任务时，能够克服困难，克服畏难情绪，继续任务的倾向程度，可以表示为坚持度。在线课程的学习中，会有一定的主观题作业和客观题作业。在完成作业的过程中，如果连续答题遭到挫折（成绩低于60分），学习者一般会产生畏难情绪，放弃后续课程的学习，最终导致学习失败;如果学习者能克服困难，坚持完成后续的学习，则有可能获得最后的成功。样本中课程共8周，有8个客观题练习，按周次把練习题分成了前后2部分。如总体受到的挫折次数（NoS： Number of Setbacks）较多，且后期答题次数（NoA： Number of Answers）仍然较多，则认为该学习者坚持度（DoP：Degree of Persistence）比较高。学习者在遭受挫折（或成功，NoS=O）后，放弃了后期的答题（NoA=O），则其坚持度为0，如果NoA>O，则采用NoS+NoA表示学习者坚持度。坚持度值越大，表示学习者耐挫水平越高。

（七）学习者好胜度

学习者在完成客观题作业任务后，如果对第一次成绩不满意，很多同学会尝试重新做题，再次“刷分”，“刷分”次数的多少可以描述学习者学习的积极水平。在本研究样本中，首次答题分值超过90分但不是满分的学习者，约有34%的学习者会继续“刷分”以取得更高的分数，这部分学习者虽然成绩已经超过选课的大部分同学，但他们仍能努力提高自己的技能，具有强烈的好胜欲。

（八）主观题评价他人平均次数

大多数网络在线课程的主观题都是采取同伴评价的方式，积极主动参加评价他人主观题的次数多少，也反映了该学习者的学习积极水平。

（九）作业完成的数量

在本研究中作业完成数量分为客观作业完成数量和主观作业完成数量。作业完成的数量多少，反映了学习者基本的学习态度。

（十）作业完成的质量

作业完成的质量通过主观题完成后的分值和客观题完成后的分值来体现。前面提到，基于项目反映理论，由于题目难度不一，不宜直接取所有作业成绩的均值。基于某项作业成绩服从正态分布的假设，先计算某项作业的均值和方差，用学习者某项作业成绩偏离该项作业均值的差再除以方差来描述，即用偏离均值多少个标准差来归一化主观题和客观题分值（作业的标准成绩）。多个作业的成绩用这些作业的标准成绩的均值来描述。

四、数据的收集、处理和分析

（一）数据收集

本研究的数据来自扬州大学通识教育平台线上课程《戏曲鉴赏》。自课程开设以来，共有2819名学生注册。通过对系统数据库和网站日志处理，提取了包括视频查看、资源访问、客观题答题、主观题答题、论坛讨论、主观题互评等相关的学生在线学习数据，为了研究的需要，除了线上的数据外，本研究还收集了包括学习结束后的线下考试成绩及相关问卷数据。

为了验证线下成绩是否能反映平时的各种在线学习所体现的技能水平，能否反映学习者的在线学业成就，本研究采用线下考试成绩和线上综合成绩之差的分布情况来验证。课程最后安排的线下闭卷考试成绩为线下成绩，线上成绩由课件查看（20%）、客观练习（30%）、主观练习（30%）、线上讨论（20%）四部分组成。为了研究最终线下成绩是否和线上各项行为成绩相关，取每个学习者的线下线上成绩之差，绘制了的成绩差值的分布图，如图1所示。由分布图可以看出，线上线下成绩差值基本服从均值为0，方差为14的正态分布。当然，图中右侧还有一部分样本占了不少的比重但不服从分布的区域，经过对样本详细研究后发现，这个群体的学习者很少有线上活动（线上成绩几乎为0），但经过自己的线下复习，最后参加了线下考试，并获得了成绩，因此这部分学习者的线下和线上成绩是没有相关性的。排除掉这部分没有线上学习的学习者，由图1可以说明各种在线学习所体现的技能水平是真实的，研究中所选取线下成绩的代表学习者在线学业成就的标签也是可信的。

（二）数据处理

本研究数据处理过程采用机器学习的标准流程进行处理。首先从平台数据库和日志文件中获取底层原始信息，鉴于在线学习数据的稀疏性，首先清洗掉那些在线行为较少的学习者，并对数据进行处理和变换，得到较高级的指标项，将得到的数据分成测试集和训练集，训练集用来训练模型，测试集用来对模型的优劣进行评价，最后将得到的模型用于在线学习用户行为反馈，并根据反馈优化模型，如图2所示。

1.数据抽取

从在线学习后台数据库中获取学习者各项行为的结果数据，如主观题答题成绩、视频观看进度等结果数据。从日志获取各学习者的各项行为数据，如何时开始学习、视频观看过程是否暂停、视频暂停后线上行为等过程数据。本研究通过对原始数据的分析，选取了开始学习时间、客观题答题时间及结果信息、主观题答题及互评信息、视频观看时间及行为信息、论坛互动时间及行为信息等原始信息作为最基础的分析数据。

2.数据探索与预处理

本流程主要任务是对结果数据集和过程数据集进行数据探索分析与预处理，对数据缺失值（如部分学习者没有开始答题时间）与异常值（如客观题答题时间超过1天）进行处理，对数据的属性进行规约、清洗和变换。通过对原始数据的规约和变换，最终等到15个维度的指标项，如表1所示。去除掉在线成绩小于20的样本，因为产生这些数据的学习者的学习行为有极大的随机性，不太合适用模型去估计。同样，还需要去除线下成绩小于20的数据，因为很多课程学习者即使没有上课，按照他们原有的知识水平或者靠运气也可以得到线下20分以下的分数。将处理好的数据进行分层抽样，分成训练集测试集，训练集用于建立模型，测试集评估模型的预测等能力。

3.建模与应用

根据数据挖掘经验，使用神经网络建模相对于其他建模方式，通常计算时间较长，有比较好的准确度，虽然其不可解释，但可以使用其作为其他建模算法的性能参照。因此，本研究首先通过神经网络算法进行建模得到一组性能指标，再通过决策树算法进行建模并与前述的模型指标进行对比，以验证决策树算法构建模型泛化能力的优劣。

本研究利用多层前馈神经网络、10折交叉验证的方法来对模型进行训练和测试。交叉验证是一种统计学上将数据样本切割成较小子集的实用方法，先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证，依次循环，这样可以最大化利用样本进行训练。本研究将线下成绩分成了3个等级，不合格（0-59）、合格（60-79）和优秀（80-100）使用神经网络算法分类算法学习建模。经过参数调优，得到的模型准确度达到65.81%，Kappa（评价分类结果一致性和信度的重要指标值为0.434，说明得出的模型和数据中度一致，分类结果的混淆矩阵如表2所示。

从表2中可以看出，不论是准确率还是召回率都是分类为不合格的样本最小、分类为优秀的样本最大，即成绩较好（大于80）的学习者比较容易识别，而成绩较差的学习者比较难以识别。经过仔细研究后发现成绩较差（线下成绩40-60）的学习者由于其在网络上行为相对较少，研究所得的模型无法对较少数据的样本进行准确预测。同时，研究也发现，实际为不合格分类的样本被预测为优秀的数量为0，分类为优秀的样本只有1个被预测为不合格，这说明样本中优秀和不合格还是有很好的区分度的，难以区分的是分类为不合格的样本与分类为合格的样本，以及分类为合格的样本与分类为优秀的样本，经过研究后发现这和我们将成绩这个连续量强制分成3个离散区段有关，因为成绩值本来是连续的，60和59只差一分，离散化后却是不同等级了，因此导致相邻的分类区分度不高。但通过该模型可以看出线下成绩的确和本研究所选取的15个指标有关，由于神经网络分类算法结果没法直观解释，只能用于预测，所以只能说线下成绩和我们的指标项相关，但和哪些指标项最为相关、相关度如何还需要进步一研究。

在机器学习算法中，相对比较直观也容易解释的算法就是决策树分類方法了，因此为了找到哪些指标对在线学习成就影响最大，本研究将机器学习算法由神经网络算法更换为决策树算法，再次对数据进行了学习建模。考虑到分类结果的可解释性，学习过程中设置了决策树最大深度为5层，最终得到了精确度为59.91%，Kappa为0.301的预测模型。相比较神经网络，不论是精确度还是Kappa值都降低了不少，但如果把决策树层数设置为20时，精确度提升至为69.73%，而Kappa也上升为0.485，相比较神经网络算法相关性能而言，使用决策树算法得到的分类模型还是比较准确的。决策树分类图如图3所示，所对应的分类结果混淆矩阵如表3所示。从分类结果的混淆矩阵可以看出，使用决策树分类后，不合格的准确率得到了大幅度提升，而不合格的召回率大大降低，说明相对于神经网络算法，决策树算法在本研究中预测比较乐观。从图3也可以看出，影响在线学习学业成就的主要因素有主观题的完成数、视频平均观看进度、客观题完成数、视频观看次数以及第一次学习课程的时间。

考虑到线下成绩被离散化后，可能会影响预测结果，最后再次用线性回归算法来重新建模，得到的模型的指标R2（Squared Correlation）为0.212，线性回归的结果如下页表4（仅仅列出了p值小于0.005属性）。参照Chin的建议，R2在0.19左右表示模型的解释能力薄弱说明模型不能很好地和数据拟合。不过可以从表4中大致看出，第一次学习课程时间、坚持度、视频平均观看次数及主观题完成数是对线下成绩影响显著。

（三）数据结果分析

通过对以上学习模型的分析，我们发现，虽然线性回归算法得到的在线学业成就影响指标和决策树算法得到的影响指标有差异，但也有不少指标是重合的。主观题完成次数（学习态度）、视频平均观看次数（投入水平）及第一次学习课程时间（及时水平）同时出现，而视频平均观看进度（投入水平）、客观题完成数（学习态度）及坚持度（耐挫水平）只在其中一个模型中出现，说明学习态度、投入水平和及时水平是影响在线学习学习成就的主要因素，耐挫水平为次要因素，而互动水平、积极水平和阶段成效在本研究中对最终的学业成就无关。

五、讨论与反思

得到以上研究结果，似乎有些不合常理。因为之前很多研究都揭示论坛的活跃情况及答题情况等对学业成就成绩有很大影响，但在本研究显示论坛活跃情况、答题正确率、答题速度等和最终学业成就之间相关性很小，而这些指标在以前关于学业成就的研究中都是显而易见的影响指标。本研究发现影响学业成就最大的因素是学习的态度、投入水平和及时水平。本文认为可能有如下因素导致了本研究和其他研究者研究结果的不一致：

第一，课程的选取：不同类型的课程，有其不同特点，也有其不同的学习方法。有的课程学习内容比较开放，这类课程互动水平就可能会影响其学业成就，而一般的识记、技能型课程互动水平对学业成就影响就会比较小。

第二，之前研究的讨论数据可能是经过控制的数据：本研究中选课的2819人，约有1900人（67%）没有参加课程讨论（回帖跟帖次数为0），在参与讨论的学习者中，只有约10%左右學习者回帖数量在15个以上，发帖和跟帖的人更少，如图4和图5所示。从发帖的内容来看，不少帖子主题和课程内容无关。基于上述两个原因，最终导致了研究结果中互动水平和学业成就无关。基于目前大部分在线课程的论坛数据都是很稀疏的事实，本文推测之前得出互动水平和学业成就有关研究的论坛数据可能是受到控制后的结果。

第三，学业成就标签数据需要调整：结论中答题的速度及每次答题的分数和最终的学业成就也没有关系，是否意味着最终线下考核试题是作为选修的线上课程的客观题或主观题部分题目的再现。所有的题目都见过、做过并且重新“刷过”，最终这样的线下考核当然就看学习者的态度和投入水平了，因此后续研究需要从更多的维度来描述学业成就而不单纯使用线下成绩来表示在线学业成就。

根据本研究结果，也给参加在线课程学习的学习者就如何能获得较好学习成就提供一些建议：首先，加强时间管理，积极及时参加在线课程学习。由于在线学习没有线下学习课堂管理的各种约束，很多在线学习者会无意识拖延课程学习，直到最后放弃课程学习。本研究数据表明，未完成前两周课程的学习者占最终放弃课程学习的比例高达近78%;其次，提高投入水平，认真完成课程资源学习。对课程资源尤其是视频资源的学习，最好能集中精力，做到一气呵成，多次短时间的视频观看会导致更多的精力消耗在系统的切换中;最后，坚持目标导向，努力完成在线课程每周的各类练习。研究结果表明，完成练习的数量影响最终的学习成就，所以不要拘泥于每次练习的具体成绩，而是要能坚持完成尽量多的练习。通过练习促使学习者自己能认真学习在线课程各类资源，最后达到较好的学业成就。

学习分析作为教育技术专业新兴的研究领域，通过机器学习算法对海量教育进行分析时，可能会得到很多看似不合逻辑的结论，对这些结论不能不加分析进行使用，只有抱着科学的怀疑精神，对结果进行理性分析，找出背后的教育规律才能使学习分析技术真正服务于精准教育，改善信息化环境下的教与学，让个性化教学成为现实。

作者简介：

孙发勤：讲师，在读博士，研究方向为教育大数据、教育数据挖掘与学习分析（fqsun@yzu.edu.cn）。

冯锐：教授，博士生导师，研究方向为新媒体开发与应用、教育信息化建设、学习科学与技术设计（frzx0519@163.com）。