基于过程挖掘的在线学习行为时序模式分析方法研究
2023-07-25黄焕元帅
黄焕 元帅
[摘 要]在线学习行为的时序模式反映了在线学习行为随时间动态变化的规律,对于理解在线学习过程、设计有效的干预措施具有重要作用。目前,研究者主要采用滞后序列分析来探索在线学习行为的时序模式,但这种方法通常揭示不同在线学习行为之间的依赖性,由此推出在线学习行为时序模式不够准确,且难以对不同的时序模式进行量化比较。针对上述问题,文章将过程挖掘技术引入在线学习行为时序模式研究,提出了一个基于过程挖掘的在线学习行为时序模式分析方法,并据此开展了一项案例研究。研究发现:在一个主题单元期间,中途弃学者和持续学习者的在线学习行为时序模式并无显著差异,但是,在整个课程期间,持续学习者在时间与精力分配上与中途弃学者存在差异,表现出了更强的自我调节能力。
[关键词]在线学习行为分析;时序模式分析;过程挖掘
[中图分类号]G434 [文献标识码]A [文章编号]1008-7656(2023)03-0011-08
引言
在线学习分析是教育技术领域中一个重要的研究方向。新媒体联盟的地平线报告曾连续四年(2011-2014年)将其列为影响未来教育发展的六大关键技术之一。在线学习分析包括行为分析、情感分析、知识结构分析、学习路径分析等多个方面。在线学习行为分析是学习分析的重要组成部分,旨在从在线学习过程的行为数据中挖掘出隐藏的有价值信息,比如行为模式、行为偏好等,从而促进对学习过程、学习结果、学习环境的理解和优化[1]。近年来,国内外学者已通过在线学习行为分析开展了多方面的研究,例如在线学习参与模式探索[2-3]、在线学业成绩或学习风险预测[4-7]、在线学习投入度评估等[8-9]。但是,这些研究主要分析各种在线学习行为的分布特征(频次或时间分布),而对在线学习行为的时序特征探究不多。
近几年,随着研究的不断深入,越来越多的研究关注在线学习行为的时序特征。因为在线学习行为的时序特征能更精细地刻画学习过程的动态特性,反映学习者的学习方式、使用的学习策略等复杂特征[10-11],这有助于深化对在线学习过程的理解和优化。从研究所采用的分析方法来看,已有的研究大多采用滞后序列分析(Lag Sequential Analysis,LSA)来挖掘不同学习者的学习行为时序模式。例如,Hou等采用LSA探索了教师在基于问题解决的在线讨论活动中的行为时序模式,比较了学生在不同平台(在线论坛、Facebook)支撑的在线讨论活动中的知识建构行为和认知过程的时序模式[12-13];刘智等以大学生在SPOC(Small Private Online Course)中的在线学习行为记录为研究对象,采用LSA比较了不同年级学生的行为时序模式[14];李爽等以开放大学学生在Moodle平台上的在线学习行为日志为研究对象,通过LSA发现了五种不同的在线学习参与方式,并对其行为时序模式进行了比较分析[15]。菅保霞等以学生在Moodle平台的在线学习行为数据为基础,以全脑模型为分类依据,探索了逻辑型、组织型、交流型和空想型等四种思维类型的学生在在线学习行为序列上的差异[16]。
滞后序列分析的基本思路是对各种一阶行为序列的出现频次进行统计分析,计算一种行为发生之后另一种行为出现的概率,找出统计显著的一阶行为序列。由此可见,滞后序列分析只能发现学习过程中存在显著时序依赖的相邻学习行为,并不能很好地揭示一次学习会话或整个课程学习期间的行为时序模式[14],也难以对不同学习群体的行为时序模式进行定量比较。为此,本研究尝试引入管理学领域的过程挖掘(Process Mining,PM)技术来探索在线学习行为的时序模式,以加深对在线学习过程的理解,支撑在线学习干预措施的设计。
一、过程挖掘技術概述
过程挖掘也称“工作流挖掘”,是支撑工作流分析和再设计的一项关键技术[17]。为了在快速变化的环境中保持竞争力,企业需要不断地对现有的工作流程进行分析和再设计以提高工作效率,这就需要经常实施工作流建模。传统的工作流建模通常由管理者和企业顾问使用建模工具来完成,这种建模方式易受建模者个人经验影响,且模型只表达了流程“应该”的样子,难以发现“实际”的样子,同时这种建模方式效率不够、成本高[18]。过程挖掘是伴随着各种工作流管理系统的应用而出现的一种新的工作流建模方法,它采用一定的数据挖掘技术从工作流管理系统积累的日志数据中自动重构出一个工作流模型,从而支撑工作流的诊断、分析和再设计。
通过过程挖掘建立的模型不仅能反映出业务的实际执行过程,而且建模过程是自动化的,可减少建模者个人经验对建模的影响,也能提高建模效率。过程挖掘的关键是过程挖掘算法,它直接决定了生成的工作流模型的质量,过程挖掘的一般过程包括以下三个步骤。
(一)事件日志生成
事件日志生成是从工作流管理系统积累的日志数据中根据实际需要筛选出相应的业务活动执行记录,并将其转化为统一的事件日志格式进行存储。事件日志是一个业务活动执行记录的集合,每条业务活动执行记录至少需要包括三个字段:业务活动的类型、业务活动执行的时间、业务活动所属的业务流程。一个完整的业务流程通常需要经历多个业务活动,这些业务活动按时间顺序排列就形成一个事件序列。
(二)过程模型发现
过程模型发现是利用过程挖掘算法或工具从事件日志中挖掘出一个反应业务真实执行流程的过程模型。目前,研究者已提出了很多高效的过程挖掘算法,常见算法有α算法、启发式算法、归纳式算法等,不同的过程挖掘算法输出的过程模型可能不同[17]。在过程挖掘算法基础上,已出现了很多优秀的过程挖掘工具,如ProM、ARIS、Celonis、Disco、PM4Py等。这些过程挖掘工具都具有图形化操作界面,实现了多种典型的过程挖掘算法,可以生成多种过程模型,能够有效支撑过程挖掘的研究与实践。
(三)过程模型可视化
过程模型可视化是将发现的过程模型采用一种形象直观的图形呈现给相关人员。不同的过程挖掘算法输出的过程模型可能也不同,常见的过程模型有Petri网、活动转换图、过程树、BPMN等[17]。因为Petri网有着较严格的数学理论基础,有利于过程模型的形式化验证和分析,因此,在过程挖掘中Petri网得到了广泛应用。同样,活动转换图也因其易理解性得到了认可。
二、基于PM的在线学习行为时序模式分析方法
(一)基于PM的在线学习行为时序模式分析流程
从过程挖掘的一般过程可以看出,如果将学习者在一次学习会话或整个课程学习期间的在线学习行为按时间顺序整理成一个序列,则可以利用过程挖掘技术提取出一个可视化的过程模型。显然,这个过程模型反映了学习者在学习期间的行为时序模式。如果将学习者按照性别、成绩等进行划分,就可以发掘不同群体的在线学习行为时序模式,进而观察它们的异同。另外,过程挖掘还可以计算一个过程模型与实际事件日志的一致性程度。因此,将过程模型应用于在线学习行为时序分析还可以对不同群体的行为时序模式进行定量比较。基于以上分析,本研究提出了一个基于过程挖掘的在线学习行为时序模式分析模型,其基本流程如图1所示。
1.行为数据抽取
在线学习平台记录的在线学习过程数据是很丰富的,常见的数据包括学习者的基本信息、作业与测试成绩、点击行为数据、论坛发帖等。在分析学习者个人或群体的行为时序模式时,首先要根据研究问题从网络学习平台的后台数据库中抽取出相关的在线学习行为记录,过滤掉不相关的噪音数据和无效数据。研究问题是在线学习行为数据抽取的主要依据,研究问题不同,需要提取的在线学习行为数据一般也不同。
2.事件日志生成
如前所述,过程挖掘所需的事件日志有专门的描述格式,它至少包含事件的类型、事件发生的时间和事件所属的序列三个字段。网络学习平台记录的在线学习行为数据往往只包含了行为的发生时间和作用对象,没有包含行为的类型和所属的序列。即使一些在线学习平台根据行为的作用对象将各种行为进行了分类,也不一定能够满足研究的需要。因此,事件日志生成需要完成两个任务:一是依据研究问题制定行为编码框架,并以行为的作用对象为线索对各种行为的类型进行编码;二是根据研究问题定义行为序列的边界,并以各种行为的发生时间为线索标注它们所属的序列。
3.时序模式发现
将相关学习行为数据转化为事件日志后,就可以利用过程挖掘工具来发现不同学习者个体或群体的行为时序模式,并输出可视化的表征图形。虽然,这一阶段的工作主要是由计算机自动完成,但分析者依然需要完成三方面的工作:一是根据研究问题对事件日志中的在线学习行为数据进行划分,例如,从事件日志中提取出成績较高的学生和成绩较低的学生的行为数据,以比较二者的行为时序模式;二是根据研究问题选择合适的过程挖掘算法,并根据数据的实际情况设定算法的参数,以发现不同群体突出的、较稳定的行为时序模式;三是设置图形表征的样式,使时序模式表征更直观。
4.时序模式分析
得到不同个体或群体的在线学习行为时序模式后,可以用两种方法对这些时序模式进行对比分析。一是通过观察来分析不同在线学习行为时序模式的差异,如各种行为的数量分布差异、各种行为的时序结构差异等;二是通过一致性检验计算发现的时序模式与实际数据之间的拟合性,进而对不同时序模式之间的相似度进行定量比较。
(二)基于PM的在线学习行为时序模式分析应注意的问题
在运用过程挖掘技术分析在线学习行为的时序模式时,需要注意以下问题。
第一,要根据研究问题,选择或制定合理的行为编码框架。在线学习行为包括外显行为和内隐行为[19]。外显行为是一些操作性行为,如登录系统、浏览资源、提交作业、完成测验、发布帖子等;内隐行为则是隐藏在外显行为背后的认知活动,需要依据特定的理论编码框架对相关操作进行编码才能得到。过程挖掘不仅可以分析外显行为的时序模式,也可以分析内隐行为的时序模式。在分析外显行为的时序模式时,一般可直接使用在线学习平台中的行为编码框架或对其进行一定的合并。在分析内隐行为的时序模式时,则需要根据研究的问题选择或制定合理的行为编码框架,对外显行为数据进行手动或半自动编码。相同的外显行为数据,如果研究的问题不同,就需要采用不同的编码框架将其映射为不同的内隐行为。为了保证编码的可靠性和效率,还应该采取预编码和多人协商的编码策略。
第二,要根据研究问题,定义合理的行为序列边界。在线学习平台的后台数据库中往往只记录了各种行为的发生时间和作用对象,没有记录行为所属的序列。如何定义各种行为记录所属的行为序列呢?需要根据实际的研究目的来定义,研究目的不同,行为序列的边界一般也不同。例如,当研究目的是探索学习者在学习一门课程过程中的知识建构路径时,应将一名学习者在一个主题单元上的知识建构行为(如浏览资源、提交作业、参与测验等)视为一种行为,将一名学习者在整个课程期间的行为定义为一个序列;但是,当研究目的是探索学习者偏好的在线学习行为习惯(认知风格)时,则应该将学习者在每个学习会话或学习某个主题的各类学习行为定义为一个序列,而且需要对这些学习行为进行区分。
第三,要对在线学习行为的数量和过程挖掘算法的参数进行合理设置,以获得结构清晰的过程模型。在线学习行为的数量和过程挖掘算法的参数对生成的过程模型具有直接影响,它们共同决定了过程模型中的节点数量和链接数量。如果在线学习行为的类型过多,过程挖掘算法的相关参数设置过于宽松,会得到一个复杂的过程模型,不利于行为时序模式的分析和比较[20]。相反就会得到一个过于简单的过程模型,丢失一些频繁的行为序列模式。因此,要综合研究问题和数据实际情况合理选择在线学习行为类型、设定过程挖掘算法的参数,以获得复杂度适中的过程模型,更好地支撑行为时序模式分析。
三、基于PM的在线学习行为时序模式分析案例
为了更好地展示上述在线学习行为时序模式分析模型的效用,本研究以一门MOOC的在线学习行为数据为基础,依据该模型开展了一项探索性的案例研究。
(一)研究目的
本项案例研究的主要目的是探索持续学习者和中途弃学者的学习行为时序模式,并对二者的时序模式进行比较。具体来说,本项案例研究分别从宏观和微观两个视角探索了两个问题:一是比较持续学习者和中途弃学者在学习一个主题单元时表现出的学习行为时序模式,此在线学习行为时序模式能够反映学习者偏好的学习风格和习惯;二是比较持续学习者和中途弃学者在学习整个课程期间的知识建构路径,以探索二者建构知识时的顺序和路径是否存在差异。
(二)数据来源
本项案例研究的数据来源于KDD Cup 2015数据集。KDD Cup 2015数据集是研究MOOC中途弃学者预测的一个标准数据集,它包含了39门MOOC的前30天的日志数据,这些数据主要来源于“学堂在线”平台。本研究随机选取了其中一门MOOC的数据,数据的起止时间为2014年6月12日至2014年7月11日。该课程的注册学员数量为10 322名,其中3 136名学员被定义为持续学习者,其余7 186名学员被定义为中途弃学者。所有学员的在线学习行为记录总数为878 119条,涉及观看视频、提交作业、使用论坛、访问Wiki、浏览其他材料、导航、关闭页面7个方面的操作行为。
(三)数据分析工具
本研究采用的数据分析工具主要是PM4Py。PM4Py是一个基于Python的开源过程挖掘工具,由Fraunhofer FIT的过程挖掘工作小组开发。PM4Py具有强大的事件日志处理、过程模型可视化、过程模型一致性检验等功能。在事件日志处理方面,PM4Py支持XES和CSV两种事件日志格式的导入、导出和转换,还具有强大的事件日志筛选功能。在过程挖掘算法方面,PM4Py目前实现了2种α算法、3种归纳式算法和1种启发式算法。在过程模型可视化方面,PM4Py支持多种常见的可视化模型,包括Petri网、过程树、BPMN、活动转换图等,而且还可以对这些模型进行相互转换。PM4Py还实现了两种一致性检验方法(基于令牌的重播和基于对齐的重播),能够定量计算过程模型与事件日志之间的拟合度。
(四)在线学习行为时序模式分析
1.学习一个主题单元期间的行为习惯分析
为了探索持续学习者和中途弃学者在学习一个主题单元时的行为习惯,本研究基于PM的在线学习行为时序模式分析模型,首先从选定的课程数据中提取了第一周的五种行为记录,分别为浏览视频、浏览其他材料、提交作业、参与讨论和使用wiki。之所以选择第一周的行为记录,是因为两组学生在第一周的在线学习行为记录比较丰富且只与第一个主题单元相关,可以准确地发现学生在学习单个主题单元时的在线学习行为时序模式。之所以选择以上五种在线学习行为,是因为这五种行为与知识建构密切相关。筛选出所需的行为记录数据之后,本研究将每个学生的全部在线学习行为按时间顺序转化为一个序列,然后采用启发式算法Heuristics Miner來发掘每一组学生的在线学习行为时序模式,并使用活动转换图对其进行可视化,结果如图2所示。
在图2中,两个圆形分别表示行为序列的开始和结束,每个矩形表示一种行为类别,矩形中还给出了行为的名称(其中,access表示访问其他材料,video表示浏览视频,problem表示提交作业,discussion表示参与讨论,wiki表示使用wiki)和出现频次,连接两个矩形的每条箭头表示行为转换,箭头上的数字表示行为转换出现的频次。对比图2中(a)和(b)的结构可以看出,两组学生的行为时序模式非常相似,并没有表现出明显的差异,这表明两组学生的行为习惯并不存在显著差异。但是,对比图2中(a)和(b)的行为频次可以看出,持续学习者的行为参与度要显著高于中途弃学者的行为参与度。虽然,从总频次来看,中途弃学者各种行为的频次与持续学习者相差不大,但中途弃学者的人数显著高于持续学习者,因此,中途弃学者的人均频次要明显低于持续学习者的人均频次。
2.学习整个课程期间的知识建构路径分析
为了探索持续学习者和中途弃学者在学习整个课程期间的知识建构路径,本研究依据基于PM的在线学习行为时序模式分析模型,首先提取了浏览视频、浏览其他材料和提交作业三种在线学习行为的全部记录,并依据其作用对象进一步将它们映射为针对不同主题单元的知识建构行为。这里之所以去掉了参与讨论和使用wiki两种行为,是因为难以区分这两种行为记录到底属于哪个主题单元。之所以将这三种行为记录进一步抽象、合并为针对不同主题单元的知识建构行为,是因为本研究探索的问题是两组学生的知识建构路径,没必要对属于同一个主题单元的三种行为作进一步区分。筛选出所需的行为记录数据后,本研究还是将每个学生的全部在线学习行为按时间顺序转化为一个序列,然后采用启发式算法Heuristics Miner来发掘每一组学生的在线学习行为时序模式,并使用活动转换图对其进行可视化处理,结果如图3所示。
从图3可以看出,两组学习者总体来说都是按照发布时间来依次学习各个主题单元,即按照“第一章→第二章→第三章→……”的顺序依次进行学习。这说明任课教师对课程内容的组织比较合理。但是,仔细观察两个活动转换图可以发现它们存在以下四个不同之处。一是持续学习者在各个主题单元上的参与度要高于中途弃学者。这一点与学习单个主题单元时类似,通过绘制学习行为人均频次对比图就可以很容易看出,在此不再赘述。二是在线学习行为在各个主题上的分布比例不同。持续学习者在第三章的在线学习行为最多,总频次达到了50 997,而中途弃学者在第一章的在线学习行为最多,总频次为23 218;持续学习者在前四章的在线学习行为频次较多且较均衡,而中途弃学者的在线学习行为频次较少且逐渐递减。三是部分持续学习者在学完第一章后直接进入了第三章的学习,而中途弃学者都是按照主题单元的发布顺序依次开展学习。四是持续学习者中只有少部分在第一章和第二章就结束了学习,大部分是在第三章或第四章学完后才结束学习,而中途弃学者大部分在第一章和第二章学完后就结束了学习。对以上四个不同点进行综合分析可以得出:一是持续学习者的参与度更高,持久性更强,这可能是因为持续学习者往往有更强的自我管控能力;二是持续学习者能够更好地分配自己的学习时间和精力。第三章应该是这门课程的核心内容,难度可能也较大,持续学习者知道在这一章需要花费大量的时间和精力,而反观中途弃学者则发现,学生的参与度随着时间逐渐递减,在学完第三章后参与度更是直线下降,这可能是因为学生在遇到挫折时选择了放弃。
四、结语
针对滞后序列分析法在分析在线学习行为时序模式时存在的问题,本研究提出了一个基于过程挖掘技术的在线学习行为时序模式分析方法,并使用该方法探索了两种视角下MOOC持续学习者和中途弃学者的在线学习行为时序模式。研究结果表明:一是从学习一个主题单元时的操作行为来看,持续学习者和中途弃学者虽然在参与度上具有明显差异,但在行为习惯上很相似,这说明二者的在线学习方式与风格并无明显差异;二是从学习整个课程期间的知识建构路径来看,持续学习者和中途弃学者虽然总体上都遵照了教师设计的逻辑顺序进行知识建构,但持续学习者不仅表现出了更高的参与度,而且在时间和精力投入上表现出了更合理的分配,在知识建构的逻辑顺序上也表现出了一定的自主性,这说明他们具有较强的自我调节学习能力。
本研究提出了一种新的在线学习行为时序模式分析方法,为教育研究者更深入地探索在线学习过程的规律、理解在线学习过程提供了新的思路,但是,本研究也存在一些不足之处。例如,案例研究仅对学习持久性与在线学习行为时序模式之间的关系作了初步分析,并没有深入分析在线学习行为时序模式与学业成绩之间的关系。这主要是因为研究数据中没有包含学习者的成绩信息,难以按照成绩对学习者进行分组。未来可以针对上述问题开展更深入的研究,揭示在线学习行为时序模式对学习结果的影响,并据此设计有效的对策和措施。
[参考文献]
[1]杨现民,王怀波,李冀红.滞后序列分析法在学习行为分析中的应用[J].中国电化教育,2016(2):17-23.
[2]White A, & Carroll P. Identifying patterns of learner behaviour: What business statistics students do with learning resources[J]. INFORMS Transactions on Education, 2017(1): 1-13.
[3]Khalil M, Ebner M. Clustering patterns of engagement in Massive Open Online Courses (MOOCs): the use of learning analytics to reveal student categories[J]. International Journal of Computing in Higher Education, 2017( 29): 114-132.
[4]Conijn R, Snijders C, Kleingeld A, etal. Predicting Student Performance from LMS Data: A Comparison of 17 Blended Courses Using Moodle LMS[J]. IEEE Transaction on Learning Technologies, 2017(1):17-29.
[5]Macfadyen L, Dawson S. Mining LMS data to develop an “early warning system” for educators: A proof of concept[J]. Computer & Education, 2010( 54): 588-599.
[6]Hu Y-H, Lo C-L, Shih S-P. Developing early warning systems to predict students online learning performance[J]. Computer in Human Behavior, 2014(36): 469-478.
[7]范逸洲,汪琼.学业成就与学业风险的预测——基于学习分析领域中预测指标的文献综述[J].中国远程教育,2018(1):5-15.
[8]李爽,王增贤,喻忱,等.在线学习行为投入分析框架与测量指标研究——基于LMS数据的学习分析[J].开放教育研究,2016(2):77-88.
[9]张琪,武法提.学习行为投入评测框架构建与实证研究[J].中国电化教育,2018(9):102-108.
[10]Maldonado-Mahauad J, Perez-Sanagustín M, Kizilcec R F,etal.Mining theory-based patterns from Big data: Identifying self-regulated learning strategies in Massive Open Online Courses[J]. Computers in Human Behavior, 2018( 80): 179-196.
[11]Wong J, Khalil M, Baars M,etal. Exploring sequences of learner activities in relation to self-regulated learning in a massive open online course[J]. Computers & Education, 2019, 140: 103595.
[12]Hou H-T, Wang S-M, Lin P-C,etal. Exploring the learners knowledge construction and cognitive patterns of different asynchronous platforms: comparison of an online discussion forum and Facebook[J]. Innovations in Education and Teaching International, 2015(6):610-620.
[13]Hou H-T, Sung Y-T, Chang K-E. Exploring the behavioral patterns of an online knowledge-sharing discussion activity among teachers with problem-solving strategy[J]. Teaching and Teacher Education, 2009( 25): 101-108.
[14]刘智,王亚妮,郑年亨,等.高校SPOC环境下学习者行为序列的差异性分析研究[J].中国电化教育,2017(7):88-94.
[15]李爽,鐘瑶,喻忱,等.基于行为序列分析对在线学习参与模式的探索[J].中国电化教育,2017(3):88-95.
[16]菅保霞,姜强,赵蔚.基于全脑模型的在线学习者学习行为序列分析[J].现代教育技术,2020(1):107-113.
[17]曾庆田.过程挖掘的研究现状与问题综述[J].系统仿真学报,2007(16):275-280.
[18]李燕,冯玉强.工作流挖掘:一种新型工作流自动化建模方法[J].计算机工程,2007(4):20-22.
[19]祝智庭,贺斌.智慧教育:教育信息化的新境界[J].电化教育研究,2012(12):5-13.
[20]Bannert M, Reimann P, Sonnenberg C. Process mining techniques for analysing patterns and strategies in students self-regulated learning[J]. Metacognitive Learning, 2014(9):161-185.
[作者简介]黄焕,中南民族大学教育学院副教授,博士,研究方向:教育技术学;元帅,湖北第二师范学院计算机学院讲师,博士,研究方向:教育技术学。
[责任编辑 李培福]