APP下载

基于Hadoop和HMM的在线学习行为评测

2021-11-28阮进军

现代商贸工业 2021年36期
关键词:学习行为

阮进军

摘 要:混合式在线学习能把传统学习方式的优势和网络化学习的优势结合起来。尤其是在线学习阶段能让学生随时随地开展碎片化学习,但是学生在线学习阶段的测试题抄袭、学习不积极等异常学习行为教师难以及时掌握。将大数据技术和隐马尔可夫模型相结合,可以对学生在线学习行为数据进行采集、分析和评测,能够有效识别学生的抄袭等异常学习行为。

关键词:学习行为;Hadoop;K-means;HMM

中图分类号:F27 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2021.36.027

0 引言

混合式在线教学方式灵活,但是在线学习阶段,部分学生会更容易放松学习,甚至会出现测试题抄袭等不良行为。教师虽然可以通过在线答疑、讨论等方式和学生进行互动督促学生学习,但是教师要想真实掌握学生的在线学习状态还是比较困难。当前很多学者认识到,通过分析学生在线学习平台上产生的大量互动信息,可以跟踪学生学习过程、评价学生学习行为的优劣。柴艳妹等利用5类数据挖掘技术对学生的在线学习行为进行了研究,王芳等建立了MOOC 在线学习的预警模型,但是上述方法不能对学生的抄袭等异常学习行为进行评测。本文在利用Hadoop平台采集并处理学生在线学习行为数据的基础上,建立了基于隐马尔科夫模型(Hidden Markov Model,HMM)的在线学习行为评测模型,实现了对学生抄袭等异常学习行为的识别。

1 基于Flume的学生在线学习行为数据采集

学生在线学习过程中,服务器系统日志会记录学生的学习行为交互信息。对这些信息进行数据挖掘处理可以有效获取学生的学习状态。学生的学习过程中操作比较频繁,产生的数据量会非常庞大,因此有必要将大数据处理技术引入在线学习行为分析,本文将Hadoop中的分布式文件系统HDFS作为海量学习行为数据的存储系统。利用可靠的分布式数据收集系统负责监听系统日志,并通过Flume管道存入到HDFS中。

2 基于MapReduce的学习行为K-means聚类分析

本文选择安徽某高职院校SPOC在线学习平台上1052名学生的《C语言程序设计》在线学习数据。筛选出其中具有代表性的属性和行为:StuId(学生id)、SId(会话id)、Time(响应时间)及StuAT(行为类型)。经过数据清洗,剔除空白值和Time小于阈值的无效数据后,以“StuId+SId”为key, StuAT为value,建立键值对,即按照StuId相同且SId也相同的原则,按照时间戳将学生的操作行为记录下来。最后对上述数据集进行基于MapReduce的K-means聚类分析,经过多次聚类,在K取值为3时得到了较好的聚类结果。聚类完成后标记每条行为数据的类别,按照占比最多的原则将学生划分为3类。得到3类不同状态的学习行为学生评价集合E={e1,e2,e3 },经过分析e1类标记为学习积极型,这类学生在线学习的各种学习行为参与度都很高,学生的学习成绩都比较好;e2类标记为学习被动型,他们的学习行为主要以看视频、阅读课程资料等必须完成的学习任务为主,但是需要主动参与的行为(例如搜索资料、论坛回帖等)参与度都不高,这类学生的学习成绩处于中游及中游偏下;e3类标记为学习不认真型,这类学生的只是勉强完成学习任务,所有的行为参与度都不高,学习成绩都较低。

3 基于HMM的在线学习行为评测

混合式在线教学方式中的学生在线学习阶段,每个学习单元都安排了在线测试,每个单元测试学生可以反复尝试,系统会记录测试结果。教师可以观测到学生每次测试的成绩,但是无法了解学生对所学知识的掌握程度以及是否有抄袭行为。本文引入HMM模型先对能正常完成学习任务的e1和e2类学生的在线测试成绩数据序列进行建模,然后再利用训练好的模型评测学生的抄袭及学习不认真的学习行为。在建模前首先将学生数据样本按照70%和30%比例设置训练数据集和测试数据集,然后将训练数据集部分按照上面K-means聚类的结果e1、e2、e3划分集合,定义其中e1和e2为参照集,e3为落后集。再由授课教师将已知有抄袭行为的学生挑选出来组成异常集。将参照集中的e1和e2分别随机挑选70%用作模型训练,剩下的30%用作标准集。

3.1 建模阶段

将70%用作模型训练的e1和e2类学生的在线测试成绩数据序列,分别建立正常学习行为模型,即训练与之对应的λ1和λ2参数,建立2个正常学习行为的HMM模型库。

3.1.1 观测序列和观测符号数

学生选择在线测试题进行测试具有随意和无序性,但在线测试尝试与时间相关,学生每次测试尝试都可以被认为是学生对所学知识掌握情况的观测值,因此以学生为研究对象,以时间先后为次序将学生的每次测试成绩结果组合成观测序列O={o1,o2,…o i,… oT },o i∈V,其中V是定义的观测符号集{ V1,V2,V3,V4},对应由测试成绩转换而来的4个等级,具体规则是:76分至100分为V1,60分至75分为V2,40分至59分为V3,40分以下为V4。

3.1.2 隐状态数

对于学生对所学知识的掌握程度以及是否抄袭,教师无法直接掌握,只能通过学生做题反馈的观测符号进行观察。因此根据学生对所学知识的掌握情况可以定义状态集S= {掌握,基本掌握,不掌握,抄袭}。

3.2 评测阶段

(1)利用滑动窗口前向算法计算学生在线测试序列子序列的概率。由于每个学生进行在线测试做题次数不相同,观测序列长度会出现差异,因此可以使用滑动窗口技术将原始长度为T的测试观察序列,用长度为k的滑动窗口进行分割,将原观测序列分割为T-k+1个子序列,表示为H= hp (1≤p≤T-k+1)。运用滑动窗口前向算法可以求解出所有子序列的输出概率Php|λ。具体流程如下:

4 实验

由定义可知,计算据数据集中每个学生样本的抄袭度θ1和落后度θ2可以对每个学生样本进行评价,不同样本集的检测率和误报率如表1所示。

5 总结

本文提出了一种基于大数据和HMM模型的学生在线学习行为分析评测方法,利用Flume采集学生的海量在线学习行为数据,再使用K-means聚类将学生划分到不同的数据集,然后利用HMM建立基于学生在线测试观测序列的评测模型,使用能正常完成学习任务学生的在线测试观测序列训练模型,将模型应用于未知状态的学生测试观测序列的评测分析。实验结果表明该方法能够帮助教师有效识别学生在线测试抄袭行为和学习不认真的异常学习行为。

参考文献

[1]柴艳妹,雷陈芳.基于数据挖掘技术的在线学习行为研究综述[J].计算机应用研究,2018,(5):1287-1293.

[2]王芳,梁鹰.基于MOOC的大数据学习預警模型在混合教学中的应用[J].中华医学图书情报杂志,2019,(7):63-71.

[3]Steve Hoffman,Srinath Perera.Flume日志收集与Map Reduce模式[M].北京:机械工业出版社,2015.

[4]张响亮,王伟,管晓宏,等.基于隐马尔可夫模型的程序行为异常检测[J].西安交通大学学报,2005,39(10):1056-1059.

猜你喜欢

学习行为
基于学习行为数据的在线学习时间规律探析
网络远程教育学习行为及效果的分析研究
关注学生的“学”,从设置学习活动开始
慕课环境下的学习者
浅析“胡格教学模式”下的学生学习行为