APP下载

基于学习行为分析的学业警示模型研究

2019-11-03黄少年陈荣元申立智

电脑知识与技术 2019年23期

黄少年 陈荣元 申立智

摘要:教育大数据背景下,如何利用学习者的学习行为数据,分析并预测学习行为,评价教学效果是当前需解决的重要问题。本文基于MOOC网站的学习者学习行为数据,采用长短时记忆网络模型,构建学习者学业警示预测模型,对学习者的学习过程起到一定的监督作用。

关键词:学习行为分析;行为预测;警示模型

中图分类号:G424        文献标识码:A

文章编号:1009-3044(2019)23-0207-02

开放科学(资源服务)标识码(OSID):

随着移动互联网、云计算、物联网等技术的不断深入发展和推陈出新,来自各行各业的数据量呈爆炸式增长,人类社会正式步入大数据时代。大数据作为人类世界的下一个自然资源,在各个领域中都具有旺盛的应用需求和广阔的发展前景;尤其是教育工作者已经充分意识到大数据在教育领域的“无限潜能”。大数据背景下,教师可以利用数据来创新教学环境,改善教学过程,增强教学效果。还可以在教育评价中利用大数据进行分析,运用技术层面来对于教学进行评价与分析,从而对整体的教育综合质量进行提升。另一方面,随着教育领域MOOC教学模式的迅速发展,越来越多的慕课平台开始公开平台用户学习行为的相关数据。如:edX、Coursera、Canvas Network、学堂在线、慕课网等。通过对以上数据的深度挖掘和分析,可以对用户的学习行为进行分类和预测,为学生提供实时的学习指导,为教师提供相应的教学反馈,从不同角度提高教学质量。本文基于KDD-CUP2015开发数据集,分析用户的学习行为,并构建学业警示预测模型。

1 国内外研究现状

国内外许多研究者针对大数据背景下的网络学习行为进行研究,已经取得了丰富的研究成果。国外对学习行为领域的研究起步较早,Hoskins. L和Hooff .J 通过对在线学习行为的分析,关联挖掘其学习行为与学习成效之间的关联关系[1]。Chaplot等则采用神经网络结构,基于MOOC数据情感分析预测学习行为[2]。Kloft等则采用机器学习方法,预测学习者在慕课网站上的周逃课率[3]。国内对于网络学习行为领域的研究目前也已经形成丰富的研究成果。陈兰岚等对学习者的类型与学习行为进行统计分析,研究学习行为与学习成效间的关联关系[4]。荣腾中等对学习行为时序数据采用高阶MPT模型进行分析,实现行为数据的短期预测[5]。沈欣忆等利用中国慕课大学选修课网站的学习行为数据,采用多种方法构建学习评价模型,挖掘学习者的不同学习特性[6]。

2 KDDCUP2015数据集

KDD-CUP2015[7]是由国际知识发现和数据挖掘竞赛委员会提供的2015年比赛数据,用于预测幕课平台的逃课率。该数据集将数据分类测试集与训练集,且每类数据中均包含如下CSV格式的资源文件,分别为:date.csv、object.csv、sampleSubmission.csv、enrollment_train.csv 、log_train.csv、true_trian.csv。其中,date.csv记录每门课程的时间跨度;object.csv记录每门课程的具体信息,包括:课程ID,课程模块ID,课程种类及子类;enrollment_train.csv记录选课信息,包括:注册ID、用户ID及课程ID。Log_train.csv为网站的日志数据,记录学习者学习行为,包括:注册号、行为时间、事件类型。该数据集共定义了7种事件, 如:做作业、看视频、数据访问、阅读课程Wiki信息、讨论、课程浏览、其余对象访问。True_trian.csv为是否逃课的训练标签,包括注册号及是否逃课;

3 基于学习行为的学业警示模型

在教学过程中,学习者的不同学习行为反映了其不同的学习态度,从而在最终的学习效果上体现不同的差异。对于教学管理者而言,能否基于学习者在不同时间段的学习行为对学习效果做出预测和预警,起到实时教学反馈、调整教学方法和途径、从而最终提高教学质量的效果,是大数据背景下教学管理工作需要解决的关键问题。本文基于KDD CUP2015提供的公开数据集,提出了基于学习行为数据的学业警示模型,该模型根据学习者在一段时间内的学习行为数据,给出是否进行学业警示判断,从而加强对学习者学习过程的监督,提高学习者学习专注度。

3.1数据预处理

为了能基于学习者学习行为对学习效果做出预测和警示,本文首先从KDD-CUP2015數据集中提取8种特征表示学习者的学习行为,具体特征如表1所示。表中所有特征均首先进行归一化处理,通过线性变化将其映射为[[0,1]]区间。

学习者学习效果是其在一段时间内的学习行为的综合体现,鉴于此,为建模学习警示模型,本文基于对数据集的特征分析,提取学习者学习行为特征的时间序列数据,即[(X1,X2,...Xt)]。其中[X1={x11,x12,...x18}]表示学习者在当前时间段内的学习行为特征,[Xt]则表示学习者在第[t]个时间段内的学习行为。本文构建的学习模型将根据学习者在持续时间段内的学习行为数据,预测学习者在下一阶段内的学习行为,并判断是否进行学习警示。

3.2模型结构

基于学习特征时间序列数据,本文采用长短时记忆网络(LSTM)[8]预测学习者在下一阶段的学习特征,并判断是否进行学习警示。其网络模型结构图1所示。

其中,LSTM单元为是为了避免长依赖问题而精心设计的、用于记住较长的历史信息的存储单元。该单元的结构图如图2所示。

其中:

上式中[×]为点乘操作,[δ]为sigmoid激活函数。tanh函数为sigmoid函数的变形,该函数定义为如下形式:

对于输入的学习行为时间序列特征[(X1,X2,...Xt)],通过本文模型产生的非线性变化,将模型的预测输出可表示为[(h1,h2,...ht)].

3.3学习警示预测

本文将学业警示预测问题表示为二分类问题,即:若学习者在之前的一段时间内都积极参与该课程学习,则认为该学生学习状态正常,可预测在后续时间范围内该生将继续保持积极的学习状态;若学习者在一段时间内没有参与网络课程的学习,其学习行为在本模型中的输出将如正常学习行为有较大差别,则被认为异常学习状态,并标记为警示状态。本文采用sotfmax函数将输出[(h1,h2,...ht)]转化为[[0,1]]概率分布,并采用交叉熵损失函数计算预测学习特征分布与学习特征标签分布之间的距离。

4 小结

本文通过对慕课网站学习行为数据的分析,探索提出了一种基于长短时记忆网络的学业警示模型,该模型根据学习者在一段时间内的学习行为特征数据预测学习者的学习效果,并给出学业警示判断。该模型对教学大数据背景下教学行为分析有一定的指导作用,对大数据环境下新型混合式教学模型的构建奠定了基础。

参考文献:

[1]Hoskins L, Hooff J. Motivation and ability: which students use online learning and what influence does it have on their achievement[J]. British Journal of Educational Technology, 2005,36(2): 177-192.

[2]Chaplot D, Rhim E, Kim J. Predicting Student Attrition in MOOC using Sentiment Analysis and Neural Networks[C]. International Conference on Artificial Intelligence in Education, 2015,18(6-7): 317-329.

[3] Kloft, M. Stiehler, F. Zheng, Z. Pinkwart. Predicting MOOC Dropout over Weeks Using Machine Learning Methods[C]. EMNLP 2014 Workshop on Analysis of Large Scale Social Interaction in MOOC: 60-65.

[4] 陈兰岚,宋海虹.基于MOOC数据挖掘的学习行为和学习成效分析[J].教育教学论坛,2019(21):50-51.

[5] 荣腾中,闵祥晖.MOOC学习行为数据的高阶离散MPT模型分析[J].统计与决策,2019(10):14-17.

[6]沈欣忆,吴健偉,张艳霞,等.MOOCAP学习者在线学习行为和学习效果评价模型研究[JL].中国远程教育:1-9.

[7]P.Fournier-Viger. The KDDCup 2015 dataset.http://data-mining.philippe-fournier-viger.com/the-kddcup-2015-dataset-download-link/.[EB/OL]

[8] Klaus Greff , Rupesh K. Srivastava , Jan Koutník, et al. LSTM: A Search Space Odyssey. IEEE Transactions on Neural Networks and Learning Systems,2017,28(10):2222-2232.

【通联编辑:唐一东】