APP下载

基于数据挖掘技术的在线学习行为和预测在网络教学中的运用

2013-04-29熊筱芳于丽娜黄云胡淑红周艳杰

知识窗·教师版 2013年8期

熊筱芳 于丽娜 黄云 胡淑红 周艳杰

摘要:本文描述了如何利用数据挖掘(DM)技术,分析了各种模式的在线学习行为,并对学习成果进行了预测。本课题组利用统计模型和机器学习DM技术对17,934个服务器日志进行了分析, 调查了南昌高校的98位本科生在网上学习的行为过程,从学生的行为模式和喜好等方面科学地区分了主动学习者和被动学习者,并发现了性能预测的重要参数,得出“数据挖掘技术辅以在线导师的指导,可以提高网上教学和学习的效率”的结论,给教学设计和课件开发提供了参考建议。

关键词:教育数据挖掘 在线学习行为 网上学习活动 在线学习的预测

一、介绍

网上教学和学习很难让教师观察到学生的学习行为,如果教师能动态和科学地观察、跟踪学生的上网行为,他们可能得到自适应反馈、个性化的评估以及更个性化的关注。目前,在线导师主要侧重学习管理系统(LMS)或课程管理系统(CMS),认为它们能提供学生的活动情况,如登录频率、访问历史和在论坛中的提问。但实际上,这种数据信息只能帮助在线导师在一定程度上了解学生的网上学习进度。

由于了解学生的活动对在线学习的效率起着至关重要的作用,所以找到科学的方法必然能够更好地在网络环境中观察和监测学生的学习活动。LMS/ CMS自动收集和储存功能在服务器日志是一个很好的资源,它可以帮助教师了解学生虚拟学习的行为。如通过课程网站的链接选择序列以及服务器日志统计分析,将有助于教师发现学生的学习模式,如谁访问了课程网站、访问了多久、网站是如何被使用等。

数据挖掘(DM)包括一系列的数据分析技术,适用于从原材料日志数据中提取知识,目的是分析服务器日志,从典型模式的在线学习行为上构建知识,进一步探索数据挖掘技术的独特优势,以支持动态的在线指导,并建立在线学习的预测模型。目前,它已广泛运用于商业中。

DM技术在教育技术的研究主要集中在算法的开发上,而不是教育运用。显然,DM技术的教育研究还有很大的潜力,如:①本科生有哪些典型的在线学习行为?通过数据挖掘技术能发现什么?②本科生网上学习行为的典型模式是什么?③什么是网上学习环境的学习成果中最重要的预测指标?

二、研究设计和方法

这项研究是在江西科技师范大学计算机应用四年制本科生中展开的,课程是通过学校网站在线学习平台进行管理的。运用基于项目学习(PBL)的方法,在线学习体验需要学生之间的积极合作,而且98位学生在线学习行为连续六周被记录在服务器日志中。从LMS中一共检索到17,934条服务器日志,笔者对此进行了研究和分析。

图1显示了本项研究的数据准备和分析过程。首先,从LMS服务器中进行搜索查询语言(SQL)来查询和检索各种数据,然后日志记录会被保存到Oracle10G Express数据库管理系统中。接下来,是数据预处理、检索和分析过程,包括以下Web使用挖掘过程,即数据预处理阶段、数据挖掘阶段、模式的分析阶段。

数据预处理过程使用精简的日志文件,它能删除原来的LMS常见的日志文件中所有没用的文件、不规则的和丢失的数据。在最初的预处理过程中,会话过滤器会被运用到为特征提取而减少日志的文件中,该过滤器的目的是把一个会话中所有用户的请求聚合成一个单一的变量集。如学生登录到LMS,即为一个会话开始,学生按“退出”按钮,会话立即结束。但是,当学生不小心关闭网页浏览器,或让网页闲置超过20分钟,该会话也将被终止。在这种情况下,已存储的相关原始数据会从数据库中删除,只能反映学生的正常学习活动。

特征提取过滤出以下几个主要变量:用户识别、会话标识符、会话起始日期和时间、会话结束日期和时间、用户的点击计数和会话持续时间。派生变量(每个学生的数据持续时间和频率)在每天和每周的基础上,通过计算或累积提取主变量数据。这些变量会转化为字段,分配适当的数据属性,并存储在数据库管理系统中。所有的数据字段以表的方式组织起来,并形成一个合理的数据库。数据挖掘阶段包括描述性分析和人工智能分析这两个子阶段:描述性分析用在总结、聚类、关联规则技术生成数据集,使教师深入了解学生的特点及他们的学习模式;人工智能分析用在预测目的中。

在两个开源的数据挖掘软件程序包中,WEKA和KNIME被用来进行描述和人工智能分析,SPSS被用来执行SQL查询和数据可视化。描述性分析的目的是概述构建所有学生在给定的时间内的行为。处理后的数据通过表格和图形可视化来说明基本趋势,使学生更好地了解如何进一步运用数据挖掘技术。

关联规则被运用于在找到非连续的两个或更多个变量之间的关系。在这项研究中,关联规则的一个例子是“行为A→行为B,支持=32%,置信度=80%”,关联规则的支持意味着观察到的事件占事件总数的百分比。因此,上述关联规则意味着在所有分析的事件中,A和B占32%;信心的关联规则意味着“行为A→行为B”的可能性有多大,即行为A发生行为B的概率。顺序关联技术被运用到我们的研究中,以找出学习行为之间的顺序关系,以构建学习模式和喜好。

三、研究结果

从LMS收集的数据被用来描述、统计、分析参与者的登录频率、访问课程材料频率、发布消息的数量、读取的消息数和出席同步在线讨论的数量。如表1所示,访问课程材料的登录次数频率分布接近正常分布,异步通信的分布(即发布的消息和短信读取数)和同步通信(即参加同步讨论的次数)都偏向正值。据数据显示,最常见的网上学习活动是登录到LMS和访问课程材料,学生往往更喜欢访问课程材料,与导师或同龄人在线互动的学生较少。

据表1显示,论坛发布消息数量(M=30.13,SD=29.96)和信息读取数量(M=44.21,SD=38.08)明显超过同步讨论的频率(M =2.35,SD= 3.46),t(97)= 9.11,p <0.000;t(97)=11.14,p <0.000。因此,在本项研究中,异步通信工具经常被用作主要的通信方法。此外,学生们倾向于阅读消息(M =44.21,SD=38.08),而不是发布消息(M =30.13,SD=29.96),T(97)=3.48,p <0.001。

在这项研究中,笔者根据学生常见的学习活动生成了一个三维图(图2)来说明下列变量之间的关系:总数发布消息数量(NP)、阅读消息总数量(NR)、访问课程教材的总频率(FAC)。结果表明,一小部分学生访问教材频率低,发布的消息数量较少,读取的消息数量也较少,大多数学生的模式则分散在图形中。

为了解参与者在课程中的学习时间,研究者从原来的服务器日志中检索和分析,得出参与者每周一次的登录记录是N=3,395。每周子项目统计的截止日期是在6周内的每周星期一晚上12点。

据表2显示,25.7%的登录事件发生在周二,也就是每周的子项目开始的第一天;56%的登录事件发生在周一、周三、周四、周日;18.3%的登录事件发生在周五和周六。表3说明,在六个星期的项目中,学生在第一周的登录频率最高,为22.9%,最后一周是18.1%。

根据学生的共同特征,聚类算法被用来区分同质组学生的分类。根据学生的学习偏好、持续时间、频率和学习表现等共同特征,K-均值聚类技术被运用到学生的分组中。这个方法基于对个体参与者之间的距离的概念,旨在把接近同一组的学生聚集起来做进一步分析。本研究利用了LMS登录总数、访问课程教材的总频率、发布消息的总数、读取消息的总数、同步讨论的次数、参加的总人数以及用最后成绩来描述和分类学生的特点这些变量。

图3显示了使用决策树的分析预测模型的性能,它可以作为一个分类器,从根到叶节点进行分类排序。在树结构中,叶节点代表类别,分支代表连词功能及其产生的不同目标值,为我们的研究建立了在线学习表现的预测模型。图3的右侧部分显示出在6个星期内,学生访问课程教材高达18.5次,他们的平均成绩是77.92分。如果学生访问课程教材达到44.5次以上,平均成绩将提高到89.62分。读消息的数量是另一个重要的预测变量。如果学生阅读消息超过66.5条,他们的平均成绩将从72.57分提高到88分。总之,当学生更积极参与,即具有较高的访问课程教材频率值、发言的数量、读取的消息数量和同步出席讨论的频率,他们就能取得更好的成绩。

四、结语

使用目前流行的LMS,教师能快速得到学生的基本学习资料数据,如登录日期、登录频率、访问的页面等,但是它还不具备帮助教师识别个体学习者或小组学习模式的功能、识别成功或不成功学习行为模式的功能、确定预测学习行为帮助学生改进的功能。因此,LMS的开发应结合数据挖掘工具,以利于更有效的网上教学和学习。未来的研究需要把重点放在验证预测模型上,并把它运用到其他在线学习的环境中。

参考文献:

[1]Novak, J. D.Learning, creating, and using knowledge: Concept maps as facilitative tools in schools and corporations[M].NJ: Lawrence Erlbaum Associates,1998.

[2]Su, J. H., Tseng, S. S., Wang, W., Weng, J. F., Yang, J. T. D. & Tsai, W. N.. Learning portfolio analysis and mining for SCORM compliant environment[J].Educational Technology & Society, 2006,(1).

[3]Hwang, Y. M., Chen, J. N., Cheng, S. C.. A method of cross-level frequent pattern mining for web-based instruction[J]. Educational Technology& Society, 2007,(3).

(作者单位:江西科技师范大学数学与计算机科学学院)