基于数据挖掘的学习分析在教学中的应用初探
——以高校计算机课程为例
2018-03-18隋永博
隋永博,曹 旭
(长春中医药大学,长春 130117)
对于学习分析的研究,致力于通过研究分析学习者本身的数据以及在学习过程中产生的数据,激发学习者的学习兴趣,优化学习者的学习效率,改善学习者的学习环境。
目前美国在这一领域处于领先地位,早在2004年,有研究者利用聚类算法对在线课程中的用户行为进行研究,找出学习行为相近的学习者[1]。美国佐治亚州大学的研究人员对高中学习者的GPA和SAT数学成绩通过判别式分析对他们的在线通识教育课程的完成情况进行预测。坎贝尔在普渡大学发表的论文中,对课程管理系统中的数据和学习者人口统计信息数据利用因子分析和逻辑回归分析方法研究出一个能预测学习者学习结果的预测模型[2]。罗梅罗等人利用数据挖掘技术在Moodle平台上进行研究。近年来Bravo Agapito等人利用C4.5决策树规则来对在线学习系统中的学习不佳表现进行判别分析。2007年普渡大学提出了通过对学习者的素质评价和在线学习行为数据对学习者的成绩进行预测的预测模型,并在2010年基于普度大学的Blackboard上实现了预测模型的开发部署,在实际使用中取得了非常好的结果。在对学习者平台数据进行分析的同时能对学习者进行自适应的引导[3]。平台收集学习者的登陆情况,活动情况数据,利用两步聚类算法将学习者分类,再根据不同的类别进行深入探究。他们的研究结果不仅可以为每个不同的学习者提供学习的帮助,而且可以对不同的学习者群体进行深入了解。
国内对于在线学习评价及预测的主要研究为在线学习的数据监控、采集及分析。其中复旦大学的胡运安等人提出了基于SCORM规范的网络教学管理平台上的学习者模型机器学习行为采集、分析、质量评估方案[4];上海交通大学的申瑞民等人基于E-Learning平台[5],搭建了一个学习行为分析和监控系统,通过频繁序列挖掘到关联规则,并通过这些规则得到学习者频繁访问的知识点的关联规则,实现了对学习者的个性化推荐知识功能;并且通过聚类算法,从学习者的资源请求发现学习者的兴趣爱好,将兴趣爱好相同的学习者组为学习小组,构建了个性化的学习小组;最后利用支持向量机算法,实现了学习评估。华东师范大学的顾小清等人总结了学习分析的技术,并对其未来的应用进行了展望[6]。东北师范大学的赵蔚、赵慧琼等人在学习过程中进行干预,能够识别出学习者潜在的学习危机,并发出提供个性化解决方案,提高学习质量[7]。
1 学习分析的概念和模型
1.1 学习分析的概念 美国高等教育信息化协会将学习分析定义为:使用数据和模型预测学习者收获和行为具备处理这些信息的能力。于2011年召开的,首届学习分析与知识国际会议定义学习分析为:测量、收集、分析和报告关于学习者及其学习情景的数据,以期了解和优化学习和学习发生的情境[8]。新媒体联盟也有相似的定义:利用松散耦合的数据收集工具和分析技术,研究分析学习者学习参与、学习表现和学习过程的相关数据,进而对课程教学和评价进行实时修正。可以理解为,在许多方面,学习分析指的是应用于教育领域的“大数据”分析[9]。
1.2 学习行为分析的模型 学习分析模型自底向上分别为数据层、机制层、结果层。数据层的主要作用是收集学习者产生或发布的数据,进而形成行为特征库[10];机制层负责分析行为特征库中各因素之间的关联与内涵,提供预测和及时反馈;结果层最终将分析结果可视化并呈现给学习者、教师、家长、教学管理者,三层级持续循环迭代[11]。最终将学习分析分为社交维度、情感维度、过程维度、生理维度,从四个维度进行分析研究。
2 学习分析的主要分析方法和工具
学习分析首先要获取学习者的在线学习数据。数据的获取主要通过网络教学平台能够记录的学习者学习行为数据[12],例如:学习者登录次数,在线时长,操作次数,作业提交时间,互动内容等等。利用对各大在线教育平台的数据分析比较,来总结一般的学习平台分析处理学习者数据的方式,通过对这些数据进行优化,来确定研究需要的数据。后续将数据进行处理,将获取的数据通过处理后得到更规范的、更加结构化的,更加适合开展研究需要的数据。采用何种方法处理和分析这些数据,才能让在线学习分析工作更加科学合理,是后续研究的前提。
在学习分析工具的选择上,首先应进行对数据处理中常用的算法和分析方法的调研,选出适合进行在线学习分析的相关算法和分析方法,了解其原理以及使用的方式,进一步理解基于大数据的学习分析过程[13],使得后续的研究能够更加深入。在学习分析中常见的算法有:
2.1 决策树算法 决策树算法是一种分类与回归方法。它利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树算法构造决策树来发现数据中蕴涵的分类规则。决策树算法在分类、预测、规则提取等领域都有这广泛的应用。在学习分析中经常用于学习者的模式识别与预测。
2.2 神经网络算法 神经网络算法是以对大脑的生理研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现一些特定的功能[14]。它由众多神经元可调的连接权值连接而成,同时兼具十分可观的非线性映射能力。此外,可以根据具体情况设置中间层的参数、各层的处理单元的数量和网络的学习系数。在学习分析中可以应用于模式识别,以及为后期的学习干预与预警进行决策支持。
2.3 支持向量机算法 支持向量机算法是基于统计学习理论的VC维理论和结构风险最小化原则。它寻求在模型的复杂性(特定训练样本的学习精度)和有限样本信息的学习能力(识别无误差的任意样本的能力)之间的最优折衷。在解决小样本、非线性和高维模式识别方面表现出许多独特的优势。在学习分析中用于识别模型、分类和回归分析。
2.4 K-Means聚类算法 K-Means聚类算法是一种典型的基于距离的分层聚类算法,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。在学习分析中可以应用于数据的聚类分析。
3 学习分析应用于计算机教学的实证研究模型
综合对比学习分析的方法与工具以后,根据目的选择适当的分析工具。拟针对某大学计算机基础课程学习者的在线学习行为进行分析与预测。大学计算机基础课程是全校学习者的必修公共课程,授课形式为理论教学搭配实验教学,其中实验教学比例大于理论教学比例。在实验教学环节,教师与学习者经常利用网络教学平台开展各类教学与学习。大学计算机基础课程是第一批开展线上教学的课程,多年来积累了大量的数据,符合本研究的基本条件。因此要根据网络教育平台上大学计算机基础课程的实际情况清洗数据,根据该课程的特定情况的具体问题进行分析和预测,将理论与实际相结合,对学习大学计算机基础课程学习者的在线学习数据进行研究,得出数据与学习者学习绩效之间的关系[15],是研究非常重要的环节。
通过对大学计算机基础课程在线学习数据的分析得出结论,了解学习者学习情况并及时发现学习中存在的问题,从而预测学习者在学习过程中将会遇到的困难[16]。拟以选修大学计算机基础课程两个班的学生为实证研究对象,形成对照组,进行实证研究。根据学生前7周的在线学习行为分析结果分别预测两个班级的学生将面临的学习危机。拟将学习危机等级分为三个级别:危险、中等、安全。将所取得的预测结果通知对照组A班的学习者、教师以及教学管理者。并在第8—11周的教学活动中对对照组A班进行干预。对照组B班学习情况只进行预测,并不实施预警及干预。教师以及教学管理者接受到预测结果后根据学生遇到的具体问题,对对照组A班进行个性化的指导,从而督促、引导学习者掌握知识,顺利完成学业。通过最后的成绩、问卷调查以及访谈的结果,来判断预测的学习危机是否准确,并且判断基于学习分析的预测与干预是否能够激发学习兴趣、提高学习效率、提高及格率、促进学业成功。
4 结语
利用数据挖掘的方法进行学习分析研究,能够挖掘学习数据的潜在内涵,并使得无意义的数据升华为有价值的教学信息,从而优化学习过程、提高教学效果。通过学习过程中产生的数据预测出学习者在学习中产生的危机,及时向其发出预警信号并提供个性化干预对策,有利于增强学习动机,培养学习毅力,提高学习质量。基于数据挖掘的学习分析,利用大数据的数据采集、数据清洗、数据分析的方法,探索数据分析下学习者的学习偏好,学习态度以及预测学习中所会遇到的问题。在这些数据的驱动下,对课程的精准教学支持,优化学习任务和教学决策方面有一定的创新性,基于数据挖掘的学习分析研究值得更加深入的探讨。