数据挖掘方法在网络教育领域的应用
2018-01-18邓喆
摘 要最近几年网络教育技术的发展为教育工作研究者提供了一个了解学生如何学习以及用什么样的学习方法更有效率的研究机会。在用户模式下网络教育系统会收集大量的用户数据,并利用数据挖掘技术进行分析。这篇论文将向读者展示怎样通过数据挖掘技术对学生特征进行一个分类,并预测他们的期末成绩。通过设计,实现,以及评估了一系列模式分类器,并且比较了它们在一门网络课程数据中的性能后,我们得到了一个结合多分类器,它可以大大提高分类的性能。利用这个方法分析学生特征,目的在于帮助学生修正自己的学习行为,教师通过这个方法也可以及时地给学生提供正确的引导和建议。
【关键词】数据挖掘 分类 预测 结合多分类器
1 背景介绍
近几年,贵阳职业技术学院顺应教育信息化建设的趋势建立校内在线学习系统。通过数据挖掘技术,我们希望从在线学习系统中收集到的数据发现学生行为活动的关联关系,掌握其规律,并且基于每个学生学习资源的使用率对学生的成绩作出预测,从而帮助教师更好的制定教学计划。
2 数据集,分类标签,特征
实验课程包含了12次编程作业,总共184个小题目,所有的题目都使用在线学习系统。总共有227名学生参加了这门课根据他们的期末成绩,我们可以用3种方法对他们进行分类
(1)最简单就按照他们成绩分成8类;
(2)我们还可以按照成绩分段进行分类,比如85分以上的同学划分为“优”,75分到84分的同学可以划分为“良”,低于74分的同学可以划分为“差”;
(3)我们还可以根据及格和不及格划分为2个类,分数大于74划分为“及格”,分数低于等于74划分为“不及格”。
完成了数据集和分类标签的分析,接下来我们将进行分类前的最关键一步,从在线学习系统数据库提取特征,并选取适当的特征用于分类。第二个数据库储存了以下特征:
(1)答对题目的数目(正确率);
(2)第一次尝试就回答正确的数目;
(3)如果没有第一次成功,在提交正确代码前总共尝试了几次;
(4)从第一次尝试到提交正确代码的总时间;
(5)在该问题上所花费的时间(不管对错);
(6)在系统中与其他同学交流的时间。
我们将利用以上6个特征为参加Java程序设计这门课的同学进行分类。为了方便以后的记录,这么我们把6个特征使用英文缩写:
Total_Correct_Answers
Total_Number_Of_Tries
First_Got_Correct
Time_Spent_To_Solve
Total_Time_Spent
Communication
3 分类
随着计算机技术的快速发展,模式识别技术被应用在各个领域,但是尽管如此依靠一个单一的分类器也不可能获得一个满意的结果。更好的做法是将不同分类器获得的结果整合分析从而得到理想的正确率。所以其结果是,结合分类器与任何单一分类器相比可以提高分类的性能和准确性。
3.1 标准化
假设在Bayesian和Parzen Window分类器中特征是呈现正态分布的, 那么对于每个特征的数据是需要标准化的。这样做的目的是为了确保在决策的过程中每个特征具有相同权重。假设所给的数据是满足高斯分布的,那么使用均值和训练数据的标准差进行标准化。为了标准化训练数据,首先需要先计算各个特种样本的平均值和标准差。在这个数据集中我们将使用公式(1)来标准化数据。
这确保了训练数据集的每个特征具有一个正态分布,其平均值为零和一的一个标准偏差。此外, k-NN算法需要在相同范围内所有特征都标准化。
3.2 结合多分类器 (Combination of Multiple Classifiers)
我们希望通过使用结合多分类器用来提高分类器的性能。有两种不同的方法来结合这些分类器:
(1)最简单的方法就是集中数据集上所有分类器的出错率,然后选择出错率最小的分类器。这种结合分类器叫做离线结合多分类器(Offline CMC),虽然这个看起来不像是一个结合多分类器, 但是它的性能总比单一的分类器要好;
(2)第二种方法,就叫做在线结合多分类器(Online CMC),所有分类器采用投票机制, 最终的结果是分类器投票的优胜结果。
使用第二种方法,我们发现,在线结合多分类器可以显著在2-, 3-和8-分类标签下提高预测的精确度。
4 实验结果
最后,我们可以通过得到的改善结果来检测单个特征的权重。这个特征加权表示了其在分类中的重要性。在大多数情况下,结果是相似的,以多重线性回归或基于树的软件,使用统计方法来测量特征的重要性。这里就用到了信息熵的概念。分类系统里面无非是样本以及样本的分类结果,假设这个分类系统有k类,那么作为训练集来说,分类情况基本就定了,是按照样本的各个特征定的。那么在这些样本的信息的前提下,分类器有个结果,就自然包含了一种信息量在里面,可以用信息熵E(S)计算出来。表1使用了Entropy Splitting Criterion计算出Java程序设计的6个特征在3类-分类标签中各自的重要性。其公式为:
表1
特征 重要性 %
Total_Correct_Answers 100.00
Total_Number_Of_Tries 58.61
First_Got_Correct 27.70
Time_Spent_To_Solve 24.60
Total_Time_Spent 24.47
Communication 9.21
通过Entropy Splitting Criterion计算出来3-类的6种特征重要性
因此,根据我们实验产生的数据和信息,教师能够帮助学生者修正学习能力,有利于学生各方面素质的协调发展。
5 结论
随着越来越多的学生进入在线学习环境,数据库涉及学生的访问和学习模式也将成倍的增长。在本文中,我们已经表明,数据挖掘工作可以在预测学生的学习成果方面非常有用。我们希望改进我们的技术,这样就可以通过教师有效地应用于数据挖掘产生的信息,以提高学生的学习。
参考文献
[1]葛道凯,张少刚,魏顺平.教育数据挖掘:方法与应用[M].北京:教育科学出版社,2012:29-30.
[2]魏顺平.在線学习行为特点及其影响因素分析研究[J].开放教育研究,2012(04):81-90.
[3]魏顺平.Moodle平台数据挖掘研究——以一门在线培训课程学习过程分析为例[J].中国远程教育,2011(01):24-30.
作者简介
邓喆(1989-),女,苗族,贵州省人。大学本科学历。现贵州师范大学助教。研究方向为计算机应用技术。
作者单位
贵阳职业技术学院信息科学系 贵州省贵阳市 550081endprint