APP下载

数据挖掘在课程教学中的应用

2012-10-31张俊杰

武汉冶金管理干部学院学报 2012年3期
关键词:决策树数据挖掘关联

张俊杰,袁 桦,尹 鹏

(1.武汉纺织大学 数学与计算机学院,湖北武汉 430074;2.武汉冶金管理干部学院,湖北武汉 430081)

一、引言

教育信息化是我国教育发展的必然趋势,重视教学过程的信息分析是实现教育信息化的基础和条件。然而随着教育技术的不断发展,教育信息数据的丰富,一方面为我们教学提供有用的教育信息,另一方面教育信息数据的不断膨胀导致我们面对大量的数据无法获得最想要的信息,这样教育改革常常不是基于数据库中的有用信息,而是基于决策者的经验。这就不可能实现信息在教育领域中的有效应用,从而使得数字化资源的作用打了折扣。

因此,数字化资源的利用也是一个非常重要的方面,利用这些数据理性地分析学校教育改革的效果变得十分重要。数据挖掘技术能从大量数据中发现有用的知识,这些知识对高校教育管理的决策支持将是十分有意义的。

武汉纺织大学线性代数智能教学平台于2006年正式用于教学,全国已有80多所高校使用,注册用户达5万多人,测试次数达100多万人次,该平台受到了教师和学生的一致好评。但是该平台数据库中积累的大量的数据,并没有完全被有效的使用,平台中的数据管理系统,只是提供查询功能,并没有对数据加以分析,所以无法为该课程教学改革提供依据,本文就是要用数据挖掘技术从大量被忽略的数据中发现有用的知识,为今后教学改革提供方向。

二、数据挖掘在教育中的应用

目前,数据挖掘较多地应用于零售、电信、金融,特别在零售营销领域中,用于发现交易数据中不同商品之间的联系,从而找出顾客的购买行为模式,如购买了某一商品对其它商品的影响。在已有的数据挖掘应用中,较少发现用于教育信息的挖掘,更少看到直接对反映学生学习情况的数据进行关联规则的挖掘,而事实上数据挖掘技术同样可以应用于教育领域,为课程教学改革提供新的方法。

数据挖掘技术在教育中的典型应用主要集中在以下几个方面:

1.师生行为提前干预

学校教学管理数据库中记录着各届学生与教师的学习、教学等情况。利用数据挖掘的关联分析等功能,寻找师生各种行为活动之间的内在联系。

2.课程合理设置

由于课程之间存在一定的关联和先后顺序关系,学生在学习较高级课程前必须完成先行课程的学习,如果顺序颠倒,势必影响学习效果。

3.学生学习和教师工作评价

利用数据挖掘工具,对学习成绩数据库、教学运行数据库、科研工作数据库等进行分析处理,可以及时得到对学生和教师的评价结果,达到促进学习、教学水平的不断提高。

三、关键技术

本文数据来自线性代数智能教学平台中6个班级,共187位学生,每位学生对应7份成绩:第一章(chapter1)、第二章(chapter2)、第三章(chapter3)、第四章(chapter4)、第五章(chapter5)、综合测试成绩(composite)和卷面成绩(paper grade)。通过关联规则和决策树方法对这些数据进行分析,得出一些规则,指导教师教学和学生学习,提高教育的信息化水平。

本文使用Weka软件作为此次数据挖掘的软件。Weka是一个功能全面的数据挖掘应用平台,Weka通过实现各种学习算法,使用户能够很容易地将其应用于所要处理的数据集中,用户可以先将一个数据集进行预处理,然后置其于一种学习方案中,并对所得出的分类器及其性能表现做出分析。

本文中使用到的两种数据挖掘方法介绍:

1.关联规则。关联规则的挖掘是由R.A-grawal等人提出来的。关联规则是描述数据库中数据项之间某种潜在关系的规则,它已成为数据挖掘中非常重要的一个方向。

2.决策树。决策树方法主要用于数据分类。一般分成两个阶段:树的构造和树的修剪。首先利用训练数据生成一个测试函数,根据不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,从而生成一颗决策树。然后对决策树进行剪枝处理,最后决策树转化为规则,利用这些规则可以对新事例进行分类。

在开始数据挖掘前,还需要对数据进行处理,数据处理的步骤:(1)数据获取;(2)预处理;(3)数据转换;(4)装入数据;(5)过滤属性;(6)离散化。

四、分析结论

根据以上步骤处理好数据,然后用关联规则方法,我们得到以下规则:

在这10条规则中,箭头前面的数字表示的是箭头前面的前提条件为真的实例数,箭头后面的数字代表箭头后面的结论也为真的实例数;置信度(括号中的)是二者的比。从上可以看到chapter1、chapter2、chapter3、chapter4 之间的强关联,置信度都在91%以上,充分说明了它们之间的紧密联系。

规则1说明,一个学生的 chapter1、chapter2和chapter4的成绩都属于这个区间,那么他的chapter3成绩有98%的可能性也属于区间。规则7说明,一个学生 chapter1、chapter2的成绩都属于这个区间,那么他chapter3的成绩92%的可能性也是属于这个区间。

下面让我们来从各章所包含的知识点来佐证我们通过关联得出的规则,表1是各章节所包含的知识点及其分数。

表1 知识点分布

从上表我们也可以看到前四章的知识点的关联性要比它们和第五章的关联性要大,这是由于知识点过少,且有些知识点划分的比较模糊造成的,部分知识点存在交集。如果我们研究的属性数目再多一些,而且属性值之间的交集都是空集,实例数再大些的话,得到的规则就更清晰,更具有说服力。

应用到教学,就是在以后的教学过程中,要把那些分析得到的强关联的知识点或者章节有意的放到一起或者集中讲解。因为这些知识或者章节的相关性很强,集中讲解能够收到事半功倍的教学效果。既节省了教师授课时间,降低了以后再复习的难度,也让学生在同一时间能够接受更多的知识,因为它们相关,具有一定的相似性,所以理解和掌握起来就会相对容易些。如果掺杂着其他关联性不大的知识点一起讲解,那么学生的接受理解能力可能一时无法达到理想状态。

用决策树方法我们得到以下结果,见图1。

图1形象直观的为我们展示了通过分类而得到的决策树,从决策树可以看到,如果学生的chapter4的成绩低于46分,chapter5的成绩低于44分,不管他的chapter1的成绩是多少,那么他的卷面成绩都不会太好。这说明chapter4和chapter5对学生卷面成绩的影响是很显著的。从表1也可以看出chapter4和chapter5包含的知识点主要是最大无关组、方程组解的结构、过渡矩阵和正交向量组、正交矩阵、二次型,这两章基本涵盖了前三章的所以知识点,可以说这两章是前三章的融合和提升。这就可以解释了为什么不管他第一章的成绩如何,只要他的chapter4和chapter5成绩不理想,那么就决定了他的卷面成绩也一定不理想。这就需要学生和老师在chapter4和chapter5上下足功夫,学生要好好理解知识点,老师要重点讲好这两章。

我们也可以看到有3位学生的chapter4和composite成绩都很不错,但最终的卷面成绩却在34-67区间,除了发挥失误之外,最大的可能就是平时作业作弊了。同是chapter4和composite成绩都很不错的29位学生,他们的卷面成绩都在68-max区间,这样的结果才是一个正常的结果。

五、结束语

图1 决策树结果

对于无法熟悉学生学习情况的教师来说,数据挖掘是个好工具,它形象直观为教师呈现了不同分析方式的结果,使老师能够深入了解学生学习情况,以及所任课程的知识点难易程度,为以后的教学和辅导提供了很强的针对性。

实践表明,对大量数据进行深层次挖掘和分析,得到一些被我们忽视的有价值的信息,对我们研究学生的成绩和提升教师的教学都有很大帮助。

[1]黄成.教育信息数据挖掘初探[J].现代远距离教育.2006,(4):64-66.

[2]郭晓磊.数据挖掘在教育信息化中的应用[J].农业图书情报学刊.2007,(5):128-134.

[3]K.P.Soman著,范明,牛常勇译.数据挖掘基础教程[M].北京:机械工业出版社,2009.

[4]高巨山,郭健.数据挖掘技术在教育信息化中的应用研究[J].中国教育信息化,2007,(9):75-76.

猜你喜欢

决策树数据挖掘关联
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
“一带一路”递进,关联民生更紧
决策树和随机森林方法在管理决策中的应用
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
智趣
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用