APP下载

数据挖掘在网络教学中的应用

2009-06-17孙玉荣罗立宇黄慧华

现代教育技术 2009年6期
关键词:关联规则网络教学数据挖掘

孙玉荣 罗立宇 黄慧华

【摘要】网络教学的一个关键问题是如何实现教与学的有效结合,通过关联规则技术对收集到的学生网上学习历史数据进行分析,可以发现学习时间、学习次数、BBS讨论与测试成绩之间的关联,帮助教师调整教学计划;通过分类模型挖掘技术,实现对学生的网络分层教学,提升教学质量。

【关键词】数据挖掘; 网络教学;关联规则;分类模型

【中图分类号】G420 【文献标识码】A 【论文编号】1009—8097(2009)06—0104—03

数据挖掘技术可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道的,但又是潜在有用的信息和知识的过程。通过这种技术把获取的信息和知识提供给决策支持系统。这种技术已广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等[1,2,3] ,随着信息技术的发展,数据挖掘在网络教学中的应用研究也逐渐深入[4,5,6] 。网络教学成为一种新型教学手段,理论上学习者可以在任何时间、任何地点以任何形式、从任何章节开始学习任何内容,实现个性化学习。但在网络教学实施过程中,教学内容和组织活动却不能随着学生的学习状况发生动态变化,导致了教与学脱离的现象,教学效果达不到预期效果。因此可以利用该技术对收集到的与学生学习相关的历史数据进行分析,从而可以为教师深入理解学生的实际学习情况,制定相关的教学目标供 其学习提供有力的决策支持,是提升教学效果的有力手段。

一 拟解决的关键问题

本文探讨 在现有的网络教学平台基础上,以在教学信息数据库中采集到的学生学习记录为样本,应用数据挖掘技术,挖掘有用的规则,探讨学生的学习习惯, 学习兴趣和学习成绩间的关系,从而及时了解学生对每一章节知识的掌握程度并根据每个学生的情况制定下一章节的教学目标,为其提供不同的教学内容,从而使教学更适合学生

个性的发展,实现网络分层教学,最终实现教学过程的动态调节。

二 数据预处理

由于人为的原因、设备的故障及数据传输中的错误,导致现实世界的数据含有脏的、不完整的和不一致的数据。数据预处理技术可以检测数据异常,调整数据并归约待分析的数据,从而改进数据的质量,提高其后挖掘过程的精度和性能。

本文数据源于《数据结构》网络教学课程,48节理论课,24节实验,4.5个学分。学生111人,其中06级信息与计算科学专业班合计64人,07级地理信息系统专业一个班计47人。针对1节提出的问题,本文通过对网络教学平台教学信息数据库中的学生信息表、学生学习进度表、测试信息表等进行数据挖掘,说明其在网络教学中的应用。各表结构如表1至表3所示(本文中学生信息经过掩饰处理)。

其中内容是指客观性考题,如单项选择题等。主观性考题,如算法设计之类考题可以以教师组织的BBS讨论为依据评分,在此以有效讨论次数(有实质性的讨论内容)计算。

首先去除数据表中的冗余信息,如学生信息表中除学号信息以外的各分项信息,每一章节学习进度表中的节、日期信息,每章测试信息表中的题号、内容、答案等信息;对某些汇总数据项进行离散化处理,如将测试信息表中得分汇总后分为(0,59),(60,85),(85,100)等 3个组并概化为不及格,合格和优秀三个层次;学习时间汇总后分为(0,2),(2,4),(4,6),(6,)等 四个组,单位:小时;学习次数汇总后分为(0,3),(3,6),(6,)等 三个组,BBS讨论汇总后分为(0,3),(3,6),(6,)并 概化为积极,参与和不积极三个层次[7];同时下一章节的教学目标制定为三个层次,内容呈现分别表示为A类、B类、C类三个层次的内容,提供给学生学习。然后检查数据的完整性及数据的一致性,对其中的噪音数据进行处理。经过数据预处理工作,得到一张描述学生学习过程信息的数据表格,表4是我们整理出的某一章节的学生学习情况数据。

三 数据挖掘过程

主要是利用关联分析、序列模式分析、分类分析和聚类分析等分析方法对数据库中的潜在规则进行挖掘。针对1节中提出的问题,根据国内外对各类模式挖掘算法的研究[8,9],本文采用FP-Tree关联规则挖掘算法进行关联规则挖掘和用于 分类模型判定树归纳算法进行数据挖掘。

1 关联规则挖掘

关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系,通过这种挖掘技术对表4进行挖掘,可以发现学生的学习时间、学习次数及网络课堂讨论和学习效果之间的关系,使教师了解学生的网上学习行为和目标掌握程度,帮助教师调整教学计划,如设计有意义的讨论课题提升学生的学习兴趣,从而间接增加学生的学习时间和学习次数。

首先给出关联规则的形式化描述:设 是m个项的集合,D是数据库事务的集合,每个事务有一个标识符。关联规则就是形如 的蕴含式,其中 ,并且 。规则的支持度记为 ,是事务D中包含的 事务数与所有事务数之比,置信度记为 ,是指包含的 事务数与包含的 事务数之比。

给定事务数据库D挖掘关联规则问题就是产生支持度、置信度分别大于用户给定的最小支持度和最小置信度的关联规则。

表5是使用FP-Tree算法对学生学习情况表进行挖掘得到的一系列关联规则(因篇幅限制,本文仅列出部分内容)。

从上表可以看出,学习时间在6小时以上并且成绩为优秀的同学占全班的20.51%,学习时间6小时以上的同学中有34.78%的学生成绩为优秀。学习时间在2小时以下的并且成绩不及格的同学占全班的7.69%,学习时间2小时以下的同学中有75%的学生成绩不及格。学习时间在6小时以上,学习次数多于6次且成绩为优秀的学生占全班的7.69%,这部分同学中有75%也积极参与BBS讨论,而学习时间少于2小时,次数少于3次,基本不参与讨论的同学,不及格率为100%,这部分同学占全班的7.69%。比例明显偏高,需要调整教学的内容和设计讨论问题以提高学生的兴趣。从表中还可以看出,学习次数多于6次的学生中有92.31%的学生其学习时间一般也会超过6小时,这部分学生占全班的61.54%,通过关联规则的挖掘,可以掌握学生网上学习行为,从而为教师的教学策略调整提供依据,可以更好地进行学生的培养。

2 分类模型挖掘

著名的心理学家、教育学家布卢姆提出的掌握学习理论认为:“只要在提供恰当的材料和进行教学的同时给每个学生提供适度的帮助和充分的时间,几乎所有的学生都能完成学习任务或达到规定的学习目标”。

通过构造判定树可以建立学生分层教学模型,并依据判定树为学生提供不同层次的教学内容而 实现对学生的网络分层教学。分类模型判定树归纳算法主要表述为计算每个属性的信息增益,将具有最高信息增益的属性选作 给定样本集合的测试属性,创建树的结点,并以该属性标记,对属性的每个值创建分支,并据此划分样本。由于样本数据中存在噪声或孤立点,通过树剪枝去除不合理的分支,以提高在未知数据上分类的准确性。据此算法构造的判定树如图1所示。

判定树的第一层条件为每一章节的单元测试成绩,分别表示为优秀、合格和不及格。不及格的同学下一章节进入C类教学目标学习,优秀的同学则进入A类教学目标学习,合格的同学则根据学习的次数决定下一章节的教学目标。学习次数为0~2次的同学进入B类教学目标学习,3~5次的同学则需要根据学习时间判定,根据判定树可知,所有同学进入B类教学目标学习,这和我们日常的判断逻辑相符,因为学习次数较多,学习时间较长,但成绩却是合格的同学很有可能是因为方法不当等原因导致接受知识能力较差,进入A类目标学习显然是不合理的。当学习次数大于6次时,可以根据学生参与BBS讨论的次数决定学生的下一章节的学习目标,讨论次数0~2次的同学其学习目标定为B类,3次以上的同学其学习目标则定为A类,这类学生表现出对知识的渴求,兴趣较浓,理解知识的能力相对较强。

根据判定树,可以根据学生学习本章节的实际情况对学生学习下一章节内容的效果进行预测,据此对学生进行分类,提供不同的教学内容供其学习,以提高整体教学质量。

参考文献

[1] 汤小文,蔡庆生. 数据挖掘在电信业中的应用[J].计算机工程,2004,30(6):36-37,41.

[2] 杨引霞,谢康林,朱扬勇等.电子商务网站推荐系统中关联规则推荐模型的实现[J].计算机工程, 2004, 30(19):57-59.

[3] 印鉴,陈忆群,张钢.基于数据仓库的联机分析挖掘系统[J].计算机工程,2004,30(19):49-51.

[4] 杨清莲,周庆敏,常志玲.Web挖掘技术及其在网络教学评价中的应用[J].南京工业大学学报(自然科学版),2005, 27(5):100-103.

[5] 刘革平,黄智兴,邱玉辉.基于数据挖掘的远程学习过程评价系统设计与实现[J].电化教育研究,2005,(7):67-69.

[6] 孙莹,程华,万浩.基于数据挖掘的远程学习者网上学习行为研究[J].中国远程教育,2008,(5):44-47.

[7] 龚志武.关于成人学生网上学习行为影响因素的实证研究[J].中国电化教育,2004,(8):32-34.

[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.

[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).

Application of Data Mining in Network Teaching

SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1

(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)

Abstract: A key matter of network teaching is how to realize combining teaching with learning. It is helpful to find out the association of learning hours, times, BBS discussion and test result by analysis the historic data of learning with the technique of association rules. A teacher can revise the teaching plan according to the association. To a teacher, it is also easy to realize a network level teaching, enhance teaching quality with the technique of classification model.

Keywords: Data Mining; Network Teaching; Association Rules; Classification Model

猜你喜欢

关联规则网络教学数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
计算机公共课的教学环节设置小议
高职院校开展基于云平台网络教学的探索与思考
关联规则挖掘Apriori算法的一种改进
基于移动学习的自动问答系统设计
基于关联规则的计算机入侵检测方法
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书