数据挖掘在成绩分析中的研究与应用
2015-03-30湖南第一师范学院
湖南第一师范学院 胡 英
数据挖掘在成绩分析中的研究与应用
湖南第一师范学院 胡 英
随着时代的发展,教育改革的深化,每一年的高校升学率都在直线上升,这给学校的教学管理带来了很大的冲击和挑战。数据挖掘技术能够从大量的信息资源中搜索到有价值的信息,可以帮助教学管理者进行有效决策,提高工作效率。本文主要讨论数据挖掘技术在学生成绩分析中的应用,希望对于高校的教学管理有一定参考价值。
数据挖掘 成绩分析 研究 应用
随着科学技术的快速发展,数据库已经被广泛应用于各行各业,随着数据库中的数据量不断增长,要从大量的信息资源中挑选出有效的信息是非常重要的工作,数据挖掘技术在这样的背景环境之下应运而生。数据挖掘技术在教育界的使用具有重要的意义,它可以帮助教育管理决策者有效地做出判断和决策,有助于从海量的学生信息中发现一些隐藏的、有价值的信息指导教师的教学以及深入研究学生的学习情况。
一、数据挖掘技术概述
随着数据库的广泛使用,数据量也不断增多,从大量随机的数据中找出隐藏在其中有用的信息的过程就是数据挖掘。这种技术是一种深层次对信息进行分析的方法。数据挖掘技术的应用包含很多学科知识,它的功能十分强大。它在教育领域的应用可以实现分析学生成绩与各种因素之间的内在联系。
随着数据挖掘技术的快速发展,高校研究人员已经逐渐将数据挖掘及时应用到学生的成绩分析中,帮助研究人员找到一些影响学生成绩的相关因素,同时能够全面地分析这些因素与学生成绩之间的内在关系。数据挖掘结果可以帮助管理者制定提高学生成绩的方案,最大程度地提高学生学习积极性和热情,从而实现教学质量和教学效果的大幅度提高。
二、数据挖掘技术在学生成绩分析中的应用
在高校学生成绩分析中使用的数据挖掘技术主要有三种:关联规则、分类技术、聚类分析。这三种方法都有自身的特点,但是对于学生成绩分析都有重要作用。
1.关联规则
关联规则挖掘方法主要是从实际应用的角度出发,使用数据库挖掘技术对学生成绩分析和处理,然后可以得到一些有规律的资源,例如,学生成绩的实际趋势变化、学生成绩与课程的关联性、学生成绩所体现出来的水平层次以及教师对学生成绩的影响等,这些相关性可以为学校的教学与管理提供辅助性的帮助。
关联规则挖掘方法是数据挖掘技术中非常重要的方法,主要是用于探索数据中不同项目之间的内在联系。支持度和置信度用于衡量关联规则中的规则兴趣度。最为常用的方法是Apriori。这种方法使用的是逐层进行检索的方式,需要对数据库进行重复性的搜索和扫描,产生很多的候选集。在分析学生成绩的时候,应用关联规则技术,能够从有效的数据中搜索到有效的信息资料。随着信息技术的快速发展,Apriori算法在技术上也进行了相应的改进和提高,所以在进行检索的时候能够更加方便和简洁,而且检索到的信息资源也十分全面。例如,对学生的英语六级信息数据库中的成绩进行挖掘,在检索的结果中找到了一些有价值的关联项集:在2013年的上学期没有通过英语六级的学生中有80%是男生,然而全体男生中有60%没有通过大学英语六级。说明这所高校通过英语六级的情况是女生处于偏优的势态。人们通常认为理工科的男生对于英语的学习天赋比女生的英语天赋要差一些,所以学校应该采取相应的教学和管理方案提高男生在英语学习方面的不足,使学生的综合素质得到提高。
根据关联规则得出的信息,给学校管理者的提示是要加强对理工学科男生英语学习的管理,实施多元化管理模式进行学生的分类管理。例如,对于一些自我约束比较差的男生以及英语的实际应用水平比较低的学生进行外语早自习辅导的同时,还应该对于他们进行强制性的晚自习辅导。一方面,可以提升学生的英语成绩;另一方面,有利于学生利用晚自习的时间来充实自己的英语知识。同时,学校还应该对外语级别比较低的男生进行思想政治教育,因为学生觉悟的提高可以使学生自觉地养成良好的学习习惯。很多学生平时由于缺乏良好的生活学习习惯,没有形成学习英语的积极性和热情。因此应该对其进行多元化管理,将英语学习成绩优异的学生的重点进行综合素质,提高成绩优异的学生在平时的学习和生活过程中起到模范带头作用。这样也可以帮助英语水平低的男生解决一些英语学习上的困难。除此之外,这种关联规则挖掘法可以提示给英语教师在教学中应该注重分析平时男生的英语学习情况。针对男生的学习状况提出一些针对性的教学方案,激发男生对于英语学习的积极性和热情,提高男生的英语六级的通过率。这是一项关于学生英语成绩的分析,对于学生其他学科的成绩也可以用这种数据挖掘技术,进而分析影响学生成绩的因素。针对影响因素的性质不同,统计分析这些因素与学生成绩之间的关系,然后相应改变教学和管理制度,提高教学质量。
2.分类技术
分类技术当中最为典型的方法就是决策树的方法,决策树是一个类似于流程图的树状结构,其中每一个树节点表示的都是一类或者多类分布。ID3算法是分类技术中最为典型的一种算法。把决策树的分类方法应用到学生成绩分析中,全面分析影响学生成绩的相关因素,并分析相关因素与学生成绩之间的内在联系,为教学的管理提供一些有效信息,帮助决策者做出正确决策,促使学校顺利完成教学任务,提高教学效果和教学效率。
在生成决策树过程中,由于某种原因可能会导致数据库中的数据被划分成越来越小的部分,决策树会遭遇到失去统计意义。为了尽量避免这些现象的发生,应该在设计算法之间事先将分类属性进行正确分组,然后根据这些事先设计的分类值进行全面分析和判断,但是当发生一个属性值并不符合给定集合的时候,应该马上停止进一步划分这个子集。随着科学技术的进步,ID3算法也在不断改进,提高了这种算法的工作效率。例如,要想在学校的数据库中搜索学生大学计算机基础课程的成绩,改良后的算法所用的时间比改良之前的算法所用的时间明显减少很多,在很大程度上提高了工作效率。
在分类机制的基础之上建立的粗糙集理论在分析学生成绩中也有重要作用,这种理论可以将一些不全面和不准确的信息进行分析和处理,这种特征正好符合数据挖掘中的数据特性。这种理论主要的应用范围是离散值属性,对于学校数据库中学生的成绩进行分析时,应该对其进行离散化,才能够实现粗糙集理论的意义。例如,在进行高校学生的成绩分析中,应该对基本的数据表属性约值,然后对初步数据表进一步的值约简,这样才能够实现分类规则,粗糙集理论有着对于数据属性的制约,同时还有其自身的优点,优点主要表现在可以直接地提取分类规则,为学生成绩分析工作带来方便。
3.聚类技术
聚类技术在学生成绩中的应用有着十分重要的意义,它可以被看作是统计学的一个分支,同类中的样本比属于不同类的样本之间具有很高的相似性,这种分析方法是一种无指导的学习方法。例如,利用聚类分析技术研究学生成绩在相同课程不同院系学生之间的分布。我们想要知道同一个年级不同院系的学生在学习相同课程的时候产生的学科成绩的差异性,可以通过对11级3个系(外语系,美术系,经济管理系),10个班的三门课程(大学体育、大学英语、大学计算机基础)成绩进行分析,了解学生的学习情况。检索的结果发现,外语系的学生这三门课程的成绩都比较好,经济管理系的学生大学计算机基础课程的成绩比较高,美术系的学生只有大学体育成绩比较差。根据这样的分析结果,经济管理系的学生在英语和体育方面的成绩比较差,所以在进行教学管理的时候应该提出适合经济管理系学生的英语和体育教学方案,提高经济管理系学生的英语和体育成绩。同时,还应该制定适合美术系学生的体育教学方案,使学生体育成绩和其他科目的成绩一样的优秀,不要出现偏科现象。学校可以针对于美术系的学生制定早操计划,增强学生体质,从而实现学生在进行艺术创作的时候,也拥有健康的身体。
高校学生成绩数据库按照学生学习的课程的性质将课程分为四个类别,主要是公共必修课、专业基础课、专业类必修课以及专业方向选修课。然后将其进行分类,对于一些不规则的数据进行处理。利用聚类分析技术中最典型的算法对学生学期成绩进行处理和分析,可以将聚类数值定为7种。
其中,类别1是成绩中等的学生;类别2是专业课的成绩不理想但是其他学科成绩位于中等的学生;类别3是所有科目成绩都不理想的学生;类别4是专业类必修课科目的成绩差,但是除此之外其他科目的成绩位于中等的学生;类别5是各科目的学习成绩都比较好的学生;类别6除了专业方向选修课程的成绩之外,其他课程成绩是中等的学生;类别7是学生的公共必修课程及格,除此之外的学科成绩都比较差。通过分析可以得出类别1的学生比例比较高,高校理工科的学生成绩比较好,但是还存在有一些学生的学习成绩不及格。在教学管理的时候,对于一些单科学习成绩不及格的学生进行专门的研究,然后制定相应的教学方案,防止学生发生偏科现象。例如,有些理科学生的体育成绩不及格,学校针对体育单科成绩不及格但是其他科目都理想的学生加强体育教学,提高学生的体质,在文化课程优异的同时保证他们身体健康,以实现学生综合素质的提高。
数据挖掘技术在学生成绩分析中具有重要的使用价值,可以为教学管理者提供有效的数据和资源。同时,这种技术能够在数据库的海量信息中找出隐藏信息,发现影响学生成绩的相关因素,为高校的教学改革提供科学的数据依据和基本的教学保障。
[1]刘美玲,李 熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010.05
[2]页 川.大数据时代背景下挖掘教育数据的价值——教育部科学技术研究重点项目成果《教育数据挖掘:方法与应用》出版[J].中国远程教育,2013.04
[3]吕 岚,林玉连.数据挖掘技术在教学管理中的应用——以对某中学高中文科综合考试成绩进行聚类分析为例[J].软件导刊,2008.10
[4]刘 芳,林海霞.数据挖掘技术在高校计算机等级考试成绩分析中的应用[J].广西轻工业,2008.11
[5]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程,2009.01
[6]陈晓玲.数据挖掘在学分制成绩管理中的应用研究[D].中南大,2009
[7]杜 聪.数据挖掘技术在科研评价系统中应用研究[D].山东大学,2009
(此文系湖南第一师范学院科研课题,项目编号:XYS09N08)
ISSN2095-6711/Z01-2015-01-0086