聚类分析在学生成绩分析中的应用
2016-10-19孙永辉
孙永辉
[摘 要]聚类分析作为数据挖掘方法之一,有着广泛的应用前景,作为一个工具它能够对数据族进行细致分析,得出数据分布的情况,为数据的评定提供参考和帮助。根据学生成绩进行等级评定,也是在教学过程中对学生综合考核的一个重要环节,能否公平、公正、合理、客观地来评价学生的学习成果尤为重要。传统一刀切的评价方法明显存在缺陷,对学生也不公平,因此,可以利用数据挖掘技术中的聚类分析思想来克服这些传统评价体系的缺陷。
[关键词]聚类分析;数据挖掘;评价体系;K-means算法
doi:10.3969/j.issn.1673 - 0194.2016.06.164
[中图分类号]G642.4 [文献标识码]A [文章编号]1673-0194(2016)06-0-02
0 引 言
数据挖掘(Data Mining)就是从大量的、模糊的、不完全的随机数据中提取出隐含的、不为人们所知道的但对人们却很有用的信息和知识的过程。它涉及的领域比较广泛。
聚类分析通俗地说就是“物以类聚”的意思,它会根据设定的条件对数据进行分类,把性质相似或相近的数据划分为一类,把原来大量的、没有什么关联的数据变成彼此有联系的几类数据,便于人们了解数据的分布情况和数据间的彼此关联关系。它应用的领域也比较多,比如:模式识别、动植物分类、基因分析、市场分析等。
1 聚类分析的步骤及分类
步骤一:特征提取。由用户决定使用原始数据(样本)的那些特征来对数据进行分类和提取,把提取到的数据以矩阵的形式表现出来,每一行是一个样本,每一列是一个特征指标变量。
步骤二:获得聚类谱系图。要想获得聚类谱系图,可以使用聚类算法,样本特征提取以后形成一个带有特征的矩阵,它把每一个样本看成特征变量空间中的点。聚类算法的目的就是获得能够反映n维空间中这些样本点的最本质的“族”的性质。也就是说,它不考虑其他领域的知识,仅仅根据样本的特征进行细化分类,形成一个特征集合。
步骤三:分类阀值的选取。这一步就要凭借经验和领域知识了,根据生成的聚类谱系图和具体的应用目的来选取适当的阀值。阀值确定以后,就能够从聚类谱系图上得出分类方案,为下一步数据的分析提供帮助和参考,所以选取合适的阀值就显得很重要了。
聚类分析常用的方法有4类:划分方法、层次方法、基于密度的方法及基于网络的方法。这4类方法各有特点,根据应用目的不同可以选取不同的方法,期中K-means算法是最常用的基于划分方法的聚类算法,它是根据距离相似性作为评价指标,也就是两个样本的距离越近,相似性就越大。其最终的目的是把距离最近的对象作为一族来看待,把原始数据划分成紧凑且独立的各个数据族。
2 聚类技术在成绩分析中的应用
学生成绩是考核学生对知识掌握程度的重要指标,也是评价教学质量和教学效果的一个重要依据,如何科学合理地对学生成绩进行分析评价是教育工作者多年来一直研究的课题。学生成绩的评定由原来传统的五分制、百分制慢慢发展到现在普遍使用的学分制、等级制。等级制成绩评价法比较适合对学生成绩的一个纵向衡量,而横向衡量学生成绩的差异则所包含的信息量还明显很不足。
因此,如何科学地利用原始成绩给出合理的等级制成绩,完成以后对成绩进行各种分析提供依据就显得尤为重要。本文主要采用了K-means聚类分析算法来解决这个问题。
表1是2014级×××学院100名学生的计算机基础课程的成绩表(本文取部分学生成绩)。
按照传统的成绩划分方法,笔者把表1的成绩划分为5个等级,分别是大于等于90分的为优秀;大于等于80分小于等于89分的为良好;大于等于70分小于等于79分的为中等;大于等于60分小于等于69分的为及格;小于60分的为不及格。具体划分结果如表2所示。
按照K-means聚類算法,若设置初始聚类中心为53、66、74、79、89,则划分的结果如表3所示。
通过对表2和表3的对照,可以看出按照传统的划分方法优秀的学生只有2人,而用K-means算法划分的优秀人数为4人,这对于那些成绩为88、89的学生来说应该是合理的,能够更加客观地反映出学生真实的学习情况和掌握知识的情况。
用传统的方法对学生成绩进行评定,虽然方法简单、标准统一,但也存在明显的不足,就是过于注重分数,不是很灵活。例如:考试难度偏难或者评分标准比较严格,结果导致学生成绩普遍偏低,这时再用传统的评分标准就不能客观地评价学生的学习情况,就会有大量的学生不及格或优秀、良好的偏少。假如绝大多数学生的成绩低于80分,用新的评价标准来评价,就应该把80分以上的定为优秀,这样就比较合理了,也能够比较客观地评价教师的教学效果。
3 结 语
通过对聚类分析研究思想的阐述和实验结果的分析,笔者发现,使用聚类分析可以弥补传统成绩评定中存在的缺陷,能够比较客观、合理、科学、公平地反映学生的学习情况和对知识的掌握程度,客观公正地评价此门课程的教学效果。另外,聚类分析作为数据挖掘的重要组成部分已经普遍应用到各行各业中,人们也要根据具体问题具体分析,选择最佳的聚类方法。
主要参考文献
[1][美]拉德.数据挖掘实践[M].朱扬勇,左子叶,张忠平,译.北京:机械工业出版社,2003.
[2]赵法信,王国业.数据挖掘中聚类分析算法研究[J].通化师范学院学报,2005(2).
[3]周蕾.聚类分析在学生成绩分析中的应用[J].农业网络信息,2010(5).