聚类技术在学生成绩分析中的应用
2016-03-27黄莹
黄 莹
(贵州职业技术学院,贵州 贵阳 550001)
聚类技术在学生成绩分析中的应用
黄 莹
(贵州职业技术学院,贵州 贵阳 550001)
文章将数据挖掘中的聚类技术引入到对学生成绩分析中,通过寻找影响学生学习成绩的内部原因及其他结论,可以有针对性地提高教学质量。针对传统K-均值算法中初始中心点选取存在的缺陷,将Huffman树构造的思想用于优化初始中心点的选取,改善传统K-均值聚类算法容易陷入局部最优而非全局最优的不良结果。将该改进的聚类算法应用到学生成绩划分中。在对学生成绩分析的过程中,分析也验证了该改进算法在学生成绩分析中的优越性和有效性。
聚类技术;K-均值算法;成绩分析
随着高校的不断扩招,学生数量越来越大,传统的学生成绩分析仅仅通过分值的高低、平均值来简单划分,学生成绩中存在的隐含信息无法知晓,已不适应深入分析的需要。本文将数据挖掘中的聚类技术应用于学生成绩分析,判断学生成绩中影响成绩高低的因素及由此产生的结果,可帮助教师有针对性地指定学生的学习计划,提高教学质量。
1 数据挖掘与聚类分析
数据库系统用于管理和处理数据,从而可以对数据进行加以分析、利用。然而,在实际使用中,对于如此庞大的数据,往往需要对其作较高层次的处理,找出其中规律和模式,以帮助管理者更好地利用这些数据做一系列的决策及研究,因此,数据库系统提供的功能是远远不够的。数据挖掘(Data Mining)正是在这样一个背景下产生的,数据挖掘是指从大量数据中提取或“挖掘”知识。这些知识是事先未知的、隐含的、但潜在有用的信息,数据挖掘意味着从大量的、不完全的、模糊的、随机的、带噪的数据中提取人们感兴趣的信息或者模式的过程[1]。
聚类问题产生于多门学科,聚类分析最初出现在统计学领域,是多元分析的一个分支,主要研究的算法是基于对距离分析的,如:K-均值算法、最短距离法等。关于聚类问题,尚存在许多需要去研究的领域,如:处理形状不规则的数据对象的能力;处理数据量大、数据模型复杂的数据集合时,提高聚类结果精确度的问题;处理带噪数据、孤立点数据、未知数据或者错误数据的能力;处理高属性数据的能力;降低对先决条件的依赖性。这些问题的存在也是未来聚类分析研究的主要方向。
2 基于K-Means算法的聚类分析
K-Means聚类算法是一种基本且应用广泛的聚类分析方法,属于划分方法的一种。基于给定的聚类目标函数(即:判别准则),指定聚类的类别数k,采用迭代更新的方法,最终得到k个聚类中心表达的聚类结果。每一次迭代都是向目标函数值靠近,终止条件为:聚类结果使目标函数取得极小值,聚类效果较优。K-Means算法以类内平方误差和函数为目标函数,k个划分是用户事先指定的,通过迭代优化,使目标函数值最小。其中,目标函数是集合中每个簇的数据点到该簇中心点的平方和。该算法本质上是一种枚举法,属于硬划分,即:每个对象必须而且只属于一个划分,每个划分包含至少一个对象。
K-Means算法是解决聚类问题的一种经典算法。它的主要优点是算法简洁快速。如果结果簇是密集的,且簇与簇之间区别明显时,它的效果最好。同时,对于大数据集的处理,该算法相对效率较高。但是,K-Means算法也存在着一些问题,比较显著的有:初选择始聚类中心的问题、K值的估计。
针对传统K-均值算法中初始中心点选取存在的缺陷,将Huffman树构造的思想用于优化初始中心点的选取,改善传统K-均值聚类算法容易陷入局部最优而非全局最优的不良结果,并将该改进的聚类算法应用到学生成绩划分中,可有效避免随机选取初始中心点导致的结果不稳定性,一定程度上也减少了算法陷入局部最优的可能性。
3 基于Huffman树的K-Means聚类算法核心步骤
(1)计算数据的相异度矩阵,作为构造Huffman树权值的依据,将数据样本构造成一棵Huffman树。分析算法的实际需要,在构造树时,选取欧式距离最小的两个数据点作为新树的左右子树,并将这两点的算术平均值作为新树根结点的值;重新计算所有树根节点的相异度矩阵。
(2)根据图论理论,按照Huffman树结点构造过程的逆序找到k-1个结点,将这k-1个结点去掉可得到k个子树,这k个子树的根节点即为k个初始聚类中心点。
(3)根据这k个初始聚类中心点,按照传统K-Means聚类算法进行聚类即可。
4 聚类技术在学生成绩分析中的应用
在运用K-Means算法进行学生成绩分析时,首先,进行数据预处理以保证聚类结果的质量和提高聚类的效率,然后根据聚类结果分析学生成绩;对某班的单科成绩进行分析,找出对学生总体成绩影响最重要的因素,以便为相关教师改变教学方式和方法、提高整体教学质量方面提供依据。同时,推广到不同考试科目的成绩进行综合分析,得出学生成绩整体的情况及其相关科目之间的共性及学生特征,从而为进一步完善整体成绩管理系统提供技术支持。在对学生成绩分析的过程中,也验证了该改进算法在学生成绩分析中的优越性和有效性。
运用Huffman树的思想寻找到初始聚类中心点,接下来,使用传统的聚类算法对数据集进行聚类,即可得到改进的K-Means聚类算法。本文首先描述了传统的K-Means聚类算法基本思想,分析了该算法存在的缺陷及现有的改进思想。针对初始聚类中心点选取的问题,介绍了目前主要的改进方法,并在此基础上提出了改进的算法—使用构造Huffman树的思想来选择初始聚类中心点。对改进算法的思想及算法流程作了详细描述,并对改进前后算法的性能作了比较。实验结果证明,改进的算法提高了算法稳定性及结果有效性。
在对K-Means算法进行改进分析之后,将其运用到学生的成绩分析中,对学生成绩进行更深层次的分析。因为聚类主要是深度数据分析,应用聚类技术进行试卷成绩分析是益处良多,可以将考试成绩与诸多因素进行关联分析。可为指定学生的下一步学习计划提供依据,从而进一步提高学校教学质量。
某次考试试题难度偏高、任课教师评分标准较严,通常将导致学生整体成绩偏低。在这样的基础上对学生的学习情况进行评价将产生不公正、不合理的结果,也会影响教师对学生的教学计划制定、教学效果的优良评估。总之,传统的成绩分析方法有以下几点不足:
(1)无法表示某一属性值在整个数据集内动态分布的情况。
(2)等级划分可能会将原始属性差别并不大的数据分成不同等级,导致水平相差不大的同学其等级差别较大,对一部分同学不公平。
(3)如果数据含有多种条件,每个条件的格式也不一致,如果直接转换,可能导致其与原始数据的差距,影响到后期等级评定的结果。
学生成绩是教师指定教学计划、进行教学管理的主要依据,但是由于有限的成绩分析方法,这部分数据没有得到充分的利用,很多成绩里面隐含的有用信息无法输出。如果通过数据挖掘,获取学生成绩所体现出的隐含信息,可以有针对性地进行教学计划修改与指导,提高学生的学习水平。传统的成绩分析有如下的不足:成绩中包含的有指导性的信息,可能被忽略;某一个科目对于整体科目的影响无法识别。
经过聚类分析,可将学生的成绩归类为不同的簇,簇的形状、大小、聚类中心值可以为教学效果的评价提供参考;根据簇的形状评价;根据簇的大小评价;根据簇中心点评价。
数据的预处理是数据挖掘过程中一个非常重要的环节,一般要占去挖掘过程中大部分的工作量。经验表明,如果数据准备工作做得非常细致,在模型建立阶段就会节省大量的精力。
5 结语
通过研究数据挖掘、聚类分析及K-Means算法,并将其应用到学生成绩的分析中,进行客观的成绩分析与总结,本文可以得到如下结论。
(1)聚类算法在学生成绩分析中的应用弥补传统评价方法的不足,可以从不同的方面比较学生成绩的差异,为教师制定与改进有针对性的教学计划起到很大的帮助。
(2)K-means算法作为一种启发式的聚类算法,在数据量小的情况下,聚类结果不一定理想。通过本文的实验及其验证的结果分析,K-means聚类算法进行了改进,在初值选择部分,引入Huffman算法选定初值,不仅可得到稳定的运算结果,还可以保证运算时间短。
[1]朱明.数据挖掘导论[M].合肥:中国科学技术大学出版社,2002.
[2]蔡元萃,陈立潮.聚类算法研究综述[J].科学情报开发与经济,2007(1):145-146.
[3]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
[4]行小帅,焦礼成.数据挖掘的聚类算法[J].电路与系统学,2000(1):59-67.
[5]李玉梅.数据挖掘初探[J].现代管理科学,2005(4):24-29.
[6]董长虹,赖志国,余啸海.Matlab图像处理与应用[M].北京:国防工业出版社,2004.Application of clustering method to analysis of students’grades
Huang Ying
(Guizhou Vocational Technology Institute,Guiyang 550001,China)
In this paper,the clustering technology of data mining is introduced into the analysis of student grades,by looking for the internal factors that influence students'grades and some other results,which can be targeted to improve the quality of teaching.According to the defects existing in selection of initial center point of traditional K- Means Algorithm,the the idea of Huffman tree structure is used to optimize the selection of initial center point and improve the bad result that traditional K-Means Clustering Algorithm is easy to fall into local optimum and non-adverse results of the global optimum.Improved clustering algorithm is applied to the division of students'grades.In the process of analyzing the students'performance,the analysis also validated the superiority and effectiveness of the improved algorithm in the analysis of students'grades.
cluster;K-Means Algorithm;analysis of students'grades
黄莹(1988—),女,贵州安顺。