基于聚类和决策树算法的成绩影响因素分析
2013-10-24张莉
张 莉
(中国石油大学胜利学院 信息与计算科学系,山东 东营257000)
学生在校成绩是学校教学质量和学生掌握知识程度的直观体现。随着社会的发展,外界因素对在校生成绩在广度和深度上影响越来越大。对影响因素分析,使用数据挖掘技术挖掘出影响成绩的关键因素,将结果反馈到教学中,通过改善教学方法等手段提高教学质量。
1 数据挖掘
数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。
数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术等,以数据库为研究对象,形成了数据挖掘的方法和技术。数据挖掘的方法和技术主要包括:统计分析方法、关联规则方法、决策树方法、神经网络法、粗糙集理论方法、遗传算法、可视化技术等[2]。
2 K-means算法的成绩定性评价
聚类分析是数据挖掘中的一种分析方法,根据样本对象关联的标准相似性自动分为多类,同一类中的样本对象有较高的相似度,类间的样本对象相异。聚类的方法主要有:以划分为基础的K-means聚类算法,以层次为基础的聚类算法,以密度为基础的方法等[3],笔者将采用K-means聚类算法进行成绩定性评价。
2.1 K-means算法评价函数的优化
K-means算法即已知数据库包含n个数据样本,给定聚类个数k,对每个数据样本计算其应该属于的类,得到满足方差最小标准的k个聚类。
K-means算法是无监督算法,一般使用性能评价函数对数据样本的聚类结果进行有效性评价。若采用的评价函数不能准确反映聚类质量,则会在很大程度上影响算法的有效性和准确性。针对样本数据结构特点,重新定义一种新的评价性能函数应用到K-means算法中,对参数k进行优化。
2.1.1 确定初始聚类中心
对K-means算法中的最初分类个数k设定为2,从样本对象集合中抽取k个样本点,计算出样本数据的原始分类点。对样本中心进行再计算直到样本中心不再变化,然后对聚类结果进行评价计算。若计算结果增加则说明得到了更优的聚类结果,让k自增执行循环,直到二者成反比,即随着k的增加得到负增加的计算结果,结束所有运算。可以通过计算数据分布相异值,防止类中出现样本过多或过少的不平衡现象。数据分布相异值的计算公式为
式中,Ni、Nj为第i与第j类中含样本数据的个数;参数q为类的数量。
2.1.2 计算不同类间差异值
聚类的结果就是对数据集合进行划分,划分后保证不同类间的数据差异度高,而同一类中的数据相异度低,即具有较高的相象度。可通过类间差异度和类内差异度的计算对分类结果进行评价:
式中,xij为属于j类的样本点xi;ci和cj为类的中心值。
2.1.3 确定评定函数
通过计算评定值
可让聚类的结果值达到最优,评定值与结果成反比,评定值越小聚类结果值越优。
2.2 聚类结果
本文中随机选取了某学校某教学班100名同学的相关学籍信息及某学期各门课的平均成绩作为研究数据库,对学生信息成绩表的属性字段“性别”、“上课出勤次数”、“四六级通过”、“生源地”进行无量纲化处理,优化得到指标值μi:
式中,νmax和νmin为特征值μi的最大值和最小值;指标值μi位于0和1之间。
处理得到的学生信息成绩表如表1所示,属性间具有横向可比性。对表中数据应用聚类算法聚类后得到优、良、中、差四种聚类结果,如图1所示。
表1 学生信息成绩表
图1 聚类结果示意图
3 ID3算法的属性影响分析
3.1 属性选择度量
ID3算法是决策树算法中最常使用的一种,用信息增益作为属性选择度量。计算所有属性的信息增益值,选择值最高的属性作为树的节点进行分裂。
设有一数据集合,集合中有S个数据对象,将它们划分成C个类,每一个类Ci中有Si个数据对象,每一类中样本数据的期望信息值为
式中,参数Pi为任意样本属于类Ci的概率。
设属性U具有m个不同值。根据不同的属性值Ui将数据集合S划分成m个数据子集。假定某一属性Ui为一分裂属性,数据子集{S1,S2,…,Sm}就是从某一属性根节点生成的新叶节点。根据属性U划分得到的某一数据子集的熵或期望信息值:
数据集合S通过属性U划分后由下式计算信息增益值:
3.2 计算结果分析
由ID3算法进行相关运算,得到不同属性的信息增益值:
Gain(上课出勤次数)=I(S1,S2,S3,S4)-E(上课出勤次数)=1·972048-1·479893=0·492155
Gain(四六级通过情况)=I(S1,S2,S3,S4)-E(四六级通过情况)=1·972048-1·836696=0·315352
Gain(生源地)=I(S1,S2,S3,S4)-E(生源地)=1·972048-1·85877=0·113278
Gain(性别)=I(S1,S2,S3,S4)-E(性别)=1·972048-1·921978=0·05007
根据计算结果,选择信息增益值最大的属性“上课出勤次数”作为决策树的根节点,其余属性根据其相应的增益值依此递增最终形成一棵完整决策树(图2)。
图2 决策树分析模型
根据此决策树进行分析,可见学生成绩跟上课出勤情况关系最大,四六级通过情况、性别、生源地等虽然也会对成绩有影响,但影响不大。针对决策树的结果可以对属性进行处理,去除对成绩影响非常小或根本无关的属性,挑选关联大的属性继续分析,并可根据各属性对成绩的影响力进行排序,得到有价值的信息应用于教学。
4 结束语
应用数据挖掘技术对学生成绩进行分析,首先通过聚类算法对学生成绩数据进行分类,并对分类后的结果使用ID3算法建立决策树深入分析,得到影响成绩的关键因素是上课出勤,其他因素虽然对成绩有影响,但影响得很小。通过聚类和决策树算法对影响学生成绩的因素进行分析,可将藏匿于海量数据中的有用信息挖掘出来,促进学校教学工作的进一步提升。
[1]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2007:26.
[2]陈文伟.数据挖掘技术[M].北京:北京工业大学出版社,2003:32.
[3]袁方,周志勇,宋鑫.初始聚类中心优化的K-means算法[J].计算机工程,2007,33(3):65-66.