基于数据挖掘的计算机能力考核成绩分析与处理
2011-10-12刘建莉
刘建莉
(天津交通职业学院,天津市 300110)
基于数据挖掘的计算机能力考核成绩分析与处理
刘建莉
(天津交通职业学院,天津市 300110)
利用数据挖掘技术中的决策树算法,通过决策树ID 3算法中的信息增益方法确定属性从而生成决策树,分析出学生成绩优良与学生自身的五个因素有关,通过分析,找出影响学生成绩优秀的潜在因素。以加强学生成绩科学化、规范化管理,提高考试的优秀率。
计算机考核成绩;数据挖掘;决策树
一、绪 论
本文利用数据挖掘技术对天津交通职业学院学生在高职高专计算机能力考试中的成绩进行分析,重点介绍了著名的决策树算法,利用决策树算法生成决策树分析学生成绩优良与哪些因素有关,并利用事后修剪法对决策树进行修剪,最后由决策树产生分类规则,完成了成绩分析决策树模型的建立。
目前,对学生成绩评定是采用卷面成绩和平时成绩的加权平均的方法,即将学生卷面成绩和平时成绩分别乘以百分比再进行求出平均值进行核算。具体是在学期末每门课程教师出一个“教学质量分析报告”。这个报告中包括均值、方差、区别显著性检验、正态分布图,这种方法是基于全班学生的整体水平为出发点的,通过分析可以得出全班同学对这门课程的整体掌握水平。但不能分析出每一个学生作为个体影响成绩的因素,这些是需要进一步的分析数据。
二、采用的分析方法
采用传统的简单的数理分析统计的方法不能实现,所以采取数据挖掘的方法来对计算机统考成绩进行分析统计,拟得到有用信息。
采用的分析方法具体为:用数据挖掘中决策树算法分析出影响天津交通职业学院学生计算机能力考核成绩优秀的因素的相关联系以及比例。
这些因素包括:1.生源类型:高中上来的还是中专上来的学生;2.课堂学习情况:(课堂掌握知识的情况);3.是否是补考;4.旷课情况;5.学生是否对课程感兴趣。
通过分析,得出现在考试成绩优秀的学生中,分析出学生成绩优良与学生自身的五个因素有关,分析出这五个因素之间的联系对学生成绩优良的影响所占的比重。找出影响学生成绩潜在的因素,以加强学生成绩科学化、规范化管理,提高考试的通过率。
三、计算机能力考核成绩分析数据的采集
数据采集。这是一个工作量较大,占据时间较多的一个阶段。需要在以往的教学实践中,注意收集数据信息,有些数据的产生可以直接获得,有些数据需要对学生进行调查获得。基于本文的研究,所采集的数据有:
1.学生调查信息表:
内容包括对生源类型:高中或是中专;是否是补考:是或不是;学生对课程的感兴趣:是或者不是等。这些信息主要通过调查,由学生填写产生,最后由任课老师汇总。
2.教师课堂测验(课堂学习情况):
内容包括课堂学习情况,即上课掌握知识的情况。这些信息主要通过教师和学生配合完成产生。
3.教师上课用点名册:
内容包括学生旷课情况。这些信息主要通过教师汇总点名记录产生。
4.成绩数据库:
成绩数据库中包括了学生计算机能力课程的考试成绩。
5.自动判卷系统:
学生上机考完试以后,从计算机能力模块考试系统自动判卷系统中得到各项得分数据,进行整理出有用的数据。
通过上面收集的数据后,进行整体汇总,存在于数据库SQL 2000数据库中,以数据库表的形式进行存储。将学生调查信息数据表与本学期计算机能力考核成绩生成学生成绩分析基本数据表。如表1所示:
表1 计算机能力考核成绩生成学生成绩分析基本数据表
四、数据处理
1.数据转换
数据转换主要是对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘。使用概念分层技术,可以将连续值属性转换为离散值属性(即离散化)。
(1)将学生计算机能力考核成绩属性的所有值按0-70分、70分-80分、80分以上划分成“差”、“一般”、“良好”三类。
(2)将学生计算机能力考核课堂学习情况属性的所有值按0-60分、60分-85分、85分以上划分成“不够好”、“基本掌握”、“完全掌握”三类。
(3)将学生计算机能力课程的旷课属性的所有值按0-5节、6节-10节、10节以上划分成“好”、“一般”、“差”三类。
将学生调查信息与本学期计算机能力考核成绩生成学生成绩分析基本数据表。如表2所示:
表2 学生成绩分析基本数据表
2.数据消减
结合本文,采用数据消减的方法为:消减维数。将“考核成绩”字段转化为“是否优良”字段,选择“是否优良”为类别属性,有两个类“Yes”和“No”,即:Yes表示总评为“优良”,否则该字段属性值为“N o”;将“生源类型”字段选择两个类:“高中”和“中专”;将“课堂学习情况”选择三个类:“基本掌握”和“完全掌握”和“不够好”;将“是否是补考”选择两个分类:“是”和“不是”;将“旷课情况”字段选择三个类:“一般”和“优”和“差”;将“学生是否对课程感兴趣”字段选择两个分类:“是”和“不是”,总共300条记录。从而生成用于对成绩是否优良进行分类的基本数据表。如表3所示。
表3 数据消减后的学生成绩分析基本数据表
五、计算机能力考核成绩分析数据挖掘
1.利用ID 3算法构造决策树
在建立学生成绩是否优良决策树模型时,选择了其中与成绩属性相关性较大的生源类型、课堂学习情况、是否是补考、旷课情况、学生是否对课程感兴趣以及考核成绩以及是否优良属性作为类别属性。
在表3所示的数据库表中,共有300个样本,其中类“Yes”有102个样本,类“N o”有198个样本。为计算每个属性的信息增益,计算对给定样本分类所需的信息熵:
首先计算“生源类型”属性,该属性有两个属性值,需对每个属性所划分的子集计算信息熵:
对于“生源类型”=“高中”,类“Yes”有60个样本,类“N o”有85个样本,计算出:
对于“生源类型”=“中专”,类“Yes”有95个样本,类“N o”有60个样本,计算出:
计算出这种划分的信息增益是:
Gain(“生源类型”)=I(S1,S2)-E(“生源类型”)=0.0362
用类似方法可以计算出:
Gain(“课堂学习情况”)=0.1623
Gain(“是否是补考”)=0.041
Gain(“旷课情况”)=0.0876
Gain(“学生是否对课程感兴趣”)=0.081
“课堂学习情况”属性具有最高增益信息,它被选作测试属性。创建一个节点,用“平时成绩”标记,并对每个属性值,引出分支,样本以此划分 ,其它分支节点的划分也按此方法。算法返回的决策树如图1所示。
可计算出按平时成绩划分给定样本所需的期望信息为:
图1 成绩是否优良决策树
2.决策树算法ID 3的改进
以上的决策树不能看出“课堂学习情况完全掌握、旷课情况是优的最后成绩是优秀纪录”与“课堂学习情况完全掌握、旷课情况是一般、学生对课程感兴趣的最后成绩是优秀纪录”的记录数差额,误以为等同。根据以上分析,改进ID 3算法为:在叶节点记录符合条件的统计数据。
图2 改进的决策树
六、总结
通过研究,利用决策树ID 3算法研究了五个因素以及它们之间的联系得到了结论:
If课堂掌握知识的情况=“完全掌握”and旷课情况=“优秀”then考核成绩=“优秀”<占到总共优秀率的44.1%>
If课堂掌握知识的情况=“基本掌握”and旷课情况=“优秀”then考核成绩=“优秀”<占到总共优秀率的26.4%>
If课堂掌握知识的情况=“完全掌握”and旷课情况=“优秀”and学生是否对课程感兴趣=“不”and是否是补考 =“不是”then考核成绩=“优秀”<占到总共优秀率的17.6%>
If课堂掌握知识的情况=“完全掌握”and旷课情况=“一般”and学生是否对课程感兴趣=“不”then考核成绩=“优秀”<占到总共优秀率的6%>
If课堂掌握知识的情况=“基本掌握”and旷课情况=“一般”and学生是否对课程感兴趣=“是”and是否是补考 =“不是”and生源类型=“中专生”then考核成绩=“优秀”<占到总共优秀率的4.9%>
通过分析上述决策树ID 3算法的分析,得出现在考试成绩优秀的学生中,分析出学生成绩优良与学生自身的五个因素有关,并且也分析出了这五个因素之间的联系对学生成绩优良的影响所占的比重。从而找出影响学生成绩潜在的因素,对于这些因素之间的联系和最后成绩优良的比重也是不一样的,所以对于学生在某一方面的不足,老师可以在另一方面进行弥补。加强学生成绩科学化、规范化管理。提高考试的通过率。
在本论文的设计过程中,创新点是:解决问题的方法和以往的解决问题的方法不同,即改进了以往的计算机能力考核成绩分析方法,而且这种不同的解决问题的方法更有利于解决该问题。提出把数据挖掘技术中决策树算法首次引用到高职高专计算机能力考核成绩分析中,利用决策树ID 3算法生成决策树,建立了决策树模型,分析学生成绩优良与五个因素有关,通过对决策树算法的改进,在节点上记录符合条件的统计数据,分析得出这五个因素之间的联系对学生成绩优良的影响的比重。
[1]毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2005.
[2]刘瑞新.智能数据挖掘技术[M].北京:电子工业出版社,2005.
[3]余建英,何旭宏.数据统计分析与SPSS应用[M].北京:人民邮电出版社,2003.
A bs tra c t:This paper discusses how the author uses the decision tree of data m ining technique to analyze the relationship between students’grades and their personal qualities.Through the analysis,the potential factors that influence students’grades are found,w hich is hoped to be able help form a more scientific and standard management system of students’grades,thus increase the excellent rate of grades.
Key word s:grades of computer-based test;data m ining;decision tree
Analysis&Processing of Data-m ining-based CB T Grades
L IU Jian-li
(Tianjin Transportation Vocational College,Tianjin 300110 China)
TP311
A
1673-582X(2011)02-0096-05
2010-10-10
刘建莉(1980-),女,天津交通职业学院基础教学学部教师,本科学历,研究方向:计算机信息管理。