基于属性相关性分析的高校学生成绩分析应用研究

2018-01-29金诗谱

西安文理学院学报（自然科学版） 2018年1期

关键词：决策树分类器情况

金诗谱

(安徽城市管理职业学院实验实训中心，合肥 230001)

近几十年，数据挖掘应用在国内很多领域都有了较大的发展，唯独高等教育领域的应用还不够多，不够深入[1].当前大多数教育从业者应用意识不强，从而白白浪费了能带来巨大效益的数据资源.

1 决策树及C5.0算法

1.1 决策树

决策树(Decision Tree)是指在各种事物和状况的发生几率已经知晓的情况下，通过构建决策树来准确计算净现值的一个概率，进而对系统的风险进行评估，准确预估各种情况可行性的一种方法[2].该模型主要起预测作用.

1.2 C5.0算法

C5.0的工作原理是根据所提供的最大信息增益的字段来分割样本[3].该算法依据各不相同的字段对子样本进行进一步分割，该过程持续循环，直至无法分割为止[4].其算法伪码如下：输入:J={(x1,y1),…(xm,ym)…,(xn,yn)},xm∈X,ym∈Y;训练轮数为I；初始化分发权值向量:

for i=1,…,I:

(1)采用分发权值向量 Di训练基分类器hi=R(x,y,Di)；R为弱分类算法[5];

(2)错误率计算:e=∑(hi(xm)≠ym)Dm

(3)if e≥0.15,break;

(4)基分类器权值计算hi:wi∈w;

(5)权值更新:Di+1(m)=Di(m)×F(e)

(6)将多个基分类器进行联合,输出最后的分类器[6].

其中:xm∈X,ym∈Y,xm代表由相关数据属性构建的向量,ym则代表数据的类别;Di通常叫做数据分发权值向量，wi表示分类器权值，F(x)又被称做更新函数[7].

2 基于属性相关性分析方法的建模过程

采用基于属性相关性分析的决策树构建技术VA-C5.0，在数据的预处理阶段，对数据属性进行相应的分析，根据结果过滤部分属性，同时结合算法来构建决策树，最后通过对比，从精度和时间效率上验证我们改进方法的优越性.数据挖掘流程为：源数据—预处理(属性相关性分析)—建立模型.

2.1 确定数据挖掘对象和目标

基于多年经验，计算机文化基础这门课程，对学生成绩存在可能影响的因素有计算机熟练情况、考试心态、课程兴趣、预习情况、理论课效果、实践课效果、课余上机量、作业完成情况、出勤情况、考前复习时间10个因素.通过数据，对以上因素进行分析，找出主要因素，以及学生成绩为优良，不合格的相关内在影响因素.

2.2 模型的选定

使用VA-C5.0分析方法，通过对采集到的主客观数据的分析学习，得到相应的决策树模型.最终，从根节点到叶子节点的每条路径也就是一条具体的规则，整棵决策树也就相当于很多不同规则的集合.

2.3 数据采集

由教师和学生一起采集数据，2014年共收集了两个学期共1 135人的数据.2015年收集了两学期共1 019人的数据.首先利用2014,2015年的数据建立数据挖掘模型.

2.4 数据预处理

本阶段预先对相关数据进行前期的必要处理.

2.4.1 数据清理与数据集成

把两个学期的数据中的含有缺失值的记录删除.在这里，直接采用忽略元祖的方法，删除掉含有缺失值的记录共188条.有效数据1 966条.

采集的2014年和2015年两年的数据，原始样本总数2 154，经过处理后参加模型构建的有效样本数为1 966，样本的有效率为91.3%.

2.4.2 数据离散化

用于分类的决策树算法需要离散化的数据，我们根据时间的多少，把考前复习时间离散化为“从不”，“一般”，“多”.课余上机量离散化为“无”，“一般”，“多”.期末成绩属性离散化为“不及格”，“及格”，”良好”，“优秀”.最终经过数据清理，数据集成和数据规约后的成绩数据共有1 966条实例.

2.5 VA-C5.0属性相关性分析方法具体实施

属性相关性分析是对数据属性进行相关分析，从而检索出那些对挖掘模型有利的数据，过滤掉部分不利于挖掘模型精度和时间效率的属性的一种方法.

2.5.1 进行属性相关性的图形分析

我们查看各个属性在期末成绩上的分布，进而用条形图的形式进行直观展现(图1).

图1 考前复习时间相关性分析图

举例考前复习时间相关性分析如图1,其他分析类似操作，此处就不一一列出.

2.5.2 通过关系矩阵分析

查看各字段和期末成绩字段的关系.对所有字段和期末成绩字段之间的关系通过矩阵来进行展示，举例说明预习情况和期末成绩的关系，如图2.

图2 预习情况和期末成绩的关系矩阵

从矩阵中可以看出，预习情况对期末成绩影响很小.其他属性操作类似.所有分析结束，可得出学号，计算机熟练情况，预习情况这3个属性对期末成绩基本无影响，应予以去除.

2.5.3 去除相对无关联字段，进行数据分区

使用过滤节点，过滤掉学号、计算机熟练情况、预习情况3个无关联字段.

此处用2014年和2015年的数据来作为训练分区数据，用来构建模型.

2.6 使用VA-C5.0建立决策树模型

我们使用VA-C5.0挖掘方法，对最终数据进行挖掘，得到生成树模型，进而生成出规则集.然后通过对生成的规则集进行分析研究，可以得出很多造成期末成绩优良，不及格的相关因素，以及他们之间的相互关系.列举部分得到的规则如下：

(1)IF考前复习时间=“多”AND实践课效果=“很好”AND考试心态=“很好”期末成绩优秀率100%.

(2)IF考前复习时间=“多”AND实践课效果=“很好”AND考试心态=“好”AND作业完成情况=“很好”AND课程兴趣=“浓厚”期末成绩优秀率98.36%.

(3)IF考前复习时间=“多”AND实践课效果=“很好”AND考试心态=“好”AND作业完成情况=“好”期末成绩优秀率95.78%.

(4)IF考前复习时间=“一般”或“从不”，期末成绩优良率为0；

(5)IF考前复习时间=“一般”AND作业完成情况=“差”，不及格率为98.86%.

3 与传统流程挖掘方法对比

3.1 传统流程构建决策树

我们把基于C5.0传统流程构建决策树的方法称之为C5.0方法.前期的分析及过滤字段操作取消，其他步骤及数据均相同.这样根据结果梳理下涉及到预习情况和计算机熟练情况的规则：

(1)IF考前复习时间=“一般”AND作业完成情况=“一般”AND课程兴趣=“一般”AND预习情况=“从不”期末成绩及格率100%.

(2)IF考前复习时间=“一般”AND作业完成情况=“一般”AND课程兴趣=“一般”AND预习情况=“一般”期末成绩及格率58.3%.

(3)IF考前复习时间=“多”AND实践课效果=“很好”AND考试心态=“好”AND计算机熟练情况=“不熟练or熟练or很熟练”期末成绩优良率都是100%.

通过规则可以看出，这两项对规则的合理性和高效性都产生了较负面的影响.

图3 VA-C5.0模型和C5.0模型预测结果对比图

3.2 两次不同方法的实验精度对比

依次通过两种挖掘方法产生的模型来预测2016年学生的成绩，然后再与真实成绩进行比对，比较两次挖掘的精度.1 118条挖掘数据中，基于VA-C5.0改进后的挖掘模型预测结果正确的有1 061条，错误的57条，预测精度94.9%.基于C5.0未改进挖掘模型预测正确的有1 016条，预测错误的102条，预测精度90.9%.接着我们随机选取200,400,600,800,1 000个样本，验证两种方法预测值的准确个数，得到的折线图如图3，从折线图我们可以看出，随着样本数的逐渐上升，基于VA-C5.0的模型预测精度与基于C5.0的模型预测精度之间的差距逐渐拉大.