基于决策树C4.5模型的数据挖掘技术在学生成绩分析中的应用研究

2023-12-07田飞展金梅

电脑知识与技术 2023年30期

田飞，展金梅

(1.海南经贸职业技术学院，海南海口 571127；2.琼台师范学院，海南海口 571127)

0 引言

在这个人工智能快速发展的时代，每所高校都拥有自己的教务管理系统，里面储存了学生在校期间的所学课程信息及考试成绩等数据，而很多高校只是用这些数据评价一个学生是否达到评优的标准、是否达到毕业标准等简单的审核与查询功能。其实，这些数据中还蕴含了许多更重要的信息，比如：影响学生学习的主要因素有哪些？这些因素又反映出什么问题？学校的校领导、教学管理者以及教师迫切希望从这些数据中挖掘出自己所关注的信息，这些信息可以通过决策树C4.5模型的数据挖掘技术来获得。

近年来，国内外许多学者运用数据挖掘技术分析学生的考试成绩方面进行得如火如荼，在中国知网总库中，同时以“数据挖掘”“学习成绩”检索，共检索出中文文献467 篇，其中学术期刊184 篇，学位论文279篇，会议论文4 篇；外文文献42 篇。其中，班文静等(2022) 基于多算法的在线学习成绩预测框架，融合神经网络、决策树、K-近邻、随机森林和逻辑回归算法预测学习者在线学习成绩，并进行了预测性能分析[1]。赵磊等(2021) 基于数据挖掘的MOOC 学习者学业成绩的行为指标及算法模型、群体学习特征和教学干预策略进行了探究[2]；李海洋等(2020) 利用Apriori 算法建立关联分析挖掘模型,通过SPSS Clementine 软件学生成绩与洗浴时间关联性[3]，何普亮、张战胜(2019) 从教育数据挖掘的一般过程、教育数据挖掘的典型方法、常用工具以及目前国内外的相关典型应用等几个方面，对大数据时代的教育数据挖掘进行介绍和分析[4]。

1 数据挖掘技术

数据挖掘技术是人工智能快速发展时代的热点问题，它是利用深度学习、机器学习、神经网络、人工智能等理论及方法，借助Matlab、Python、SPSS 等相关软件，从庞大的数据库中，提取有效数据，进行科学的深度分析，为了寻求人们以前没有发现的，但对今后的工作是非常有用的知识的过程[5-6]。

数据挖掘是一个反复进行、不断优化的过程，主要包括数据准备、数据处理、数据挖掘和结果反馈四个阶段，如图1所示。

图1 数据挖掘流程图

2 决策树C4.5模型[7]

C4.5 算法是对Ross Quinlan 开发的ID3 算法的改进，是用在机器学习、数据挖掘的分类问题中的算法，由J.Ross Quinlan提出，它与ID3算法一样使用了信息熵的概念，并通过学习数据来建立决策树。

2.1 信息熵

它是信息的数学期望，一般用来表示信息混乱、无序的程度。设数据样本集T，类别属性具有m个不同值C1,C2,…,Cm，则信息熵的计算公式为：

数据样本集S的一个属性A有k个不同取值a1,a2,…,ak，利用属性A将数据样本集T划分为k个子集T1,T2,…,Tk，而且对于任意一个子集Tj类别属性也具有m个不同值Cj1,Cj2,…,Cjm，则Tj的信息熵计算公式为：

2.2 条件熵

以属性A为根进行分类的信息熵，其计算公式为：

2.3 信息增益

以属性A的信息增益定义为：

2.4 信息增益率

属性A的信息增益率定义为：

3 实例分析

3.1 数据准备

文中数据采用海南省某高校21 级软件专业2 个班级90名学生考试信息，主要包括学生的学号、实验成绩、考勤成绩、课堂表现、考试成绩等，如表1所示。

表1 学生成绩信息表

3.2 数据处理

由于学生退学、当兵、休学、缓考、缺考等原因，导致部分学生成绩信息不完整，从学生成绩信息表中剔除这些数据，剩下81条符合条件的数据，从21级软件1 班、2 班分别选取30 名同学的考试成绩信息作为训练集数据，其余21 名同学的考试信息作为测试集数据。

为了方便构建决策树C4.5 模型，对81 条有效数据进行预处理，实验成绩(A≥88，优秀，82 ≤A< 88，一般，A< 82，差），考勤成绩(B= 100，好，95 ≤B<100，中，B< 95，差），课堂表现(C≥90，好；80 ≤C<90，中；C< 80，差），考试成绩(T≥75，优良，60 ≤T<75，及格，T< 60，不及格）。得到学生成绩分析表，如表2所示。

表2 学生成绩分析表

3.3 数据挖掘

借助于matlab软件，对表2进行数据挖掘，分别计算信息熵、条件熵、信息增益与信息增益率。

1) 信息熵

神意存在于永恒当中。《剑桥哲学研究指针：中世纪哲学》第二章中给出了两种类型的永恒定义：“‘不间断’的永恒(P-eternity)——一种没有开端或没有终结或两者都没有的永恒；或是(O-eternity)——一种存在于时间之外，不受时间规定的永恒”。经过理性理智之辨，波爱修开始了对永恒的探讨。这里的永恒更类似于上面所说的“O-eternity”。

考试成绩(T) 分为优良、及格和不及格三个等级，其中优良有6人、及格18人、不及格36人。根据公式(1) 计算得到信息熵为

对于实验成绩(A) 也分为优秀、一般、差三个等级，根据公式(2) 分别计算实验成绩优秀、一般、差的条件下考试成绩的信息熵为：

2) 条件熵

利用公式(3) 计算以实验成绩(A) 分类的条件熵：

3) 信息增益

利用公式(4) 计算实验成绩(A) 的信息增益：

利用公式(5) 计算实验成绩(A) 的信息增益率为：

运用同样的办法，分别计算考勤成绩(B) 、课堂表现(C) 的信息增益率分别为：

3.4 结果与反馈

由于GainR(C) >GainR(B) >GainR(A)，所以选择课堂表现(C) 作为决策树的根节点，然后在每个分支上重复采用3.3的方法递归计算，构建决策树如图2所示。

图2 学生成绩分析决策树

为了避免决策树C4.5模型对训练集30名同学的考试成绩信息实现较好的预测，而对测试集21名同学的考试信息预测较差，即出现“过渡拟合”现象，需要对图2的决策树进行剪枝操作，决策树的剪枝策略分为预剪枝和后剪枝两种。在此，采用后剪枝的方法对图2决策树进行剪枝，保留课堂表现、考勤成绩对学生成绩影响较大的属性值，剪去影响较小的属性值实验成绩，得到决策树图3。

图3 修剪后的学生成绩分析决策树

通过决策树图2、图3可以发现，学生只有课堂表现、考勤成绩、实验成绩同时为优的时候，最终考试成绩才能达到优良水平，有一项为一般水平的情况下考试成绩为及格，两项及以上表现不好，考试成绩就会不及格。实际上，在训练集60名学生的考试信息中，优良的人数仅有6 人，不及格的人数却高达36 人，学生的考试成绩偏低，导致这一结果的原因可能是由于试卷的难度过大，还需进一步深度地挖掘。

最后采用测试集21 名学生的考试信息对该决策树进行检验，准确率达到了85%以上，说明该模型是有效的。

4 结论

文中构建了决策树C4.5 模型，对21 级软件81 名同学的考试信息进行深度挖掘，并验证了该模型的可行性，该模型表明学生的期末考试成绩与课堂表现、考勤和平时实验有着密切的关系，因此，各任课教师应该加强过程管理，首先，课堂上调动学生积极参与到的教学过程中来，主动回答问题；其次，要加强考勤，避免学生出现迟到早退现象，有事要提前请假；最后，要注重平时实验指导，提高学生的动手操作能力。这对提高学生考试成绩有着至关重要的作用。