基于决策树的学生成绩分析

2019-05-23刘萃花朱娟

电脑知识与技术 2019年5期

刘萃花朱娟

摘要：教育行业的持续教学和管理积累了丰富的教学数据，如何深度挖掘这些数据背后的“宝藏”，是基于现代教育行业现状和教学管理需求的重要课题。本文运用数据挖掘中决策树C5.0算法，对《数据库原理》这门课程的学生期末考试成绩进行分类研究，分析课程各个章节对于期末成绩最具价值的影响，构建了成绩分析的决策树模型。实验结果表明，该方法对于细粒度挖掘课程内容对学生成绩的影响，具有重要意义，对于深入帮助教师制定教学计划，突出教学重难点，具有指導作用。

关键字：决策树；C5.0算法；成绩分析

中图分类号：TP311.13 文献标识码：A 文章编号：1009-3044（2019）05-0013-03

Analysis of Student Achievement Based on Decision Tree

LIU Cui-hua， ZHU Juan

（Jiujiang University， Jiujiang 332005， China）

Abstract： The continuous teaching and management of the education industry has accumulated rich teaching data. How to deeply explore the “treasure” behind these data is an important topic based on the status quo of modern education industry and the needs of teaching management. This paper uses the decision tree C5.0 algorithm in data mining to classify the students' final exam scores in the course of "Database Principles"， analyzes the most valuable influences of the chapters on the final grades， and constructs a decision tree model for grade analysis.The experimental results show that this method is of great significance for the impact of fine-grained mining course content on student achievement. It has a guiding role for helping teachers to develop teaching plans and highlighting the difficult points of teaching.

Key words： decision tree； C5.0 algorithm； score analysis

新时代背景下，计算机的普及带动了数据收集、存储和分析处理技术的发展。传统数据分析技术已不再符合时代潮流，面临数以万计的数据，新兴的数据挖掘技术展露出它的优势，并以迅猛的速度席卷各个领域。此外，经济的发展推动了社会对人才的渴求，教育这个热门的话题再次被推向了人们的视野。如何提高教育水平？如何对学生学习进行有效的管理？这些都亟待人们去解决。影响学生学习的因素有很多，其中学生成绩作为最为直观体现学生学习情况的重要因素一直被人们重点关注。由于往昔学生成绩分析的方法还只是简单地统计查询与对比，本文另辟蹊径，将数据挖掘中的决策树模型应用于学生成绩分析中，通过对学生成绩的收集、处理与分析，得到隐藏在学生成绩背后有效信息。这将更大程度上，帮助调整教育方式方法，致力于科学指导教育教学决策。

1 决策树算法原理

决策树的中心思想：将现有的数据一分为二，训练数据和测试数据用以构建决策树模型和测试决策树模型，并做进一步改进，最终实现对新数据的预测。

1.1 属性的选择

决策树的构造就是一次次利用训练集中包含的属性对训练集进行划分的过程，而其中属性的选择是决策树构造过程中的重要部分，如何在训练集众多属性中选择最佳的属性对训练集进行划分从而构造出最优决策树，是在构造决策树过程中需要重点关注的问题。

1.2 C5.0算法

C5.0算法的历史可以追溯到决策树最经典的算法ID3。ID3算法最初被提出后对决策树算法产生了重大意义，后期经过不断地改进和发展，提出了C4.5算法。而C5.0算法与C4.5有着密切的联系。实际上，C5.0是从C4.5算法改进而得来的，但在执行效率上讲，C5.0算法具有C4.5算法不可比拟的优势。在本文中，就是采用C5.0算法的思想进行实践分析，剖析学生成绩背后的秘密。

2 决策树构建思路

在研究过程中，大体上遵循数据挖掘的流程。本文收集九江学院各个班级学生各章节具体成绩及期末成绩，进而分类处理。实验中，利用SPSS Modeler软件的C5.0节点结合数据构造一棵关于各个章节成绩与期末成绩影响关系的决策树。初始构建的决策树可能存在冗余的问题，后期研究优化决策树模型，最后评估决策树模型并分析结果。具体构建思路如图1所示。

3 基于C5.0算法的学生成绩分析

3.1 数据准备

1）确定数据挖掘对象

本次学生成绩的实验数据以九江学院信息学院开设的《数据库原理》课程的学生成绩为数据挖掘的对象。并将《数据库原理》课程划分为六大章节知识，并以此为基准，统计该门课程期末考试试卷知识点在各个章节的分值。

2）数据的选择

本文使用的实验数据采集于九江学院信息学院2017级学习《数据库原理》课程的学生的期末考试试卷，以班级为单位人工登记各位学生期末考试的各项成绩信息。

3.2 数据预处理

1）数据采集

原始数据源不适用于数据挖掘，预先处理采集的数据是成功进行数据挖掘的第一步。采集的数据将处理成Excel表格文件，储存每一位学生关于《数据库原理》期末考试的各项成绩。其中，Excel表格文件设有姓名、学号、期末考试中各章节的所得成绩、期末总成绩等。

2）数据清理

人工处理得到的数据往往存在着很大的不确定性，如数据缺失等。惯用处理缺失值方法有：忽略元组、用属性平均值填充缺失值等。经过调查，数据缺失的原因大多是同学缺考，为了保证数据的质量，本文采用忽略元组的方法清理数据缺失的条目。

3）数据集成

集成不同班级的期末成绩数据的Excel表格文件到一个表格中。数据集成得到最终各个班级的期末考试成绩数据包含姓名、学号、期末考试中各章节的所得成绩，期末总成绩等。最终，得到数据样本数为148条。

4）数据归约

精简集成的数据，考虑到集成数据中姓名和学号逻辑上相互关联，且姓名可能存在重复，所以去掉姓名的字段，保留学号字段。实验中将连续性的成绩数据处理成离散型变量，将每个章节在期末考试所占分数和期末考试成绩，按照各成绩的80%、60%，化分为“Super”“Mid”“No”三个等级。

3.3 构建决策树模型

本文实验所使用到的构建决策树模型的数据挖掘工具是SPSS Modeler（版本15.0），利用其中所特有的C5.0节点构建学生成绩分析的决策树模型。具体的学生成绩分析决策树模型流程图如图2所示。

在图3的流程图中，通过设置数据源和分区参数，执行现有流，得到初始决策树模型，并且利用分析节点，得到决策树模型测试结果。构建的决策树模型在训练集和样本集的表现，其中训练集有71个样本，测试集有77个样本，表明该决策树模型正确预测了55个，即模型正确预测率为71.43%。总之，该模型在测试集上的整体预测能力不是令人满意，因此引出下一步的优化决策树模型。

3.4 优化决策树模型

初始时构建的决策树明显带有残缺性、并且存在异常分支。为了提高决策树模型预测能力，本文将训练集和测试集的比例、修剪严重性以及每个子分支的最小记录数作为影响决策树模型预测准确性的三个变量，通过控制变量的取值，反复验证形成不同变量下的决策树模型的预测正确性，最后选取预测正确性最高的决策树模型作为后期进行结果分析的对象。最终得到三种方案：

1）方案一：训练集和测试集的比例采取5：5的比重方式，修剪严重性置于0到100之间，每个子分支的最小记录数为2。

2）方案二：训练集和测试集的比例采取7：3的比重方式，修剪严重性置于0到100之间，每个子分支的最小记录数为2。

3）方案三：训练集和测试集的比例采取5：5的比重方式，修剪嚴重性置于0到100之间，每个子分支的最小记录数取1、2、3、4、5。

通过方案一的执行结果可以发现，当训练集和测试集的比例采取7：3的比重方式，随着修剪严重性逐渐提高，对其采取5：5的比重方式时更加显著。综上所述，采用训练集和测试集之比为7：3、修剪严重性为20、每个子分支的最小记录数为2的设置方式构建决策树模型，得到的模型如图4所示。此时决策树模型的预测正确性可达到85.11%，说明此模型在预测期末成绩上的能力是较好的。

3.5 模型评估与结果分析

从图4可以看出，影响期末考试成绩最重要的因素是第二章的成绩，说明学生第二章成绩的好坏更大程度上影响该同学期末成绩的等级划分。其次，第三章和第一章的成绩也对期末成绩有着重要影响。实际情况如下：

1）如果某同学第二章和第四章成绩处于中低等，第三章成绩处于中高等，无论其他章节的等分高低，该同学的期末成绩都将处于偏中高等。

2）如果某同学第二章、第三章和第六章成绩处于中低等，则预测该同学成绩处于中低等，且更大程度上处于低等。

3）即使某同学第三章、第四章和第六章成绩处于中高等，甚至高等，但是如果他第二章成绩处于中低等，那么预测其同学成绩偏向于中等。

4）如果某同学第二章成绩处于高等，第二章成绩也处于高等，则该同学成绩一定处于高等，且如果第二章成绩处于中低等，则该同学期末成绩偏向中等。

综上所述，我们得到各个章节成绩和期末成绩背后隐含的“宝藏”，并且通过信息总结以下几点建议：

1）对于《数据库原理》这门课程，教学部门和教师应着重准备第二章的备课和教学，可以适当增加与第二章理论相配套的实践，将理论与实践相结合，提高学生学习兴趣以及加深学生对第二章的学习和理解。虽然第二章的知识十分重要，但是第一章、第三章和第六章的成绩也在一定程度上影响最终的期末成绩。因此，教学者也应该把握这几个章节的教学质量。

2）学习《数据库原理》这门课程，不仅仅是学习课程中的重点内容，更应该从整体、从宏观上把握这门课程。通过数据挖掘实验得出的结论，将把控重点章节第二章与辅之提升第一章、第三章和第六章的成绩相结合，共同促进学生成绩与教学质量的提升。

当然这些建议对于在校学习《数据库原理》学生也同样具有深远的意义，推动学生与教学相适应，达到突破重点和深度学习的目的。

4 结束语

本文中对于学生成绩的数据挖掘的实验得出的结果较之传统数据统计方式得出的结果有着无法比拟的优点，它经过多角度分析、深层次论证来提炼最精华的数据，为以后学校相关部门和技术人员进行进一步学生成绩分析，提供一种可行的思路和方法。未来对于学生成绩分析的数据挖掘研究将不止于此，通过采集更多的样本数据，探索多方面影响因子，构建更强预测能力的决策树模型，协助教育决策。此外，利用决策树其他算法得到更加丰富的学生成绩背后的隐含“宝藏”，这也将大大提高获得信息的可靠性，成为后期深入研究的方向。

参考文献：

[1] 狄晓娇.基于数据挖掘技术的学生成绩分析[J].现代商贸工业，2018，39（17）：170-171.

[2] 郭宇红，王路宁，毛玉琪.SPSS Clementine决策树建模在图书馆中的应用[J].计算机时代，2014（4）：30-33.

[3] 熊蜀峰，聂黎明.基于C5.0算法的学生成绩分析决策树构造[J].科技信息，2010（8）：24-25.

[4] 涂波，张炜，胡文，等.基于决策树C5.0算法的员工职称晋级评估研究[J].中国管理信息化，2018，21（8）：63-64.

[5] 薛薇.基于SPSS Modeler的数据挖掘[M].中国人民大学出版社，2014.

【通联编辑：梁书】