基于CART决策树的计算机网络课程学生成绩分析
2019-02-26刘一帆
刘一帆,詹 静,2,范 雪
(1.北京工业大学 计算机学院,北京 100124;2.可信计算北京市重点实验室,北京 100124)
0 引言
随着中国教育规模日益增长,让高校教育方法得到更有针对性的改善是目前教育领域的重要任务。教学信息管理系统在普及过程中积累了较多的学生信息数据,但一般只进行简单的数据备份存储、查询工作,没有进一步剖析数据背后的价值。一些学者将数据挖掘技术应用于教育数据的处理,期望通过分析影响学生成绩的内在因素改进教学工作。目前教育数据分析常用的方法有分类算法、聚类算法等。
计算机网络课程内容具有知识点多、交叉关联多,很多知识点需要同时具备工程经验才能更好理解的特点。由于课程内容自身比较复杂,学生有一定的畏难情绪,对学习效率和对专业学习兴趣产生了不利影响。为了提高学生对计算机网络知识的学习效果,笔者利用CART 决策树算法对学生的计算机网络相关课程成绩深入分析,找出影响学生网络课程学习成绩的主要因素,建立合理的成绩分类模型,以便协助教师发现不同学生的学习特征,从而正确地评价、引导学生,使学生得到更好的学习效果。
1 研究现状
决策树算法是应用比较广的分类算法之一,最典型的算法是由Quinlan 提出的ID3 算法,该算法使用信息增益度量属性进行分类,将决策树和信息论联系起来[1]。由于ID3 的构造效果不够理想,只能处理离散的数据,Quinlan 又提出了C4.5 算法,对ID3 进行了改进,选择信息增益率最大的属性作为分类属性[2]。文献[3]根据决策树算法分析了影响高校英语四级成绩的诸多因素,对这些因素按照数据挖掘思想生成了规则集,为提高教学质量奠定了基础。文献[4-5]使用决策树算法,找出了影响学生成绩的因素,提出改进的教学方法。文献[6]使用决策树模型预测学生是否能通过等级考试,并验证了其准确率。文献[7]使用K-means 聚类算法对考试成绩进行等级划分,然后用R-C4.5 算法构造了决策树,减少了决策树中无意义的分支,找出了影响成绩的主要因素。文献[8]使用Weka 作为实验平台,使用C4.5 等多种算法对学生的专业课程成绩信息建模,通过学生前期基础课程的学习情况预测专业能力是否能达到标准。文献[9]采用决策树算法记录了学生的学习情况,提供了个性化指导建议。文献[10]以学生定型数据为研究对象,比较了各决策树算法的性能,实验说明CART 的分类精度更高。文献[11]对数学和系统分析与设计两个拥有1 000 名学生的数据集进行了学习行为分析和预测,发现CART 是预测两门学科成绩的最佳分类器。
2 CART决策树算法概述
CART 是一种决策树学习算法,使用基尼指数(Gini_index)选择划分属性,计算方式如公式(1)所示。其中,Gini 值越小,表示数据集纯度越高,划分效果越好。
其中,D 为数据集,pi是类别i 出现在D 中的概率,a 为待划分的属性,v 为属性a 可取的值,Dv为数据集中取值为v 的样本。CART 算法生成的决策树为二叉树,分割步骤如下。
(1)对于二叉树每一个节点选择Gini 值最小的属性作为分割点。
(2)在最优属性的所有取值中选择对该节点最优的分割点,作为该节点的分割规则。
(3)重复上述步骤,对分割出来的左右节点继续进行分割,直到所有的样本基本都属于同一类别停止分割。
3 数据处理
使用的数据集为计算机学院信息安全专业2013 级2 个班(班号分别为130721、130722)、2014 级1 个班(班号为140721)、2015 级1 个班(班号为150743)本科生的基本信息和学习数据,共124 人。
CART 决策树输入属性包括分组角色(组长与非组长)、性别、民族(汉与非汉)、理论努力程度、实践努力程度5 个。
前3 个属性原始数据为文本类型,将其转换为数值类型,担任实验组长则该值为1,非组长为0,性别为男值为1,性别为女值为0,少数民族值为1,汉族值为0。
理论和实践努力程度分别表示学生平时理论和实践学习的努力程度,具体计算如公式(3)和(4)所示。
其中,Stheory为理论努力程度,Sexperiment为实践努力程度,Tattempt为在线练习作业尝试次数,Tvisit为在线练习系统的访问次数,score 为实验加分,seq()为从高到低排序函数,n 为学生总数。
CART 决策树训练样本的分类等级即学生成绩等级。本文根据成绩排名进行划分,排名前20%学生为A,中间60%学生为B,后20%学生为C。
按照公式(3)及(4)计算,可得到学生学习数据,部分学生的学习数据示例见表1。其中前5 列为输入属性,最后一列为训练样本的分类等级。
表1 部分学生学习数据示例
4 基于CART决策树的学生成绩建模
根据第2 节所述CART 决策树算法对上述学生成绩进行建模,发现在不做任何限制的情况下可得到9 层决策树模型,但分类准确率较低(采用十折交叉验证的方法准确率为68%)。因此,通过调整属性和树深度的方法对决策树进行进一步优化。
首先,计算各属性权重,计算方法如公式(5)所示。
其中,a 为属性,nodea为以a 为划分属性的节点个数,total_node 为决策树中除叶节点之外的节点总数。
由表2 可看出,分组角色、民族两个属性的权重值都在5%以下,对学生最终成绩的影响较小,故只保留性别、理论努力程度、实践努力程度3 个属性。
表2 各属性权重 %
然后,计算不同深度CART 决策树的分类准确率。当深度为4 的时候准确率为78.2%,此后再增加深度时,准确率提高幅度不再显著,见图1。
综上所述,将决策树属性限制为性别、理论努力程度、实践努力程度3 个属性,深度设置为4,得到基于CART 决策树的学生成绩模型,见图2。
图1 不同深度CART 树的分类准确率
5 基于决策树分类规则的学生成绩及教学建议分析
首先,根据属性对学生成绩影响程度进行分析。属性剪枝后,实践努力程度、理论努力程度和性别对学生成绩的影响分别为61.5%,30.8%和7.7%,不同属性的相对影响力与剪枝前一致。可知实践努力程度对学生成绩影响确实最大。这也验证了计算机网络课程对工程实践能力的要求较高的特点。因此,在计算机网络类课程教学过程中有必要加强实验指导和效果跟踪,从而最大限度提高学生成绩。
其次,根据决策树分类规则进行分析。分类规则及符合规则的样本比例见表3,其中A、B、C 等级比例与第3 节预设比列略有差别,分别为22%,51.5%,26.5%,这是因为学生成绩模型准确率未达到100%所致。
1)A 类学生分类规则分析及教学建议。
A 类学生人数占总样本的22%,其共同特点是实践努力程度较高(>0.694)。在此前提下,理论努力程度和性别差异对学生成绩影响极小。这也比较符合教学事实,因为实践的基础是理论,事实上,实践能让学生能够再次理解和掌握理论知识点。
因此,A 类学生分类规则非常符合第一点根据属性对学生成绩影响程度提出的教学建议,即应通过在计算机网络类课程教学过程中加强实验指导和效果跟踪提高学生的学习能力和效果,并且这对培养高水平学生非常重要。
2)B 类学生分类规则分析及教学建议。
B 类学生人数占样本的51.5%,共分为5 个小类。其中前两小类与A 类同学特点类似,后两小类与C 类学生特点类似。中间小类学生人数较多,比较有代表性。
第1 小类只有1 位(比例为0.8%)实践和理论努力程度都较高(0.796 <实践努力程度≤0.881,理论努力程度>0.763),但综合成绩未得到A 的学生,经查可能存在临场发挥问题。
第2 小类有6 位(比例为4.8%)实践努力程度较高(0.769 <努力程度≤0.796)的同学。经查属于“搭便车”类型学生,因与实践能力较强的学生同组,实验分相对较高,但独立能力不强。
第3 小类学生(比例为40.3%)最多(0.286<实践努力程度≤0.694)其他属性对其成绩影响极小。这进一步说明了实验对网络课程学习的重要性。
第4 小类学生(比例为4%)是实践努力程度不高,但理论努力程度相对较高(实践努力程度≤0.286,理论努力程度>0.362,性别为女)的女生得到了B,而同等努力程度的男生成绩则为C,经查证可能因为这些学生比较重视复习查漏补缺。
图2 基于Cart决策树的学生成绩建模
表3 决策树分类规则及符合规则的样本比例
第5 小类学生只有2 位(比例为1.6%),实践和理论努力程度都相对较低。
因此,从B 类学生分类规则可以得到如下3 个启示及教学建议:实验是区分A 类和B 类学生的关键环节,加强实验指导和效果跟踪可以得到更好的学习效果;在实验环节中,教师应注意辨别“搭便车”现象,对这类学生加强启发和检查,使他们得到更好的学习效果;在复习环节加强与学生的互动,提高学生的复习效果。
3)C 类学生分类规则分析及教学建议。
C 类学生人数占样本的26.5%,其共同特点是实践和理论努力程度都不高。
因此,在教学过程中应及早发现和干预该类学生的学习,在保证基础知识学习的情况下提高他们的学习兴趣和效果。
6 结语
针对计算机网络基础相关课程进行了基于CART 决策树的数据分析,生成了计算机网络课程学生成绩分类模型,经过十折交叉验证模型的准确率为78.2%。分析发现如下4 条计算机网络相关课程教学建议:首先,在计算机网络课程中,影响学生成绩的主要因素是实践努力程度,并且是培养高水平学生的关键环节。因此应在计算机网络类课程教学过程中大力加强实验指导和效果跟踪。第二,在实验环节中应注意辨别“搭便车”现象,对这类学生加强启发和检查,使他们真正得到更好的学习效果。第三,在复习环节应加强与学生的互动,提高其复习效果。第四,教学过程中应及早发现和干预实验和理论学习都不积极的学生,在保证基础知识学习的情况下提高他们的学习兴趣和效果。
下一步研究方向包括:①本模型主要考虑学生的平时努力因素,还可进一步考虑加入期末复习评价因素;②近年来实施的小班教学模式导致样本数据量不够大,需要继续研究大样本下的模型是否有明显波动。