智慧校园学生英语统考成绩智能预测研究
2022-08-19毕娟
毕 娟
(合肥幼儿师范高等专科学校 社会管理及服务系,安徽 合肥 230001)
我国是一个教育大国,教育工作的进展无时无刻不牵动着社会的目光,提高学生的学习成绩是每一所学校的教学目标[1]。英语教育是我国教育中非常重要的一门课程,如何提高英语教育质量已经成为了当前教育改革的重要内容之一。通过将数据挖掘应用到学生成绩的预测分析中,可以分析出学生考试成绩与各种因素之间的联系,教师可根据这些联系针对性的给出解决方案,以提高学生成绩[2]。通过提取出的隐藏的、有效的信息,还可以为教师调整自身的教学计划做出建议。本研究将在C4.5 决策树优化算法的基础上,对学生的英语成绩进行预测,希望通过本研究能够为提高学生成绩做出一定的推动作用[3-5]。
1 C4.5 决策树优化算法及其应用
决策树算法是解决分类问题时最常用到的归纳推理算法之一,是一种通过样本上数据集作为基础的归纳学习算法[6]。C4.5 算法构造决策树的过程与ID3 算法基本相同,二者之间的主要不同是因为所使用的属性选择度量不同[7-9]。C4.5 算法在进行运算时,采用的是信息增益率,而ID3 算法则采用信息增益进行属性选择计算[10]。在具体计算中,C4.5 算法可以处理ID3 算法不能计算的连续性属性。下图1 为C4.5 算法流程图。
图1 C4.5 算法流程图
在算法具体实施中,首先假设训练集中所有数据的类属性都为已知,且类属性有n 不同的值,将其表示为Ci(i= 1,2,…,n),而样本合集则记为TiC,样本分类所需要的期望信息可用以下公式表示。
式中ip为样本属于类iC的概率,。然后将训练集样本按照属性进行划分,如果训练集被属性A 划分为m 个子集,将子集Tj在属性A上的值记为aj,所以可用以下公式表示训练集T的信息熵。
在对信息增益率的计算过程中,使用以下公式表示属性A 的分类信息。
最后将公式(2)、(3)、(4)结合在一起即可得到C4.5 算法增益率的表达公式,如下所示。
2 基于改进后的C4.5 算法构建决策树
2.1 改进后的C4.5 算法
因C4.5 算法在信息增益率计算过程中需要对对数函数进行多次计算,本研究考虑通过减少决策树计算成本的方式,降低决策树的生产时间。现假设E=F1×F2×…×Fn为n维空间中的有穷向量空间,而其中Fj为有穷离散符号集,E中的元素e为例子,并设YE和NE为E中的正例集和反例集子集,二者的大小分别为y和n。这时E中的正例与反例的概率,同向量空间E中正确决策树对任意样本集的分类概率一样。改进后的C4.5 算法中决策树要对一个样本集做出正确的分类判断所需的信息量如下所示。
若将属性A选择作为决策树的根,并使得A具有V个不同的值,所以根据属性A可以将可以将向量空间划分为V个子集{E1,E2,…EV},这个子集包括了向量空间E中属性A取iA值的样本数据。现假设空间Ei中含有的正例与反例个数分别为yi和ni,所以可以用以下表达式表示子集Ei需要的期望信息I(yi,ni)。
故而可以用以下表达式属性A 为根所需要的信息熵。
然后对上式进行化简可得以下式子。
接下来引入高等数学的迈克劳林以及泰勒公式,对信息熵进行简化,通过泰勒公式中等价无穷小的概念,可得到以下表达式。
现将公式(11)和(12)带入到公式(10)之 中,可以得到信息熵的表达式。
同理可得分类信息量的表达式如下所示。
信息熵的表达式如下所示。
经过这一系列的简化改进后,计算公式从对数计算转变为了加减乘除四则基本运算,在算法运行中减少了计算时间,提高了算法的效率。
2.2 基于改进后的C4.5 算法构建决策树
在对C4.5 算法进行改进后,在改进算法的基础上构建决策树。本研究将某学校2019 届高三一班级的某次模拟考试成绩作为对象。该班共有30 名学生,将其模拟考试的成绩进行统计,并根据以往所有考试中的情况,对每一名学生的英语知识点掌握情况、英语听力情况以及词汇量划分等级,分别将学生的评价指标分为优、良、中、差四个等级,而总分为150 分,其中低于90 分为不合格,高于等于90 分为合格。下表为某次模拟考试该班同学的考试分析数据集。
如表1 所示,该班30 名学生的模拟考试以及影响成绩的各因素都表示在该表中,本研究将本模拟成绩作为训练集。本研究的类别属性用A 表示,A 为合格与不合格两种属性,上表中合格人数为24 人,不合格人数为6 人,即在集合中P(y)= 24/30,P(n)= 6/30,所以分类属性的信息量经计算可得。
表1 样本数据集
I(y,n) ==0.16。以英语知识点掌握为研究对象,通过上表可以看到当英语知识点掌握情况分别为优、良、中、差时,对应的例子数量分别为9、9、7、5 个。当英语知识点掌握等级为优时,数据集中相对应的正例有9 个,反例为0个等信息。根据公式(13)、(14)以及(15)可以计算求得测试属性的信息增益率。
同理将英语听力作为研究对象,当英语听力等级为优时,所对应的正例有7 个,反例有3 个。当英语听力等级为良时,所对应的正例有5 个,反例有2 个。当英语听力等级为中时,所对应的正例有9 个,反例有0 个。当英语听力等级为差时,所对应的正例有3 个,反例有1 个。同样按照公式(13)、(14)以及(15)可以计算求得对应测试属性的信息增益率。
最后将英语词汇量作为研究对象,在上表中可以看到,当英语听力等级为优时,所对应的正例有6 个,反例有3 个。当英语听力等级为良时,所对应的正例有6 个,反例有2 个。当英语听力等级为中时,所对应的正例有6 个,反例有1 个。当英语听力等级为差时,所对应的正例有6 个,反例有0 个。同样按照公式(13)、(14)以及(15)可以计算求得对应测试属性的信息增益率。
计算完成后,比较知识点掌握情况、英语听力情况、英语词汇量三个因素的信息增益率,其中知识点掌握情况的信息增益率最大,所以在三者中知识点掌握情况的信息对分类的作用最大,故而应当将知识点掌握情况作为测试属性。在选用知识点掌握情况作为测试属性之后,使用递归的方法继续进行决策树的构建。从上述计算结果可知,除了知识点掌握情况之外,英语词汇量的信息增益率最大,所以当知识点掌握情况等级为中等时,选取英语词汇量作为测试属性。然后依据此方法,当英语词汇量等级为中等时,选用英语听力情况作为测试属性,进而构建完整的决策树模型,如下图所示。
由图2 决策树可以得到分类规则。如当英语知识点掌握水平为优时,成绩合格;英语知识点掌握水平为良时,成绩合格;当英语知识点掌握水平为差时,成绩不合格合格。当英语知识点掌握水平为一般时,英语词汇量水平为优,成绩合格等等。
图2 训练决策树模型
3 实验设计与分析
本研究所用数据与训练时所用数据都来自同一学校2019 届高三学生,在进行具体实验时,将高三年纪所有班级的学生都作为研究对象,并记录所有学生的模拟成绩。然后根据模拟成绩与改进后的C4.5 决策树算法发现英语成绩与各个因素之间的关系,预测这一届学生高考英语的合格率。最后将高考实际合格率与预测合格率进行对比,以证明本研究所使用的方法是否具有实用性。某高校2019 届高三学生共有672 名,在进行数据采样时,对学生信息进行统计,并将最近一次英语模拟考试成绩进行分析记录。通过模拟考试试卷,可以知道每一名学生的各项能力。本研究对影响学生英语水平的知识点掌握情况、英语听力情况以及词汇量三项进行了调查,调查同样将三者分为优、良、中、差四个等级,通过分析三者与学生英语成绩之间的关系,对学生高考成绩做出预测。下表为本研究将原始数据整理后得到的部分研究数据。
表2 将2019 届高三年纪所有学生的英语合情况,以及对应的知识点掌握情况、英语听力情况以及词汇量水平表示了出来,结合表2 可以将分类属性的信息量,以及每一种属性所对应的信息增益率计算出来。其基体的计算方与前文相同,经过计算可得,
表2 研究数据集
在得到了分类属性的信息增益率之后,便可以开始构建决策树模型,其构建方法前文已有详细的说明,此处不再赘述,可以直接得到本研究的决策树模型如下图3 所示。
图3 实验决策树模型
根据整个2019 届高三年纪成绩数据得到的决策树模型与训练得到的决策数模型是一样的,说明本研究选用的三个影响英语成绩因素不仅适用于一个班级,更是对整个年纪都具有相同的影响。根据生产的决策树模型,可以归纳出知识点掌握情况、英语听力情况以及词汇量三项因素对英语成绩的影响规律。当英语知识点掌握水平为优时,成绩合格;英语知识点掌握水平为良时,成绩合格;当英语知识点掌握水平为差时,成绩不合格等等。当英语知识点掌握水平为一般时,英语词汇量水平为优,成绩合格;当英语知识点掌握水平为一般时,英语词汇量水平为良,成绩合格;当英语知识点掌握水平为一般时,英语词汇量水平为中等时,英语听力水平为优时,成绩合格。当英语知识点掌握水平为一般时,英语词汇量水平为中等时,英语听力水平为良时,成绩不合格。根据以上规律,可得到该校2019 届高三年纪高考英语成绩的预测合格率为72.3%,然后将该校2019 届、2018 届、2017 届三届学生的实际英语成绩合格率与本文计算得到的预测合格率进行对比,对比结果如下表所示。
通过上表可以看到,本文对英语的预测合格率为72.3%,而2019 届、2018 届、2017 届的实际英语合格率为73.5%、74.7%、75.2%,准确率非常高,可以证明本研究所采用的改性型C4.5 决策树优化算法在对英语成绩进行预测时,具有较高的准确性、实用性,该方法可以用于实际教育中。但是,通过表3 还可以发现随着时间的前移,英语实际合格率与预测合格率之间的误差越来越大,而本文计算得到的预测合格率是基于2019 届学生的,所以在使用该方法对学生成绩进行预测时,应该尽可能地使用时间较为接近的数据作为决策树构建基础,以提高预测的准确性。
表3 预测合格率与实际合格率比较
4 结论
随着时代的发展与大数据时代的来临,无论是在人们的生活中、学习中还是工作中,无时无刻不充斥着大量的信息,如何发现信息之间的关联并将之挖掘出来,是提高学习成绩、提升工作效率的有效方法,这种方法对提高英语成绩同样行之有效。有鉴于此,本研究提出通过改进C4.5 决策树优化算法,对学生英语成绩做出预测,以达到提高英语水平的目的,并通过实例的方式对该方法进行了验证。研究结果表明,改进后的C4.5 决策树优化算法发现,对英语知识点的掌握水平是影响英语成绩的最关键因素,并提出了几条可预测学生英语成绩的规律,最后通过将预测合格率与实际合格率进行比较,证明了本研究的正确性。但是,本研究仍存在一些不足,在将预测合格率与实际合格率进行对比时,应该和更多年份的实际合格率进行对比,以检验本研究提出方法的时效性。