基于决策树的大学英语等级考试成绩研究
2017-10-26毛雪吟沈良忠
毛雪吟 沈良忠
摘要:高校学生的大学英语等级考试水平反映了该校的英语教学水平,某些高校甚至将其直接跟学位证书挂钩。为了了解不同学院间英语等级考试成绩的特点,该文针对浙江某高校共1839名学生的英语四、六级考试成绩,通过决策树分析实现四级成绩不同学院之间的横向比较和六级成绩同一学院的纵向比较,发现了各学院英语等级考试成绩的特点,为英语教学的教师安排和教学重点知识讲授提供科学依据,帮助学生提高英语等级考试成绩。
关键词:数据挖掘;Weka;决策树;C4.5;英语等级考试
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)22-0016-02
1概述
教育部高等教育司统一组织的全国大学英语四、六级等级考试,其主要目的就在于全面考核已修完大学英语四个学期的学生是否达到教学大纲所规定的各项指标,内容包括听力理解、阅读理解和写作与翻译三个部分。因此,英语等级考试的成绩不仅是学生毕业就业时英语听说读写能力的有力证明,更是高校自身英语教学水平高低的体现。现阶段,英语等级考试成绩在学生毕业时依然具有很高的信度和效度,不少企业甚至将其作为员工招聘的硬性条件之一,而且学生出国留学考雅思、GRE等都要具备较好的英语应用能力。因此,不少学者对英语等级考试的成绩开展研究,希望能够找到提高英语等级考试成绩的一些教学策略。王芙蓉针对英语等级四级考试成绩,利用SPSS Clementine 12.0作为数据挖掘工具分析得出听力单项成绩的高低对四级成绩是否合格有很重要的作用,阅读成绩的作用仅次于听力,写作的影响程度最小。范珣珣基于Weka软件中的决策树算法进行挖掘,发现学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级成绩之间存在潜在的关系。刘红保用决策树C4.5算法从成绩分析,非成绩分析,院校性质三方面加实现了对CET-4成绩分类挖掘。本文以浙江某高校为例,应用决策树技术来分析该校英语等级四、六级等级考试成绩中听力理解、阅读理解、写作与翻译3个部分与等级成绩之间的关系,并通过对两个不同学院之间英语四级成绩的横向比较和同一学院英语六级成绩的纵向比较为学校英语教学教师安排和教学重点知识讲授提供科学决策依据,达到进一步深化英语教学改革,提高英语教学水平,提高学生考试成绩的目的。
2决策树的介绍
决策树算法属于数据挖掘中的分类算法,通过对某一带有类标记的数据集的训练,产生一棵二叉树或者多叉树。决策树每个内部节点表示在一个属性上的测试,每个分枝表示一个测试输出,而每个树叶节点代表类或类分布。在构建决策树时,需要使用剪枝来检测和剪去训练数据中的噪声和孤立点,从而提高在未知数据上分类的准确性。决策树的构建过程中,最重要的就是分裂节点的选择。ID3算法在树的分裂节点上选择具有最高信息增益的节点作为当前的分裂节点,因为该节点的分裂将使得分裂得到的结果划分中的样本分类所需的信息量最小。
假设对训练数据集S按类别属性C进行划分,则其分类信息熵为:
其中,m表示类别标号的数量,pi表示第i个类别在整个训练元组中出现的概率,取值为属于此类别元组数量除以训练总元组的数量。假设将训练数据集S按条件属性A进行划分,则条件属性A对s进行划分相对C的分类信息熵为:
其中,v为条件属性A的取值数量。属性A分裂数据集S的信息增益记为:
由于ID3算法对属性的计算仅仅支持离散型,因此C4.5算法针对ID3算法做了改进,不仅支持连续型属性的分裂,而且在分裂节点时选择具有最高信息增益率的屬性节点。C4.5算法中属性A分裂数据集s的信息增益率记为:
3大学英语等级考试分析
高校每年都要进行春、秋两次全国英语等级考试,经过多年的积累之后保存了大量等级考试成绩数据。这些等级考试成绩数据背后是否隐藏着与英语教学相关的一些规律,是非常值得研究的内容。因此,笔者通过收集教务系统的等级考试成绩数据,基于Weka软件中的决策树算法对其进行分析。
3.1数据收集与预处理
由于英语四、六级等级考试是在每年的6月和12月考试,有的学生只参加一次四、六级考试就达到425分,即通过等级考试;有的学生参加多次四、六级考试,都没有通过。因此,通过四、六级考试的学生,选取通过时的分数;参加多次还没有通过的学生,选取他们多次考试的最高分。此处选取14级共1839条学生的英语四级考试成绩和1008条英语六级考试成绩作为分析对象。
Weka软件中决策树算法可以选用J48,对应的是C4.5算法,支持对于连续型属性的处理,但是对于类别属性还是要做离散化的处理,即是否通过等级考试。目前,英语四、六级等级考试的总分是710分,及格分数是425,按照刘静等在英语等级考试中数据离散化处理方法,将英语等级考试成绩总分大于425分记为“P”,否则记为“N”。经过以上预处理之后,英语四、六级等级考试成绩的形式如表1所示:
3.2四级成绩的横向比较
为了查看不同学院之间四级成绩的差异性,选取管理学院和会计学院两个学院14级学生的英语等级四级成绩进行比较。管理学院14级学生共377人,通过四级人数为228人,通过率为76.39%;会计学院14级学生共562人,通过四级人数为430人,通过率为76.51%。通过Weka中的J48算法运行,得到以下两个不同的决策树,如图1所示:
通过图1的比较发现,两个学院的决策树根节点存在差异:管理学院根结点为阅读,而会计学院根结点为听力。这也就意味着阅读是影响管理学院学生能否通过四级的关键因素,管理学院的学生应该加强对阅读的训练。会计学院的根结点为听力,然后两个子节点都是阅读,并且在通过考试的同学中有83.26%的人是靠听力取得大于139分的分数,再拿下多于136分的阅读理解顺利通过的。说明会计学院通过英语四级的学生主要共性是在做好听力的同时做好阅读。因此建议会计学院的学生应该加强对听力和阅读的训练。
3.3六级成绩的纵向分析
为了了解四、六级可能存在的差异,选择管理学院的英语四级和英语六级进行纵向比较,也将两类成绩生成的决策树进行比较分析,如图2所示:
通过图2的比较发现,管理学院英语四级的决策树的根结点为阅读,但它的英语六级决策树根结点为听力,这说明英语四级和六级在考试的侧重点上还是有所不同。在六级考试中词汇量的广度更大、文章篇幅增大阅读的速度需要更快、单位时间内的阅读量。2016年6月英语四级考试听力部分新增短文听力三篇,英语六级考试听力部分新增演讲/讲座听力三篇,增加了听力的难度,因此需要加强听力训练,只有把这个重点模块训练好,再配合好的写译,会有很高的通过率。
5结束语
本文利用决策树算法对英语等级考试成绩进行了深入分析,其提取的分类规则对大学生英语学习有着重要的指导作用,通过考试成绩的横向比较和纵向比较阐述了不同学院之间在英语成绩方面的特点,为各个学院在开展英语教学的时候提供了合理安排教师资源,适时调整教学方法的参考意见。各位同学也可以根据自己的实际学习情况,参考决策树生成的结果,找出自己学习薄弱环节,进行针对性的学习训练,对可以通过大学英语四、六级等级考试的一些历史规则有所了解,为自己制定正确的英语学习计划和目标提供参考。endprint