基于数据挖掘技术的英语成绩评价分析
2017-04-15郝小静
郝小静
摘要:现今的教育领域中应用先进的技术对学生学习成绩进行评价和分析,能节省教师更多的时间,并能提高对学生成绩的准确的评价。基于这样的原因,在此次的研究中,对数据挖掘技术的英语成绩评价进行分析和研究,主要从数据挖掘的方法、数据准备和数据模型进行分析和探讨。望此次的论述能为现今英语教学效果评价体系的建立,提供可行性的建议,进而提升对学生英语成绩评价结果的准确性。
关键词:数据挖掘技术 英语成绩评价 数据库
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2016)12-0246-01
目前,在现今的高校教育体系中,教学管理方面涉及到众多的地数据,但是现今在对教学数据进行管理的技术仍旧停留在查询、备份和统计的阶段,对学生学习状况予以该种的管理方式,未能真实的反应出学生实际的学习状况。因此,本文从以下几个方面进行具体论述。
1 数据挖掘技术使用分析
1.1 项目简介
在现今的高校中,教师积累了大量学生英语考试成绩的数据,对学生英语成绩评价的分析和评价的标准为优、良、中、及格、不及格等,对于学生取得成绩的影响因素的了解不深。在此次研究中,主要对A高校财会管理专业986名学生的英语成绩作为研究数据,通过对英语考试成绩学生分数的情况分析出影响学生成绩主要因素,进而辅助教师制定针对性教学改进方法,提升学生的英语成绩。
1.2 数据挖掘方法的使用
在此次研究中,数据挖掘的方法主要采用ID3的运算方法,在对该课题进行研究的过程中,主要采用决策树当中的ID3的计算方法对学生英语考试成绩进行系统的分析和研究,由于该种算法的理论较为清晰,对数据和信息处理的能力较强,适合对海量学习方面的数据进行管理[1]。
2 数据挖掘技术在英语评价中的实施探究
2.1 数据准备
由于数据准备属于整个研究过程中较为重要的环节,要对研究的数据进行处理,首先,对研究数据进行清理,在该高校的专业中,由于存在缺考和取消考试成绩的现象存在,对该部分的数据进行清理,得到最终有效数据为980条。其次,要对数据进行的总结和归纳,对英语考试成绩中各种题型及其属性生成决策树的模型,并构建学生英语考试成绩的数据分析图表。最后,要对数据进行转换,在完成决策树的过程中需要应用离散值,学生英语考试成绩是呈连续值出现的,在研究的过程中,应转化成离散值,在此次研究中,主要将考试成绩划分为两种:一种是成绩合格,其分数段为60~100分;另一种是不合格,分数为0~60分。
2.2 数据模型系统构建
通过基础数据集的编辑,各个题型分数等级为:A(优)、B(良)、C(不合格),四种题型(语法结构、完形填空、阅读理解、翻译)中,得到两个C等级的分数,则视为学生英語总成绩为不合格。根据这样的计算方法来建立决策树,首先,对研究对象的所有数据进行计算,将成绩合格来分类即合格与不合格。其次,对所有数据的信息量进行计算,通过使用ID3的算法对研究数据进行计算得知,各个题型的信息量分别为:
E=(语法结构)=0.9478
E=(阅读理解)=0.9482
E=(完形填空)=0.9324
E=(翻译)=0.9381
再者,对四种题型得分数据继续进行细化,计算出英语测试属性中信息的增益率,得到的计算结果为:
Gain(语法结构)=0.0121
Gain(阅读理解)=0.0122
Gain(完形填空)=0.0254
Gain(翻译)=0.0217
最后,通过对每项英语测试的结果进行分析得知,在四项英语考试成绩中,增益率较高的考试类型是完形填空,其对学生英语考试成绩的影响较大,由于该项研究内容的信息增益率同其他项目相比较高,选择将其作为测试的属性[2]。创建出研究和测试的节点,将完形填空作为标记,然后将其他三项考试类型的属性值最为分支,进而生成评价学生英语成绩是否合格的决策树模型。
在学生学习英语课程的过程中,影响学生英语水平和考试成绩的因素一直未能确定,通过ID3的计算方式,能将影响学生英语考试成绩的因素分析出来。基于这样的状况,以分类为合格的方式为此次研究中最应遵守的原则,从上图的分析中得到学生英语成绩评价和分析的计算方法:
If:完形填空=A and翻译=A and语法结构=A,Then:总成绩=合格
If:完形填空=A and翻译=C and阅读理解=A,Then:总成绩=合格
If:完形填空=A and翻译=B and阅读理解=A,Then:总成绩=合格
If:完形填空=A and翻译=C and语法结构=A,阅读理解=B,Then:总成绩=合格
If:完形填空=A and翻译=A and阅读理解=A and语法结构=B,Then:总成绩=合格
……
通过对学生考试成绩的分析得知,影响高校学生英语考试成绩的主要的因素是完形填空题型解题方面,由于其包含了众多的英语知识,即语法、翻译和阅读理解等方面的英语知识。
3 结语
在本文的论述中,主要针对高校学生英语考试评价方面,利用数据挖掘技术的相应处理和计算,来掌握影响学生英语考试成绩的重要因素。在此次研究中,从介绍研究对象和数据处理方式方法开始,对英语考试中数据的属性进行细化,从四项英语题型合格的信息量和增益率的角度对题型进行划分,从而探索出影响学生英语考试成绩的主要因素,并在文中对学生英语考试成绩合格评价决策树进行构建,进而得到评价学生英语考试合格的准确方法。通过本文的论述得知,ID3的计算方法,对数据处理的能力较强,适用于对学生英语成绩评价和分析,望此次的研究结果能为高校教师和学生提供教学和学习的辅助方法,提升学生的学习成绩。
参考文献
[1]王士虎,吕纪荣,冯波 等.基于数据挖掘的英语四级成绩分析与预测[J].电脑知识与技术,2014,03:452-454.
[2]吴燕萍,楼彩虹,沈清 等.数据挖掘技术在高职高专医学生综合学业成绩评价中的应用[J].中国高等医学教育,2014,05:40-41.