APP下载

基于SPSS Modeler建模的大学英语四级考试通过率影响因素分析

2018-05-14王科余礼娜石川

成都工业学院学报 2018年3期
关键词:决策树神经网络

王科 余礼娜 石川

摘要:基于SPSS Modeler,使用决策树和神经网络两种统计分析方法,对影响大学英语四级考试通过率的阅读、听力、写作及翻译等四个方面因素进行了分析。认为阅读和听力对英语四级考试通过率影响最大,写作和翻译相对较小。相对于以往的一些研究方法,这决策树和神经网络两种统计分析方法预测精度高,结果更加准确和直观,对于提高学生英语四级考试通过率起到积极的指导作用。另外,决策树和神经网络也可推广其他相关的情况的分析和预测。

关键词:SPSS Modeler;决策树;神经网络

中图分类号:H319.6 文献标志码:A

文章编号:2095-5383(2018)03-0061-03

Abstract: Based on SPSS Modeler, this paper used statistical analysis methods,decision tree and neural network,to analyze four factors: reading, listening, writing and translation. It concluded that reading and listening have the greatest impact on the passing rate of CET4. Writing and translation have relatively small impact. Compared with previous research methods, the two methods have high prediction accuracy. The results are more accurate and intuitive. They play a positive role in improving the passing rate of CET4. In addition, decision trees and neural networks can also be used to promote the analysis and prediction of other related situations.

Keywords:SPSS Modeler;decision trees; neural networks

大学英语四级考试是具有较高权威性的全国统一考试,其通过率是衡量高校英语教学水平的主要指标之一,各高校高度重视英语四级考试通过率的提高。而学校作为整个教学过程的宏观管理者,制定合理的教学计划,对于提高学生的英语四级考试的通过率将起到非常重要的作用。

众所周知,英语四级考试由四个部分组成:阅读、听力、写作及翻译。在教学计划的制定中,限于教学学时,四个部分不可能面面俱到,而应根据学生薄弱环节,有侧重地开展教学活动,有效提高学生英语四级考试的通过率。

1 研究背景

目前有一些研究英语四级考试通过率影响因素的文献,但是,这些文献有的仅作了理论分析,没有对实际问题进行深入讨论[1-3],还有的虽然通过一些统计分析方法对英语四级考试通过率作了相关研究,但仅使用回归分析、相关分析等简单的统计分析方法[4-5],只能处理线性关系的情况,且预测误差大。

SPSS Modeler对于大数据处理操作简便,实用性强。 SPSS Modeler的动态建模技术能够对实时数据进行数据分析。[6-7]通过该软件对英语四级考试成绩分析,能够充分了解学生的学习情况及教师的教学情况,这样有利于教师根据学生学习需要,调整教学计划,有利于提高学生四級考试通过率。

2 研究目的

本文运用决策树和神经网络算法,对以往的四级考试成绩进行分析,使用SPSS Modeler软件,对影响大学英语四级通过率的阅读、听力、写作及翻译等四个方面因素进行了分析,找出影响四级通过率的主要影响因素,为教学和管理提供有价值的参考。

3 研究方法

3.1 数据准备

选取成都工业学院2013—2016年的本科学生参加英语四级考试成绩作为研究对象(除去缺考的考生)。通过SPSS Modeler的Partition节点将现有样本集随机分割成两部分,其中一份用于建立和训练模型,称为训练样本集;另一份用于模型误差的估计,称为检验样本集。对于总分按式(1)处理,

3.2 数据分析

选取成都工业学院2012—2014年的本科学生参加英语四级考试成绩作为研究对象,以SPSS Modeler为基础进行建模,以阅读(T1)、听力(T2)、写作(T3)及翻译(T4)这四个因素为输入变量,是否通过为输出变量(Y)进行Logistic回归分析、决策树分析及神经网络分析,找出影响英语四级考试通过率的主要因素,为制定教学计划给出更加科学的建议。

3.2.1 决策树分析

决策树算法最早源于人工智能的机器学习技术,用以实现数据内在规律的研究和新数据对象的分类预测。决策树算法通过向数据学习,依据新数据输入变量的取值,推断其输出变量的分类取值。本文以C5.0决策树算法介绍,

决策树算法的核心问题是确定决策树分支准则,C5.0以信息增益率为标准确定最佳分组变量和分割点,其核心概念是信息熵。设训练样本数据集中有m个独立的类ci,i=1,2,…,m。Ri为数据集S中属于类Ci的子集,子集Ri中元组的数量用ri表示,则集合S在分类中期望信息量可以式(2)表示:

3.2.2 神经网络分析

神经网络是一种人脑的抽象计算模型,是一种模拟人脑思维的计算机建模方式。神经网络分类算法是在加法器和激活函数的共同作用下,以节点来构造一个超平面。将训练样本集中的每个样本看作n维空间上的点,一个超平面将n维空间划分成两个部分:处于超平面上部的所有样本点为一类,将超平面下部的所有点为另一类,从而实现二值分类。

1)数据准备

神经网络中输入变量的取值范围通常要求在0~1之间,首先用极差法将数据标准化处理,即

3)神经网络训练

由输入模式向量Sk和输出向量yk训练连接权向量W,然后不断修正连接权向量,使误差平方和达到最小。

3.3 数值模拟

以操作系统Win8,软件SPSS Modeler 14.1为实验平台,建立模型如图1所示。

节点包括数据节点、类型节点、分割节点、模型节点和分析节点。其中,数据节点用于导入数据;类型节点用于对导入数据进行分类,将阅读(yd)、听力(tl)、写作(xz)及翻译(zh)这四个变量为输入变量,是否通过为输出变量;分割节点随机将样本分成预测样本和检验样本;模型节点对于不同的模型采用相应的模型节点,即决策树分析采用决策树模型节点,神经网络分析采用神经网络模型节点;分析节点用于检验预测的精度。

3.3.1 决策树分析

通过决策树分析结果的软件界面如图2所示。

由图2可知,阅读对四级考试通过率的影响最大,听力次之,写作和综合对通过率影响相对较小。本次估计的预测精度为99.31%,验证精度为97.62%。

3.3.2 神经网络分析

通过决策树分析结果的软件界面如图3所示。

由图3可知,听力对四级考试通过率的影响最大,阅读次之,写作和综合对通过率影响相对较小。本次估计的预测精度为99.99%,验证精度为99.97%。

4 结语

根据上文分析可以看出,听力和阅读对四级考试通过率的影响较大,写作和综合影响相对较小。SPSS Modeler动态建模优于以往的一些分析方法,能从试题的角度准确发现影响学生英语四级考试通过率的因素,对及时调整教学计划和教学方法,起到一定的指导作用。

参考文献:

[1]薛薇,陈欢歌.SPSS Modeler数据挖掘方法及应用[M].2版. 北京:电子工业出版社,2014:75-82.

[2]李洁. 提高大学英语四级通过率的措施探讨[J]. 海外英语, 2011(10x):57-58.

[3]朱玮, 刘汉香. 提高大学英语四级通过率的措施探讨[J]. 河南机电高等专科学校学报, 2006, 14(4):118-119.

[4]李红燕, 曹苏娜, 曹贻鹏,等. 基于统计分析的英語四级通过率和入学重点率的相关性之实证研究[J]. 时代教育, 2010(7):121-122.

[5]段嘉芊, 周广荣. 《大学英语》与四、六级考试的相关性分析[J]. 云南民族大学学报(哲学社会科学版), 2002, 19(2):115-118.

[6]MENG X H, HUANG Y X, RAO D P. Comparison of three data mining models for predicting diabetes or prediabetes by risk factors[J]. Kaohsiung Journal of Medical Sciences,2013(29):93-99.

[7]KUROSAKI M, TANAKA Y, NISHIDA N, et al. Pre-treatment prediction of response to pegylated-interferon plus ribavirin for chronic hepatitis C using genetic polymorphism in IL28B and viral factors[J]. Journal of Hepatology, 2011, 54(3):439-448.

[8]冯建, STARZYK, JANUSZ,等. 一种基于信息熵的金融数据神经网络分类方法[J]. 控制与决策, 2012, 27(2):211-215.

猜你喜欢

决策树神经网络
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
基于自适应神经网络的电网稳定性预测
简述一种基于C4.5的随机决策树集成分类算法设计
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
决策树学习的剪枝方法
决策树在施工项目管理中的应用