基于决策树和人工神经网络的学生在线答题正确性影响因素研究
2022-07-01戴坚
戴坚
摘 要:答題正确性不仅取决于学生对某一知识点的掌握程度,还受到学生心理状态、答题习惯等多方面因素的影响。为探究学生在线答题正确性的影响因素,基于SPSS Modeler,使用决策树和人工神经网络两种统计分析方法,对影响学生答题正确性的平均知识水平、平均粗心程度、行为总数、专注度、沮丧、钻系统的空子这6个因素进行了分析。结果显示:平均知识水平对平均正确性的影响最大,平均粗心程度次之。研究成果将为学生学习行为的改进和老师教学方法的完善提供理论依据与指导。
关键词:SPSS Modeler 决策树 人工神经网络 答题正确性 影响因素
中图分类号:G434 文献标识码:A 文章编号:1672-3791(2022)07(b)-0000-00
Research on Factors Affecting the Correctness of Students' Online Answers Based on Decision Tree and Artificial Neural Network
DAI Jian
(College of Educational Science and Technology, Zhejiang University of Technology, Hangzhou,Zhejiang Province,310023 China)
Abstract: The correctness of answering questions not only depends on students' mastery of a certain knowledge point, but also is influenced by various factors such as students' mental state and answering habits. To investigate the factors influencing students' online answer correctness, six factors, including average knowledge level, average carelessness, total number of behaviors, concentration, frustration, and drilling the system, were analyzed based on SPSS Modeler, using two statistical analysis methods, decision tree and artificial neural network, to influence students' answer correctness. The results showed that the average level of knowledge had the greatest effect on average correctness, followed by the average level of carelessness. The results of the study will provide theoretical basis and guidance for the improvement of students' learning behaviors and the improvement of teachers' teaching methods.954C5CC5-D736-41D1-B0D6-667E2E2DF32D
Key Words: SPSS Modeler; Decision tree; Artificial neural network; Correctness of answers; Influencing factors
1 研究背景
网络教学平台是利用网络技术手段给予学习者支持和服务的网络工具[1]。后疫情背景下,教师倾向于使用网络教学平台开展教学工作和学生考核[2]。在线测试作为一种比较便捷的考核形式,受到了教师和学生的青睐。在线答题的正确性作为衡量学生知识掌握程度的重要指标,受到了教师和学生的广泛关注。然而,目前的研究很少涉及在线答题正确性的影响因素,导致学生缺乏理论和数据依据来有效提高答题正确性,教师也无法采取针对性的措施来提高班级的整体成绩。因此,该文将对影响学生在线答题的因素进行分析,找出主要的影响因素,为广大师生的教与学提供理论依据和科学指导。
2 研究方法
2.1 数据来源
研究样本数据来源于ITEST平台,包含20 638条学生用户的在线学习数据,其中的字段有AveKnow(学生的平均知识水平)、AveCarelessness(学生的平均粗心程度)等。
2.2 研究工具
SPSS Modeler是IBM公司开发的数据挖掘软件,其由SPSS统计分析软件与Clementine数据挖掘软件整合而成[3],允许研究人员组织数据并对其进行快速概述,以更有效地得出有意义的结果[4]。该研究使用的版本为SPSS Modeler 18.0。
2.3 变量选取与数据预处理
该文拟探究影响学生在线答题正确性的主要因素,为教育教学提供有价值的参考。因此,研究选取的7个变量分别为:AveKnow(学生的平均知识水平)、AveCarelessness(学生的平均粗心程度)、AveCorrect(学生的平均正确性)、NumActions(系统中学生的行为总数)、AveResEngcon(平均学生情绪:专注度)、AveResFrust(平均学生情绪:沮丧)、AveResGaming(平均学生情绪:钻系统的空子),其中AveCorrect为输出变量,其余变量为输入变量。
对数据进行预处理,将AveCorrect字段中低于或等于0.3的数据替换为“低”,高于0.3且低于0.6的数据替换为“中”,高于0.3或等于0.6的数据替换为“高”。处理完毕后,将数据文件导入SPSS Modeler 18.0,使用决策树和神经网络两种统计方法对相关情况进行分析和预测,找出影响学生在线答题正确性的主要因素,为制订更好的学习计划提出科学的建议。
3 研究过程
3.1 决策树分析
决策树借由分类已知的数据建立树状结构,从中归纳出数据的规律性[5]。读取数据文件后,使用过滤器过滤无关变量,使用“类型”节点将AveCorrect字段的角色设定为“目标”,再通过“分区”节点将训练分区大小设为70%,测试分区大小设为30%,分别作为训练集和测试集。最后,将“C5.0”节点连接到当前数据流,运行结果如图1所示。
左图为模型的规则集,其包含9条规则,解释列举如下。
(1)当学生的平均知识水平小于或等于0.118时,如果其平均粗心程度小于或等于0.067、平均知识水平小于或等于0.067、专注度小于或等于0.616,并且系统中的行为总数小于或等于218,则其答题平均正确性为低。在训练样本中,有159个学生符合这条规则且平均正确性低,该规则准确率为100%。
(2)当学生的平均知识水平小于或等于0.118时,如果其平均粗心程度小于或等于0.067、平均知识水平小于或等于0.067、专注度小于或等于0.616,并且系统中的行为总数大于218,则其答题平均正确性为中。在训练样本中,有222个学生符合这条规则且平均正确性为中,该规则准确率为100%。
(3)当学生的平均知识水平小于或等于0.118时,如果其平均粗心程度小于或等于0.067、平均知识水平小于或等于0.067,且专注度大于0.616,则其答题平均正确性为低。在训练样本中,有869个学生符合这条规则且平均正确性低,该规则准确率为100%。
由右图的预测变量重要性结果可知,变量的重要性排序为:AveKnow>AveCarelessness>AveResGaming>NumActions>AveResEngcon= AveResFrust。由此可见,学生的平均知识水平对答题平均正确性的影响最大,平均粗心程度次之,专注度和沮丧情绪的影响最小。
3.2 人工神经网络分析
人工神经网络是从本质上对大脑工作特性的一种简单模拟的仿生学[6]。运行模型,即可在出现的对话框中看到模型概要、预测变量重要性、混淆矩阵、神经网络的层次结构等。
由预测变量重要性(图2)可知,平均知识水平对平均正确性的影响最大,平均粗心程度次之,其余4个变量的影响都较小。
由混淆矩阵可知,模型预测的总体准确率为100%,非常理想。
由神经网络的层次结构(图3)可知,该模型是一个三层神经网络,其中包含一个隐层,隐层中包含6个隐节点(神经元1~神经元6)。
4 结语
该文通过决策树和人工神经网络探究了影响学生在线答题正确性的影响因素。通过分析可以看出,平均知识水平和平均粗心程度对平均正确性有较大影响,而学生的行为总数对平均正确性的影响较小。鉴于此,学生应该在学习时使用科学合理的方法,不能一味地追求行为的累加,而要注重知识的积累,切实提高自身的知识水平,还应该在答题时认真审题,不要麻痹大意。与此同时,老师应该丰富自己的知识储备,并使用合适的教学方法将知识教授给学生;此外,还应该在答题时提醒学生注意审题,考虑全面,以便于提高答题正确性。
参考文献
[1] 刘欢.基于网络学习平台的高中信息技术课互动教学研究[D].延安:延安大学,2021.
[2] 沈艳.后疫情时代雙线融合混合式教学模式探析——以医药市场营销为例[J].船舶职业教育,2021,9(5):34-37.
[3] 李郁,韩松,娄永梅,等.SPSS Modeler在轨道交通客流预测中的应用[J].铁路通信信号工程技术,2020,17(1):80-83,95.
[4] YEH S S. Tourism recovery strategy against COVID-19 pandemic[J]. Tourism Recreation Research,2021,46(2):188-194.
[5] 岳景鹏.基于C5.0决策树算法的学生成绩预测算法研究与应用[D].长春:吉林大学,2020.
[6] 杨猛.基于遗传算法与人工神经网络的加热炉建模方法研究[D].合肥:中国科学技术大学,2017.954C5CC5-D736-41D1-B0D6-667E2E2DF32D