基于大数据决策树的学生成绩分析和预测模型设计
2023-07-25孙剑
摘要:中国科教事业飞速进步,大学生数量越来越多,高校毕业生综合素质低、能力不足等问题越来越突出。创建与素质教育要求相符合,促进教师发展、学生成长以及提高教育教学质量的教育评估体系,是新课程改革中的重要任务。本研究基于大数据决策树的学生成绩预测模型,根据学生学习状态,间接建立成绩预测系统,以解决学生成绩预测困难、模型复杂等问题,通过研究发现,基于大数据决策树系统预测学生成绩精准率达到94%,对学生成绩的监控极为有利,而且也可预测学生成绩的提升。
关键词:大数据;决策树;学生成绩;预测模型
近年来,随着我国高校教学、学生与科研等数据不断积累,数据挖掘技术被广泛应用于各个行业,教育数据挖掘也成了越来越多专家学者的关注和研究方向。尤其是2017年在武汉召开的第十届国际教育数据挖掘大会,将研究数字挖掘的热潮推向新高度。中国科教事业飞速进步,大学生数量越来越多,高校毕业生综合素质低、能力不足等问题越来越突出,而创建与素质教育要求相符合,促进教师发展、学生成长以及提高教育教学质量的教育评估体系,是新课程改革中的重要任务[1]。
我国教育部门颁布的《基础教育课程改革纲要》中明确提出,应创建实现学生均衡发展的评估体系,该评估体系既要重点关注学生学业成绩,又要挖掘学生多方潜能,帮助学生正确认识自我,创建自信心,从而将评价体系的教育功能充分发挥出来,使学生综合水平得到提升[2]。所以,科技飞速发展的现阶段,高校应充分发挥数据挖掘技术的功能,通过分析预测学生成绩,创建大数据决策树,对学生成绩的影响因素进行科学分析,预测学生发展趋势,帮助教师客观评价学生和正确引导学生,保证学生实现全面发展。
一、大数据决策树系统的框架
大数据决策树系统的模块组成包括数据源、数据获取和处理、预测成绩及预测对象,其中数据源主要为辅导员、任课教师、学生及舍友等与该学生学习成绩存在密切相关性的信息来源。大数据决策树系统基于学校教学现状,选择和学生成绩有密切关系的2~3个数据源,其中数据获取模块的功能可以解决快速从数据源中获取高效信息的问题[3]。
信息化时代下,通过互联网、物联网等相关信息平台传递信息,是获取数据的重要途径。数据处理模块的功能是将原始数据转变为能够直接输入大数据算法,一般需要基于原始数据特性,对数据展开标准化、缺失值和异常值的处理,作为大数据决策树系统关键模块,成绩预测模块根据相关算法和成绩模块预测学生的未来成绩[4]。成绩预测结果产生后,需要学生反思现阶段的学习状态,同时向数据源处输出学生成绩,为下次预测学习成绩奠定基础,此为预测对象模块的重中之重。大数据决策树框架如图1所示。
二、基于大数据决策树的学生成绩分析与预测模型设计
大数据决策树系统有五大模块,各模块分析学生成绩与预测模型设计如下:
(一)数据源、数据获取和预测对象
以往数据源获取和管理方法没有与高校网络信息平台发展现状相结合,造成数据获取与反馈效率非常低。为实现信息传递效率与准确率的提升,预测模型设计结合互联网信息平台,设计信息传递模块,图2为信息平台为中心的整体结构示意图。
现阶段,被广泛用于数据处理和人工智能领域的编程语言为Python,大数据决策树系统通过Python语言实现,其网络信息提交和获取库包的功能非常强大,其中包括Httplib、Urllib以及Urllib2,同时还应用正则表达和数据处理模块。具体实现过程如下。
连接互联网信息平台,关键函数为:
HTTPConnection(host[,port[,stict[,timeout]]])
在以上关键函数中,port代表网络信息平台端口号;host代表网络信息平台对应地址信息或者域名;timeout代表超时时间,如果连接时间超时,系统就会发出信息异常信号[5]。
将相关数据请求发送至互联网信息平台,关键函数为:
通过HTTP连接过程中应用到的request方式,将数据请求发送至互联网信息平台中,其中M表示的是请求发送方式,根据通信协议自主选择get与post方式。Address代表资源获取对应地址,最后选择所需提交至服务器数据,两者均会对通信协议进行有效安装,同时选择对应资源地址,这样就能将数据提交给网络信息平台[6]。
对网络信息平台的响应获取函数为:
HTTP响应对象是返回值,所含信息包括获取响应字节数据、头部数据。依照所得响应数据规则,能够将该系统所需数据解析出来。
(二)相关数据处理
大数据决策树系统中,数据处理模块包括处理缺失值、处理离散量和连续量两大部分,主要目的在于转换所得原始数据,利用大数据算法对标准数据进行有效输入。
1.处理异常值
近年来,高校互联网信息平台存在逐渐完善的反馈机制与数据更新状态,加之HTTP协议握手制度,自高校网络信息平台中直接获取数据通常会存在异常值问题,这已并非数据准确率问题,重点是数据缺失[7]。对缺失值处理效果进行综合考虑,通过数据统计特性值对大数据决策树系统进行有效处理,依照不同缺失值特性对其统计特性进行选择,采用Python语言将统计特性关键代码提取出来,所用库是科学计算庫Numpy。
2.处理数据量
本次预测模型设计所用方法为决策树算法,所以需要应用到离散数据量。依照离散状态,可将离散数据划分为不同类别。在连续值方面,必须离散化处理,才能实现数据区分度的提升。Python库内,通过离散化方式cut( ),以下为具体定义:
cut(D,B,R=False,L=NULL)
在以上定义中,D代表的是一维数据,R代表分组区间的闭合与否;B代表的是分割点值;L则表示对应分组标签,在对离散化方法进行应用过程中,应基于B对D进行离散化,同时返回离散化数据对象,使数据实现连续离散化目的。
(三)建立成绩预测模块
当前,成绩预测算法主要集中于预测运动员、体育生的成绩,通常成绩预测会对历史成绩与对象状态进行预测,并将最终预测数据直接计算出来,该思路或较低预测精度,很难满足实际应用需求。如果预测模型比较复杂,则有助于提升预测精度,然而也会出现运算量大、预测结果过拟合等问题,这就要提出基于预测对象分类的成绩预测算法,即不直接预测学生的成绩,关键在于划分预测对象成绩变化为各个区间,对学生成绩变化量进行分类预测,依照分类结果,间接预测学生成绩,预测流程如图3所示。
现阶段,大数据分类算法包括决策树算法、K-Means、神经网络以及支持向量机等,相关研究选择K-Means算法对花朵授粉和减速箱状态进行分类。但是K-Mean算法中,确定K值始终是这一算法的难点。也有研究采用支持向量机理论对手语、表情和暂态稳定故障进行分类,但该算法对缺失数据环节进行预测的敏感度较低,也很难解决非线性问题。还有文献研究,通过神经网络算法对草地和图像进行分类,结果发现,神经网络非线性拟合能力非常强,但是神经网络的参数比较多,而且存在较大的运算量。
三、基于大数据决策树的学生成绩预测
本次应用大数据决策树中的ID3算法,根据待分类数据内各特征信息增益进行决策树叶子节点与根节点构造。基于大数据决策树算法的运算过程如下。
a.计算信息熵,具体计算公式为:
也就是说,各特征概率与概率值自然对数的和,表征数据集有序程度。大数据决策树下的构思理念,就是采用最少根节点,提高数据集的有序性。
b.所谓信息熵增益,其实就是某属性删除后和该属性删除前信息熵的差,大数据决策树要求将信息熵增益属性最大值当作新根节点,由此就能构造大数据决策树。
四、基于大数据决策树学生成绩分析的实验验证
选取某高校的175名学生为研究对象,对其期末考试进行实验验证。预测对象实验如下:所选特征包括学生阶段心理测评状态(Psy)、作业完成率(Work)、出勤率(Attend)、学分成绩(Cur)、平时成绩(Usual)。阶段心理测评状态属于离散数据,其他属于连续数据。
对五大特征数据信息增益进行计算,明确相对应决策树根节点,将不同特征的信息熵增益计算出来,具体如表1所示。从表1数据可知,作业完成率属性信息增益较高,将作业完成率视为第一根节点,对决策树进行创建,从五类领域划分学生状态,采用I-V表示。
通过决策树预测学生成绩,结果见表2。
从表2可以看出,模型预测学生成绩的正确率为94%,可见该体系存在有效性与正确性。
五、结束语
基于大数据决策树的学生成绩预测模型,根据学生学习状态,为其间接建立成绩预测系统,有助于学生成绩预测困难、模型复杂等问题的有效解决。研究发现,基于大数据决策树系统预测学生成绩的准确率为94%,有助于监控高校学生成绩。但该系统也有不足之处,具体在于:人为因素会对学生成绩特征选取产生影响,成绩一次性特征增加了数据收集难度。
作者单位:孙剑 泸州职业技术学院四川泸州
参 考 文 献
[1]胡柳青,赵刚.基于数据挖掘下机器学习算法对学生成绩影响因素的研究[J].南昌航空大学学报(自然科学版),2021,35(03):43-48,97.
[2]吴晓倩,权丽丽,陈诚,等.基于大数据决策树算法的学生成绩分析与预测模型仿真[J].电子设计工程,2020,28(24):138-141,146.
[3]苏锦.数据关联分析与挖掘技术在学生信息中的应用研究[D].广西大学,2019.
[4]吴强,方睿,韩斌,等.基于决策树-LMBP神经网络的学生成绩分析及预测模型的研究[J].成都信息工程大学学报,2018,33(03):274-280.
[5]金詩谱.基于属性相关性分析的高校学生成绩分析应用研究[J].西安文理学院学报(自然科学版),2018,21(01):30-33.
[6]胡在林.关联规则和决策树组合算法在学生成绩分析中的应用与研究[D].青岛理工大学,2017.
[7]黄炎,王紫玉,黄方亮.数据挖掘技术在高校学生成绩分析中的应用与研究[J].兰州文理学院学报(自然科学版),2016,30(03):64-68,78.