APP下载

基于Spark的学生学习数据挖掘

2021-09-23连惠群

电子技术与软件工程 2021年12期
关键词:决策树错题答题

连惠群

(福建警察学院 福建省福州市 350007)

1 引言

对高校各门科目的学习,很多时候学生和老师都无法了解知识薄弱环节,往往存在学生不能有效学习,老师无法进行针对性辅导的现象。现在各高校有很多在线教学系统、练习系统和考试系统可供使用,但很多系统只能针对单次考试的分析,学生答题情况也不能完全保存。本文以公安知识学习为例,为了更好的服务学员及教员,将全面地保存学员们的答题情况,把每次的错题保存,以及记录每位学员各个模块具体的修炼分值,让学员了解自己的薄弱环节;将每道题答题次数和错误数进行记录;另外根据学员平时练习的情况,运用Spark决策树回归分析算法进行数据挖掘,预测最终得分,提前预判,做好前期辅导准备工作。

2 相关工作

关于答题情况数据挖掘,李永举[1]以大学本科线性代数成绩为例,在运用Python的基础上运用聚类和关联规则算法对其进行挖掘与分析,找出试卷中知识点之间的关联规则。王萧[2]分析在线测评数据,提取学生的学习特征,使用聚类算法将学习特征相同的学生聚类,根据学生的学习特征抽取学生之间的关系,生成学生知识图谱。本文主要从服务学员和教员出发,让学员和教员切实知道知识点的薄弱之处,为学员切实掌握公安知识点而服务,为教员更好地服务学员,能够进行针对性地辅导而服务。

3 相关算法

3.1 修炼分值计算方法

我们把该题的错误数除以答题总数,得到该学员在该题上的得分(错误率越高,该学员能够答对,则他得到的分数越多,该模块的修炼值越高,以此类推)。而该学员该模块的修炼分是该模块所有答题的平均分,代码部分截图如图1所示。

3.2 错题处理相关代码

如果答题错误,我们在错题记录表中搜索该错题的学员号,如果与该次答题的学员号有相同,则更新该学员在该道题的错误次数加1,并更新最后一次答题的状态,否则添加一条新的记录。代码部分截图如图2所示。

按照此算法,错题登记表数据库部分截图如图3所示。

3.3 决策树回归分析算法

分类与回归树(classification and regression tree, CART)模型由Breiman等人在1984年提出,是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成,既可以用于分类也可以用于回归。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内容结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布[3]。本文用到的决策树回归分析算法部分截图如图4所示。

4 具体实现

4.1 数据准备

图1:模块修炼值计算部分代码

图2:错题处理模块部分代码

图3:错题登记记录表部分截图

图4:决策树回归分析代码部分截图

图5:测试数据部分截图

图6:运行结果

我们登记学员每次练习的成绩,及最终测试成绩,部分数据截图如图5所示。根据数据运行测试的优化结果,我们把每次成绩除以100并保留1位小数。

4.2 数据分析

我们把每位学员平时练习的成绩作为特征feature,最终测试成绩等级作为标签Label,部分结果如图6所示,预测值可作为提前预判,以及前期辅导准备工作而服务。结果显示,大部分预测值与真实值相差不大。

5 结语

本文以公安知识学习为例,对学员们的公安知识答题情况进行挖掘。为了服务学员,系统把错题保存,以及记录每位学员各个模块具体的修炼分值,让学员了解自己的薄弱环节;将每道题答题次数和错误数进行记录,让教员明确学员知识点掌握细节情况;另外根据学员平时练习的情况,运用Spark决策树回归分析算法进行数据挖掘,预测最终得分,提前预判,做好前期辅导准备工作。本文存在一些不足,如数据量不够多,最后四次测试有个别学员没有参与且测试题简单成绩较集中,对回归分析结果可能存在一点影响。另外,对回归分析算法及参数调优等需要进行进一步的研究,这将是后续的工作。

猜你喜欢

决策树错题答题
邀你来答题
邀你来答题
邀你来答题
邀你来答题
笑笑的错题
聚焦数列中的易错题
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用