APP下载

基于聚类算法和决策树算法的网络学习行为研究

2021-06-28杨杉

电脑知识与技术 2021年10期
关键词:聚类算法网络学习决策树

杨杉

摘要:为深入了解高校学生网络学习行为特征,以四川省某高校网络学习平台的数据为研究对象,对学生学习行为进行了深入分析和研究,利用多维度的网络测评数据对学生的学习状况进行了聚类分析,利用任务点完成情况的数据学生测验分数的影响进行了聚类挖掘,并对不同学习状况下学生作业成绩是否及格进行了决策树挖掘。通过以上分析来判定各类学生的在线学习特征和学习效果,从而为学生分类培养及个性化教育提供信息支撑,也为高校在线教育质量的改进提供借鉴。

关键词:聚类算法;决策树;网络学习;数据挖掘;行为研究

中图分类号:TP311.13     文献标识码:A

文章编号:1009-3044(2021)10-0213-04

Abstract: Taking the data of a university's online learning platform in Sichuan Province as the research object, we conducted in-depth analysis and research on students' learning behavior, using multi-dimensional network evaluation data to cluster the students' learning status, and using data on the completion of task points Cluster mining is carried out on the influence of students' test scores, and decision tree mining is carried out on whether students pass or not under different learning conditions. Through the above analysis, the online learning characteristics and learning effects of various types of students are determined, so as to provide information support for student classification and personalized education, and also provide a reference for improving the quality of online education in universities.

Keywords: clustering algorithm; decision tree; network learning; data mining;behavioral research

隨着互联网教育的发展,各种网络媒体也日新月异。新时代、新技术、新趋势使在线教育形式也越来越丰富,同时也成为未来教育的重要组成部分[1]。尤其是2020年疫情以来,网络教学成为各大高校疫情期间教学的主要形式[2],在特殊时期发挥了不可忽视的作用,同时也累积了大量的学生在线学习数据,为研究学生的在线学习行为提供了丰富的素材[3]。通过对学生在线学习数据的分析和挖掘[5],可以了解学生的在线学习完成情况、影响因素和完成效果,评判在线学习与线下学习的优劣等[6],并依据分析结论对高校的教学改革提出意见与建议[7]。此外,还可以通过对学生的聚类[8],来判定各类学生的在线学习特征,为学生分类培养及个性化教育提供信息支撑。

1研究思路

以四川省某高校的网络教学平台为研究对象,对该平台于2020.3.1-2020.6.30的学生在线学习数据进行聚类分析、决策树分析,其中包括对大学生学习的课程中的在线任务点、视频学习时长、作业分数、考试分数和在线互动进行分析统计。通过分析得到学生在线学习行为判断,为教师改进教学、学校改进管理提供有价值的信息,从而做出相应的改进。依据样本数据各个字段,主要以SPSS为工具,进行数据挖掘,主要运用聚类分析、决策树对样本数据中的字段进行挖掘;最后给出建议,为学校提供更多的借鉴与参考。

2数据说明

2.1 数据来源

样本数据来源于四川省某高校网络教学平台,包含2020.3.1-2020.6.30各个学院的学生在线学习数据。

2.2数据清洗

删除无效字段:该字段列值为空或字段值一样或对分析帮助和影响不大。

删除异常记录:作业完成数数量极少,但平均分过高的异常值。

3数据挖掘

3.1基于网络测评数据对学生学习状况的聚类挖掘

使用聚类的方法]将学生网络测评数据(章节测验平均分、作业平均分、考试平均分)聚类分析,从而得出网络学习效果好和网络学习效果差的类别。

将聚类种类分为两类,共有三个输入变量,可以看出其模型效果好,达到了0.8,如图1所示;聚类的大小分别为55.2%和44.8%,两者大小比较相近,如图2所示。从预测变量的重要性来看可以看出输入的三个变量对聚类来说都是比较重要的变量,其重要性系数都达到了1,如图3所示。

从聚类结果(图4)来看:

聚类2占比55.2%,该类学生属于网络学习效果较差的学生,其考试平均成绩几乎为0,且大部分数据较低水平,在章节测验成绩上平均分数为18分,其数据大部分属于低分,少部分高分,而在作业平均分上则是50分左右,且数值偏高。

聚类1占比44.8%,该类学生属于网络学习效果较好的学生,其考试平均成绩为87,且大部分数据较高水平,在章节测验成绩上平均分数为45.5分,其数据大部分属于中等,而在作业平均分上则是69.9分左右,且数值偏低。

各项网络测验偏高的学生比各项网络测验偏低的学生其网络学习效果更好,当然不排除部分课程几乎不会布置网络测验等情况。

从网络学习效果好坏对比来看,网络学习效果不好的学生其考试平均分趋近于0,而网络学习效果较好的同学其考试平均分更高,大部分属于80、90分上下。学习效果不好的0分居多的情况中不排除其课程较少采用网络考试的方式进行测验。

从章节测验成绩来看,其网络学习效果较差的成绩0分较多而少部分数据较好成绩,而相比较于前者,网络学习较好的类别章节测验成绩特点为0分的较少,而成绩在80-100分的居多。

从作业平均成绩上比较来看,可以看出网络学习效果较差的同学的数据更偏向于0,而效果较好的同学成绩比较来看则更向高分的部分偏。

与总体相比较,其网络学习效果差的学生其考试平均分、章节测验平均分的中位数与总体中位数相比都属于非常低,而作业平均分与总体相比略低于总体的中位数。

网络学习好的学生的网络测验成绩与总体相比较,其考试平均分明显高于总体水平,章节测验平均分与总体相比其差距更大且中位数高于总体,其作业的平均分中位数与总体中位数相比,略高于总体且数据更向高分集中。

从其聚类结果来看各项网络测验偏高的学生比各项网络测验偏低的学生其网络学习效果更好,当然不排除部分课程几乎不会布置网络测验等情况。

3.2基于任务点完成情况对章节测试平均分影响的聚类挖掘

使用SPSS Statistics对章节测试平均分进行排序,数据过滤(选择任务点完成数、视频任务点完成数、视频任务点观看时长、作业平均分与章节测验平均分),建立聚类模型。聚类数为4,凝聚和分离的轮廓测量值为0.7,聚类效果较好,如图5所示。聚类1的大小占比为81.3%;聚类2的大小占比为0%,聚类3的占比大小为0;聚类4的占比大小为18.6%,如图6所示。作业平均分、视频任务点观看时长、视频任务点完成数以及任务点完成数,对聚类来说都是比较重要的,变量重要性都为1,如图7所示。

由聚类结果可知(图8):

聚类1是特点为任务点(视频)完成质量较差、作业平均分较低、章节测验平均分低的学生。

聚类2是特点为任务点(视频)完成质量较差、作业平均分高、章节测验平均分低的学生。聚类2这类学生虽然平时的任务点完成比较差,章节测验的平均分比较低,但是作业平均分却比较高,说明可能存在平时作业抄袭或者使用同组的作业上交的情况,学校需要对这类学生进行一个监督,管理。

聚类3是任务点(视频)完成质量较好、作业平均分较高、章节测验平均分高的学生。聚类3这类学生是平时上课的任务点完成的比较认真,作业完成质量比较好,章节测验成绩也比较高的三好学生,但是人数很少只有一个,则学校需要注重这类学生的培养。

聚类4是任务点(视频)完成质量较好、作业平均分低、章节测验平均分较高的学生。

这说明,学生任务点、视频任务点完成情况对章节测试平均分的影响程度较大;作业平均分的影响程度较小。因此需要督促学生对于任务点的学习和完成,保證其他学习指标的完成及质量。

3.3不同学习状况下学生作业成绩是否及格的决策树挖掘

采用决策树的方法,在不同的网络学习状况下(主要包含:任务点完成数、视频观看时长、章节学习次数、课程专题阅读时长、讨论总数、发帖总数以及回帖总数)对学生作业是否及格进行分析。

将作业是否及格作为目标变量可以看出预测变量中最重要的是章节学习次数(0.18),其次任务点完成数(0.17),再次是课程专题阅读时长(0.14),如图9所示。

从生成的部分规则集(图10)可以看出任务点完成数大于107小于等于145且任务点观看时长大于125分钟,没有回帖则为没有及格;任务点完成数大于107且视频观看时长大于334分钟,没有回帖则为没有及格;而任务点完成数大于107且章节学习次数小于等于68也为不及格。

在结果为作业成绩及格的部分规则中可以看出:任务点完成数大于89小于等于107、视频观看时长小于等于364、章节学习次数大于34且发帖总数为0的则作业成绩及格;任务点完成数大于102小于等于105且章节学习次数大于136的则作业成绩及格。从图11中可以看出模型的正确率达到了90.5%,错误率为9.5%,模型的正确率较高,模型效果较好。

从而得出结论:从其生成的规则中我们可以明显看出作业成绩是否及格与其网络学习的状况没有明显的关系,其中可以看到,任务点完成数大于107且章节学习次数小于等于68的这类学生,其作业成绩为不及格;任务点完成数大于102小于等于105且章节学习次数大于136的这类学生,其作业成绩为及格。这充分说明,章节学习次数不是过大就是过小的状态是一种常态,任务点完成数为中等程度的学生,普遍作业成绩为及格,除此而外的其他情况均为不及格。这也间接说明该高校网络在线学习平台上,学生对于老师设置的任务点可能存在挂机的现象,或该门课程老师不太习惯于使用网络在线学习平台来布置学习任务。

4结论及建议

网络学习情况对学生的考试成绩具有显著性影响,网上学习情况良好的学生的考试成绩比网上学习情况较差的学生好。

建议老师在网上布置任务时系统能够及时通知学生结束时间;认真批改学生网上作业与考试,避免统一批改造成的数据不真实。目前网络在线学习平台利用率参差不齐,大部分课程要提高其利用率,并完善网络测评的环境以便能够更好地进行网络测验。此外还应加强对学生平时任务点完成质量的监督与管理。

参考文献:

[1] 蒋雯音,张颖,童亚琴.数据挖掘方法在网络学习行为研究中的应用[J].电脑知识与技术,2020(6):17-21.

[2] 白雪.基于网络学习行为聚类分析的在线课堂优化策略研究[J].吉林化工学院学报,2020(8):44-48.

[3] 肖自乾,陈经优.基于数据挖掘聚类算法的网络学习平台学生成绩分析[J].电脑知识与技术,2020(7):28-29.

[4] 王坚,张媛媛,柴艳妹.基于因子分析和聚类分析的学生网络学习行为研究[J].中国教育技术装备,2019(11):3-5.

[5] 赵建伟,彭成圆.教育大数据背景下大学生网络学习行为实证研究[J].当代教育实践与教学研究,2019(8):34-35.

[6] 程泽凯,佘星星,谢宁宇.网络教学平台学生学习数据分析[J].常州工学院学报,2019(4):77-80.

[7] 王川芳,姚苗苗.基于知识图谱的网络学习评价研究综述[J].软件导刊,2019(3):9-12.

[8] 吴林静,劳传媛,刘清堂,等.网络学习空间中的在线学习行为分析模型及应用研究[J].现代教育技术,2018(6):46-53.

【通联编辑:王力】

猜你喜欢

聚类算法网络学习决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
网络学习行为背景下的慕课教学策略研究
培养初中学生英语自主学习能力的尝试
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用