APP下载

基于大数据的高校学生在线学习数据分析研究

2021-01-14王钰杰杨杉

现代信息科技 2021年14期
关键词:大数据分析数据挖掘

王钰杰 杨杉

摘  要:文章基于新冠疫情前后四川某高校在线学习平台的学生学习数据变化,获取疫情前后学生在在线平台学习的学习数据,针对疫情前后的变化数据进行两个方面的主题分析:数据分析和数据挖掘。其中数据分析采用了均值过程和单因素分析方法,数据挖掘构建了决策树模型和贝叶斯聚类模型。分析和挖掘结果能够直观得出疫情变化对该高校学生的学习造成的影响,能够为高校提供远程学习的管理意见,提高学生的学习效率。

关键词:大数据分析;数据挖掘;行为研究;SPSS

中图分类号:TP311     文献标识码:A文章编号:2096-4706(2021)14-0094-05

Abstract: Based on the change of students’ learning data in the online learning platform of a college in Sichuan before and after the COVID-19 epidemic, this paper gets the students’ learning data in online platform before and after the epidemic. According to the changed data before and after the epidemic, two aspects of subject analysis are carried out: data analysis and data mining. The data analysis adopts the mean process and single factor analysis method, and the data mining constructs the decision tree model and Bayesian clustering model. The analysis and mining results can intuitively obtain the impact of epidemic changes on the learning of college students, can provide management opinions on distance learning for colleges, and improve students’ learning efficiency.

Keywords: big data analysis; data mining; behavior research; SPSS

0  引  言

近年來互联网的极速发展,线上学习平台更被各所高校所使用。线上学习平台功能多,更加方便老师和学生教学和学习。自疫情暴发以来,线上学习成了解决疫情期间学习问题的最佳办法,其中线上学习平台更是在疫情在家学习中起到了最为关键的作用,同时线上平台也积累了高校学生疫情前后的学习各项指标数据,如学生观看视频时长、任务点完成数、章节学习次数、讨论数等等。因此可以通过不同的数据分析方法分析出疫情前后学生的学习状况变化,对比发现疫情期间线上学习的优势劣势,改良线上学习的方式方法;给各学院各教师提供学生的学习指标数据,结合课程针对性改变线上的具体教学方式方法。

1  研究思路

以四川省某高校的线上学习平台数据为研究对象,对该平台的学生疫情前后在线学习数据进行学生在线学习行为数据分析,数据挖掘。其中数据分析采用了SPSS软件进行学生各项学习指标的均值过程,疫情后不同入学年级关于章节学习次数单因素分析。数据挖掘采用SPSS软件构建了疫情前后学生观看视频总时长贝叶斯模型,疫情前后任务点完成情况决策树模型。

2  数据说明

2.1  数据来源

数据采自四川某高校疫情前后学习平台数据,通过在线学习平台导出2017至2020级学生疫情前后的所有线上学习事务的汇总数据。数据维度有:学生姓名、学生账号、专业、行政班、院系、学生状态、入学年级、课程名称、课程编号、任务完成点数、学生视频观看时长等等学习指标。疫情前共60 000条数据,疫情后90 000条数据。

2.2  数据清洗

对数据进行两类清洗处理,对疫情前和疫情后的Excel表去除无效分析对象,将转学院学生,留级学生和无信息学生数据等无效数据进行删除。再将表中多次出现学生的数据进行合并,疫情后的各年级表进行合并,得出疫情前和疫情后学生学习情况两张总表。

3  数据分析

3.1  疫情前后学生学习情况指标的均值过程分析

由表1和表2对比分析可知,疫情后线上学习平台任务点完成数、视频任务点完成数、学生观看视频总时长(分钟)、作业完成数这四项学生学习指标在均值上比疫情前有较大提升,可以看出疫情后该高校对线上学习平台的使用率大幅提升,各课程在线上学习平台的任务点的设置也极大增加。学生完成质量也较疫情前有所提高。任务完成数、视频任务点完成数、学生观看视频总时长、作业完成数这四项学习指标中,学生观看视频总时长提高最大,疫情前学生观看视频总时长均值在278.61分钟,疫情后均值提高到325.13分钟。说明疫情后学生在线上进行观看视频的学习方式极大地被采用,教师也极力推荐并采用了这种以线上视频观看为学习主要途径的教学方式。其他学习指标也都有不同程度上的提升,说明较与疫情之前的教学工作,疫情后的教学将很多疫情前教学工作中的活动都搬到了在线学习平台上,任务点完成数、作业完成数的增长可以证明这一点。

3.2  疫情后不同入学年级关于章节学习次数的单因素分析

为了方便进行单因素分析,需要对数据进行处理。其中1、2、3、4分别代表2017级、2018级、2019级2020级。

从表3的方差齐次性检验我们可以看出sig<0.05,不具有齐次性,表4是方差分析表,分析不同入学年级他们章节学习次数的均值是否具有显著差异,而sig<0.05,是拒绝原假设说明至少有两种不同的入学年级他们章节学习次数是有显著差异的。在表5中,因为不具有齐次性所以直接我们看表的下半部分的表即塔姆黑尼表可以得出这四种不同入学年级的章节学习次数都是具有显著差异的,其中均值最高的是3,说明2019级学生与其他年级差异最明显。通过具体数值的比较,总体排名为3>2>4>1即2019级>2018级>2020级>2017级。这个排名体现了各年级之间学习效果存在着较大的差异,通过具体的数值可以看出,2019级的同学在疫情期间学习效果最佳超过了其他年级。而2017级的同学排在了最后,说明2017级同学在疫情期间的学习效果并不是很好。

4  数据挖掘

4.1  疫情前后学生学习情况贝叶斯分类分析

通过运用SPSS构建了疫情前后的关于学生视频观看总时长的贝叶斯模型,并对模型的结果做出以下分析。由图1可以看出疫情前视频任务点学生观看时长(分钟)对于任务完成数依赖度是最高的,而其他学习指標如考试完成数以及章节学习次数数值上讲对视频任务点学生观看时长依赖度并不高,但是总体上这六类指标对视频任务点观看时长依赖度都不高,数值都在0.2左右。对比图2疫情后学生观看视频总时长(分钟)对于各项学习指标依赖度大幅提高,其重要性都达到了1.0,可以看出疫情后的学生学习更加注重线上平台视频观看,且各项学习指标都依赖于学生观看视频总时长(分钟),说明疫情后的学习模式是以线上平台的视频观看为侧重点展开的。

在这次质量较高的建模下,可以看出在疫情前学生观看视频总时长这一学习指标并不跟其他学习指标存在较大的相关联性,其他学习指标也并不影响学生观看视频总时长;而在疫情后其他学习指标受学生观看视频总时长影响较大,说明疫情前教学工作并不是通过线上视频观看展开,而在疫情后线上教学工作大都通过线上平台视频的观看以及其他学习任务相结合开展,疫情后的线上视频观看成了该高校学习任务的侧重点。

4.2  ;疫情前后任务点完成情况决策树分析

通过运用SPSS软件构建了疫情前后的关于任务点完成情况的决策树模型,并对模型的结果作出以下分析。如图3可以看出疫情前任务点完成情况主要由视频任务点完成数和章节测试完成数构成,两者对任务点完成数的影响度都超过了0.4,章节测试平均分对任务点完成数影响较小。对比图4疫情后任务点完成数主要被视频任务点完成数所影响,其他的作业完成数、章节测试完成数、作业完成数对任务点完成数影响对比视频任务点完成数对其的影响很小。疫情后的视频任务完成数对任务点完成数重要程度超过了0.8,其他学习指标反而都没超过0.2,远远大于其他指标的影响。

在这次质量较高的建模下,可以看出在疫情前在线学习平台的任务点构成由视频任务点和章节测试任务点构成,而疫情后在线学习平台的任务点构成发生了大转变,其中视频任务点完成数占到了最大的比重,还出现了考试完成数。说明疫情后教师加大了在线学习平台上视频任务点的布置。将之前线下的考试搬到了线上,这是教学工作侧重点的转移。

5  结  论

学生的各项学习指标数据在疫情后都有较大的提升,说明疫情后该学校大力开展结合线上学习平台的教学模式,疫情期间的教学工作主要通过线上学习平台实施。疫情前后不同学习指标数据的变化反应:教学方式在疫情期间的变化,教学的侧重点在疫情期间的变化。

在疫情期间各年级同学学习效果存在较大差异,通过对疫情后的不同入学年级学习指标单因素分析,2019级学生学习效果最好指标最高,2018级和2020级处于中间,2017最差。说明各年级同学对疫情期间开展的线上学习模式接受程度不同,对待态度不同,所以达到的效果也不同。各学院可以通过开展各年级线上学习情况和满意度调查,及时了解疫情期间学习效果差的年级的思想,以及效果好的年级的方式方法。及时调整各年级线上教学工作。

疫情期间教学方法及教学任务的侧重点发生了重大转变,通过两次高质量的建模,发现了疫情后教学方法发生了巨大的变化,在各项线上学习平台考核数据上都有体现,最为明显的就是疫情后教学侧重点放在了线上学习平台视频的观看上,在疫情前后任务点完成情况决策树模型结果汇总我们可以明显发现,疫情后视频任务点完成数迅速增加,对整个任务点的构成造成了巨大的影响。较与疫情前的教学模式,各种线下的教学考核也都搬到了线上平台,如章节测试、考试、作业等等。这是受疫情的影响,同时也反映了线上学习平台对远距离教学的帮助。

参考文献:

[1] 廖雅琪,杨杉,孙宇辰.基于SPSS的线上学习行为分析研究 [J].现代信息科技,2021,5(7):21-24.

[2] 薛新鹏,杨杉.基于大数据的高校学生在线学习平台数据研究 [J].现代信息科技,2021,5(9):83-86+92.

[3] 杨杉.基于大数据的高校学生在线学习画像研究 [J].电脑知识与技术,2021,17(7):237-241.

[4] 邓莹.疫情危机下大数据分析的功能研究 [J].数字技术与应用,2020,38(3):82-83.

[5] 贺玲.大数据背景下统计软件在数据分析中的运用 [J].经贸实践,2018(4):328+330.

作者简介:王钰杰(2000—),男,汉族,四川广元人,本科在读,主要研究方向:数据挖掘、大数据。

猜你喜欢

大数据分析数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书