基于大数据的高校学生在线学习画像研究
2021-04-20杨杉
杨杉
摘要:以四川省某高校的网络教学平台为研究对象,对该平台的学生在线学习数据进行学习行为画像。采用python、dycharts、图表秀,对不同任务点(视频)学习情况下学生章节测验平均分、不同作业平均分下学生的章节测验平均分、不同网络测评成绩下学生网络学习状况进行了画像。画像结果能直观看出任课老师对于课程设置的情况、学生学习的各项基本情况、各学院对于学生学习管理的长处和短处,从而更有针对性地进行改善和提高。
关键词:大数据;网络学习;画像研究;行为研究
中图分类号: TP311.13 文献标识码:A
文章编号:1009-3044(2021)07-0237-05
Abstract: Taking the online teaching platform of a university in Sichuan Province as the research object, the students' online learning data on this platform is used to profile the learning behavior. Using python, dycharts, and chart shows, the average scores of students' chapter tests under different task points (video) learning conditions, the average scores of students' chapter tests under different homework average scores, and the students' online learning status under different network test scores were portrayed. The result of the portrait can directly see the teacher's situation of the curriculum, the basic situation of students' learning, and the strengths and weaknesses of the colleges for student learning management, so as to make more targeted improvements and improvements.
Keywords: big data; network learning; portrait research; behavior research
1 引言
隨着互联网教育的发展,各种网络媒体也日新月异。新时代、新技术、新趋势使在线教育形式也越来越丰富,同时也成为未来教育的重要组成部分[1]。尤其是今年疫情以来,网络教学成为各大高校疫情期间教学的主要形式[2],在特殊时期发挥了不可忽视的作用,同时也累积了大量的学生在线学习数据,为研究学生的在线学习行为提供了丰富的素材[3]。
目前网络教学平台是众多高校普遍采用的一种教学辅助手段,也是学生在平时学习生活中使用频率最多的学习平台。任课老师将学习任务点,作业,以及章节测验考试等布置在此平台上,通过课后完成的情况反馈,更好地了解学生对知识点的掌握情况,从而更有针对性地进行教学[4],学校管理层也可通过此平台对老师的工作情况进行监督和了解[5]。通过对网络在线上导出的学生信息数据进行画像[6],能够直观地看出任课老师对于课程设置的情况、学生学习的各项基本情况、各学院对于学生学习管理的长处和短处,从而更有针对性地进行改善和提高[7]。
2 研究思路
以四川省某高校的网络教学平台为研究对象,对该平台于2020.3.1-2020.6.30的学生在线学习数据进行学生在线学习行为画像。采用python、dycharts[8]、图表秀[9],对不同任务点(视频)学习情况下学生章节测验平均分、不同作业平均分下学生的章节测验平均分、不同网络测评成绩下学生网络学习状况进行了画像。
3 数据说明
3.1 数据来源
数据来源于四川省某高校在线学习平台,覆盖了2020.3.1-2020.6.30各个学院的学生在线学习数据,数据表中包含了学生姓名、学生账号、院系、专业、行政班、学生状态、入学年级、章节测验完成数、作业平均分、考试平均分等52个字段共50000条数据,37M。
3.2 数据清洗
数据表中,很多数据对于我们研究学生成绩状态以及学生画像时没有用的,因此对数据进行了数据预处理[10],筛选出了我们需要的数据,把不需要的数据进行了剔除,其中主要使用了任务点完成数、章节测验完成数、章节测验平均分、作业平均分等字段的数据进行分析和探索。删除无效字段:该字段列值为空或字段值一样或对分析帮助和影响不大。删除异常记录:作业完成数数量极少,但平均分过高的异常值。
4 学生画像
4.1不同任务点学习情况下学生章节测验平均分画像
4.1.1统计指标计算
由图1可知:任务点完成数的均值为27.22;视频任务点观看时长为214.29;章节测验平均分58.80;根据均值对数据进行划分。任务点完成数:>=27、<27; 视频任务点观看时长:>=214、<214; 章节测验平均分:>=30、<30。
4.1.2数据可视化展示
根据图2可知:任务点完成数>=27个的学生,有15498人占总体的29.44%,<27个的学生,有37138占总体的70.56%; 视频观看时长>=214min的学生,有14551人占总体的27.64%,>214min的学生,有38085人占总体的72.36%;章节测试平均分>=30分的学生,有18076人占总体的34.34%,<30分的学生,有34560人占总体的65.66%。总体上说,学生普遍任务点完成数量较少,视频观看时长较短,章节测试平均分较低。
由图3可知:
根据数据学生任务点完成情况可分为4类:1—任务完成数少,章节测试分低(31412人);2—任务完成数少,章节测试分高(5726人);3—任务完成数多,章节测试分低(3148人);4—任务完成数多,章节测试分高(12350人)。
根据视频观看时长可分为4类: 1—观看时间短,章节测试分数低(29999人);2—观看时间短,章节测试分数高(8086人);3—观看时间长,章节测试分数低(4561人);4—观看时间长,章节测验分数高(9990人)。
任务点完成数较少的学生,普遍测验成绩都偏低,完成数较多的学生,普遍测验成绩都偏高;视频观看时长短的学生,普遍测验成绩都偏低,视频观看时长长的学生,普遍测验成绩偏高。
根据上图可知:任务点完成数<27的学生,其章节平均分为13.66、>=27的学生,其平均分为69.77。观看时长<214的学生,其章节平均分为18.47、>=214的学生,其平均分为60.84。
由此得出结论:学生任务点(视频)的完成情况对于章节测验的影响较大,普遍存在学生任务点(视频)完成情况越好,章节测验的平均成绩越高,反之则越低。任课老师需要更加注重学生平时任务点(视频)的学习情况,设定一些考核,除了能够更好地督促学生的学习,也能够让学生的学习质量得到很大程度上的提升。
4.2不同作业平均分下学生的章节测验画像
4.2.1统计指标计算
根据图5可知:作业平均分的均值为58.8。根据均值进行划分,作业平均分:>=60,<60。
4.2.2数据可视化展示
由图6可知:作业平均分>=60的学生有32606人,占比61.95%;<60的学生有20030人,占比38.05%。
由图7可知:根据作业平均分可分类4类:作业平均分低,章节测试成绩低——13447人;作业平均分低,章节测试成绩高——6583人;作业平均分高,章节测试成绩低——21113人;作业平均分高,章节测试成绩高——11493人。作业平均分低的学生普遍章节测验成绩低,作业平均分高的学生普遍章节测验成绩也比较低,说明可能存在平时作业抄袭或者使用同组作业上交的情况,或者老师作业打分标准比较宽松,给分较高。
由图8可知:作业平均分<60的学生章节测验平均分为29.52;>=60的学生章节测验平均分为30.59。
由此可以得出如下结论:作业平均分的高低对于章节测验分数的高低影响不大。存在普遍的作业平均分高但章节测验分数低的情况,任课老师应要提高对学生作业质量的要求、作业打分的标准以及加强对学生作业的监管,减少抄袭以及浑水摸鱼的情况,使得学生能够更好地对所学知识进行运用,老师也能够从中确切的了解学生的学习情况,更有针对性地进行教学,从而取得更好的成绩。
4.3不同任务点学习情况下学生章节测验平均分画像
数据分析目的:针对线上平台的学习数据对学生网络学习的状况进行分析,目的在于调查网络学习的教学方法是否能够帮助到学生的学习,同时为教学方法的不断完善和改进提供一定的思路。
数据分析方法:主要采用聚类分析的方法对不同的网络测评成绩下学生网络学习状况进行分析,从而帮助校方在不清楚数据属性等的前提下对数据进行整理、归类,最后根据数据整理出的学生网络测评特征等分出网络学习状况好和差的学生。
使用的特征变量:考试平均分:教师在网络在线上使用考试的平均分,但是使用次数较少;章节测验平均分:教师在网络在线上使用测验的平均分,使用次数较少;作业平均分:各课教师在网络在线上所布置的作业的平均分。
使用分析工具:Spss modeler、dycharts。
4.3.1分析过程
如图9所示,从总体上来看万罗测验中考试和章节测验都有超过一半多,而作业为0分的则是将近有1/4,由此可以看出有2种情况:1、教师布置,而学生未完成;2、教师未使用考试、测验的方式进行网络测验。针对情况2的原因可能是网络测验其测验的真实性无法保证;网络测试时间等不好协调;教师不太擅长使用网络教学的方式发布测评任务。
如图10所示,从分析预测的3个变量中我们可以看出其重要性3个变量都达到了100%,因此说明在对网络学习状况测评的聚类中,三个变量分数都对该聚类产生重要影响,而整个聚类的模型分为2个类别,其轮廓系数达到0.7,其聚类效果好。
从图11可以看出,从聚类的大小和聚类的人数来看,可以看出聚类1与聚类2两者相差10%左右,聚類1略小于聚类2。
从图12可以看出:
聚类1:考试平均成绩为87,且大部分数据较高水平,在章节测验成绩上平均分数为45.5分,其数据大部分属于中等,而在作业平均分上则是69.9分左右,且数值偏低。学生的网络测验成绩与总体相比较,其考试平均分明显高于总体水平,章节测验平均分略与总体相比其差距更大且中位数高于总体,其作业的平均分中位数与总体中位数相比,略高于总体且数据更向高分集中。
聚类2:考试平均成绩几乎为0,且大部分数据较低水平,在章节测验成绩上平均分数为18分,其数据大部分属于低分,少部分高分,而在作业平均分上则是50分左右,且数值偏高。其考试平均分、章节测验平均分的中位数与总体中位数相比都属于非常低,而作业平均分与总体相比略低于总体的中位数。
4.3.2聚类结果
聚类一,网络学习状况好(44.76%),其特点如图13所示;聚类二,网络学习状况差(55.24%)其特点如14所示。
总体上来看,网络学习状况差的学生略高于网络学习状况较好的学生,因此在大部分课程上要提高其网络在线学习平台的利用率,以及完善网络测评的环境以便能够更好地进行网络测验。
5 结论及建议
视频观看时长和作业、章节测验、考试成绩成正比。根据学生在线学习的数据可视化展示走向,各类型成绩平均分和视频观看时长走向近乎一致。可以表明,视频观看时长对成绩的影响较大,平时占比建议对学生视频观看时长严格要求,可以起到提升学生成绩的作用。
参考文献:
[1] 冯广,何雅萱,贺敏慧.基于校园大数据的学生画像系统应用研究[J].软件,2020,41(8):40-42.
[2] 严正宇.用“大数据+微服务”构建学生综合画像[J].信息系统工程,2019(12):105-106.
[3] 黄山.学生画像技术在高校学生事务精准管理的运用[J].科学咨询(教育科研),2019(12):37.
[4] 王坚,张媛媛,柴艳妹.基于因子分析和聚类分析的学生网络学习行为研究[J].中国教育技术装备,2019(18):3-5.
[5] 赵建伟,彭成圆.教育大数据背景下大学生网络学习行为实证研究[J].当代教育实践与教学研究,2019(15):34-35.
[6] 程泽凯,佘星星,谢宁宇.网络教学平台学生学习数据分析[J].常州工学院学报,2019,32(2):77-80.
[7] 张海华.基于大数据和机器学习的大学生选课推荐模型研究[J].信息系统工程,2019(4):105-106.
[8] 吴林静,劳传媛,刘清堂,等.网络学习空间中的在线学习行为分析模型及应用研究[J].现代教育技术,2018,28(6):46-53.
[9] 张海华,郭田友,张非.基于校园大数据构建大学生画像的技术实现[J].电子技术与软件工程,2019(3):152-153.
[10] 李光耀,宋文广,谢艳晴.智慧校园学生画像方法研究[J].现代电子技术,2018,41(12):161-163,167.
【通联编辑:王力】