大数据背景下基于K-means聚类算法的在线学习行为路径分析与研究
2022-07-26王婷
◆王婷
大数据背景下基于K-means聚类算法的在线学习行为路径分析与研究
◆王婷
(吉林建筑科技学院 吉林 130114)
本文主要就K-means聚类算法特点,研究其在线学习行为路径中的应用方法,即通过对学生在线学习行为路径采集数据做聚类分析,获取学生在线学习的行为路径,创建学生在线学习行为模型与行为分析平台,并以学生在线学习行为模式作为数据来源,分析学生在线学习行为特点,总结在线学习行为规律,为混合式教学提供更好的数据指导,达到更好的教学效果。
K-means聚类算法;在线学习行为;数据挖掘
在信息技术快速更新发展的背景下,现在网络技术已经被越来越广泛的应用到混合式教学中,以“互联网+”为载体,通过K-means聚类算法对学生学习行为进行预测分析,分析学生在线学习行为特点,对传统教学模式进行调整优化,能够进一步提高教学质量和学习效率。
1 大数据下K-means聚类算法分析
信息化时代背景下,对传统教学模式进行改革创新已经势在必行。以信息技术与网络技术作为支持,建立网络化、个性化、数字化以及终身化的教育体系,打破以往学习中时间、空间带来的限制,这对于培养更多创新人才至关重要[1]。现在有越来越多的学生选择线上学习,相比日常课堂学习通过线上学习的方式能够获取更多更全面的知识信息。但是面对网络上海量的信息,每位学生均有不同的学习习惯与偏好,如果可以掌握这一情况,对于教师制定教学计划具有巨大意义。
大数据已经成了重要的发展资源,其具有数据量大、种类多、实时性强、价值高以及真实性强等多项特点,将其应用到信息化教学中,对学生在线学习行为数据进行收集整理、归纳分析,挖掘数据之间的关联性,掌握学生在线学习行为习惯,来为教师备课设计教学提供十分有利的参考数据。目前,数据挖掘与聚类分析在混合式教学的在线学习行为分析中应用还比较少,对学生在线学习行为数据的挖掘分析还需要做进一步的研究,争取完成学生在线学习时间、学习方向、学习行为路径、作业完成度以及在线测试成绩等多方面因素的数据分析,为教师课堂教学设计提供辅助支持[2]。其中,K-means聚类算法的应用优势较大,简单来讲就是对各类数据的分类,通过将具有一定相似性的特征值聚集在一起进行分类。通过K-means聚类算法得到的结论与判定,这样就能够进一步了解学生在线学习行为路径与学习效果,确保教师教学设计做到“因材施教”。
基于K-means聚类算法来进行学生在线学习行为路径的研究,首先就需要对算法进行改进,分析确定每个点之间的差异,对原空间元素进行秩序化管理,明确初始中心值选择的规则要求[2]。假设存在一个结合X={x1,x2,…xn},先按照维度对数据集X做从小到大的重新分布,例如对某一维x1,…xir,…xnr,从小到大排列,最终排列的结果便是每一个维度上数据全部为从小到大的方式分布,然后对排列好的集合分割得到k个区间,找到每小段中处于中间位置的元素,将其指定为中心。此种存取中心值的算法是遵循规划原始数据集的原则,按照一定秩序来排列原始数据,并按照秩序排列规则选择适当的初始中心[3]。K-means聚类算法流程为:
Input:待聚类分析的数据集合X、聚类的数目k。
Output:k个初始的聚类中心。
步骤:
①按照维度秩序来对数据集合进行重新分布,保证每一个维度上的数据全部是按照从小到大的方式排列,形成新的集合mia;②对数据集mia进行分割得到k个区间;③对每个区间的中心值在区间内位置或序号进行计算;④取出中间序号所对应的数据,确定其为初始化聚类中心;⑤利用每一个分组中的所有数据计算初始中心:
其中,表示中心值序号;表示数据集合的总个数;表示类簇的总个数;表示某一个类的序号[4]。
2 学生在线学习行为路径分析
2.1 在线学习行为数据采集与预处理
混合式教学模式下,对于不同学历的学生在进行线上学习的过程中所表现出的学习行为习惯具有较大的差异性,本次研究主要是选择本校学生作为数据训练样本,通过聚类工具对学生在线学习时长、学习资源种类、学生年级、学习行为路径、学生专业类别、作业完成度以及在线测试成绩等方面的数据进行收集和预处理分析。以最近一年的数据记录作样本,去除重复记录以及完全相等的行为,制作“学生线上学习行为表”数据集[5]。
在线学习行为路径部分数据样本,如表1。
表1 学生学习行为数据样本
学号姓名性别专业任务完成率课堂讨论数作业完成度章节测试 190240301高静楠女网络工程80%1060%及格 190240302沈南南女网络工程90%16100%优秀 190240303毕微女网络工程78%1255%中等 190240304侯菁菁女网络工程88%1580%中等 190240305郑卓男网络工程93%1990%及格 190240306刘佳宇男网络工程93%1990%优秀
在线学习行为路径指标样本,如下表2。
表2 在线学习行为指标
序号学号在线学习步骤1步骤2步骤3步骤4步骤5步骤6 1190240301观看视频课件阅读课堂讨论作业考核趣味问答课堂测试 2190240302趣味问答作业考核课件阅读观看视频课堂测试课堂讨论 3190240303课件阅读观看视频课堂讨论作业考核趣味问答课堂测试 4190240304观看视频课堂讨论课件阅读课堂测试作业考核趣味问答 5190240305作业考核课堂讨论课堂测试课件阅读趣味问答观看视频 6190240306课堂讨论观看视频趣味问答作业考核课堂测试课件阅读
通过采集学生在线学习行为路径数据可以发现,其中的每一个环节在执行过程中均存在较大的可能中断,同时也存在随时可继续的可能。为了更好用K-means聚类算法进行数值化分析,本次以数值来代替所有样本学生行为表达格式的字符串,将数据冗余的样本去除后再次采集,争取可以更好获得聚类分析的初始中心理想值[6]。
2.2 建立学习行为路径的聚类
通过数据样本可以获得大量不同在线学习平台的基础数据,应用K-means聚类算法来对基础数据单独聚类可以实现一定的数据有效性。基于K-means聚类算法对学生在线学习行为路径的聚类流程图见图1。
图1 在线学习行为路径聚类流程图
2.3 实验结果分析
通过Spss Tatistics工具完成聚类训练过程,以在线学习行为为变量,分别为表2中的步骤1-6。随机选出500条行为路径进行分析,以此来构成500个学习行为路径最接近的学生在线学习类簇,采用迭代与分类的方法,设置聚类数为4,聚类最大迭代次数为10次,表3、表4分别为迭代计算结束后获取的初始聚类中心和迭代历史记录,在10次迭代过程中聚类处理6个步骤,表5为最终聚类中心的案例数结果,表明在线学习的首要目的在于知识的扩展学习。
在500个学生登录学生平台后,观看视频资源学习行为的有376条,对知识进行扩展加深。参加课堂讨论的有320条,参与问答提问的有246条,在这些学习行为路径中观看视频-课堂讨论-趣味问答-课件阅读-课堂测试-作业考核行为较为集中,其中观看视频和课堂讨论为主要在线学习行为路径[7]。
表3 初始聚类中心
学习步骤聚类 16316 26210 31161 46010 56610 66060
表4 迭代记录
迭代次数聚类中心更改 15.6463.4124.1835.017 20.1020.0150.0130.033 30.0030.1160.1130.065 40.1520.0860.0330.099 50.2100.0550.0670.058 60.1520.0850.1410.013 70.1340.0690.1380.067 80.1260.1150.1470.058 90.1870.1030.1590.091 100.1510.0750.1620.082
表5 最终聚类中心
学习步骤聚类 13425 22253 34252 43334 53324 65623
采取此种迭代算法来对学生在线学习行为路径聚类分析,可以为教师提供更加直观的聚类结果,以此来对教学设计提供数据支持,不断来提高线下教学质量,有效弥补线上自主学习的不完整性以及碎片化知识的有效整合。其中,对抽象的类簇记录详细的行为,在面对不同专业类别与年级的学生,均可以获得一定的教学依据。
3 结束语
大数据技术已经成为分析混合式教学过程的有效手段,采用K-means聚类算法进行研究,可以更加深入掌握学生线上学习的行为特点,为线上线下混合式教学模式提供重要依据,K-means聚类算法能够深度提炼学生在线学习过程中的操作及线上使用数据信息,更好的优化课程及资源组织方式,为教师线下教学设计提供数据支持,弥补学生线上自主学习存在的不足,是实现线上线下混合式教学的有效手段。
[1]郭玉栋,左金平,王溢琴.K-Means聚类算法在线上学习效果测评中的应用[J].晋中学院学报,2020,37(03):63-67.
[2]张海华,李楠楠.基于大数据K-means聚类算法的在线学习行为路径的研究[J].电子设计工程,2020,28(12):17-20+25.
[3]王通博.K-means算法新发展[D].海南大学,2020.
[4]景源,郝金山.基于期望最大化的K-Means聚类算法[J].辽宁大学学报(自然科学版),2020,47(02):106-111.
[5]刘思宏,余飞.基于大数据下K-means聚类算法的在线学习行为路径应用研究[J].兰州文理学院学报(自然科学版),2019,33(01):70-74.
[6]刘训星.基于K-means聚类算法的在线学习行为分析[J].湖南科技学院学报,2017,38(06):7-9.
[7]蔺小清.大数据时代K-means聚类算法应用于在线学习行为研究[J].电子设计工程,2021,29(18):181-184+193.
吉林建筑科技学院2020年校级科研项目(校科字[2020]036号)