基于数据挖掘技术的教学平台研究探索
2022-05-26陶佳妮李旭朱林姚林宇
陶佳妮,李旭,朱林,姚林宇
(东南大学成贤学院 电子与计算机工程学院,江苏南京,210000)
0 引言
后疫情时代,为了防止新型冠状病毒肺炎向校园蔓延而影响学生的学习教师的工作,“停课不停学”的政策很快落实。教育部统筹整合国家,覆盖各地的优质网上教学资源,全力保障教师们在网上教,学生们在网上学习。随着疫情在我国逐步得到强有力的控制,各地学校陆续复学,教学也在常态化疫情防控的状态下进行。疫情与后疫情时代,线上教学成为了主流的学习模式之一,在这种情况下,可以通过数据挖掘技术,做到深入了解学生的知识掌握情况,分析出接下来,老师们应该讲解的方向,调整后续的教学,使得老师与学生,虽然距离遥远却能和在教室中一样。线上教学为教育注入了新的活力,提高了课程质量,打破了学习的时空局限,能够更好的促进学生与教师之间的师生互动,减少了教师的在线工作量,同时也在一定程度上解决了教育公平问题。
1 App 数据挖掘概述
■1.1 APP 内涵与特征
通过数据挖掘技术能够从学生在网络上查找的一系列数据和信息中获得可用于教学的知识,并有效的指导教师改善教学活动和网站结构。同时可通过基于数据挖掘的网络教学系统用于教务管理,管理采集到的相关教务信息,这样可以使教务管理效率大大提高,在提高了安全性能的同时优化存储量。
■1.2 现有数据挖掘主要技术
在对数据进行研究与挖掘时,我们首先要知道数据是属于庞大的信息资源库,分析其中的所需要的资源信息,可以帮助发现和掌握其中的某些特点与规律,现有的方法主要有:
(1)关联性的分析形式。万物都是相关联的,同样数据之间也是相互关联的。由于数据信息量相对偏大,我们在进行检索信息时,如果对其关联性进行寻找将会耗费大量时间,其次,检索属于相应明确数据间规律、关系是相当艰难的。合理的借助关联性分析形式开展工作,从而更好的提升寻找数据关联性的效率性以及准确性等,为了满足帮助人们提升工作效率与质量的要求,可以借助有效的数据分辨的任务形式予以解决。因这一方法具有较强目的性,因此对数据准确度要求高的信息管理工作中应合理的运用该方法开展工作。
(2)聚类分析形式。聚类分析形式就是把不同的数据进行归类和分组,将已有的零碎数据整理为有条理的数据信息。聚类分类并不是传统意义上进行简单的分类,在数据组找寻具有已有的数据信息,是在不清楚对象的情况下进行的。这里就体现出了该方法的缺点,想要精确把数据信息进行分类是很困难的,因此该方法一般运会用到心理学、数据识别等领域中。
(3)特征分析形式。在信息数据泛滥的当代,分类数据将结合数据自身特征、类型开展工作,特征分析方法就是结合数据特征进行数据的挖掘、汇总。一般是通过计算机,对数据开展虚拟数据的分类工作,借助明确的数据和数据间特征所得出分析的结果,进行开展分类工作。
(4)人工神经网络体系。人工神经网络体系是通过特征性分析,对大量的数据进行相应的处理,然后将大量的数据建立成网络模型,通过神经网络对成为网络模型的数据开展分析工作。首先,在一些国内外研究成果中已经给出了对网络教育的概念定义、特征分析、数据采集、结果评价及相关反馈模型的规范研究,不断完善其体系结构。其次,能够用来指导和建立网络用户的特征及属性等信息,国内外已经有许多基于数据挖掘的网络教学系统可供借鉴参考。
■1.3 教育数据挖掘分析的教与学本位
在传统教学中,老师经常用分数来评价学生的学习效率,但在学生成绩分析中却没有定量分析,这使得教学评价的作用的效果大打折扣。目前,采取数据挖掘技术对学生进行成绩分析,主要从两个方面入手。一方面,从学生这边的信息着手分析。学生在考试或者测试之后,往往对自己的成绩、名次非常关心,而对知识点的理解却难以深入分析。通过数据挖掘技术对学生的历次成绩和每个知识点的得分状况进行分析,从而一目了然的知道其学习效率、进步障碍、每个考点和知识面的掌握情况等等。另一方面,从学生的成绩入手分析。通过数据挖掘技术对试卷进行分析,利用关联规则通过对试卷数据库中相关考试属性进行分析来获取信息,从而给出相关分析评价。一般结合所要测试的内容来进行的,也可给出一个班级基于某门课程的成绩的数据可视图,也可给出这门课程的综合统计分析。学生登录后,系统可自动查询学生各时间段相应成绩,还可给出在本学年院系排名,使学生了解本学年综合表现排名。
■1.4 数据体系及挖掘分析的目的
在移动学习系统的实际应用中,不同的用户所对应的需求不同,所以我们为不同的用户提供不同的服务,全面和人性化的功能有利于系统的推行实施。在学生端的学习主页面,有收藏,课件,课程表,下载,我的课程,我的专栏等选项;用户界面有我的学校,我的班级,我的课表,我的成绩等选项。首先,根据用户填写的学校班级,及时推送学习向的新闻,例如专业考研信息,专业考证信息,专业就业前景等等。接下来,根据学生的成绩,有针对性的推送该生弱项课程的视频课和习题,记录下学生每一次的成绩变化,将学生的知识掌握情况可视化,同时这份知识掌握的情况可视化表也会传给该生的老师查看,老师可以根据她教导的每一个学生的掌握情况来更改教学内容,学生可以根据自己的知识掌握情况来查漏补缺。这样,就可以利用好每一次的测验,挖掘到有用的信息。最后就是讨论环节,学生在每次上完课完成测验后,都可以在讨论组里面讨论,挖掘讨论内容,反馈给老师课程的内容是否需要改进。学生小组的讨论也会被提取关键信息记录下来,以供之后的回顾讨论使用。
2 基于数据挖掘的教学平台设计
如果对于学生成绩分析上没有量化分析,教师只是通过分数对学生学习效果进行评价,从而使得教学评价的作用并没有得到有效发挥。对学生进行成绩分析我们采取数据挖掘技术,主要通过以下两个方面进行。一方面,学生分析。学生在考试或者测试之后,只关心自己的分数多少、名次排在第几,难以对知识点的把握深入进行分析经常发生。通过数据挖掘技术对学生的历次成绩和每个知识点得分状况进行汇总分析,从而达到快速知道其学习效率、进步障碍、每个考点和知识面的对错率等等,其中包括利用分数对应曲线图对学生同时进行的各科目测试成绩进行的横向比较、利用分数对应曲线图及二列相关系数的分析对学生分数在历次测验中进行的纵向比较、利用成绩分布曲线得出学生成绩频数分布图等。另一方面,成绩分析。利用关联规则,通过数据挖掘技术对试卷数据库中相关考试属性进行分析来获取考试的得分区间分布、可信度和有效性等信息,从而给出相对客观的相关分析评价。可通过给出一个班级基于某门课程的成绩分布均标准误、偏度、百分比、最值、平峰度、及格率等数据,也可给出这门课程的综合统计分析,但一般结合所要测试的内容、条件、用途来进行评价。学生登录系统后,系统不仅可自动查询学生各时间段相应成绩,还可给出在本学年院系排名。使学生一目了然的了解本学年综合表现情况。
图1
3 数据挖掘分析技术原理
面对大量的学习资料,客户在使用的过程不得不花费大量的时间和经历去筛选和过滤,从而降低了用户学习的效率,所以我们打造我们的app 就是为了给用户做出个性化的推荐的学习平台。为了让用户接触到更好,更优秀的学习材料,我们使用了基于物品协同过滤的算法,通过观测出用户行为的行为记录评判出用户之间的相似度,寻找到行为相似的用户,互推他们收藏或者喜爱的学习材料。
■3.1 数据的采集和预处理
使用python 的爬虫功能,获取后面可以用来分析处理的数据。到视频的原站获取其中视频的类型,点赞及收藏的人数,视频的播放量,获得好评的次数等重要的潜在挖掘数据信息。由于爬取的大量的数据中会出现不同层次的噪音,比如视频类型与算法模型要求的类型不匹配,缺失值的出现等等,都会在不同层度上,影响着后期数据的使用的效果,甚至对挖掘目的造成影响。所以在开始阶段,我们需要对这些不完整的数据进行预处理。
■3.2 计算出学习资料之间的相似度
ItemCF 物品相似度的计算模型,其中|N(i)|表示喜欢视频i 的用户数量,|N(j)|表示喜欢视频j 的用户数量,表示了同时喜欢视频i 和视频j 的用户数量。从公式中我们可以观察出,因为共同喜欢两个视频的人数越多,物品的相似度越高。
然后,需要对基于物品的协同过滤推荐算法的用户偏好进行计算。公式如下:
其中N(u)是用户产生行为的物品集合,S(j,k)是与j 相似度最高的K 个物品的集合。Wij 物品i 和物品j 的相似度,Rui 是用户u 对物品i 的喜好程度。从公式中可以得出结论:待推荐的物品与用户历史行为中的物品相似度很高的话,则这个待推荐的物品被推荐给用户的可能性就越高。
这种将用户的历史行为作为推荐学习资料的依据的方式,具有更好的解释性,与用户的行为进行了更好的沟通,更加能容易被用户接受和学习。
■3.3 算法的优化
将ItemCF 相似矩阵按照最大值进行归一化,可以大大提高推荐的准确度。不仅如此,还可以提高推荐的覆盖率和多样性。
4 主要功能及关键代码
■4.1 教师模块
教师模块的主要功能:上传上课所需要的学习资料,课后的作业,以及课程结束的考试内容等内容。其中最重要的内容是:上传课程所需的视频。本项目获取B 站的热点学习视频,由于网站的特殊性,音频和视频是分开的,所以我们在获取到视频文件和音频文件,还需要额外的软件去合并,形成完整的视频。
(1)利用正则表达式,取出音频和视频文件存储的playinfo 源代码— html_data,将其字符串形式转化成json 数据,然后对数据进行解析,得到该源代码中的视频和音频的网址。
(2)分别对视频和音频的网址进行访问并获取里面的内容audio_content和video_content利用ffmepg合并MP4 和MP3 文件,合并一个完整的视频文件,由教师模块上传,供学生反复学习,获得知识。
■4.2 学生模块
由教师方上传学习资料后,学生可以根据自己的实际情况进行选择性的学习,但为了给学生提供更高效的学习方式,提供更有价值的学习内容,在学生模块中,添加了学习视频推荐算法,此算法是基于物品的协同过滤算法,通过对视频的点赞量,播放量,收藏量,评论的数量等一些关键的信息量来作为算法的参数来进行推荐。
(1)与上文类似,获取网站的源代码,并且将字符串类型转换成json 类型,然后获取里面的元素:学习的视频的标题,视频的作者,视频的id,视频类型,点赞的人数,视频的播放量,视频的收藏量,视频的评论数,并将这些数据存储到相应的csv 文件当中去。
(2)根据上面的爬取的数据信息,分析得到用户—物品之间的矩阵的雏形,然后通过分析过滤得到用户和物品之间的矩阵data_matrix,计算出视频的余弦相似度矩阵item_similarity,从而获取该视频的余弦相似度的数组,返回前k 个最高相似度的索引位置video_similarity_index,最终排完序之后,可以从中获取相应的推荐学习的视频。
5 总结
本文阐述了数据挖掘技术在教学平台上的使用,借助这一技术来分析教师课程与学生知识掌握情况的数据,可以将在线学习的优势更大化。不仅提高师生线上互动效率,更能顺应历史潮流,推进教学的网络化、信息化。对于数据挖掘技术在教育领域中的实现,能够让教师更好的掌握和了解学生的信息,明确学生成绩、优点以及学习情况等,也能对学生各个方面开展分析,这样教师才能对学生开展更为有效的帮助和教学。同时,教务管理可通过基于数据挖掘的网络教学系统,采集相关教务信息进行相应管理,这样大大提高教务管理效率、安全性能以及存储量。
本文基于我们的大学生创新创业项目的内容写下,样本量有限,本文提出的方法需要在更大的范围内验证。并且数据挖掘的内容之于教学平台还有更多的发展空间。