慕课平台用户学习数据的管理与分析
2019-01-23李培
李 培
(1.西安邮电大学 计算机学院, 陕西 西安 710121;2.西安邮电大学 陕西省网络数据智能处理重点实验室,陕西 西安710121)
0 引 言
随着互联网的发展,借助网络来进行教学的方式已经被广泛地应用于各大高校。最具代表性的就是网络视频授课,更多的学生可以随时随地学习各大高校的课程,从而促进教育水平,提升学生的能力。虽然网络视频教学的兴起让老师的教学方式和学生的学习态度有了极大的改变,但是缺点也同样存在,例如,学生所谓的“刷课”凸显的最主要的问题就是,老师不能确保学生是否在学习前观看视频,观看的视频是否认真等。因此,关于网络视频教学的改革和完善是一个值得关注的问题,而借助实际的网络教学平台用户数据进行的研究,将是解决这个问题最有利的工具。
目前使用最多的网络教学平台为慕课平台,很多高校为本校的学生安排了基于慕课平台的线上学习课程,并且还将自己学校的特色专业课程制成视频,放到慕课平台上供其他人学习。在校学生比例占了慕课平台观看者相当大的比重,学生用户的后台学习数据很大程度上代表了网络学习者的情况。
之前对慕课平台上学习数据的分析仅限于一些客观因素的简单统计分析,或依靠分析者的主观判断,而本文的研究是以学生用户在慕课平台全程的学习数据作为研究对象,借助数据挖掘算法,发现相关因素之间的联系,特别是分析不同因素对最终学习效果的影响,通过直观的图表和专业的分析,对慕课平台的课程建设者和任课教师使用慕课平台评估设置规则提供客观准确的参考意见[1-3]。
1 数据挖掘算法
1.1 决策树算法
决策树是通过对数据进行处理,找出最优分裂点,形成可以供新数据集分类预测的二叉树,树中的每一个节点代表的就是选取研究数据集的属性,分支代表的是符合节点的数据集,所有的叶子节点都是一类数据集合。
对一个数据集进行决策树的建立,根节点是整个数据集中最具有代表性的属性,通常依据根节点就可以得出非常大的信息量。当决策树建立成功之后,就可以用类似于树的遍历,从根节点开始,根据条件进行遍历,直到叶子节点,而叶子节点正是我们所判定的分类结果。
决策树是数据挖掘应用中容易实现,并且可读性较高的分类工具。在处理数据时速度快,这里也包括前期对数据的处理,只需要提供可靠的属性数据集即可,免去了去掉空白的或者多余的属性。并且它的准确率高,在决策树完成后对数据的分类效果明显,不需要重复构建二叉树。
决策树建立的基本过程如下[4]:①遍历所有的数据集合,将其看作节点;②对所有的节点所属的属性进行分裂,找出最优分裂点;③依据所选最优属性的条件,继续分裂成两个或者多个节点;④重复上述②—③步,直到每个叶子节点是纯集合为止。
在这个过程中,关键就是最优分裂点的选择问题,在各种属性里面找出最适合分裂的点,让分裂后的分支数据集合尽可能单一,这个过程中会遇到3种情况:①离散分布,最终生成的是二叉决策树,使用划分的子集X来测试;②离散分布,最终生成的是非二叉决策树,使用分支Y来测试;③属性的分布是连续的,则需要确定一个标准Flag进行划分。
在最优分裂点的选择中,决策树是通过对数据集的信息量计算,确定信息熵的大小,进一步求得分裂前后的信息增益,从而找出最适合分裂的那一个属性,此属性代表了最高的不确定值。只有数据纯度较高的时候,不均值才会高,此时信息熵最大。在进行过一次分裂后,如果信息熵的差值大,那么说明分裂后的数据集的信息量比分裂前的更均匀。
通过ID3算法对此次实验数据进行处理,可以确定最优分裂点的选择。
1.2 ID3算法
ID3算法是实现构造决策树的算法之一,具有速度快、数学性强的特点,核心思想是概率。通过对不同分类的数据在此集合中出现的概率与分裂后在子集合中出现的概率进行计算,得出信息增益,从而确定最优分裂点。
学生在观看完成所有视频课程之后进行考试的最终学习效果,除了根据考试成绩衡量之外,其他的属性也应该起到作用。例如,两个成绩相仿的学生,一个观看视频时间长,另一个少,那么客观地说,观看视频时间长的学生应该得到更优异的成绩。因此,采用决策树分类的方法对一个学生观看视频学习的结果进行分类评价。
表1是分类标准。
表1 成绩判定
2 数据管理分析系统设计和实现
2.1 需求分析
在学生看完慕课平台的课程,完成相应的作业、测验以及考试之后,学生的成绩都可以在慕课平台的后台查询并且下载。除了用已有的Excel进行数据查看外,并没有其他方法可以对数据进行整理分析。此外,因为学生都是利用业余的时间观看视频,这种学习方式对于老师评判平时分是十分不利的。
因此,此次系统为了方便老师的工作,让老师对学生观看视频后取得的成绩有更清晰的认识和了解,提供图表方式以查看学生的成绩分布、成绩趋势以及学生之间的成绩对比,在对成绩进行决策树分类后,确定平时分的评分标准[5]。
2.2 关键技术
这次主要采用Python机器学习库中的Sklearn中的一个功能来进行数据挖掘,从而实现决策树分类。Sklearn是数据挖掘中十分有效且方便的工具[6],它封装了大部分的机器学习算法,如分类、回归、聚合,还包括了监督学习、非监督学习、数据交换。它的官方API十分周全,上手容易,内置大量数据集,处理数据的效率极高,是在进行数据挖掘时首先考虑的工具之一[7]。本次采用了Classi fication的Sklearn.tree决策树方法,完成对Spoc的分类,对学生的成绩做进一步的评定,系统运行的后台框架采用的是Python手下的Flask框架[8]。
考虑到数据的拓展性和半结构化特性,采用的数据库是Mongodb为主[9]。Mongodb是将数据存储成文档的样子,类似于字典,一个属性对应一条数据,方便操作。
2.3 主要功能
(1)成绩统计与分析。对课程的每一次作业、测验以及Spoc成绩都进行了数据统计,计算其平均分和及格率。
使用柱状图查看分数的分布情况,点击某一区间,即可显示具体的成绩和人数,如图1;在各区间的具体成绩下,点击左下角导出成绩并下载,可以查看此区间的学生成绩信息。
图1 成绩分布
(2)成绩权重。统计一个学生某课程的所有情况之后,需要对其成绩进行权重的计算。在下拉框可以选择作业与测验各占的比例,进行计算显示结果,并可导出。
(3)数据对比。在作业、测验和Spoc成绩属性较多的情况下进行数据对比,可以清晰地评价学生观看视频的效果,选择两位学生的成绩,点击对比,作业测验和Spoc信息的对比情况如图2所示,可以看到3个类型的显示结果。
(4)学生信息管理。学生信息是在导入成绩的时候自动添加的,主要显示的是学校、姓名和学号三大信息。也可以进行查询。
图2 信息对比
点击操作中的详情按钮,显示的是这个学生作业和测验的折线图,得分情况和状态起伏一目了然。如图3所示。
图3 学生详情
(5)作业、测验和Spoc成绩管理。作业、测验和Spoc成绩数据都在系统中存在,在搜索框输入学号或者姓名,可查看个人成绩。
系统可对各项数据进行导入。在录入的时候,如果时间和课程名与已有信息完全相同,则不予录入。
3 数据分析
借助系统中整合的数据,采用数据挖掘算法完成了数据的分析。
1)成绩与视频观看时长。
由图4可知,从视频观看学习的数据分析看,并不是观看视频时间越长,成绩就越高,二者非线性相关。
图4 成绩与时长
2)视频观看个数与次数。
从图5中可以看到,在进行视频学习的过程中,没有一个学生会进行视频的重复观看,都是一个视频只看一遍,完全没有回顾的现象。可能这个学生会在某一段时间频繁观看。但是,知识需要不断地回顾复习,在这里视频学习并不具备有用性。
图5 视频个数与观看次数
3)视频观看个数与总时长。
由图6可知,并非一个学生看视频的个数越多,总时长就越长。有些虽然看的多,但是总时长却短。说明这些学生并没有认真去观看,有可能他们只找时间短的视频,尽量完成视频学习的任务而已。
图6 视频个数与总时长
4)平均分标准分类。
图7是根据平均分的分类,可以看到,视频观看时长是次于成绩的关键影响因素。
图7 平均分下的决策树
5)中位数标准分类。
从图8中可以看到,中位数是除了是视频观看个数的第二关键影响因素,可以看到,关于A标准的数量要少于平均数。因此,在更严格的给分情况下,可以根据中位数来评判。
4 结 语
4.1 优 势
本文从研究学生观看慕课平台视频的学习数据出发,选取了学生的课程观看时长,学习期间完成的作业、测验以及考试等因素进行研究分析。这些数据不仅有成绩属性,还有其他如视频观看时长等属性,因此在分析成绩之外,还可以对其他属性进行研究。
图8 中位数下的决策树
实验数据来源真实可靠,选取整班学生全程学习数据,对需要研究分析的数据点进行列举,在Spoc数据中,完成了视频观看时长与Spoc成绩的分析、视频观看个数与次数的分析,最关键的是,进行决策树分类之后对Spoc学习的最终成绩判定做了研究;在作业、测验数据中,完成了查看成绩分布、导出对应数据以及成绩权值的计算。此外,还完成了学生数据对比的研究,可以借助对比结果进行打分。
研究对象具有针对性,研究方法多样,可视化效果好,同时用明确的数据说明和解决问题。
4.2 效 果
从研究分析的结果来看,最终学习的效果评判并不能仅看考试成绩,而是需要统一参考视频观看以及个数时长。有的学生虽然看的视频多,但是并没有认真学习内容,那么成绩肯定不理想。在决策树分类的结果中,有中位数和平均数的选取差别。新的学习方式固然有其优势,但是改进仍然是必不可少的。总的来看,要想真正提高成绩,还需要提高视频质量,改进视频观看体验,以避免学生的视频学习流于表面形式。
本论文的研究意在说明如何提高慕课平台视频的质量,特别是吸引力,同时采用一些技术手段,保证对视频观看的全程监控。保证观看的实际质量是提高慕课平台学习效果的重要研究要素,当然,对于选取慕课平台进行教学改革的任课教师来说,也明确了对线上视频学习所应做出的必要要求,建议从考核手段等多方面着手,促进视频观看效果的提高。