基于Tableau实现在线教育大数据的可视化探索
2020-11-26吴蓓
文/吴蓓
(中国社会科学院大学 北京市 102401)
Tableau 是一款用于实现交互的、可视化分析的数据分析工具,支持Excel、文本、JSON 等数据源,具有界面友好、快速响应等性能优势,能够自动跟随思维轨迹完成视图切换,有效提高工作效率。将其应用于在线教育网站中,可实现对在线学习平台开放数据集的可视化分析,为学习者行为特征研究提供借鉴。
1 基于Tableau的在线教育大数据可视化设计
近年来“互联网+教育”模式的兴起推动了传统课堂教学与线上教学形式的整合,催生了以翻转课堂为代表的多元混合式教学模式,教师将更多精力倾注于课前、课后准备环节,将包括视频资料、教学课件、参考书目、教学案例、小组合作任务、自主练习题目在内的教学资源上传至在线教育平台中,供学生开展自主学习与小组合作学习。在此模式下,教师可观察到学生在自主学习过程中产生的多维数据,如何挖掘学生多维数据中蕴含的学习信息、为教学决策提供重要参考,成为当前教师在教学设计过程中生成的迫切需求。现以Tableau 软件为例,针对学生在MOOC 在线教育平台学习数据的可视化设计思路进行具体探讨。
1.1 数据收集
以MOOC 在线教育平台中的某一课程为例,收集该课程在2018年6-12月的在线学习情况作为研究数据,其学习资源涵盖教学视频、章节作业、重难点知识网络链接、各章节讨论区等内容,该平台保留在线学习者在学习过程中的各项操作数据,以下为本次研究所需收集的主要数据:其一是章节教学视频,包括平均完成率、各视频的观看人数、观看进度与视频总时长等;其二是作业测试,包括学生平均完成率、总平均分、各题目平均分、各选项作答率等;其三是访问量,依照月度进行在线学习者访问时间段的统计;其四是讨论区,主要统计参加讨论的在线学习者人数;其五是成绩评价,包括学生的总成绩、平均分、各分数段的人数比例等。在完成上述数据收集的基础上,以Excel 的形式将上述结果数据导入到表格中进行数据分析,实现对各部分数据的统计分析。
1.2 数据清洗
由于章节教学视频、作业测试、访问量、讨论区、成绩评价等各类数据的数据源各不相同,其数据格式、类型与Excel 数据规范存在一定出入,易在数据录入环节产生单词拼写错误、书写不规范、出现异常值等问题,因此需在数据分析前采用有效方法完成数据清洗,具体包含以下三种方式:其一是基于有效性验证功能,将录入Excel 表格中的数据格式做出规范化调整;其二是运用排序、筛选、分列、删除重复项等功能,实现数据格式的统一;其三是运用函数进行数据处理,例如采用Trim 清除字符串空格,利用Concatenate合并单元格,利用Mid 截取字符串,利用Search 查找单元格中文本的位置,利用Sum 进行数据计算,利用Randy 函数进行数据抽样等。例如将某学校同一年级对于该课程的学习数据导出,其导出表中将显示学习者的账号、姓名与学习记录,B2 单元格中显示某一学习者的账号为18011201,其中18 即指学习者的入学年份,可利用=mid(B2,1,2)得出该学习者的班级信息,经由数据清洗保障学习者的在线学习数据符合Excel 与Tableau 的数据存储规范[1]。
1.3 数据分析与展现
1.3.1 基于Excel 的数据分析与数据展现
选取Excel 的数据透视表进行数据筛选、分类与排序,以某一课程第三章节中的一道基础知识题目为例,将“班级”、“答题记录”分别拖入到“行标签”和“列标签”区,再将“答题记录”拖入到“数值”区,建立某学校同一年级不同班级对于该题目中各选项作答结果的数据透视表。以“1808 班级”为例,该班级在作答该题目过程中选择A、B、C、D 选项的人数分别为1 人、0 人、29人和11 人,总作答人数为41 人。该数据透视表的建立可供教师选取目标区域,将其明细数据进行打印,以此快速有效查询不同数据源的详细统计结果。基于Excel 图表进行数据展示,例如运用柱形图展示在线学习者学习数据与学习时间的变化关系,利用饼图显示某一数值在总数值中的占比,利用折线图反应相同时间间隔下的数据变化趋势,借助散点图呈现数据分布状况,用于以图表形式展现复杂的可视化数据。
1.3.2 基于Tableau 的数据展现
在利用Excel 实现数据图表可视化的基础上,基于Tableau 软件的拖放式界面丰富数据的可视化呈现效果,在较短时间内即可建立交互式、可视化图表,供使用者选取色调搭配方式、连接多种数据源,完成对海量在线学习数据的整合、钻取、筛选与利用。Tableau 主要利用以下三种方式进行数据的可视化呈现:其一是工作表,工作表的操作界面近似数据透视表,但具有更强的交互性,仅需使用简单的拖放操作即可实现数据突出显示,改变数据分析内容与数据呈现方式,还可以利用地图形式呈现出在线学习者的生源地信息;其二是仪表板,围绕不同角度、依照一定方式将多个工作表进行组合、布局,用于呈现出数据间的关系与逻辑内涵;其三是故事板,按顺序排列工作表或仪表板并构成集合。Tableau 还可利用本机数据连接器连接Excel 数据源、Tableau 图表等多种类型的数据源,并呈现出向下钻取的视图。例如在获取到某一学习者在单位学期内的在线学习数据后,还可以向下钻取得到该学习者的每月、每周、每日学习数据,获取更细颗粒度级的统计结果[2]。
2 在线教育平台学习行为数据的可视化分析结果
以MOOC 在线学习网站开放的2018-2019年学生在线学习行为记录数据集作为研究数据,利用逗号分隔值(.CSV)文件进行数据集的保存,共涵盖10 类学科、239 门课程的32.5 万条在线学习行为数据。
2.1 学习者基础信息分析
MOOC 作为一个开放性在线网络学习平台,其平台建构的特征便是打破传统线下学习模式在时间、地点、人数上存在的局限,为海量学习者提供不同学科的课程资源信息,满足学习者的个性化学习需求。
2.1.1 地域分布
通过观察学习者地域分布的可视化结果可以发现,该平台的学习者来自223 个国家及地区,利用Tableau 软件内置的地图服务器针对不同学习者所处地域位置数据关联出相应的经纬度坐标数值,并将字段拖放至视图中,即可完成学习者地域分布地图的创建。以我国学习者的地域分布情况为例,可观察到分布人数最多的城市分别为北京、上海、广州、重庆、武汉,这些省市的高校数量较多、分布较为密集,符合我国现阶段MOOC 平台的学习群体分布情况。
2.1.2 年龄与学历水平分布
通过观察学习者学历水平分布的可视化结果可以发现,该平台的学习者中硕士学历人数占比为36.4%、大学本科学历人数占比为42.5%、博士人群占比为7.4%;从学习者的年龄分布情况来看,多数在线学习者的年龄集中于20-28 岁区间内,28-40 岁年龄段用户人数次之,符合MOOC 平台以在校大学生为核心用户的平台定位特征,并且也有部分白领阶层群体利用MOOC 平台开展业务学习活动、满足自身的充电需求。
2.1.3 课程类型
以国内某一知名高校的“学堂在线”学习平台为例,该平台共涵盖38 门课程,其中理工科课程为21 门、文科类课程为17 门。通过观察不同类型课程的选课人次可视化结果可以发现,该平台学习者中选取理工科课程的人数占比37.51%、选取文科类课程人数占比62.49%。从中可以看出,文科类课程的受欢迎度要显著高于理工科类课程,这与MOOC 平台的课外知识补充属性相契合,其中诸如“心理学概论”、“中国建筑史”等课程因门槛较低、实用度较高而备受用户欢迎。
利用Tableau 软件的仪表板功能可实现多张工作表的整合,构建交互化图表。例如将在线学习者的地域分布图、学历分布图、年龄分布图、课程类型分布区放置在同一仪表板中,点击任何一个省市即可直观看到该省在线学习者的学历层次、年龄状况与课程选择偏好,供教育者分析不同课程的受众群体与受欢迎度,以此作为课程修正与调整的参考依据[3]。
2.2 学习者学习行为的聚类分析
由于MOOC 学习平台的适用群体为具备一定专业基础知识、良好自学能力与自控力的学习者,不同学习者的学习行为、学习风格存在显著,因此需完成学习者类别的划分,注重观察不同类别学习者的学习特征、学习状态,以此为教学决策提供有价值参考信息。在此采用聚类分析法进行学习者学习行为分析,利用Tableau 软件中的集群统计功能,选取k-means 均值统计分析法,该方法具有功能齐全、用户界面友好、成本经济等特点,仅需执行拖放字段等简单操作即可完成聚类分析。本文选用模块完成比例、模块浏览量、学习交互数量、讨论区发帖数量四项内容组建聚类中心,针对数据集进行分析,依靠系统自动判断确定聚类的k 值,在剔除无效数据后生成3 类群集,获取到聚类分析结果[4]。其中Ⅰ、Ⅱ、Ⅲ三类学习者的人数分别为508 人、272 人、61 人,三类学习者在讨论区发帖数量方面的差距较小,在模块完成比例、模块浏览量、学习交互数量三方面的学习行为差距较大。
第Ⅰ类学习者模块完成比例的均值为5.0%、模块浏览量的均值为26.140、学习交互总数量为244.30,总体来看三项学习行为的数值均偏低,因此可将第Ⅰ类学习者定义为半途而废型学习者,从时间维度来看其学习行为主要集中发生于课程学习前期,伴随时间延长坚持学习的人数逐渐减少,且其学习行为局限于浏览课程视频,较少完成作业与测试。第Ⅱ类学习者模块完成比例的均值为10.12%、模块浏览量的均值为96.97、学习交互总数量为270.10,总体来看三项学习行为的数值居中,其平均发帖数量为2.42、在三类集群中占据最高值,由此可将第Ⅱ类学习者定义为观察学习者,这类群体往往倾向于浏览模块内容,在课程作业方面的完成度一般,但其学习探讨热情较为高涨。第Ⅲ类学习者模块完成比例为45.86%、模块浏览量均值为99.97%、学习交互总数量为594.09,因此可将第Ⅲ类学习者定义为坚持型学习者,这类群体在线上学习过程中的学习目标明确、参与度较高,具备良好的自主学习能力与自控力,但在讨论上的积极性较弱。将学习者行为的聚类分析结果进行可视化处理,利用三种颜色分别标注三类群集的图像信息,进一步提高人眼采集信息速度、增强可视化分析效果。
2.3 学习者类型与学习成果分析
将三类学习者的在线学习行为可视化分析结果进行汇总,从中可以发现不同类型学习者的学习行为存在显著的差异性,但学习成绩、模块完成率仍是评价学习者学习成果的重要指标。通过将Ⅰ、Ⅱ、Ⅲ类学习者的均分进行比较可以发现,第Ⅰ类学习者的均分为0.1666、第Ⅱ类学习者均分为0.4888、第Ⅲ类学习者均分为0.7265,由此可以看出该MOOC 在线学习平台的学习任务完成度较低、退出率较高,成为该平台未来改进的重点方向。总体来看,在线学习平台中涵盖了海量的学习者学习行为数据,从中可以直观展现出学习者在地域分布、学历水平、年龄层次、学习行为等方面存在的差异性特征,利用Tableau 软件可将数据转化为有价值信息,完成学习者群组的划分,适用于针对不同类型学习者的学习行为、学习状态进行归类分析,为教学决策提供重要参考。
3 结论
教育数据挖掘与学习分析是预测学习者未来学习趋势的重要手段,其分析预测结果对于课程教学体系的修正与完善具有积极指导意义。通过运用Tableau 的可视化分析功能可以直观呈现出在线教育网站学习者在学历背景、学习行为、学习状态等方面的特征,为在线学习分析领域的研究提供了重要的参考价值。