基于K-means的MOOC学习行为分析及用户画像研究*
2019-03-13王晓芳贾宗维
王晓芳,贾宗维
(1.晋中师范高等专科学校,山西 晋中 030600;2.山西农业大学 信息科学与工程学院,山西 太谷030801)
一、引言
2011年,美国斯坦福大学华裔教授吴恩达通过互联网上线了一门机器学习课程,吸引了全球近10万人参与学习。随后这种新兴的教育模式引起教育界广泛的关注,紧随其后在2012年一种对教育领域划时代的教育改革模式——大型开放在线课程(Massive Open Online Courses,即MOOC)诞生了。区别于传统教育模式,MOOC教育不受时间、空间、人数限制,在整合多种多媒体数字资源社交网络工具下,随时随地学习全球顶尖学府共享的优秀课程。[1]同年4月,麻省理工学院和哈佛大学共同创建了基于MOOC教育模式的edX免费在线学习平台。MOOC教育的发展从此走向快速发展的轨道,截至2018年3月全球已有800多所大学加入MOOC,上线9400门课程,注册学生数达8100万。[2]如此众多的MOOC课程产生了前所未有的教育大数据,对这些教育数据的分析挖掘,有助于教育工作者更好地改善教学方式和课程设计方案,同时也为学习者的个性化推荐、学习行为、群体画像提供了研究的可能。[3]本文正是基于此分析了edX平台课程在线教育数据,揭示了一些学习者的学习行为特点和群体分类。
二、相关工作
1.MOOC发展
MOOC教育模式是伴随着开放教育运动的发展而产生的。早在2008年加拿大学者Couros教授就在开放教育思潮下开设了一门基于YouTube和Twitter等社交软件与各类共享数字资源的网络在线课程。[4]从此传统资源型网络学习发生了翻天覆地的变化,学习者的在线学习呈现出的是一种全程参与式的教与学过程。伴随着师生之间、生生之间思想的聚集、碰撞和融合,一种新兴的教学形式产生了。我们称此类课程为连通主义支持下的课程,亦即cMOOC。
自MOOC诞生以来,全球陆续上线了数十种学习平台,尤以Coursera、edX、学堂在线、中国大学MOOC等国内外平台为代表,汇聚了众多知名学府的优秀课程资源,向全球8000多万学习者提供免费的教育资源。
2.MOOC学习行为
MOOC是一种面向网络的学习者只要注册就可免费使用的在线教育模式,其拥有类似于传统课堂教学的作业、测试和评估体系。一门MOOC课程通常在指定的时间段进行授课,在整个授课期间包含了多个教学环节,诸如浏览大纲、视频点播、阶段测试、作业提交、论坛互动、最终考试等。学习者在整个MOOC课程学习流程中,在初始的用户注册、每天登录、网页导航、点播视频(暂停、回放)、互动讨论、作业提交、页面滞留等事件中都留下了大量的学习痕迹并被学习平台所保存。大量的学习痕迹汇聚成教育大数据,对这些教育大数据进行分析挖掘,使分析学习者学习行为、改善教学方法和评估教学质量、发现潜在问题、优化师生教与学活动成为可能。
MOOC学习者学习行为分析就是对教育大数据的数据挖掘。[5]换言之,就是利用数据分析方法和数据挖掘技术,从海量的学习痕迹(学习日志)数据中发掘有价值的信息,为学习者的个性化学习、差异化学习、画像区分等提供强有力的数据支撑,同时不断优化师生教与学的活动历程,更有助于教与学规律的聚焦。
三、实验数据准备
1.数据集选取
2014年,哈佛大学和麻省理工学院联合发布了两校开设在edX平台上的MOOC课程数据集,整个数据集涵盖了两校2013学年 (2012年秋季、2013年春季和2013年夏季)的edX平台上16门课程的在线学习数据以及相关文档的数据。[6]这些数据中每条记录代表一个学习者在一门MOOC课程中的学习记录,涉及课程名、学习者ID号、国籍、学历、性别、出生年份等20项内容。整个数据集包含641138条记录,其中哈佛大学有338,223条,麻省理工学院有302,915条。同时数据集在公开前进行了一系列的去身份识别,以保护学习者的隐私和保证学习数据的真实有效。
2.数据预处理
为了保证数据结果更具说服力,通过Excel2010、IBM SPSS等工具对数据记录进行了判空、缺失值、无效值、异常值筛选等操作,从641,138条记录数据中最终获得学习行为日志信息472,652条。本文以上述数据为研究基础,进行MOOC学习行为分析。
四、数据分析
对于一个采用英语为主且面向全球学习者的edX教学平台,MOOC学习者的学习行为对不同的课程类型、国家、学历、年龄、性别都呈现差异化的表现,本节将从课程、国籍、年龄、性别等方面对平台学习者学习行为进行统计分析,并通过k-means聚类方法对学习者群体画像进行研究分析。
1.课程分析
edX平台公开数据集共涉及16门课程,各门课程的受众人数和获取课程证书人数反映了学习者对课程的喜好程度以及最终的学习情况,如图1所示。
图1 不同性别学习者及其获取证书比例对比
从图1可以看出,各门课程中男性学习者远多于女性学习者,纵观全局,发现女性学习者更倾向于选修诸如《古希腊英雄》、《正义》、《卫生统计》《人类健康与全球环境变化》文科类课程,而男性学习者对《计算机科学概论》、《计算机科学与编程导论》、《电路与电子》等理工类课程更感兴趣。对比各门课程获取证书的学习者占该门课程所有学习者的比例,发现大部分课程的证书获取比例维持在3%~4.5%之间,唯独《全球贫困的挑战》课程获取证书比例达8%,这可能是课程内容与人类面临的问题更相关,而且该门课程男女学习者人数基本相同。另外《固态化学》、《结构力学》等课程由于专业性较强,选课人数相对较少,其中学习者人数最少的是 《结构元件》,该课程主要是介绍有关可变形结构元件的力学行为,需要经典力学和微积分先修知识,这可能是造成学习者人数偏少的主要原因。
2.获取证书学习者学历分布
在众多获取证书学习者中,其受教育水平大致有低于高中水平、高中教育水平、本科教育水平、硕士、博士5个等级,对不同课程获取证书学历分布情况统计比例如图2所示。
图2 获取证书学习者学历分布比例
通过对16门课程的证书获取数据对比分析,发现本科、硕士教育经历的学习者在社会科学类课程占比很高,相反化学、计算机科学、力学类课程高中学历人群占比更高,这也反映了他们迫切希望获得大学课程的教育,进而提升个人知识素养。
3.国家类别分析
不同国家的学习者受文化背景、发展水平不同因素的影响,在MOOC课程中都有明显的不同反映。通过选取中国、美国、日本等14个国家的学习者进行数据分析,得出各国学习者分布情况,如图3所示。
图3 各国学习者分布
由图3可知,不同国家学习者男女比例与不同课程分布情况相似,女性学习者全部低于男性学习者,这和全球女性在不同国家的受教育程度存在差异有很大关系。此外所有学习者的平均年龄是28岁,中国、印度、哥伦比亚等国学习者的平均年龄为23~25岁,明显低于全球平均水平,可见发展中国家大多数参加工作人员很少再参与MOOC学习,反观英国、西班牙、日本、美国、加拿大、德国、澳大利亚等发达国家学习者平均年龄都超过27岁,美国甚至有近5000位60岁以上的学习者,反映了发达地区人员对MOOC教育的需求更为强烈,这些人中大多数是工作后继续学习,真可谓“活到老,学到老”。
五、学习行为K-means聚类分析
K-means聚类是一种典型的无监督聚类算法,通常是基于不同对象特征值间的相似度,来确定对象的归属问题。edX平台对不同学习者的学习行为痕迹进行了存储,学习行为的具体体现包括课程交互次数、课程访问天数、播放视频次数、学习章节数和论坛发帖数痕迹记录。通过对数据的进一步筛选、清洗,选取学习行为中的5种学习事件作为特征值进行聚类分析。
1.特征相似度计算
假设每个学习行为向量包含5个特征,即xi=(xi1,xi2,xi3,xi4,xi5), 则学习者 xi和 xj之间的相似度计算公式如下:
2.数据归一化
学习行为特征值之间的数据值域存在很大差异,如课程交互次数与论坛发帖数间呈现数十倍的差距,为了保证每个特征对相似度的影响处于相当的水平,各个特征之间的数量级应该是一致的。通过线性函数转换统一对特征取值进行归一化处理,使其取值全部介于[0,1]范围之间,计算公式如下:
其中:Xnorm为标准化处理后的取值,Xmax、Xmin分别为样本的最大、最小值。
3.群体画像分析
采用K-means算法对上述特征数据进行聚类分析,将K设置为3~6之间,分别进行多次聚类,在K取值为4时得到较好的聚类结果,此时的学习行为特征均值和各学习者群体获取证书情况如表1所示。
表1 各分类学习行为特征均值情况
通过对表1的分析,将MOOC学习者划分为四类群体——简单体验者、善于提问者、积极探索者和学霸型学习者。下面分别对这些群体画像进行比较分析:
第一类:此类群体占总学习者数的83.3%,平台账户注册后,只是偶尔登录进行简单的学习,课程结束时仅学习了部分课程内容,登录天数、学习互动、论坛发帖数远低于其他类别的学习者。此外,该类学习者考试成绩大多为0分,获取证书的人数只有0.8%,这类学习者从注册到课程结束几乎没有认真学习,学习效果极差,可以认为该类群体参与MOOC学习的初衷仅仅就是为了体验。因此,将其归为简单体验者。
第二类:此类群体在MOOC学习的过程中,论坛发帖数远高于其他几类,反映了这类群体对课程的先修知识较为缺乏,要想顺利地完成课程,必须求助于论坛解决,同时也反映了这类群体的学习热情高、目的性强、期望获取课程认证,虽然都坚持学习并参加了课程的考试,但效果一般,大多数没有达到获取证书的要求(成绩>0.5)。因此将其归为善于提问者。
第三类:此类群体在MOOC课程结束时几乎都完成了课程的章节学习,其互动次数、登录天数、视频播放数均处于中等水平,但论坛发帖数很少,反映了这类学习者知识掌握程度较好,很少借助论坛解决问题,但获取课程认证的目的明确,证书获取率达31%。这类学习者对学习充满热情,投入中等时间精力进行课程学习,学习效果良好,将其归为积极探索者。
第四类:此类群体的学习行为尤为突出,课程交互次数、课程访问天数、播放视频次数是前三类人员之和,且最终考试成绩均在80分以上,证书获取率高达81%,这类学习者属于学霸型。
六、结束语
不久的将来,以MOOC理念为主的新兴互联网教育定会成为继金融、游戏、社交、电商为主的互联网第五大产业,通过对MOOC学习者的学习行为进行研究,从课程、国家、年龄、性别等多角度对学习者的特点进行分析,既找到不同类型课程的学习者差异,也发现了不同国家学习者的文化背景和不同性别受教育程度的异同。此外,以学习行为特征为基础对MOOC学习者进行聚类分析,获取了特点鲜明的四类群体,这些研究反映了不同群体在MOOC教育中的兴趣关注、学习频率、学习习惯、学习目的等的差异,为MOOC的优化建设和持续发展提供了诸多有益的启示。