基于MOOC开放数据集的学习行为分析
2019-11-27耿彧,白涛
耿 彧,白 涛
1 锦州医科大学健康管理学院, 辽宁 锦州 121000;2 辽阳职业技术学院成教分院, 辽宁 辽阳 111004
高等教育不仅是培养社会高素质人才的主要途径,也是科技发展和社会进步的主要源动力。十八届三中全会明确提出了“深化教育领域综合改革”的总体目标[1],预示着高等教育步入了全面深化改革的攻坚阶段,教学改革是其中最重要的环节之一。传统的高等教育模式严重地束缚了学习者的自主学习能力和创新能力,无法显著地提高教学效果和教学质量。然而,互联网技术的快速发展为高等教育改革提供了新的平台与契机,在“互联网+”教育背景下,微课、MOOC、SPOC、雨课堂等教学模式应运而生,打破了传统教育的时空束缚,为教育教学提供了全新的体系与架构。网络成为教与学的主要平台,信息在互联网上流动,知识在互联网上重构,线下活动成为线上活动的补充与拓展[2]。同时,网络为教育赋予了新的生命力,其优势在于实现了网络平台与教学资源的整合;名师等优质教育资源得到充分利用;虚拟教室激发了学习者的创造力;碎片化的学习时间与学习内容得到了有效管理和关联。尤其是通过网络学习可以采集学习者的学习行为数据,对此数据进行有效地分析,可为教学设计提供参考与指导。
目前,针对MOOC平台产生的海量学习数据,国内外学者已开展了学习行为的相关研究。Adamopo- ulos针对6个平台、30所大学、133门课程的相关数据实现了影响MOOC学生保有率的因素及程度分析[3];贾积有针对Coursera平台上北京大学6门课程、82 352位注册学生的学习行为数据进行分析[4];蒋卓轩基于学习行为的特征分析预测能否获得证书并发现潜在的认真学习者[5];王梦倩等综述了MOOC学习者特征的聚类分析技术[6]。为了更好地探索在线教育,该文基于kaggle网站上提供的edX开放数据集,首先利用主成分分析方法获知影响学习效果的主导因素,然后分别从学习行为、学习者信息和学习者类型三个方面具体分析和探讨。
1 数据分析
1.1 数据集
MOOC是一种大规模开放式在线课程,它汇集了来自不同国家、不同层次的大量学习者,由此可从MO- OC学习平台中采集到与学习者相关的海量数据,这些数据具有不断增长的数据规模、持续加快的数据生成和分析速率以及不断扩大的来源、格式和形式[7]的特性。如何利用教学过程中形成的实时、诊断性数据来提升学习效果,是高等教育改革践行中需要深思的问题。
哈佛大学(HarvardX)和麻省理工学院(MITx)联合发布了2012年和2013年edX平台的开放数据集[8],其中包含了13门课程的419 620个样本。通过对此数据集的分析与研究,可为MOOC和SPOC等在线教学模式的实施、教学计划与教学大纲的合理设计提供参考依据。此数据集中包含的属性大致可分为四类[9]:
①课程信息:课程名(course_id),用户编号(us- erid_DI);
②学习者基本信息:国家(final_cc_cname_DI),学历(LoE_DI),性别(gender),年龄(age);
③学习者类型信息:一般学习者(viewed),积极学习者(explorer),获得证书者(certified),学习等级(gr- ade);
④学习行为信息:学习开始时间(start_time_DI),学习结束时间(last_event_DI),课程交互次数(nev- ents),学习访问天数(ndays_act),播放视频次数(npl- ay_video),学习章节数(nchapters),发贴数(nforum_posts)。其中,课程交互次数指学习者登陆学习帐号的次数;发贴数指学习者在讨论区和论坛等板块发言的次数。
1.2 学习行为的主成分分析
对edX开放数据集初步分析,学习效果影响因素有:国家、学历、性别、年龄、学习等级、课程交互次数、学习访问次数、播放视频次数、学习章节数、发贴数。将这十个因素均考虑在内,进行主成分分析,从数据中分析出哪些影响因素取决定性作用,且影响因素的重要性级别如何。分析结果如表1所示。
表1 主成分分析结果
从表1中累积贡献率可以看出,成分1~6的累积贡献率可达到84%以上,基本可表达出全部信息。主成分1对应学习行为信息,称为学习行为因子。根据权值的大小将重要性排序为学习访问天数、交互次数、学习等级、学习章节数、播放视频次数、发贴数。由此得出结论,取得良好学习效果的前提是保证足够的学习时间,并且要有积极的学习态度,在讨论与练习中巩固所学知识。此外,知识是前后衔接的,只有完整的知识体系才能达到良好的学习效果,所以学习足够的章节数也是取得好成绩的一个重要保障。主成分2与学习者基本信息密切相关,称为学生信息因子。其中,国家与年龄对成绩的影响最大,说明越重视教育的国家MOOC课程学习水平越高。
进一步,画出主成分的碎石图,如图1所示。碎石图很好地反映出主成分1在MOOC教学模式中的作用,即学习效果主要取决于学习行为。
图1 主成分的碎石图
主成分3~6分别反映了学习者信息与学习行为之间的关系。将主成分1(Comp.1)和主成分2(Co- mp.2)作主成分回归,结果如下:
通过t分布和F统计量检验,都具有很高的显著性。即回归系数和回归方程均通过检验,得到回归方程如下:
Y=0.03573+0.0808Z1*-0.001438Z2*
1.3 学习者信息分析
1.3.1国别分析全世界30多个国家的学习者参与到edX平台的MOOC课程学习中,根据注册人数和获得证书比例进行统计分析。从图2可见,美国参与MOOC课程学习的人数最多,超过10万人,但获得证书的比例仅为2.8%,说明了美国对MOOC学习有高度的认可性,获得证书比例小可能是部分学习者的目的并不在于是否获得证书。若将各国的发达程度及教育水平因素进行综合考虑,也可反映出发达国家的教育具有一定的优势。据文献分析[10],中国高校学生半数以上对MOOC教学模式没有认知,约20%的学生仅注册过1门课程,且花费在MOOC上的学习时间少之又少。
图2 国别与获得证书的关系分析
1.3.2学历分析教育背景对MOOC教学模式的选择和获得证书比例具有一定的影响力。从图3可见,MOOC课程学习的人群绝大部分集中于本科教育阶段或已具有学士学位的学习者,反映了MOOC平台提供的课程侧重基础理论知识,更适合于本科教育。博士与中学层次以下的两个阶段学习者占比极小,约为1%。说明博士学习者专注某一领域的深入研究,已熟知与研究相关的基础理论;中学层次以下的学习者更关注数理化等基础学科的学习,还无法达到专业知识的学习水平。
图3 学历与获得证书的关系分析
1.3.3性别分析对MOOC学习者按性别进行统计分析,由图4可见,参与MOOC学习的男性与女性比例为3∶1,从获得证书人数来看,男性与女性的比例约为2∶1。但是,男性获得证书人数占男性学习人数的比例与女性获得证书人数占女性学习人数的比例相当,甚至略为低些。由此可以表明,性别并不是获得证书的必要因素。
图4 性别与获得证书的关系分析
1.3.4年龄分析将学习者分为获得证书与未获得证书两类,分析两类学习者的年龄分布情况。结果显示,两类学习主体的平均年龄都集中于20~30岁之间,也正是接受本科教育的阶段。对于未获证书人群来说,年龄跨度更大,超过60岁以上的学习者主要分布于美国、澳大利亚、希腊和印度4个国家,从某种程度上反映了这些国家网络教育的普及度更高。
1.4 学习者类型分析
学习者分为一般学习者、积极学习者和获得证书者三种类型。70%的注册学习者能够完成所选课程的学习。对已注册但学习行为各项指标都较低的学习者可以称为体验学习者,约占注册人数的30%。一般学习者中约有50%的学习者学习积极性和主动性不足,整体学习效果欠佳。积极学习者不但登录学习次数多,面且能够积极参与交流互动,50%左右的积极学习者最终能获得证书。
能够参与MOOC课程的学习者都具有较高的学习积极性和求知欲,同时,能够获得证书的学习者通常具备较强的自主学习能力,通过图5分析获得证书者与学习行为间的关系。图5(a)为是否获得证书与课程交互次数间的关系,未能取得证书的学习者课程交互次数在20 000以下,获得证书的学习者交互次数可达到30 000~40 000次,充分说明了善于思考,发现问题与提出问题,并积极参与师生互动及学习者间的讨论,可使知识得到不断强化和提高。图5(b)为获得证书与学习访问天数间的关系,知识的理解需要一个过程,网络资源最大的优势可实现知识再现,在反复地观看视频讲解中参悟知识点的内涵,使重点与难点不再成为知识学习过程中的拦路虎。图5(c)为获得证书者与学习等级间关系,当学习等级高于0.8以上时,说明学习者已经很好地掌握了所学知识,并能够达到灵活运用的阶段,所以获得证书是毋庸置疑的。反之,当学习等级较低时,只表明对知识达到初步了解,并无法真正融会贯通。图5(d)为获得证书者与播放视频次数间的关系,从图中可见,播放视频次数与能否获得证书没有直接关系,这充分说明,播放时长与学习效果不是成正比关系的,学习中注重的是学习效率。由此,需要在观看视频的过程中加强概括知识与总结问题的能力,提高学习效率。图5(e)和图5(f)分别为未获得证书者与获得证书者与学习章节数的关系,横坐标轴为章节数目。从图中可见,未获得证书者学习的章节数较少,基本低于10,而获得证书者学习的章节数集中于10~20之间,部分超过30以上。由此表明,章节数目的学习多少代表了学习者的学习态度与投入的学习时间与精力。学习是个循序渐进的过程,只有学习更多的章节内容,才能更全面地了解课程体系和搭建完整的知识框架。
2 总结
互联网技术的飞速发展为探索新的教育模式提供了机遇与空间。世界范围内每年参与MOOC课程学习的人数较多,据资料统计,整体通过率低于2%,10%以上的课程通过率低于10%[11]。由此可见,以在线学习为主的教学模式更加依赖于学习者的自主学习能力及学习行为,只有合理安排学习时间,充分利用网络资源,养成良好的学习行为才能达到优质的教学效果。
教学效果是反映教学质量的一个重要指标,良好的教学效果同教与学两个环节密不可分。各种各样的教学模式改革宗旨都是提升教学效果,通过在线学习数据的分析,更好地探究学生认知过程和学习过程,真正做到教学相长,使线上学习成为传统课堂的延伸。由此可见,数据信息越丰富,在进行定性与定量分析时越容易挖掘出有用的信息,不但能了解学生学习特点,还要分析放弃课程的首要原因。如学生信息中加入学校层次、专业、爱好、课程评价等属性。MOOC课程更注重学习主动性,具有积极学习目标的学习者才能享受到MOOC带来的无国界、无时空等优势。因此,MOOC教学模式并不适合所有的学习者。
图5 获得证书者与学习行为间的关系图
MOOC虽是开放性平台,但因各类院校的学生特点、专业特点及培养目标等差异使其并不具备普适性。专业特点较强的院校应该建立自己的MOOC平台。对于我国而言,MOOC教育在国内知名学校开展较为突出,如清华大学、北京大学等,部分高校仍处于认知和摸索阶段,还需在深度与广度两个层面进行研究,不能仅局限于高校,而应面向社会各类从业人员,真正做到资源共享,实现活到老、学到老的教育理念。