开放课程中的学习行为分析:来自Google Analytics的证据
2017-05-30罗恒杨婷婷等
罗恒杨 婷婷等
摘要:开放课程是开放教育资源运动的重要组成部分,对促进社会知识传播、推动教育全球化、实现教育公平有着重要意义。然而目前人们对开放课程中学习者社群及其学习行为的认识不够客观、全面和深入,缺乏基于实证数据的结论与发现。针对该研究需求,该文利用Google Analytics网站流量分析工具对宾夕法尼亚州立大学一门开放课程中长达六年的网站流量数据进行了收集与分析,通过对学习者特征、在线学习行为和技术设备使用情况的统计和可视化呈现,揭示了高校开放课程中学习者社群和学习行为总体特点和衍变趋势。同时该文也探讨了利用Google Analytics工具进行学习行为分析的利弊。该文中呈现的在线学习行为统计结论能增进人们对开放课程这种新兴教学情境的了解,指导人们对在线课程网站和资源进行有针对性地评价与修改。
关键词:开放课程;学习行为分析;网站流量分析;学习分析;Google Analytics
中图分类号:G434 文献标识码:A
一、引言
近年来,全球教育发展的重要趋势之一是教育资源的开放共享。利用信息与通信技术为全球学习者提供可公开获取的免费教育资源用于非营利性的咨询、使用和改编,是开放教育资源(Open Educational Resource,OER)运动的初衷。开放课程是OER的重要组成部分,对促进社会知识传播、推动教育全球化、实现教育公平起着重要作用。以麻省理工学院(MIT)为例,自2001年该校启动“开放课程项目”(Open Course Ware,OCW)以来,至今共有2369门课程向公众开放,获得了超过2亿次的全球访问。在OCW的示范作用下,越来越多的大学课程打破了校际壁垒,将课程内容免费发布,联网共享。然而,课程开放的同时也增加了在线学习的未知性和不确定性,给学习行为监控和学习效果评估带来了新的挑战。如何全面跟踪、分析和评价开放课程中的学习行为,为课程的改进和完善提供科学依据,是开放课程建设中亟需解决的重要问题。
网站流量分析(Web Analytics)为开放课程中的学习行为分析提供了一种便捷易行的技术手段。通过抓取网站用户浏览、交互和搜索的相关数据,网站流量分析能够揭示典型用户群体及其在线行为的一些关键信息,如地理分布、语言使用、兴趣爱好、浏览习惯和上网时长等,因此被广泛的应用于商业机构或政府部门的网站建设中,为改善网站表现、实现组织目标提供数据支持。近年来,网站流量分析也被越来越多的应用在教育领域,用来动态地收集和分析在线学习过程中产生的种种数据。这些数据如果包含关于学习者、学习行为和学习环境的特征信息,也可看作学习分析(Learning Analytics),能为我们深入了解在线学习过程、改善在线学习体验提供有价值的视角和观点。
在当今市场存在的多种网站流量分析工具中,应用最广的无疑是谷歌公司的Google Analytic产品。许多大学认识到Google Analyties的强大的数据分析功能和可视化呈现手段,将其作为追踪和分析旗下网站资源访问流量的首选工具,然而目前在利用Google Analytics工具对在线教育探索实践中,明显存在以下两点问题:首先,针对大学开放课程的实证研究比较匮乏。我们用“Google Analytics”和“谷歌分析”为关键词在中国知网上检索,只发现了5篇相关论文发表在教育类学术期刊上,且研究对象为教育资源网站[22][231、校园门户网站。和期刊门户网站。第二,缺乏对开放课程网站长期的追踪分析。现有研究中收集和分析的流量数据期限较短,长的一般不超过一年,短的只有几个月。由于缺乏来自网站流量分析的实证支持,目前对于开放课程中学习者社群及其学习行为的认识往往停留在主观评价阶段,不够客观、全面和准确。
基于上述研究需求,我们以本文第一作者参与设计开发,第三作者主讲的一门在线开放课程为例,探索了利用Google Analytics工具对开放课程中学习行为进行追踪、分析和评价的可行性。研究结果来自近六年的课程网站流量数据,有助于我们深入了解开放课程中学习者、学习行为和学习环境的特征和衍变趋势,对大学在线教育资源和课程网站的设计与开发也有指导意义。具体来说,本研究旨在回答以下几个研究问题:
1.该开放课程中的学习者有哪些?他们有什么特征?
2.该开放课程中的在线学习行为有哪些模式?受哪些因素影响?
3.该开放课程中的学习设备与技术的使用有何特点?有哪些衍变趋势?
二、Google Analytics概述
Google Analytics是美国谷歌公司提供的一种网站流量分析服务,通过追踪和分析网站的访问记录为网站用户及其在线浏览行为提供关键统计数据和多种可视化表征。其前身是一款名为Urchin on Demand的网站流量分析工具,该工具于2005年被谷歌公司收购,经过重新设计开发后,于同年更名为Google Analytics,并由谷歌公司正式发布并沿用至今。Google Analytics采用了網页标记(Page Tagging)的方法收集网站流量数据:向待分析的网页中插入一行Java脚本代码即可在每一次网页访问结束后向谷歌服务器发送该次访问中的统计数据。和传统的基于网站日志文件分析的方法相比,Google Analytics能够进行更迅速、便捷和高效的网站流量分析,以及提供“用户在线行为更加完整的画像”。
Google Analytics收集到的网站流量数据可以分为四大类:受众群体数据(Audience Data)、行为数据(behavior data)、流量获取数据Acquisition Data)与实时数据(Real-time Data)。值得注意的是这四类数据并不是完全独立于彼此,而是有一定的交叉与重合,一些流量数据被收录到不同类别进行了重复报告。现将每一类网站流量数据的定义简介如下:
1.受众群体数据:此类数据能提供网站访问者的一些关键信息,包括访问者的地理位置与主要语言、上网技术设备信息(如浏览器品牌、终端设备信息和操作系统等)、活跃状态(包括7天、14天和30天的活跃状态)以及一些用户行为统计如会话数(既访问次数)、新会话百分比(既有多少次访问首次访问)、平均浏览页数及会话时长等。
2.行为数据:此类数据反映了访问者浏览网站、与网页进行交互的行为概况,并提供一系列在线行为统计指标如网页总浏览量、唯一身份浏览量、跳出率(未与网页进行互动的单页会话次数百分比)、以及热门事件(如下载、观看视频、外链及发邮件)的次数与比例。此外,访问者与网页交互的顺序与浏览路径还能以行为流的方式呈现,并能针对不同的用户群组分类对相应的行为流进行高亮标示。
3.流量获取数据:此类数据聚焦用户访问目标网站的渠道。渠道来源共分四大类,分别是有机搜索、网址键入、外部链接与社交网络。对应的数据信息包括常用搜索引擎、搜索关键词、外链网页和社交媒体平台及其使用情况。受众群体和在线行为相关数据可以按照流量获取渠道进行分类展示与比较。
4.实时数据:实时数据展示访问者浏览网站的实时情况,相关数据将会持续动态地更新。它标示当前目标网站上的活跃用户及其地理分布情况,同时显示过去30分钟内的活跃网页、热门事件与媒介来源。
Google Analytics同时提供了多种工具对网站流量进行可视化的呈现,以帮助用户更好地理解和解读收集到的海量数据。这些可视化工具包括:(1)线型图:用来展现特定流量数据在时间序列上的变化情况;(2)效果图:用条形长度比例呈现不同组别数据的差异;(3)百分比图:用圆形中扇区面积展示不同组别数据所占整体的百分比大小;(4)地理分布图:在世界地图上以不同的维度如城市、国家、次大陆等展示地理位置信息;(5)行为流:呈现网站访问者浏览网站页面的顺序与路径;(6)比较图:将某一组别的数据统计与总体均值进行比较;(7)动态图:在时间序列上通过自定义横坐标值、纵坐标值、颜色表征和大小一次性呈现网站流量统计的四个维度指标的动态变化;(8)字词云:通过字体大小反映搜索关键词和外链网站名称出现的频率高低,字体越大表明词频越高;(9)页面分析图:通过浏览器拓展程序插件,将特定流量数据如点击率在网页上以百分比标注和热区图形式直观显示出来。
综上所述,Google Analytics为分析网站访问者在线浏览行为提供了一个更为便捷和直观的手段,能够灵活地追踪和可视化地呈现不同类别的网站流量数据,包括访问者的地理位置和语言、重要浏览统计指标、关键事件分类、浏览交互路径以及技术设备使用情况。另外,Google Analytics还能够通过自定义数据统计表格和分析报告模板,帮助用户寻找网站访问者在线行为的模式特征与变化趋势。值得注意的是,Google Analytics禁止收集任何个人可识别信息(Personal Identifiable Information,PII),包括姓名、学号、电子邮箱等,同时也默认不会追踪电子设备的可识别信息如设备唯一识别码(UDID)或国际移动装备辨识码(IMEI)。尽管设备的完整IP地址将会被Google Analytics收集以识别网站访问者的地理位置,访问者可以申请开启IP屏蔽来提升自身访问的匿名性。
三、研究方法
(一)开放课程个案简介
本研究选取宾夕法尼亚州立大学地理系开设的一门在线研究生课程作为研究对象,这门在线课程名为Earth501一地球科学中的争议话题,本文的第一作者曾参与该课程的开发与评估,第三作者是课程的主讲教师。基于两点考虑将其作为本研究的分析对象:第一,该课程体现了较好的在线开放性,课程中100%的学习活动都是线上完成;第二,该课程具有分布较为广泛的全球访问量。这个3学分的课程通过介绍地球科学领域的争议话题如海啸和地震的预警机制、恐龙灭绝假说以及全球气温变暖现象,讲解地球科学的主要理论学说和研究范式,同时引导学生对争议观点进行分析、评价和理论完善。该课程是地球科学教育在线硕士专业的入门必修课之一。作为宾夕法尼亚州立大学开放教育资源运动的一部分,该课程于2011年9月在Drupal开源内容管理平台上对全球在线学习者免费开放,并使用Google Analytics对课程网站的访问情况追踪分析,迄今已经积累了约6年的网站流量数据。无论是该校的注册学生还是普通访问者都能够免费获取该课程的全部教学内容和链接资源,并参与完成课程中的在线练习与测验。唯一不同的是,只有注册学生才能在宾夕法尼亚州立大学的学习管理平台(Angel或Canvas)上提交作业,获得教师的评分与反馈,并最终获得大学的学分。
(二)数据来源与分析
应用Google Analytics,本研究追踪了该课程网站在2011年9月1日至2017年4月15日间的访问情况,并根据之前提出的针对开放课程学习行为的三个研究问题,收集和分析了相关网站流量数据。这些数据可以大致分为三类:学习者、学习行为和技术使用。
下表中列出了每一类数据所包涵的核心构念、定义、测量指标和可视化呈现手段。
四、研究发现
(一)开放课程中的学习者特征
如下页图1所示,截至2017年4月15日共有148629人次在线访问了Earth501课程,学习者的地理位置分布广泛,相對较集中的区域包括美国的东西两岸、欧洲中北部、亚洲的印度和东南亚地区、以及澳洲的东南部;其中学习者来源最多的五个国家分别是美国(48 40%)、英国(11.14%)、澳大利亚(5.72%)、菲律宾(5.32%)和印度(4.98%)。这些国家与地区大部分以英语为母语或官方语言,因此英语不出意外地成为了课程学习者的主要使用语言,占比高达92.01%(美式、英式、澳洲和其他英语类型累计相加后的百分比)。除英语外,西班牙语(0.63%)、捷克语(0.60%)和简体中文(0.50%)三种语言的使用人数相对较多,不过占比都没有超过学习者总数的1%(如图1所示)。因为课程网站并未开启Google Analytics的广告功能,我们不能获得基于用户账户信息及浏览偏好所生成的网站受众特征报告,因此该课程学习者的其他特征如年龄、性别与兴趣爱好无法在Google Analytics的分析报告中获得。
(二)开放课程中的学习行为分析
如图2所示,Earth501课程的学习者在2011年9月1日至2017年4月15日间一共浏览了课程网页223558次,如果不计人学习者在一次访问(会话)中对单个页面的重复加载,则共有194338个页面在不同的访问次数中被加载。网页浏览量在美国大学假期尤其是寒假(12月下旬至1月初)有显著的下降趋势,但往往在春季、秋季学期中段(如3月份和10月份)达到顶峰,学习行为呈现了明显的周期性。尽管学习者在课程网页的平均停留时间有3分27秒,但高达83.31%的跳出率表明超过八成的网站访问在浏览了一个页面之后就匆匆结束了。一个可能的解释是少数的学习者贡献了大部分的学习时间,而大多数的学习者在课程网站上的学习缺乏深度,浅尝则止。为了验证该假说,我们以2016年秋季学期(2016年8月15日至12月26日)作为一个学习周期进行分析,调取了Google Analytics中的活跃用户报告。结果表明尽管该学期课程网站的来访用户数量为10590位,但活跃的用户却占比极少,其中30天内、14天内、7天内和每天的活跃用户数量和占比分别是2272(21.45%1、980(9.25%)、376(3.55%)和61(0.58%)。
为了探索不同国家学习者的学习行为差异,我们比较了来访次数最多的十个国家的在线学习数据。其中来自美国学习者的学习投入程度最高,平均会话时长为2分36秒(全球均值为1分48秒),单次浏览的网页数为3.12个(全球均值为1.78个),并且跳出率也是最低的,仅为69.53%,低于83.31%的平均值。相比较而言,来自马来西亚的学习者的投入程度是排名前十国家最低,平均会话时长为51秒,访问网页数为1.28个,并有高达90.04%的跳出率。来自中国大陆的访问共有395次,排名第34位,不过中国大陆的学习者平均每次访问时间为2分03秒,单次浏览页数为1.97个,跳出率为78.62%,均高于全球平均值,展示了较好的学习投入度。
图2也展示了学习者获取开放课程网站的常见途径:来自谷歌搜索的有机访问是最常见的网站获取途径,有80.55%的来访流量来源于谷歌搜索界面的跳转。除此之外,在浏览器键入URL地址的直接访问方式是第二常见的获取途径,有8.73%的来访流量来源于此。排名第三和第四的获取途径分别是来自宾州州立大学学习管理平台(cms.psu.edu)的推介访问(流量占比1.68%)和来自微软必应搜索的有机访问(1.47%)。值得注意的是,来自学习管理平台的学习者跳出率仅为12.29%,单次浏览页数为4.61个,平均会话时长为15分06秒,显示了远高于其他学习者的学习投入度。一个可能的解释是这些访问全部来源于该课程的注册学生,因为只有注册学生才有权限登录该校的学习管理平台;而注册学生因为要通过课程考核获得学分,因而对课程学习更加重视,在线学习的时间也相对更多。
Google Analytics同时还提供了“行为流”和“页面分析”两种可视化工具呈现学习者与课程页面内容交互的概况。行为流按照访问频次列出学习者访问的起始页面以及之后数次互动的高频页面,能从宏观上展示学习者浏览网站的顺序,确定热门的网站人口和頁面内容;同时可以按照国家和地区的不同对访问流量进行分类展示,高亮显示不同国家地区学习者的浏览路径。如图3所示,大部分来自美国的访问并不是始于课程的主页页面,而是直接来自具体的课程页面:最热门的起始页面是第二课中的“海啸成因”单元,其次为第五课中“水的比热容”单元。同时我们注意到,起始页面之后的首次互动页面往往是起始页面所在课程单元的其他页面,而第二次互动大多又返回到起始页面,直到第三次互动学习者才开始浏览其他课程单元。学习者流失最严重的情况发生在首次互动时,流失率高达94%(17万次访问中16万次用户离开),而之后三次互动时的流失率则大大降低,分别为28%,39%和26%。这一发现和课程网站高达83.33%的跳出率一致,表明大多数学习者在访问课程网站时并没有与页面内容进行互动即离开了,而尝试打开至少一个页面的学习者则更有可能对课程内容进行更深入的探索。
与行为流不同,页面分析能对单个课程页面上的学习行为进行更直观、更细致地呈现。如图3所示,当选择“点击量”作为关键指标时,页面分析能够按照点击频次的多少对Earth501课程主页的内容进行颜色编码,标注出热门和冷门的链接内容,同时能够用气泡的方式呈现相关统计数据如点击率等。通过页面分析结果,我们发现课程主页右侧的课程单元列表获得了比上方导航条更多的点击率,而较热门的课程单元为第二、三、四次课,都获得了14%的点击率,而第一次课与最后一次课出人意料地获得了较低的点击(分别是7.7%和2.9%)。另一个有趣的发现是导航条上除主页按钮外的其他链接都获得了较低的点击率,其中课程导学和课程单元仅获得了1.1%和3.7%的点击,而课程大纲、CANVAS学习管理平台、外部资源等链接则更是鲜有问津,获得了不到1%的点击率。
(三)学习者的技术使用情况
获知学习者的技术使用情况有助于我们理解在线学习环境的特点和衍变趋势,探究软硬件因素与学习行为之间的关系,指导开放课程网站的设计与开发。Google Analytics能够收集多种技术使用指标包括设备品牌、屏幕分辨率和色度、网络服务运营商,flash与Java支持等,不过与在线学习行为关系最密切的指标是设备、浏览器和操作系统类别。在过去的6年中,尽管移动技术发展十分迅速,但电脑仍然是访问课程网站的最常见设备,约有82%的访问来自电脑端,而来自手机端和平板端的访问仅占13%和5%。电脑和平板上的平均访问时长(1分58秒和1分41秒)也要明显高于手机端(52秒)。使用最多的四种浏览器分别是Chrome(47.24%),Safari(19.1 1%),IE(14.68%)和Firefox(12.40%),但不同浏览器使用者的学习行为并没有明显差别。操作系统又可以分为电脑端操作系统和移动端操作系统。电脑端操作系统中微软的地位不可撼动,约有60%的访问来自Windows系统,相比之下,来自苹果的Macintosh系统的访问只有约18%。而在移动端,苹果的iOS系统与安卓系统则平分秋色,.占比分别为9.57%和7.10%。有趣的是,在电脑端Macintosh用户的学习投入各项指标(如跳转率,单次浏览页数,平均会话时长等)要略优于Windows用户,而在移动端的情况则恰好相反,iOS用户的学习投入指标普遍略低于安卓用户。
为了探究开放课程中学习者技术使用的衍变趋势,我们进一步比较了网站流量数据中第一年(2011年9月1日-2012年9月1日)和最后一年(2016年4月15日2017年4月15日)有关移动设备、浏览器和操作系统的使用情况。如下页图4所示,尽管电脑仍是最常用的学习终端设备,但发生在移动端上的学习正变得越来越普遍;与五年前相比,课程中来自手机端的访问比例从3.22%提升至21.2%,来自平板的访问比例从1.17%提升至4.73%。相应的,使用Windows操作系统的学习者较五年前有了大幅的下降(从78.9%降至51.2%),而使用移动端iOS和安卓系统的用户则有了大幅提升,平分了约25%的访问流量。使用苹果笔记本电脑Macintosh系统的用户没有太大变化。同时,我们注意到学习者使用浏览器的偏好也发生了较大改变;与五年前相比,Chrome浏览器赢得了更多用户的青睐,比例由28.7%增加到59.6%,而使用IE和Firefox浏览器的用户比例则从34.8%和22.1%锐减至现在5.5%和6.3%。使用苹果Safari的用户比例从11.8%上升到19.8%,显示了苹果用户逐年增加的趋势。
五、研究结论与启示
总结上述来自Google Analytics的研究分析结果,我们可以得出以下几点关于开放课程中学习行为的结论与启示。
(一)开放课程的学习者分布广泛,但学习总体上缺乏深度
经合组织在2007年教育研究与创新中心的报告中指出,开放教育运动能进一步消除正式教育与非正式教育的界限,推进教育在全球范围内的传播与分享。本文的研究发现支持该观点,所选开放课程中的学习者分布呈现出了明显的全球化趋势,同时课程学习人数远超课程注册人数,使开放课程中的学习具有了较强的非正式学习特征。然而课程网站较高的跳出率、较少的单次浏览页数、较短的平均访问时间和较少的活跃用户比例等指标表明开放学习行为总体上较为零散,缺乏系统性和深度。按照马红亮(2012)提出的基于Google Analytics的评价标准,该课程的开放性效果并不理想。Google Analytics提供的行为流和页面分析工具能够帮助我们找到访问频率和浏览时长较差的页面内容,从而进行有针对性的诊断和修改。
(二)不同学习者群体在开放课程中的学习行为有较大差异
Google Analytics在展现学习行为概况的同时也能提供一些细节信息,这些细节表明开放课程中的学习行为因人而异,不能一概而论。例如,我们发现来自美国本土,尤其是来自大学学习管理平台用户的学习投入程度要明显高于其他访问者。同时,约有1/5的学习者能够在学期中持续每月访问课程网站,其中有一小部分能够做到天天坚持,与课程网站的高跳出率形成了鲜明对比。这一现象与大规模网络公开课(MOOC)的研究发现一致,开放在线课程中活躍的学生只占极少数(5%-10%)。研究表明,学生的年龄、语言、学习目标、学位需求等都将显著影响其在开放在线学习中的投入程度,然而在不借助课程问卷和网站受众特征报告的情况下,Google Analytics只能对学习者的语言和学位需求情况做出推断,但无法获得其他特征信息从而对开放课程中的活跃学生社群进行更全面的画像。
(三)发生在移动端的学习行为显著增加,移动学习呈现出碎片化特点
根据2017年新媒体联盟《地平线报告》高教版的分析和预测,手机和平板等移动设备的普及正悄然改变着人们学习的方式与环境,移动学习技术将在未来1-2年内得到更为广泛的应用。本研究的发现支持该观点:开放课程中移动设备和操作系统的使用数据都表明过去一年内约有25%的学习行为发生在移动端,这一比例较五年前有了大幅提升。然而,移动端学习的投入度总体上低于电脑端学习,单次学习内容较少,学习时长较短,呈现出碎片化学习的特点。尽管碎片化学习有便捷、灵活和及时等优势,但随之而来的注意障碍、记忆障碍和思维障碍等认知问题亦不可忽视。如何开发适用于移动端访问的课程网站,既充分发挥移动技术的优势又能有效避免碎片化学习的弊端,是亟待解决的教学设计问题。
最后,本研究也揭示了使用Google Analytics进行在线学习行为分析的优势与局限。学习分析领域著名学者乔治·西蒙斯曾指出,学习分析的研究应该聚焦在两个关键问题上:数据从哪来以及数据怎么用。Google Analytics能够在一定程度上回答这两个问题,为分析在线学习行为提供了一种简易可行的技术手段。总的来说,Google Analytics能高效地从宏观层面展现学习过程的概况,并能够针对不同的学习者群体(如不同国家、语言、来源的学习者)对行为数据进行分类展示和排序比较。其关键统计指标如会话数、用户数、唯一身份浏览量、单次浏览页数、平均会话时长和跳出率等对学习分析的测量指标研究和模型构建有一定的指导意义。除了报告网站流量数据之外,Google Analytics还提供了多种实用的可视化工具,帮助用户理解数据的模式特征和发展趋势,从而更好地解读数据背后的意义。然而在微观层面上,用Google Analytics分析学习行为存在一定的局限性。其最大的问题是无法将收集到的网站流量数据和学习者个体对应起来,无法区分同一学习者在不同时间和不同终端上对课程网站的访问情况,无法为学习者生成个性化的学习分析报告。因为要保障采集数据的匿名性,GoogleAnalytics也不是收集学习者特征信息的最佳选择。尽管它能很好地采集地理位置、语言和技术设备等相关信息,但对学习者的性别、年龄、学历背景、学生身份等重要信息无法直接获取。综上所述,我们认为Coogle Analytics为宏观分析开放课程中学习行为提供了一种高效便捷的技术手段,但其自身的局限性使其无法对个体学习行为进行追踪、评价和预测,因此无法替代专业的学习管理与学习分析平台。