APP下载

基于SPOC平台日志数据的在线学习行为分析及其影响因素研究

2017-02-27

关键词:天数时段数据挖掘

孙 笑 微

(沈阳师范大学 科信软件学院, 沈阳 110034)

基于SPOC平台日志数据的在线学习行为分析及其影响因素研究

孙 笑 微

(沈阳师范大学 科信软件学院, 沈阳 110034)

MOOCs区别于传统的网络公开课和远程教育,是基于课程与教学论以及网络移动通讯技术发展起来的新兴在线课程模式。很多全球顶尖学府如哈佛大学、加州大学伯克利分校等也在尝试一种更加精致的课程类型----SPOC,SPOC教学模式保证了MOOCs在大学校园能够落地生根。利用SPOC的优势通过对学习者在线行为学习分析对网络课程大数据进行分析和研究,以提高教学质量、完善网络课程系统,既推动了大学的对外品牌效应,也提升了校内的教学质量,重新定义了教师的作用,创新了教学模式,赋予学生完整、深入的学习体验,提高了课程的完成率。对SPOC网络课程的在线学习行为分析和研究将大大推动教育测量和学习分析的发展, 促进教育质量的提升,但面临的挑战和困难也不容忽视。

MOOCs;SPOC; 大数据; 学习行为分析

0 引 言

大规模在线开放课程(MassiveOpenOnlineCourse,MOOC)是基于课程与教学论及网络和移动智能技术发展起来的新兴在线课程模式。2013年,哈佛大学、加州大学伯克利分校等全球顶尖名校开始跨越MOOC,尝试一种小而精的课程类型----SPOC。SPOC(SmallPrivateOnlineCourse小规模限制性在线课程)是由加州大学伯克利分校的阿曼德福克斯教授最早提出和使用的。Small和Private是相对于MOOC中的Massive和Open而言,Small是指学生规模一般在几十人到几百人,Private是指对学生设置限制性准入条件,达到要求的申请者才能被纳入SPOC课程。SPOC平台中存有大量的日志文件和真实可靠的实时数据,这些都为数据挖掘提供了保障。

本文所研究的基于SPOC的在线学习行为分析和影响因素研究是针对学习者在SPOC网络课堂环境中的各个学习环节,跟踪采集详细、精确的学习行为数据,包括登录时段的分配和登录时间的长短,以及看视频的时间长度、课堂测验的准确率和通过率等,这样的数据在传统实体课堂中是难以精确采集的。基于SPOC网络课程数据库的分析,首先打破了传统的教育测量模式,即标准化考试。但教师和未来的劳动力市场雇主并不了解学习者在整个学习过程中的表现,例如学习速度、领悟能力、与其他学习者的互动与合作等。SPOC网络课程所跟踪的数据则可以让教师更好地了解学习者的学习行为特征,让未来的雇主结合学习行为和学习结果更加全面地评估学习者。因此,SPOC平台可以应用此类教育测量结果为高校的教授和研究机构、业界的雇主等推荐人才。此外,这种对学习过程的评估极大的促进了学习行为分析和教育数据挖掘的发展和应用。

1 学习者在线学习行为分析

学习者在线学习行为分析主要基于SPOC平台对师生学习过程的记录数据,针对行为主体(教师、学生)的行为方式(登录、浏览资源、观看视频、发帖、做练习、测试)、行为客体(各类资源、网络课程模块)的被使用情况以及行为发生时间进行统计、可视化和各类挖掘,并结合师生的人口特征数据对影响在线学习行为的因素进行挖掘。目前已有的研究多是围绕在线学习行为描述影响因素分析及相关监控软件开发应用来展开。

从已有研究来看,不少研究通过教学平台网络日志分析来描述在线学习行为。谢伟奇采用数据挖掘方法对Web服务器日志和后台数据库进行挖掘[1],宋江春、陈文林利用Web使用挖掘技术来分析学生的访问行为、频度、内容、停留时间等[2]。袁明、陈伟杰以网络教育学院教学平台学习记录为挖掘对象进行分析研究[3]。肖爱平、蒋成凤指出在线学习的影响因素具体包括网络环境、课程资源、网上交互以及学习者自身的原因[4]。在线学习行为分析的实际应用就是建立在线学习行为监控系统[5-7]。

2 在线行为特点及其影响因素分析

基于网络日志所作的学习行为分析可以从学习时间、学习活动、学习资源、考试成绩等多个角度发现更多的学习行为特点;其影响因素分析还可以更加注重内在因素即学生自身因素的分析。

本文选取沈阳师范大学软件学院的专业必修课“数据结构”作为研究对象。“数据结构”是沈阳师范大学软件学院各专业本科生大二上学期的一门专业必修课,该课程配有文字教材和录像教材等资源,与该课程配套的网络课程也处在试点应用阶段。以2014—2015年度上学期(根据沈阳师范大学校历,2014—2015第1学期的起止时间是2014年8月25日—2015年1月18日,前后共计21周。课程时间为2014年8月25日—12月28日,共计126天,从2014年的第35周~第52周,共18周)为例,沈阳师范大学软件学院2013级本科生选修本课程学生和重修生共计434人,以这434名学生为研究样本,通过获取这些学生的在线学习行为记录和基本信息(如年龄、专业)来开展在线学习行为描述与影响因素分析研究。

通过登录行为后台日志数据表,可得到学生登录的基本情况信息,如表1所示。

表1 登录基本情况

下面分别以登录时间(时段为统计单位)作为分类字段,以统计各个时段学生的登录人次;以学生学号为分类字段,以统计各个时段学生的登录天数。以“某一时间登录平台的学生数除以学生总数”作为登录率。

1) 以登录时间为分类字段的统计分析

以时段(分为凌晨00∶00—6∶00、上午6∶00—12∶00、下午12∶00—18∶00、晚上18∶00—24∶00这4个时段)为统计项,计算这四个时段的登录率,得到如表2所示的结果。

表2 学习时段分布

由表2可知,由于学校宿舍每晚进行断电管理以保障安全和教学质量,所以在凌晨这个断电时段没有登录人数,即登录率为0。上午的学习人数和登录率略低,是由于软件学院在大二的课程设置中设置了较多的其他专业课,学生课表几乎都排在上午时段,相对来说使得网络课程的登录率略低。学生的学习时段主要是下午和晚上,并且晚上时段的登录率略高一些,这体现了学生登录网络课程平台大多还是利用了课后的课余时间。

2) 以学生学号为分类字段的统计分析

下面以每个学生个体作为分类字段进行统计,从而发现个体学习的一些特点。对于每个学习个体来说,保证一定的学习时间才能完成必要的学习任务。“数据结构”作为4学分的课程,其规定的学时是72学时,如果按照线上考核和线下考核以2∶8的比例进行分配的话,将线上学习和线下学习的学时也按照2∶8的比例进行分配,那么线上学习的学时应该是14.4学时。假设每个学生某天登录平台,其学习时间平均为0.5个学时的话,那么一个学生应该至少有30天登录平台参加学习,所以首先查询得到每个学生有登录记录的天数,然后计算每类天数对应的学生人数,最后建立累计学生人数与登录天数的函数,如公式(1)所示。

(1)

其中:S0表示学生总数,为434名;t表示登录天数,将所有学生的登录天数按从高到低的顺序排列并从1开始编号,ti即第i个登录天数;S(ti)表示第i个登录天数对应的学生人数;RS(ti)则表示截至第i个登录天数,累计学生人数占学生总数的比例。依照此函数和实际数据,绘制得到如图1所示的曲线。

图1 登录天数与登录率的关系图

由图1可知,登陆天数少于54天的学生数不到学生总数的20%,有约75%的学生学习天数在61天以上,只有3%的学生学习天数在43天以下。这说明大部分的学生(75%)能投入必要的学习时间开展在线学习。

3) 影响学生登录天数的影响因素分析

按照性别分组对学生的登录天数作差异检验,采用独立样本t检验方法,结果发现不同性别学生之间的登录天数存在显著差异。具体数据如表3所示。可见女生的登录天数明显高于男生。

按照专业层次(软件工程、网络工程、计算机科学与技术、信息管理、重修)分组对学生的登录天数作差异分析,结果发现不同专业层次的学生之间的登录天数存在显著差异。具体数据如表4所示。可见“软件工程”“网络工程”和“计算机科学与技术”三个专业的学生在“登录天数”方面不存在显著差异。“信息管理”专业学生的登录天数是最多的,而“重修”的学生的登录天数是最少的。

表3 不同性别学生的登录天数统计

表4 不同专业层次学生的登录天数统计

4) 使用决策树对影响因素进行综合分析

综合考察上述3种因素对登录天数的影响。由于登录天数为连续值,为了算法运算的需要转换为离散值,离散结果如表5所示。

表5 登录天数连续变量离散化情况

利用数据挖掘中的分类方法进行教育数据挖掘研究已经成为当前教育决策中的必要手段和有效方法,在前期工作中也进行过类似的研究[8-10]。本文采用数据挖掘分类决策树算法,构建挖掘结构和挖掘模型,以专业层次、性别等变量为输入值,以“登录天数”为预测值,得到如图2所示的决策树。

图2 用于预测登录天数的决策树

由图2可知,每个方框旁边的圆饼图的浅色部分表示“登录天数”“不少于61天”的学生比例,深色部分表示“登录天数”“少于61天”的学生比例。据此可以快速了解不同登录天数的学生特征,并在面对新样本时,对他们的登录天数多寡作出预测。其中,倾向于“登录天数”“不少于61天”的学生有“专业层次=软件工程”“专业层次=网络工程”“专业层次=计算机科学与技术”“专业层次=信息管理”4个群体,倾向于“登录天数”“少于61天”的学生为“专业层次=重修”一个群体。其中“专业层次”和“性别”对登录天数的影响程度是不一样的,从决策树节点的展开顺序来看,“专业层次”影响最强,其次是“性别”。在“软件工程”和“网络工程”2个专业层次范围内,不同“性别”的学生之间的“登录天数”差异很小;在“计算机科学与技术”和“信息管理”2个专业层次范围内,不同“性别”的学生之间的“登录天数”有明显的差异,其中“计算机科学与技术”专业层次范围内,性别为“男”的学生的登录天数的比例明显要低于性别为“女”的学生,而在“信息管理”专业层次范围内,性别为“男”的学生的登录天数比例明显要高于性别为“女”的学生。

3 结 论

本文选择“数据结构”网络课程为分析对象,以2014—2015第1学期434名学生学习该课程时所产生的登录数据、资源浏览数据和形成性测验数据为分析对象,发现了基于SPOC平台的在线学习行为的一些基本特点及影响因素。

从群体角度看,在线学习行为在时间上的分布主要集中在下午时段和晚上时段。从个体角度看,影响学生在线学习时间投入情况的内在因素有性别和专业层次等,其中女生比男生投入的学习时间多,信息管理的学生投入时间比其他专业投入的学习时间多,重修学生投入的时间最短。如何提升学习行为分析对考核方式的导向性和有效度是未来发展SPOC在线学习的一个重要命题,同时如何采用更有效的数据挖掘方法进行教育数据挖掘也是今后研究中非常重要的一个课题[11-15]。

[ 1 ]谢维奇. 基于“电大在线”远程教学平台的Web数据挖掘[J]. 教育信息化, 2004(10):56-62.

[ 2 ]宋江春,陈文林.Web使用挖掘及其在远程教育教学支持服务中的应用研究[J]. 中国远程教育, 2005(7):62-64.

[ 3 ]袁明,陈伟杰. 网络教育学习者在线学习行为分析研究[J]. 浙江现代教育技术, 2006,18(4):6-9.

[ 4 ]肖爱平,蒋成凤. 网络学习者网上学习现状、影响因素及对策研究[J]. 开放教育研究, 2009,15(1):75-80.

[ 5 ]邵艳丽,孙丽娜. 基于电子学档的在线学习行为监控[J]. 中国远程教育, 2008(5):38-40.

[ 6 ]杨金来,张翼翔,丁荣涛. 基于网络学习平台的学习行为监控研究[J]. 计算机教育, 2008(11):65-68.

[ 7 ]毛利杰,曹效英. 基于网络教学平台的学习监控功能研究与设计[J]. 软件导刊(教育技术), 2009(9):79-81.

[ 8 ]孙笑微. 贝叶斯分类技术在高校教师教学质量评价中的应用[J]. 沈阳师范大学学报(自然科学版), 2014,32(1):98-102.

[ 9 ]孙笑微. 数据分类技术在高校人才识别系统中的应用[J]. 沈阳师范大学学报(自然科学版), 2008,26(2):133-136.

[10]陈坤宝. 基于模糊理论的教师教学质量评价的研究[J]. 数学的实践与认识, 2011,41(6):72-78.

[11]李晓毅,徐兆棣,孙笑微. 贝叶斯网络的参数学习研究[J]. 沈阳农业大学学报, 2007,38(1):125-128.

[12]SUNXiaowei.AugmentedBANclassifier[C]∥InternationalConferenceonComputationalIntelligenceandSoftwareEngineering, 2009:2113-2117.

[13]孙笑微,赵大宇,李晓毅,等. 用于数据挖掘的TAN分类器的研究与应用[J]. 计算机技术与发展, 2006,16(11):140-142.

[14]孙笑微,李晓毅. 基于Boosting的BAN组合分类器[J]. 数学的实践与认识, 2009,39(3):120-125.

[15]RAMONIM,SEBASTIAMIP.Robustbayesclassifiers[J].ArtificialIntelligence, 2001,125(1/2):209-226.

OnlinelearningbehavioranalysisbasedonSPOCplatformlogdataandinfluencingfactors

SUN Xiaowei

(SoftwareCollege,ShenyangNormalUniversity,Shenyang110034,China)

MOOCs,differentfromthetraditionalopenanddistanceeducation,isbasedoncurriculumandteachingtheoryaswellasthedevelopmentofnetworkmobilecommunicationtechnology.Manytopuniversities,suchasHarvardandUCBerkeley,aretryingoutSPOC(SmallPrivateOnlineCourse),amorerefinedcoursethatmixesMOOCswithcampusteaching.Inthispaper,advantageofSPOCforlearner’sonlinelearningbehaviorisanalyzedaswellastheresearchtothenetworkcurriculumbigdata,inordertoimprovethequalityofteachingandthenetworkcurriculumsystem,toimprovethequalityofcampus.SPOCchangestheroleofteachers,andleadstomoreeffectivelearningoutcomes.Finally,itenableslearnerstoexperienceentireanddeeperlearning,raisingthecompletionrate.Asaconclusion,theonlinelearningbehavioranalysisbasedonSPOCwillsignificantlyimprovethedevelopmentofeducationassessmentandlearninganalytics,aswellaseducationquality.Meanwhile,however,thechallengeanddifficultiescannotbeignored.

MOOCs;SPOC;bigdata;learningbehavioranalysis

2016-08-04。

辽宁省教育科学“十三五”规划课题(JG16DB408)。

孙笑微(1980-),女,辽宁本溪人,沈阳师范大学副教授,硕士。

1673-5862(2017)01-0103-05

G

A

10.3969/j.issn.1673-5862.2017.01.020

猜你喜欢

天数时段数据挖掘
质量管理工具在减少CT停机天数中的应用
探讨人工智能与数据挖掘发展趋势
抑郁筛查小测试
养阳的黄金时段到了
最多几天?最少几天?
四个养生黄金时段,你抓住了吗
生日谜题
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
分时段预约在PICC门诊维护中的应用与探讨