教育大数据分析:方法与探索
2017-09-05王宏志熊风邹开发刘哲敏
王宏志+熊风+邹开发+刘哲敏
摘 要:当今社会已经进入了大数据时代,分析了大数据分析与传统数据分析的不同, 综述了在线教育大数据分析的研究现状,并且介绍了基于大数据对在线教育学习者行为预测的研究成果。
关键词:大数据;分析;教育;行为预测
一、大数据与大数据分析概述
随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照片、上网、评论、点赞等信息积累起来都构成大数据;医疗系统中的病例、医学影像等积累起来也构成大数据;在商务系统中,顾客购买东西的行为被记录下来,也形成了大数据。
时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息[1]。(2)“大数据”指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的方法的数据[2]。(3)“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
通常把大数据的特点归纳为4个V,即数据量大(Volume)、数据类型多(Varity)、数据的价值密度低(Value)以及数据产生和处理的速度非常快(Velocity)。
对大数据进行分析可以产生新的价值。数据分析的概念诞生于大数据时代之前,但传统的数据分析和大数据分析是不同的。传统的数据分析往往是由客户提出一个问题,分析者围绕该问题建立一个系统,进而基于该系统解释这个问题;而大数据分析有时候并没有明确的问题,而是通过搜集数据,浏览数据来提出问题。
另一方面,传统的数据分析是在可用的信息上进行抽样,大数据分析则是对数据进行不断的探索,通过全局分析连接数据,达到数据分析的目的。
传统的数据分析的方法,往往是大胆假设小心求证,先做出假设,再对数据进行分析,从而验证先前的假设;而大数据分析则是对大数据进行探索来发现结果,甚至发现错误的结果,之后再通过数据验证结果是否正确。
因此,传统的数据分析可以看成一种静态的分析,大数据分析可以看成一种动态的分析。尽管如此,大数据分析和传统数据分析也并非是泾渭分明的,传统数据分析的方法是大数据分析的基础,在很多大数据分析的工作中仍沿用了传统数据分析的方法。
基于上述讨论,我们给出“大数据分析”的定义:用适当的统计分析方法对大数据进行分析,提取有用信息并形成结论,从而对数据加以详细研究和概括总结的过程。
大数据分析分为三个层次[3],即描述分析、预测分析和规范分析。描述分析是探索历史数据并描述发生了什么(分析已经发生的行为),预测分析用于预测未来的概率和趋势(分析可能发生的行为),规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议(分析应该发生的行为)。例如,对于学生学习成绩的分析,描述分析是通过分析描述学生的行为,如是否成绩高的同学回答问题较多;预测分析是根据学生的学习行为数据对其分数进行预测,如根据学生回答问题的次数预测其成绩;而规范分析则是根据学生的数据得到学生下一步的学习计划,如对学生回答问题的最优次数提出建议。
大数据分析的过程可以划分为如下7个步骤:(1)业务调研,即明确分析的目标;(2)数据
准备,收集需要的数据;(3)数据浏览,发现数据可能存在的关联;(4)变量选擇,找出自变量与因变量;(5)定义模式,确定模型;(6)计算模型的参数;(7)模型评估。
我们以预测学生学习成绩为例解释上述过程。首先,我们的目的是根据学生的行为预测学习成绩。接下来,对于传统的方法来说,通过专家的分析确定需要什么数据,比如专家提出对学生成绩有影响的数据,包括出勤率、作业的完成率等,可以从数据源获取这样的数据;大数据分析的方法有所不同,是找到所有可能相关的数据,甚至包括血型等,这些数据与成绩之间的关系未必有影响,就算发现了关系也未必可以解释,但是获取尽可能多的数据有可能发现未知的关联关系。
上面的步骤包括了很多因素,下面确定哪些因素会体现在模型中,可以通过可视化等方法发现哪些因素和我们的分析目标相关,也可以通过特征工程的方法选择包含在模型中的变量,并排除一些相关的自变量,比如学生的起床时间和吃早饭的时间存在关联,在模型中可以只考虑其中之一,加快计算速度。
再接下来是定义模型的模式,比如可以把上述问题定义为线性回归,再通过一些算法确定模型中的参数,从而得到最后的模型。然后对模型进行评估,检验这个模型是不是真的有效,以及是否是可解释的。有些有用的模型并不见得可解释,例如发现了血压对成绩有影响,这个是有用的,但是未必有一个明确的解释。
二、在线教育大数据分析研究现状
在线教育大数据为教育研究的进行提供了非常好的途径和机会,它构成了一个跨国家、跨文化、跨职业、跨阶层的平台,学习者的每个行为都为研究者贡献了数据。而通过研究这些数据,我们可以发现新的规律,或是指导学习者的行为,例如预测学生的学习情况、课程的受欢迎程度以及发现新的学习方法等。利用平台得到的数据,预测并回馈给平台,从而可以达到改进平台的目的,还可以为平台发现新的业务。
当前在线教育大数据的研究已经开始,但是研究成果并不多,主要的研究对象是学生,集中在对学生学习行为的研究,而授课人员的行为和平台的行为这两个方面的研究比较少。我们将现有的主流研究内容进行归类,分为多个方面,包括:
(1)学习者行为分析与预测;
(2)学习者学习效果分析与预测;
(3)平台供应商数据分析。
学习者行为分析与预测的研究指的是,通过学习者在MOOC平台上产生并积累的行为数据,采用量化学习者行为特征的方式,对其学习行为进行分析与预测。具体而言,文献[4]研究了在MOOC平台上有退课风险的学习者的早期预警问题,他们基于回归分析的方法,提出了两种迁移学习算法,通过增添正则项最小化连续不间断学习周中的失败概率。文中提出了三个方法,分别是LR-SEQ,LR-SIM与LR-MOV,其中在AUC指标上LR-SIM与LR-MOV效果更好,LR-SIM在开课前两周的预测相对于其他方法更为出色。文献[5]采用了机器学习的方法研究了学习者退课率的预测方法,他们仅利用了网页浏览流数据,提出了基于支持向量机的机器学习模型以预测学习者的退课情况。他们的方法随着课程的进行,预测准确率逐渐上升,但在开课前几周的预测效果不够理想。文献[6]同样研究了学习者退课预测的问题,他们采用的方法是构建精确的预测模型与数据的时态与非时态表达,得到了较为良好的AUC指标。文献[7]则是采用了隐形马尔科夫模型对学习者课程滞留情况进行了预测,他们通过简单交叉乘积的方法,将连续特征编码为单一离散可观察状态。文献[8]同样研究了退课问题,他们构建了时序模型,通过标签的方法,采用了LSTM单元的RNN模型。他们得到的结果说明了在此问题上使用LSTM单元要比普通的RNN效果更好。文献[9]研究了在MOOC平台上的学习者行为预测模型的迁移学习,他们提出了学习者预测的实时方法,并提出了对于同一个预测问题,建立表达式以改变这些方法的参数设置,实验证明了迁移学习可以使得两种方法的效果等价。文献[10]则首次针对中文MOOC中学习行为的特点将学习者分类以考察学习行为与效果之间的关系,这项工作使得人们可以有效判别一个学习者是否能够或潜在能够完成学习任务。文献[11]通过学习者积累的作业文章与MOOC浏览流数据对学习行为进行了分析与预测。文献[12]对学习者高风险退课进行预警。
学习者学习效果分析与预测旨在研究学习者通过完成何种学习过程达到了何种学习效果,建立学习过程与学习效果的关系。具体地说,文献[13]预测了学习者在回答问题时,第一次是否可以回答正确。他们利用学习者观看教学视频的数据,结合了区间估计方法与支持向量机分类方法,建立了预测模型,并通过多项实验证明了他们的方法比传统预测算法更优。类似地,文献[14]评价了观看视频表现行为与视频内小测表现的关系,他们识别了学习者反复看视频的行为,例如复习学习内容与重复跳过,对此,他们提出了两种基于浏览流数据的方法,构建了流数据与获得知识的相关模型,他们通过实验发现这些行为和学习者第一次回答正确情况与非第一次回答正确情况极度相关。同样,文献[15]研究了预测学习者第一次问答是否正确的问题,他们在这个分类问题中应用了协同过滤算法,并在KDD Cup 2010竞赛中取得了第三名的成绩[16]。文献[17]预测了学习者的学习成绩,他们提出的增强学习预测算法可以同时用做回归与分类。文献[18]则是研究了对于预测结果通过增量交互分类的方法建立更为精确的分类模型是否可行。文献[19]发现了MOOC平台上那些通过建立多账号以谋求获得作业答案的学习者。
平台供应商数据分析是指使用MOOC平台供应商上积累的数据进行全局的分析,该项数据分析工作并不针对一种特定问题,而是针对某一类的问题。例如,文献[20]综合分析了多个MOOC平台上的数据得出它们具有一些相同的数据属性。文献[21]通过平台积累的教育信息对学习者提供动态的学习辅助材料。文献[22]通过气象数据与学习者方法日志数据通过建立回归分析模型指出何种特征是有关联的。
综上,当前的研究有如下几个热点问题:
(1)学习者行为的定义。我们如何定义学习行为,提取什么样的特征来描述这个学习行为。
(2)如何评价学习效果。建立什么样的有效模型来描述学习效果,这是一个传统教育学的问题,可以通过专家的评价来解决,由于在线教育平台搜集了大量的学习行为数据,则完全可以通过学生的行为来描述学习效果。
(3)退课现象。在线课程目前的通过率是非常低的,通过大数据进行分析,研究为什么发生这样的情况。
(4)学习者是否可以一次回答正确问题。由于小测问题通常较为基础,该项研究可以验证学习者是否认真学习。
除了以上问题,还有多种有关在线教育大数据的研究,例如针对不同身份的人群的学习者分析等[23]。总之,在线教育大数据研究工作近几年方兴未艾,出现了很多有价值的问题亟待研究与解决。
三、教育大数据分析的探索
通过以上的分析,我们认为,对学习者行为的研究可以通过提取学习的行为来实现,比如课程视频的点击、回看、做題做作业的行为、讨论组里面的言论等,提取特征以后对行为进行描述可以定量和定性不同方式进行。定量描述包括回答了几次问题、平均每个视频看多长时间等;定性描述包括用户在群里面对这个老师的评价是肯定的还是消极的,或者是这个学生是不是喜欢这门课,以及这个学生是否看到这个视频的评价。
学习者的表现研究比如说学习成绩、课程的热度,这些特征也是可以提取的,同样有定性、定量,同样对这些数据进行整合,通过分析可以建立学习和行为者的表现关系。表现和行为之间是有因果关联的,行为决定表现,但是这个事情我们只能观察到一方面,另外一方面并不能有效观察或者预测。我们可以通过分析来刻画学习的过程,确定行为与表现的关系,比如用户总是看视频时间很短,决定了不太可能获得好成绩的结果,就可以通过建立这样的关系进行预测。
我们通过累计的学习行为判断用户是不是退课,在各种学习行为以及退课行为之间我们探究是何种因素导致了退课的发生。此外,对于累计的教学行为和教学效果之间的关系,我们可以通过挖掘这些老师的教学行为来分析。
基于这些,我们对“中国大学MOOC”平台上部分课程的后台数据进行了采样和清洗,提取了我们需要的特征,如表1所示。
我们统计了每个学习者在每个学习周的如上特征,之后经过多次测试,我们选定了双向长短时记忆循环神经网络(Bi-directional LSTM RNN)作为我们的学习模型,并使用这些数据作为模型的输入。为了更全面地分析退课率的问题,我们将该问题细分为四个问题,如表2所示。
问题1直接预测了学习者在下一周的动态,而问题2则是预测了学习者学习的总体趋势,除此之外,授课者有时可能更加关心学习者在最后一周以及考试周的表现,这也是我们定义了问题3和问题4的原因。我们将这四个问题作为模型的输出,并以80%的数据对模型进行训练,20%的数据进行测试。
通过对编号为45002的课程测试结果分析发现,问题1的准确率波动幅度较大,而实际上,学习者在下一周的行为也通常是不确定的,这给模型的预测带来了较大的困难;而对于问题2,随着教学周的进行,学习者的总体学习趋势也越来越明显,因此其准确率随着教学周逐步上升;同理,问题3和问题4的结果也呈现出类似的趋势。
实验结果表明,我们所使用的模型具有较高的准确率,并且随着教学周的进行,准确率会得到提升,这对于授课者掌握学习者的动态是有利的。但对于部分课程,由于课程性质问题,导致学习者较少,我们所能获得的数据有限,便会降低模型的准确率。
参考文献:
[1] 王克迪. 数据、大数据及其本质[N]. 学习时报,2015-09-14.
[2] 维克托·迈尔·舍恩伯格,肯尼斯·库克耶. 大数据时代[M]. 盛杨燕,周涛,译. 杭州:浙江人民出版社.
[3] G. Blackett. Analytics Network-O.R. Analytics. http://www.theorsociety.com/Pages/SpecialInterest/AnalyticsNetwork_anal%ytics.aspx, 2013.
[4] He J, Bailey J, Rubinstein B I P, et al. Identifying At-Risk Students in Massive Open Online Courses[J]. Aaai, 2015.
[5] Kloft M, Stiehler F, Zheng Z, et al. Predicting MOOC Dropout over Weeks Using Machine Learning Methods[A]. EMNLP 2014 Workshop on Analysis of Large Scale Social Interaction in Moocs. 2014:60-65.
[6] Taylor C, Veeramachaneni K, OReilly U M. Likely to stop? Predicting Stopout in Massive Open Online Courses[J]. Computer Science, 2014.
[7] Balakrishnan G, Coetzee D. Predicting student retention in massive open online courses using hidden markov models[J]. Electrical Engineering and Computer Sciences University of California at Berkeley, 2013.
[8] Fei M, Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online Courses[A]. IEEE International Conference on Data Mining Workshop. IEEE, 2015:256-263.
[9] Boyer S, Veeramachaneni K. Transfer Learning for Predictive Models in Massive Open Online Courses[M]// Artificial Intelligence in Education. Springer International Publishing, 2015:54-63.
[10] Tang S, Peterson J C, Pardos Z A. Deep Neural Networks and How They Apply to Sequential Education Data[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 321-324.
[11] 蔣卓轩, 张岩, 李晓明. 基于MOOC数据的学习行为分析与预测[J]. 计算机研究与发展, 2015, 52(3):614-628.
[12] Halawa S, Greene D, Mitchell J. Dropout prediction in MOOCs using learner activity features[J]. Experiences and best practices in and around MOOCs, 2014, 7.
[13] Brinton C G, Chiang M. Mooc performance prediction via clickstream data and social learning networks[A]. Computer Communications (INFOCOM), 2015 IEEE Conference on. IEEE, 2015: 2299-2307.
[14] Brinton C G, Buccapatnam S, Chiang M, et al. Mining MOOC Clickstreams: Video-Watching Behavior vs. In-Video Quiz Performance[J]. IEEE Transactions on Signal Processing, 2016, 64(14): 3677-3692.
[15] Toscher A, Jahrer M. Collaborative filtering applied to educational data mining[J]. KDD cup, 2010.
[16] KDD Cup 2010: Educational Data Mining Challenge - PSLC DataShop[EB/OL]. https://pslcdatashop.web.cmu.edu/KDDCup/.
[17] Meier Y, Xu J, Atan O, et al. Predicting grades[J]. IEEE Transactions on Signal Processing, 2016, 64(4): 959-972.
[18] Sanchez-Santillan M, Paule-Ruiz M P, Cerezo R, et al. Predicting Students Performance: Incremental Interaction Classifiers[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 217-220.
[19] Ruiperez-Valiente J A, Alexandron G, Chen Z, et al. Using multiple accounts for harvesting solutions in moocs[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 63-70.
[20] Pang Y, Wang T, Wang N. MOOC Data from Providers[A]. Enterprise Systems Conference (ES), 2014. IEEE, 2014: 87-90.
[21] Williams J J, Kim J, Rafferty A, et al. Axis: Generating explanations at scale with learnersourcing and machine learning[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 379-388.
[22] McBride E, Vitale J M, Gogel H, et al. Predicting Student Learning using Log Data from Interactive Simulations on Climate Change[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 185-188.
[23] Kizilcec R, Halawa S. Attrition and Achievement Gaps in Online Learning[A]. Proceedings of the Second (2015) ACM Conference on Learning @ Scale. ACM, 2015:57-66.