学习分析系统构建研究
2014-10-31马晓玲邢万里吴永和
马晓玲, 邢万里, 冯 翔, 吴永和
(1.华东师范大学 信息学系,上海 200062;2.密苏里大学 信息科学与学习技术系,密苏里洲 65201,美国;3.华东师范大学 开放教育教育学院及上海数字化教育装备工程技术研究中心,上海 200062)
0 引 言
目前,大数据成为推动各行各业提升和变革的强大力量.一些企业正利用网络等带来的海量数据,通过挖掘,分析与应用,赢得行业优势.在教育信息技术界,随着学习管理系统(Learning Management System,LMS)和Web2.0的普遍使用,学习者产生了出大量数字学习轨迹,也意味着教育机构面临着大数据需要处理[1].Dawson等学者认为,众多教育机构投资了IT基础架构和学习工具来促进学生学习,但产生的学习数据没有被充分利用[2].
学习分析正是代表了教育中“大数据”的分析和应用[3].这类教育大数据,用传统的数据库软件进行捕获、存储、管理和分析是非常困难的,但研究者认为其具有很大的研究价值.于是,一个新研究领域——学习分析(Learning Analytics,以下简称LA)出现了.2013年美国新媒体联盟(NMC)的《地平线报告》提出,2—3年内学习分析这项技术将会被广泛接受[3].文献[4]对学习分析进行了全方位的阐述和梳理,包括对学习分析进行了概念界定和历史溯源[5].2011年2月,第一届学习分析和知识国际大会(LAK11)的指导委员会通过了一个较宽泛的、被学界普遍接受的学习分析定义,即“学习分析技术就是测量、收集、分析和报告关于学习者及其学习情境的数据,以期了解和优化学习及学习发生的环境”[5].学习分析服务于教育系统的各个利益相关者:学习者、教育者及管理者,其中主要关注的是促进学习者的成功[6].
作为当前学术热点,其研究成果涉及多个不同的教育系统,如以下几种.
·基于Web的学习系统:Pardos等学者在基于Web的数学教学平台ASSISTments上,花了2年时间,跟踪分析1 393名8年级学生在该平台上的数学学习行为数据,研究学习中体现的情感如厌倦、专注、困惑、挫折等与最终的学习结果之间的关系[7].Kizilcec等学者针对MOOC教学中低完成率的问题,提出根据学生与MOOC学习课程的交互,对不同的学习者进行分类,该研究对MOOC未来的教学指导设计有一定意义[8].
·基于学习管理系统(LMS):许多学习分析研究是基于LMS记录的教育数据.Lonn等针对密歇根大学一、二年级工程系学生,开发了M-STEM Academy作为早期学业预警系统,研究了如何挖掘LMS数据,以及将这些数据转化成警示数据每周提供给导师,以方便导师对学生进行有针对性的支持[9].García-Solórzano等指出LMS环境和面对面教学环境不同,教师在线监控学习较困难,许多LMS提供的学生跟踪数据难以理解.针对这个问题,他们设计了一个基于浏览的图像化教学监控工具,帮助教师洞察学生表现和及时发现潜在问题[10].
·基于Web 2.0或社会学习系统:Gunnarsson和Alterman分析了班上107名学生的博客,使用学生之间互动的相关博客数据,特别是某学生对其他学生博客内容的推介,建立了一个模型来识别有价值的内容和对教师的意义[11].Southavilay等学者研究了大学生使用云计算工具Google Docs进行合作写作的案例,提出3种可视化方法分析写作进程,包括校订版本演化、主题演化图、主题合作网络来探索学生的思维、能力表现,目的是让团队中的每一个学生的写作更有成效[12].在社会学习分析方面,英国学者Ferguson和Buckingham做了全面的分析,提出了五种方法研究正式和非正式的教育环境数据源,注重从社会维度如情感、性格、学习网络所反映出的学习者的学习状态[13].
·基于实时学习系统:传统教学环境中,教师通过分析学生表现如出勤率、考试、教室内的行为等传统数据来帮助学生.现在利用信息和通信技术(Information Communication Technology),可以将教室中的交互情境数字化,从而使数据更加多源.Blikstein提出多情态交互分析系统,数据包括视频、音频、文本、姿势、生物传感信息(如眼球跟踪)等等[14],研究者可以探究过去不可能获知的学生学习活动,进行更全面的分析.
综上所述,LA还处在发展上升期,学者们从不同的教育系统出发,提出了许多零碎和孤立的研究.当然,实际生活中的学习往往分散在不同的教育环境中,要对教学实践有更全面的理解和把握,就需要集成分散的数据源.因此,也有学者提出较粗略的整体方案设计,利用不同环境中产生的分布式教育数据,建立一个集成和开放的学习分析系统,包括偏理论研究的与偏实践研究的.
对于偏理论研究的,如英国开放大学的Clow研究学习分析的4步循环:包含学习者的学习、采集数据,分析、干预[15].芬兰开放大学的Greller和Drachsler从6个主要维度提出LA的通用框架:包括利益相关者、目的、数据、方法、内部局限、外部约束[16].以Siemens为代表的SoLAR(学习分析研究协会)设计了开放学习分析的集成和模块化平台,包括3个引擎:适应性和个性化引擎、干预引擎、分析引擎,其中分析引擎是系统的中心,还有一个重要的系统是显示仪表板,各利益相关者通过显示仪表板与学习分析系统交互[17].
对于偏实践研究的,首先考虑不同的教育应用情境会产生不同的数据集,如果可以整合跨情境数据将能大大提高学习分析的应用层次.如Niemann等结合3个不同的学习门户数据,从数据类型和格式着手,研究如何实现不同学习数据模式的相互转换和融合[18].普渡大学开发的Course Signals是一个较成功的例子,它综合考虑地区、学习历史数据、与学习管理系统的交互积极程度等众多因素,帮助教师和学生预测学生和自身表现[19].Bramucci和Gaton展示了一个推荐引擎Sherpa,通过挖掘多种教育数据源,展现包括电邮、语言等个性化服务,如为学生推荐课程、对危机学生进行干预、为学生定制校园信息等[20].
虽然LA已用于许多教育实践,但当前LA的应用大多限制在一个功能特定的教育系统内部.为了更好地研究学习分析系统(Learning Analyeics System,LAS),获取和处理各类数据源,包括LMS、Web 2.0及物理学习环境中的数据,本文将从学习分析数据演化、学习分析系统论域与形式化建模、学习分析本体框架着眼,进行学习分析系统构建研究.
1 学习分析数据演化
教育大数据(Education Big Data)主要来源于各类教育系统,包括学习管理系统LMS、内容管理系统(Content Management System,CMS)、电子学档系统(e-Portfolio System,EPS)、智能培训系统(Intelligent Training System,ITS)、社会性学习系统(Social Learning System,SLS)、实时教学系统(Live Teaching System Based on Classroom,LTS)、学习设计系统(Learning Design System,LDS)和学生信息管理系统(Student Information System,SIS),等等.而学习分析的数据就是各利益相关者与上述教育系统之间的交互所产生的日志数据,该数据是实时或非实时所产生的跟踪学习日志.为了便于对本研究的理解,首先给出如下若干概念和定义.
1.1 概念和定义
1.1.1 学习数据(Learning Data,LD)
定义1 学习数据是指在学习系统中所产生的跟踪学习日志被清洗处理后而得到的数据.
其中学习日志数据涉及用户、使用学习内容、操作(动作)、时间和地点等各情境数据.用户包含学生、教师、管理者、资源开发者、决策者等角色的相关信息.内容是使用的学习内容,即学习资源,可用学习对象元数据来表述其信息.操作(动作)是对用户的操作行为,可分为通用操作和私有操作.时间是日志产生的时间,可用统一的互联网时间来表示.而地点指产生日志地方,包括网上虚拟空间地址和物理空间地址,虚拟空间地址由提供服务的系统IP地址、服务名和终端的IP地址所构成.
1.1.2 学习分析数据(Learning Analytics Data,LAD)
经LAS引擎处理加工而得到的学习分析数据,是具有一定价值的数据,该数据在学习分析显示面板呈现,或通过学习分析数据交换输出到第三方相关数据分析工具进行分析,或反馈给相关学习系统.
定义2 学习分析数据是根据一定教育规则对大量的学习数据进行数据挖掘分析所得到的数据.
1.1.3 学习分析对象(Learning Analytics Object,LAO)
学习分析对象是指在学习分析系统中,经过处理(预处理和加工)而具有一定结构化的分析数据,包括上述学习数据或学习分析数据.
定义3 学习分析对象是由学习数据和学习分析数据所构成的.
1.1.4 学习分析系统(Learning Analytics System,LAS)
定义4 学习分析系统作为数字化学习系统的一个重要子系统,是收集学习日志数据、处理学习数据和产生学习分析数据,同时再将分析结果输出到显示面板并为教育系统提供反馈和干预的系统.其目的是提高教育系统的服务质量,服务各利益相关者.
1.2 学习分析系统与数据演进
学习分析系统和数据在时间、空间和交互维度上的演化情况,如图1所示.其中时间维度反映了从不同的教育系统而得到的学习分析对象从一个版本到另一个版本的演化过程.而空间维度反映了学习分析对象的分布,该数据分布和汇聚在不同节点上.
在交互维度上反映了用户与数据的交互,产生了学习分析对象的改变和更新.3个维度演化导致学习分析对象结构的改变,如图2所示.其中在时间维度上,其生命周期从LCi-LCj-LCk;而在空间维度上,学习分析对象数据发布从NDx-NDy-NDz;在学习分析对象结构维度上,学习分析对象数据改变体现在从LAOl-LAOm-LAOn的演化.
图1 学习分析系统与数据的时空与交互演化图Fig.1 Space,time and interactive evolution of learning analytics systems
图2 学习分析对象的时空与数据结构的演化Fig.2 The evolution of time,space and data structure of learning analytics object
2 学习分析系统论域与形式化建模
2.1 学习分析系统论域的建模
因学习分析系统是一复杂系统,而对复杂系统的研究,一般采用形式化描述方法,如吴永和对学习资源服务生态系统论域LRESUoD的5个子空间进行了形式化建模[21].本文提出构建一个学习分析系统论域LASUoD(Learning Analytics System Universe of Discourse),如图3所示.首先剖析LASUoD,来构建其模型,并进一步形式化描述.
图3 LASUoD的构建Fig.3 The construction of LASUoD
LASUoD包括学习数据LD、学习分析数据LAD、学习资源LR、学习系统(如LMS、CMS、SLS、ITS等),和不同用户(如学生、教师、管理者等)以及学习分析系统和系统约束条件等实体.
定义5 ∑=[O,I,M,R,S,P]是关于LASUoD现实世界的一个抽象系统,其中O,I,M,R,S,P定义如下:
O是一个关于LAS的实体对象集合,O={oi},i∈N.这些实体包括LD、LAD、LR、LMS、User和LAS及约束条件.
I是关于LAS实体属性的集合,I={ij},j∈N,∀i∈I,∃ε∈O:i attrib_ofε,attrib_of是一种关系表达,表示i对一个实体的静态属性描述.
M是LASUoD中包含的实体行为的操作(方法)集合,即M={ai}i∈N,∀a∈M,∃ε∈O:aact_onε,act_on是一种关系表达,表示a对一个LASUoD中实体的动态行为描述,动态行为包括收集LD,可视化LAD,访问LMS服务(访问、下载、浏览)等.
R是LASUoD中包括的约束规则集合,即R={Yz},i∈N.约束所涉及的实体对象可以是O,I,M中的任何一个或多个元素,对象xl,…xn受Yi条件约束,记为:(Yi,<xl,…xn>|r),其中xl,…xn∈O∪I∪M,i∈N,r是约束条件的详细描述.
S是LASUoD的状态集合,即S={si},i∈N.S包括两个特殊的元素:学习分析系统行为中的初始状态s0和结束状态send;状态体现在整个生命周期和版本升迁,包括数据产生(Produce)、数据清洗(Clean)、数据加工处理(Process)和数据应用(Use)等整个过程.
P是LASUoD的状态变化函数,P:S→S,P(si)→sj,si,sj∈S,I,j∈N.学习分析对象(数据)LAO在时空演化,其中在时间维度上演化,其生命周期版本状况从LCi-LCj-LCk;在空间维度上演化,从节点NDx-NDy-NDz分布迁移;在LAO内容组织结构上演化,其内容结构从LAOl-LAOm-LAOn结构发生改变,即整个状态变化分别从3个维度上,即(LCi,NDx,LAOl)-(LCj,NDy,LAOm)-(LCk,NDz,LAOn).LA 在时空演化的状态变化函数P可表示为P(LCi,NDx,LAOl)=(LCj,NDy,LAOm),P(LCj,NDy,LAOm)=(LCk,NDz,LAOn).
2.2 学习分析系统论域子空间表示
2.2.1 学习分析系统信息模型
祝智庭提出网络教学传通系统ELCS(e-Learning Communication System)模型,具有角色空间R(Role Space)、内容资源空间CR(Content Resource Space)、媒体工具空间 MT(Media Tools Space)、协调空间C(Coordinating Space)和工作信息空间 W(Working Space)等五个子空间[22].吴永和系统地形式化描述了该模型,分析了角色子空间抽象系统ΣR、内容资源子空间抽象系统ΣCR、媒体工具子空间抽象系统ΣMT、协调子空间抽象系统ΣC和工作信息子空间抽象系统ΣW[21,23].因网络教学传通系统(e-Learning Communication System)模型是通用元模型,我们扩展了该元模型作为学习分析系统信息模型,利用LASUoD定义LAS信息模型,增加了收集、存储和处理学习分析数据的分析空间A(Analytics Space),作为第6个抽象子空间.如图4所示.
图4 学习分析系统信息空间模型Fig.4 Information Space Model of LAS
定义6 学习分析系统论域(LASUoD)的映射的抽象系统Σ,抽象系统Σ由6个子空间抽象系统所构成,即Σ=[ΣR,ΣCR,ΣMT,ΣA,ΣW,ΣC],其中ΣR表示角色子空间抽象系统R、ΣCR表示内容资源子空间抽象系统CR、ΣMT表示媒体工具子空间抽象系统MT、ΣA表示分析子空间抽象系统A、ΣW表示工作信息子空间抽象系统W和ΣC表示协调子空间抽象系统C.
2.2.2 角色子空间
定义7 ΣR=[OR,IR,MR,RR,SR,PR]是Σ 关于角色子空间R的抽象系统.
OR是角色空间R中的对象集合.OR={ol,o2,…,on}⊂O,表示O子空间中包括n个实体,这些实体包括组成学习资源服务生态系统角色空间的各种实体,包括教师、学生、管理者、资源制作者等,即OR={教师,学生,管理者,资源制作者}.
IR是角色空间R中的相关实体对象属性集合.IR⊂I,IR包括角色空间各角色的属性等,如教师、学生、管理者、资源制作者的属性.
MR是角色空间R中的方法集.MR⊂M,MR包括R子空间中的各项操作,如角色定义、修改、删除和赋予权限等.
RR是角色空间R中的规则集.RR⊂R,RR保证R子空间中各种操作的正常进行,如赋权控制,给具体用户赋予角色.
SR是角色空间R中的状态集合.SR⊂S,SR是ΣR在时间实体对象集合T的一个状态反映,角色是否可用.
PR是角色空间R中的状态变换函数.PR:SR→SR,PR(SR1)→SRj,SRi,SRj∈SR,能从一个状态变换成另一状态.用户被赋予某一角色,用户权限状态变成该角色权限的状态,如User被赋予Student角色,则权限状态变换成Student权限状态,即PR(User,RoleStudent)=RightStudent.其中权限分配有资源浏览、编辑(修改)、删除、更新、下载等.
2.2.3 内容资源子空间
定义8 ΣCR=[OCR,ICR,MCR,RCR,SCR,PCR]是Σ 关于内容资源子空间 CR的抽象系统.
OCR是内容资源空间CR中的对象集合.OCR={ol,o2,…,on}⊂O,表示O子空间中包括n个实体,这些实体包括组成学习分析系统内容资源子空间的各种实体,包括学习分析系统所涉及到各种组织结构的学习对象及其所组成资源等.
ICR是内容资源空间CR中的相关实体对象属性集合.ICR⊂I,ICR包括内容资源空间CR各资源的属性,如各具体学习对象的学习元数据属性.
MCR是内容资源空间CR中的方法集.MCR⊂M,MCR包括CR子空间中的各项操作,如学习资源的共享、读、写、修改等操作.
RCR是内容资源空间CR中的规则集.RCR⊂R,RCR保证CR子空间中各种操作的正常进行,如学习资源的共享、读、写、修改的权限和服务对象权限(个人和组)限制.
SCR是内容资源空间CR中的状态集合.SCR⊂S,SCR是ΣCR在时间实体对象集合T的一个状态反映,学习对象的生命周期.
PCR是内容资源空间CR中的状态变换函数.PCR:SCR→SCR,PCR(SCR1)→SCRj,SCRi,SCRj∈SCR.在内容资源空间中各学习资源进行生态演化:时间上自我演化(生命周期)和空间分布,并在时空中演化和互动.
2.2.4 媒体工具子空间
定义9 ΣMT=[OMT,IMT,MMT,RMT,SMT,PMT]是Σ关于媒体工具子空间 MT的抽象系统.
OMT是媒体工具空间 MT中的对象集合.OMT={ol,o2,…,on}⊂O,表示MT子空间中包括n个实体,这些实体包括组成学习资源服务生态系统媒体工具空间的各种实体,包括各种媒体工具,如学习管理、内容管理、学档管理、活动管理、政务管理、资源管理、编列管理、学习流管理、课程管理、资源发现、信息检索、资源列表、日程管理、评估管理、能力管理、用户偏好、服务质量管理等,各主体以服务方式体现.
IMT是媒体工具空间MT中的相关实体对象属性集合.IMT⊂I,IMT包括媒体工具的属性,如注册、发布和服务等.
MMT是媒体工具空间MT中的方法集.MMT⊂M,MMT包括MT子空间中的各项操作,如注册、发布和服务等.
RMT是媒体工具空间MT中的规则集.RMT⊂R,RMT保证MT子空间中各种操作的正常进行,媒体工具的 Web服务逻辑约束机制和接口规范等.
SMT是媒体工具空间MT中的状态集合.SMT⊂S,SMT是ΣMT在时间实体对象集合T的一个状态反映.处于注册、发布、服务和生命周期结束等.
PMT是媒体工具空间 MT中的状态变换函数.PMT:SMT→SMT,PMT(SRi)→SRj,SRi,SRj∈SMT.该状态变换函数表示媒体工具的注册、发布、服务和生命周期结束等状况变迁.
媒体工具空间提供媒体操作工具,对媒体工具操作进行管理,提供一系列媒体工具,并以Web服务方式体现.
2.2.5 学习分析子空间
定义10 ΣA=[OA,IA,MA,RA,SA,PA]是Σ关于分析子空间A的抽象系统.
OA是分析空间A中的对象集合.其中OA={ol,o2,…,on}⊂O,表示A子空间中包括n个实体,这些实体包括组成学习分析系统分析子空间的各种实体,包括学习分析系统所涉及到各种学习分析数据.OA= OA_LD+OA_LAP+OA_LAD,OA_LD是 LD实体,而 OA_LAP是在学习分析过程中产生数据LAP,OA_LAD是LAD实体.
IA是分析空间A中的相关实体对象属性集合.IA⊂I,IA包括分析空间A各数据资源的属性,如LD、LAP和LAD数据属性.
MA是分析空间A中的方法集.MA⊂M,MA包括CR子空间中的各项操作,如学习分析数据定义、处理、分析、报告和访问等操作.
RA是分析空间A中的规则集.RA⊂R,RA保证A子空间中各种操作的正常进行,如学习分析数据的定义、处理、分析、报告和访问的权限限制.
SA是分析空间A中的状态集合.SA⊂S,SA是ΣA在时间实体对象集合T的一个状态反映,学习分析对象的生命周期.
PA是分析空间A中的状态变换函数.PA:SA→SA,PA(SA1)→SAj, SAi,SAj∈SA.在分析空间中各学习分析对象进行生态演化:时间上自我演化(生命周期)和空间分布,并在时空中演化和互动.
2.2.6 工作信息子空间
定义11 ΣW=[OW,IW,MW,RW,SW,PW]是Σ关于工作信息子空间 W 的抽象系统.
OW是工作信息空间 W中的对象集合.OW={ol,o2,…,on}⊂O,表示O子空间中包括n个实体,这些实体包括组成学习分析系统工作信息子空间的各种实体,包括当前学习分析服务所涉及的学习内容、媒体工具、学习数据、被赋予某个角色的用户等.
工作信息空间包括私有子空间和公共子空间(WS=PS+CS).私有子空间体现用户的个人需求和个性化特性,具有隐私性,一般情况下仅用户本身可操作.而公共子空间,提供资源共享和协作.在私有空间和公用空间进行交流和协作,体现个人和集体的关系.
IW是工作信息空间W中的相关实体对象属性集合.IW⊂I.IW包括进入W空间的各实体的属性等,包括相关的学习内容、媒体工具、学习数据、被赋予某个角色的用户等实体的属性.
MW是工作信息空间W中的方法集.MW⊂M,MW包括W子空间中的各项操作,如访问、服务和共享等授权操作.
RW是工作信息空间W中的规则集.RW⊂R,RW保证R子空间中各种操作的正常进行,保证在公共空间的协作共享和个人空间的隐私性.
SW是工作信息空间W中的状态集合.SW⊂S,SW是ΣW在时间实体对象集合T的一个状态反映.在工作信息空间W中的学习内容、媒体工具、学习数据、被赋予某个角色的用户的状态.
PW是工作信息空间 W中的状态变换函数.PW:SW→SW,PW(SW1)→SWj,SW1,,SWj∈SW.在工作信息空间W中的学习内容、媒体工具、被赋予某个角色的用户的状态变换函数.
工作信息空间是分析空间信息通过媒体工具手段与角色空间角色绑定,并通过协调空间协调.不同用户对应不同角色,在工作信息空间所呈现信息不同.学习分析系统一些引擎在工作子空间处理来自分析子空间的数据.
2.2.7 协调子空间
定义12 ΣC=[OC,IC,MC,RC,SC,PC]是Σ关于协调子空间C的抽象系统.
OC是协调空间C中的对象集合.OC={ol,o2,…,on}⊂O,表示协调子空间C中包括n个实体,这些实体包括组成学习分析系统的被协调的各种实体即协调机制的表达,在某个特定领域的协调机制,如系统架构、服务互操作,语义本体等.
IC是协调空间C中的相关实体对象属性集合.IC⊂I,IC包括在C空间各实体的属性等,被协调的各种实体属性.
MC是协调空间C中的方法集.MC⊂M,MC包括C子空间中的各项操作,如角色控制、资源共享、协作操作等.
RC是协调空间C中的规则集.RC⊂R,RC保证C子空间中各种操作的正常进行,如协调控制数据的定义、处理、分析、报告和访问的权限限制.
SC是协调空间C中的状态集合.SC⊂S,SC是ΣC在时间实体对象集合T的一个状态反映.被协调的各种实体状态.
PC是协调空间C中的状态变换函数被协调的各种实体的状态变换函数.
协调空间需解决互操作问题,其中互动规则从语义、协议和多用户等角度考虑,建立架构、标准和语义规范.分别从语义、标准互操作,约束机制等方面协调控制,实现各自的互操作功能.
在Σ的6个空间子系统协调工作情况是:角色空间与资源空间资源绑定,为资源分配相应权限;与媒体工具空间工具绑定,用户是否有操作权;与工作空间绑定,赋予用户的私有空间和公共空间的权限;以上绑定是通过协调空间协调来完成.
3 学习分析系统架构
系统分析,旨在研究特定系统结构中各部分(各子系统)的相互作用,系统的对外接口与界面,以及该系统整体的行为、功能和局限,从而为系统未来的变迁与有关决策提供参考和依据,改善决策过程及系统性能,以期达到系统的整体最优[24].此处按照输入、处理、输出的顺序,参考SoLAR研究的学习分析系统图[25]及Bienkowski提出的自适应学习系统[26],对其引擎功能重叠、信息流不明晰、服务间缺少互操作性、可扩展性进行了改进,阐述了一个更详细和灵活的LAS架构.如图5所示.
图5 学习分析系统架构图Fig.5 Architecture of LAS
下面对图5中的信息以标号为顺序进行阐述.
① 处该系统的核心利益相关者包括学生、教师、管理者;扩展利益相关者有教学设计者、政策制定者、教学研究者.他们与各类教育系统之间进行交互.如教师进行系统内部教学设计,学生从系统获取教学资源,教师与学生在网络论坛上的互动等等,都是依靠教育系统.
② 处教育系统中捕获的数据,采集进入集成数据库.由于不同的教育系统有不同结构的数据,所以需要进行预处理工作,通过数据规范化模块,将数据映射成{角色,资源,情境,动作,结果}的本体形式,方便后续的分析工作.
③ 处规范化的数据集分解为用户域、教育域,资源域三大类信息,为学习分析的引擎提供输入.例如要为学生提供内容推荐,就需要用户域中的信息(学习者偏好,过去的知识,学习目的,行为记录等)、教育域中的信息(课程概念,前导课程,课程要求等)、资源域中的信息(学习对象,媒体文件,内容描述模型等),才能做出合理的推荐.
④ 处该架构提供2类引擎:面向教育系统的引擎和面向显示面板的引擎.面向教育系统的引擎可看作面向当前,是需要用引擎的输出直接对现场的教育系统进行干预,如自动调整和修改教育系统,以更好地适应学习者的学习能力或倾向,或向系统中的学习者推荐学习资源、学习路径和学习同伴.
⑤ 处面向显示面板的引擎可看作面向过去与面向未来,是需要将统计信息和预测信息以可视化方式直接输出在显示面板(仪表板)上,来与各类用户交互.如将过去的指标性学习数据做描述性统计;如某资源的下载数,某学生的发帖数,或是与特定算法结合,展现学生的学习状态;如利用文本分析显示学生情感,利用网络分析显示学生社群参与度,或向利益相关者显示学习的未来结果;如学生目前面临的学习风险,课程完成的可能性.
⑥ 处不同利益相关者拥有不同的显示面板界面.SoLAR[27]针对核心利益相关者,用若干幅模拟显示面板图和多种分析方法表明各自利益相关者的需要.如学生Kris Mann的分析面板包括学习话语分析,学习心情分析,学习风格蜘蛛图,学习网络图等;教师Jenny Tester从模拟的分析显示面板可以得知可能有风险的学生、课程资源访问模式、课堂项目进展、博客分析等.利益相关者根据显示面板的信息,改进与教育系统的交互,从而形成一个反馈闭环.
4 学习分析系统数据流
4.1 数据流分析
学习分析系统中的数据流分析如图6所示,依次包括学习日志数据收集、学习数据的产生、学习数据LAS引擎处理与学习分析数据的产生、学习分析数据的使用等部分.
图6 学习分析系统中的数据流分析Fig.6 Analysis on dataflow in LAS
(1)学习日志数据产生:当不同教育系统运行时,记录一些日志,这些日志便是学习日志数据LLD(Learning Log Data).
(2)学习数据的产生:学习日志数据LLD经清洗预处理便产生学习数据LD(Learning Data).
(3)学习数据处理与学习分析数据的产生:学习数据LD被输入到LAS引擎中,引擎处理加工这些数据,生成新的学习分析数据LAD(Learning Analytics Data).
(4)学习分析数据的使用:当学习分析数据产生后,一方面在LAS的面板(Dashboard)上显示各种分析图表,另一方面反馈给教育系统进行调控.此外,也可以输出到第三方分析系统进行分析处理.
因学习分析主要研究对象是学习过程中数据.在定义3中定义了学习分析对象,图6进一步明确了学习分析对象确切的含义:
LAO= {LD}m+{LAD}n,其中m,n∈ {0,1,2…},但当m=0时,n≠0;当n=0时,m≠0.即学习分析对象至少有1个学习数据或1个学习分析数据.
4.2 小型与大型的学习分析
按照分析范围和处理数据量,学习分析可分为小型学习分析(Small Learning Analytics)和大型学习分析(Big Learning Analytics).其中小型学习分析主要是服务于学习者、教育者,基本是个人级别、教室级别和课程级别的分析,目的是提升学习者个人的成功;而大型学习分析研究服务于高级管理者、政策制定者与政府官员,基本是学校级别、区域和国家级别,甚至全球级别的分析,目的是提升组织教育策略水平及教育资源分配效率,加深对影响学业因素的理解,辅助教育决策[26].
5 学习分析对象数据模型、本体及标准规范
5.1 学习分析对象数据模型
学习分析研究领域目前认识到为了研究和应用目的,学术研究共同体需要收集公开的、丰富的数据源并提供开放使用,只有在共同的数据源上,才可以验证,重复和比较各自的研究成果[27].
图7 匹茨堡学习科学中心的DataShop数据格式[32]Fig.7 Tutor message format of PSLC DataShop
目前主要的两个开放数据集是dataTEL[28]和 DataShop[29].其中dataTEL是在2010年9月,由第四届ACM推荐系统会议和第五届欧洲科技促进教育会议联合倡议的,邀请研究团队提交用以共享的数据集.而DataShop是匹茨堡学习科学中心(Pittsburgh Science of Learning Center,PSLC)为学习科学研究者提供的学习交互数据集,主要记录学生和智能导学系统之间的交互数据,课程包含6类,有代数、化学、中文、英语、几何与物理,同时也提供基于Web界面的分析和可视化工具[30].dataTEL由于数据类型丰富,还没有统一的信息格式标准,而DataShop数据基本是来源于智能导学系统,其格式要求是自定义的TutorMessage format,设计目的是捕获学生会话和导学应用之间交互的细节,来描述一个指导型会话,包括4种信息类型:①情境信息,信息点击流产生的情境;②工具信息,学生用工具产生的交互;③指导信息,软件对学生的行为作出的响应,一般它与上面的工具信息成对出现;④其他信息,其余消息类型.
本文根据学习分析对象的前述,及对学习分析系统数据流的分析,同时参考前期成果,如Katrien Verbert等研究的Learner Action Model[30],提出了如图8所示的学习分析对象数据模型.它不仅包括对资源的各类操作,如打开、关闭、选择、书写、提交等操作,也可捕获动作发生的情境,如地点、工具、所处的当前活动等;同时包含描述学习者特征的学习者模型,描述教育资源特征的资源模型,以及时间与其余扩展信息.图8集合了各类数据元素提出的初步数据模型,后续研究希望能结合另外一些理论模型,如活动理论[32],以期对数据模型做进一步深化与修正.
图8 学习分析对象数据模型Fig.8 Data format of LAO
5.2 学习分析系统本体框架
在以上分析基础上,本研究提出建立一个轻量级学习分析系统本体LASO(Learning Analytics System Ontology),即以一种机器可处理的形式定义和存储学习分析数据,来解决不同学习分析系统间互操作性问题.它涉及输入、处理、控制和输出,包括学习数据本体LDO(Learning Data Ontology)、学习分析处理本体LAPO(Learning Analytics Process Ontology)、学习分析规则本体LARO(Learning Analytics Rule Ontology)和学习分析数据本体LADO(Learning Analytics Data Ontology)等4个部分.其中学习分析处理本体LAPO涉及用户领域(User Domain)、教育领域(Pedagogical Domain)、资源领域(Resource Domain)和相关引擎(Adaptation Engine,Recommendation Engine,Prediction Engine,Reflection Engine和Engine Log Data),学习分析数据本体LADO涉及学习分析显示板本体LADBO(learning Analytics Dashboard Ontology)、学习分析数据交换本体LADEO(Learning Analytics Data Exchange Ontology)和学习分析反馈本体LAFO(Learning Analytics Feedback Ontology);而学习分析规则本体LARO是控制和处理学习分析相关规则的本体.LASO本体框架图如图9所示,可通过Protégé本体著作工具编辑该本体.当LAS有了清晰的LASO,LASO元数据和LAS核心数据集将被定义处理.
图9 学习分析系统本体框架图Fig.9 Frame diagram of LASO
5.3 学习分析系统标准组谱
与学习分析系统相关的标准来自教育部教育信息化技术标准委员会CELTSC、国际标准化组织ISO/IEC JTC1SC36、国际标准化组织IEEE LTET、全球IMS组织和美国国防部ADL等组织,对应的标准有中国教育信息化技术标准CELTS、ISO/IEC JTC1SC36ITLET国际标准、IEEE LTET工业标准、IMS组织标准、ADL SCORM标准等.具体对应的标准如下.
(1)有关用户(学习者)标准:CELTS-11学习者模型,CELTS-12电子学档,CELTS-13参与者标识符(GB/T 21366-2008),CELTS-14学力定义,ISO/IEC TR24763:2011学习能力标准等.
(2)有关学习内容(资源)标准:IEEE LOM,DC,ISO/IEC MLR ,CELTS-3-1学习资源元数据 (GB/T 21365-2008/),CELTS-3-2 学 习 对 象 元 数 据 XML 绑 定 (GB/T 21365-2008/),CELTS-28学习对象分类与代码,CELTS-41教育资源建设规范,CELTS-42基础教育元数据建设规范、数字化学习对象语义描述.
(3)有关学习环境标准:CELTS-20学习管理系统,CELTS-43学习系统体系结构与服务接口,通用Web服务IMS GWS,SOA架构规范IMS SOA等.
(4)分析评价服务类:ISO/IEC TR24763:2011学习能力标准,CELTS-12电子学档,CELTS-22网络课程评价,CELTS-24数字化学习服务质量管理,CELTS-50教育统计信息.
在充分利用现有标准基础上,可以进一步研制新的学习分析标准:学习分析元数据规范、学习分析数据交换规范、学习分析服务质量规范.学习分析系统相关标准组谱如图10所示.
图10 学习分析系统相关标准组谱Fig.10 The profile of LAS related standards
6 学习分析系统用例分析
一些学习管理系统LMS,如Blackboard、Sakai、MOODLE和Dire2Learning已具有一些LA功能,但并未根据LAS来真正实现.下面分析Sakai作为LMS系统用于华东师范大学教育信息技术学系48位研究生学习的一个学习分析案例.在Sakai系统中有“站点统计”功能模块,能分别从活动和资源视角进行统计分析.而活动(Activity)包括事件(Event)、资源(tool)、用户(user)、工具等角度.48位研究生中有12个博士生,在4位教师指导下从2012年2月到2013年1月 进行教育技术学术研究.该系统已记录了他们教与学的日志文件,事件有发布通知、修改通知、删除通知、发布释疑信息、删除释疑信息、删除聊天渠道、新建私人信息,新建私人信息文件夹,删除私人信息,回复私人信息,转发私人信息,阅读私人信息,添加资源,读取资源,修改资源,删除资源,新建日程表事件,修改日程表事件,新建课程大纲,修改课程大纲,阅读课程大纲,删除课程大纲,新建Wiki,修改Wiki等等.
按照活动分析经,可分别从时间、用户和工具3个维度分析:时间可按天、周、月和年分析;用户按访问者(access)、维护者(maintain)和管理员(admin)等身份分析;工具可有Announcements、Syllabus、Resources,Schedule、Message、Chat和 Wiki等.分析后得到一个汇总分析表,如图11所示.
图11 按照活动来统计分析Fig.11 Analysis by activity
按照资源(Resource):可分别从文件(file)、打开文件数(File Opened)和使用的用户等层面统计分析,如图12所示.
图12 按照资源来统计分析Fig.12 Analysis by resources
这些仅仅是Sakai系统中提供学习分析的部分统计功能,如果要进一步实现学习分析系统功能,还需开发基于Sakai系统框架的LAS APP.
7 结 语
本文研究目的是构建一个完整、清晰、可实施、开放的学习分析系统.首先,对学习数据、学习分析数据、学习分析对象和学习分析系统等重要概念进行了定义,阐述了学习分析数据演化,给出了学习分析系统与数据的时空与交互演化图以及学习分析对象的时空与数据结构的演化图.随后,着重分析了学习分析系统论域(LASUoD),形式化建模学习分析系统信息空间模型[ΣR,ΣCR,ΣMT,ΣA,ΣW,ΣC],对学习分析系统论域各子空间:角色子空间抽象系统ΣR、内容资源子空间抽象系统ΣCR、媒体工具子空间抽象系统ΣMT、分析子空间抽象系统ΣA、工作信息子空间抽象系统ΣW和协调子空间抽象系统ΣC进行了详细地分析.接着,构建并详细地阐释了一个通用的学习分析系统架构.再对学习分析系统中数据流进行了分析,给出了其清晰的数据流分析图,并按照分析范围和处理数据量将数据流分析分为小型学习分析和大型学习分析.其后,对dataTEL和Datashop开放数据集及相关成果进行了研究,提出了学习分析对象数据模型;建立了一个学习分析系统本体LASO框架,包括学习数据本体LDO、学习分析处理本体LAPO、学习分析规则本体LARO和学习分析数据本体LADO等四个部分;创建了一个学习分析系统标准组谱,包括有关用户(学习者)标准、有关学习内容(资源)标准、有关学习环境标准和分析评价服务类以及研制新的学习分析标准(学习分析元数据规范、学习分析数据交换规范、学习分析服务质量规范),以实现学习分析系统与应用的互操作.最后,展示了一个基于开源学习管理系统Sakai的学习分析实例,以说明学习分析系统应用情况.
我们今后的工作是进一步定义好LAS的核心元数据,利用Protégé工具开发LASO本体,建立核心LAS数据集,在此基础上研制学习分析相关标准.同时,基于开源软件系统如Sakai,开发LAS APP应用,开展相关教育应用,特别是学习分析作为教育云服务功能,应用于智慧教育系统[4].此外,可以分别从小型学习分析和大型学习分析入手,分别建立基于电子课本与电子书包的课堂教学的一个轻量级小型学习分析系统,建立基于教育云的国家教育资源公共服务平台的一个大型学习分析系统[4].
[1] FERGUSON R.The state of learning analytics in 2012:A review and future challenges[R].Knowledge Media Institute,Technical Report.KMI-2012-01.
[2] DAWSON S,Heathcote L,et al.Harnessing ICT potential:The adoption and analysis of ICT systems for enhancing the student learning experience[J].International Journal of Educational Management,2010,24(2),116-128.
[3] The New Media Consortium.The Horizon Report 2013Higher Education Edition[EB/OL].[2013-8-28].http://net.educause.edu/ir/library/pdf/HR2013.pdf.
[4] 吴永和,陈丹,马晓玲,等.学习分析——教育信息化新浪潮[J].远程教育杂志,2013,313:9-19.
[5] SIEMENS G.Knewton-the future of education?[EB/OL].[2013-8-28].http://www.learninganalytics.net.
[6] BROWN M.Learning analytics:the coming third wave[EB/OL].[2013-8-28].http://net.educause.edu/ir/library/pdf/ELIB1101.pdf.
[7] PARDOS Z A,BAKER R S,SAN PEDRO M O,et al.Affective states and state tests:Investigating how affect throughout the school year predicts end of year learning outcomes[C]//Poreedings of the Third International Conference on Learning Analytics and Knowledge(pp.117-124).ACM.
[8] KIZILCEC R F,PIECH SCHNEIDERconstructing disengagement:analyzing learner subpopulations in massive open online courses[C]//Proceedings of the Third International Conference on Learning Analytics and KnowledgeACM,2013:170-179.
[9] LONN S,KRUMM A E,WADDINGTON R J,et al.Bridging the gap from knowledge to action:Putting analytics in the hands of academic advisors[C].In Proceedings of the 2nd International Conference on Learning Analytics and Knowledge.ACM,2012:184-187.
[10] GARCÍA-SOLÖRZANO D,MORÁn J A,COBO G,et al.Educational monitoring tool based on faceted browsing and data portraits[C].In Proceedings of the 2nd International Conference on Learning Analytics and Knowledge.ACM,2012:170-178.
[11] GUNNARSSON B L,ALTERMAN R.Understanding promotions in a case study of student blogging[C]//Proceedings of the Third International Conference on Learning Analytics and Knowledge.ACM,2013:57-65.
[12] SOUTHAVILAY V,YACEF K,REIMANN P,et al.Analysis of collaborative writing processes using revision maps and probabilistic topic models[C]//Proceedings of the Third International Conference on Learning Analytics and Knowledge.ACM,2013:38-47.
[13] FERGUSON R,SHUM S B.Social learning analytics:five approaches[C]//Proceedings of the 2nd International Conference on Learning Analytics and Knowledge.ACM,2012:23-33.
[14] BLIKSTEIN P.Multimodal learning analytics[C]//Proceedings of the Third International Conference on Learning Analytics and Knowledge.ACM,2013:102-106.
[15] CLOW D.The learning analytics cycle:closing the loop effectively[C]//Proceedings of the 2nd International Conference on Learning Analytics & Knowledge.Vancouver,BC:ACM,2012:134-138.
[16] GRELLER W,DRACHSLER H.Translating learning into numbers:A generic framework for learning analytics[J].Educational Technology &Society,2012,15(3):42-57.
[17] SIEMENS G,GASEVIC D,HAYTHORNTHWAITE C,et al.Open Learning Analytics:an integrated &modularized platform[R].Eney:Solar,2011.
[18] NIEMNN K,WOLPERS M,STOITSIS G,et al.Aggregating social and usage datasets for learning analytics:data-oriented challenges[C]//Proceedings of the Third International Conference on Learning Analytics and Knowledge.ACM,2013:245-249.
[19] ARNOLD K E,PISTILLI M D.Course signals at Purdue:Using learning analytics to increase student success[C]//Proceedings of the 2nd International Conference on Learning Analytics and Knowledge.ACM,2012:267-270.
[20] BRAMUCCI R,GASTON J.Sherpa:increasing student success with a recommendation engine[C].LAK,2012:82-83.
[21] 吴永和.学习资源服务生态环境构建的研究[D].上海:华东师范大学,2009.
[22] ZHU Z.New Challenges for Developing e-Learning Technology Standards[C]//14th International Conference on Information Technology-Learning,Education and Training &ISO/IEC JTC1SC36Open Forum 2006,Wuhan,China,2006.
[23] WU Y,YU P,MA X,et al.Research on the Construction of a Learning Resource Service Eco-System Universe of Discourse[C]//International Conference on E-Business and E-Government.IEEE Xplore,2010:5506-5512.
[24] RITCHEY T.Analysis and synthesis:on scientific method–based on a study by Bernhard Riemann[J].Systems Research,1991,8(4):21-41.
[25] BIENKOWSKI M,FENG M,et al.Enhancing teaching and learning through educational data mining and learning analytics:An issue brief[R].Washington,DC:SRI International,2012.
[26] SIEMENS G,LONG P.Penetrating the Fog:Analytics in learning and education[J].EDUCAUSE Review,2011,46(4):30-32.
[27] VERBERT K,MANOUSELIS N,DRACHSLER H,et al.Dataset-driven research to support learning and knowledge analytics[J].Educational Technology &Society,2012,15(3):133-148.
[28] DATATEL[EB/OL].[2013-8-10].http://www.teleurope.eu/pg/groups/9405/datatel/.
[29] TEL Europe.DataShop[EB/OL].[2013-8-10].https://pslcdatashop.web.cmu.edu/index.jsp?datasets=public.
[30] KOEDINGER K R,BAKER R,CUNNINGHAM K,et al.A Data Repository for the EDM Community:The PSLC DataShop[M]//Handbook of Educational Data Mining.CRC Press,2011:43-55.
[31] VERBERT K,MANOUSELIS N,DRACHSLER H,et al.Dataset-driven research to support learning and knowledge analytics[J].Educational Technology &Society,2012,15(3):133-148.
[32] KAPTELININ V,KUUTTI K,BANNON L J.Activity theory:Basic concepts and applications[M]//Selected papers from the 5th International Conference on Human-Computer Interaction.London:Springer-Verlag,1995:89-201.