APP下载

基于大数据技术的学习分析系统架构

2014-10-31余明华马晓玲吴永和

关键词:海量架构学习者

冯 翔, 余明华, 马晓玲, 吴永和

(1.华东师范大学 上海数字化教育装备工程技术研究中心,上海 200062;2.华东师范大学 教育信息技术学系,上海 200062;3.华东师范大学 信息学系,上海 200062)

0 引 言

近年来,跨平台、跨设备的数字化教育服务发展迅速,而且社交网、微博、微信、电子邮件等各种网络服务也越来越快速地融合到数字化教育服务中.在这样的学习环境中,用户与学习系统的交互、用户之间的交互、用户与设备的交互、用户空间与时间状态等都无时无刻不在产生数据.这种数据符合大数据的4 V特性:海量(Volume)、多样性(Variety)、速度(Velocity)和真实性(Veracity),给传统的教育数据存储和分析带来了挑战.

“大数据”这一概念及其对应的技术簇在行业和科学界获得了极大的成功,并且正在孕育“数据科学”这一崭新的科学领域.解决大数据时代的学习分析问题,离不开大数据理论和技术体系的支撑.本文提出了教育大数据背景下学习分析的需求和研究对象,并基于Hadoop技术生态设计了学习分析系统架构,将其应用于智能数字化教育服务.

1 学习分析及其应用服务研究现状

首届学习分析与知识大会将学习分析定义为“测量、收集、分析和报告有关学生及其学习环境的数据,用以理解和优化学习及其产生的环境的技术”[1].目前,国际上学习分析的研究方向主要集中于学习分析服务(包括开放数据集服务)框架、分析方法、工具与可视化工具领域;而国内目前主要集中于综述和应用分析[2-6].

1.1 学习分析服务模型与框架

数据集框架方面:dataTEL[7],LinkedEducation[8],PSLC dataShop[9]在开放数据集服务方面提供了很好的借鉴;美国教育部提出了NEDM[10];Verbert设计了一套教育数据集框架[11];Abelado提出了在LMS之外获取学习相关数据的方法[12];Hangjin等设计的是针对CMS的日志记录和分析的工具Moodog[13];Ferguson等认为学习分析在技术上面临的一个挑战是如何从这样的“大数据”提取价值信息[14].总之,数据集的研究还有很多问题需要解决,如数据标准化、多源、收集方式等方面的问题.

Wolfgang提出的通用学习分析服务设计指导框架[15],为建设一个学习分析服务系统提供了思维蓝图;Siemens提出了开放学习分析平台来满足各类学习系统和环境中的学习分析需求[16];LAK2012发起了数据治理研究[17];马晓玲等以形式化方法系统的分析了学习分析系统论域,信息空间模型等[18].总之,学习分析服务领域的研究处于起步阶段.

1.2 数字化教育服务

Knewton[2]、Moodog[13]、ASSISTments[19]等以学习分析为基础提供了较好的数字化教育服务.“国家基础教育信息资源服务体系架构与共享机制”,“多视角下的上海教育资源网格构建的研究”,“社会计算环境下e-Learning教育应用创新研究”,“下一代互联网教育创新支持项目”等项目从技术、机制与创新模式方面研究了数字化教育服务的各方面问题.“跨平台智能教育服务平台”项目研究了学习行为数据收集、建模与可视化等.上海数字化教育装备工程技术研究中心建设项目子项目“下一代数字化教育公共服务平台”资源服务部分,对动态学习资源模型进行了深入研究[20],为基于动态化学习资源的学习行为数据采集和服务打下了基础.

2 智能数字化教育服务对学习分析的需求

从不同利益相关者,如学习者、教师、研究者、决策者和教育机构,分析其学习分析的需求.

2.1 动态分析与静态分析的典型场景

动态分析:当学生在数字化学习环境中学习的时候,系统能够根据其所在的学习活动状态,动态地捕捉其需求.比如,某个学生在某个知识点上停留的时间比其他学生明显较长,系统可判断该学生对此知识点要么非常感兴趣,要么存在理解困难(也有可能表示离开学习环境),则系统在后台快速进行分析并给出一组相关的辅助资源,同时进行适当教学干预.

静态分析:在个人学习环境中,对于大量学生完成的一天、一周、一月、一年等长时间的学习活动记录进行分析.其中涉及的信息将包括社交信息、blog信息、email信息、学习状态等,其数据量将不断增加,需要利用大数据分析平台进行分析.教育研究者和教育机构能够通过大量的数据进行科学研究和决策支持研究.

2.2 面向多种用户需求的分析

教师关心的是学生的学习状态,如何提高学生学习的效果,并据此进行动态调整.然而传统的技术无法跟踪和分析学生的状态,教师必须时刻依靠自身能力关注每个学生;并且即便教师能够在这种情况下对每个学生了如指掌,由于时间和资源限制,他也没有办法实时针对每个人进行个性化的辅导和干预.因此教师需要既能帮助其分析每个学生的学习状态,又能辅助进行实时个性化教育的功能;学生在学习过程中关注学习社交网络的建立,个性化资源的推送,个人学习状态的跟踪和调整等.

对决策者需要从宏观上把握区域内的教育需求,这必须从大量数据的分析获得.教育研究者希望能够有大量的数据,并能基于这些数据进行科学研究.

3 智能数字化教育服务中学习分析的主要对象

3.1 教育资源存储与访问

当前对教育领域海量资源的存储和整合,大多是为消除“信息孤岛”而建立的大规模数据中心,将资源存储在分布式文件系统中.这种方式尽管实现了资源在物理层次的整合,但由于没有考虑教育领域资源之间的特有语义关联性,无法对学习资源按照知识特征、用户访问特征和认知依赖关系进行组织和调度,造成了海量教育资源的存储组织模式与访问效率之间的矛盾.同时,这种传统的分布式文件系统还不能很好地支持大规模并行分析计算工作,因此在分析效率和效果上存在瓶颈.故需要在教育资源模型技术与海量数据存储与分析之间找到一个结合点.

3.2 学习者的学习过程

学习过程记录着学习活动的全部信息,记录着学习者学习能力、学习效果等关键信息.这些信息是全面掌握学习者的学习现状并进行有效干预的关键所在.比如可进行如下分析:①依据学习者有效登陆时间和登陆比值来分析学习者的学习意愿;② 依据回应时间分析学习者的学习专心度;③ 用学习相关比率来分析学生是否利用线上讨论区进行闲聊而非学习的情况.总之,这类分析能根据具体情况和需求确定各种变量和模型,从而可以从多方面、多维度了解学生的学习情况.

3.3 群体的联通学习

学习是一个过程,这种过程发生在模糊不清的环境中,学习(被定义为动态的知识)可存在于学习者自身之外(在一种组织或数据库的范围内).因此,可将学习过程理解为专业知识的连接.这种连接能够使学习者学到比现有的知识体系更多、更重要的东西.联通主义表达了一种“关系中学(Learning by Relationships)”和“分布式认知(Distributed Cognition)”的观念[21].将当前的各种社交应用整合到个人学习空间已经成为学习环境设计的一个重要方向;而在此环境中学习活动的联通性数据将成为学习分析的一个重要对象.

3.4 动态知识地图构建

知识地图是一种智能化的知识管理工具,能够将知识管理活动中的主体、资源及相互关系连接起来形成一种动态可变的网络结构.知识地图的定义虽然各不相同,但其共同点是:①都能以可视化的方式展现知识的结构和内在关系;② 知识地图是一个导航工具或智能化的模型,它揭示了知识的来源,提供给用户一个人机交互的平台,方便知识的交流和共享[22].因此知识地图在学习服务中具有重要的作用.然而由于学习服务后台具有大量的教育资源和不断变化的学习过程记录,导致采用传统理论技术构建知识地图比较困难.此种情况下可应用大数据平台和学习分析的技术手段,根据海量教育资源以及个人学习情况的动态变化来构建动态知识地图,从而提供更好的学习服务.

4 基于大数据技术的学习分析系统架构设计

4.1 设计思路与原则

马晓玲等阐述了学习分析系统中的数据流分析模型,如图1所示[18].事实上,基于学习分析的智能数字化教育服务的核心思想就是关于数据的采集、分析与应用、服务.基于学习分析的智能数字化教育服务的目标是能够为各类学习环境、资源库、教育机构信息化项目提供学习分析服务,其设计遵循如下原则.

图1 学习分析系统中的数据流分析Fig.1 Analysis on dataflow of data in learning analytics system

(1)数据是下一个“Intel Inside”,需要采集与存储并重考虑

基于学习分析的智能数字化教育服务需要以教育大数据的思路来提供服务,平台和核心价值就在于海量信息分布式存储与分析.平台需要广泛且持续地从各类数字化学习环境和传感器中采集数据,这些数据是为各类利益者提供高质量服务的关键.同时,教育大数据对存储提出了较高的技术要求,必须要有设计良好的大数据基础设施来保障安全和灵活地存储.

(2)可扩展的学习分析模型和算法模块,满足不断变化的需求

基于学习分析的智能数字化教育服务为各类利益相关者提供服务,这些利益相关者包括学生、教师、教育决策者、教育资源提供商、数字化学习环境提供商和服务开发商等.未来数据驱动的业务特性将使得围绕数据分析的需求不断增长,而其中的关键是分析算法,需要设计可按需扩展的算法扩展模块,尤其是面向大数据的并行算法等.

(3)SaaS和PaaS相结合的服务模型

基于学习分析的智能数字化教育服务既要面向服务消费者,也要面向服务创造者.教育SaaS模型和PaaS模型可以分别提供学习分析和教育可视化服务的功能.对于最终服务消费者,平台以SaaS模型提供教育可视化服务;对于服务创造者,平台以PaaS模型提供学习分析服务.

4.2 总体架构

马晓玲等提出了学习分析系统架构[18],该架构演进自Solar整合式学习分析系统[16].根据上文提出的SaaS和PaaS相结合的服务模型原则,本文对其进行补充,形成如图2所示的智能数字化教育服务架构.从技术视角看,则可简化为如图3所示的系统架构.

图2 学习分析系统架构Fig.2 Learning analysis system architecture

在基于学习分析的智能数字化教育服务上,电子书包系统、资源库系统、学习环境和教育管理系统调用学习分析数据汇聚系统的数据采集功能.因此数据被学习分析数据汇聚系统所收集,学习分析分布式计算系统从数据汇聚系统获取数据,并进行分布式计算处理,这些处理包括存储、索引,以及针对不同的数据模型所进行的分布式实时分析技术任务,这些任务可采用Map Reduce计算模型.学习分析与可视化服务同样是基于Map reduce计算模型的各种针对教育大数据的扩展服务,这些服务可被电子书包系统、资源库、学习环境、教育管理系统、教育PaaS和教育SaaS所调用.学习分析与可视化服务系统是一个开放的系统,开发者通过教育PaaS进行扩展.

图3 基于学习分析的智能数字化教育服务架构Fig.3 Intelligent digital education service support platform architecture based on learning analysis

4.3 学习分析分布式计算系统主要功能组件

图4所示的基于Hadoop学习分析分布式计算系统架构.其中的学习分析分布式计算系统是整个服务架构中的关键部分,主要应用Hadoop技术生态来实现教育大数据的处理和存储.Hadoop是一个分布式存储系统,在其上的分布式计算模型Map reduce支持在计算机集群上以分布式方法处理大型数据集,这种分布式存储和计算模型支持水平、线性扩展.以Hadoop为核心已经形成了一个完整的大数据生态体系,包括常用实用程序、分布式文件系统、分析和数据存储平台,以及一个负责管理分布式处理、并行计算、工作流与配置管理工作的应用层.

Sqoop是在SQL和HDFS之间进行数据转换的Apache开源框架工具.关系数据库和Hadoop之间形成互补.对于目前存在的各类教育系统,关系数据依然占有重要的位置,充分利用这些数据就可能用到Sqoop.

图4 基于Hadoop的学习分析分布式计算系统架构Fig.4 Learning analysis distributed computing systems architecture based on hadoop

Flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集日志数据,且可提供对数据进行简单处理的功能,其主要目标是从应用向Hadoop HDFS系统传送实时日志数据.因此,各类非结构化的学习过程数据、学习日志、网站访问日志等都可以利用此系统进行处理.

在Map Reduce框架中,Ext:DIS是分布式索引与检索扩展(Extend model:Distributed Indexing&Searching),它依据教育领域的各种数据模型提供索引和检索功能.Ext:DRC(Extend model:Distributed real-time computing)是分布式实时计算扩展,它针对教育领域的实施大数据进行分析计算,如前面提到的实时推荐应用场景,联通学习应用场景等.

E-HDFS框架是教育大数据存储管理的基础,它基于流数据模式进行访问,主要包括学习行为模式、教育资源模式和联接主义学习模型.

HBase是系统的数据库,也是基于Hadoop,其本身是开源的分布式存储系统.由于教育数据的结构具有多样性的特点,采用HBase适合存储非结构化数据.

4.4 学习分析系统的主要功能与服务

(1)海量学习日志记录与分析

学习系统的可用性和用户行为对于优化系统至关重要.本文设计的架构整合一个海量学习日志的收集与分析功能,针对Web环境中的学习环境服务器提供普适的学习分析数据汇聚接口,采用Hadoop Pig或Hive和Flume进行大规模日志收集与分析.该功能架构[23]主要包括数据汇聚、分析和报表三个模块:在数据汇聚模块中应用服务器承载各类学习环境,将学习环境产生的日志信息发送给Flume代理节点;Flume进而将其发送给Hadoop集群进行分析,并将结果存储到HBase数据库,从而为用户提供查询服务.学习日志分析架构如图5[23]所示.

图5 学习日志分析架构Fig.5 Learning log analysis architecture

(2)海量教育资源存储与分析

系统为海量教育资源提供分布式存储、索引、分析功能.其作用在于提供高可靠性的海量存储、快速查询与获取,根据海量资源进行后台分析,构建知识地图,从而提供智能和个性化的基于教育资源的学习服务.系统先对教育资源采用教育大数据存储模型进行收集预处理,然后发送给Hadoop集群进行分析,最后通过MapReducer模型处理得到分析结果.存储和分析的过程原理如图6所示.

图6 教育资源存储与分析过程Fig.6 Education resource storage and analysis process

(3)多用户仪表盘服务

仪表盘是学习分析服务的关键组成部分.经过数据收集分析后,仪表盘以可视化的方法辅助用户进行教学决策和学习干预.它服务于四类用户:学习者,教师,研究者和教育机构.用户可以通过仪表盘读取相应信息,平台根据用户类别的不同特性提供相应个性化、可视化的内容和效果.

(4)学习干预

学习干预是一项服务,可识别学习者的行为模式,是对学习者学习产生影响的介入手段.各类学习环境调用这项服务就可以为学习者提供智能化的学习干预服务,其目的在于为增加、改进和改善用户的绩效进行努力和尝试.这些干预包括资源的推送、数字化学习模式的选择等.

(5)学习分析开放式服务

基于学习分析的智能数字化教育服务所提供的开放式服务归纳起来主要包括:海量数据存取和数据分析服务.开放式服务以教育SaaS和教育PaaS的形式提供.

5 学习分析应用案例

在上海科委项目——“跨平台智能教育服务平台设计”中,学习者在二维码增强的纸质图书上学习,遇到需要拓展学习的时候,通过二维码应用,扫描图书中的二维码以获得丰富的扩展学习资源[24].系统记录所有扫描行为相关的学习数据,包括学习者信息、知识点信息、位置信息、时间信息等等.对这些数据进行分析,一方面可以为出版机构编制更具有针对性和个性化的资源和图书提供决策支持;另一方面,还可以为学习者推送具有针对性和个性化的网络辅助媒体资源.图7所示是对学生通过智能终端扫描二维码的统计.从这些数据可知,学生在编号0677-00对应的知识方面普遍需要扩展资源的支持.这为后续图书设计、资源设计提供了可靠依据.

图7 资源访问统计分析Fig.7 Statistical analysis of resource access

随着用户使用次数的增多,平台将相关数据记录进行获取和存储,从而为教育决策、教师教学干预和学生个性化学习提供全方位服务.

6 结 语

本文从大数据视角提出,利用Hadoop技术生态构建基于学习分析技术的智能数字化教育服务架构.该方案主要目标是解决海量教育信息的汇聚、存储与获取、可扩展按需分析与分析报告可视化呈现等,从而为智能数字化教育服务提供支撑.

使用Hadoop技术簇来搭建大数据平台已经得到了广泛认同,但在教育领域应用Hadoop还存在诸多领域技术问题需要解决.下一步我们将在本文所设计的架构下:① 解决教育领域数据包偏小,且大小不符合Hadoop HDFS系统对文件固定分块存储之间的矛盾.②根据教育数据的特征设计适合Hadoop中关于存储和MapReduce计算模式的数据模型与分析算法.③ 充分发挥Hadoop分布式计算能力,为个人学习空间提供实时流分析服务,从而支撑智能化资源推荐和实时学习干预.④开发学习分析工具包.

[1] SIEMENS G.Learning and Knowledge Analytics Knewton the future of education?[EB/OL].2012[2014-01-07].http://www.learninganalytics.net/?p=126.

[2] 顾小清,张进良,蔡慧英.学习分析:正在浮现中的数据技术[J].远程教育杂志,2012,30(1):20-27.

[3] 李艳燕,马韶茜,黄荣怀.学习分析技术:服务学习过程设计和优化[J].开放教育研究,2012,18(5):20-26.

[4] 顾小清,黄景碧,朱元锟,等.让数据说话:决策支持系统在教育中的应用[J].开放教育研究,2010(5):99-106.

[5] 顾小清,林仕丽,袁海军.教育数据30年:从CMI到DDDM[J].电化教育研究,2010(9):55-63.

[6] 李青,王涛.学习分析技术研究与应用现状述评[J].中国电化教育,2012(8):129-133.

[7] DRACHSLER H,VERBERT K,SICILIA M,et al.dataTEL-Datasets for Technology Enhanced Learning[R/OL].2011[2014-01-07].http:∥www.academia.edu.

[8] DIETZE S,YU H Q,GIORDANO D,et al.Linked education:interlinking educational resources and the Web of data[C]∥SAC′12.New York:ACM,2012.

[9] PSLC DataSHOP[EB/OL].[2014-02-26].https://pslcdatashop.web.cmu.edu.

[10] U S Department of Education.Education Data Model[EB/OL].[2014-01-07]http://nces.ed.gov/forum/datamodel/Information/aboutThe.aspx.

[11] VERBERT K,DRACHSLER H,MANOUSELIS N,et al.Dataset-driven research for improving recommender systems for learning[C]∥LAK′11.New York:ACM,2011.

[12] PARDO A,KLOOS C D.Stepping out of the box:towards analytics outside the learning management system[C]∥LAK′11,New York:ACM,2011.

[13] ZHANG H,ALMEROTH K,KNIGHT A,et al.Moodog:Tracking Students’Online Learning Activities[C]∥World Conference on Eductional Multimedia Hypermediaand Telecommunications.Vancouver:AACE EDMEDIA,2007.

[14] FERGUSON R.The State of Learning Analytics in2012:A Review and Future Challenges[R].Technical Report KM-12-01.[s.l.]:Knowledge Media Institute,2012.

[15] GRELLER W,DRACHSLER H.Translating Learning into Numbers:A Generic Framework for Learning Analytics[J].International Forum of Educational Technology &Society,2012,15(3):42-57.

[16] SIEMENS G,GASEVIC D,HAYTHORNTHWAITE C,et al.Open Learning Analytics:an integrated &modularized platform:Proposal to design,implement and evaluate an open platform to integrate heterogeneous learning analytics techniques[R/PL].[2014-02-26].SOLAR.http://www.solaresearch.org.2011.

[17] GRAF S,IVES C,LOCKYER L,et al.Building a data governance model for learning analytics[C]∥LAK′12.New York:ACM,2013.

[18] 马晓玲,邢万里,冯翔,等.学习分析系统构建研究[C]∥2013教育信息化暨电子课本与电子书包标准及应用国际论坛,上海:华东师范大学,2013.

[19] Worcester Polytechnic Institute.Assistments[EB/OL].[2014-02-26].http://www.assistments.org/.

[20] 冯翔,殷月明,吴永和.融合软件商店和 Web聚合的SaaS软件开发模型[J].电信科学,2012,28(11):67-73.

[21] SIEMENS G.Connectivism:A learning theory for the digital age[J].International Journal of Instructional Technology and Distance Learning,2005,2(1):3-10.

[22] 李大鹏.基于本体的学科知识地图构建研究[D].武汉:华中师范大学管理科学与工程,2011.

[23] MALHOTRA M,TAORI P.Hadoop and Pig for Large-Scale Web Log Analysis[EB/OL].[2013-02-21].http://www.devx.com/Java/Article/48063.

[24] 冯翔.基于二维码技术的纸质教辅书服务平台[J].华东师范大学学报:自然科学版,2013(6):193-201.

猜你喜欢

海量架构学习者
基于FPGA的RNN硬件加速架构
一种傅里叶域海量数据高速谱聚类方法
功能架构在电子电气架构开发中的应用和实践
你是哪种类型的学习者
十二星座是什么类型的学习者
海量快递垃圾正在“围城”——“绿色快递”势在必行
WebGIS架构下的地理信息系统构建研究
汉语学习自主学习者特征初探
一个图形所蕴含的“海量”巧题
高校学习者对慕课认知情况的实证研究