APP下载

教育大数据挖掘的学习者模型设计与计算研究

2020-09-14张涛张思

电化教育研究 2020年9期

张涛 张思

[摘   要] 数据科学在教学实践领域的深度融合应用,为推动智能化决策和个性化学习、实现精准施教提供发展方向。学习者模型作为数字化教育实践领域的核心部件,以内部心理机制和外部行为结构理解学习者在学习实践场域中的结构形态。研究在学习实践场域下,融合学习活动流作用机制,提出一种学习者模型设计通用框架,关注模型的结构特征和内部层级关系。结合粒计算和数据分析方法分别对通用框架中的本体模型、知识模型、认知模型、行为模型和情感模型进行设计与计算分析。最后,基于有序偶表达形式构造元组间有序递归的完整学习者模型结构列表,实现可共享、重组的学习者数据模型。

[关键词] 学习者模型; 模型设计与计算; 粒计算; 学习活动流

[中图分类号] G434            [文献标志码] A

[作者简介] 张涛(1984—),男,陕西汉中人。讲师,硕士,主要从事信息技术教育、学习分析技术研究。E-mail:slgzhangtao@163.com。张思为通讯作者,E-mail:djzhangsi@mail.ccnu.edu.cn。

一、引   言

随着我国教育信息化一系列重大战略规划的部署和落实,以及人工智能、大数据、物联网、移动互联等新一代信息技术在教育中的深度融合应用,教育现代化新生态系统得以逐渐形成。数据驱动的智能信息技术得以在学习过程中精准识别、精准教学,为构建个性化学习支持服务提供智慧方案。学习者模型(Learner Model)是对学习者特征属性的抽象化表示,是个性化学习系统的核心部件与关键环节[1]。随着学习科学和数据科学的发展,教育大数据分析学习者模型成为精准施教和个性化学习的关键。客观准确刻画学习者模型是开展智慧教育和终身学习的基础。文章在梳理已有学习者模型的基础上,从建模对象视角对学习者模型的本体、认知、行为、情感、知识五个特征自下而上构建模型,以粒计算和数据分析方法建立学习者数字画像,解释模型间关联逻辑,为个性化学习和学习者的全面发展提供智能化教学决策支持。

二、学习者模型的相关研究

(一)学习者信息模型规范

PAPI学习者信息模型作为IEEE1484.2的核心框架内容,以特征化描述学习者获取知识的过程,规范学习者信息在不同系统中的数据交换,并以语义和句法规范静态特征的学习者信息,侧重学习者内在关系的呈现[2]。CELTS-11模型在参照PAPI模型基础上[3],结合我国网络教育实际制定学习者信息模型规范。模型涵盖学习者各方面特征信息,特别在网络教育需求下,学习行为数据可在不同应用系统中进行数据交换和重用。IMS LIP(IMS Learner Information Package)作为国际通用学习者信息模型之一[4],采用XML标准数据框架支持学习者信息与其他类似规范的映射,描述学习者一般特征的数据模型,记录和管理与学习者有关的学历、目标和成就。模型包含11个核心数据类型,以子类间的相互关系及小粒度信息描述学习者的数据类型及层次结构。

(二)学习者模型研究

学习者模型是智能教学决策的基础。早期的学习者模型主要以知识结构为特征,从建模技术分别构建覆盖模型(Overlay Model)、摄动模型(Perturbation Model)、偏差模型(Buggy Model)、铅板模型(Stereotype Model)、贝叶斯模型(Bayesian Model)等反映学习者知识状态变化的学习者模型[5],通过抽取知识的普适特征描述学习者知识水平及掌握程度,但在学习实践场域中对问题的求解不能准确描述知识结构的变化及具体认知状态;特别在数字化学习中,移动性、离散化的学习形式对深度知识追踪表现不足,知识流动与创新无从体现。近年来,数据挖掘和学习分析技术为学习者模型构建研究提供了新思路,以学习元数据和xAPI技术框架为学习者建立数字画像,精准理解其内部心理机制和外部行为变化规律,构建开放、个性化的学习者模型。基于场景感知的学习者建模,可以从基本信息、学习风格、情感状态、兴趣偏好、社会网络、认知水平六个维度设计学习者特征分析模型,融合场景感知建模方法和频繁序列挖掘算法,计算不同学习场景下各维度学习者特征值,构建具有场景特性的个性化学习者模型[6];同时借助人工智能技术实现基于多模态感知的全时空多维数据采集,对学习者“知识、认知、情感、交互”等潜在特征进行挖掘,实现对智能教育场域中学习者知识构建模式、认知发展规律和情感发生机制的深层解析[7];此外,开放学习者模型作为一种个性化工具,在自适应学习环境中建立具有社会比较可视化功能的学习者模型框架,通过可视化的图形和颜色表征学习者对知识的认知过程,并以自适应知识导航,允许学习者查看和反思自己的知识掌握程度,发现迷思概念,促进元认知能力提升[8-9]。

(三)学习活动流

流(Stream)源于网络场域中信息双向传输,离散分布与动态连续,支持信息价值再生与回溯。流使学习活动通过统一的描述规范和运行机制跨平台采集不同学习服务系统的活动信息,反映学习者社交状态及信息共享。学习活动流(Learning Activity Stream)受活动理论关照,以活动行为呈现社会化学习的信息交换和系统服务,跨越各种学习平台以时间戳记录学习活动发展脉络。Maka Eradze从学习理论视角分析数字化学习生态系统中的交互模式,以Dippull活動流的命题形式显示主要交互活动,包括活动行为、活动对象、时间戳等学习发生的全过程,支持不同类型的学习分析[10]。郁晓华根据不同学习环境提供的学习支持服务,将学习事件汇聚的学习活动流以情境化注意元数据作为描述学习活动流的核心方法,呈现学习者在不同学习空间的活动轨迹和学习情境[11]。

三、学习者模型的构建

(一)模型的设计

模型是对客观对象本质特征的描述或塑造。数字化学习环境下的学习者模型应考虑三个问题,分别是模型的动态性、模型间的层级关系和模型的可计算性。学习者信息模型规范为建立静态学习者模型提供建模标准,以特征化描述模型内部结构和层级关系;学习活动流作为学习活动进程的双向流通路径,在教学实践场域中以跨平台的时间戳记录学习者的活动发展脉络,呈现学习者的知识、认知、行为、情感、交互等个体特征。大数据和学习分析的解析机制为客观理解学习者个体特征、建立可感知型学习者数字画像提供技术保障,实现学习者在认知水平、知识结构、行为活动、情感融合等领域多维度特征值的计算与分析。在教育大数据与教学实践深度融合应用的背景下,为更好地建立学习者数字画像,支持智能化教学决策和个性化学习支持服务的优化,文章提出学习者模型设计通用框架,该框架在融合学习者本体结构、内部心理机制和外部行为特征基础上,由本体模型、核心模型(认知、行为、情感)和知识模型三个模块组成(如图1所示)。

(二)模型的动态结构

系统动力学为理解复杂系统结构和动态行为特征提供新思路,主要取决于系统内部动态结构和反馈机制[12]。数字化学习环境中的学习者模型具有非线性、高阶次、复杂时变等动力学特征,特别在学习活动流情境中,学习环境、学习事件、社会交互等因素影响学习者模型的动态变化。模型的变化以子模型的协同变化为基础,呈现某阶段的学习水平和理解事物的整体程度。变化结果作为下一层级模型的初始值,引起下一层级模型内部结构调整更新子模型的协同关系;反馈机制作为系统动力学的重要环节,优化和修正学习者模型内部结构,促进结构稳定发展;主要表现为社会化交互、学习过程数据分析和形成性评价。每一层级模型的动态结构和反馈机制构成学习者模型的动力体系和迭代循环,层级间的模型转化由系列学习事件组成的学习活动流实现。

(三)模型间的层级关系

软件工程学运用内聚和耦合评估系统紧密度,以低耦合、高内聚原则提高系统运行效率。学习者模型由多个相关子模型组成,每个子模型又有若干个关联元素构成。内聚从功能视角度量一个模块内各元素的紧密度。学习者模型中认知模型、行为模型和情感模型作为功能内聚,每一模型代表学习者某方面功能特征,直接或间接影响其他功能模型的变化;耦合反映各模块间连接的强弱。学习者模型间耦合通过数据接口对不同模型数据进行调用、传递、控制和标记。如基于XAPI(Experience API)标准框架对学习行为数据进行规范化标记,分析学习者在线学习经历。

四、学习者模型的理解与计算

(一)学习者本体模型

1. 学习者本体模型的结构化表示

学习者本体模型是学习者模型的基础。本体技术(Ontology Technology)作为一种结构化表示方式,用规则描述概念及概念间的关系。学习者本体按逻辑顺序开展知识内容学习,以语义标注呈现各知识点的类型;知识点的继承、泛化、组合等关联关系由语义节点完成。当学习者本体LOMl在学习活动流的推进下,依据T时刻知识点类型Ok语义标注的更新,学习者本体开始自我更新;受时间因素影响,以时间顺序组成的学习者本体集合逐渐形成,其逻辑关系表示为:LOMl(Ti)→Ok(Ti)。Ti表示学习活动流中的某一时刻;LOMl(Ti)表示学习者模型在Ti时刻存在的状态;Ok(Ti)表示某时刻对应的知识点类型。根据本体技术和向量空间模型(VSM)表示法,学习者本体模型计算实现过程如下:学习者本体模型表示为LOM={基本信息(GL),学习风格(LS),兴趣爱好(LI),学习水平(LL),学习经历(LE)},学习者本体集合为LOM={Si|0≤i≤N},其中N表示学习者用户数。每个Si表示一个向量v={(lom1,Ok1,v),(lom2,Ok2,v),…(lomn,Okn,v)},lomn表示学习者本体,Okn表示知识点类型,v表示学习者本体与知识点之间的关系值。所有学习者本体模型的集合特征向量为,V={(lom1,v(lom1)),(lom2,v(lom2)),…(lomt,v(lomt))},T表示学习活动的时间值。

(二)学习者核心模型

1. 认知模型

在认知过程中,大量高度抽象化的信息根据各自特征和性能被划分为若干个块、类、群或组,该过程称之为粒[13]。粒计算作为人工智能领域的一种方法和计算范式,从不同粒度和侧面对模糊性、不确定性、不完整性信息进行处理,以寻找问题解决的相似方案,降低问题求解的复杂度[14]。认知科学认为,人类认知过程是自上而下、多層面视角对同一问题的观察和分析,或以局部特征自下而上不断凝聚成抽象事物;认知过程反映人类以有序递进方式从多粒度和多层次对事物形成理解(如图2所示),不同粒层对同一事物以不同粒度表示,粒层间的映射形成对事物不同细节的描述,即在不同层次粒的细化中,高层次的粗粒转化为低层次的细粒,低层次的细粒从不同视角形成对事物本质更丰富的理解;不同层次粒的泛化中,低层次的细粒转化为高层次的粗粒,形成从具体到抽象的映射关系,进一步揭示抽象概念[15]。

认知计算粒模型从数据入手,以认知行为的层级结构为基础,描述知识与数据间抽象与具象关系和粒层间切换关系,试图解决多粒度信息知识空间的动态演化、多粒度空间中不确定性、多粒度有效渐进式计算、智能计算前置和人机融合机制下的认知处理等问题。粒认知计算分别以自上而下(由粗到细)和自下而上(由细到粗)两种计算方式,为教育大数据求解学习者认知行为及问题求解过程提供了新思路。

2. 行为模型

文章依据学习行为多维属性特征进行数据建模,深度理解学习行为的模式、行为结构、发展机制。通过对网络学习系统的数据采集、处理、分析,理解和优化教学活动设计,为教师提供教学实践指导,助力新型教学模式的构建(如图3所示)。行为数据的产生者又是行为模型的构建者,使模型运行机制不断循环,数据迭代更新[16]。

(1)数据层。数据层以时间特性直接反映学习事件的序列过程。数据层由操作性数据、课程学习数据和交互数据组成。操作性数据是学习者完成学习任务所进行的系列操作性数据集,包括登录次数、下载资源、浏览公告等;课程学习数据以学习活动流为指向,记录学习活动序列过程的数据,包括阅读学习内容、观看视频、辨别学习材料等;交互数据是以学习成果或学习资源为阶梯促进知识资源再生过程,包括反思、总结、讨论等交互数据。半结构化和非结构化数据是数据层运行的核心,记录大量课程学习数据和交互性数据;通过数据标准化转换形成可运算数据,或是运用特殊分析工具解决非结构化数据问题。

(2)逻辑分析层。逻辑分析层关注行为数据的解释机制。分别从日志分析、学习活动分析、交互内容分析三个方面解释学习行为挖掘过程。日志分析通过分析日志挖掘系统各模块的访问数据,抽取有效数据形成行为目标对象;如发帖次数、帖子时间间隔、帖子被引次数等数据与学习者协作知识建构产生关联。学习活动分析以学习活动为流向,记录每一学习事件的组织结构关系,通过页面链接的多维复杂关系推测具有时间和事件双重特性的活动程序。学习事件承载知识流的离散与聚合,为多维层级学习活动提供关联路径[11]。交互内容分析是知识结构外化的表现,以知识资源再生与流动促进不同利益群体的协同;语义分析和会话分析以自然语义逻辑实现交互过程解析,以交互层级和深度衡量交互内容质量。

(3)结果层。结果层为分析结果的可视化表示,数字化学习系统为不同利益相关者(家长、教师、同伴、管理者)提供访问学习空间的数据接口,针对学习行为变化趋势给予及时干预,指导学习状态调整。对家长而言,为其提供随时了解孩子学习状态的通道,鼓励其积极学习,弥补教师角色无法替代的地位;对教师而言,实时跟踪学习者学习进度,及时掌握每位学习者的整体学习情况,了解学生存在的困难及下一步学习计划,有针对性地开展适宜的教学干预;对同伴而言,彼此分享学习心得,增进相互了解,修正和优化学习行为;对管理者而言,通过学习行为与课程绩效关联程度,合理配置教育资源,调整完善教育政策以促进教育均衡发展。

3. 情感模型

文章运用多模态情感分析原理,综合面部表情、文本情感、音频情感三类情感表征模块设计在线学习多模态情感计算模型(如图4所示),主要分为情感数据采集、情感数据处理与识别、多模态情感融合策略、情感干预与反馈四个方面。

(1)情感数据采集。该部分从文本情感、面部情感和音频情感多维度采集在线学习者情感数据。在线文本信息记录学习活动轨迹,反映学习者在线交互的知识建构过程及文本情感特征,针对语言表达中的语法与语句、隐式与显式的上下文信息实施数据采集;视频技术可方便采集学习活动中学习者面部表情和身体活动信息。特殊情况下,学习者的无状态、无意识动作信息也能表现当前情感信息。音频情感信息通常以视频或音频设备对学习者的语音、声音、韵律等语音信息特征采集。

(2)情感数据处理与识别。文本情感分析根据上下文信息提取情感词语进行编码,建立共享词向量表示的情感词矩阵空间,在空间中以词的向量实现词的组合并结构化表示情感类型;面部表情识别分析基于Ekman面部表情编码系统FACS(Facial Action Coding System),将面部表情中的喜、怒、哀、恶、惊五种情感特征以活动单元形式表达面部肌肉动作的情感特征;音频情感信息根据声音特征和情感特征间的联系,对基频、共振峰、梅尔频率倒谱系数(MFCCs)、线性预测倒谱系数(LPCC)等语音情感特征进行抽取,形成基于元音、基频、时间、振幅和共振峰为结构的韵律组合对不同类型音频情感信号进行识别;降噪处理成为提高音频特征抽取质量的关键,通过提升语音筛选抗噪性较好的语音特征,以模型补偿方式优化语音信号的特征识别[17]。

(3)多模态情感融合策略。多模态情感特征分析从文本、生理信号、视觉、听觉、视听混合等异构性多模态数据出发,以情感数据计算与度量模拟人脑对情感信息的融合与处理,提升情感分析系统的准确性,降低单模态分析对情感识别的偏差。目前,主要有特征层融合策略和决策层融合策略实现多模态情感数据融合。前者将两个及以上的情感模态特征进行同时融合处理,构建不同模态特征向量,实现情感类型分类和计算。后者则先进行两两模态特征融合,然后根据融合结果和决策融合机制再与另一种模态特征进行融合,最终获得统一的情感类型分类结果。相比于特征层融合策略对情感类型的识别效果,决策层融合策略则以模块化形式对不同模态特征进行融合,有利于简化情感模型的建立过程。

(4)情感干预与反馈。干预与反馈作为在线学习多模态情感计算模型的核心部件,面向教师、家长、管理者等利益相关者依据情感可视化分析结果参与学习者情感模型的构建,提出针对不同学习者情感状态的支持策略。情感干預从类型上分为过程性干预和总结性干预。过程性干预是根据情感持续性变化实施的干预策略,如对长时间处于消极懈怠的学习者给予补偿性心理救助,疏导心理障碍建立自信;总结性干预是以改善学习绩效为目的的干预活动,面向学习者推送补偿性学习资源和学习支持服务内容,以情感助手建立情感交互体系。

(三)知识模型

知识元作为知识结构的最小单位[18],如同生物细胞不断分裂与发展,在形成稳定知识结构基础上与外部环境彼此作用,生成错综复杂的知识体系,经知识传播与创新逐渐进化增值。文章以知识粒度化和知识元为原理,从知识元和知识组织视角试图呈现学习者知识结构组成及知识模型的构建(如图5所示)。

1. 知识元与知识结构

领域知识结构中,知识元作为知识内容的基本单位,由语义内容和语义链接组成独立知识实体,通过上下文语境范畴表达完整知识体系。文本逻辑的核心是文本层次划分。提取与学习主题中若干连续段落所共同表达的主题思想密切相关的主题词,设置权重函数,按照有序聚类法以层次结构对相同或相近主题词权重值进行聚类重组,建立名称、对象、内容、结论等特征词性的语义内容[19]。文本层次划分中,描述知识元属性的链接词被抽取出来,形成语义内容特征词间的关联关系。语义计算将语义内容与语义链接组合建立可描述知识元功能的属性,产生最小粒度的知识元。

2. 知识单元与知识库

知识单元继承知识结构的产生结果,以聚类、聚合度、连通性等知识优化组合方式增强知识间横向关联,形成颗粒度较大的知识结构。知识聚合度是衡量知识稳定性、迁移性、聚类性、重构性的重要指标,度量知识间链接的强弱关系。根据知识聚合度计算描述知识间的关联程度,并假定知识M1的活动数为A(M1),知识点M1和知识点M2的活动数为A(M1,M2),则M1,M2聚合度为I(M1,M2),若多个知识点M1,M2,......Mn的聚合度为I(M1,M2,......Mn),聚合度表达式为:

知识聚合改变原有知识间的链接关系,使知识间及内部结构发生重组、迁移,形成适应不同学习环境需求的知识组织,即新知识的产生以开放问题求解形式不断迭代与进化,促进人在不同领域知识群落的形成。知识增值充分挖掘个体隐性知识和显性知识的协同效应,以问题求解推动知识在个体间、团体间、组织间的扩散转移,形成知识增值与流动。

五、学习者模型的形式化表达

學习者模型计算以对象数据为基本单位,自下而上从数据细粒到数据泛化的进阶表征对象属性特征。文章从五个维度(本体、认知、行为、情感、知识)建立模型系统,以模型计算原理自下而上分别表征各子模型的生成,有序偶形式化表达模型整体结构,即将每一个子模型看作一个元组,元组间有序递归构造完整模型结构列表[20]。学习者模型元组表示为:LM=(LMO,LMC,LMB,LMA,LMK),其中LMO表示学习者本体模型,LMC表示学习者认知模型,LMB表示学习者行为模型,LMA表示学习者情感模型,LMK表示学习者知识模型;每个元组由有序偶< τ,ω,σ,LM >组成,其中τ表示学习活动流的时间维度,ω表示学习活动流,σ表示学习实践场域;学习者模型形式化表达为:

学习者模型针对现实情境下的特定问题,在智能化学习系统的综合作用下实现各子模型的协同求解过程;特别是在智慧教育和自适应环境下,随着学习主题的变化及个体需求的不同,学习者模型表现出智慧性与个性化特征。模型的表征为自适应个性化学习模型架构提供演化框架,准确识别学习者特征,跟踪学习进度,定位恰当的学习路径,匹配符合个性化需求的学习内容,推送适配的学习资源,确立适当的评价方式,有效提高学习者的学习效率。

六、结   语

教育信息化2.0深切关注人的全面、自由、个性化发展,注重学习者技术使能解决真实问题、形成高阶思维认知、全面发展核心素养的教育价值。教育大数据和学习分析技术的发展推动精准全面的数字时代学习者画像,推进个性化支持服务走向深入。学习者模型构建是数字化学习和教育大数据分析的核心,全过程在线学习数据元为学习者模型构建提供有力支撑。文章以粒计算和数据分析原理,自下而上对学习者的本体、认知、行为、情感、知识五个维度分别开展模型计算,通过子模型聚合和形式化表达努力构建一种各子模型协同发展的学习者模型框架,以满足网络教育和个性化教学的需求。当前,该模型尚处于探索阶段,后续将进一步对模型进行完善与优化,在实践中验证模型的有效性。

[参考文献]

[1] 岳俊芳,陈逸.基于大数据分析的远程学习者建模与个性化学习应用[J].中国远程教育,2017(7):34-39.

[2] 袁满,曹阳,陈萍.教育知识图谱构建中的标准词汇参考模型研究[J].电化教育研究,2020(3):76-82.

[3] 全国信息技术标准化技术委员会教育技术分委员会:信息模型[EB/OL].(2019-05-20)[2020-03-15].http://www.sdei.edu.cn/wcms/Services/AttachDownLoad.jsp?id=250203.

[4] IMS learner information packaging information model specification,final specification, version 1.0.1[EB/OL].(2005-01-04)[2020-03-15].https://www.imsglobal.org/profiles/lipv1p0p1/imslip_sumcv1p0p1.html.

[5] 徐鹏飞,郑清华,陈耀华,陈丽.教育数据挖掘中的学习者建模研究[J].中国远程教育,2018(6):5-11.

[6] 武法提,黄石华,殷宝媛.基于场景感知的学习者建模研究[J].电化教育研究,2019(3):68-74.

[7] 黄涛,王一岩,张浩,等.智能教育场域中的学习者建模研究趋向[J].远程教育杂志,2020(1):50-60.

[8] 姜强,潘星竹,赵蔚,等.学习者模型可视化认同感分析与效能评测[J].电化教育研究,2019(5):48-54,71.

[9] BULL S, KAY J. Open learner models as drivers for metacognitive processes[C]// International handbook of metacognition and learning technologies.New York:Springer Press, 2013:349-365.

[10] MAKA ERADZE, MART LAANPERE. Analysing learning interactions in digital learning ecosystems based on learning activity streams[J]. The European conference on educational research 2013(9):259-278.

[11] 郁晓华,顾小清.学习活动流:一种学习分析的行为模型[J].远程教育杂志,2013(4):20-28.

[12] 鞠雪楠,李小文,孙宝文.数字教育时代的泛在学习模型:系统动力学视角[J].教育研究与实验,2018(1):49-53.

[13] WANG Y.Cognitive informatics:exploring theoretical foundations for natural intelligence, neural informatics autonomic computing and agent systems[J].The international journal of cognitive informatics and natural intelligence, 2007, 1(1):1-10.

[14] 张清华,周玉兰,滕海涛.基于粒计算的认知模型[J].重庆邮电大学学报,2009(4):494-501.

[15] ZADEH L. Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic[J].Fuzzy sets & systems,1997,90:111-127.

[16] 黄荣怀,高博俊,王欢欢,等.基于教学过程感知的行为计算[J].电化教育研究,2020(6):20-25.

[17] 饶元,吴连伟,王一鸣,冯聪.基于语义分析的情感计算基数研究进展[J].软件学报,2018(8):2397-2426.

[18] 温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005(1):55-57,91.

[19] 王小根,邓烈君,王露露,范水娣.基于知识元的移动学习资源组织模式研究[J].电化教育研究,2017(1):86-92.

[20] 武法提,黄石华.基于多源数据融合的共享教育数据模型研究[J].电化教育研究,2020(5):59-65.