教育大数据环境下基于学习画像的个性化学习路径设计研究*

2019-07-12牟智佳李雨婷商俊超

中国教育信息化 2019年11期

牟智佳，李雨婷，商俊超

（1.江南大学教育信息化研究中心，江苏无锡 214122；2.陕西师范大学现代教学技术教育部重点实验室，陕西西安 710062）

一、研究背景

教育大数据背景下，本研究旨在将MOOC案例中的学习者行为数据与学习者特征进行耦合，构建学习者学习画像特征模型，并在此基础上交叉使用多种算法完成学习画像与个性化学习路径拟合系统，实现学习路径的生成及推荐，以期为学习者的学习过程提供更精准的路径导航服务，助力更多的学习者顺利并高质量地完成课程目标。

二、个性化学习路径研究现状与趋势

1.个性化学习路径内涵界定

经文献梳理发现，已有很多专家学者对学习路径进行了一系列概念界定，其中较具有代表性的是：姜强等学者认为个性化学习路径是基于以学习者为中心的教学设计思想，通过对学习者的个性化学习特征分析，将教学过程模块进行重组，形成更适合该学习者的学习活动序列，并进行学习过程的评价和指导，协助学习者进行知识的构建；[1]彭绍东则表示学习路径是学习者在一定的学习策略指导下根据学习的目标、内容、基础与环境条件，对所需完成的系列学习活动进行排序，是学习步骤的呈现或指引。[2][3]尽管对个性化学习路径的内涵界定存在差异，但从不同定义中可以看出，学习路径存在以下共同特征：提供明晰的学习路线，进行学习流程结构化处理、个性化推荐。基于此，我们根据学习者的学习特征及平台学习行为数据为其制定学习画像，在此基础上推送个性化学习路径，优化学习路径指导信息，并在学习过程中根据学习者的学习活动数据分析结果进行个性化学习路径的动态调整，以期帮助学习者完成学习目标。

2.个性化学习路径理论基础及算法支撑研究

目前，国内外已有许多关于个性化学习路径的研究，在理论基础方面，奥地利格拉茨大学的Nussbaume创建了适应性学习路径，以知识空间理论和布鲁姆目标分类法为指导，根据学习者的知识水平评价选择学习路径；[4]加拿大国家研究委员会Guillaume Durand则在图式理论的基础上根据学习风格、学习兴趣、知识水平和学习目标等特性，采用教育数据挖掘技术分析学习者特征，实现个性化学习路径推送。[5]在算法支撑方面较多的是遗传算法、模糊神经网络方法、文化基因算法、粒子群算法、蚁群算法等。其中具有代表性的是：李浩君等人采用遗传算法，对移动学习环境中个性化路径优化进行了研究；[6]檀晓红提出了基于遗传算法的个性化课程进化算法（PCE-GA），实现整个学习过程中课程的动态更新过程。[7]

3.学习路径定制及路径挖掘模型构建研究

前人已做了许多关于个性化学习路径或者个性化学习者模型的研究。美国匹兹堡大学Peter Brusilovsky列出了学习者行为模式评价指标，将其分为知识水平、动机、态度、兴趣偏好等，利用模糊神经网络算法整合并重新架构学习过程模块使之不断逼近评价体系数据，进而实现了基于有意义的学习理论的模糊神经网络方法制定学习路径。[8]姜强等学者基于Apriori All算法，对拥有相同或相近学习偏好、知识水平的学习者进行分类，根据一类学习者的学习行为轨迹搭建学习路径模型，通过学习者特征与学习对象媒体类型、理解等级、难度级别的匹配计算优化调整模型，最终能够生成精准个性化学习路径，可为差异化教学提供新思路。[9]

目前，国内外研究者从不同视角对学习路径进行了探索，并且开始关注学习路径的个性化和全面性，实现算法及理论支撑呈现多样化趋势，但已有研究主要集中在学习路径的制定、路径挖掘模型构建以及技术实现部分，侧重于通过相应算法构建学习路径模型及学习路径推荐系统的技术实现，但对MOOC环境下数据采集的粒度、数据源的整体分析归纳等方面依然存在数据源维度划分模糊、平台数据和学习者之间的耦合关系欠缺等问题。这是由于现有研究中的数据源多为平台上的行为数据，在数据整体分析及维度划分、数据与学习者之间的耦合等方面相对薄弱。针对上述问题，本研究将在数据整合及维度划分、数据与学习者进行耦合形成学习画像、基于学习画像实现个性化学习路径的设计等方面进行突破，形成一套个性化学习路径的推荐系统。

三、基于学习画像的个性化学习路径生成模型构建

1.学习画像构建

（1）数据源的准备分析

数据源主要有静态数据和动态数据两种。静态数据即随着时间的推移相对稳定的数据，主要为用户的基本信息。该类数据的主要来源为：①学习者基本属性数据，包括学习者的性别、年龄、年级等；②学习者学习风格数据。由于学习者的学习风格本身具有稳定性，本研究将学习者的学习风格数据归类到静态数据的范畴中。

过了没几天，吉尔金娜用那种渴求的目光对江大亮说：“江，你能帮我做一顿丰盛的晚餐吗？还像那天一样，做一道松鼠鱼。”江大亮说：“可以，今天下午我提前回来帮你做。”吉尔金娜就连蹦带跳地搂着江大亮说：“太好了，太好了，今天是我二十二岁生日，有你帮忙，我一定会过一个快乐的生日。”

动态数据是指在系统应用中随着时间变化而改变的数据，通常能直接反映事物的进程，包括用户的学习行为、浏览行为、访问网站、点击操作等，主要分为以下两类：①学习者网络行为数据，即学习者在网络环境中集中活跃时间段学习者频繁使用的社交软件，学习者在网络环境中在线或离线学习的表现、连续持续学习时长等，学习者搜索高频词、学习者浏览路径、学习深度、学习完成度、学习者热门收藏网站、评论内容、互动内容等；②系统反馈数据，即MOOC系统或任课教师单独提供给学习者关于学习情况的信息数据。

（2）学习者基础属性的归类划分

我们以学习模式偏好和学习内容偏好两个维度对学习者学习风格作交叉分类，并最终把学习者学习风格确立为传递接受式、自主探究式和合作学习式三类。传递接受式的学习者缺乏自主学习能力、学习方法和网络学习知识，学习较为被动，学习时间不规律且容易中断，需要MOOC平台教师进行监督引导，知识由教师直接传递给学习者，学习者在规定的时间内完成学习任务并将知识内化。自主探究式和合作学习式的学习者都有较强的自主学习能力，学习意愿强，认知结构水平较高，但自主探究式的学习者更倾向于在规定时间内独立完成知识学习和内化，而合作学习式学习者合作能力较强，目标性较差，存在较高的学习路径指导需求，这类学习者更倾向于通过明确责任分工的合作交流完成知识学习和内化。通过对学习者学习风格分类明确学习者认知方式差异性后，我们进一步把学习模式分为场依存型和场独立型。场依存型学习者易受外界环境因素影响，在做出判断时往往参照他人，需要教师为他们提供明确的学习目标和更多的监督。场独立型学习者自主学习能力强，在学习过程中能够独立对事物做出判断，但是他们的学习过程带有强烈的主观意愿，教师需要给予这类学习者积极的引导，以免偏离教学主线。

个性化的学习内容是个性化学习路径支持的学习系统中，学习者自定义的学习内容和系统根据学习画像组织的不同层次的学习内容的总和。学习内容的选择依据学习者画像中的学习特征画像，需要考虑知识结构、媒体形式和评价反馈三方面因素。知识结构即学习者对知识点的掌握程度和认知水平。媒体形式又分为视觉型、听觉型和动觉型，视觉型学习风格的学习者更倾向于图片、图表、视频的演示，喜欢在阅读和观察中学习；听觉型学习者对声音信息更为敏感，能在教师口头语言教授和同学讨论的过程中更好地学习；动觉型学习者喜欢通过身体的动作来帮助学习，如在课本上画线、做笔记，或者自己亲自动手实验，通过肢体的运动来强化记忆。评价反馈包含在学习过程中MOOC系统不断产生的形成性评价和最终测验中根据等级评定个性化学习路径工具判定的学习者所处学习阶段决定的评价内容。

（3）学习画像框架搭建

在前期学习者基础属性判定与数据收集处理的基础上，我们进一步分析了加涅的学习结果分类理论、布鲁姆的教育目标分类法以及适应我国教育实际的三维目标分类理论，以上理论经过横向相似性对比、纵向维度划分归纳，结合理论与数据做出如下学习者画像评价指标，其中参与度、兴趣度、专注性、学习深度、抽象能力、协作能力、基础知识、目标达成度等8个为分析目标，知识水平、学习兴趣和综合能力为三个维度。学习者学习画像特征模型如图1所示。

图1 学习者学习画像特征模型

2.基于学习画像的个性化学习路径（见图2）

本研究在结合国内外相关研究的基础上，以教育大数据为背景，以MOOC为研究案例，从学习者自身的学习模式和知识结构出发，结合学习者在MOOC平台的前期行为数据，并将其数据与我们的评价指标进行耦合，计算出学习者的学习画像。根据学习者的学习画像和相应的公式及算法，我们将两者进行拟合匹配，以期为学习者提供最优学习路径。该部分的核心步骤主要分为两步：首先通过AprioriALL算法、贝叶斯网络分别量化学习画像中的学习兴趣、知识水平和综合能力，进行学习质量评估实现标签数据量化，完成学习画像与学习路径的拟合系统；其次就是通过蚂蚁算法实现学习路径的动态更新、实时推荐，实现基于学习画像的个性化学习路径的生成及推荐。

图2 基于学习画像个性化学习路径的生成流程图

（1）学习画像与个性化路径拟合系统

本研究拟采用Apriori All算法，通过挖掘学习者选择的学习资源类型及其学习频率，得出学习者偏爱的资源类型与学习兴趣点，从而量化学习者的学习兴趣。Apriori All算法是关联规则中的经典算法，[10]主要原理是通过使用逐层搜索的迭代方法和关联规则，从大量数据中找出数据值中频繁出现的数据集合即频繁项集，[11]常用的频繁项集的评估标准有支持度和置信度两个。支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重，或者说几个数据关联出现的概率。置信度体现了一个数据出现后，另一个数据出现的概率，或者说数据的条件概率。[12]因在不同系统中需要设置不同的参数值，所以我们将不在这里做过多赘述。

在本研究中采用Apriori All量化学习者的学习兴趣主要分为五个步骤。①排序：扫描整个数据集，得到学习者学习态度序列，即学习者的学习兴趣序列。在此基础上对数据库进行排序整理，将原始数据库转换成序列数据库。②大项目集：利用关联规则挖掘算法，根据兴趣度和专注度的数据源，找出所有满足最小支持度阈值的频繁项集。③转换：实际上属于序列的辅助阶段，在序列阶段中，需要检查给定的学习兴趣大序列是否包含在学习者基本属性信息序列中，为了加速这一过程，就需要对复杂学习者属性信息数据进行转化。④序列：多次扫描数据源，在本研究中可将所有资源类型的学习兴趣进行排序，总共有15种类型，作为候选频繁项集，详情见表1。⑤最大序列：为了减少可能出现的多条冗余学习活动序列，可通过多轮扫描、排序、删减的方法在大序列集中找出极大序列。

表1 15类学习资源偏好排序

通过对学习分析领域主要的学习结果分类、计算及预测的算法进行横纵对比，我们拟选用贝叶斯网络算法，实现学习者知识水平、综合技能的量化计算。目前学习结果分类、计算及预测的算法主要有线性回归、逻辑回归、神经网络、决策树、贝叶斯网络等。线性回归和逻辑回归存在容错率低、不具有自学习能力和预测结果滞后等缺点，无法满足学习路径的动态计算与推荐。神经网络只能得到结果，没有计算过程及依据，而且神经网络对后台计算设备要求很高，技术实现部分存在困难点。决策树算法在分类时不够稳定，当扰乱或改动其中某些数据值时就会导致决策树重构。贝叶斯网络能够用条件概率把各种相关的信息纳入到一个网络结构中，具有自学习、处理不确定信息和动态适应等能力。[13]通过条件概率变化可以反映出网络中不同要素之间的因果关系和条件相关关系，最终对学生知识点掌握程度进行合理的计算、预测、量化，因此我们将贝叶斯网络作为量化的核心算法。

在本研究中采用贝叶斯网络量化计算学习者的知识水平主要分为四个步骤：①知识水平拓扑结构分析阶段。通过分析知识水平掌握情况的数据源确定贝叶斯网络的节点，通过专家审定确定贝叶斯网络结构，最终完成贝叶斯网络拓扑结构。②数据预处理阶段。首先对数据进行筛选，剔除重复、无效、异构的原始数据，然后根据数据离散化标准确定原始数据的离散，以此保证系统对数据的可识别性，最后进行不断调整完成拓扑结构的构建。③知识水平计算模型建立阶段。在贝叶斯网络拓扑结构基础上，用离散化后的数据进行参数学习，在此基础上不断进行迭代优化，最终形成知识水平计算模型。④数据分析及知识水平计算结果呈现阶段。学习者数据填入知识水平计算模型后，各节点概率发生变化，以此进行推理分析学习者的知识水平，并用数据的形式可视化显示学习者的知识水平。

（2）基于学习画像个性化学习路径的生成与推荐

算法是实现个性化学习路径推荐的关键，综合现有研究已经实现的学习路径推荐系统，本研究对常用的四种学习路径推荐算法进行比较，包括神经网络、蚁群优化方法[14]、遗传算法[15]以及粒子群算法[16]。其中，常见的神经网络包括模糊神经网络[17]、人工神经网络[18]两种。我们从参数设置、复杂程度、求解效率、算法优势、不足等五个维度进行比较，如表2所示。经过横纵对比不难发现蚁群算法是一种基于种群寻找最短路径的启发式搜索算法，用来寻找优化路径的概率，具有通用性强、操作简便、求解效率较快等优点。基于此我们拟采用蚁群算法来实现个性化学习路径的生成与推荐。

表2 学习路径推荐算法比较表

蚁群算法是根据概率转移公式逐步完成求解过程的，其中概率由动态更新的信息素和相对稳定启发信息决定。在本研究中我们把学习者学习画像中的特征数据源作为信息素，态度和认知两方面作为启发信息，通过蚁群算法中固定的公式和操作过程，即可完成基于学习画像的个性化学习路径的生成、动态变化、实时分析、个性化推荐，详情如图3所示。实现过程中主要步骤为：①根据学习目标实现参数初始化设置。本研究中将学习者的学习画像特征数据源作为信息素，将学习者的态度和认知这两方面所涉及的学习兴趣、认知水平和综合能力三个维度作为启发信息，根据学习者前期平台数据，结合实际数值完成信息素和启发信息的初始化设置。②启发信息计算。根据学习者前测数据确定学习路径的开端，在此基础上根据蚁群节点概率计算公式计算启发信息。③路径下一节点信息的动态更新计算。前期Apriori All算法及贝叶斯网络处理的数据信息成为学习画像的数据源，确保了信息素的实时动态更新。④根据路径最优原理完成降序排列形成学习路径，用数据形式展现下一节点的推荐指数，完成个性化学习路径推荐。

图3 蚁群算法实现学习路径推荐原理图

四、研究结果分析与讨论

1.研究结论

（1）基于学习画像的个性化学习路径推荐更具有精准性

现有研究中，多是先找寻几条典型的成功路径，然后进行推荐，这种学习路径推荐本身很难实现个性化。学习路径直接对接学习者本身，才是实现个性化学习路径推荐的前提。将学习者特征与平台数据进行耦合形成学习画像，在此基础上形成的个性化学习路径推荐更具有精准性。

（2）学习画像可以实现教育大数据环境下MOOC平台数据和学习者之间的耦合

当前，MOOC平台存在辍学率较高、学习者学习态度不积极等问题，造成了平台的部分行为数据并不适合进行直接分析应用。不结合学习者学习特征，单纯地分析学习者在平台上的行为数据，容易造成路径偏差甚至路径错误等问题。针对上述问题，我们认为在做研究之前应该对平台上的行为数据进行维度划分及筛选处理，而学习者的学习画像可以实现MOOC环境下平台数据和学习者之间的耦合。

（3）交叉使用多种算法实现不同维度数据的差异性处理使数据分析、处理、应用具有合理性

目前，国内外研究者从不同视角对学习路径进行了探索，并且开始关注学习路径的个性化和全面性，这就使数据源的分析角度、划分维度不断变化、增加。现有研究中，针对不同维度的数据仍然采用单一算法进行计算，难以实现不同维度数据的差异性处理。在本研究的学习画像与个性化路径拟合系统实现阶段，我们交叉使用了Apriori All算法、贝叶斯网络、蚁群算法来处理不同维度数据。

2.研究局限与展望

尽管本研究对基于学习画像的个性化学习路径进行了理论设计，但在个性化学习路径实践检验以及参数设置细节两个方面仍然存在不足：①个性化学习路径的可实施性仍需进一步实践检验。本研究基于学习画像的个性化学习路径进行了理论构想，因现实因素限制未进行技术实现以及实践检验。下一步我们将对该系统进行技术实现并在MOOC课程中进行实践检验及迭代优化，形成学习指导精准、导航清晰的个性化学习路径。②权重、置信度和支持度等参数设置需要进一步计算。在交叉使用多种算法实现不同维度数据的差异性处理时，因没有实际研究支撑所以只是进行了简单概述并没对各个参数进行具体的设置计算。

五、结语

个性化学习路径作为网络学习导航的重要参考，为学习指导提供了科学依据。当前由于MOOC平台高度自由导致的学生迷航现象，急切需要教师与相关研究人员将学习者的学习特征与平台行为数据进行耦合，以设计出符合学习者个性化的学习路径。本研究通过对学习结果分类理论、教育目标分类法以及三维目标分类理论的分析、对比、归纳、借鉴，对教育大数据背景下MOOC平台中学习者行为数据进行了维度划分，并构建了学习者学习画像特征模型。在此基础上通过交叉使用Apriori All算法和贝叶斯网络对平台行为数据进行差异处理，使其转化为具有信息价值的具体数值，设计出了学习画像与个性化学习路径拟合系统。在此基础上，运用蚁群算法，实现了个性化学习路径的生成与推荐，为学习者提供了精准的学习路径指导，降低了学生迷航率，为学习者提供了具体参考。