基于教育数据挖掘的个性化自适应学习系统研究

2019-08-02徐焱

中国教育信息化·高教职教 2019年6期

徐焱

摘要：随着大数据时代的到来和在线学习的蓬勃发展，个性化自适应学习日益成为人们关注的热点。本文从教育数据挖掘的目标和关键技术出发，在个性化自适应学习系统中应用教育数据挖掘技术，研究了学习者模型、领域知识模型和社交网络模型的构建、融合和应用，设计出基于教育数据挖掘的个性化自适应学习系统的架构和流程，探讨了模型的构建和个性化自适应学习引擎机制的建立，提出了基于聚类的个性化自适应学习内容呈现、基于序列挖掘和关联规则的最佳学习路径推荐、基于协同过滤和社交网络的个性化资源推荐方法。

关键词：大数据;教育数据挖掘;个性化自适应学习

中图分类号：TP393 文献标志码：A 文章编号：1673-8454（2019）11-0060-06

一、引言

随着信息技术和互联网技术的快速发展，人们越来越多的行为发生在网络中，网络中的数据呈现爆炸式增长，人们已经被网络信息淹没，但却时常感叹缺少有用信息，于是，数据挖掘技术应运而生。通过数据挖掘技术，我们可以收集、处理规模庞大而复杂的数据，从而获得知识和洞见。在教育领域，一直未能真正解决“因材施教”的问题，学生的学习能力、学习习惯、行为偏好、知识水平、兴趣爱好等方面都存在个性差异，教师一般按照自己的认知授课，很少关注学生真正的个性需求，不能实时跟踪学生的知识掌握情况，也就无法及时对学生的学习策略作出调整。随着在线学习的蓬勃发展，越来越多的学校、教师、学生认可并积极参与在线学习，通过在线学习系统，学习者可以获得优质的学习资源，但是，目前大多数主流的在线学习系统仍然是照搬传统的教学模式，以课程为中心而非以学生为中心，没有真正收集、挖掘、利用学生的学习过程数据，因此造成了在线学习完成率低下。随着“大数据时代”的到来，数据挖掘技术的快速发展，为在线学习平台实现个性化自适应学习提供了可能。

本研究设计的个性化自适应学习系统可以全面实时记录学习者的学习过程，通过教育数据挖掘对学生的学习数据进行加工、处理、利用，及時给予学生反馈信息，预测学生的学习趋势，动态呈现个性化自适应学习内容，规划学习路径，推荐个性化学习资源，最终实现学生的个性化自适应学习。

二、教育数据挖掘概述

大数据是指无法在一定时间内用传统数据库软件工具进行获取、管理和处理的数据集合。[1]大数据需要使用数据挖掘技术才能从中挖掘出价值，获取知识和洞见。与传统数据相比，大数据具有4V特征：数据量大（Volume）、种类多样（Variety）、时效性强（Velocity）、价值巨大（Value）。

教育数据挖掘是指应用统计理论、数据挖掘和机器学习方法对教育大数据进行获取、处理以及利用，发现存在于教育大数据背后的潜在模式，挖掘教育大数据背后的潜藏价值。[2]通过构建数据模型，发现学习者学习结果与学习时长、学习内容、答题正确率等一系列特征的相关关系，来预测学习者将来的学习趋势，从而对学习者进行指导和干预;挖掘隐藏在教学评价、学生成绩等数据中有用的知识和规律，为教师优化教学提供支持和决策。

1.教育数据挖掘的研究目标

教育数据挖掘主要有四个研究目标：

①通过整合学习者的知识水平、学习风格、学习背景、学习需求等详细信息构建学习者模型。

②通过探索教学内容、教学顺序与学习者学习结果的相关关系，构建最佳教学内容、教学顺序的领域知识模型。

③通过研究学习者远程协同学习交流等信息，构建学习者社交网络模型。

④通过融合学习者模型、领域知识模型和学习者社交网络模型，构建数据计算模型，实现学习者个性化自适应学习，促进有效学习的发生。

2.教育数据挖掘的关键技术

为了实现以上四个研究目标，需要采用以下五种教育数据挖掘技术：

①聚类。根据数据本身特征将它们合成若干簇，在聚类过程中要求簇内数据相似度尽可能大而簇间数据相似度尽可能小。聚类主要用于对学生进行分组，以便开展个性化教学。

②预测。通过整合多个变量来预测某一变量的值或值区间。例如：根据学生的网上学习时间、单元测试情况、发帖数等预测学生课程成绩或该课程学习是否会失败。

③关联规则。通过置信度和支持度探索变量之间的关联关系。例如：研究者通过关联规则挖掘学习者学习行为与学习成绩的相关关系，结果反馈作用于指导和干预学习者的学习行为。

④可视化。可视化是用一种人们易于理解的方式描述数据，以便人们可以快速区分和辨别数据特征。例如：姜强等研究者采用统计和可视化的方法用不同颜色、进度条、图、表等工具显示学生的学习进度、学习时间、学习次数以及学习者社交网络等信息，以激励学习者学习。[3]

⑤社交网络分析。社交网络分析是对在线社交关系进行分析的方法，通过发现学习者之间的关系，来实现资源推荐。研究者采用社交网络分析计算远程协同学习中学习偏好相似度，来实现个性化资源推荐。[4]

三、基于教育数据挖掘的个性化自适应学习系统

每个学习者有不同的生物遗传基础，来自不同的社会文化环境，在智力和非智力因素方面有突出的个体差异，表现在认知、情感、注意力、态度、学习能力、学习动机和需求等方面，即使同一个学习者在不同的学习时段学习需求也不同。[5]而传统的统一教学内容和方式不能满足学习者的个性化学习需求，不利于学习者学习和成长。解决这一问题的方法之一就是个性化自适应学习。教育数据挖掘的发展为个性化自适应学习提供了可能，通过对学习系统中大量详细的学习者信息和相关行为数据，如学习路径、学习日志、学习成果、学习管理数据、课程数据等的采集、存储和挖掘，根据学习者个性特征差异为学习者提供个性化学习内容，以可视化方式呈现数据结果，促进学习者自适应学习;帮助教师优化教学内容，提升教学水平;发现学习者潜在的学习问题并预测未来表现，教学管理者根据预测结果进行指导和干预，促进有效学习的发生。

1.在个性化自适应学习系统中应用教育数据挖掘

在个性化自适应学习系统中应用教育数据挖掘主要包括：[6]构建学习者模型、构建领域知识模型、构建社交网络模型、模型融合，通过模型构建、融合和应用促进学习者有效学习的发生。

（1）构建学习者模型

构建学习者模型包括学习者建档、构建学习者知识模型、经历模型、行为模型等四个方面。

①学习者建档：采集学习者学习相关数据和个人信息数据，通过聚类分析学习者的学习特征，对学习者进行分簇，建立学习者档案，为不同簇的学习者提供个性化学习内容和学习路径，促进有效学习的发生。本研究通过对学习者学习新知识前进行前驱知识测试，为学习者建立学习档案，根据学习者的不同特征，为学习者呈现个性化和适应性的学习内容。

②构建学习者知识模型：学习者的在线远程学习数据，包括回答正确率、请求帮助的次数、每次回答的时间、重复答错的数据，这些数据可以是课程层次的、也可以是单元层次的或者是知识点层次的。通过挖掘分析，构建学习者知识模型。可用于可视化显示学习者的知识掌握情况，也可用于系统自动反馈学习内容给学习者。本研究通过收集个性化自适应系统中学习者学习每一个学习单元的详细数据，为学习者构建学习者知识模型，一方面用于可视化显示学习者的真实学习情况，另一方面用于自动判断学习者是否已掌握本单元学习内容，如果未掌握，则根据学习者知识模型给学习者自动反馈个性化自适应学习内容。

③构建学习者经历模型：通过采集学习者在后续单元或课程学习中的选择、表现、行为和学习效果以及学习者学习满意度问卷调查等数据，构建学习者经历模型，使用该模型可以对在线远程学习中的课程再设计，提高教学效率和学生学习成绩。

本研究通过收集学习者在课程学习中单元学习顺序的选择、行为、学习结果和学习者满意度问卷调查等数据，构建学习者经历模型，一方面通过预测方法预知学习者下一步的学习需求，为学习者提供个性化的自适应学习内容，另一方面通过关联规则挖掘学习顺序、行为和结果之间的相关关系，优化课程学习顺序，为优化领域知识模型提供支持。

④构建学习者行为模型：通过采集学习者在线远程学习中的学习时长、完成课程的学习情况、学习行为的变化情况、考试成绩等数据，挖掘学习者学习行为和学习成绩的相关关系，构建学习者行为模型。本研究通过收集学习者在在线远程学习中的学习时长、学习次数、测试完成情况、发帖数、任务完成度和学习成绩等数据，以关联规则挖掘构建学习者行为模型，预测学习者课程学习失败的可能性，把预测信息反馈给教师和管理者，及时对学习者进行指导和干预。

（2）构建领域知识模型

构建领域知识模型：领域知识模型包括领域知识的组成元素和元素之间的关系。通过采集知识点、课程单元和课程内容组织方式与学习结果之间的相关关系，对现有领域知识模型进行优化。根据优化的领域知识模型，可以为学习者推荐最佳学习路径。本研究依据联通主义理论，将课程知识点以有向图的方式形成知识地图，一方面构建领域知识模型，另一方面以可视化方式呈现给学习者。此外通过对学习者经历模型的构建优化现有领域知识模型。

（3）構建社交网络模型

构建社交网络模型：通过采集在线远程学习中的协作与交流数据，形成链接学习者的社交网络，构建学习者的社交网络模型。

根据学习者的关系网络模型进行偏好预测，预测结果推荐给学习者;也可以根据社交网络模型，计算协作者之间的内聚力，对协作进行评价和干预。构建社交网络模型，一方面进行偏好预测，推荐个性化资源给学习者，另一方面可视化显示学习者的社交网络，学习者可以查看同伴的学习进度等信息，激励学习者自主学习。

（4）模型融合

模型融合包含两方面的含义：一方面构建学习者模型和领域知识模型完成后，这两个模型任意一个单独使用都无法为学习者提供帮助，两个模型必须融合才能给学习者提供服务。例如，对学习者建档完成后，已经了解学习者的前驱知识掌握情况，这时必须结合领域知识模型，才能给学习者提供个性化适应性学习内容。又例如，根据答题时间和重复答错的数据构建学习者知识模型完成后，再结合领域知识模型，为学习者呈现个性化自适应学习内容。另一方面，模型融合还体现在通过构建学习者经历模型，来优化领域知识模型。

2.基于教育数据挖掘的个性化自适应学习系统模型及流程

本研究提出了基于教育数据挖掘的个性化自适应学习系统模型，如图1所示，下面详细分析本模型的运行流程。

①在本系统中，学习者根据学习需求选择学习单元，在开始学习之前，系统为了解学习者的单元前驱知识掌握情况（包括概念、过程性知识、技能和高级思维技能），为学习者提供学前测试。

②根据学习者的学前测试，采集答题正确、答题错误、每题用时等数据，采用聚类方法对学习者进行建档，个性化自适应学习引擎根据建档结果和领域知识模型，为学习者呈现个性化自适应学习内容。

③学习者学习过程中的全部行为数据会自动采集到学习者数据库中，包括学习需求数据、学前测试数据、学习过程数据、单元测试数据等，此外该数据库还包含学习者的个人信息详细数据。

④学习完成后，系统会给出一个单元测试，根据学习单元测试数据，构建学习者知识模型，一方面可视化显示这些详细数据给学习者，让学习者全面了解单元学习结果;另一方面，对于测试未通过的学习者，个性化自适应学习引擎根据学习者知识模型和领域知识模型，给学习者提供新的个性化自适应学习内容。

⑤系统会自动采集学习者数据库中的学习者行为和测试数据，通过关联规则挖掘学习者行为和测试成绩的相关性，构建学习者行为模型，个性化自适应学习引擎再根据学习者最近一周的学习行为数据，实时预测学习者课程学习失败的可能性，把预测信息反馈给预警管理模块，教师和管理者及时对学习者进行指导和干预。这种实时预警可以及早发现学习者当前的异常情况，尽可能地避免学习者学习失败。

⑥系统自动采集学习者数据库中的学习经历等数据，通过关联规则挖掘单元学习顺序与成绩之间的相关性，构建学习者经历模型，个性化自适应学习引擎再根据当前学习内容，预测学习者下一个学习需求，为学习者呈现个性化自适应的学习内容。另一方面根据学习者经历模型，对领域知识模型进行优化。

⑦将知识点以有向图的方式形成知识地图，地图中的知识点分为前驱知识点和后继知识点以表示知识点之间的相关关系。本系统以此为基础构建领域知识模型，并根据学习者经历模型对领域知识模型进行优化完善。个性化自适应学习引擎根据领域知识模型，一方面系统可以为学习者推荐最佳学习路径，另一方面系统还可以根据学习者当前学习路径和设置阈值判断学习者是否偏离最佳学习路径，如果偏离，则对学习者进行引导，实现学习者个性化自适应学习。

⑧系统自动采集学习者数据库中的协作交流数据，构建社交网络模型，个性化自适应学习引擎采用协同过滤技术，计算学习者间偏好的相似度，进行偏好预测，找出学习者可能感兴趣的内容或活动，给学习者推荐个性化资源，另一方面可视化显示学习者的社交网络，学习者可以允许或不允许同伴查看自己学习进度等信息，激励学习者自主学习。

在本系统中，学习者学习数据循环使用并且实时更新，图2中每一个模块的内容随着数据的实时更新而更新。首先学习者学习产生的数据进入学习者数据库，系统根据学习者数据库的数据构建学习者模型、领域知识模型和社交网络模型，个性化自适应学习引擎根据这些模型和学习者实时的行为数据，进行预测和推荐，给学习者呈现动态的、个性化的、适应的学习内容，找到最佳学习路径并推荐个性化资源。学习者对新内容的学习过程产生新的数据，再次进入学习者数据库，系统根据新的学习过程数据不断对学习者模型、领域知识模型和社交网络模型进行优化，再结合学习者当前学习数据进行预测和推荐，将动态结果呈现给学习者，此过程循环往复，系统能够不断进化，自我改善和提升，使推荐和预测的内容更适应学习者。

四、建立机制

在本系统中，学习者模型、领域知识模型、社交网路模型和个性化自适应学习引擎是核心部分，下面介绍这四部分的机理和机制。

1.学习者模型

学习者模型（学习者建档、行为模型、知识模型、经历模型）。其中学习者建档包括学前测试中的答题正确、答题错误、部分正确、重复错误、每题作答时间等信息。行为模型包括登录时间、访问页面、学习时长、学习次数、测试完成情况、作业完成情况、发帖数、任务完成度和测试成绩等信息。知识模型包括单元测试中答题正确率、每题用时、重复答错，已学课程、掌握的知识点等信息。经历模型包括知识点学习顺序的选择、行为、评价和成绩。

2.领域知识模型

領域知识模型包含两方面的内容，[7]一方面是知识点本身的描述信息、学习内容（视频、文本、图片、语音）、练习活动、学习活动、知识网络信息;另一方面是知识点之间的相关关系。本研究采用有向图的形式来构建领域知识模型。如图3所示，每一个节点代表一个知识点，每个知识点又包含多项内容。箭头指向的方向为后继知识点，箭头的起始端为前继知识点。如知识点3的前继知识点为知识点1和2，后继知识点为知识点4。

每一个知识本身都是一个独立的学习内容，学习者可以在任何时候获取需要的知识，自主选择知识点内的资源、学习顺序等。起始的领域知识模型可以按照教材或者教师的经验来构建，后期可以通过对学习者学习经历模型的挖掘，发现知识点之间的相关关系，不断优化和完善领域知识模型。

3.社交网络模型

社交网络是指社会行为者及其关系的集合。社交网络图包含节点和点之间的连线。节点表示信息的接收者和发出者，连线的粗细，表示信息传递的频率或信息量的大小。[8]本研究根据学习者之间的交流协作次数来构建社交网络模型。例如在图4中，学习者11与学习者2、3、4、12和10有过协作交流，而且与学习者10的交流最为频繁。

4.个性化自适应学习引擎

（1）基于聚类的个性化自适应学习内容呈现

个性化自适应学习内容的呈现主要体现在两方面，一方面是针对学习内容的初次学习，根据学前测试情况对学习者聚类建档，为不同类型的学习者提供个性化适应性学习内容;另一方面是针对学习完成后单元测试情况，根据作答数据，构建或更新学习者知识模型，如果测试通过，则本次单元学习完成，如果测试未通过，则根据详细作答数据自动反馈适合学习者的学习内容。

聚类就是把一组对象按照相似性归成若干簇，使簇中对象的相似度很高，而不同簇中的对象相似度很低。通过采集学前测试的数据，根据聚类方法对学习者聚类分组，给学习者建档。本研究采用K-means均值算法，根据学习者的答题数据对学习者聚类。算法的核心思想是首先从聚类N个对象中选择K个对象作为聚类中心，然后计算剩余对象到聚类中心的距离，并将它分配给最相似的聚类，然后重新计算新聚类的聚类中心，重复这一过程，直到没有点能改变聚类结果。本研究根据学前测试即前驱知识测试作答情况，进行二次聚类。第一次聚类将学习者分为两簇：A和B，簇A的对象表示通过学前测试，可以进行新知识的学习;簇B表示未通过学前测试，需要补习前驱知识的学习。第二次聚类，簇A中的对象根据不同的知识掌握情况、答题速度等分为不同的层次，系统提供不同层次的学习内容;簇B中的对象根据前驱知识的欠缺情况再细化分簇，为不同簇提供适应个性化知识的学习内容。

（2）基于序列挖掘和关联规则的最佳学习路径推荐

学习路径包含两个层次的内容：一个是知识点内资源组织路径，因为每个知识点可能包含多种不同的资源;另一个是知识点之间的学习路径，学习者可以自由选择知识点的学习顺序，不一定是按照课本的顺序，有可能是按照同伴的学习路径。

序列挖掘算法是给定一个序列集合，每个序列都由若干元素按顺序有序排列，设定用户给出的最小支持度阈值。序列挖掘模式是找出所有的频繁子集，即在序列集合中出现的频率不小于最小支持度阈值的子序列。[9]本研究通过采集用户访问页面的顺序，建立学习者行为模型，通过序列挖掘方法，找出相关页面，尽可能缩短相关内容页面分布的距离，在用户学习一些内容的时候，能够预测用户下一步的学习需求，為用户提供便捷的路径指引。

关联规则能够找出数据集中不同项目之间的相关性，关联规则有两个重要指标：支持度和置信度。假设I={i1，i2，i3，…im，}是m个项的集合，数据库D是数据库事务的集合，每个事务T是I的非空子集。X、Y是I中项的集合，如果X?T，则称事务T包含X。支持度（support）是数据库D中的事务，同时包含X、Y的百分比;置信度（confidence）是数据库D中的事务，在已经包含X的情况下，包含Y的百分比。如果同时满足最小支持度阈值和最小置信度阈值，则认为关联规则是有趣的，[10]这些阈值是根据挖掘需要人为设定的。本研究通过采集学习者知识点学习顺序和成绩等数据，建立学习者经历模型，通过关联规则分析学习顺序与成绩之间的相关性，从而得出最佳学习路径，用于优化知识模型和推荐学习路径。

（3）基于协同过滤和社交网络的个性化资源推荐

协同过滤是目前推荐效果最好的算法之一，它的核心思想是计算用户之间的偏好相似度，并进行推荐。本研究通过构建学习者之间交流协作的社交网络，来计算学习者之间的兴趣偏好相似度，进而进行推荐。在图4中，学习者11与学习者2、3、4、12和10有过协作交流，而且与学习者10的交流最为频繁。这说明学习者11与学习者2、3、4、12、10可能存在相似的学习需求，或者对相同的资源感兴趣，我们可以认为他们有相似的学习偏好，而且学习者11与学习者10的偏好相似度最高，我们可以把学习者10学过的资源或者感兴趣的资源优先推荐给学习者11。这种推荐最显著的优点是不需要研究资源本身的内容，就可以进行效果较好的推荐，毕竟很难对资源本身的内容进行分析研究。

五、结束语

随着大数据技术的发展，越来越多的学习者和教师认可在线远程教育并参与其中，越来越多的行为可以被跟踪和记录，为实现学习者个性化自适应学习提供了可能。本文在个性化自适应学习系统中，应用教育数据挖掘技术，提出了基于教育数据挖掘的个性化自适应学习系统的架构和流程，研究了构建学习者模型、领域知识模型、社交网络模型和自适应引擎的机制，通过模型构建、融合和应用，为学习者提供了动态的个性化自适应学习内容、最佳学习路径并推荐了个性化学习资源，促进了学习者有效学习的发生。在后期研究中，我们将进一步研究基于教育数据挖掘的个性化自适应学习系统的改进方法和具体应用效果。

参考文献：

[1]赵刚.大数据技术与应用实践指南[M].北京：电子工业出版社，2013：4-5.

[2]江波，邱飞岳，李浩君.教育数据挖掘研究综述——技术的视角[J].计算机与教育，2014（8）：112-122.

[3]姜强，赵蔚，王朋娇，王丽萍.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育，2015（1）：85-92.

[4]Yang F，Han P，et al.A novel resource recommendation system based on connecting to similar e-learners[J].Springer Berlin Heidelberg，2005（3583）：122-130.

[5]姜强，赵蔚，王丽萍，李松.个性化自适应学习研究——大数据时代数字化学习的新常态[J].中国电化教育，2016（2）：25-32.

[6]徐鹏，王以宁，刘艳华，张海.大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志，2013（6）：11-17.

[7]马相春，钟绍春，徐妲.大数据视角下个性化自适应学习系统支撑模型及实现机制研究[J].中国电化教育，2017（4）：97-102.

[8]葛道凯，张少刚，魏顺平.教育数据挖掘方法与应用[M].北京：教育科学出版社，2012.

[9]夏明波，王晓川，孙永强，金士尧.序列模式挖掘算法研究[J].计算机技术与发展，2006，4 （4）：4-6.

[10]蔡伟杰，张晓辉，朱建秋，朱扬勇.关联规则挖掘综述[J].计算机工程，2001，5（5）：31-33.

（编辑：王晓明）