APP下载

在线教育平台中个性化学习资源推荐系统设计

2021-03-08李乡儒梁惠雯冯隽怡肖江平彭婉芬

计算机技术与发展 2021年2期
关键词:标签资料个性化

李乡儒,梁惠雯,冯隽怡,肖江平,彭婉芬

(1.华南师范大学 计算机科学学院,广东 广州 510631;2.华南师范大学 数学科学学院,广东 广州 510631;3.广州犀灵信息科技有限责任公司,广东 广州 511458)

0 引 言

随着大数据、云计算、移动互联等科学技术的不断发展和人们对教育需求的提升,以在线教育平台为主的“互联网+教育”模式得到了广泛的推广和普及。截止2019年6月,国内在线教育用户规模达2.32亿并呈快速持续扩张的趋势。目前,大多数的在线教育平台以整合优质网络课程和其他学习资源为用户提供服务。然而,面对海量的学习资源,用户很难快速地寻找到适合自己的学习资料,甚至可能出现“认知负荷”、“信息迷航”等问题。因此,能够根据用户的学习过程智能化分析其学习行为规律及认知特点、并提供个性化的学习资源推荐是当前在线教育平台的一个迫切需求。

大多数在线教育平台的个性化推荐都是围绕着用户的特征信息进行分析和建模。例如,通过用户的学习风格、学习兴趣等个性化特征信息构建推荐模型[1-2]。然而,这种推荐的结果往往比较粗糙,很难令人满意,一般适合于一些简单推荐。近些年,有研究开始尝试利用用户的行为特征信息去分析用户之间的相似度。例如,桂忠艳等通过计算用户的学习行为序列相似度,采用基于用户的协同过滤推荐建模[3-4]。然而,这些研究更多的是聚焦在用户的特征信息,忽视了对学习资源的挖掘分析。

该文设计了一个基于学习风格、资源偏好和行为序列的个性化学习资源混合推荐系统,在充分利用用户行为特征信息的前提下,结合学习风格和资源偏好,为用户生成个性化画像,进一步为用户提供学习反馈和个性化的学习资料推荐服务。

1 系统体系架构

设计的个性化学习资源推荐系统自下而上分为数据层、数据分析层和推荐计算层,应用于一个以人工智能类课程为主的在线教育平台的体系架构,如图1所示。

图1 个性化学习资源推荐系统的体系架构

1.1 数据层

1.1.1 用户库

用户库存储用户的特征信息,包括个性化特征信息和行为特征信息[5]。个性化特征信息是指用户自身所固有的,且不随时间发生变化或变化缓慢的信息。典型的个性化特征信息包括用户的年龄、性别、专业等基础信息,如学习风格等课程前测信息。个性化特征信息在数据形式的表现上为静态数据。行为特征信息是指随时间推移有显著变化的信息。例如,登录时间、点击次数、发帖等。这类信息在数据形式的表现上为动态数据。在该研究中,根据用户以下三种学习方式,对行为特征信息进行分类:

(1)自主学习,如观看视频、浏览学习资料等;

(2)反思学习,如提交作业、查看作业批改结果等;

(3)交流反馈,如讨论区留言等。

1.1.2 资源库

资源库由知识资料、学习资料和标签资料组成。知识资料包括知识块和知识点。在所实施的《模式识别》案例中,以章节的划分及中小标题作为知识块,以各章节内容所出现的定理、算法、数理名词等作为知识点。学习资料是指以知识资料中的知识块、知识点作为关键词进行网络爬取,并做一定的人工筛选后的内容资料。

标签集是指系统中用于概述学习资料的内容与形式的概括性描述。标签不仅简洁、直观地概述了学习资料,便于用户快速阅览和选择,而且能够将其转化为相对应的文本字段[6],便于数据的深度挖掘和分析。在所实施的《模式识别》案例中,从内容和形式两个方面设计了7类标签,具体如下:

(1)内容:知识块(标签值:中标题、小标题);知识点(标签值:算法、定理、梳理名词)。

(2)形式:语言(标签值:中文、英文);类别(标签值:推导、实现、总结、推广);载体(标签值:文字、图片、视频);数据集(标签值:MNIST、sklearn data、其他);编程语言(标签值:java、c++、python、其他)。

1.2 数据分析层

1.2.1 用户分析

系统通过对用户的个性化特征信息和行为特征信息的量化、统计和建模,对其进行挖掘分析,包括用户之间的相似度分析、资源偏好分析和用户画像。

用户之间的相似度分析是进行用户推荐建模的基础。它是通过用户的特征信息来计算用户之间的相关程度,从而确定用户之间的相似度,并把相似用户称为“邻居用户”,然后将“邻居用户”所选择的学习资源推荐给当前用户。

资源偏好是指用户对学习资源的内容和形式的偏爱、喜好等倾向性要求。例如,有的用户喜欢以文本为载体的学习资料,而有的用户则喜欢视频类型的学习资源。在该系统中,使用TF-IDF算法[7]计算用户下每一类标签的标签值所占的权重,从而可得出用户的资源偏好。

用户画像是建立在一系列真实数据之上的用户模型。它可以从多角度描述用户的学习特点。与大多数仅用个性化特征信息构建用户画像的在线教育平台不同,该系统既结合了用户的个性化特征信息,也考虑了行为特征信息,定量和定性地构建了用户的个性化画像[8-9]。例如,通过用户的课程前测信息得出学习风格;通过对用户的浏览时长、浏览学习资料的频率等行为特征信息统计得出其学习的常用模块序列、知识兴趣点、知识难点、作业详情等。用户可以通过个性化画像了解和掌握自己的学习情况,便于调整学习策略。

1.2.2 资料分析

将标签、点击数(阅读量)、评论数等作为学习资料的属性特征。系统通过对学习资料属性特征的量化、统计和建模,进行学习资料的相似度分析和质量分析等。

学习资料之间的相似度分析是基于学习资源推荐的建模基础。它是将学习资料的标签作为特征来计算学习资料之间的相关程度,从而确定学习资料之间的相似度,并把相似资料称为“邻居资料”,然后将“邻居资料”推荐给当前用户。

学习资料的质量分析主要是通过对点击数(阅读量)、评论数等属性特征的统计分析,可在一定程度上过滤掉劣质内容。

1.3 推荐计算层

1.3.1 基于学习风格的推荐

在线学习平台通过引导用户完成具有较好可信度的课前学习测评任务,分析得出用户的学习风格。进而,系统根据用户的学习风格进行相应的学习资源推荐。该文采用Felder-Silverman模型[10]的4个维度对用户的学习风格进行划分,分别是信息加工、信息感知、信息输入和信息理解,具体见表1。

表1 学习风格显式分类

1.3.2 基于行为序列的推荐

基于用户的个性化特征信息的推荐虽然被广泛应用,但是这种推荐往往比较粗糙。因此,这类方法一般适合于简单推荐,而对于复杂一些的推荐任务则很难得到令人满意的结果。近些年,有研究开始尝试利用用户的行为特征信息去分析用户之间的相似度。该系统以桂忠艳等[4,11-12]对网络学习行为数据的研究为基础,对用户相似度计算的稳定性进行改进。

1.3.2.1 相似度计算

(1)行为序列相似度的计算。

用户的行为序列用有限集S表示:

{(z1,y1),(z2,y2),…,(zn,yn)},n≥2

其中,(zi,yi)表示第i个元素对,zi表示访问模块,yi表示相应操作,按照行为发生的先后顺序依次记录在集合中。为了描述的简洁,将元素对(zi,yi)中的元素连接组成的字符串ziyi用si表示,称之为用户的第i个状态串。

状态序列是行为序列中每个元素对中的元素依次链接形成的字符串。例如,用户S的状态序列用状态串可表示为“s1s2…sn”,记为S=s1s2…sn。状态序列S的状态子序列定义为S(i)=sn1sn2…sni,其中,1

令用户A和B的状态序列分别为A和B,则行为序列的相似度[4]由以下计算公式给出。

sim=α×simseq(A,B)+β×simtrans(A,B)+

γ×simvalue(A,B)

(2)基于时间衰减效应的用户相似度计算。

用户在不同时间段的学习行为对预测其学习行为具有不同的贡献。一般来说,发生时间越靠近的行为更能体现用户的学习兴趣,对用户之间相似度的贡献也越大。为提高近期的行为序列对相似度计算的重要性,引入时间权重函数WT。

其中,SA为用户A所有的行为序列集,DA,Si表示用户A生成的行为序列与其最早生成的某行为序列的时间间隔;LA表示用户A行为序列的时间跨度;α∈(0,1)为权重增长指数。故用户A和B之间的基于时间衰减效应的用户相似度计算如下:

sim(A,B)=

在分析用户之间的关系时,仅考虑行为相似度是不够的。造成相似度极高的原因有很多,例如,在较短时间内不能观察到用户长期行为的差异。然而,在实际应用中需要对用户之间的关系进行更精准、更稳定的描述[13]。为此,该文提出相关系数的概念,即通过分析一段时间内相似度的变化,得到该时间段内用户之间的相似度。假设平均相似度为simavg,方差为simdx,则相关系数(RC)可通过下式计算:

因此,两个用户的关系越相近,平均相似度变化越大;反之,平均相似度变化越小。

1.3.2.2 基于行为序列的推荐原理

为了解决传统的最近邻协同过滤推荐由于用户规模扩大导致搜索的时效降低难以满足系统的实时性需求问题[14],该系统首先采用K-Means算法对用户进行聚类,然后在用户的聚类空间内计算行为序列相似度,最后根据确定的“邻居用户”将其所选择的学习资源推荐给当前用户。

1.3.3 基于资源偏好的推荐

系统通过TF-IDF算法计算出用户下每一类标签的标签值的权重大小,获得用户的资源偏好,进而得到学习资源推荐的依据。例如,对于喜欢文本类的用户,系统更多地向其推荐文本载体的学习资料。

1.3.4 基于学习资源的推荐

系统通过标签计算学习资料之间的相似度[15],并把相似资料称为“邻居资料”,然后将“邻居资料”推荐给当前用户。

1.3.5 混合推荐机制

由于每一种推荐方法都有其优缺点和适用特定的场景,而且,用户在进行线上学习的过程中,也是一个不断变化的动态过程,故仅仅考虑一种推荐方法进行学习资源推荐不一定符合实际的应用情形。由此,提出了一种基于上述4种推荐方法的混合推荐机制。

在课程学习初期,根据用户的课前学习测评获得用户的学习风格,采用基于学习风格的方法推荐学习资料;随着用户学习时间的增加和交互的增多,对用户的学习行为进行挖掘分析,采用基于学习行为的方法推荐学习资料;同时,可以通过用户的行为数据获得用户的资源偏好。采用了以基于资源偏好的推荐为主、学习资源推荐为辅的协同过滤推荐。该混合推荐机制如图2所示。

图2 混合推荐机制

2 推荐系统业务流程

前述1.3节介绍了文中推荐算法的基本原理,这些算法基于对学习风格、资源偏好和行为序列的分析可给出个性化学习资源混合推荐系统。该混合推荐系统的流程如图3所示。

图3 推荐系统业务流程

进一步描述如下:

第一步:用户登录。获取用户信息和课程信息。

第二步:判断用户是否初次学习该课程。若是,引导用户完成课前学习测评任务,分析得出用户的学习风格,根据用户的学习风格进行相应的学习资料推荐。

第三步:行为特征信息收集。系统采集行为特征信息的相关数据,如:登录时间、点击次数、发帖等。

第四步:分析用户的资源偏好、计算用户之间的相似度和学习资源之间的相似度,根据混合推荐机制向用户推荐学习资料。

第五步:判断用户是否退出系统。若否,则跳转至第三步。

3 系统应用

文中的个性化学习资源推荐系统已应用于华南师范大学数科院所开设的《模式识别》和《数据挖掘导论》课程教学中。系统通过充分利用用户的学习行为数据,结合学习风格和资源偏好,为同学们推荐优质的学习资料。与此同时,向授课教师和学生反馈教学和学习情况。其中,图4展示了用户的课程信息,图5为系统作业详情及学习资源推荐内容。表2是对资源模块的说明。

表2 资源模块说明

图4 课程信息

图5 作业详情及学习资源推荐内容

图6为某一学生的用户画像与反馈,其中的三幅统计图表展示了作业分析情况。通过对该生的学习行为进行分析,发现其常用学习序列如下:

图6 用户画像

(1)课件浏览-资料A点击-资料B点击-课程讨论区-作业查阅。

(2)作业查阅-课件浏览-资料点击-课件浏览-资料提交-作业提交。

学生从常用学习模块序列的反馈中可以知晓自己的学习路径。这有助于学生进一步了解自己的学习过程和学习行为规律,也方便授课教师了解学生的学习特点。

4 结束语

设计了一个应用于人工智能类课程的个性化学习资源推荐系统,该系统包括数据层、数据分析层和推荐算法层。系统在充分利用用户学习行为数据的前提下,结合学习风格和资源偏好,综合4种推荐方法制定了混合推荐机制为用户提供个性化画像、学习反馈与学习资料推荐的服务,当前处于第二个学期的试用阶段。

猜你喜欢

标签资料个性化
为小学英语个性化合作学习单做加法
Party Time
PAIRS & TWOS
JUST A THOUGHT
不害怕撕掉标签的人,都活出了真正的漂亮
让衣柜摆脱“杂乱无章”的标签
科学家的标签
科学家的标签
同桌宝贝
资料哪去了/等