APP下载

一种基于残差网络的在线学习资源个性化推荐方法

2022-06-15李鹏闵慧丁长松

教育现代化 2022年22期
关键词:互信息特征选择残差

李鹏,闵慧,丁长松*

(1.湖南中医药大学 信息科学与工程学院,湖南 长沙;2.湖南信息职业技术学院 软件学院,湖南 长沙)

一 引言

疫情防控常态化的背景下,“停课不停学”是一种常态化教学要求。在线教学也成为“停课不停学”的主要途径[1]。不同于传统课堂学习,线上教学中师生被置于不同的空间,一方面弱化了教师对学生的监督和指导作用,另一方面降低了师生间的互动频率及互动效率,不利于学生对知识的理解、整合及应用,大大降低了教学效果和教学质量。那么,在常态化疫情防控的特殊时期,学生如何基于线上学习有限的条件最大程度地利用线上教学资源实现自主学习、深度学习,成为我们亟须解决的问题。同时,激增的在线教学平台、海量的教学内容及多样化的教学资源在某种程度上又极大地增加了学习者的学习难度,学习者如何从海量的学习资源中筛选出适合自己的学习资源已成为在线学习领域的一大难题[2]。

二 相关工作

在线学习资源的个性化推荐问题是目前研究的热点,已有众多的学者提出了一系列用于在线学习资源推荐的方法[3-8],如卢春华等人[3]提出了一种基于本体和循环神经网络的在线学习资源推荐方法。该方法采用本体对学习资源进行表示和建模,并采用循环神经网络来识别学习者的学习偏好。实验结果表明,该方法在召回率和准确率方面的推荐性能比传统方法有了极大提升。李浩君等人[4]针对现有基于单目标的学习资源推荐算法精度不足的问题,采用了一种基于多目标优化策略的在线学习资源推荐方法,以同时获得学习者对学习资源类型难度水平适应度最佳和偏好度最大为优化目标,设计了多目标粒子群优化算法来提高推荐精度和效率。张小雪等人[5]在分析几种国内外个性化学习资源推荐的基础上,提出了使用Felder-Silverman 量表和自我评价指标来检测学习者的偏好,然后从学习者的学习行为和学习路径等角度出发来挖掘潜在的隐形学习特征,并结合协同过滤和数据挖掘技术来实现学习者特征与在线学习资源之间的匹配,从而达到优化学习资源推荐的目的。夏立新等人[6]从移动学习平台中用户评价结果出发,设计了一种改进的布尔型移动在线学习资源协同推荐方案。该方案首先采用基于用户自身属性和学习历史的FRUTAI 算法来识别所有面向用户所需的可能的学习资源,然后利用基于打分的评估机制来过滤推荐结果。另外,王晓东等人[7]针对现有的学习资源推荐方法存在冷启动和数据稀疏性所导致的推荐精度不足的问题,进一步考虑了学习者的学习风格和学习水平对推荐结果的影响,设计了一种基于知识表示和协同过滤的精准推荐模型,有效地提高了个性化推荐的准确度;张征等人[8]将深度学习技术应用到个性化学习资源推荐过程中,提出了一种结合特征选择和二部图模型的智能推荐算法,有效地提升了在线学习时学习者的学习质量,一定程度上解决了大数据环境下学习资源剧增所导致的资源选择难度大的问题。

然而总的来看,现有的推荐算法还很难准确地挖掘出在线学习过程中的隐性数据,导致推荐质量不够理想。此外,现有的基于深度神经网络的推荐算法大多存在网络退化问题(degradation problem)[9],极大地制约了推荐算法的性能,难以满足个性化推荐服务的质量要求。鉴于此,本文提出了一种基于残差网络(residual network, ResNet)[10]的在线学习资源个性化推荐方法。文中在设计了基于互信息的特征选择的基础上,采用学习者- 学习资源二分图模型来衡量学习者的学习偏好,并提出利用残差网络来训练推荐模型,实现在线学习资源的个性化精准推荐。

三 本文方案

(一) 问题描述

学习资源个性化推荐问题可以看作是一种学习者与学习资源之间的关系匹配问题[11]。在线学习平台如何为学习者精准地推荐学习资源,其关键点在于如何有效地利用好学习者的历史学习资源信息,对其进行深入地分析和挖掘处理。假设,学习者的历史学习资源集合信息用图1 左侧所示的m×n矩阵表示,其中,L代表学习者,R代表学习资源。图1 中的白色空白部分表示学习者还未学习过的学习资源,而阴影部分表示已经学习过的资源。本文研究的问题:在获得学习者的历史学习信息(可用历史学习矩阵表示)的基础上,如何通过深度学习技术从海量的在线学习资源中筛选得到符合需求的资源推荐学习者。

图1 个性化学习资源推荐问题

(二) 个性化推荐框架

本文提出基于残差网络的三级模型来进行学习资源的个性化推荐,如图2 所示。其中,在第一级中,我们基于互信息的特征选择来表示和处理学习者的历史学习数据,并将它作为模型的输入。此外,我们还构建了一种用于判断学习资源是否值得推荐的决策条件:学习者- 学习资源二部图关联模型。在第二级中,我们建立了基于残差网络的学习模型,针对学习资源的个性化推荐问题,提出了基于Adam算法[12]的残差网络优化策略,通过一系列复杂的训练过程得到学习资源推荐模型。在第三级中,将待测试数据输入已经训练完毕的个性化推荐模型,模型便可以向学习者推荐符合学习需求的个性化学习资源。

图2 基于深度学习的在线学习资源个性化推荐框架

(三) 在线学习资源个性化推荐模型设计

1.基于互信息的特征选择

特征选择是否准确是影响到个性化推荐模型性能的关键之一。一般而言,影响学习者选择不同的在线学习资源的主要因素有专业领域、认知能力、学习目标、学习风格和学习时长等。同时,学习资源本身也存在着资源类型、获取方式、资源难易程度等属性。因此,为了建模得到准确的学习资源个性化推荐模型,我们首先需要从众多特征中挖掘得到学习者与学习资源之间的关联并进行特征选择,以作为个性化推荐模型的输入。

在线学习数据中除了包含学习者的多次学习行为记录,还存在很多隐性数据,我们可以从这些数据中获取学习资源的特征。而在实际数据处理过程中存在无关特征和冗余特征,比如学习者的学员编号或者班级编号可能就是无关特征,在一些大型的公开数据集中还有可能记录了学习者的家庭住址、父母职业及工作单位等信息,因此需要进行特征选择或者筛选处理,将无关特征和冗余特征去除,来提高推荐模型的准确率与高效性。本文采用基于互信息的特征选择方法来完成这一工作。互信息可用于评价定性自变量( 特征) 对定性因变量( 标签) 的相关性。对于离散型随机变量X,Y,互信息的计算公式如下:

为了便于计算,互信息可以转换为KL散度的形式:

KL散度常用来衡量两个概率分布之间的差异,如果x和y是相互独立的随机变量,则p(x,y) =p(x)p(y),那么上式为 0。因此若I(X;Y)越大,则表示两个变量相关性越大,于是可以用互信息来筛选学习者和资源的特征。筛选的过程如图3所示。

图3 基于互信息的特征选择

2.学习者-学习资源二分图模型

了解学习者对某一学习资源的偏好对于实现准确的资源推荐具有重要作用。本文提出用学习者-学习资源二分图模型来衡量学习者对某一资源的偏好程度。假设,学习者集合为L={l1,l2,...,ln},学习资源集合为LR={r1,r2,...,rm},则可以构造一个0~1 矩阵Xn×m来表述学习者与学习资源之间的关联关系[8]:

在式(3)中,如果Xn×m= 1,则表示学习者已经学习过此资源;反之,则表示没有学习过。其中,矩阵X的行向量表示学习者;列向量表示学习者对于学习资源的学习行为。进一步地,我们可将学习者对某一学习资源的学习频率定义为:习资源的平均次数;表示li学习资源lrj的总

在式(4)中,FoL(li)表示学习者li学习某一学次数;Num(li)表示li已学习过的资源总数。图4 给出了基于二分图的资源选择示例。从图4 可以看到,学习者 学习了l2r,则两者之间存在一条边,边上的权值2 表示学习了2 次。此时可以计算出l2学习的lr2频率为:2/10。该频率反映了学习者对某一资源的感兴趣程度,学习频率越高,则表明该学习者对该资源有更大的偏好。进一步地,本文定义了如式(5)所示的推荐条件(RC)来判断是否应该将某一学习资源推荐给相应的学习者:

图4 基于二分图的资源选择

3.基于残差网络的个性化推荐

在学习资源推荐场景中应用深度学习技术,其关键在于如何利用学习者的历史学习记录进行建模,找出原始数据间隐式特征,进而在训练模型构造时能规范模型的输入层与输出层。上一小节采用基于互信息的特征选择模型与学习者- 学习资源二部图关联模型有效地解决了深度神经网络的输入与输出部分。本文采用残差网络[10]来判断学习者是否已经学习过某一学习资源、对该资源的重视度,进而实现在线学习资源的个性化推荐。

ResNet 由一个个残差单元组合而成,它容易优化,其准确率也能通过增加相当的深度来提高。内部残差块间的跳跃连接(短路机制)有效地缓解了在深度神经网络中因增加深度所带来的梯度消失或梯度扩散等问题。本文构建了一个34 层的深度残差网络(ResNet-34) 来提取学习者- 资源二部图的特征,如图5 所示。在本文提出的ResNet-34 模型中,我们采用Relu 函数[13]作为每个卷积核的激活函数;采用交叉熵[14]作为损失函数来评估模型的准确性;采用Adam 算法作为训练过程中的优化策略。具体而言,在ResNet-34 中,首先采用一个大小为7×7 的卷积核以2 个步长对原始输入的二部图进行特征提取,得到一个大小为112×112 的特征图,接着使用最大池化(Max Pooling) 技术来对特征进行压缩,然后经过四组大小分别为3、4、6 和3 的残差块进行多次反复的特征提取。其中,所有残差组中的卷积核大小都为3×3,每组残差块中的第一个卷积核采用2 个步长进行特征提取,其他卷积核采用1 个步长进行特征提取。此外,同组残差块所采用的卷积核通道数均相同,依次为64、128、256 和512。此时,各组输出的特征图大小依次为56×56、28×28、14×14、7×7。最后经过平均池化和全连接层,采用Sigmoid 函数进行分类映射,进而得到个性化在线学习资源的推荐结果。

图5 用于在线学习资源推荐的ResNet-34 结构

(四) 仿真实验分析

我们的实验是在一台8 核16 线程的计算机上进行的。计算机的操作系统为Ubuntu 16.04 LTS 64 位,CPU 型 号 为Intel Core i9-9960X@ 3.10GHz,内存为16G。采用深度学习框架TensorFlow 和Anaconda 平台实现了文中提出的基于残差网络的在线学习资源推荐模型(RR-RN)。实验数据集源自湖南省长沙市某高校在线学习平台数据集,我们从中提取了部分学习数据得到如表1 所示的实验数据集。为了避免推荐模型过拟合,我们对所有四个数据样本采用十折交叉验证来评估ResNet-34 的推荐性能,选出性能最好状态下的超参数,得到最终的推荐模型。

表1 数据样本

本文研究的问题是判断是否应该推荐某一学习资源给特定的学习者。文中根据学习者- 学习资源二分图模型将该问题划分为推荐和不推荐两种情况,属于一种典型的分类问题。另一方面,学习者对某一学习资源的学习频率则反映了学习者的偏好,因此这也是一种回归问题。为此,文中从两个方面去衡量本文方法的性能,在分类方面采用查准率(Precision, P)、召回率(Recall, R) 和 F 值作为评价指标。在回归方面则采用均方误差(MAE)、均方根误差(MSE)、平均绝对误差(RMSE)作为评价指标。此外,为了横向比较本文方法的性能,我们采用决策树(Decision Tree,DT)[15]、支持向量机(Support Vector Machines,SVM)[16]和K 最 近 邻(K-Nearest Neighbor,KNN)[17]作为分类方面的对比算法;采用回归树(Regression Tree, RT)[18]、支持向量机(Support Vector Machines,SVM)、线性回归(Linear Regression, LR)[19]作为回归方面的对比算法。

分类评价结果如图 6 所示。从图6 中我们可以看出,随着不同样本中学习时间或学习者数量的增加,查准率、召回率和F值都在增加,这表明学习记录的增加,有利于挖掘学习者和学习资源之间的潜在关联关系,从而提高推荐的准确性。此外我们还注意到,本文提出的基于残差网络的推荐算法(RR-RN) 的性能始终要优于其他算法,这表明RR-RN 算法对于解决实际的学习资源推荐问题具有较好的针对性,能够满足个性化推荐的需求。

图6 不同算法的分类评价结果

回归评价结果如图 7 所示。从图7 中我们可以看出,随着不同样本中学习时间或学习者数量的增加,不同算法预测的学习者对学习资源的学习频率会随之波动,但总的来看,本文提出的RR-RN 算法在四个数据样本上的预测结果与实际结果之间的误差总是最小,这表明RR-RN 算法在预测学习者对某一学习资源的学习频率上具有较好的适应性,有比其他算法更优越的性能。仔细分析其原因可知,这是因为随着学习行为记录的不断增加,通过采用残差网络的学习和误差判断,有利于预测学习者的真正偏好,进一步筛选出学习者真正感兴趣的学习资源,提高了推荐的质量。

图7 不同算法的回归评价结果

四 推荐平台的实现

上节详细介绍了本文提出的基于残差网络的在线学习资源个性化推荐模型,并通过仿真实验验证了该个性化推荐模型的有效性。下面进一步给出嵌入了该模型的在线学习资源推荐平台的实现过程,以直观地展示本文提出的推荐方法如何应用到实际中去。

(一) 推荐平台总体架构设计

1.开发框架

在本文提出的在线学习资源推荐平台中,学习者角色可以结合自身的学习兴趣选择需要的学习资源来进行学习,教师角色或者管理员角色可以实现学习资源的管理,包括制作个人化学习资源,上传、修改和删除学习资源等。限于篇幅,本节仅展示与个性化推荐相关的功能,搭建的基于残差网络的在线学习资源个性化推荐平台如图8 所示。其中,数据库中存储了整个推荐平台的所有数据,例如用户的基本信息、学习者学习记录、学习资源的信息等;持久层则负责实现数据的采集、清洗和在线学习资源的个性化推荐;服务层负责提供面向用户的各种服务;Web 层负责接收客户端发送的请求,再将请求转发给服务层(service 层)和数据持久层进行功能处理来实现对应用层的支持。

图8 学习资源推荐平台架构设计

2.数据库设计

在本文提出的在线学习资源推荐平台中,在数据持久层中实现了核心的推荐服务功能,该功能与学习者的偏好、历史学习行为和学习资源的特征等属性具有紧密联系,因此建立一个合适的数据库对于高质量地完成在线学习资源个性化推荐是至关重要的。我们为用户设定了三种角色:管理员、教师和学习者,构建出如图9 所示的实体对象E-R 图,完成数据库的建模。

图9 实体对象E-R 图

进一步地,图10 给出了推荐平台中设计的数据库表和表字段关系图。我们将图10 中描述的学习者的行为记录进一步转化为可供残差网络算法训练的数据,用来支撑推荐平台的功能实现。

图10 数据库表和以及字段关系

(二) 功能流程

最后,图11 给出了在线学习资源推荐平台的功能流程图。图中,学习者的功能包括收藏、下载、浏览、搜索学习资源等,教师的功能包括资源的上传、修改、属性编辑、查看记录等。此外,教师在上传资源的同时可以对资源的一些属性加以标记,例如该资源的主题目标、学习难度、内容类型和学习时长等。该平台收集学习者的学习数据和学习资源数据,采用基于深度学习的推荐引擎,计算得到学习者的偏好信息和学习资源的权重数值,以此作为在平台中实现学习资源匹配的依据,进而完成学习资源的个性化推荐。

图11 功能流程图

五 结论和未来工作

疫情常态化管控下,在“停课不停学”常态化要求下,如何有效地向学习者推荐他们感兴趣的学习资源是提高线上教学效果的一种重要手段。文中提出了一种新颖的在线学习资源个性化推荐方法。该方法通过基于互信息的特征选择、基于学习者-学习资源二分图模型的资源选择和基于残差网络的资源学习等处理来完成在线学习资源的个性化推荐。仿真实验结果和实现的推荐平台都验证了本文方法的有效性。在下一步研究工作中,我们将考虑利用知识图谱来对学习者、学习路径以及学习资源之间的关系进行建模,进而采用知识计算和知识推理的手段来构建高效的学习资源推荐方法。

猜你喜欢

互信息特征选择残差
基于双向GRU与残差拟合的车辆跟驰建模
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
基于改进互信息和邻接熵的微博新词发现方法
Kmeans 应用与特征选择
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
综合电离层残差和超宽巷探测和修复北斗周跳
基于增量式互信息的图像快速匹配方法