基于学习者模型的文本学习资源推荐算法研究

2020-06-16陈鑫宇杨冬黎鲁金秋衣存慧左富成张丽伟

计算机技术与发展 2020年6期

陈鑫宇，杨冬黎，鲁金秋，衣存慧，左富成，张丽伟

(东北石油大学计算机与信息技术学院，黑龙江大庆 163318)

0 引言

虽然近年来国内在线教育发展速度较快，随着它的蓬勃发展，网络上学习资源的数量和种类都得到了空前的丰富。互联网规模的不断扩充，技术的突破给人们的生活和工作带来了便捷，在实现学习资源共享的同时，也提高了工作和学习效率。但是随着数据的井喷式增长，学习者面对海量的音频、视频、文本学习资源很容易出现信息迷航和信息超载，往往需要耗费大量的时间和精力对在线学习资源进行检索和筛选，找到用户自己需要的学习资源[1]。

用百度等搜索引擎[2]来检索是解决信息超载问题的一个办法，但有一个小缺点——用户在使用同一个关键字搜索信息时，得到的结果是一样的。另一方面来看，信息及其传播是多样化的，而用户对信息的需求是多元化和个性化的，并且随着时间的推移，用户的需求也是实时变化的。那么通过以搜索引擎为代表的信息检索系统获得的结果，也不能很好地满足用户的个性化需求[3]，信息搜索引擎也不能从根本上解决信息超载问题。

因此，个性化推荐系统应运而生，它是解决信息超载问题的一种非常有潜力的方法，在中国文本学习资源个性化、智能化推荐对于学习者提高在线学习效率具有重要意义。和搜索引擎相比，推荐系统通过研究用户的兴趣偏好，进行计算，由系统发现用户的兴趣点，系统将根据用户的偏好，将需要的各种信息、产品等精准推荐给用户[4]，从而引导用户发现自己的信息需求。

文中就文本学习资源个性化推荐系统的几项关键技术研究给予阐述。

1 基于学习者模型的文本推荐系统相关理论与研究

1997年Resnick和Uarian给出推荐系统[5]的概念——“它是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品[6]，模拟销售人员帮助客户完成购买过程”。文本学习资源推荐的主要任务是帮助学习者自动并有效地发现或推送与学习者查询相关的信息。

面对海量的互联网文本学习资源数据，能有效解决用户兴趣内容匹配问题，用户模型的构建是该技术的核心，按照这个思路，设计了“三位一体”的基于学习者模型的文本学习资源推荐系统。该系统主要由3大模型构成，即用户模型、推荐算法模型和推荐对象模型。基于学习者模型的推荐系统构成如图1所示。

图1 基于学习者模型的推荐系统构成

对于登陆在线教育网站的学习者来说，文中把他们都称为用户。由图1可以看出，文中把用户模型中的用户划分为普通用户和目标用户两大类。如果学习者刚打开一个学习的网站，第一次注册进来，然后在学习资源的网站中漫无目的的浏览，随便点击查看某一项内容，就把这类用户识别为普通用户；如果用户进入学习资源网站后，直接在网络上发布一大段内容，详细阐述了自己的观点，比如用户想找什么样的、什么类型、什么时间段的内容等，就把这类目的明确的用户定义为目标用户。

推荐系统把用户模型中的兴趣需求信息和推荐对象模型中的特征信息进行匹配计算，筛选出用户可能感兴趣或者要找的信息，然后把结果推荐给用户。当然如果用户用了推荐信息一段时间后，用户可以再次登录系统，把反馈结果(比如用户评价等)返回到推荐算法模型。模型通过反馈结果进行记录，为系统下一次的准确推荐做储备。

2 用户行为分析

在个性化推荐系统中，用户行为一般可以分为显式行为和隐式行为两种。

显式获取兴趣偏好[7-9]的方法是简单而直接的做法，能相对准确地反映用户对某种物品的兴趣的行为需求，比如用户在学习资源网站上看到别人写的一段文字内容后，他对内容发表了自己的观点和看法，进行了评论，或者将所看过的内容转发了。行为是其兴趣作用的结果，都在表达着用户的爱好特征。其中发布和转发文章是能够让其他用户了解到当前用户关注的事情，这反映出用户不仅对当前主题感兴趣，更希望别人也能关注当前主题，这是一种典型的用户喜好的显式行为。

显示行为所得的信息比较具体、全面、客观，结果往往比较可靠。缺点就是很难收到实效，主要原因就是很少用户愿意花时间或不愿向系统表达自己的喜好，比如有的用户虽然很喜欢这篇文章，但是就是懒的发评论，不乐意在网上留下自己的言论。

隐式行为是那些没有明确和直接地表达出用户兴趣的行为，如浏览、收藏、评论、点赞等，虽然这些也能体现用户的兴趣，但这几种方法不会把用户当前关注的事情推送给其他用户，这几种行为可以看作是隐式行为。

举报和删除行为表现出用户对当前主题的反感等，这两种行为一般情况下是不会被推送给其他用户的，虽然这两种行为能从反面反映出用户的关注点，但无法直接体现用户的兴趣，因此在用户建模的过程中将不考虑举报和删除这两种行为。

3 推荐算法模型

文中主要根据学习者的兴趣偏好提出建议，采用基于向量空间模型的学习者兴趣模型表示方法，将该模型实例化为学习者兴趣向量模型，并且通过更新算法来实现有效推荐。

3.1 学习者兴趣模型的表示方法

学习者兴趣模型是对学习者的偏好信息进行形式化描述，因此它的好坏对推荐系统的性能起着至关重要的作用。

目前，比较常用的学习者兴趣[10]模型表示方法主要有基于向量空间[11-13]的表示方法、基于用户-文档矩阵的表示方法[14-15]、基于贝叶斯网络的表示方法[16]、基于本体论的表示方法[17-18]、基于神经网络的表示方法5种。

其中基于向量空间的学习者兴趣模型用一个特征向量来描述用户的兴趣或者文本信息模型。当需要对学习者兴趣和文本进行计算时，就可以利用向量的各种运算来代替，每一个向量都由若干个(大于零)特征项以及与特征项相对应的权重值组成。比如，学习者S的兴趣可以用向量空间模型表示为S{(k1,w1),(k2,w2),…,(kn,wn)}，其中n为该学习者的兴趣关键词数目，Rij是第i个关键词，wi为Rij对应的权重值。

基于协同过滤的推荐系统多采用基于用户-文档矩阵的用户模型表示方法，即用一个二维的用户-文档矩阵来表示学习者兴趣模型，假设用一个m×n阶矩阵A(m,n)表示，其中m是系统中学习者的数目，n是系统中文档的个数，矩阵里任意单元格用元素Rij表示，Rij表示内容为学习者对文档资源的评分。

基于贝叶斯网络的表示法是一种基于概率的不确定性推理网络。该方法就是用贝叶斯网络来表示学习者兴趣模型，但是该方法的前提条件是假设学习者兴趣的变量值是受概率分布控制的。

基于本体论的表示方法就是用一个语义本体来描述学习者的兴趣模型，语义本体可以对知识进行共享和重用，表示出概念之间丰富的语义关系，还可以进行推理。

神经网络(NNs)或称作连接模型(connection model)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络主要是靠系统的复杂程度，调整系统内部大量节点彼此之间的连接关系，从而达到处理信息的目的。神经网络用到的算法就是向量乘法，并且广泛采用符号函数及其各种逼近。

通过权衡以上方法的优点与缺点后(具体如表1所示)，文中对用户模型中的普通用户决定采用引入语义的文本向量模型和学习者兴趣向量模型，通过描述中文文本文档中关键字之间的语义关系，使其能更准确地描述学习资源和学习者兴趣，达到更好的推荐效果。对于用户模型中的目标用户，文中则通过对这两个模型进行余弦相似度对比，确定用户之间的相似性，实现中文文本学习资源的个性化推荐。

表1 学习者兴趣模型表示方法比较

3.2 学习者兴趣向量模型更新算法

在中文文档推荐部分，文中主要通过学习者对文本资源的评价来进行学习者兴趣向量模型的更新。文中评价一种有五种：不感兴趣、不太感兴趣、一般、比较感兴趣、非常感兴趣。学习者兴趣向量模型的更新过程如下：

令tij表示学习者的第q个兴趣节点的关键词kq。因为学习者的兴趣可能会随着时间的推移而发生变化，文中在学习者兴趣向量模型的更新过程中，引入了遗忘因子，采用式(1)对关键词kq的权重Φq进行更新。同时，令关键词kq对应的时间Tq=Tnow。

(1)

其中，Φq是特征词kq的权重；l是学习率，0

当学习资源的特征词tij并未存在于学习者兴趣向量模型中，但是有与它的语义相关度小于等于0.8的词存在于学习者兴趣向量模型中时，将该特征词合并到学习者兴趣向量模型中，令学习者兴趣向量模型的维度n=n+1，兴趣关键词Kn=Tij，兴趣关键词所对应的时间Tnow=Tn，兴趣关键词Kn对应的权重计算如下：

Φq=wij×u×l

(2)

最后按照式(3)的兴趣权重Φq值的大小对学习者兴趣向量模型的n维向量进行由大到小的排序，取排名前20的Φq值并进行归一化处理，1≤i≤20。

(3)

再重复循环，直到浏览过的文集计算完毕。算法的详细过程的伪代码如下所示：

算法：学习者兴趣向量模型更新算法。

uin {不感兴趣，不太感兴趣，一般，比较感兴趣，非常感兴趣}={-2，-1，0，1，2}；

Documents=D(d1,d2,…,di,…,dm)，其中(i>=1 andi>=m)

inti;

for(i=1;i<=m;i++)/*第i篇文本的特征词信息和当学习者兴趣向量模型进行合并*/

{ if(tijin Student)

/*表示特征词已经存在于学习者兴趣向量模型之中*/

{Tq=Tnow;

l=0.5;h=7;

}

else

{if(Sim(tij,kq)>=0.8)

{Tq=Tnow;

kq进行更新;

}

else

{n=n+1;

kn=tij;

Tq=Tnow;

Φq=wij×u×l;

}

/*从大到小Φq进行排序*/

}

printf(“输出Φq的值”,Φq);}

3.3 目标用户的中文文本学习资源的个性化推荐算法

考虑到文本向量模型中的特征词虽然没出现在学习者兴趣向量模型中，但是与其语义相关度大于某一阈值的词可能存在于学习者兴趣向量模型中，这个学习资源也应该满足学习者的潜在兴趣，应该推荐给学习者。因此，文中对目标用户采用改进后的相似度计算公式来计算文本向量模型与学习者兴趣向量模型的相似程度，从而提高推荐系统的查全率，具体如下：

(4)

其中，wi,d与wi,s分别对应关键词i的学习资源d和学习者s的权重值，wk,d是关键词k在向量模型d中的权重值，wj,S表示关键词j在学习者兴趣向量模型S中的权重值。

4 文本学习资源推荐实现部分

随着社会的发展和人们认知水平的提高，孩子的教育越来越受到人们的重视。家教已经成为中学、小学乃至学前班学生学习、生活中不可或缺的一部分。人们以往一提及家教主要是指传统的家教模式，就是通常说的线下教育：家教去学生家里授课。在这个过程中，学生和家长希望能找到适合的并且价格低廉的家教教师，同时教师也希望可以找到一份薪酬满意且位置合适的家教工作。因此，线上教育应运而生。为了能使学生和家长、教师按照自己的需求寻找中文文本学习资源，缩短寻找时间，增强用户的体验度和匹配度，文中设计了一个基于学习者模型的家教推荐系统。推荐算法模型是该系统中最重要的组成部分。系统会自动提取当前用户对应的学习者兴趣向量模型，然后利用式(1)计算该模型与文本资源库中每一个文本资源的文本向量模型余弦相似度，并按照求出来的余弦值排序，将余弦相似度值较大的前8个资源展示到推荐页面。如果采用表2所示的实验数据时，中文文本学习资源个性化推荐界面上就会显示数学、语文、英语、物理、政治、化学、生物、地理这8个学习资源，具体如图2所示。学习者可以点开进入学习，学习后也可以对学习资源进行评价，进而更新学习者兴趣向量模型，使下一次的推荐更加准确，更符合自己个性化的兴趣。

表2 学习者兴趣向量模型实验数据

图2 中文文本学习资源推荐界面

5 结束语

首先阐述了“三位一体”的基于学习者模型推荐系统的理论与研究，然后通过分析用户行为，对不同类型的用户，利用公式计算文本向量模型与学习者兴趣向量模型的相似程度，并按照求出来的余弦值由大到小排序，将余弦相似度值较大的推荐给用户。实验结果表明该推荐算法是有效的。但是在学习资源选择中并不完善，只针对文本学习资源进行了推荐，由于学习资源还包括视频、音频等，因此这些将是未来要研究的方向与重点。