APP下载

基于信任机制的在线学习协同过滤推荐方法研究

2017-03-27马莉

电脑知识与技术 2017年3期
关键词:协同过滤在线学习信任

摘要:为了解决协同过滤推荐方法中的数据稀疏性与冷启动问题,提出了一个新的方法叫“基于信任机制的在线学习协同过滤推荐方法”,把学习者信任的学习者的评价也合并补充进来以代表该学习者的偏好,同时也可以找到其他具有相似偏好的学习者。

关键词:协同过滤;信任;在线学习;推荐

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)03-0177-03

1 概述

对学习推荐系统而言,提供高品质的学习建议用来帮助学习者从过多的学习内容中选择出自己需要的内容是非常重要的。协同过滤推荐方法是一种被广泛接受的推荐方法,它是基于相似的学习内容而生成的一种推荐。同时,它又存在着几个固有的问题,如数据的稀疏性与冷启动问题。为了解决这些问题,我们提出了一个新的方法叫“基于信任机制的在线学习协同过滤推荐方法”。简单说,就是由把学习者信任的学习者的评价也合并补充进来以代表该学习者的偏好,同时也可以找到其他具有相似偏好的学习者。

2 相关研究

Web2.0应用的出现,极大地改变了用户的网络学习风格,从搜索和浏览转换为交互和分享,大数据的到来使可用的选择呈指数增长,但这也给学习者在搜索有用的信息时带来了挑战,这就是众所周知的超载信息问题。协同过滤(CF)是最熟知的常用推荐技术之一。它的原理是基于相似学习兴趣的学习者评价的学习内容也会得到其他学习者的认可。然而,CF存在几个固有的问题,如数据稀疏性和冷启动。前者的问题是学习者一般只根据部分学习内容评价,而后者是根据少部分评价来判断学习者的喜好是非常困难的。

为了更准确地解决这些问题并模拟学习者偏好,我们将其他来源的附加信息纳入到协同过滤(CF)方法进行研究。在本文中,提出了信任机制。信任是指一个活跃学习者对他人提供的与自己喜好相关的精准评价。基于此,我们提出了一个新颖的基于信任的方法叫做基于信任机制的在线学习协同过滤推荐方法,旨在提高推荐的整体性能并且能够改善协同过滤(CF)中数据稀疏性与冷启动的问题。具体来说,我们根据受信任的学习者与活跃学习者的相似程度将他们对学习内容所做的评价做平均运算合并起来,然后合并的评价集就可以用来表示学习者的喜好并且可以去发现基于此喜好的新的学习者,最后,合并方法被并入到常规协同过滤(CF)中去生成建议。

3 核心算法

基于合并信任的协同过滤学习推荐方法的基本原理是将受信任学习者的评价补充进来并代表活跃学习者的喜好,因此采取三个措施来做出推荐。首先,发现和汇总受活跃学习者信任的学习者。第二,将信任学习者的评价合并,使得每个学习内容至少被一个信任学习者评价过,从而每个学习内容都有一个单一的值,由此,形成一个新的评价文件,来代表活跃学习者的喜好。第三,基于所合并的评价分布文件,相似的用户将被探测,然后再和常规的CF方法一样,生成推荐。

3.1 合并过程

我们引入了一些符号来建立推荐问题的模型。具体而言,我们用U、I、R分别表示所有的学习者、所有的学习内容、所有学习评价。我们用符号u,v表示某个学习者,用i,j表示学习内容。然后用[ru,i]表示学习者u对学习内容i给予的评价,在一定的评价范围取一个值,如从1到5的整数(通过推荐系统预定义的)。因此,一个推荐系统的任务可以建模为:给定一组学习评价[u,i,ru,i],为学习者u对一个未知的学习容j提供一个最好的预测。预测的评价表示为[ru,j],在基于信任机制的推荐系统中,学习者u已经定义了一个信任用户集[TNu],对于集合[TNu]中的每个受信任的学习者v,学习者u也定义了一个信任值[tu,v]在[0,1]之间,表示学习者u对学习者v的精准推荐能力的信任程度。我们假定学习者u总是信任他自己提供的准确评价。因此学习者u也被包括到TN中,此时[tu,u=1]。

此外,[Iu=i|ru,i∈R,i∈I]表示學习者U评价过的学习内容集合,[Ui=u|ru,i∈R,u∈U]表示对学习内容i做出评价的所有学习者集合。因此,建议问题可以重新描述为:给定一个评价集合[u,i,r(u,i)]和一个学习者信任集合[u,i,t(u,v)],活跃学习者u对于目标学习内容j做出的最好预测[u,j,Uj]。我们最关心的是:和真实的喜好相比,我们评价预测的精度,以及可以被预测的目标学习内容的覆盖范围。

3.1.1 聚集信任的学习者

冷淡学习者通常被定义为评价学习内容不到五个的学习者。因此,为了更好的模拟学习者的喜好,附加信息被采用。由于冷淡学习者通常都不太活跃,他们可能不会有大量值得信赖的学习者,具体来说,多数冷淡学习者只有几个信任学习者,少数冷淡用户有许多信任学习者。因此,虽然社会信任可以被视为一个模拟学习者喜好的强有力的信息来源,但冷淡学习者的信任信息却是相当难获得的。幸运地是,信任可以沿着信任网络传播。也就是说,如果学习者A信任B,B信任C,可以推断在某种程度上学习者A信任C。为了更好地利用信任信息,有必要传播信任,以便找到更多(间接)值得信赖的学习者。因此,我们采用一个加权因子给远距离推断信任值:

[TU,V=1d*T'U,V] (1)

其中[TU,V]在表示推断的信任值,d为学习者之间的最短距离,u,v由优先搜索算法决定,[TU,V∈(0,1)]表示学习者U对其他学习者v的信任值。我们限制[d≤3],以避免在大规模数据中做无谓的搜索,节省计算成本。因此,当学习者u对v的信任值大于临界值时,一组学习者可认定为可信任的学习者,临界值[TNU={v|tu,v>临界值,v∈u}],(2)我们把距离d限制小于等于3,假定所有连接的受信任学习者都是有用的,因此简单把临界值设为0。虽然临界值是灵活可调的,但在实践中没有必要这样做。此外,活跃学习者u本人也被视为她自己的信任学习者,[tu,u=1]。换言之,我们推测学习者U将永远相信自己的评价,因为它们是准确反映自己的真实偏好。

3.1.2 合并信任学习者的评价

确定信任学习者后,确定一组候选学习内容

[Iu=i|rv,i∈R,?v∈TNU,i∈I] (3)

这些学习内容至少已被信任学习者中的一位评价过,然后再根据信任学习者的重要性权重将学习评价合并成一个值。

[ru,j=v∈TNuwU,V?rv,jv∈TNu|wU,V|] (4)

我们认为重要性权重[wu,v]由三部分组成:信任值[tu,v]、评价相似度[su,v]以及社会相似度[ju,v]。因此计算三个部分的线性组合:

[wu,v=α?su,v+β?tu,v+1-α-β?ju,v] (5)

其中参数[α]和[β]分别表示依赖于评价相似性和信任度的程度。这个计算背后的合理性在于:学习者彼此信任并不意味着喜好相同,所以综合三个因素远比单考虑信任值好。信任学习者之间的相似性可能很低,因此,除了社会相似性外,同时有必要考虑评价相似性和信任度。

Pearson相关系数通常被用来计算学习者基于评价的相似性:

[su,v=i?Iu,v(ru,j-ru)rv,i-rvi?Iu,v(ru,i-ru)2i?Iu,v(rv,i-rv)2] (6)

s[u,v∈-1,1]是两个学习者u和v之间的相似度,[Iuv=Iu∩Iv]表示学习内容既被学习者u评价,也被学习者v评价。由于活跃学习者[u∈TNu],为目标的一致性,我们让[Su,u=1]。[ Su,u>0]意味着正相似,[Su,u<0]意味着负相似,0表示无相似性。相似性的变化函数可以是余弦相似性,贝叶斯相似性,等等。

此外,信任的学习者之间可能不会有相似的喜好,所以不会有社会相似性。换句话说,信任和社会的相似性可能是错误和不准确的。考虑到积极信任和社会相似,消极的相似性可能没有意义。因此,我们只考虑正相关用户,即,[s>0]。另一个原因是信任的范围值和社会相似性在方程上要一致(1)和(7)。

第三部分是两个学习者u和v存在共同信任学习者的比率。如果他们之间有一些共同信任的学习者,这两个学习者就是社交密切的。因此,有许多社会朋友的信任学习者比没有朋友的学习者更为重要。社会相似性被定义为在所有信任学习者中共享学习者的比例。这可由杰卡德指数计算得来:

[ju,v=|TNu∩TNv||TNu∪TNv|] (7)

[ju,v∈0,1]表示两个学习者u和v基于共同信任学习者的社会相似性,可由由方程(1),(6)和(7)得出重要性权重[wu,v=α?su,v+β?tu,v+(1-α-β)?ju,v]。以这种方式,将信任学习者对某一个学习内容的所有评价由方程(4)合并成单个值。

更进一步,由于学习者u从他自己那获得的评价总是准确的,他所有的评价将被保留,并在合并过程中保持不变,我们需要强调,当学习者u自己没评价,而其他信任学习者评价时,这种评价才会合并。简单来说,该学习者将保留所有他自己的评价,值得信赖的学习者的评价将被用来补充他自己的喜好,这样一个更完整、准确的评价系统就用来表示活跃学习者的喜好。

3.2 协同过滤合并化

在合并评价后给出了对学习内容集的新的评价文件,有了这个文件,我们就知道学习者的喜好,继而我们再用传统的CF协同过滤技术预测还没有被学习者u评价过的目标学习内容j。具体而言,我们首先为学习者u找到与他具有相似喜好的(曾评价学习内容j)学习者,形成一个相似用户集NN,为学习者u和学习者v之间的相似性。

一般来说,Pearson相关系数(PCC)经常用来测量两个学习者之间的相似性(参见方程(6),根据他们通常的学习评价。在我们的研究情况中,除了合并后的评价之外,置信度用来表示合并评价的质量也很重要。由于公式(6)不考慮评价的置信度,我们引入一个信任感知Pearson相关系数简称CPCC,用来计算学习者之间的相似度。

[s'u,v=i∈Iu,vcu,iru,i-rurv,i-rvi∈Iu,vc2u,iru,i-ru2i∈Iu,vrv,i-rv2] (8)

[Iuv=Iu∩Iv]学习内容[I]既被学习者[u]评价,也被学习者[v]评价。[ru]、[rv]分别表示两个学习者u和v的平均评价。计算了学习者的相似性后,就可以将相似的学习者形成一个群组添加到活跃学习者u最近的相似用户集NN中,然后我们再选择与学习者U相似度高于预定临界值的其他学习者。

[NNu=v|s'u,v>θs,v?u] (9)

[θs]表示预定的临界值。

最后,所有评价都汇集在一起去预测活跃学习者u没有评价过的商品j。我们使用简单加权平均法,即,计算由所有信任学习者V提供的评价按照他们与活跃学习者相似度的权重的平均值。从形式上看,预测的计算方式:

[ru,j=v∈NNus'u,v?rv,iv∈NNu|s'u,v|] (10)

[ru,j]代表对学习内容j的预测值。因此,它可以确保在预测时,具有相似性高的学习者有更大的影响力。

3.3 合并信任方法的优势

基于信任机制的在线学习协同过滤推荐方法相对于其它方法有两个明显的优点。首先,它可以有效地改善数据的稀疏性、冷启动问题。基于合并信任机制的协同过滤学习推荐方法通过合并信任学习者的评价,形成一个新的能代表用户喜好的评价分布来处理冷淡学习者。因为[u∈TNu],[Iu∈Iu]的关系可由公式(3)推断得知,也就是说,新形成的评价覆盖的学习范围比原来的评价文件多了很多。因此,可以识别出更多的相似学习者,这对只有很少甚至没有评价的冷淡学习者很有效,这样计算得到的相似性往往是更加可靠,因此,我们的方法可以有效缓解数据稀疏性与冷启动问题。

再次,基于信任机制的在线学习协同過滤推荐方法在评价非常少或者信任学习者很少的情况下都可以运作良好。此前,不少以信任为基础的方法,仅根据信任学习者所提供的评价来推荐学习内容。因此,当其中一些学习者只指定少数学习者作为他们的信任学习者时,这些方法可能就遇到类似冷启动问题的影响。而对于在线学习系统来说,这个问题是一个很常见的情况,特别是学习者缺乏与其他人主动联系的激励时,推荐系统就会受到很大的限制。与此相反,基于信任机制的在线学习协同过滤推荐方法可以通过使用活跃学习者的评价来解决这个问题,特别是当活跃学习者没有指定任何可信任学习者但却对一定数量的学习内容评价过时,合并后的评价将会和她自己实际的评价文件完全一样,因为唯一受信任的学习者就是自己。这样,基于合并信任机制的协同过滤学习推荐方法将与常规的CF方法没有区别。另一方面,当冷淡学习者尚未评价任何学习内容但已指定一些信任学习者时,这些信任学习者的评价正如我们所描述的那样可以合并。在任一种情况下,我们的方法都有能力形成新的等级文件,从而减轻冷启动问题。

4 结论

本文提出了一种新的方法,把信任学习者的评价合并进去以此代表活跃学习者的喜好,再融合传统的协同过滤技术来解决传统推荐系统中的数据稀疏性和冷启动问题并可以识别出更多相似学习者。

参考文献:

[1] 王剑, 陈涛. 个性化e-Learning协作学习推荐系统研究[J]. 中国远程教育, 2016(7).

[2] 高山, 刘炜, 崔勇, 等. 王宗敏一种融合多种用户行为的协同过滤推荐算法[J]. 计算机科学, 2016(9).

[3] 马莉. 一种利用用户学习树改进的协同过滤推荐方法[J]. 现代图书情报技术, 2016(4).

[4] 黄粲. 一种改进的协同过滤推荐算法[J]. 经济研究导刊, 2016(23).

[5] 冷亚军, 陆青, 梁昌勇. 协同过滤推荐技术综述[J]. 模式识别与人工智能, 2014(8).

[6] 孙歆, 王永固, 邱飞岳. 基于协同过滤技术的在线学习资源个性化推荐系统研究[J]. 2012(8).

[7] 张宏亮. 基于协同过滤技术的学习资源个性化推荐研究[J]. 山东工业技术, 2016(16).

[8] 史玉珍, 郑浩. 基于协同过滤技术的个性化推荐系统研究[J]. 电子设计工程, 2012(11).

[9] 赵宁, 王学军. 推荐系统中协同过滤技术的研究[J]. 河北省科学院学报, 2013(2).

[10] 姜维庞, 秀丽. 面向数据稀疏问题的个性化组合推荐研究[J]. 计算机工程与应用2012(21).

[11] 王永固, 邱飞岳, 赵建龙, 等. 基于协同过滤技术的学习资源个性化推荐研究[J]. 远程教育杂志, 2011(3).

猜你喜欢

协同过滤在线学习信任
嘤嘤嘤,人与人的信任在哪里……
从生到死有多远
信息化环境下高职英语教学现状及应用策略研究
信任