基于用户的协同过滤推荐算法概述
2020-07-14赵奕涵
【摘 要】协同過滤是一种典型的推荐算法,在数据信息种类、表达方式越来越多的时代,很多技术都是围绕协同过滤而展开研究的。本文概括介绍了基于用户协同过滤推荐算法的理论思路,并对协同过滤推荐算法的发展趋势做了简单的阐述。
【关键词】协同过滤 ;特征挖掘 ;推荐系统 ;基于用户
引言
在如今这个大数据时代,互联网应用所产生了海量的数据,那么在这么庞大的数据中,必定蕴含了丰富的意义,也必定有其应用价值。但是种类之繁杂的海量数据对于用户来说不全是有用的,用户提取有用数据会耗费大量的时间成本,因此协同过滤推荐算法根据用户的需求诞生了。
1.协同过滤推荐概述
1.1协同过滤概述
协同过滤分为在线协同和离线过滤。协同,对于用户群体来说,就是从在线数据集中筛选出同类用户可能共同偏好的集合。这个集合可以是与你历史物品相似的物品,也可能是用户喜好的某些抽象的概念。过滤,就是从庞大的数据集中滤掉一些与用户偏好无关的冗余数据,该类数据不值得推荐给用户。
系统过滤模型可以理解为假设有N个物品和M个用户数据,但是现存的数据集中只存在部分物品与用户之间的评分关系,而其余的用户物品评分均为空缺,那么就需要基于已知的数据集来预测出其余的用户物品评分,并从中筛选出较高评分推荐给用户。
1.2协同过滤推荐分类
现阶段协同过滤推荐基本可以分为三种类型:基于用户的协同过滤,基于项目的协同过滤以及基于模型的协同过滤。
这里重点说明一下基于用户的协同过滤,这种协同过滤主要针对于用户与用户之间的数据交互,通过对比分析有相同偏好用户的数据来为其所喜欢的物品进行评分,并基于该评分体系的建立来预测同类产品的其他评分,将评分高的若干物品推荐给其他用户。
2.协同过滤算法实现
2.1算法理论基础
(1)Jaccard相似系数
Jaccard相似系数用于比较有限样本集之间的相似性与差异性,Jaccard系数值越大,样本相似度越高。给定两个集合A、B,Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:
其中当集合A、B都为空时,J(A,B)定义为1。
(2)Jaccard距离
Jaccard距离是用来衡量Jaccard相似系数的指标,用于描述集合之间的不相似度。即Jaccard距离越大,样本相似度越低,具体定义如下:
其中对参差 。
2.2算法实现思路
基于上述的理论解释,我们可以将算法拆分为以下三个步骤:
基于Jaccard相似系数计算其他用户与目标用户的相似度;
通过Jaccard距离来找出与目标用户最相似的N个其他用户;
根据前两个步骤所获取的信息,推荐目标用户相对喜欢,而且未采取过的行为。
利用Jaccard相似系数对目标用户分别于其他试验用户进行相似度的求算,对所计算出的数据进行处理,以用户、行为为维度建立用户相似度矩阵。
根据目标用户与K个目标用户的相似度集合以及未采取过行为的用户集合,建立用户行为权重模型:
表示用户对行为的权重,表示和用户相似的K个用户,表示采取过行为的用户集合,表示用户和用户的相似度,表示用户对行为的权重。
通过计算出不同用户之间对行为的不同权重之后,即可根据其权重来计算出该行为对于该类用户群体的喜欢程度,并根据每一种行为的推荐度高低来为目标用户或者其他用户进行推荐。
3.协同过滤算法应用以及发展趋势
推荐算法具有非常多的应用场景和商业价值,在如今这个大数据时代,很多的应用在首页以及需要推送咨询等页面中都会用到,根据用户的操作行为历史包括浏览、点击、播放、收藏、评论、点赞、转发、评分等,为用户个性化的提供他可能喜欢的物品。
协同过滤算法作为最经典的算法,利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息。很多的应用技术都是围绕协同算法而展开研究的。在信息种类、表达方式越来越多的时代,旧式的信息分类过滤系统无法满足的地方,期许未来能用协同过滤的方法来解决。
参考文献
[1] 惠康华,计瑜,王进,贺怀清.基于深度神经向量机自回归的协同过滤算法[J].计算机工程与设计,2020,41(05):1308-1313.
[2] 赵小文. 基于协同过滤的推荐算法研究[D].西安电子科技大学,2019.
[3] 于洪,李转运.基于遗忘曲线的协同过滤推荐算法[J].南京大学学报(自然科学版),2010,46(5):520-527.
[4] 焦富森,李树青.基于物品质量和用户评分修正的协同过滤推荐算法[J].数据分析与知识发现,2019,3(8):62-67.
[5] 基于用户隐式行为特征的最大熵推荐算法[J].胡敏,陈元会,黄宏程.计算机工程与设计.2019(02)
[6] 协同过滤中一种有效的最近邻选择方法[J].冷亚军,梁昌勇,丁勇,陆青.模式识别与人工智能.2013(10)
[7] 面向个性化推荐的强关联规则挖掘[J].李杰,徐勇,王云峰,朱昭贤.系统工程理论与实践.2009(08)
[8] 基于协同过滤的推荐算法研究[J].王兴国.无线互联科技.2016(03)
作者简介:赵奕涵(1999.7-),男,汉族,黑龙江哈尔滨人,天津工业大学本科在读,研究方向为软件工程。