APP下载

协同过滤技术在图书推荐系统中的应用研究

2018-11-02刘晓敏

中国教育技术装备 2018年8期

刘晓敏

摘 要 信息爆炸式增长,使得用户很难快速精准地找到感兴趣的信息。为了解决这类问题,提出个性化推荐技术,其中协同过滤作为最早的推荐算法,广泛应用于各个领域。协同过滤技术与图书推荐相结合,改变了传统被动搜索的模式,主动向用户提供推荐。针对传统的协同过滤算法进行实例研究。

关键词 协同过滤技术;图书推荐系统;个性化推荐技术

中图分类号:G642.0 文献标识码:B

文章编号:1671-489X(2018)08-0061-02

Application of Collaborative Filtering Technology in Book Recommendation System//LIU Xiaomin

Abstract With the information explosion growth, it is difficult for users to quickly and accurately find the information of interest, in order to solve such problems, people put forward personalized recommendation technology, which collaborative filtering as the earliest recommendation algorithm is widely used in various fields. Collaborative filtering technology and book recommendation combined to change the traditional passive search model, take the initiative to provide recommendations to users. In this paper, the collaborative filtering algorithm is studied.

Key words collaborative filtering technology; book recommendation system; personalized recommendation technology

1 前言

随着Internet的迅猛发展,互联网数据呈现出指数增长的态势,传统的搜索引擎已经不能更好满足用户的个性需求。数据标准导致利用率降低,这也就是所谓的信息超载。个性化推荐成为当前解决信息超载问题[1]的关键技术。目前,电子商务逐渐成为新的消费趋势,用户在购买物品时更希望系统能够主动提供有价值的推荐参考,如购买图书时,网页会自动推荐用户感兴趣的书目,实现精准营销。协同过滤算法[2]是最早提出的个性化推荐技术,也是目前应用范围最广的算法。本文详细论述协同过滤算法在图书推荐系统中的应用原理,结合实例进行论证,为个性化图书推荐系统的深入研究提供有价值的参考。

2 文献综述

个性化推荐在20世纪90年代提出,随着互联网技术的发展,逐渐成为当今的研究热点,并广泛应用于电子商务领域,如亚马逊、天猫等官方商城。个性化推荐成为顾客转化率提高的关键。据数据统计,亚马逊35%的销售额来自推荐系统;今日头条凭借个性化板块,在众多新闻客户端脱颖而出;网易云音乐的个性音乐榜深受年轻人喜爱……个性化技术日益成为商业领域研究引用的热门技术。

协同过滤算法[3]就是利用用户群体过去的购买行为以及评分记录预测用户兴趣,根据预测评分生成Top-N推荐列表。传统协同过滤根据用户—项目评分矩阵,对未评分用户生成预测评分值,值越高,说明用户对该物品感兴趣程度越高。协同过滤算法[1]又可以分为两大类,分别是基于记忆和基于模型的算法,其中基于记忆的算法又包括基于用户的协同过滤和基于物品的协同过滤。

3 协同过滤推荐系统实现

获取用户信息 用户数据包括注册数据、购买数据以及评分数据。评分数据包括显式评分和隐式评分。直接物品的评分是显式评分,分值从1~5,代表用户喜好程度,形成用户—物品评分表。隐式评分是通过分析用户的行为记录来收集评分。如果用户访问了一件商品的详细信息并且停留时间比较长,那么认为用户对该物品有正向意图。协同过滤算法将用户数据以用户—物品评分矩阵表示,其中IDi表示第i个用户,Resj表示第j件商品,Rij表示用户i对物品j的评分。具体内容如表1所示。

最近邻选择 寻找目标用户的邻居是协同过滤技术的核心步骤,紧邻就是与目标用户i具有相同或者相似兴趣的用户群。计算目标用户i和其他用户j之间相似性的过程:首先筛选得到用户i和用户j共同评分的所有资源集合Res =Resi∩Resj,根据评分向量计算两个用户之间的相似性。推荐系统通常使用Pearson相关系数[4]和余弦相关系数来度量用户相似性。给定评分矩阵R,用户a和用户b的相似度计算用公式(1)来表示。其中,用U={a1,b2,...,zi}代表用户集合,P={p1,p2,...,pm}代表产品集合,R是评分项Rij的评分矩阵,这里i∈1...n,j∈1...m。

在基于物品的推荐中,余弦相似度由于效果精确,是一种标准的度量体系。这种方法用N维向量之间的夹角来衡量相似度,将物品a和物品b用对应的评分向量a,b表示,其相似度计算如公式(2)所示:

预测评分值 在基于用户的协同过滤系统中,利用公式(1)计算用戶之间相似性,通过设定合适的阈值,确定N个最近邻,通过N个最近邻来预测用户A对物品p的评分值,具体计算如公式(3)所示:

4 实例研究

基于用户的协同推荐实例研究 当前用户A和其他用户对一些书籍的评分如表2所示,基于用户的协同过滤推荐的任务,是预测用户A是否喜欢他还没有购买过的书籍,如果预测评分很高,那么就把该物品推荐给A。为此,实验的目的是通过公式(1)寻找和用户A有类似偏好的用户,然后利用公式(3)计算预测评分值。

选择上述提到的Pearson相关系数计算公式,在SPSS软件环境下进行相关性计算,计算得出所有用户之间的相关系数矩阵如表3所示。根据计算可知,用户A和用户B、C用户间的相似度很高,所以考虑将用户B和C作为A的最近邻用户。根据公式(3)来计算A对《傲慢与偏见》的评分:

4+[0.85*(3-2.4)+0.7*(5-3.8)]/(0.85+0.7)]=4.87

根据类似的方式,可以计算用户A对所有未曾见过物品的预测值。选择其中预测值超过设定阈值的N个物品,进行推荐。

实例研究 同样针对表2进行研究,采用余弦相似性来计算物品间的相似性。通过物品间的相似度,计算得出用户A对所有与物品5相似物品的加权评分总和,预测对《傲慢与偏见》的評分值。利用SPSS软件计算得出物品间相似矩阵如表4所示。

根据《傲慢与偏见》书籍和其他书籍的相似度,计算用户A对于本书的评分值,计算结果:

[0.805*5+0.027*4]/(0.805+0.027)=4.96

通过两种方法都可以计算得出用户A对于《傲慢与偏见》这本书的预测值,而且计算得出的数值很接近。由于所得评分值很高,可以推断用户A喜欢这本书,那么系统可以将本书放入推荐列表,推送给用户A。

5 结束语

协同过滤推荐技术诞生于电子商务领域,并取得较为成功的应用,比如亚马逊、当当网,不仅可以提高推荐精准度,增加销售额,同时为用户提供更好的服务,增强用户满意度。本文对于协同过滤算法只是进行了初步探索性研究,呈现了后续需要重点突破的关键问题:1)用户兴趣的动态变化与跟踪问题;2)除显式评分之外,用户的购买行为如何转化为资源的隐式评分;3)如何有效解决协同过滤技术中冷启动和数据稀疏性问题[5]。在后续研究中,这些问题有待进行深入探索。

参考文献

[1]Resnick P, Iakovou N, Sushak M, et al. GroupLens: An open architecture for collaborative filtering of netnews[M]//Proc 1994 Computer Supported Cooperative Work Conf. Chapel Hill.1994:175-186.

[2]邓爱林.电子商务推荐系统关键技术研究[D].上海:复旦大学,2003.

[3]王永固,邱飞岳,赵建龙,等.基于协同过滤技术的学习资源个性化推荐研究[J].远程教育杂志,2011(3):66-71.

[4]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012(7):66-76.

[5]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009(1):1-15.