基于用户喜好的个性推荐系统优化
2015-02-18王中友吴哲夫
王中友,肖 鹰,吴哲夫
(浙江工业大学信息学院,浙江 杭州 310023)
基于用户喜好的个性推荐系统优化
王中友,肖鹰,吴哲夫
(浙江工业大学信息学院,浙江 杭州 310023)
摘要:采用协同过滤方式的传统推荐系统具有一定实用性,但也存在未考虑用户个性喜好的问题。为提高推荐精度,特别针对用户个性化特点和需求,提出了采用改进相似度计算和回归分析方法对协同过滤推荐进行系统优化。实验结果表明,优化算法可明显改善系统的推荐效果,并加强基于协同过滤推荐的有效性。
关键词:个性化;推荐系统;回归分析
0引言
推荐系统是21世纪应用最广泛和成功的机器学习系统,一直受到电子商务应用、广告等行业的特别关注和研究。从历史交易数据中挖掘用户购物偏好并进行个性化商品推送是商务推荐系统最直接的应用。当前基于协同过滤方式的推荐主要分为基于记忆的推荐和基于模型的推荐两类[1]。基于记忆的推荐是通过计算用户或物品间的相似性,并根据最近邻居和推荐商品个数的实际需求进行用户潜在兴趣商品的推荐,包括以用户和以物品为目标两种方式;基于模型的推荐方式是通过用户对商品的历史评分数据建立模型并通过模型进行推荐,较常用的模型有矩阵分解、分类、聚类、回归分析模型等。总体上,现有的协同过滤推荐可以在很大程度上挖掘出用户潜在的兴趣物品[2],但有时推荐结果往往并非令人满意,特别是对具有特定喜好的用户群,甚至会引起某类特殊人群的反感,造成客户的流失。因此,在实际应用场景下满足个性化个人和群体的有效推荐问题一直都是基于协同过滤推荐方式的研究热点。本文从用户喜好角度出发,通过改进相似度计算方法,采用回归分析方式优化基于协同过滤的推荐系统,从应用的实际效果上改善和提高针对个性化人群的推荐质量。
1设计思路
1.1 添加标签锁定个性
基于用户喜好的个性化协同过滤优化算法的设计流程如图1所示。一般来说,电商的所有商品都有上架类别,如电器、图书等,用户可根据喜好进入相应区域进行选购。这些商品类别或标签属性可应用于个性化推荐[3-4],添加标签属性的方式相当于是一个三维矩阵(U—I—T),其中U代表USER,I代表ITEM,T代表TAG。使用三维矩阵可以锁定用户或特定人群的个性喜好,方便系统根据用户个人喜好进行相关推荐。
图1 用户喜好推荐系统设计流程图
1.2 改进相似度
将收集到的用户—物品的历史评分数据与物品的所属个性类别标签数据进行用户之间的相似度计算。收集两个矩阵信息如下:
(1)
矩阵A为用户—物品—评分矩阵,a11表示用户1对物品1的评分信息;矩阵B为用户—标签信息矩阵,b11表示用户1在标签1的物品类别上产生兴趣,1表示有兴趣,0表示无兴趣。原始的邻居相似度计算一般有两种方式[4]。
1)皮尔逊相似度(pearson):
(2)
2)余弦相似度(cosine):
(3)
式中,Rak、Rbk分别表示用户a和用户b对商品k的评分。为了改进相似度,尽可能考虑用户的个性喜好,引入参数Pak表示用户a对某类标签商品k的喜好指数:
(4)
式中,sumak和suma分别表示用户a已经购买了某类k标签商品数和已购买的所有商品总数。通过喜好指数可以计算出用户之间的相似度,方法和余弦相似度的计算类似,这里用喜好指数P来计算:
(5)
因为并不是所有用户都有明确的个性喜好,针对这种情形可引入权重λ,改进后的邻居相似度为:
sim*(a,b)=λsimp(a,b)+(1-λ)sim(a,b)
(6)
式中,λ∈(0,1),simp(a,b)表示用户喜好相似度,sim(a,b)为原始相似度,sim*(a,b)为加权后的相似度。
2λ的选择
λ是计算用户喜好度的权重指标,如何合理有效地选择参数λ是整个相似度优化推荐系统的关键。虽然可以通过设定不同的λ值来进行迭代校验来选取最优值,但通过Logistic回归来确定最优λ值不失为一个合适的方法。
Logistic回归是一种基于预测变量为离散型的概率模型,通过采集更多有关用户个性喜好的数据信息(离散型、连续型均可)来进行分析,典型的如用户的个人信息、是否观看过某类别标签商品等。假设收集用户对某类标签商品的信息如表1所示。
表1 收集某类标签商品信息
通过Logistic回归对用户兴趣度进行建模prob(interest)=β1×age+β2×inspect+β3×time。
3实验及分析
3.1 实验数据集
实验采用的一个电影评分数据集为Movielens-100k[5]。该开源数据集抽样了针对近两千部电影的十万个匿名评分,而且评分用户大多是资深电影人,数据可信度较高。评分范围为[0,5]整数区间,其中5分最高,l分最低,0分表示未给出评分。同时,数据集中还包含了评分用户的诸多个性特征,如用户的性别、年龄、职业等,以及电影的相关属性,如上映时间、风格等。实验采用Movielens数据集是因为其数据量大,可以充分利用模型进行验证。数据集中包含用户特征属性、物品标签信息等满足实验需求的信息,其中部分数据用于构建推荐系统模型,即训练集;其余则用于验证该模型的实际效果,即测试集。
3.2 评判标准
(7)
另外均方根误差(Root mean squared error,RMSE)也是推荐系统的一个评估指标。MAE和RMSE指标数值越小,则推荐商品和用户实际购买商品集间的差异越小,即系统推荐质量越高。
3.3 实验结果
为了验证改进后的相似度和原始相似度计算下的推荐系统质量,算法通过设置不同的邻居数来对比两个评估指标,实验对比结果如图2、图3所示。
图2 不同相似度计算时的MAE比较
图3 不同相似度计算时的RMSE比较
从图2、图3中可以看出,随着邻居数的增加,3种相似度计算的推荐质量都有所提高,但代价是增加了数据集处理的计算量。同时,使用改进相似度优化后的推荐系统相比其他两种原先的相似度系统,MAE和RMSE指标都有一定程度的降低,平均大约降低了5%,从而提高了推荐系统的个性化推荐效果。主要原因是在改进的相似度计算中充分考虑到了用户兴趣度,通过用户个性喜好度权重指标λ选择和引入回归分析有效地改善了推荐系统相似度计算和判定。
4结束语
本文从用户的个性喜好角度出发,对商品添加标签的方式进行个性化分类,通过改进协同过滤方式相似性度量算法,提出的改进推荐系统不仅可以有效地解决处理用户个性喜好的问题,同时避免了推荐出用户偏差商品的问题,从而有效地提升了系统的推荐质量。实验结果表明,本文所提出的改进推荐算法相比传统系统的推荐质量有一定程度的提高。在此基础上,如何改进相似度计算复杂度和进行个性化属性分类权重参数的多粒度选择是下一步的工作重点。
参考文献
[1] 杨博,赵鹏飞.推荐算法综述[J].山西大学学报(自然科学版),2011,34(3):337-350.
[2]杨兴耀,于炯.融合奇异性和扩散过程的协同过滤模型[J].软件学报,2013,24(8):1868-1884.
[3]郭磊,马军,陈竹敏,等.一种结合推荐对象间关联关系的社会化推荐算法[J].计算机学报,2014,37(1):219-228.
[4]陈洪涛,肖如良,倪友聪,等.融合推荐潜力的个性化趋势预测的混合推荐模型[J].计算机应用,2014,34(1):218-221.
[5]GroupLens.Social Computing Research at the University oF Minnesota MovieLens[EB/OL].[2014-10-11].http://Files.grouplens.org/datasets/movielens/ml-100k.zip.
[6]Hu L,Song G H,Xie Z Z,et al.Personalized recommendation algorithm based on preFerence Features[J].Tsinghua Science and Technology,2014,19(3):293-299.
Personalized Recommendation System Based on User PreFerences
Wang Zhongyou, Xiao Ying, Wu ZheFu
(CollegeoFInFormationEngineering,ZhejiangUniversityoFTechnology,HangzhouZhejiang310023,China)
Abstract:The traditional recommendation systems generally use collaborative Filtering but merely consider the personality and individual preFerence. To enhance the recommendation quality, this paper proposed an approach to optimize the existing collaborative Filtering recommendation system by adding the similarity calculation and regression analysis. The experimental results show the algorithm can signiFicantly improve the quality oF recommendation system and the collaborative Filtering eFFiciency.
Key words:personalization; recommendation system; regression analysis
中图分类号:TP391
文献标识码:A
文章编号:1001-9146(2015)03-0056-04
通信作者:
作者简介:王中友(1973-),男,浙江杭州人,在读研究生,通信数据网络.吴哲夫副教授,E-mail:wzF@zjut.edu.cn.
基金项目:浙江省自然科学基金资助项目(LY13F010011)
收稿日期:2014-11-06
DOI:10.13954/j.cnki.hdu.2015.03.011