APP下载

基于用户与物品匹配度的推荐系统性能研究

2019-07-30黎丹雨

现代计算机 2019年18期
关键词:权重次数物品

黎丹雨

(中山大学新华学院信息科学学院,广州510000)

0 引言

随着互联网与信息科技的快速发展,网上交易业务逐渐增多,越来越多的用户及物品信息形成海量数据。用户要在如此庞大的商品数据中找到自己感兴趣的内容,已成为各个商家及研究人员的热点问题。推荐系统的诞生在一定程度上解决了该问题,推荐系统的性能也越来越完善。目前,有很多商家已成功将推荐功能融入到网站或应用程序中,例如天猫、京东、美团、今日头条、网易云音乐等,这些网站或应用程序能很好地向用户推荐商品、美食、新闻、视频、音乐等信息。除此之外,还有一些较好的推荐系统,例如Amazon 电子商务推荐系统[1]、Netflix 视频推荐系统、Last.fm音乐推荐系统[2]等。

推荐的目的就是根据用户和物品的属性信息,以及两者之间的交互行为,为用户提供最满意的物品。推荐系统最常用的算法大致可分为以下几种:基于内容的推荐算法[3],该方法根据物品之间的相似性进行推荐。基于知识的推荐方法[4]能够将用户的需求映射到产品上。基于关联规则的推荐算法[5],该方法根据已经购买的历史商品,推荐与之最具有相关性的其他商品。协同过滤推荐算法[6],该方法依据对商品的评分来向用户推荐商品,是应用最广泛的推荐方法之一。

目前,关于推荐系统的研究还在继续,刘振鹏[7]将深度学习应用到推荐系统上,利用深度神经网络和卷积神经网络提取出用户和项目的隐性特征向量,再将特征向量经过改进的神经协同过滤得出推荐。吴琼[8]利用改进的聚类算法,结合Apriori 关联规则算法和SimRaiik 相似度算法,搭建了高校就业推荐系统。未翠翠[9]针对AvgSim 算法、KHM 聚类算法和关联规则FP-Growth 算法进行改进,实现电影推荐功能。黄贤英等人[10]得到用户-关键词偏好矩阵,在该矩阵上进行聚类,并利用Logistic 函数得到用户-项目的兴趣度,在同一簇中,根据兴趣度像用户推荐项目。高茂庭[11]提出一种融合用户社交关系和时间因素的主题模型推荐算法。王建洋[12]、李佳[13]、汪加林[14]等人将深度学习与推荐系统相结合,在一定程度上提高了推荐性能。邓旭明[15]在旅游服务上研究了推荐系统的应用。刘奕[16]在音乐推荐上进行了研究,提出了基于内容语义的推荐模型—卷积循环神经网络推荐模型CRNN,该模型学习同一音轨文件不同段落之间联系的特征,统计出用户对于不同类型歌曲的偏好,进行音乐推荐。王雨辰[17]利用挖掘的图像特征和文本信息相结合的方式进行推荐。本文在深入了解推荐模型的原理和性能后,对建立推荐模型的重要因素,用户和物品,进行分析。研究了影响推荐系统性能的多种因素,并进行了相应的处理和改进。

推荐系统可以描述为拟合用户对物品的满意度函数关系。该函数的输入有多个维度,例如用户画像、物品特征、时间、地理位置等,下文将从每个维度对推荐系统性能的影响做系统地分析。

1 用户画像

1.1 用户信息

用户画像生成的目的就是给用户加标签,标签可以认为是用户的特征描述的关键。好的特征标签不仅可以使对用户的刻画变得更加丰富,还能提升算法的效果。用户的标签的来源大致可分为两类。

一类包括用户的性别、年龄、所在地等,这些信息通常在用户注册时可得到。若用户在注册时未输入这些内容,则系统也可根据用户之后的行为预测出来。一般,不同性别,不同年龄段的用户感兴趣的物品不太一样,不同所在地的用户所关心的内容也会有所不同,例如在广州和武汉的用户关心的政策和新闻有差别。另外,这些信息随时间变化缓慢,在推荐系统中可用离线处理,当数据量很大时,也可用Hadoop 集群进行批量处理。

另一类信息的来源比较丰富,包括用户的点击率、浏览、收藏、分享、评论等,标识着用户的兴趣所在,这类信息的处理是一项庞大的工程。

用户画像的最终生成是结合这两类信息构建高级标签,可以用简单的数据统计,也可以是复杂的机器学习模型,这些标签作为推荐系统的依据之一,标识着用户感兴趣的类别、主题、关键词,等等。

1.2 用户标签处理

利用机器学习和自然语言处理方法,能够提炼出用户的主题、关键词等标签信息[18],提炼过程是根据用户对某些物品产生的行为进行建模。

建模过程要考虑粒度问题,例如用户浏览了一个NBA 体育新闻,在一定程度上表明该用户对体育感兴趣。但是用体育这个标签,显然粒度太粗,用户可能只对篮球有兴趣。若该新闻关键词和内容是关于詹姆斯的,用人名这个标签,粒度又显得太细,因为接下来的新闻中可能没有关于詹姆斯的,就无法再进行推荐,所以选择合适的粒度非常重要。

标签的选择要能够反映用户的特征,带有较强的行业性。例如在新闻推荐中,标签能够反映出用户是对哪类主题感兴趣。在电商服装推荐中,用户的偏好是当季爆款或是新品多于经典款(时尚度);还是低价或打折商品(价格敏感度);或者是高价商品或限量版(反向价格敏感度)。

标签要根据具体情况实时处理,假设给用户推荐的物品没有被用户查看,则要惩罚相关特征。用户的标签权重也要时刻关注,用户随着时间的增加,对物品的行为也会发生变化,可适当调整标签的权重,例如增加新行为产生的特征权重,降低旧行为产生的权重。

与时间有关的用户标签:

(1)点击与停留

对于电商网站来说,总会存在一些用户没有点击具体的商品,点击的大部分是目录网页,这样的用户在电商网站上“瞎逛”。还有一些用户具体点击了某个商品,但是该用户的停留时间非常短暂,原因可能是误点或者点进去发现不是自己想要的商品。对于模型建立有用的点击数据是那些被点击的商品,且停留时间相对较长和点击次数较多的商品。停留时间的长短和点击次数在一定程度上反映了用户对商品的兴趣度。需要注意的是,有些用户可能在点击完商品之后,处理其他的事情,导致停留时间过长。这类数据不能反映用户的真实兴趣,并且该部分数据所占比例比较少,在预处理时可以清除。

由于点击次数和停留时间长短都能够反映用户对商品的兴趣度,联合两种因素得到商品点击次数和停留时间联合因素:

其中,Pij是联合因子,表示商品x 被点击的次数是j 次,访问时停留的时间是i。α和β分别是停留时间和点击次数的权重。商品访问停留的时间越长,点击次数越多,P 值越大,表示用户对该商品的兴趣度越高。

设T 是商品详情页面的停留时间,则ti是商品i 页面的停留时间,N 是商品的点击次数,nj商品i 的点击次数。对停留时间进行离散化处理,0 表示时间极短,1表示时间较短,2 表示时间中等,3 表示时间较长,4 表示时间极长。

其中,i 表示停留时间,j 表示点击次数,x、m、n 表示商品,P(x)ij表商品x 的停留时间与点击次数的共同影响值。

(2)兴趣衰减

用户对商品的兴趣度在一定程度上是随着时间进行衰减的,即兴趣度是随着时间动态变化的。故可引入时间因素,减少用户评分的时间差异性。用户的收藏、购买商品反映了用户的兴趣度所在,利用收藏商品之间的相似性,可找出用户的感兴趣的商品类型。但是对收藏商品的兴趣度可能也会随着时间削弱。另外,如果用户近期再次浏览或收藏的商品,则用户购买该商品的欲望变大。这些都是通过时间因素来体现的,假设用户收藏商品随时间的衰减度为γ,其值越大表示衰减越快,γ=0 时表示不衰减,则用户兴趣度在t天后的衰减程度为(1-γ)t。

1.3 用户标签计算

同一个用户具有的很多标签,这些标签的权重会随着时间的变化。这是由于用户的兴趣会随着时间的迁移,用户的特征会在不同阶段有不同的表现。可对用户的每个标签的权重进行计算。假设W(U ,t )表示标签t标记在用户U 上的比重,W(U ,t )计算方式见公式(3)[19]。

其中,w(U,t)表示标签t 用在用户U 上的次数,ti为i 个标签。

用P(U,t)表示标签t 出现的概率,则:

Uj∈全部用户,ti∈全部标签,该式分子表示全部用户的全部标签之和,分母为所有标签为t 的用户之和。

至此可得,用户标签的权重为:用户标签权重=行为类型权重×时间衰减×(W(U ,t )×P(U ,t ))×行为次数。行为类型包含用户的点击率、浏览、收藏、分享、评论等,不同行为可赋予不同的权重值。

推荐系统还应具有实时更新标签的能力,用户的某些信息随着时间更新较快,这就要求推荐系统能随时捕捉用户的行为,推荐模型也要及时更新。通常的处理办法是进行流式处理,利用Spark 或Storm 实时更新。

2 物品特征

(1)物品特征处理

不同网站主营的业务不同,所面对的物品也不一样,商家需要考虑提取平台上物品的特征,根据物品特征找到相似内容的物品关键词和主题,并与用户标签进行匹配,从而进行推荐。提取物品特征可以分为文本分析、图片分析、语音分析、视频分析等。

对于文本来说,可对其进行自然语言处理[20],抽取语义标签,并为该文本打上标签。图片分析主要是分析识别图片中的目标[21],并标记。语音分析[22],可通过训练模型,使其具有语言理解和情绪侦测的能力。

(2)其他因素

一个好的推荐系统融合了多种算法推荐算法,因为目前还没有一个算法能够适用于所有的推荐场合。另外,物品的推荐次数和频率也会影响着用户对推荐系统的喜爱程度。推荐频率过高和过低,都会给用户带来不好的体验。推荐系统还应具有信息过滤的功能,对于一些不健康的负面物品,要及时过滤。有时,推荐系统在推荐物品的同时,也要考虑环境和季节等因素,否则会做出无效推荐。

3 结语

基于前人的研究以及成功商家的推荐案例,本文对推荐系统的工作过程和影响推荐系统的性能因素进行了研究,并对用户标签的形成过程进行建模。具有标签的用户和提取出来的物品特征(主题、关键词等)进行匹配,将匹配程度高的物品推荐给当前用户。对推荐系统中的实时处理进行了说明,为后续研究提高推荐系统的性能打下基础。

猜你喜欢

权重次数物品
称物品
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
最后才吃梨
权重常思“浮名轻”
俄罗斯是全球阅兵次数最多的国家吗?
为党督政勤履职 代民行权重担当
权重涨个股跌 持有白马蓝筹
图画捉迷藏
找物品