APP下载

基于强化学习的推荐算法综述

2020-02-25

福建质量管理 2020年19期
关键词:海量缺点物品

白 玉 马 然

(北京物资学院 北京 101149)

一、目前推荐的研究现状与问题

面对互联网上眼花缭乱的海量信息,通常会让用户感到无所适从,每个用户都希望通过互联网快速的得到有用的信息。基于市场的需求,许多算法都被采用。比如深度学习以及隐语义方法[1]。但传统的推荐算法有许多缺点,比如内容过于相似等等。因此,为了解决此类问题,产生了强化学习算法。

二、强化学习与推荐算法研究

(一)协同过滤算法

在中国有句古话叫“物以类聚,人以群分”,就很好的诠释了协同过滤[2-3]的基本思想。比如,你现在想买一本书,但你不知道买哪一本,你就会去问和你兴趣类似的人,将他喜欢的书籍推荐给你。

(二)基于内容的推荐

基于内容的算法[4-5]应用的时间最早。从字面理解就是,依照用户的喜好来寻找兴趣相似的用户,将物品作为推荐。例如:在京东购物的小伙伴都知道,每当你浏览完一个界面时,重新在打开浏览时,都会出现“猜你喜欢”栏目。它会根据你之前购买的物品,来为你推荐你可能喜欢的物品。

(三)强化学习

强化学习[6-7]与监督学习的区别是,没有已经准备好的训练数据输出值,强化学习只有奖励值。与非监督学习的区别,在非监督学习中即没有输出值也没有奖励值,只有数据特征,而强化学习有奖励值。强化学习的特点是没有监督数据,只有奖励信号、奖励信号不一定是实时的、时间序列是一个很重要的因素。强化学习在推荐系统中的算法有DQN算法、A2C算法以及DDPG和PPO算法。

三、小结

当今时代,面对海量的信息,人们要想快速找到自己所需要的信息,是离不开推荐算法的。基于本文,主要讲述了传统的推荐算法以及新兴的强化学习算法。无论哪一种,都有自己的优点以及缺点。在合适的应用场景选择合适的推荐算法尤为重要。

猜你喜欢

海量缺点物品
一种傅里叶域海量数据高速谱聚类方法
称物品
“双十一”,你抢到了想要的物品吗?
海量快递垃圾正在“围城”——“绿色快递”势在必行
谁动了凡·高的物品
跟踪导练(五)2
一个图形所蕴含的“海量”巧题
找物品
一种海量卫星导航轨迹点地图匹配方法
缺点背后的阳光