基于强化学习的推荐算法综述

2020-02-25白玉马然

福建质量管理 2020年19期

白玉马然

(北京物资学院北京 101149)

一、目前推荐的研究现状与问题

面对互联网上眼花缭乱的海量信息，通常会让用户感到无所适从，每个用户都希望通过互联网快速的得到有用的信息。基于市场的需求，许多算法都被采用。比如深度学习以及隐语义方法[1]。但传统的推荐算法有许多缺点，比如内容过于相似等等。因此，为了解决此类问题，产生了强化学习算法。

二、强化学习与推荐算法研究

(一)协同过滤算法

在中国有句古话叫“物以类聚，人以群分”，就很好的诠释了协同过滤[2-3]的基本思想。比如，你现在想买一本书，但你不知道买哪一本，你就会去问和你兴趣类似的人，将他喜欢的书籍推荐给你。

(二)基于内容的推荐

基于内容的算法[4-5]应用的时间最早。从字面理解就是，依照用户的喜好来寻找兴趣相似的用户，将物品作为推荐。例如：在京东购物的小伙伴都知道，每当你浏览完一个界面时，重新在打开浏览时，都会出现“猜你喜欢”栏目。它会根据你之前购买的物品，来为你推荐你可能喜欢的物品。

(三)强化学习

强化学习[6-7]与监督学习的区别是，没有已经准备好的训练数据输出值，强化学习只有奖励值。与非监督学习的区别，在非监督学习中即没有输出值也没有奖励值，只有数据特征，而强化学习有奖励值。强化学习的特点是没有监督数据，只有奖励信号、奖励信号不一定是实时的、时间序列是一个很重要的因素。强化学习在推荐系统中的算法有DQN算法、A2C算法以及DDPG和PPO算法。