基于强化学习的推荐算法综述
2020-02-25白玉马然
福建质量管理 2020年19期
白 玉 马 然
(北京物资学院 北京 101149)
一、目前推荐的研究现状与问题
面对互联网上眼花缭乱的海量信息,通常会让用户感到无所适从,每个用户都希望通过互联网快速的得到有用的信息。基于市场的需求,许多算法都被采用。比如深度学习以及隐语义方法[1]。但传统的推荐算法有许多缺点,比如内容过于相似等等。因此,为了解决此类问题,产生了强化学习算法。
二、强化学习与推荐算法研究
(一)协同过滤算法
在中国有句古话叫“物以类聚,人以群分”,就很好的诠释了协同过滤[2-3]的基本思想。比如,你现在想买一本书,但你不知道买哪一本,你就会去问和你兴趣类似的人,将他喜欢的书籍推荐给你。
(二)基于内容的推荐
基于内容的算法[4-5]应用的时间最早。从字面理解就是,依照用户的喜好来寻找兴趣相似的用户,将物品作为推荐。例如:在京东购物的小伙伴都知道,每当你浏览完一个界面时,重新在打开浏览时,都会出现“猜你喜欢”栏目。它会根据你之前购买的物品,来为你推荐你可能喜欢的物品。
(三)强化学习
强化学习[6-7]与监督学习的区别是,没有已经准备好的训练数据输出值,强化学习只有奖励值。与非监督学习的区别,在非监督学习中即没有输出值也没有奖励值,只有数据特征,而强化学习有奖励值。强化学习的特点是没有监督数据,只有奖励信号、奖励信号不一定是实时的、时间序列是一个很重要的因素。强化学习在推荐系统中的算法有DQN算法、A2C算法以及DDPG和PPO算法。
三、小结
当今时代,面对海量的信息,人们要想快速找到自己所需要的信息,是离不开推荐算法的。基于本文,主要讲述了传统的推荐算法以及新兴的强化学习算法。无论哪一种,都有自己的优点以及缺点。在合适的应用场景选择合适的推荐算法尤为重要。