基于用户行为的协同过滤算法研究
2019-07-08金诗思卢翰霖李凯金海潮谭寓元黄淳岚乐光学
金诗思 卢翰霖 李凯 金海潮 谭寓元 黄淳岚 乐光学
摘要:针对电商网站上的广告质量和用户需求不匹配的问题,提出基于协同过滤在个性化方面的公平广告推送算法,在海量数据中挖掘对用户有价值的广告内容。通过收集用户的浏览日志,建立单个用户评分矩阵,利用关键字权重和相似度算法分析用户行为,最后通过协同过滤算法综合推荐给用户。根据MovieLens数据集对该算法进行实验,得出此算法具有较高的准确度,能够实现对用户个性化推荐。
关键词:广告推送;相似度;协同过滤;基于用户
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)13-0017-02
目前,我国互联网广告规模已有千亿级,人们正面临着“信息过载”(information overload)的问题。为此我们需要建立一个推荐系统(recommender systems)来解决这些问题[1-3]。正如Jeff Bezos(Amazon的CEO)所言:“如果我在网络上有三百万个用户,我就应该有三百万个网上商店”,讲的正是推荐系统在提供消费者个性化建议的重要性。在一定程度上,精准的推薦有助于用户对于物品的筛选,提高用户对网站的体验。如日常生活中,人们对于一些感兴趣的事物犹豫时,如何帮助用户挑选合适的产品,就需要个性化推荐系统的运用。
目前将个性化精准推荐的设计主要分为三个步骤:建立用户数据集,添加各用户基本的特征属性(如:年龄、性别、社会职位等),再通过用户对各类商品的评分得到一个初步的用户偏好。最后根据网站后台中的历史数据进行比对,过滤出相似用户行为集合,并进行相关操作,通过深度学习、数据挖掘等方式,自行给用户推荐商品或服务。
根据以上情况,提出基于用户的协同过滤推送算法T-B-A(Terms-Behavior-AD)是根据目标用户的浏览行为、历史数据来匹配有相似兴趣的邻居用户,而目标用户的推荐依据邻居用户的一些行为或评价。其核心内容在于:用相似度算法来获取用户的推荐信息,通过历史记录在数据集中找到相似的邻居用户,而忽略详细的行为记录。这是由于,一般情况下,如果不同用户对一些项目给出的评价相近,那么这些用户对其他项目的评价也会相似相邻[4]。本文以电影推荐为实验数据集,是由于电影推荐所具备的生命周期较长,变化趋势较小的特性,分析不同用户的行为特征,实现对每个不同用户的个性化精准推荐。
1 算法介绍
基于用户的协同过滤算法是根据用户的浏览内容等为用户推荐感兴趣的内容,主要考虑用户的需求。建立关于用户共有电影的评分矩阵,归一化处理得到用户的评分,采用TF-IWF算法对关键词权重进行初步的计算后,计算不同用户之间的相似度,运用迭代方式选取相似度较高的k个用户,实现个性化的协同过滤推荐。具体流程如图1所示。
1.1 基于词语的逆文本频率(Term Frequency-Inverse Words Frequency)
在文本预处理阶段,最常用的是逆文本频率“TF-IDF”。但这种算法本质上只是简单将小概率出现的单词作为特征词。关于TF-IDF算法的改进,文献[5]提出的BOR-TFI-DF权重函数,文献[6]提出的WA-DI-SI算法,文献[7]提出的TF-LDF方法,在一定程度上修正TF-IDF方法的不足,但对改进TF-IDF算法而言,引入词位权重和词跨度权重是比较少见的。因此目前推荐系统常用词语逆频率方法“TF-IWF”来计算关键词权重,具体公式如下:
本文通过选取的七组训练集,通过逐渐累加的方法来验证该算法的性能。我们分别在0、20、40、60、80、100、120个邻居数下对30多个用户进行预测,并将所有结果做均方根误差的处理,经多次测试后得出的实验结果如图3所示。
从结果显示,在一定程度上,当k取值越大,准确率就越高,平均误差率就越低,并随着k值的增大逐渐趋于平稳状态。
3 结语
本文分别从算法的设计角度,分析了电影的个性化精准推荐,并根据用户的平均评分结果对用户的兴趣爱好展开分析,利用相似度为用户推荐电影。进而引申基于用户行为的协同过滤广告推送算法也可通过本算法对用户-广告评分矩阵,将用户行为与需求的广告挂钩。帮助用户在信息超载的互联网上找到真正属于自己的广告内容,节约用户的时间成本,提高了网站的流量的同时还增加收益。在处理用户信息时,结合了多种加权方法降低矩阵的稀疏性,达到了不错的准确推荐和大范围的覆盖效果。
参考文献:
[1] 楼艺婵. 电子商务网站的媒介特性研究[J].中国管理信息化,2014,17(15).
[2] 庞海龙. 基于协同过滤的个性化推荐技术研究[D].上海:复旦大学,2003.
[3] 王一晴, 陈羽舒. "双十一"各大电商广告宣传及消费者购物行为分析[J].全国商情·理论研究,2016(31):24-25.
[4] 魏慧娟, 戴牡红, 宁勇余. 基于最近邻居聚类的协同过滤推荐算法[J].中国科学技术大学学报,2016(09):29-35.
[5] 董晨露, 柯新生. 基于用户兴趣变化和评论的协同过滤算法研究[J].计算机科学,2018.
[6] 李玉翔,周杰,许斌,等.基于用户关系挖掘的多策略推荐算法[J].信息工程大学学报,2013,14(4):492-498.
[7] 陈小辉, 高燕, 刘汉烨. 基于归一化方法的协同过滤推荐算法[J].电子设计工程,2014(14):17-20.
【通联编辑:唐一东】