基于改进协同过滤技术的农产品推荐研究
2018-09-21裘进李秋霞章珺彧
裘进 李秋霞 章珺彧
摘要:电子商务发展迅速,其作为信息时代的重要产物,给我们的生活带来了诸多便利,但是随着“信息过载”问题的出现,我们很难从电子商务平台上找到让自己满意的商品,商品推荐应运而生。随着技术的发展,其他电商平台的推荐技术已趋于成熟,但是,对于农产品的推荐技术和系统却很少。所以,本文提出改进的基于物品的协同过滤算法,以推荐精准、快速为目标。
关键词:协同过滤;个性化推荐;农产品电商
1 1综述
电子商务发展迅速,淘宝、京东和亚马逊等的出现使人们的消费方式发生了翻天覆地的变化。自2015年至今,多项扶持农业的国家政策的出台和上百亿电商进农村专项资金的下拨,农村电商像雨后春笋般蓬勃发展。
我国农产品电商已经经过20几年的发展,初步形成了电子商务网站、期货交易,以及涉农大宗商品交易、网上商城等多种农产品电商形式。2015年,电子商务总交易额1364700亿,其中,农产品交易额48.7万亿元,占总量的36%;农产品电商成交额超2000000亿[1]。农产品如此巨大的交易额表明农产品地位的举足轻重。越来越多的企业和个人,开始投资和参与到农产品电子商务中来,农产品冷链的发展进一步促进了农产品电商的发展。
但是,农村电商的发展还受到了很多问题的限制,其中很重要的一点就是:消费者很难找到符合自己要求的农产品。消费者必须要花费大量的时间和精力在搜索和寻找喜爱的农产品,这在很大程度上影响到消费者的购物体验。而农产品个性化推荐技术,一方面,个性化推荐能够在为消费者推荐商品的同时,为消费者节省了时间;另一方面,农产品个性化推荐能降低商家的成本,最大程度为农民谋福利。
推荐方法主要有五种:协同过滤、基于图论的推荐算法、基于内容的推荐、混合推荐算法以及其它[2]。基于商品的推荐算法建立在在协同过滤算法上,它不依靠用户对于商品的评分,而是根据用户浏览的商品推荐与之类似的商品。但是不论运用哪一种推荐算法一定会包含以下四个模块:信息采集、用户模型建模、个性化推荐、用户模型更新。
2 2协同过滤推荐算法
基于用户的协同过滤算法的推荐过程可以分为三个步骤,第一步,获取消费者购买过的商品、评分等数据;第二步,获取相似用户;第三步,推荐。计算相似用户是算法核心,相似用户的选择对推荐的准确性至关重要,目前计算用户相似度的方法有皮尔逊相关系数、杰卡德相似和余弦相似度和等。
对每个相似用户v(v∈N) ,用相似用户v对商品i的评分R_vi,和相似用户v与目标用户u之间的相似度Sim(u,v),加权得到目标用户u对目标商品i的预测评分P_ui。
基于物品的协同过滤算法通过分析消费者商品的浏览历史,将现有商品与之前的商品计算相似度,然后进行排序,将相似度排在前面的商品推荐给消费者。图2是基于内容的推荐算法的示意图。基于内容的系统过滤算法存在一个严重的弊病:数据的稀疏性,这导致了推荐效果的准确度不够。
对相似商品集合中每个商品j (j∈N),用目标用户u对相似商品j的评分值R_ui,和相似商品j与目标商品i之间的相似度Sim(i,j),加权得到目标用户u对目标商品P_ui。
3改进协同过滤算法的具体流程
本文为了解决协同过滤算法代码数据稀疏的问题,提出一种改进的基于2物品的协同过滤算法。原有算法的相似公式为:
我们将原有的余弦相似度公式加入時间、用户评分,得到新的相似计算公式:
下面文章将详细介绍改进算法的流程。
第一步,按时间倒序获取用户购买农产品的列表。首先,提取用户订单,包括农产品id,用户id,用户评分和订单时间,并按时间倒序排列农产品列表。再获得用户购物车数据,包括农产品id,用户id,加入购物车时间。最后把两个数据表合二为一。
第二步,得到农产品矩阵和农产品-用户表。该矩阵的每个值S[i][j]代表了同时喜欢物品i和物品j的用户数:
其中N(i)是喜爱农产品i的用户数量,而N(j)是喜爱农产品j的用户。然后,需要提取农产品-用户表,
第三步,获取时间表。去重农产品id和用户id,得到农产品-用户-时间表。
第四步,建立农产品评分表。遍历第一步得到的表格,去除评分为零的数据,计算每一个农产品的平均评分。
计算得到的每个农产品的平均评分即成为影响因子。
第五步,建立农产品-农产品相似度矩阵G。从以上步骤建立的表中提取有用信息,从而使用改进的相似度计算公式计算农产品-农产品相似度矩阵G。每个用户都有属于自己农产品相似度矩阵。
第六步,归一化农产品相似度矩阵。归一化公式为:
其中,W_ij^'是归一化后的值,maxW_ij代表最大值,W_ij是归一化前的相似度。归一化不仅可以提高推荐系统的准确性,还能提高农产品的覆盖率。
第七步,获得当前用户对农产品j的兴趣度。
其中Q_uxi代表U(x)的农产品j兴趣度,W_ij表示农产品j对农产品i的相似度R_uxi是当前用户U(x)对农产品i的兴趣,N(ux)表示当前用户喜欢的农产品集合,Sim(j,k)是和农产品j比较相近的k个农产品的集合。
第八步,获得当前用户的兴趣度排序列表。
第九步,生成最终的农产品推荐表。
4实验与结果
文章采用的是由Minnesota大学的Grouplens研究小组创建的数据集进行实研。
我们使用召回率、准确率以及平均绝对误差来衡量推荐算法。召回率表示推荐算法是否全面;准确率表示推荐是否正确。召回率和准确率公式如(9)和(10)所示。
我们将改进的算法与传统基于项目的协同过滤算法进行对比。
本文提出的改进算法较之于传统算法的MAE数值有所减小,也就是说推荐准确度更高。
表2显示本文改进的算法比传统算法的召回率和准确率都要高。
5结束语
本文主要介绍了农产品推荐的必然性和基于内容的协同过滤算法的主要思想;本文还介绍了目基于内容的协同过滤算法存在的一些问题;本文致力于解决原有算法存在的矩阵稀疏性、新用户和推荐实时性等问题,最后将其应用与农产品推荐中。在农产品电商中可以运用本文提出的改进的基于内容的协同过滤技术将农产品推荐给对此农产品感兴趣的消费者手中。
文章虽然对算法进行了一定改进,但是依然存在一些问题。算法对于分析文本数据还可以,但是对于提取农产品多媒体数据内容的特征具有一定的困难,在为农产品电商用户发现新的产品资源能力有限。
参考文献:
[1]全巧梅.农产品电商中精准推荐算法应用研究[J].科技广场,2016(9):39-42.
[2]叶锡君,龚玥.基于项目别的协同过滤推荐算法多样性研究[J].计算机工程,2015(10):42-46,52.
作者简介;裘进(1974—)男,汉族,浙江杭州人,本科,中级,研究方向:农业经济信息管理;李秋霞(1990—)女,汉族,江西南昌人,硕士,中级,研究方向:计算机技术应用及产品管理;章珺彧(1991—)女,汉族,浙江长兴人,本科,研究方向:农业电子商务。