APP下载

基于阿里巴巴大数据的购物行为研究

2016-05-31雷名龙

物联网技术 2016年5期
关键词:用户行为推荐系统大数据

雷名龙

摘 要:个性化推荐系统能解决电子商务带来的信息过载等问题。文章基于2014年阿里巴巴大数据竞赛,从海量的购物行为数据中抽取有效特征,探究建立用户品牌偏好的有效方法并对其进行商品推荐。通过对购物行为数据的统计分析,挖掘了包括用户特征、商品特征和用户-商品行为特征在内的3种有效特征。并构造了随机森林、逻辑回归和SVM三种机器学习分类模型,从而有效地根据用户品牌偏好进行商品筛选并预测未来一个月内用户对商品的购物行为。

关键词:电子商务;大数据;推荐系统;品牌偏好;用户行为;商品特征

中图分类号:F724 文献标识码:A 文章编号:2095-1302(2016)05-00-04

0 引 言

随着人类进入信息时代的步伐加快,我国电子商务市场近年来发展势头迅猛,同时保持了巨大的市场发展潜力。截至2013年12月,中国网民规模达6.18亿,其中网络购物用户规模达3.02亿[1]。但是,面对电子商务网站提供的过多商品,用户容易产生购物疲劳,也就是信息超载[2]。电子商务推荐系统是解决此问题的一种方案。该方案推荐系统根据用户购物历史数据,预测用户的商品喜好,将用户可能喜欢的商品推荐给用户,从而克服信息超载带来的不利影响,促成更多的交易以增加企业的销售额。本文基于2014年阿里巴巴大数据竞赛[3],根据1 250万用户4个月在天猫的5.7亿条海量行为日志,建立用户的品牌偏好,进行品牌筛选并预测他们在未来1个月内对品牌的购买行为。用户在未来购买的品牌分为两种:用户接触过的品牌和用户未接触过的品牌。据统计,在未来的1个月内被购买的品牌中,用户接触过的品牌约占20%,新品牌约占80%。本文跟据用户对品牌的行为数据进行探究,提取了用户对品牌的主要行为特征。基于这些特征,我们分别基于随机森林,逻辑回归和SVM构造了分类模型,对用户未来是否会购买该品牌进行预测,并得到了理想的预测效果。通过研究发现,对于海量购物行为数据,发现并提取恰当的特征有助于提升推荐系统的性能,对个性化推荐系统性能的完善有重要的现实意义。

1 相关工作

近年来,推荐系统成为学术界的研究热点。目前被广泛接受的推荐系统概念和定义是Resnick和Varian在1997[4]年给出的:推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。按照推荐策略的不同,推荐算法一般分为基于内容的过滤算法(Content-Based Filtering, CBF)和协作过滤算法(Collaborative Filtering, CF)。推荐系统的推荐质量是推荐系统成功的关键。Karypis等人[5,6]提出根据项之间的相似性提供推荐服务,从而有效提高了推荐质量;文献[7]提出通过对稀疏数据的关联分析以有效提高推荐质量。但随着数据规模的增大,数据的稀疏性和复杂性也随之增大。在此背景下,如何保持或进一步提高推荐系统的质量成为一个挑战。本文基于2014年阿里巴巴大数据竞赛提供的海量数据,对用户特征和商品特性及其分布进行了统计分析,并提取了有效的行为特征对用户品牌偏好进行描述。

2 阿里巴巴大数据竞赛及其数据

2.1 竞赛和数据介绍

阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴大数据科研平台——“天池”上开展的基于“天猫”(购物网站)海量真实用户访问数据的推荐算法大赛。阿里巴巴大数据竞赛官方提供了某年4月到7月天猫部分购物行为数据,共包括1250万个用户和3万个品牌,共5.7亿条操作记录。本届赛题的任务是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌的购买行为。在竞赛官方提供的数据格式中,每条购物行为包含4个字段,分别为用户ID、品牌ID、用户对品牌行为类型和行为时间。

其中,用户ID和品牌ID进行了抽样和字段加密;用户对品牌行为类型包括点击、购买、加入购物车和收藏4种。在本文中,我们将点击、加入购物车和收藏统称为浏览行为,购买称为购物行为;行为时间隐藏了年份并精确到了天的级别。为了方便处理,我们将行为时间与最大日期作差转换为标量。

2.2 数据去噪

在处理之前,需要对数据去噪。通过分析,我们决定去除两类用户:一种是操作量过高的用户。在数据中,我们发现有一个用户的操作记录超过了2 000万条,这显然是不正常的。所以,我们将4个月内操作次数大于2 000次的用户删除;另一种用户是一些为了刷信誉或者出于某些目的大量操作同一件物品。我们将在4个月内对某一件特定商品有超过1 000次操作的用户统计出来,并将其删除。在用户过滤阶段,大约删除了5 000个用户,约占总用户数的0.1%。

3 用户特点分析

3.1 总体用户行为统计

用户在天猫的行为类型分为点击、购买、加入购物车和收藏4种行为。数据集包含了1 250万位用户的5.7亿条购物历史记录。我们在数据集上分别对这4种行为数量进行统计,发现用户点击行为、购买行为和收藏行为分别占总行为记录的96%、3%和1%,而加入购物车行为出现次数极少。这说明,在网购期间,用户的浏览行为占了非常大的比例,购买、收藏和加入购物车行为只占了相当小的一部分。收藏和加入购物车操作对购买行为有较强的预测能力。

3.2 用户行为分布

我们以用户为单位,分别统计并计算4个月的浏览行为(包括点击、加入购物车和收藏)和购买行为的分布,分别得到如图1和图2所示的结果。由于我们对纵坐标用户数量进行了对数处理且纵坐标与横坐标近似呈现反比关系,所以两个分布近似服从幂律分布中的长尾分布[8]。

图1 四个月浏览总次数与用户数量分布

图2 四个月购买总次数与用户数量分布

对于总浏览量,发现约95%的用户浏览次数分布在0到800次之间。用户平均浏览总次数为44.8次。随着浏览次数的增加,用户数量急剧减少,并出现长尾现象;对于总购买量,我们发现约94%的用户购买次数分布在0到80区间。随着购买次数的增加,用户数量急剧减少,也出现长尾现象。此外,无论是总浏览量还是总购买量,最大值与最小值间跨度巨大。这说明用户群体复杂多样,购买力和购物热情参差不同,对网站的访问目的也有所差异:一部分用户有目的的进行购物,另一部分用户则抱着“闲逛”的心态去浏览网店。

3.3 用户浏览购买转化率分布

我们称用户购买行为次数与总行为次数的比值为浏览购买转化率。转化率的不同反映出用户购物习惯的不同,不挑剔的用户的浏览购买转换率较高,较为挑剔的用户浏览购买转化率较低。以用户为单位,统计并计算出其浏览购买转化率,得到的结果如图3所示。

图3 浏览购买转化率与用户数量分布

我们发现,约80%的用户浏览购买转化率分布在0到0.1区间。这说明对于大多数用户而言,购买某件商品之前对商品的点击次数大约超过10次。随着转换率的提高,用户数量急剧减少,随着转化率的增加,用户数量急剧减少。

4 商品特点分析

本节根据商品品牌被用户访问的行为数据,从行为类型、浏览购买转化率、重复购买率、平均销售周期等角度分析商品品牌的特点。

4.1 商品行为分布

我们以品牌为单位,分别统计并计算4个月被浏览的行为(包括被点击、被加入购物车和被收藏)和被购买行为次数,根据统计信息,商品4个月平均被浏览次数为6 500次,最少被浏览次数为0,而最大被浏览次数为162万次;商品平均被购买次数为316次,最小被购买次数为0,最大被购买次数为11万次。

同用户相似,这两个分布也近似服从幂律分布中的长尾分布。从而可知,热门商品一般更容易被用户接受,销量越来越高;而冷门商品由于不容易被用户发现和接受,所以销量停滞不前。

4.2 品牌购买转化率

与用户浏览购买转化率相似,我们称品牌被购买次数与被访问总次数的比值为品牌浏览购买转化率。转化率的不同反映出品牌的自身特性,热门商品的浏览购买转换率高,冷门商品的转化率较低。

由统计信息可知,约80%的品牌浏览购买转化率分布在0到0.2区间。个别热门产品或促销产品转化率偏高。

4.3 品牌重复购买率

对于每一个品牌的每一次被购买行为,我们首先判定用户对于此品牌是否有历史购买记录。对于有对应历史购买记录的购买行为,我们称之为一次重复购买。品牌重复购买次数与品牌总购买次数的比值称为品牌重复购买率。以品牌为单位,计算并统计其重复购买率。

我们发现约80%的品牌重复购买率分布在0到0.1区间,少数商品重复购买率超过0.2。品牌重复购买率可以衡量一个品牌回头客的数量,重复购买率高的品牌更能够获得用户的信任和持续关注。

4.4 品牌平均销售周期

我们称一个品牌两次被同一用户购买的时间间隔的平均值为品牌平均销售周期。它能反应一个品牌的本质特性,比如食品类的销售周期短,而电子产品销售周期则较长。统计并计算品牌的平均销售周期。同样发现约80%的品牌平均销售周期分布在0到20区间,少数商品平均销售周期超过30天。

5 用户-品牌行为与未来购买行为

本节研究用户-品牌行为对用户未来购买行为的影响。显然,用户更趋向于购买自己喜欢的品牌。选取合适的数据指标,可以预测用户未来对此商品的购买行为。

5.1 数据指标和假设

(1) 用户对品牌的浏览行为次数:用户对品牌产生的浏览行为(点击,加入购物车和收藏)的总次数。

(2) 用户对品牌的关注行为次数:以天为单位,用户X对品牌Y产生的浏览行为(点击,加入购物车和收藏)称为用户对品牌的一次关注行为(同一天用户X对品牌Y多次浏览行为只视为一次)。

(3) 用户对品牌的购买总数量:用户对品牌购买行为记录的总次数。

(4) 用户对品牌的购买行为次数:以天为单位,用户X对品牌Y产生的购买行为次数(同一天用户X对品牌Y多次购买只视为一次)。

(5) 用户对品牌最后一次操作相对日期:我们将日期量化成距离最大日期的天数,操作(点击,购买,购物车,收藏)日期越靠后,相对日期值越小。

假设1:用户对品牌的浏览行为次数越多,即对品牌的兴趣程度越高,越趋向于购买此品牌的商品。

假设2:用户对品牌的关注行为次数越多,即对品牌的兴趣程度越高,越趋向于购买此品牌的商品。

假设3:用户对品牌的购买总数量越多,即对品牌的兴趣程度越高,越趋向于购买此品牌的商品。

假设4:用户对品牌的购买行为次数越多,即对品牌的兴趣程度越高,越趋向于购买此品牌的商品。

假设5:用户对品牌最后一次操作相对日期越小,在未来一段时间内,购买此品牌商品的可能性增大。

5.2 假设验证

我们首先将4个月用户行为记录按时间先后划分为5份,随后对特定的用户X和品牌Y进行配对。对于每一个配对,在前4份上分别统计以上5个数据指标,并根据在第5份中是否出现为其贴上标签,划分出正负样本。如果在第5份中配对出现,也就是说如果用户X对品牌Y进行了购买,我们称之为正样本;反之,我们称之为负样本。通过对比以上数据指标在正负样本集上的均值,验证我们的猜想,得到了如表1所列的结果。

表1 正负样本中的各项指标

指标名称 正样本 负样本

浏览行为次数 7.33 2.49

关注行为次数 2.17 1.26

购买总量 0.51 0.12

购买行为次数 0.35 0.09

最后操作相对日期 25.69 48.53

在正样本中,用户对品牌平均浏览行为次数和平均关注行为次数分别为7.33和2.17,而相对应的在负样本中,分别为2.49和1.26;在正样本中,用户对品牌平均购买总量和平均购买行为次数分别为0.51和0.35,而对应的在负样本中,分别为0.12和0.09;在正样本中用户对品牌平均最后一次操作相对日期为25.69天,而对应在负样本中为48.53天。由此我们可以得出结论,这5个假设都是成立的。因此,这5个数据指标可在一定程度上反映用户的购买倾向。

6 基于特征的用户购买行为预测

本节根据前文分析得出的结论,从原始数据中抽取用户和品牌特征,训练分类器,预测未来一个月内用户对商品的购买行为。

6.1 问题描述

将用户ID与用户访问过的品牌ID两两配对,构成用户-品牌对,同时为每一配对提取相应的特征并合成一个多维的特征向量。构造一个分类器,使之根据特征预测用户-商品对是否能在未来一个月内的购买行为记录中出现。

6.2 特征选择

通过前几节的结论,我们将选择3类特征构造特征向量:用户特征、品牌特征和用户-品牌特征。具体特征如表2所列。

表2 特征名称和特征分类

特征名称 特征分类

用户总浏览量 用户特征

用户总购买量 用户特征

用户浏览购买转化率 用户特征

品牌总浏览量 品牌特征

品牌总销量 品牌特征

品牌浏览购买转化率 品牌特征

品牌重复购买率 品牌特征

品牌平均销售周期 品牌特征

用户-品牌浏览行为次数 用户-品牌特征

用户-品牌关注行为次数 用户-品牌特征

用户-品牌购买总量 用户-品牌特征

用户-品牌购买行为次数 用户-品牌特征

用户-品牌最后操作日期 用户-品牌特征

6.3 实验过程及结果评估

基于表2所列的特征,我们分别构造和训练了逻辑回归,SVM和随机森林预测模型,将用户未来是否会对品牌进行购买的问题转化为一个样本分类问题,这样便可以通过成熟的机器学习分类算法对未来的购买行为进行预测。

利用竞赛官方提供的“天池”平台中的XLab工具进行数据训练和预测。

我们使用准确率和召回率作为预测精度的指标,最后用F1-Score来拟合准确率与召回率。实验结果如表3所列,可以看到随机森林预测模型的预测精度最高。由于此方法只对用户已经接触过的品牌进行了预测,且根据统计结果得知,用户接触过的品牌占用户未来购买品牌总量的20%,所以对于用户已接触过的品牌,我们的预测精度能达到26.5%。

表3 实验结果

模型名称 准确率 召回率 F1

逻辑回归 4.06% 4.09% 4.07%

SVM 4.38% 4.29% 4.33%

随机森林 5.28% 5.30% 5.29%

实验表明,基于以上特征,我们能够有效的根据用户偏好进行商品筛选和推荐,并对用户未来的购买行为进行理想的预测。

7 结 语

本文基于2014年阿里巴巴大数据竞赛,在海量的购物行为数据中探索用户及品牌特点,从中抽取有效特征,提出了预测用户未来购买行为的有效方法。该研究有助于理解海量数据下电子商务用户以及商品之间行为分布的特点,对个性化推荐系统性能的完善有重要的现实意义。

参考文献

[1] 中国互联网络信息中心.第33次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/2014 03/t20140305_46240.htm, 2014.03.05.

[2] A Borchers,J Herlocker,J Konstan,et al. Ganging up on information overload[J]. Computer,1998,31(4):106-108.

[3] Tmall Recommendation Prize 2014 & TianChi Open Data Project[Z].

[4] Resinick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.

[5] Sarwar, B, Karypis, G, Konstan, J, et al. Item-based Collaborative Filtering Recommendation Algorithms[Z].In Proceedings of the Tenth International World Wide Web Conference on World Wide Web,2001.

[6] Karypis,G.Evaluation of Item-based top-n Recommendation Algorithms[Z].In Proceedings of the Tenth International Conference on Information and Knowledge Management(CIKM),2001.

[7] Demiriz A.Enhancing Product Recommender Systems on Sparse Binary Data[EB/OL].http://www.rpi.edu/~demira/researeh.htm,2003.

[8] Anderson Chris.The Long Tail: Why the Future of Business is Selling Less of More[Z]. New York, NY: Hyperion. ISBN 1-4013-0237-8

[9] Wolf J.,Aggarwal C., Wu K-L.,et al. Horting Hatches an Egg: A New Graph-Theoretic Approach to Collaborative Filtering[Z].In Proceedings of ACM SIGMOD Intemational Conference on Knowledge Discovery & Data Mining,1999.

[10] Yu K.,Xu X-W.,Ester M.,et al.Feature Weighting and Instance Selection for Collaborative Filtering: An Information-Theoretic Approach[Z]. Knowledge and Information Systems,2003.

[11] Good N.,Schafer J.B.,Konstan J.A., et al. Combining Collaborative Filtering with Personal Agents for Better Recommendations[Z].Proceedings of AAAI, AAAIPress,1999.

[12] Sarwar B.M.,Karypis G.,Konstan J.A.,et al.Application of Dimensionality Reduction in Recommender System-A Case Study[Z].In ACM WebKDD 2000 Workshop, 2000.

猜你喜欢

用户行为推荐系统大数据
基于用户偏好的信任网络随机游走推荐模型
社会化媒体用户使用动机与行为探析
基于个性化的协同过滤图书推荐算法研究
个性化推荐系统关键算法探讨
浅谈Mahout在个性化推荐系统中的应用
基于大数据背景下的智慧城市建设研究
基于用户行为分析的智能家居系统的研究与设计