APP下载

基于阿里巴巴大数据重复购买预测的实证研究

2018-02-07王克利邓飞其

时代金融 2018年3期
关键词:随机森林

王克利 邓飞其

【摘要】淘宝网站能够收集到海量用户的购物行为日志,它使得掌握用户的购物偏好成为了可能。尽管用户的购买模式具有高度的多样性和自由性,但是周期性的购买是非常频繁的现象。因此寻找用户的周期行为对了解用户对商户的偏好非常重要。本文基于2017年阿里巴巴竞赛所获得的数据,从海量的购物行为数据中挖掘了用户特征、商户特征和用户-商户特征,对寻常情境下新用户未来在同一家店铺再次购买行为的预测进行了研究。此外,针对训练数据中类别及不平衡的问题,提出随机抽样并赋予各类别不同权重相结合的策略,并基于该策略将训练样本划分为6组,分别用SVM与随机森林训练多个预测模型。最后,通过集成将这多个预测模型共同进行预测。通过实验验证,所提出的组合预测方法具有很高的有效性。

【关键词】组合预测方法 SVM模型 随机森林 集成学习 客户重复购买

一、引言

随着人类进入信息时代的步伐加快,电子商务网站也越来越流行。截至2017年6月,中国网民规模达7.51亿,其中网络购物用户规模达到5.14亿。商家为了发展忠诚的客户,有时在特定日期(例如,“双11(11月11日)”)进行大型促销以吸引大量的新买家,但是许多吸引的买家是一次性的交易猎手,这些促销活动对销售可能没有长期的影响,因此为了大大降低促销成本提高投资回报率(ROI),商家必须确定谁可以转化为重复的买家。本文基于424170个不同的用户、4995个不同的商户从某年5月11日到11月12日在天猫的约5000万条海量行为日志,建立用户的商户偏好,进行商户筛选并预测他们在未来6个月内再次在同一个商户的购买行为。

传统的用户兴趣度估计方法有:王微微等结合用户的浏览内容,采用期望最大化算法实现用户聚类,将用户划分到对应的簇,创建用户的兴趣度模型。但是聚类可能收敛到局部最小值,在大规模的数据集上收敛的较慢,而且运用期望不能准确的预测用户的重复购买行为。

本文根据用户对商户的行为数据进行研究,提取了用户对商户的重要行为特征。根据这些特征,我们分别基于随机森林和SVM构造了分类模型。对新用户未来六个月内是否会再购买该商户的商品进行预测,并实现了理想的预测结果。经研究发现,对于用户海量购物行为数据,若提取重要的特征信息,对于准确预测该用户的行为取向具有重要的现实意义。针对训练数据中类别及不平衡的问题,我们对负样本进行随机欠采样,对正样本进行随机过采样。最后,通过集成将这多个预测模型共同进行预测如图1所示:

二、模型算法

(一)SVM原理介绍

支持向量机的主要理念可以概括为两点:第一,通过学习寻找最优的分割超平面使得两类之间的分割距离最大;第二,基于结构风险最小化的理论去特征空间中找最优的超平面。当支持向量机用于解决非线性问题时,这个方法是通过非线性映射将样本空间映射到高维空间中或是无限维度的特征空间以至线性支持向量机的方法可用于求解非线性样本空间中的分类问题。从样本空间到特征空间的非线性映射如图2。

(二)随机森林原理

训练过程是从树根节点开始,递归学习最优的分裂函数来划分该节点上的样本,使得新生成的孩子节点上样本纯度不断增加,直到满足下列条件之一:(a)达到树生成的最大深度;(b)节点样本纯度达到要求;(c)节点上样本数目达到最小值。因此可使用该模型进行分类预测。

(三)集成原理

集成学习通过将多个分类器进行结合,获得比单一分类器显著优越的泛化性能。为了使集成的分类器获得尽可能好的性能,应该使单个分类器间尽可能呈现多样性。为获取分类器的多样性,我们的工作主要从三个方面进行:

第一,使用不完全相同的训练样本训练分类器;

第二,使用不同的分类器模型进行训练,我们选择SVM和随机森林这两类优秀的分类器;

第三,设置分类器不同的参数进行训练。具体而言,我们将训练3个SVM模型和3个随机森林模型,并且每一个模型所设置的参数都不一致。在预测阶段,我们将每个分类器的输出值进行简单评价获得最终的预测结果。

三、实证分析

阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴大数据科研平台—“天池”上开展的基于“天猫”(购物网站)海量真实用户访问数据的Repeat Buyers Prediction-Challenge the Baseline大赛。阿里巴巴大数据竞赛官方提供了某年5月到11月天猫部分购物行为数据。在竞赛官方网站上提供的数据有9类,分别为用户ID、商品ID、类别ID、商户ID、品牌ID、用户年龄、用户性别、用户对商户的行为和操作时间。

其中,用户对商户行为类型包括点击、加入购物车、购买和收藏4种。操作时间隐藏了年份但精确到了天的级别。每个商品ID仅限一家商户所用。每个用户ID对于相应商户都是新用户。

(一)数据清洗及归一化处理

在实验之前,需要对数据进行清洗,使之有效。通過分析,我们对异常值做了处理:在所给数据中,我们将空值和记录为NULL的值记为异常值。这种情况分别出现在用户的年龄和性别中,为了提高预测的准确性我们分别用年龄的平均值与性别的平均值来代替年龄与性别中的异常值。

选取的特征在尺度上可能存在很大的差别。假设特征向量由两个解释变量构成,第一个变量值范围[0,1],第二个变量值范围[0,1000000],这时就要把第二个变量的值调整为[0,1],这样才能保证数据是单位方差。如果变量特征值的量级比其他特征值的方差还大,这个特征值就会主导学习算法的方向,导致其它变量的影响被忽略。通过对所选特征的统计分析,我们计算了所有训练集中每一维特征的均值(图4)和标准差(图5),因为数量级差别较大,为方便视图我们取了对数来作图。

由图5可知,这些维度特征的数量级差别较大。为了使分类器的训练更加稳定有效,我们对每一维特征都进行了标准化处理,将其归一化至“0”均值和“1”方差的分布。endprint

(二)處理类别不平衡

为解决训练样本类别不平衡的问题,研究者们过去进行了大量的工作,主要可以概括为四个方面:

第一,对大类别的样本数据采用欠采样的策略,减少大类别的样本数量,使得各个类别的样本数量均衡。

第二,使用一些策略人工生成一些小类别的样本数据。

第三,为各类样本赋予不同的权重值,对大类赋予较小的权重,而对于小类则赋予较大的权重,使得类别在分布上达到平衡。

第四,对小类别样本数据进行重复采样以增加小类别的样本数量。

其中第一中的方法不失为一种简洁的策略,但是会造成样本的极大浪费。而第二中的方法通过人工生成样本数据在一些情况下生成的数据真实可靠性有待评估,甚至在某些情况人工生成的样本反而导致系统最终性能的下降。为不浪费宝贵的训练数据,充分发挥数据本身的价值。我们结合第二与第三中的方法,先对各类别的样本以不同的采样系数进行随机抽样,获得6组训练集,然后对每组训练集中不同的类别赋予不同的权重系数。然后使用这6组训练集训练不同的分类器。在预测阶段,平均各个分类器的预测值获得最终的预测。使用这种策略有两个好处:一方面可以很好解决类别不平衡的问题,不至于浪费样本;另一方面,我们将训练样本分成多组不同训练集训练分类器,可以使得各分类器间的多样性更加丰富,最终使集成更加有效。

(三)特征分析

为分析用户成为某一商店忠实客户的概率,我们所选取的特征分为如下三类:基于用户的特征、基于商户的特征与基于用户-商户之间的特征。统计基于用户的特征主要目的是分析用户自身的偏好及购物习惯;统计基于商户的特征主要目的是分析商户在当前市场的受欢迎程度及商户自身对忠实用户的吸引力;统计用户-商户之间的特征主要目的是分析给定用户及商户之间所形成的关系,以得到更好的预测效果。具体提取的特征如表1:

(四)实验结果分析

我们所获取的淘宝用户行为记录数据由天池竞赛平台发布,其中带有标签的训练数据中包括20万的负样本和2万的正样本。我们使用其中的10万负样本和1万正样本用于模型的训练,总共分成6组训练集训练6个分类器模型,而剩余的样本用于评估所训练的分类器的预测性能。

基于表1所列的特征,我们分别训练了SVM和随机森林预测模型,将未来半年新用户是否会再次在同一家商户购买的问题转化为一个样本分类的问题,这样可以运用机器学习的分类算法来预测未来的购买行为,最后运用集成将分类器的效果组合起来。

我们使用AUC来作为预测精度的指标。统计一下所有的 M×N(M为正类样本的数目,N为负类样本的数目)个正负样本对中,有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的score相等的时候,按照0.5计算,然后除以MN。实现这个方法的复杂度为O(n^2),n为样本数(即n=M+N)。

从实验结果中可以观察到,在单个分类器的情形下,使用我们的特征基本可以获得0.64的分数。如果使用我们的采样策略训练分类器,结合多个分类器的输出,可以进一步大幅提升预测结果的准确性。

我们使用AUC作为模型的性能评价指标,各模型的AUC分数如表2所示:

由上表可知:SVM模型的精度要高于随机森林模型的精度,但运用集成将两种模型组合起来的精度更高,效果更好。根据以上信息可知,我们能够有效的根据用户的偏好进行再次购买行为的预测。

四、结束语

本文基于2017年阿里巴巴大数据竞赛,在所给数据中研究用户及商户的特点,并从中提取有效特征,得出了预测用户未来购买商户的有效办法。正确管理和利用这部分大数据基础将为企业带来丰厚利润。运用大数据营销,还可以有效帮助企业进行市场预测,及时发现市场机会、加快业务决策。该研究有助于在海量数据交易下商户对电子用户行为的把握,对商家大大降低促销成本,提高投资回报率(ROI)具有重要的现实意义。

参考文献

[1]中国互联网信息中心.第40次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201708 /t20170803_69444.htm,2017-08-03.

[2]中国产业信息中心.2017年中国网络购物应用行业用户规模及使用率走势分析[EB/OL].http://www.chyxx.com/industry/201708/ 549105.html,2017-08-09.

[3]王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012,(08):148-151+199.

[4]Liu Z,Lv X,Liu K,etal.Study on SVM compared with the other text classification methods[C]//Education Technology and Computer Science (ETCS),2010 Second International Workshop on.IEEE,2010:219-222.

[5]Shi J,Lee W J,Liu Y,etal.Forecasting power output of photovoltaic systems based on weather classification and support vector machines[J].IEEE Transactions on Industry Applications,2012,48(3):1064-1069.

[6]Lin J Y,Cheng C T,Chau K W.Using support vectormachines for longterm discharge prediction[J].Hydrological Sciences Journal,2006,51(4):599-612.endprint

[7]Cui W,Yan X.Adaptive weighted least square support vector machine regression integrated with outlier detection and its application in QSAR[J].Chemometrics and Intelligent Laboratory Systems,2009,98(2):130-135.

[8]Li P,Xu S.Support vector machine and kernel function characteristic analysis in pattern recognition[J].Computer Engineering and Design,2005,26(2):302-304.

[9]Yongyi Chen,Xiaoding Yu,Xuehao Gao,Hanzhong Feng.A New Method For Non-Linear Classify And Non-Linear Regression:Introduction To Support VectorMachine[J].Quarterly Journal of Applied Meteorology,2004,15(03):345-354.

[10]Xiaodan Wang,Jiqin Wang.Research and Application of Support Vector Machine[J].Journal of Air Force Engineering University(Natural Science Edition),2004,5(03):49-55.

[11]Liaw A,Wiener M.Classification and regressionby random Forest[J].R news,2002,2(3):18-22.

[12]Biau G,Devroye L.On the layered nearest neighbor estimate,the bagged nearest neighbour estimateand the random forest method in regression and classification[J].Journal of Multivariate Analysis,2010,101(10):2499-2518.

[13]Immitzer M,Atzberger C,Koukal T.Tree species classification with random forest using very high spatial resolution 8-band WorldView-2 satellite data[J].Remote Sensing,2012,4(9):2661-2693.

[14]Jiang P,Wu H,Wang W,etal.MiPred:classification of real and pseudo microRNA precursors using random forest prediction model with combined features[J].Nucleic acids research,2007,35(suppl_2):W339-W344.

[15]Shi T,Seligson D,Belldegrun A S,etal.Tumor classification by tissue microarray profiling:random forest clustering applied to renal cell carcinoma[J].Modern Pathology,2005,18(4):547.

[16]Dietterich T G.Ensemble methods in machine learning[C]//International workshop on multiple classifier systems.Springer Berlin Heidelberg,2000:1-15.

[17]Yen S J,Lee Y S.Cluster-based under-sampling approaches for imbalanced data distributions[J].Expert Systems with Applications,2009,36(3):5718-5727.

[18]Huang J,Ling C X.Using AUC and accuracy in evaluating learning algorithms[J].IEEE Transactions on knowledge and Data Engineering,2005,17(3):299-310.

作者簡介:王克利(1991-),女,汉族,河南平顶山,华南理工大学硕士研究生,研究方向:数据挖掘;邓飞其(1962-),男,教授,博士生导师,研究方向:随机系统建模、分析与控制理论。endprint

猜你喜欢

随机森林
拱坝变形监测预报的随机森林模型及应用
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测
基于TM影像的土地覆盖分类比较研究