基于购买行为及评论行为的用户购买预测研究
2016-09-27李美其齐佳音
李美其,齐佳音
(1.北京邮电大学 经济管理学院,北京 100876;2.可信分布式计算与服务教育部重点实验室(北京邮电大学),北京 100876;3.上海对外经贸大学,上海 201620)
·电子商务·
基于购买行为及评论行为的用户购买预测研究
李美其1,2,齐佳音2,3
(1.北京邮电大学 经济管理学院,北京100876;2.可信分布式计算与服务教育部重点实验室(北京邮电大学),北京100876;3.上海对外经贸大学,上海201620)
随着网络消费的兴起,第三方点评网站也在蓬勃发展,针对非契约情景下用户未来购买行为预测是用户终身价值评估、用户流失管理等研究领域的关键。为了实现用户购买预测研究,选取了大众点评网的用户数据,结合大众点评网的用户行为特征,借鉴非契约情境中经典的Pareto/NBD模型对用户购买行为进行预测研究,同时尝试在原模型的基础上引入协变量,取得了较理想的改进效果,揭示了大众点评网评论平台中的用户评论数据对用户购买数据的预测作用。
非契约情景;用户行为预测;Pareto/NBD模型;协变量
一、引 言
近年来,随着互联网的发展,电子商务网站逐渐成为众多用户消费的场所。将草根大众的消费体验与消费评论汇聚整合并发布的第三方点评网站在我国也取得了较快的发展,其中比较有代表性的即为以提供生活资讯为主的大众点评网[1-2]。
在大众点评网中,同一用户会同时使用其点评平台和团购平台,这改变了以前用户在购买之后单独对企业进行选择性沟通反馈的情况,在大众点评网上用户购买行为和评论行为不再是孤立存在的,用户的两种行为之间可能会相互影响。因此,现将以大众点评网为基础,更完整地考虑用户的购买行为及评论行为,并在此基础上实现对用户未来购买行为的预测。
针对非契约情境下的用户行为预测,国内外已经进行了很多实证研究,其中很多是针对用户的流失行为预测和用于购买行为预测两方面展开的。得到的相关模型已经比较成熟。
如目前在用户流失预测方面应用的算法有决策树、人工神经网络、Logistic回归模型等。Wei et al[3]以假设数据类别是对称的条件为前提,使用用户信息以及用户通话行为信息为研究样本,在构建流失预测模型时选择决策树算法,并且获得相对较高的提升度。还有学者在进行流失预测研究时使用贝叶斯分类技术和支持向量机技术,蒋国瑞等[4]在研究过程中,对支持向量机进行了改进,模型中还引入了代价敏感学习。Sun et al[5]在建立银行信用卡用户流失预测模型时选择了SVM模型。
国外学者针对非契约情境下用户的购买行为预测也提出了很多具有代表性的模型,如Pareto/NBD 模型、NBD模型、BG/NBD模型、LSD模型、NBD-Dirichlet模型等。这些模型中Schmittlein、Morrison和Colombo提出的Pareto/NBD模型[6],被称为刻画非契约情境下用户购买行为和流失行为的最经典概率模型。之后很多学者由于各种原因尝试对此模型进行了改进,同时国内外很多学者利用Pareto/NBD 模型进行了实证研究[7-9]。Kumar et al[10]在研究用户赢利性与用户关系时间的关系中,利用Pareto /NBD 模型估计用户关系时间长度;齐佳音等[11]通过神州数码公司北京分公司的数据对Pareto /NBD 模型进行了实证研究;Fader et al[12]通过CDNOW 网上光碟销售商的数据对Pareto/NBD模型进行了验证;蔡瑞等[13]通过在Pareto/NBD 模型中加入协变量的方法对博客用户行为进行了预测。
全面考虑第三方点评网站的特点,选取Pareto/NBD模型,基于大众点评网的数据进行用户行为预测研究,并尝试通过在Pareto/NBD经典模型中加入用户评论次数和总购买金额两个协变量提高了对用户购买行为预测结果的精度,为非契约用户关系情境下预测用户重复购买行为的模型改进提供一种新的改进思路,也为更精确地实现对第三方点评网站用户购买行为的预测提供了方法。
二、模型建立
1.模型假设
在大众点评网上,用户可以自由地进行浏览、评论或者购买;对大众点评网而言,用户是否流失也是随机概率事件,大众点评网不能明确用户是否流失、何时流失,所能了解到的就是该用户在观察期内没有再次发生购买行为。基于此,对用户在大众点评网的在线购买预测模型作如下假设:
(3)用户从首次购买到离开大众点评网的时间服从流失率为μ的指数分布:F(δ|μ)=μe-μδ
(5)用户购买率λ和流失率μ独立。
实证发现,Morrison证明Pareto/NBD模型刻画“次数”比刻画“量”更有效[14],因而假设中的建模对象是用户个体重复购买次数,即使某一用户在一天内的购买次数超过一次,重复购买次数仍按一次计算。
2.参数估计
采用最大似然方法进行参数估计。对于任意个体用户,如果用户在(0,T)内发生x次重复购买,最后一次交易时间tx (1) 当α≥β时, (2) 当α≤β时, (3) 从任意个体用户似然函数可知,模型需要估计的参数为α、β、γ和s,而估计这些参数所需的输入数据集为(x,tx,T)。这三个变量的含义分别为:x为观察期内个体用户重复购买次数,tx为观察期内个体用户最近一次购买时间,T为观察期时长。假设选取的样中有N个用户,则这N个用户的似然函数对数值总和为 (4) 当该似然函数对数值总和取得最大值时,即可求得对应的四个参数值。 3.模型预测值 主要使用个体用户购买次数期望值、活跃度、购买次数的条件期望值三项预测值,并通过这三项预测值检验模型效果,各项预测值的计算公式如下: (0,t]时刻内,个体用户重复购买次数期望值的计算公式为 (5) 活跃度是指观察期T时刻末用户仍然“存活”的概率,计算公式为 (6) 用户购买次数的条件期望值是指具有(x,tx,T)历史行为的个体用户在(T,T+t]时刻内的购买次数期望值,计算公式为 ×P(δ>T|α,β,γ,s,x,tx,T) (7) 4.引入协变量 大众点评网是目前发展相对完善的第三方点评网站和城市消费门户网站。所以完全有理由相信用户在大众点评网的团购行为和评论行为会相互影响。也就是说,假如有一名用户A,开始A只使用大众点评网的评论平台(即A既通过发布评论表达自己对某些店铺的评价,也通过浏览其他用户的评论决定自己在线下的消费行为),那么可以相信,随着A对大众点评网平台使用数量的增加,他也一定会在一定程度浏览大众点评网的团购平台,并受其影响发生购买行为。所以在原有模型基础上引入协变量,探索大众点评网的评论平台对团购平台的作用,并达到改进模型预测效果目的。 在具体引入协变量之前,先对在Pareto/NBD模型中引入协变量的方法和原理进行介绍。根据Fader et al[15]的推导,在Pareto/NBD模型中引入协变量只需将参数α和β做如下替换(其中α为购买率λ在不同用户中的分布参数,β为流失率μ在不同用户中的分布参数): α=α0exp(-y1z1) (8) β=β0exp(-y2z2) (9) z1和z2分别为调节不同用户间购买行为和流失行为异质性的协变量向量,y1和y2为两个协变量向量的系数向量,原模型参数中的γ和s保持不变。 1.数据提取 选用大众点评网上的用户购买及评论数据,运用前文中建立的模型进行实证研究。提取2011年1月1日到3月31日共90天在大众点评网上存在购买行为的用户,并以此为条件进一步提取目标用户的其他数据。选取2011年1月1日至2011年6月共181天作为观察期,2011年7月1日至9月30日共92天作为验证期。针对目标用户的Id,提取得到了3 458条(x,tx,T)的数据集。并将目标用户初次购买的天数定为0。 3 458个样本包括以下数据: x表示个体用户在2011年1月1日至2011年6月30日共181天的重复购买次数,单位:次。 T表示用户初次购买时间与观察期截至时间(2011年6月30日)的间隔,单位:天。 tx表示在[0,T]时间段内,用户最后一次购买的时间,单位:天。 X2表示用户在2011年7月1日至2011年9月30日重复购买的次数,单位:次。 在用样本对模型进行参数估计之前,首先对样本中的变量数据进行简单的描述性分析。通过表1可发现519名目标用户在六个月的观察期的重复购买次数的平均值为3.3;tx的标准差为57.92,表示用户最后一次购买时间的差异性还是很大的;其中tx为0表示用户最后一次购买的时间为0,即用户仅发生一次购买行为。 表1 四个变量描述性统计表 假设用户在大众点评网上的购买行为会受到其评论行为的影响;同时用户在大众点评网平台上的购买金额能在一定程度上反映出用户对大众点评网的信赖程度和用户自身团购的承受能力。为改进模型预测效果,并探索大众点评网用户评论平台的使用对其购买行为的影响。选择了目标个体用户在观察期的总评论次数和总购买金额作为预测用户购买行为的协变量。 这两个变量已在数据的获取阶段进行了搜集,由于它们的数值在不同用户间的差异比较大,若直接将它们作为协变量代入到似然函数中,求极值时容易出现异常的值而导致循环中断,因而在进行参数估计前使用了Min-Max标准化方法对总评论次数和总购买金额这两个协变量的数据进行了标准化处理。 2.模型预测结果 (1)模型参数估计结果 使用最大似然估计法对Pareto/NBD模型进行参数估计,并选择 Matlab7.0作为参数估计及预测的工具,最终计算出样本的参数值分别为:α=20,β=8.886 5,γ=0.588 7,s=0.000 1,最大似然函数对数值总和LL=7 658.8。 从参数估计结果来看,当用户处于活跃期时,意味着该网站用户的平均购买率和流失率为 λ=γ/α=0.029 μ= s/β=0.000 01 用户之间的异质性而言,γ值较小意味着用户之间的购买率差异很小;s较小意味着流失率差异较小。 (2)加入协变量的实验过程 为了观察各协变量对个体用户的行为规律产生的影响,首先在基本模型的基础上做了以下四组实验。 ① 假设总评论次数对购买行为影响显著,使用总评论次数作为购买行为的协变量,即α=α0exp(-y1tc); ② 假设总评论次数对流失行为影响显著,使用总评论次数作为流失行为的协变量,即β=β0exp(-y2tc); ③ 假设总购买金额对购买行为影响显著,使用总购买金额作为购买行为的协变量,即α=α0exp(-y3tp); ④ 假设总购买金额对流失行为影响显著,使用总购买金额作为流失行为的协变量,即β=β0exp(-y4tp)。 其中tc和tp分别为总评论次数和总购买金额做了max-min标准化处理后的数据,y1、y2、y3、y4分别为协变量向量的系数向量,原模型中的参数γ和s保持不变。实验结果发现,第二组与第四组实验结果比较显著地提高了原Pareto/NBD模型的预测效果,而其他两组实验的预测效果或是与原模型的差别不大。 通过以上四组实验结果基本可以确定,在大众点评网平台上,个体用户的评论次数及购买金额对该用户流失行为产生了显著影响。接下来,重点对第二组与第四组的模型预测结果进行展示分析。 (3)模型预测结果 在计算出(0,t]时刻内个体用户购买次数的期望值基础上,进一步计算出观察期和验证期共273天内所有目标用户每天的累计购买次数期望值,并将结果与实际值进行比较如图1所示。 图1虚线左侧为建模期,右侧为验证期。从总体趋势来看,几组的实验结果均比较理想地拟合了用户实际每天累计购买次数的变化趋势。 在非契约情景中,企业无法察觉到用户何时流失,因此无法确定活跃度的实际值,只能通过经验判断。这里判断用户流失的方法是,若该用户在验证期中没有购买行为产生,则认为该用户已经流失。平均活跃度的经验值等于具有相同购买次数的用户在验证期中仍然存活的比例。从图2可看出,随着用户重复购买次数的增加,用户的实际活跃度值也在一定范围内不断增大。但是在重复购买次数为10时用户活跃度的经验值突然变小,之后随着用户重复购买次数的增大,用户活跃度的经验值保持为1。认为这种现象的发生在一定程度上与用户本身的购买习惯有关系,当用户购买数量逐渐增大,并达到一定程度时,用户会出现购买行为暂时减小的情况,从而导致用户活跃度值的降低。 通过图2中各组实验改进的观察期内具有相同购买次数的用户的平均活跃度与活跃度经验值的比较。可以看出,Pareto/NBD模型的预测结果并不理想,第二组“假设总评论次数对流失行为影响显著,使用总评论次数作为流失行为的协变量”以及第四组“假设总购买金额对流失行为影响显著,使用总购买金额作为流失行为的协变量”的实验结果均对原Pareto/NBD模型的预测结果起到了比较好的改进作用,第四组实验的模型改进效果尤为突出。证明用户的评论次数和用户总购买金额对用户购买流失行为影响显著。 计算出购买次数的条件期望值之后,又在此基础上计算出建模期内具有相同购买次数的用户在验证期内购买次数的平均值,并将结果与实际值进行比较。图3展示了预测结果,可看出二组和四组的实验结果均在很大程度上对原Pareto/NBD模型的预测值起到了改进作用。其中在建模期用户购买次数小于11时,二组和四组的模型预测结果相差不大,但是当建模期内用户的购买次数大于11时,第二组“假设总评论次数对流失行为影响显著,使用总评论次数作为流失行为的协变量”的预测效果与实际值更加吻合,模型改进效果更为理想。证明当把用户的评论次数作为协变量引入到模型中时,在对用户购买次数条件期望值进行预测的过程中,很好地改进了模型的预测效果。 从上述三项改进后的预测值中可以看出,将用户总评论数和总购买金额作为协变量引入到Pareto/NBD模型中,对用户流失行为规律进行调节之后,原模型在各个值的预测结果上都得到了不同程度的改进,尤其是在活跃度和购买次数条件期望值上,改进效果非常显著,达到了提高Pareto/NBD模型预测精度的目的。 3.模型进一步改进讨论 由前文实验结果想到如果将总评论次数和总购买金额同时作为协变量引入到模型中能否更好地提高模型精度呢?对此进行了以下实验。 假设总评论次数和总购买金额对流失行为影响显著,使用标准化后的总评论次数和总购买金额之和作为流失行为的协变量,即β=β0exp[tc+tp]; 其中tc和tp分别为总评论次数和总购买金额做了max-min标准化处理后的数据,y1为协变量向量的系数向量,原模型参数γ和s保持不变。 以下列举了模型的预测结果,其中“评论次数+购买金额——流失行为”为“假设总评论次数和总购买金额对流失行为影响显著,使用标准化后的总评论次数和总购买金额之和作为流失行为的协变量”的模型预测结果。 图4为计算所有用户“每天累计购买次数”的几组实验的预测结果,从总体趋势来看,几组模型对于用户每天的累计购买次数的预测效果均比较理想。 图5为各组实验计算改进的观察期内具有相同购买次数的用户的平均活跃度值与活跃度的经验值比较结果。由图5可以看出,在“假设总评论次数和总购买金额对流失行为影响显著,使用标准化后的总评论次数和总购买金额之和作为流失行为的协变量”的实验结果不仅对原Pareto/NBD模型起到了改进作用,而且相对于单独引入总评论次数和总购买金额的预测值而言,更好地反映出活跃度经验值的波动情况,起到了一定程度上的改进作用。 由图6可看出,使用标准化后的总评论次数和总购买金额之和作为流失行为的协变量引入到Pareto/NBD模型中时,对原Pareto/NBD模型的预测结果有了很大程度上的改进。当建模期内用户的重复购买次数大于11时,“假设总评论次数和总购买金额对流失行为影响显著,使用标准化后的总评论次数和总购买金额之和作为流失行为的协变量”的模型预测结果相对单独引入两个协变量的预测结果进行了调和,很好地预测出来用户实际购买次数条件期望值的变化趋势。 4.总结 通过引入协变量的方法尝试对原模型进行改进,共进行了五组实验。五组实验中单独引入总评论数和用户总购买金额对用户流失行为进行调节后,模型预测精度得到了提高。在此基础上,使用标准化后的总评论次数和总购买金额之和作为协变量对用户流失行为进行调节的实验结果也比较理想。 以全面考虑用户行为,充分挖掘用户数据为出发点,充分利用现已存在的数据条件——大众点评网的用户评论数据及购买数据,借鉴非契约情境中经典的Pareto/NBD模型,通过引入协变量尝试改进模型预测效果。综合来看,引入协变量的模型改进方法达到了提高模型预测精度的目的;同时也证明用户以往的购买金额可以在一定程度上对于预测用户的购买行为起到了作用,这个结果可以理解;另一方面,它也证明用户在大众点评网评论平台上的评论行为也能改善Pareto/NBD模型对用户购买行为预测的结果。这揭示了用户的评论行为能在一定程度上影响着用户未来购买行为发生频率的规律。 但本文可能尚存不足的地方,如并没有对评论行为对购买行为的影响的程度进行度量;在加入协变量的改进过程中没有抓住其内在的规律。未来可以尝试其他模型实现对用户购买行为的预测;或者可以尝试其他改进Pareto/NBD 模型,提高模型预测精度的办法。同时是否用户的购买行为也会反过来影响用户的评论行为呢?这也将作为下一步的研究方向。 [1] 中国互联网络信息中心. 第34次中国互联网络发展状况统计报告[R/OL]. 人民网, (2013-07-23). http://yuqing.people.com.cn/n/2014/0723/c209043-25327218.html. [2] 吕秀莹. 浅析Web2.0环境下我国第三方点评网站的发展现状——以大众点评网和豆瓣网为例[J]. 东南大学学报(哲学社会科学版), 2011, 13(S1): 87-92. [3] Wei C P, Chiu I T. Turning telecommunications call details to churn prediction: A data mining approach[J]. Expert Systems with Applications, 2002, 23(2): 103-112. [4] 蒋国瑞, 司学峰. 基于代价敏感SVM的电信客户流失预测研究[J]. 计算机应用研究, 2009, 26(2): 87-93. [5] Li Shibo, Sun Baohong, Wilcox R T. Cross-selling sequentially ordered products: An application to consumer banking[J]. Journal of Marketing Research, 2005, 42(2): 233-239. [6] Schmittlein D C, Colombo R. Counting your customers: Who are they and what will they do next?[J]. Management Science, 1987, 33(1): 1-24. [7] 马少辉. Pareto/NBD模型扩展[J]. 系统工程, 2008, 26(8): 123-126. [8] 马费成, 苏小敏, 望俊成. Pareto/NBD模型在网络信息失效判别分析中的探索性研究[J]. 情报理论与实践, 2011, 34(11): 50-55. [9] 刘学伟. 基于Pareto/NBD+朴素贝叶斯组合模型的电子商务客户流失预测研究[D]. 成都: 四川大学, 2006. [10] Kumar V, Ramani G, Bohling T. Customer lifetime value approaches and best practice applications[J]. Journal of Interactive Marketing, 2004, 18(3): 60-72. [11] 齐佳音, 李怀祖, 舒华英, 等. SMC模型在IT分销业的实证案例研究[J]. 系统工程理论与实践, 2004, 24(3): 69-78. [12] Fader P S, Hardie B G S, Shang J. Customer-base analysis in a discrete-time noncontractual setting[J]. Marketing Science, 2010, 29(6): 1086-1108. [13] 蔡瑞, 齐佳音. 基于改进的Pareto/NBD模型预测博客用户在线行为[J]. 统计与信息论坛, 2013, 28(6): 69-75. [14] Sabavala D J. Generalizing the NBD model for customer purchases: What are the implications and is it worth the effort? Comment[J]. Journal of Business & Economic Statistics, 1988, 6(6): 161-162. [15] Fader P S, Hardie B G S, Lee K L. “Counting your customers” the easy way: An alternative to the Pareto/NBD model[J]. Marketing Science, 2005, 24(2): 275-284. Customer Purchase Prediction Based on Buying Behavior and Comment Behavior LI Mei-qi1,2,QI Jia-yin2,3 (1. School of Economics and Management, Beijing University of Posts and Telecommunications,Beijing 100876, China; 2. Key Laboratory of Trustworthy Distributed Computing and Service(Beijing University of Posts and Telecommunications), Ministry of Education, Beijing 100876, China;3. Shanghai University of International Business and Economics, Shanghai 201620, China) In recent years, with the development of online-shopping, “Dianping” as the representative of the review sites is booming. The forecast for customers’ future buying behavior in non-contractual transaction setting is the key research of customer lifetime value (CLV) evaluation and the prediction of customer loss. The data of “Dianping. com” is used, and then by analyzing the Dianping users’ behavioral characteristics and using the Pareto/NBD model in the non-contractual setting, the buying behavior of users is predicted. Meanwhile, through introducing comments and purchase amounts as covariates, the effect of the result has been improved. It reveals that users’ reviews can help predict users’ purchase behavior. non-contractual setting; customer behavior prediction; Pareto/NBD model; covariate 2016- 04 - 21 国家自然科学基金项目(71171023);国家自然科学基金重点项目(71231002);973基础重大课题(2013CB329604);973项目(2012CB315805) 李美其(1995—),女,河北沧州人,北京邮电大学经济管理学院2014级硕士研究生,主要研究方向为在线用户关系管理。 713.365.2;F713.55 A 1008-7729(2016)04- 0018- 08三、实证分析
四、结论与展望