APP下载

基于一元线性回归模型的电商商品支付转化率预测的研究

2018-02-09郭伟展

卷宗 2018年3期
关键词:R语言统计分析

郭伟展

摘 要:电商行业中,有一类爆款电商的企业,其商品在销售中,供不应求,销售量很高。这类电商的企业经常采用限时抢购的销售模式。这样的前提下,一个商品在固定时间内下单后的支付率在很大程度上影响着产品销量,本文采用一元线性回归模型,通过区分不同商品的销售单价,依据商品上市时间来预测最终用户下单后的支付率,用来指导商品在销售时间内应该放多少量才能完成销售指标,并保证不会超售。

关键词:一元线性回归;统计分析;电商产品;支付率;R语言

2016年,我国电子商务继续保持平稳发展态势。国家统计局调查显示,2016年全国电子商务交易额达26.1万亿元,同比增长19.8%;网上零售交易总额达5.16万亿元,同比增长26.2%,我国世界第一大网络零售市场地位进一步稳固;农村网络零售交易额8945.4亿元,已占全国网络零售额的17.4%;移动购物在网络购物交易规模中占比达到70.7%;电子商务及相关产业直接和间接带动就业人数已达3700万。经过20年的发展,我国网络购物用户规模、电子商务交易额、电子商务从业人员数量稳步增长,网上零售交易额、农村网络零售交易额、电子商务服务业营收规模等快速增长。一方面,我国电子商务交易规模持续增长,新模式、新业态发展迅猛,社会经济影响不断深入;另一方面,伴随网民数量增长的趋缓,电子商务也面临着总体增速趋缓、市场竞争加剧、线上成本攀升的发展环境。电商企业纷纷布局农村市场、大力发展跨境电商、加快走出去步伐,在积极拓展新市场、新空间的同时加大对线下实体资源的整合力度,但在融合发展过程中,我国电子商务也出现了线上与线下、城市与农村、国内与跨境发展不平衡,政策挑战日趋明显等问题。[1]

随着电商的发展,爆款的商品也越来越多,大多爆款的商品会采取限时抢购的销售模式。即某个热销的商品,供不应求,在某个时间点上采取先到先得的销售模式。比较典型的案例如小米手机,每周二早上10点准点开启抢购,销售完了之后会把销售接口关闭,避免出现超售的情况,即销售出去的商品大于库存,导致没法准时发货,会导致用户投诉,最终影响口碑;也有可能接口关闭之后出现支付率过低,导致商品少卖了。

在抢购过程中,用户抢到了某个商品,会要求在规定的时间内支付,各个平台要求不一样,有些平台可能要求在2小时内必须支付,但是下单的时候会占用库存,从下单到支付有一定的流失,这样究竟要让用户下多少量才能完成销售目标就成为电商运营销售人员的一个挑战。本文要解决就是预测商品在下单之后,会有多少最终付款。名词解释:下单数量:用户在电子商务网站选择完商品,生成了订单的数量;支付数量:用户通过支付宝网银等接口对订单完成支付,支付完成后的订单的数量;支付转化率:支付率=支付数量/下单数量,用来考察商品从下单到支付转化率,下文简称支付率。

1 数据分析—以某电商商品A为例

某电商是国内知名的手机厂商的主要销售渠道之一,其销售特点是以限时抢购为主,在分析的过程中,按商品售价不同來建立模型,此列选择商品A,其单价在2000以上,其每个月的支付率如下表,从表中可以看出,支付率随着销售时间增长而呈下降的趋势,为了能够让数据更好的用模型进行预测,需把月份进行归一化,本文把月份转成一个序数,让商品的支付率跟具体的月份没有关系,采用规则:第一个月的序数为1,第二个月的序数为2。

2 基于数据建立线性回归预测模型

回归分析(Regression Analysis)是用来确定2个或2个以上变量间关系的一种统计分析方法。如果回归分析中,只包括一个自变量X和一个因变量Y时,且它们的关系是线性的,那么这种回归分析称为一元线性回归分析。[2]

在回归分析中,变量有2类:因变量和自变量。因变量通常是指实际问题中所关心的指标,用Y表示。而自变量是影响因变量取值的一个变量,用X表示,如果有多个自变量则表示为X1, X2, …, Xn。

分析主要步骤:

1.确定因变量Y 与自变量X1, X2, …, Xn 之间的定量关系表达式,即回归方程。

从表二的数据可以看出,销售的月份跟支付率有一定的线性关系,所以应用一元回归作为模型进行分析。其中Y为支付率,X为月份,模型可表达为:Y = aX + b + c。其中Y,为因变量;X,为自变量;b,为截距;a,为自变量系数;a*X+b, 表示Y随X的变化而线性变化的部分;c, 为残差或随机误差,是其他一切不确定因素影响的总和,其值不可观测。假定c是符合均值为0方差为σ^2的正态分布,记作c~N(0,σ^2)。

在R语言中可表达为:

lm.r<-lm(y~x+1)

2.回归参数估计[3]

对于上面的公式,回归参数a,b是不知道的,需要用参数估计的方法来计算出a,b的值,而从得到数据集的X和Y的定量关系。目标是要计算出一条直线,使直接线上每个点的Y值和实际数据的Y值之差的平方和最小,即(Y1实际-Y1预测)^2+(Y2实际-Y2预测)^2+ …… +(Yn实际-Yn预测)^2 的值最小。一般通过最小二乘法进行参数估计时,只考虑Y随X的线性变化的部分,而残差c是不可观测的,参数估计法并不需要考虑残差。

在R语言中打印出估计的参数:

lm.ab<-lm(y ~x+1)

lm.ab

可得截距为:0.95857,自变量系数:-0.05571

3.回归方程显著性检验

从回归参数的公式二可知,在计算过程中并不一定要知道Y和X是否有线性相关的关系。如果不存相关关系,那么回归方程就没有任何意义了,如果Y和X是有相关关系的,即Y会随着X的变化而线性变化,这个时候一元线性回归方程才有意义。所以,需要用假设检验的方法,来验证相关性的有效性。endprint

通常会采用三种显著性检验的方法。

T检验法:T检验是检验模型某个自变量Xi对于Y的显著性,通常用P-value判断显著性,小于0.01更小时说明这个自变量Xi与Y相关关系显著。

F检验法:F检验用于对所有的自变量X在整体上看对于Y的线性显著性,也是用P-value判断显著性,小于0.01更小时说明整体上自变量与Y相关关系显著。

R2相关系数检验法:用来判断回归方程的拟合程度,R2的取值在0,1之间,越接近1说明拟合程度越好。

在R语言中参数估计:

summary(lm.ab)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.958571 0.041157 23.291 2.72e-06 ***

x2 -0.055714 0.009203 -6.054 0.00177 **

---

Sig.codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘. 0.1 ‘ 1

Residual standard error: 0.0487 on 5 degrees of freedom

Multiple R-squared: 0.88, Adjusted R-squared: 0.8559

F-statistic: 36.65 on 1 and 5 DF, p-value: 0.001774

通過查看模型的结果数据,我们可以发现通过T检验的截距和自变量x都是非常显著,通过F检验判断出整个模型的自变量是非常显著,同时R2的相关系数检验可以判断自变量和因变量是高度相关的。

最后,我们通过的回归参数的检验与回归方程的检验,得到最后一元线性回归方程为:

Y=-0.05571×X + 0.95857

模型预测

获得了一元线性回归方程的公式,就可以对数据进行预测了。比如,对给定X=x0时,计算出y0=b+a*x0的值,并计算出置信度为1-α的预测区间。当X=x0,Y=y0时,置信度为1-α的预测区间为

可得,该商品销售的第二个月,在预测区间为0.95的概率时,支付率为84.7%,区间范围在[0.795,0.99]之间。

3 模型应用及讨论

本研究利用同价位的商品历史数据,采用了科学的统计分析,避免运营人员在新品限时抢购中盲目的放量,指导每次抢购时允许下单的最大量,很大程度上减少超售的情况,让购买的用户能够及时收到货,提升了企业的口碑,同时也保证商品的库存量与销量匹配,完成销售目标。使企业能够对每次抢购的运营工作予以更加科学、合理地安排,帮助企业在销售的过程中,对自身的形势进行有效把握,使企业得到更好地成长和进步。

此模型在正常销售情况下波动较小,但是要非常准确的预测支付率是一个难点,因为不仅仅商品的价格与销售时间会影响支付率,还有其他方面会影响用户最终支付,这些方面有:1.消费者因为自身原因临时不便做出购买决定;2.信息填错,如收货地址,收货人,收货人电话,产品型号等信息填错了,将会取消支付;3. 消费者在支付页面时,心存顾虑,如果这种顾虑超出其购物欲望,就不会进行支付;4. 消费者只是浏览商品并体验网站,并没有立即的购买需求。他们只是想体验一下购买的流程;5. 网站支付防欺诈系统主动拒绝用户的支付等[4]。

本研究基于一元线性回归预测支付率的模型,也存在着一定的局限性,主要有如下因素,1.针对支付率线性回归的预测模型,本研究尝试对月份数据进行预处理,并忽略天或周的短周期的影响;2.本研究按照单价把商品区分成不同的类别,并未考虑不同单价商品在同一个订单的情况,这种情况下不同的单价会相互影响;3.本研究也未考虑促销等对支付率的影响。希望以后在支付率的预测模型能够进一步深入研究。

参考文献

[1]中华人民共和国商务部.中国电子商务报告[M].北京:中国商务出版社,2016.

[2]师义民等.数理统计[M].北京:科学出版社,2015.

[3]查特吉,哈迪等.例解回归分析(原书第5版)[M].北京:机械工业出版社,2013.

[4]赵天鹏,曲芳芳.谨防电商支付平台风险[J].中国金融,2017(3)102-103.endprint

猜你喜欢

R语言统计分析
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
如何发挥新时期统计工作的作用之我见
以统计分析为基础的房地产税收优化分析
注重统计思维培养与应用为主导的生物统计学课程建设