基于Logistic 回归的公交支付偏好研究
2020-01-08吴迪
吴 迪
(安徽财经大学统计与应用数学学院,安徽 蚌埠233030)
1.背景知识
1.1 产生背景
公交刷卡已经是人们日常出行的高频应用。但是,随着智能手机的普及,越来越多的支付手段可以转移到手机端,同时,实体公交卡在使用的过程中存在着充值不方便、容易丢失、刷卡记录无法查看、跨地区无法使用等问题,现金支付带来很多不便,增加人工成本等,而公交移动支付则可以很好地解决这些问题。
1.2 研究意义
移动支付方便群众公交出行, 提高公交服务品质,对打造智慧城市、信用城市和城市发展无疑是有利而无害的。 通过对蚌埠市乘车人出行数据的分析,得出该城市乘车人的出行支付偏好, 同时通过对移动支付数据的分析和建模, 得出在出行支付方面可以以数学的形式更好地展现出移动支付偏好, 为第三方支付公司的发展和转型提供分析依据。
2.问卷调查及分析
2.1 问卷的设计
支付方式选择的主体是蚌埠市居民,我们针对 居 民 的 年 龄 (x1)、 在 蚌 埠 市 住 房 状 况(x2)、每月乘车次数(x3)、学历(x4)、是否有购车打算(x5)、性别(x6)、月消费(x7)、对未来生活质量的预期(x8)、对移动支付的了解程度(x9)、最近一周内移动支付出行的次数(x10)和最近一次乘车支付方式(x11)进行设计问卷,尽量让参与者快速、简洁地完成问卷,得到真实性的答案。 (传统支付为公交投币或者公交卡支付,移动支付为手机第三方移 动 支 付。 )
2.2 问卷的实施
在蚌埠市社区、学校、人流量比较大的公交站台附近发放问卷,共发放出600 份纸质问卷,其中来自社区居民纸质版102 份, 公交站台附近纸质版问卷122 份, 在蚌埠市大学城回收纸质版问卷142 份,其他地区(公园、街道等)234份, 其中无效问卷29 份, 回收有效纸质问卷571 份。 此外,利用问卷星软件,从网上回收电子问卷310 份 (网上问卷在大学城学生的QQ群或者微信群中发放)。 综上,共回收有效问卷881 份。
2.3 变量赋值
变量赋值参考表1。
表1 变量赋值参考表
3.logistic 回归分析
3.1 数据分析
(1)数据预处理。 由于数据是通过网上问卷和线下问卷的方式回收得到的, 数据类型不平衡,原始数据可能会影响最后结果的准确性。 我们对数据进行分层抽样,在传统支付方式中抽取80 组,在移动支付中抽取80 组,最后在剩下的总样本中抽取40 组,最终得到200 组样本。 其中有95 个移动支付样本,105 个传统支付样本。
(2)灰色关联度筛选指标。 首先,对十个指标进行初步的筛选。 虚拟一个最优公交支付偏好因素x0作为参考数列,问卷中的10 个指标xi(其中i=1,2…10)作为比较数列。 利用层次分析法确定各指标对应的权重,其中wk(k=1,2…10)为第k个评价指标对应的权重。 计算灰色关联系数:
式中:εi(k)为比较系数列xi对参考数列x0在第k 个指标上的关联系数,ρ∈[0,1]为分辨系数。其中, 称分别为两级最小差和两级最大差。 然后通过
式中:ri为第i 个评价对象对理想对象的灰色加权关联度,Wi为εi(k)的加权系数。 然后选取分辨系数为p=0.3, 通过MATLAB 计算可得加权关联度,见表2。
表2 加权关联度
确定最优指标X3,选取关联度在0.5 以上的指标进行logistic 回归分析。
(3)相关性分析。
表3 指标相关系数
表3 中对应值为相关系数,根据表中的值可以判断指标之间的相关性较弱,可以用于回归分析。
3.2 模型设定
定义式中:y 为变量赋值。 一种概率函数π, 要求0≤π≤1,此时对π进行回归
一般的, 式中:K 为传统支付与移动支付概率比值。 可得
式中:a,bo,b1,b2…bn为待估计的参数。
π是一个logistic 函数,变形可得:
3.3 模型建立
设π为未来蚌埠市公交支付方式更趋于手机移动支付的概率,即π=手机移动支付的概率。
共有200 组数据, 其中有95 个1,105 个0,近似地把分界值取为0.5,令:
因为概率π的具体值是未知的,我们也很难通过关联度在0.5 以上的五个指标的已知数据得出结果,所以我们选取区间内的一个值来做回归运算,即y=0 对应π=0.5,y=1 对应π=0.5。
表4 回归结果与检验
从表4 的t 值检验来看, 与显著性概率α=0.05 相关的p 值<0.05,拒绝原假设成立,即说明自变量对因变量具有解释意义。
表5 自由度检验
此外, 如表5 所示, 残差平方和RSS=12.3907, 总变异TSS=12.5, 从而得到拟合优度R2=0.0087,统计量F=34.63,表明所建立的逻辑回归模型是合理的,且模型拟合度比较好。 回归方程为:
即:
用该方程可以做预测,将xi(i=1,2,3,4,7)的原始数据带回求得的回归方程, 结合公式(5),得到预测值大于0.5 说明用户可能会选择移动支付,小于0.5 说明用户会选择传统支付。
3.4 Logistic 回归诊断
将xi(i=1,2,3,4,7)的原始数据带回求得的回归方程中, 计算y 值, 观察y_ 原始值与y_ 测试值是否一致。 经过对比, 在200 组数据中有176组结果一致,logistic 模型对数据判断的准确率达到88%,具有较高的准确性。
4..Logistic 回归的灵敏度检验
概率π很难表达出具体值,对概率π进行精度为0.01 的灵敏度分析, 取概率π分别为0.48,0.49,0.51,0.52 得出它们的原始值与测试值的一致率,如表6 所示。
表6 灵敏度检验
概率π变动0.01, 对最后准确率有一定影响,但是变动控制在一定程度内,说明概率π的变动有稳定性,概率π=0.5 得出的模型具有代表性。
综上所述,回归模型在拟合影响因素的问题上的表现较好,并且可以预测某一目标,对判断用户偏好上有指导作用。 随着网络和大数据时代的发展,移动支付拥有着很广阔的前景,第三方移动支付平台应大力拓展旗下移动支付软件的涉及范围,引导用户支付偏好,才能更好地发展移动支付。