基于“互联网+”背景下的出租车与乘客供求匹配分析
2015-10-21杨泽林冯靖何枫
杨泽林 冯靖 何枫
西南交通大学交通运输与物流学院 611756
摘要:本文针对基于互联网技术的打车问题,建立合理的指标,并分析不同时空出租车资源的供求匹配程度。首先查找了不同时间、不同地点下的数据,为了去除因相关性给评价结果带来的影响,并且降低计算难度,使用主成分分析法得到主因子,建立评价模型对不同时间、不同地点的供求匹配程度进行排序,以成都市为例,得到在早高峰、午饭时间、下班时间和夜生活高峰这四个时间段的供求匹配程度得分最低;针对不同空间得到成都市一环二环的供求匹配程度在各个时间段普遍低于市中心和三环。
关键词:打车软件;主成分分析;MATLAB
1.背景分析
出租车是市民出行的重要交通工具之一,“打车难”是人们关注的一个社会热点问题。随着“互联网+”时代的到来,有多家公司依托移动互联网建立了打车软件服务平台,实现了乘客与出租车司机之间的信息互通,同时推出了多种出租车的补贴方案,本文通过分析不同时空出租车资源的“供求匹配”程度,来为打车软件公司制定补贴方案提供理论支持
2.模型的建立
2.1供求匹配的意义及评价指标的确认
供求匹配是指在市场活动中买方向市场发布了自己需要某种商品或服务的信息,买方通过某种信息识别系统判断买方发布的信息成分从而为买方匹配与其需求相同的商品或服务。针对本题所谓的供求匹配应该是乘客的乘车需求与出租车司机的载客需求相匹配的含义。
结合目前世界各国衡量出租车供给数量是否符合需求主要采取五种指标,以及本题背景下的打车软件服务平台所提供的出行建议数据,我们从乘客和司机两方面出发,确定衡量供求匹配程度与两个指标相关联:出租车可获得性(一般以乘客等待时间衡量)和出租车利用率(一般以实载率衡量)。过查阅相关文献我们确定本题的评价指标为:乘客需求量、出租车供应量、乘客预期打车难易度、呼叫回应时间(抢单时间)、乘客等待时间、出租车有效载客率。
2.2数据的预处理
1、数据的采集和整理
1)数据采集的内容:由上述分析得知我们要建立的评价指标主要是成都市不同地点某一天24小时内的乘客需求量、出租车供应量、乘客预期打车难易度、呼叫回應时间、乘客等待时间、出租车有效载客率。在数据采集过程中我们主要采集成都市中心、一环、二环、三环的指标数据这里我们以市中心为例,其余数据见附录。
2)由于滴滴出行在国内的市场份额最高,因此本文数据来源均为滴滴出行提供的大数据平台,其余部分数据为四川省统计局数据。
2、相关性分析和偏相关分析
为了能过表达更多的信息,最理想的情况是希望我们所选取的指标之间不存在相关性。因此我们对所搜集的数据采用SPSS软件进行相关性分析,判断各个指标之间的相关性。从得到的相关性结果,可以看出多个指标之间存在一定的相关性。
2.3基于主成分分析法的多指标综合评价模型
本问题中可供评价分析的变量共有6个数量较多,并且通过数据处理我们发现6种指标之间存在一定的相关性,我们知道在评价时具有相关性的两个指标会对结果造成重复的影响,是结果不够准确,因此我们选取主成分分析法对数据进行降维处理,通过得到的主成分回归分析来克服数据矩阵存在多重共线性时的不稳定性。
我们以市中心为例,其他地点计算过程见附录,首先用分别表示第区域的乘客需求量、出租车供应量、有效载客率、呼叫响应时间、乘客等待时间和乘客心理预期打车难易度。用分别表示一天的1点到24点,第个小时的取值分别为。
进行主成分分析:
对原始数据进行标准化处理,即将各类数据无量纲化。将各个指标值转化成标准化指标,有
其中为第个指标的样本均值;表示样本的标准差。部分标准化结果如表1所示;
表1市中心6种指标标准化
时间
项目 6:00 7:00 8:00 9:00 10:00 11:00 12:00
出租车供应量(辆) 0.0184 0.1759 0.0236 0.0341 0.0105 0.0079 0.0472
乘客需求量(人) 0.0148 0.0938 0.0222 0.1235 0.0049 0.0074 0.0296
有效载客率(%) 0.0577 0.064 0.0414 0.0464 0.0063 0.0038 0.0263
乘客等待时间(分钟) 0.0254 0.1049 0.0445 0.0668 0.0048 0.0032 0.0493
打车难易度 0.0065 0.0497 0.0654 0.0667 0.0065 0.0039 0.034
被抢单时间(分钟) 0.0558 0.1052 0.0805 0.0026 0.0026 0.0039 0.0273
设相关系数矩阵,则有:
其中:,。是第个指标与第个指标的相关系数。
计算相关矩阵的特征值,及对应的标准化特征向量,其中,由特征向量组成6个新的指标变量
其中:是第1主成分,是第2主成分,…,是第6主成分。选择个主成分,将其按照特征值大小排序,特征值大的说明其为主要因子,得到计算特征值的贡献率和累积贡献率。
称为主成分的贡献率;且称为主成分的累积贡献率。
给出总方差分解表如表2:
表2总方差分解表
因子 特征值 贡献率(%) 累计贡献率(%)
被抢单时间(分钟) 4.1643 62.267 69.267
打车难易度 0.913 14.446 83.713
乘客等待时间(分钟) 0.4389 6.988 90.701
有效载客率(%) 0.2488 4.763 95.463
乘客需求量(人) 0.1633 2.743 98.206
出租车供应量(辆) 0.0717 1.794 100.000
当接近于1,一般取时,选择前个指标变量作为个主成分,代替原来的6个指标变量,从而可对个主成分进行综合分析。
由表3可知前3个指标变量的累计贡献率大于90%,因此我们选取前三个指标量作为主成分,代替原来6个指标变量。前三个主成分特征向量构成如表3所示:
表3前三个主成分的特征向量
指标1 指标2 指标3 指标4 指标5 指标6
成分1 -0.3936 -0.5315 -0.2009 0.5186 0.4685 -0.1842
成分2 -0.4276 -0.1995 -0.3650 0.0919 -0.6799 0.4166
成分3 -0.4237 0.2778 0.4484 0.2687 -0.3723 -0.5757
下转第636页