城市出租车出行轨迹网络的空间分异特征研究
2021-01-26胡蓓蓓蔺科欣董现垒马旭军
胡蓓蓓,蔺科欣,董现垒,马旭军
(1.山东师范大学 商学院,山东 济南 250358;2.太原科技大学 经济与管理学院,山西 太原 030024)
一、引 言
出租车作为城市交通的重要组成部分,具有舒适、灵活、全天候、即走即停的特征,在满足居民出行需求方面具有重要作用。近年来,随着互联网及移动客户端的发展和普及,滴滴等网约“专车”凭借消费者对高品质出租车服务的迫切需求,进入客运出租车服务市场。网约车与传统出租车共同执行载客任务,促进了出租车市场的资源共享和供需平衡,提高了资源利用效率。因此,准确理解新业态下出租车和网约车出行轨迹的空间分异特征,对于提高出租车运营效率,完善出租车市场资源配置,缓解司机“收入低”,乘客“打车难”等问题均具有重要意义。
出租车的出行轨迹数据作为一种城市交通地理信息来源,能够记录车流、人流的动态变化特征,为城市交通以及居民出行行为的研究提供了数据支持。近年来,随着车载GPS技术普及以及大数据技术发展,通过收集浮动车轨迹位置数据,实现居民出行行为数据提取已成为可能。目前,利用出租车出行轨迹数据的相关研究主要从以下两个方面展开。
第一,通过出租车GPS轨迹数据识别上下客事件,寻找上下客的时空分布规律。比如分析影响上下客时空分布的关键因素,进而从城市空间动态性的视角研究出租车上下客的时空动态与城市设施之间的关系[1];基于出租车上下客,分析不同时段居民出行的集聚路段和区域,实时了解居民的出行需求和交通状态[2];对轨迹数据进行聚类,利用居民日常交通出行的时空分布规律降低出租车空载率,进而缓解城市道路拥堵等[3];通过提取乘客上下车的分布热点,分析乘客在一个地点的访问频率和活动的规律性[4];或者使用聚类的方法,寻找乘客出行的频繁路径和个性化的兴趣点,通过量化聚类之间的吸引力来揭示人们的出行需求和活动模式[5]。为了帮助巡游的出租车司机快速定位乘客,并快速找到具有潜在乘客的地点,不少学者研究了工作日和非工作日乘客出行的时空分布规律,筛选能够带给出租车高收益乘客的区域,研究发现不同区域的客源分布不均影响出租车的供需平衡[6]。
第二,基于GPS轨迹数据构建相关理论模型,为出租车的运行效率和运营管理提供理论支持。比如,通过构建出租车运营管理指标,分析出租车的运营状况,进而改善出租车市场的运营战略。基于出租车的运行参数及运营收入构建出租车运量投放计划模型,通过评价出租车服务系统的运行效率,从而预测出租车最佳的投放量,以达到最大程度减少出租车运营成本的目标[7]。除此之外,为解决出租车市场效率低下的问题,学者们采用不同的测算方法进行理论研究和实证分析,均取得了不错的研究成果。比如通过构建出租车和快车服务利润率模型对比分析了两者之间的利润率差异,研究发现,长途返空费的设定在一定程度上缓和了出行里程对出租车司机利润率的影响[8-9]。考虑出租车市场的供需平衡问题,通过提供出租车调度系统,方便出租车司机和乘客之间的直接信息交换,从而提高出租车系统的整体运行效率[10]。或者结合滴滴打车线上数据,利用倾向得分的双重差分模型来分析打车软件对出租车司机决策行为的影响,为制定出租车行业治理方案提供理论依据[11]。有的学者还通过建立排队模型,来模拟不同区域不同时间段的出租车需求模式,从而为司机分配和出租车调度提供理论支持[12]。
复杂网络作为经典图论的延伸,能够系统地将各个要素转化为网络的节点和边,以网络的形式描述现实世界中各部分之间的联系。城市交通网络作为一个复杂的网络系统,复杂网络理论与方法为其提供了重要的研究工具,同时也为研究城市交通网络的拓扑结构、相互作用以及动力学特征等问题奠定了理论基础。鉴于此,部分学者对城市交通网络进行了相关研究。付鑫等人利用出租车OD矩阵数据构建出租车出行轨迹网络模型,并分析了网络结构复杂性及空间分异特征,研究发现出租车出行轨迹网络具有典型的小世界、集团化特征,空间分异特征较为明显[13];罗飞等人将复杂网络中的最短路径算法应用于交通网络路径分析,并结合城市道路网数据,对不同算法在城市交通网络中的实际运行效率进行了对比分析,结果发现最短路径算法中的标号改正算法在城市交通网络中具有更强的适用性[14];刘志谦等人对广州市轨道交通网络进行建模,并重点分析换乘故障对交通轨迹网络的影响程度,结果发现换乘故障对网络结构的影响较小,但对网络直径和平均最短路径长度影响较大[15];许晴等人对中国多个城市P空间下的公交网络进行拓扑建模,并横向分析比较网络复杂性特征,结果发现不同城市的网络具有不同的模块性[16]。
出租车的出行轨迹是影响出租车司机收益的关键因素,精准把握现有出租车出行轨迹的时空分布特征,对于提高城市交通的精细化管理和规范化引导具有重要理论意义。现有文献主要利用交通大数据研究乘客的出行行为特征、城市交通状况及出租车运营管理等方面。尽管以往的研究取得了不错的进展,但是从司机收益的角度出发,研究出租车(包括网约车)出行轨迹的空间分异特征及其规律的研究还相对较少,尤其是利用复杂网络的方法研究出租车出行轨迹网络的结构指标与司机收益之间的关联性依然较少。因此,本文以北京市为例,基于出租车和快车的GPS轨迹数据,构建出租车(包括网约车,以下统称出租车)出行轨迹网络,重点探讨了出行轨迹网络的复杂特性、聚类特性、空间特性,及出行轨迹网络指标与服务利润率的关联性。本研究将在数据测算的基础上指导出租车行业的资源优化配置,改善或者解决各城市中的相关社会问题,促进出租车市场健康、稳定、持续发展。
二、数据来源及预处理
本文的研究数据是从滴滴打车平台获取北京市城六区(东城区、西城区、朝阳区、海淀区、丰台区和石景山区)出租车和快车的订单轨迹数据,借助于Python软件对所有订单轨迹数据进行清洗,删除重复和错误数据,最终获得有效订单336 330个(出租车订单53 427个,快车订单282 903个)。每条订单轨迹数据包含5个字段:订单ID(已脱敏)、轨迹点对应的时间戳、坐标经度、坐标纬度和瞬时速度(km/h)。对数据进行预处理,处理过程如下:
第一,计算每个订单的行驶时间、行驶路程、平均瞬时速度、低速行驶时间(瞬时速度小于12 km/h的行驶时间),记录载客点的地理位置与时刻。
第二,以经纬度(39.433 3°N,115.416 7°E)为原点,以地面距离1 km为边长,对北京市城六区进行经纬网格的划分,最终将北京划分为1 324个经纬网格(每个网格的纬度跨度为0.009°,经度跨度为0.011 74°),记录每个经纬网格的中心经纬度并统计网格内订单开始和结束发生的总数量。
第三,基于高德地图提供的API接口,对每个订单的起点和终点进行详细地址的匹配,将其划分到19个功能区内(公司企业、汽车服务、购物服务、金融保险服务、餐饮服务、商务住宅、科教文化服务、地名地址信息、风景名胜、住宿服务、政府机构、医疗保健服务、汽车维修、交通设施服务、汽车销售、道路附属设施和通行设施),并统计每个功能区订单起点和终点发生的数量。
第四,利用式(1)~(7)计算每个订单的服务利润率。出租车(快车)的收费标准参考北京市发展和改革委员会2017年1月22日发布的《出租汽车价格标准》和滴滴平台公布的《用户指南》与《司机指南》。
三、研究方法
(一)出租车和快车服务利润率的测算
出租车和快车订单的服务利润率是指出租车司机在单位时间内的盈利状况,服务利润率的大小在一定程度上既能反映出租车和快车的运营效率,又能反映出司机的收益情况。因此,本文利用Rousseeuw等人提出的利润率计算方法计算每个订单的服务利润率[17]。由于网约出租车和快车在不同服务里程的计价标准不同,所以测算其服务利润率的公式也会有差异。因此,在不考虑有载与空载行驶过程中的燃油成本差异的情况下,本文基于服务里程分以下三种情况进行讨论并计算。
(1)
(2)
其中,pb、plow、tlow、pempty、s′、ε0、Vij、ε1、φw、φ0、φM分别表示里程基本单价、单位时间内的低速行驶费、平均低速行驶时间、空驶费的单价和起收里程、有载率、平均速度、等待时间占全部服务时间的比例、等待成本、单位时间的燃油成本和“份子钱”,其中单位时间的燃油成本φ0可表示为:
(3)
L表示每百公里耗油量,poil表示单位燃油价格。
(4)
(5)
(6)
(7)
(二)出租车出行轨迹网络的构建
本文使用出租车和快车的出行OD矩阵数据构建出行轨迹网络。在构建网络的过程中,不考虑道路面积、载客数量、车型等因素,视每条行驶路线具有相同的载客能力。将北京市每个经纬网格视为网络的节点,将出租车在经纬网格的位移作为边,两个经纬网格之间的客流量作为边权,构建出行轨迹网络模型。由于网格之间的流量为非对称流量,所以整个网络为有向加权网路。基于上述构建过程,得到具有1 331个节点,108 165条边的网络图。
复杂网络有度(出度和入度)、平均最短路径、网络密度及聚类系数等多种网络特性,这些特性对网络关联结构的识别具有重要意义。本文使用的网络结构指标主要有网络节点强度Ii、网络平均最短路径D、节点的集聚系数Ci和网络密度W,其具体的测算方法如式(8)~(11)所示:
(8)
(9)
(10)
(11)
其中ωij是节点i和节点j之间的载客次数,dij表示节点i和节点j的最短路径,n表示网络中节点的个数,xi是节点i和相邻节点实际相连的边数,ki表示节点i所有相邻点的个数,L表示网络中连接的边数。
(三)出租车出行轨迹的时间序列聚类
本文采用时间序列聚类方法来研究出租车和快车的需求情况。基于时间序列的相似度度量通常较为复杂,其中时间序列值的大小和时间序列波形的相似性是判断两个时间序列相似性的重要指标,传统的Euclid(欧几里得)算法只考虑到值的大小,本文对Euclid算法计算出来的距离进行了改进,引入波形的影响,最后进行聚类。具体测算步骤如下:
1.计算时间序列的欧几里得距离。设北京市城六区网格数量为N,24小时内订单数量的时间序列为T,则网格m和网格n上的时间序列值分别为Tm=(tm1,tm2,…,tm24)、Tn=(tn1,tn2,…,tn24)(m≠n),这两个网格之间的欧几里得距离d(Tm,Tn)的测算如式(12)所示:
(12)
2.计算改进的欧几里得距离。测算网格m和网格n修正后的距离dC(Tm,Tn),如式(13)所示,并构建相似度距离矩阵DIST,如式(14)所示:
dC(Tm,Tn)=Φ[CORT(Tm,Tn)]·d(Tm,Tn)
(13)
(14)
其中,h1∈N1,h2∈N2,CORT(Tm,Tn)是网格m和网格n之间的相关系数,如式(15)所示。Φk(u)为引入调整函数Φk(u),计算如式(16)所示:
(15)
(16)
3.基于Partitioning Around Medoid算法对时间序列数据进行聚类。基于相似度距离矩阵DIST进行时间序列数据聚类,本文选择用Partitioning Around Medoid算法对数据进行聚类。在计算过程中,输入距离矩阵DIST和簇的数目k,经过不断地迭代,最终输出k个簇,使得所有对象与距离最近中心点距离的和最小。
为了使聚类结果最优,本文引入轮廓系数确定聚类的簇数k[18]。在k=1,2,…,7时,计算第w(0 (17) 其中aq表示第q个点到所属簇中其他所属对象的平均距离,bq表示第q个点到任意簇的最小距离,p表示簇中向量的个数。最后,求解总的轮廓系数值S,如式(18)所示: (18) 最终求得的聚类结果如图1所示。由图1可知,随着聚类个数的增多,轮廓系数值首先逐渐减小,但相对于聚类簇数为3,轮廓系数值为4时出现了一定程度的回升,但回升幅度不大。轮廓系数的取值范围为[-1,1],对每一簇来说,其轮廓系数值越大,代表聚类效果越好,与所属类簇越匹配。本研究的样本数量较多,k值取到3以上比较合适,综合考虑,选择聚类簇数为4。 图1 轮廓系数随k值变化 1.网络特性分析。在复杂网络理论中,用于刻画网络结构统计特性的指标主要有节点的度及度分布、平均度数、平均路径长度、网络密度及集聚系数等,本文主要是通过研究这些网络特征指标来揭示出行轨迹网络的拓扑结构特征。针对出行轨迹网络构建的原则和网络关系举证,计算出租车出行轨迹网络结构静态统计特征值,如表1所示。 表1 出租车出行轨迹网络结构静态统计特征值 在出租车出行轨迹网络中,网络的平均最短路径长度代表任意两个网格要通过尽量少的联系建立关联。平均路径越小表明任意两个网格之间建立关联需要的中间网格越少。如表1所示,任意两个网格至少需要通过2.456个中间网格才能建立关联,这说明在出租车出行网络中任意两个区域之间建立联系的路径较短,并且区域之间的通达性较好。出租车出行轨迹网络的平均聚类系数为0.367,这表明整体网络的集聚系数相对较大。通过仿真结果可以看出,大多数网格具有较小的集聚系数,少数网络具有较大的集聚系数。这表明在出租车出行轨迹网络中,网格与周围地区之间的联系程度较高、吸引力较强。网络密度表明网络中任意区域网格之间联系的紧密程度,取值介于0和1之间,值越接近1则表明任意网格之间的联系越紧密。出行轨迹网络的网络密度仅有0.065,这表明区域网格之间的联系非常稀疏,这与出租车本身的服务特性有关。 2.网络结构与服务利润率的关联性分析。出租车的服务利润率受到多种因素的影响,出租车的出行轨迹则是影响服务利润率的关键因素之一。因此,从网络结构的角度分析其与服务利润率的相互关联性就显得尤为重要,图2是出租车出行轨迹网络的出度和入度与其服务利润率的日变化趋势。整体上看,出租车出行轨迹网络的出度和入度具有相似的日变化趋势,呈现“早晚高峰”现象。除此之外,出租车的服务利润率也呈现出明显的“早晚高峰”现象。这在一定程度上说明,在早晚高峰时段,出租车的收益水平和供需数量都处于较高的水平。 图2 出度和入度与服务利润率的关联关系 从图2可知,在某个具体时段,出租车的需求与司机收益具有明显的关联性。在6∶00—9∶00时段,出租车的供需数量与其司机的收益具有较高的正相关关系,相关系数分别为0.914(出度)和0.906(入度),这也可以在一定程度上说明,在早高峰时段,出租车的供需数量越大,司机的收益水平就越高。相反,在晚高峰时段(17∶00—19∶00),出租车的需求数量与其司机收益之间的相关性较小,相关系数几乎为0,这说明在晚高峰时段司机的收益水平与出租车需求数量的多少没有显著性关联。究其原因:第一,在早高峰时段人流量大,居民对出租车的需求量较大,拥堵费的设定会使得司机更容易接到收益较高的订单,因此出租车的供需数量与司机收益水平呈现较高的正相关关系;第二,在晚高峰时段,居民通常以下班或娱乐为主,晚高峰路面拥堵使得居民更倾向于选择公共交通出行,此时段司机的收益水平与出租车的需求量相关性较小。 除此之外,在0∶00—6∶00时段,出租车的需求数量与司机的收益呈现负相关关系,相关系数分别为-0.377(出度)和-0.310(入度),这是因为在该时段内,居民和司机大多处于休息状态,出租车供需数量较少。在10∶00—16∶00时段,出租车的需求数量与其司机的收益具有较高的正相关关系,两者的相关系数分别为0.713和0.647,这说明在非高峰时段,出租车的需求数量越大,其司机的收益水平就越高,反之则越低。在20∶00—24∶00时段,出租车的需求数量与司机的收益水平则没有显著性关联,此阶段两者的相关系数也接近0。在21∶00左右,司机的服务利润率再次出现高峰值点,这表明虽然夜间订单量减少,但司机的收益水平仍处于较高水平,究其原因主要是因为21∶00之后大部分公共交通设施停运,居民会倾向于选择出租车回家,夜间乘坐出租车会有收费规则,加上此时段地面道路通畅,司机的收益水平再次达到峰值。 按照出租车订单OD点的经纬度坐标,将出租车的起点(出度)和终点(入度)匹配到北京市城六区(朝阳区、东城区、丰台区、海淀区、石景山区及西城区),同时根据高德POI的行业分类对出租车的起点(出度)和终点(入度)进行功能区的划分,统一划分到商务住宅、科教文化服务、医疗保健服务等19个功能区中。图3给出了北京市城六区出租车出行轨迹网络平均出度、平均入度与其服务利润率的分布。从出租车需求的角度来看,北京市出租车需求在城六区的地域分布极不平衡,区域之间存在较大差异,但是出租车在不同行政区的出度与入度却趋于一致。其中,出租车在东城区和西城区的需求最大,出度和入度占比高达33%和27%,其次是朝阳区,在丰台区的需求最小。从服务利润的角度来看,出租车则在东城区和西城区的服务利润率较低小,在海淀区和石景山区则较高。 图3 出租车行驶轨迹在行政区占比统计 从图3还可以看出,对出租车需求较大的行政区,其司机的收益水平较低,反之则较高。比如出租车在东城区和西城区的需求较大,但其服务利润率相对较低。究其原因,一方面,东城区和西城区是北京市的经济中心,汇聚着大量的商业贸易中心、居住区域以及旅游景点,人流量较大且对出租车的需求也较大;另一方面,该区域属于主城区,相对于其他区域道路地面拥堵,从而造成司机的收益水平较低。但是,在丰台区、海淀区以及石景山区,出租车的服务利润率则较高,需求量则较低。这主要是因为这些区域的经济发展程度相较于主城区较为落后,人员流动量较小,对出租车的需求也较小。但是,由于该地区占地面积较大,地面道路相对通畅,司机的收益水平则相对较高。 我们分析不同功能区下出租车出行轨迹网络的出度、入度及服务利润率的分布情况,结果如图4所示。从出租车需求的角度来看,北京市出租车需求在不同功能区的地域分布也极不平衡,区域与区域之间也存在较大差异,但是其出租车在相同功能区的出度与入度却趋于一致。其中,出租车在餐饮服务、商务住宅和科教文化服务功能区的需求量较大,三者占比均超过15%,显著高于平均水平(5.26%),这是因为上述三个功能区人流量相对较大,对出租车的需求也较大。相反,出租车在汽车销售、摩托车服务、道路附属设施和体育休闲服务这四个功能区的需求则较小,总占比仅为1.40%和1.41%。从服务利润率的角度来看,出租车在不同功能区的服务利润率差异性较为明显。具体来看,出租车在摩托车服务功能区的服务利润率最低,而在道路附属设施功能区的服务利润率最高。 除此之外,从图4可以看出,对出租车需求较大的功能区,其服务利润率处于较低水平;除摩托车服务功能区外,对出租车需求量较小的功能区,其服务利润率水平较高。比如,出租车在餐饮服务、商务住宅和科教文化服务功能区的需求量最高,但其服务利润率水平显著较低,而在道路附属设施功能区,出租车需求量较低,但服务利润率水平显著高于其他功能区。这是因为出租车需求量较高的功能区主要位于北京市中心,其公共交通设施较为发达,通勤时段地面拥堵使得司机的收益水平相对较低;道路附属设施功能区主要分布在高速路附近,居民在该功能区对出租车需求较少,但由于该功能区与乘客出行热点区域距离较远,出租车行驶里程较长,所以司机具有较高的收益水平。 图4 出租车行驶轨迹在功能区占比统计 利用式(11)得到1 331个网格出行量在时间序列模式下的相似度,本文根据该相似度矩阵进行时间序列数据聚类,经测算可知,聚类系数为4时,聚类效果最好。对4类聚类结果,按照出行量大小进行排序,从大到小依次命名为cluster1、cluster2、cluster3和cluster4,图5给出了不同波形下出租车出行量和服务利润率的分布情况。 图5 不同波形下出租车出行量和服务利润率的分布情况 cluster1出租车需求量最多,但聚类数量最少,仅占全部数据的3.7%。整体上看,出租车需求量随时间波动性增长,并在21∶00左右达到峰值,但服务利润率相对较低。这主要是因为该聚类地区位于东三环中路和东二环中路附近,存在多个地铁站,火车站等交通枢纽,人员流动较大,因此居民对出租车的需求较大。21∶00左右为居民回家的最后时间段,人口流量较多,并且在该时间段内部分公共交通服务停止,因此出租车需求量达到峰值。 cluster2和cluster3需求量次于cluster1,聚类数量分别占全部数据的21.3%和22.6%,属于中等水平。从时间变化特征上来看,两者的时间序列波形相似,都具有明显的日变化趋势和早晚高峰特征,cluster2相比于cluster3需求量整体波动程度更高,需求量更大;从服务利润率特征上来看,两者具有相同的变化规律,但cluster3的值明显高于cluster2,这是由于两者所在区域主要位于四环内市中心地带,商圈和商务住宅数量较多,职住分离现象明显,因此出租车需求量具有通勤特征;cluster2比cluster3更接近北京市中心地区,人口密集程度相对更高,因此通勤特征更加明显、需求量更大。 cluster4出租车需求量最小,但聚类结果数量最多,占全部的50.56%。从时间变化趋势来看,部分区域有早高峰现象,但整体上没有明显的峰谷特征和日变化趋势,说明在cluster4区域内,时间对需求量的影响不大;从服务利润率变化趋势来看,cluster4区域的司机收入水平最高,且晚高峰收入显著高于早高峰。由于该区域主要分布在城六区边缘区域,为近郊地带,经济发展程度相对落后,出租车需求量较小,居民打车的随机性较强。 准确把握城市出租车出行轨迹网络的空间分异特征,不仅能够提高出租车的运营效率,而且对于完善城市交通规划和资源配置具有重要意义。以北京市城六区为例,本文利用出租车GPS轨迹数据,通过构建出租车出行轨迹网络模型和服务利润率模型来分析出租车出行轨迹网络的空间分异特征。研究发现,出租车出行轨迹网络的度累积分布服从幂律分布,是一个无标度网络。这在一定程度上说明网络中区域之间的通达性较好,网格与周围地区之间的联系程度较高,但由于出租车自身的服务特性,区域网格之间的联系则非常稀疏。 出租车的服务利润率和网络结构具有较强的关联性。出租车出行轨迹网络的出入度和服务利润率在时间上都具有明显的“早晚高峰”现象,这说明在早晚高峰时段,出租车的收益水平和供需数量都处于较高的水平。具体来看,在早高峰时段(6∶00—9∶00时段),出租车的供需数量越大,其司机的收益水平就越高,两者具有较高的正相关关系;在晚高峰时段(17∶00—19∶00时段),司机的收益水平与出租车需求数量的多少没有显著性关联。 从出租车需求的角度看,北京市出租车需求在城六区的地域分布极不平衡,区域之间存在较大差异。对出租车需求较大的行政区,其司机的收益水平较低,反之则较高。比如出租车在东城区和西城区的需求较大,但其服务利润率相对较低。但是,在丰台区、海淀区以及石景山区,出租车的服务利润率则较高,需求量则较低。对出租车需求较大的功能区,服务利润率处于较低水平。除摩托车服务功能区外,对出租车需求量较小的功能区,服务利润率水平较高。比如,出租车在餐饮服务、商务住宅和科教文化服务功能区的需求量最高,但服务利润率水平显著较低。从上车数量时间聚类特征上来看,出租车需求量较多的区域,聚类数量则最少,出租车需求量随时间波动性增长,但服务利润率相对较低。出租车需求量较少的区域,其聚类结果数量最多,但整体上没有明显的峰谷特征和日变化趋势。这说明在该区域内,时间对需求量的影响不大,且该区域的司机收入水平最高,晚高峰收入显著高于早高峰。 本文在服务利润率视角下分析出租车出行轨迹网络的空间分异特征,能够了解北京市城六区居民的出行特征、出租车司机的收益水平及功能区的空间分布,有助于有关部门合理规划城市结构布局,优化城市交通资源配置,适度调控出租车保有量,对进一步完善出租车市场利益分配格局具有一定的指导意义。四、实证分析
(一)出行轨迹网络结构的复杂性分析
(二)不同区域下出行轨迹网络的空间特征分析
(三)出行轨迹网络的聚类特征分析
五、结 论