城市群节假日顺风车城际出行时空分布特征研究
2022-03-25李奉孝陈德启闫学东刘晓冰
李奉孝,陈德启,闫学东,刘 桐,刘晓冰
(北京交通大学 交通运输学院,北京 100044)
面对气候变化与可持续发展的需要,引导居民改变传统的私家车出行方式是减少碳排放与缓解交通压力的重要途径.拼车出行作为一种共享、环保的出行模式,被证明可有效减少能源消耗、降低出行成本[1].此外,经济对社会需求的刺激使得近年来节假日期间出行显著增加,节假日出行存在交通流量大、需求集中、低时空限制等特点,给运输公司及交通管理部门带来巨大压力.
随着信息技术的发展,大量如GPS浮动车、公交IC卡等多源交通数据的采集、储存已成为现实[2-3].目前,已有较多以交通大数据为驱动、对区域居民出行时空分布进行全面刻画和分析出行行为特征、识别出行模式等方面的研究.文献[4]基于青岛市出租车轨迹数据,研究了该区域出租车载客点的聚集分布状态以及不同时段时出租车载客区域时空分布变化态势.文献[5]结合交通IC卡数据,对公交线路中不同站点、时间段出行客流量进行了分析,发现了公交出行者的出行时间分布规律与出行站点聚集规律.文献[6]研究了科罗拉多州丹佛市城市轨道交通老年乘客的出行特征,结果发现老年人和年轻人在出行行为上存在差异,但差异均值低于预期估计.文献[7]基于负矩阵分解方法实证,研究了北京地区基于互联网拼车出行的服务模式并进行了微观个体出行行为分析,结果表明拼车这一出行模式可以有效调节交通供需时空上的不均衡,从个体行为模式可知司机对于长距离出行的倾向性.
已有研究主要存在两点问题:①对于拼车这一出行方式研究不足,且仅有研究聚焦于工作日通勤行为特征分析.然而节假日出行作为受时刻约束性不强的交通出行,其分布特征必然与工作日的刚性需求存在差异,文献[8]研究表明节假日期间54%居民会改变计划出发时间.②从研究范围上看多聚焦于城市市内出行,然而随着区域协同发展的推进,城市间联系愈加紧密,城际出行日加频繁,对城市群的研究与探索是城市研究的新扩展[9-11].
基于此,本文作者利用滴滴顺风车数据实证研究了节假日期间城市群城际拼车出行时空分布特征,在提取热点出行区域时,结合网格模型对传统DBSCAN聚类算法进行改进,对模型参数进行了优化,有效提高了针对大规模数据的计算效率与聚类效果.在此基础上,研究了节假日期间城市群城际出行时空分布特征,同时利用差值指标量化各节假日对出行的影响范围,捕捉到了不同区域出行影响的异同关系.研究结果可为制定顺风车运营及管理策略、引导城市群顺风车出行发展、节假日交通管控等方面提供参考依据,具有很强的现实意义.
1 数据准备
1.1 数据提取及预处理
本文选取京津冀地区滴滴顺风车2017-01-01—2017-10-17的FCD数据,涵盖此年度除元旦外完整法定节假日期限.字段信息包含订单编号、乘客编号、司机编号、出发城市编号、到达城市编号、订单创立时间、出发时间、出发地经度、出发地纬度、到达地经度、到达地纬度、到达时间、乘客数量、出行距离及行程时间等.数据预处理流程如下:①根据出发与到达城市编号差异筛选城际数据.②选取D1、D2两数据集.数据集D1包含了各法定节假日的出行数据.其中,10月4日中秋节包含于国庆假期;数据集D2包含春节前后2周、其他节假日前后1周出行数据,用于节假日出行影响范围的后续研究.③对数据进行清洗,检测并剔除异常数据,包括:字段缺失;出发点与到达点经纬度完全相同或者出发与到达时间完全一致;出行距离小于1 km或出行时间小于5 min.④选取所需研究字段,包括订单编号、节假日名称、出发时间,出发点经度,出发点纬度.
1.2 节假日期间城际出行订单基本统计
京津冀节假日期间顺风车城际出行数据集D1有400 739条有效数据,各节假日日均出行基本统计量及城际出行日均小时订单量见图1.
图1 节假日城际订单量基本统计Fig.1 Basic statistics of intercity orders during holidays
由图1知,从节假日订单量纵向对比看,春节期间的相对订单量远低于其他假期.从订单量横向比较看,各节假日期间城际订单量的变化趋势基本趋于一致.夜间23:00到凌晨5:00的订单量处于低谷时期,两个高峰时段分别为8:00-10:00、14:00-16:00.
2 城际出行特征分析模型
2.1 京津冀城市群网格划分模型
文献[12]提出一种离散化高速公路以实现浮动车数据高效匹配的新方法,本文借鉴此思想提出了京津冀城市群区域划分网格模型.京津冀地区边界并非规则形状,直接进行网格划分工作量大且未必保证区域全覆盖.因此,选择包含京津冀规则区域构建网格模型,具体范围是113°12′78.73″E~120°16′63.18″E,35°90′89.10″N~42°93′30.79″N的方形区域.另外,网格尺寸过大时,网格总数过少而单位网格数据量过大可能会导致不同区域出行特征表征不明显.反之,网格数量过多会造成计算量剧增.研究对象是较大的出行区域而非具体路段,可适当增加网格尺寸.因此,将研究区域S划分为100×100大小相等的相邻网格aij(1≤i,j≤100),见图2.图2中,网格从0开始编号,顺序为由下及上,由左及右.
图2 京津冀城市群网格划分模型Fig.2 Grid division model of Beijing-Tianjin-Hebei urban agglomeration
2.2 热点区域提取方法
DBSCAN算法不需预先确定聚类个数,对噪声不敏感,可发现任意形状聚类是进行热点区域提取与划分最常用方法之一[13].然而,传统DBSCAN算法处理体量较大数据集时往往因迭代计算量巨大导致收敛时间过长,效率低下.因此,结合网格模型,采用改进GDBSCAN算法对节假日期间城市群城际出行热点区域进行提取.介绍改进GDBSCAN算法前,引入几个定义与术语.Minpts为核心对象邻域内至少包含点的个数, Eps为邻域半径.
定义1(核心对象) 给定对象p的Eps邻域内的样本点数不小于Minpts,称该对象p为核心对象.
定义2(直接密度可达) 对于样本集合D,若样本点q在p的Eps邻域内且p为核心对象,那么对象q从对象p直接密度可达.
定义3(密度可达) 对于样本集合D,给定一串样本点p1,p2,…,pn,p1=q,pn=p,假如对象pi从pi-1直接密度可达(i=1,2,…,n),那么对象q从对象p密度可达.
定义4(密度相连) 存在样本集合D中一点o,如果对象o到对象p和对象q都密度可达,则p和q密度相连.
基于网格聚类可以提高显著提高计算效率[13],本文提出改进GDBSCAN算法划分节假日京津冀城际出行热点区域,步骤如下:
步骤1 将原始数据集合D1中数据d映射到网格aij,作为网格属性信息wij,删除覆盖边界外的网格及因土地利用性质(如农田、山林)等导致无数据映射的网格,将筛选后的网格定义为有效网格eaij.
步骤2 设定网格映射数据数量阈值m以防原始数据密度特征丢失,只对数据量大于阈值的网格进行聚类,修正后的有效网格集EA′={eaij′|数据量N(wij)>m}.
步骤3 优化算法参数Minpts和Eps.
步骤4 随机选取集合EA′中未被处理的网格eaij′,并计算其Eps邻域内包含的网格个数n.
步骤5 若n≥Minpts,查找与其密度相连的所有有效网格eaij′,将其聚为一类,同时将这些网格标记为已处理网格.否则,仅将该网格标记为已处理.
步骤6 判断是否存在未被处理网格,若是返回步骤4.
步骤7 将所有标记为已处理但未被聚类的网格标记为噪声点,算法结束.
2.3 节假日影响范围分析方法
为探究各节假日对顺风车城际出行的影响范围,利用顺风车城际出行订单量差值指标Ib来表征订单量的总体变化,其表达式为
(1)
依次计算Ib,直到满足式(2)条件,那么认定节假日对城市群顺风车城际出行的影响范围为b天.
(2)
式中:ε为出行波动参数,表示所能忍受的最大订单波动量.
2.4 热点区域出行影响程度测算指标
为捕捉不同热点出行区域受节假日影响的异同关系,采用各热点区域订单绝对变化量DVc与相对变化量RDVc两个指标度量各节假日期间不同热点区域出行量与平时该区域出行量的变化,分别为
(3)
(4)
3 结果与分析
3.1 有效网格选取
经Step1获取的有效网格有3 207个,节假日城际出行量空间分布见图3.
图3 京津冀城市群节假日城际出行量空间分布Fig.3 Spatial distribution of intercity trips during holidays in Beijing-Tianjin-Hebei urban agglomeration
各网格数据分布量存在极大差异.为了更直观地分析网格数据分布情况,将所有有效网格根据数据映射量按照降序顺序依次排列.计算网格数据量累计百分比曲线,前500个格子可视化统计结果见图4.为保证原始数据密度特征,决定寻找该曲线90分位数所对应网格的数据映射量作为网格数量阈值m.根据统计结果,90%分位数所对应的有效网格的数据映射量为83,即m=83,据此筛选出的修正后的有效网格集EA′中元素总数为435.
图4 有效网格数据映射量统计Fig.4 Statistics of effective grid data mapping
3.2 算法参数优化
利用改进GDBSCAN算法进行区域提取前,需确定参数Minpts、Eps[14].对于核心对象最小邻域点数Minpts,如果该参数设置偏小,会丧失对噪声点的甄别,导致生成过多的簇.该参数偏大会导致:①自然簇的丢失,将本应归于簇内的对象标记为噪声点;②将密度较大的临近簇聚为同一簇.对于邻域半径Eps,该参数取值过小会导致大部分数据不能被聚类,该参数值过大会造成大量的噪声点被归入簇中.因此,对参数Minpts、Eps进行优化取值.
对于Minpts取值,选取聚类个数及噪声点个数作为综合考量指标,研究不同Eps条件下聚类个数和噪声点个数随Minpts取值变化情况,结果见图5.
图5 不同参数条件下聚类个数及噪声点个数变化Fig.5 Number of clusters and noise points under different parameters
当研究区域范围较大时,一般只关心出行热点区域,所以聚类个数不应过多.同时,京津冀包含2个直辖市及11个地级市,聚类个数过少也不满足研究需求.根据图5(a)中结果,当2 在确定Minpts优化取值基础上,绘制K-近邻距离曲线完成Eps参数最优取值.K-近邻距离定义如下: 给定含有n个元素的有效网格集EA′及邻域参数k,计算任一网格eaij′到集合EA′内所有其他网格的距离并进行升序排序,排序后的距离集合D={d1,d2,…,dk,dk+1,…,dn-1},dk即为eaij′的K-近邻距离.计算EA′中每个网格的K-近邻距离按照升序的方法排序,然后绘制K-近邻距离曲线图并根据变化趋势选择合适的Eps取值. Minpts取值为2,即k=2.距离指标采用两个网格中心经纬度间的欧式距离,K-近邻距离曲线见图6. 图6 有效网格集K-近邻距离曲线Fig.6 K-distance curve of effective grids set 由图6可见,K-近邻距离大于17后数值变化过快,说明此后的网格大概率为噪声网格.因此,在Minpts=2的情况下,Eps半径取值为17 km. 采用第3.2节中优化参数,利用改进GDBSCAN算法对京津冀地区节假日城际出行地点进行聚类处理,提取热点出行区域并统计分析每个簇类的订单量,结果见图7. 图7 节假日京津冀城市群城际出行热点区域提取及各热点区域出行订单量Fig.7 Intercity travel hotspots and its number of orders during holidays in Beijing-Tianjin-Hebei urban agglomeration 由图7(a)可知,京津冀城市群节假日城际出行区域聚成了34个簇,即共有34个热点区域.值得注意的是,保定、廊坊、北京的部分区域被聚为同一个簇类中,一定程度上反映了这三地的联系比较紧密.对顺风车的出行数据,天津大部分地区没有与北京聚为一类,这可能与发达的京津城际高速铁路有关.由图7(b)可知,各簇间的订单量相差巨大,簇0、1、4的订单量排在前三,这几个簇空间位置分别对应北京-廊坊-保定地区,石家庄城区,沧州中部地区,此区域内顺风车出行量比较高,特别是位于石家庄和沧州的热点区域簇,可以反映顺风车在两地的发展相较其他地区有一定优势.簇2位于直辖市天津市,作为京津冀“一核双城发展”中双城之一订单量并不拔尖,说明在节假日跨城出行上,天津居民出行模式并不青睐于顺风车出行. 为了进一步探究热点区域节假日城际出行量的时间分布特征及变化趋势,选择代表性假期进行具体分析.根据图1统计结果,国庆节与劳动节日均小时订单量最多.另外,春节作为新年,因其性质独特性也在被选取之列,节假日期间城际出行量日期-时间分布见图8. 由图8可知,从出行日期上来看,国庆节与劳动节的出行均存在两头多,中间少的现象,假期首日与结束日为高峰日,首日出行高峰在上午8:00—10:00之间.结束日高峰时段在下午2:00—4:00之间,可反映居民节假日城际出行的某种偏好,即在节假日开始阶段偏向于上午出发,结束时偏向于下午返程,以保证享受尽量长的假期.不过,国庆节期间城际出行量要高于劳动节出行量,即节假日时长会对出行量可能产生一定影响. 春节假期开始阶段出行量处于低谷,除夕(1月27日)与初一(1月28日)全天各时段出行量近乎忽略不计,这与守岁团聚等传统习俗有关.从初二到初六,开始有了小幅度的订单量,这可能是小部分跨城的走亲访友所致.2月2日是春节期间出行的高峰日期,作为春节法定假期的最后一天,该日为返程的高峰期.这一天的出行高峰时段是下午2:00—4:00,与国庆、劳动节相似.经比较,发现春节期间各时段出行量基本低于劳动与国庆节. 另外,发现节假日对节前及节后的数天出行量产生影响,例如9月30日出行量明显出现了增加.此外,春节对于出行量有促进作用,但高峰是2017年2月25日(农历腊月廿八),不在法定节假日内. 为进一步探究不同节假日对顺风车城际出行影响范围并研究出行量的变化规律,分析了订单差值情况,出行波动参数ε=200,节假日订单量差值分析结果见图9.其中,对于春节,将2017年2月25日作为分析基准日. 由图9分析,可得以下结论: 1)除春节外的其他假期对顺风车城际出行的影响可以提前到节假日开始日期的前2 d,从前3 d再往前,基本不再受节假日的影响.节假日开始的前2 d出行量开始出现增长,前1 d城际出行的订单量出现激增,假期首日当天的出行量达到最高峰值. 2)春节对于出行量的显著影响从基准日前5 d开始,受到春节影响城市群城际日出行量基本处于增加的状态,在2017年2月25日达到峰值.这与春节的性质有关,作为传统年节,讲究节假日期间的家人团聚,因此在外地的打工人会选择节前出行以确保春节与亲人团聚.综上,春节对于出行量的影响范围是节前一周. 3)国庆节假期差值结果峰值最高,说明国庆节在各节假日中对于城际出行订单量的影响程度最深.春节假期差值曲线到稳定状态的宽度最大,说明春节城际出行的影响范围最广.根据分析结果异同 性结合各假期时长差异性,在后续研究将节假日分为三类:春节、国庆节和其他短假期. 采用各热点区域订单绝对变化量DVc与相对变化量RDVc两个指标分别探究不同类型假期对于不同区域出行影响的异同关系,DVc直接反映节假日与平时出行的变化量,RDVc反映了节假日对各热点出行区域的影响程度,节假日与平时出行的热点区域出行绝对和相对变化量见图10. 由图10(a)~10(c)可知,簇0(主要位于北京)在春节期间的出行量远小于平时.簇1(位于石家庄)也出现了负值.说明春节期间两地的城际顺风车出行量要低于平时水平,原因可能是外地人提前回乡过年造成大城市人口的减少,进而导致节假日出行量的减少.对于其他热点区域,绝对差值的结果均为正值.说明春节期间顺风车的城际出行量高于平时,可能跟春节期间走亲访友有关.对于国庆节和其他短假期,34个热点出行区域节假日期间顺风车城际出行量与平时的差值结果均为正值,说明这两类节假日对于热点区域的出行量产生促进影响.由图10(d)~10(f)可知,簇0、1(主要位于北京,石家庄)在除春节外的两类节假日RDVc为数值较低的正值,说明国庆节与其他短假期对此区域城际顺风车出行影响不大.同时,从国庆节RDVc总体分布情况看,京津冀地区其他出行区域指标值基本超过0.5,国庆节对于小城市出行影响程度较高.簇2(位于天津)在各类节假日RDVc值均为正,且与其他热点出行区域相比数值很高,天津顺风车城际出行量受到各节假日影响程度大,对节假日的敏感度高,节假日明显促进了天津地区顺风车城际出行量的增加.另外,从图10(d)可见,春节对于绝大部分热点出行区域出行的影响程度都比较大,簇0在春节期间顺风车城际出行减少量超过了25%,对于其他热点区域,春节期间顺风车城际出行量处于增加状态,增加程度大多超过50%. 图8 节假日期间城际出行量日期-时间分布图Fig8. Date-time distribution of intercity trips during holidays 图9 节假日订单量差值分析结果Fig.9 Order quantity differential analysis in holidays 图10 节假日与平时出行的热点区域出行绝对和相对变化量Fig.10 The absolute and relative change between the amount of holiday travel and the amount of normal travel in hotspots 1)面对海量数据计算要求,结合网格模型提出改进GDBSCAN聚类算法,提取了京津冀节假日城际顺风车出行34个热点区域,该算法有效提高了针对大规模数据的计算效率与聚类效果. 2)在热点区域提取结果的基础上,探究了节假日期间城市群城际出行时空分布特征,总结分析了不同假期、热点出行区域出行规律及偏好特性.节假日顺风车城际出行空间分布具有明显非均衡特性,北京、廊坊、保定的部分区域联系较为紧密,顺风车出行量较大,被聚为同一出行热点区域. 3)研究了春节、国庆节、其他短假期等不同假期对于顺风车城际出行的影响范围,探究了不同热点出行区域出行受到不同节假日影响的异同关系,天津顺风车出行量受节假日影响程度很大,节假日明显促进了天津地区顺风车出行增加.国庆节对小城市出行影响高于北京、石家庄等地. 本研究结果与规律对于节假日交通管控、顺风车服务引导、促进城市群共享出行的发展等方面具有很强的实用价值,可以为顺风车运营方以及各级部门制定相关规划提供参考依据.3.3 热点出行区域提取结果与分析
3.4 出行时间分布特征分析
3.5 节假日影响范围分析
3.6 各热点区域出行受节假日影响分析
4 结论