APP下载

基于特征图谱的区域出租车出行需求分布特征研究

2018-03-27翁剑成林鹏飞

交通工程 2018年1期
关键词:发生量时段出租车

王 媛,梁 泉,翁剑成,林鹏飞

(北京工业大学交通工程北京市重点实验室,北京 100124)

0 引言

伴随我国城市化进程的加快,个性化、全天候的出行方式逐渐成为交通需求的热点.出租车是服务于特殊人群的一种公共出行方式,是公共交通的有益补充,具有快速、便捷、安全、时效的特点,满足了出行者的非经常性出行需求.以北京为例,根据北京市交通发展研究院交通发展年报[1],2016年北京市出租车的保有量为6.8万辆,出租车日均运营车辆数为6.23万辆,日载客次数约为80~100万次,约占城市出行总量的13%.因此,掌握不同时空状态下的出租车需求,以平衡出租车的供需关系正在成为相关研究和行业部门的重点关注.

出租车GPS系统可以实时、全面地记录居民出行的上/下车位置、时间及距离等与居民出行关系密切的信息,可以为掌握不同时空状态下的出租车需求提供数据支持.出租车GPS数据中的上/下车位置的上车量与下车量可以很好地反映出租车需求以及出租车需求与区域之间的关系.出租车区域出行需求的时空特征分析,为出租车运营管理部门的运力调度、热点区域合理规划出租车停车地点提供科学有效的支撑.

目前,国内外学者在出租车出行时间、出行距离等特征分布方面已经有大量研究.迟光华[2]将上海市中心城区分成1万个矩形区域,分析各区域出租车的上客点数量与出租车载客时长分布.Jiang等[3]利用北京市车辆轨迹数据研究出租车、公交车、地铁3种交通方式的出行距离分布.Veloso M等[4]利用出租车GPS数据探索乘客上车点和下车点的位置关系以及空驶行为特征,并基于出租车历史轨迹数据预测出租车出行行为.也有研究利用出租车数据提取居民出行热点区域.张朋东[5]利用探索性空间数据分析方法研究城市居民出行行为统计规律,并利用基于核密度估计的时空聚类方法识别出行热点区域.Tang等[6]基于出租车GPS数据,利用DBSCAN方法对上/下车点进行聚类,比较空间相互作用模型在研究购物区域上下车点行为分析方面应用的准确性和适用性,最后利用最大熵原理进行模型的验证.程静等[7]利用出租车GPS数据,对每个地块的出行量时间序列信息进行聚类分析,研究乘客出行的时空分布特征,并结合POI数据,探讨了不同区域乘客出行规律和区域功能类型的相互关系.以往的研究主要基于宏观的角度,未针对不同的区域类型探究出租车需求的差异性,对不同区域的出租车出行需求的时空分布特征表达和深入挖掘不足.

本研究为了提高出租车上、下车点的识别精度,通过关联出租车GPS数据与出租车计价器数据,利用Canopy-K means聚类方法构建出租车需求特征聚类模型,将典型居民活动空间聚类,并基于特征图谱分析、挖掘出租车区域需求特征,实现出租车出行需求区域的识别与科学分类.

1 多源数据基础

1.1 出租车相关数据

出租车基础数据包括出租车GPS数据及出租车计价器数据.本文统计分析2015年5月20个工作日的北京市6.7万量出租车回传的数据为基础.其中,出租车GPS数据每天数据量达到10 G,共有约1亿5 000万条左右的回传数据,平均回传间隔为89 s;出租车计价器数据总体较稳定,每天有5~6万辆车发生交易,交易数据量一般为每天90~120万条.

出租车GPS数据包含时间、位置坐标和角度等基本信息,以及出租汽车运营中的事件(如客人上车、客人下车、锁车门、开锁车门等)触发回传数据,并同时生成状态(如空载、满载、驻车、停运等)信息,能够详细记录出租汽车的实时运营状态.其基本结构如表1所示.

表1 出租车GPS数据结构表

计价器数据包括了出租车司机的基本信息、状态信息等.其基本结构如表2所示.

表2 出租车计价器数据结构

1.2 数据预处理

据统计GPS载客状态全天为0(非载客状态)的车辆中每天有70%左右的车辆是发生过计价器交易记录的,载客状态精度不满足要求,因此本文关联出租车GPS数据及计价器交易数据确定乘客的上车下车位置.

首先对出租车计价器数据和出租车GPS数据进行质量分析.

由于受机器故障、无效出行等问题的影响,计价器数据主要的问题集中于载客时间和载客里程的异常.因此,研究将出租车单次出行时间的阈值设定为2 min≤t≤4 h,将出租车单次出行里程的阈值设定为0.5 km≤dist≤70 km将不在范围内的数据作为异常记录,在后续研究中予以剔除.

出租车GPS数据的质量问题主要集中在重要字段为空、经纬度超出北京市经纬度范围、速度海拔等字段超出阈值等方面,因此设定经度范围为73°33′E~135°05′E (单位:百万份之一度),纬度范围为3°51′N~53°33′N (单位:百万份之一度),海拔为-200~6 000 m,速度为0~160 km/h,超出阈值的数据即为错误数据,予以剔除.

之后,利用GPS记录点生成时间(GPS_TIME字段)与计价器中上下车时间(DAY_TIME和DEAL_TIME字段)进行匹配,允许±1 min的时间匹配误差.

最终,提取车牌号、上车时间、上车经纬度、下车时间、下车经纬度等信息,为后续识别典型居民活动空间及聚类、出租车需求特征分析奠定了数据基础.结果数据如表3所示.

表3 数据关联结果示例表

2 基于Canopy-Kmeans的典型居民活动空间聚类

基于关联处理后的出租车出行数据,提取六环内各交通小区的发生吸引量,识别典型居民活动空间,并利用出成分分析法将数据降维,最后利用Canopy-Kmeans的聚类算法将典型居民活动空间聚类.

2.1 识别典型居民活动空间

本文的研究区域为北京市,基于已有的1 911个北京市交通小区,利用ArcGIS软件,空间连接出租车基础数据与北京市交通小区,结果如图1所示.从图中可以看出,从北京市六环内到市郊区域,路网密度逐渐降低,出租车载客需求逐渐减少,出租车的上、下车点主要集中于北京市六环以内,北京市的文化区、商业娱乐区、办公区等城市功能区也集中于六环内[8],因此,本文的研究区域为北京市六环区域内,共1 367个交通小区.

图1 北京市出租车上下车点散点分布图

从关联处理后的出租车基础数据中提取出租车每次乘客上、下车点的地理信息,统计北京市六环内1 367个交通小区2015年5月份出租车上、下车量的总和,随后根据出租车发生吸引总和将交通小区排序,并计算各交通小区出租车上、下车辆总和的累积频率,选取累积频率为85%的交通小区作为典型居民活动空间.最终,选取451个交通小区作为研究对象.典型居民活动空间分布如图2所示.

图2 典型居民活动空间分布图

2.2 基于主成分分析法的数据降维

主成分分析法是通过将原始指标重新组合,得到相互不相关的综合指标,通过计算综合指标的贡献率,选取尽可能反映原来指标包含信息的综合指标,达到降维的目的[9].本文为减少在典型活动空间聚类时计算量和耗时,基于主成分分析法(PCA),利用SPSS软件将不同区域出租车需求数据降维.

为了更加精细、有效地探究不同时段出租车发生吸引量对出租车需求描述的贡献情况,把一天分成24个时段,分别计算各时段的发生量和吸引量.构建样本数据矩阵如式(1).

(1)

式中,D为热点小区时段发生吸引量矩阵;xmno为在编号为m的交通小区的n时刻出租车发生量,其中m=1,2…,451,n=1,2…,24;xmnp为在编号为m的交通小区的n时刻出租车吸引量,其中m=1,2…,451,n=1,2…,24.

随后,对样本数据矩阵进行数据标准化处理,得到标准化矩阵Z,并计算Z的相关系数矩阵R.计算R的特征值λg和特征向量Ig(Ig=ag1,ag2,…,ag2n),得到k个主成分Fi=ag1Z1+ag2Z2+…+ag2nZ2n,其中i=1,2,…,k.最后,保留主成分的累积贡献率满足阈值要求的主成分.本文选择累积贡献率超过90%的主成分.具体计算结果如表4.

表4 主成分分析法计算结果表

由表4可以看出,前4个主成分的累积贡献率为91.3%,表明4个主成分可以概括样本数据矩阵包含的信息,其主成分分别用F1,F2,F3,F4表示.

2.3 Canopy-Kmeans聚类方法

K-means的聚类结果主要依赖k值和初始聚类中心点的选择,为了减少根据经验设定的k值和随机选择的聚类中心点对聚类结果的影响,本研究引入Canopy算法确定k值及聚类中心点.

Canopy-Kmeans算法是一种优化的K-means算法,具有原理简单、计算速度快等优点.可以减少传统K-means聚类方法中参数的设定对聚类结果的影响.其步骤如下:首先选择2个距离阈值T1,T2,将原始数据集划分成若干子集,重新计算同一区域对象的中心点,利用新的中心点重复划分子集,直至中心点的位置不变,其个数和中心点即为K-means的聚类的k值和初始聚类中心点{a1,a2…,ak}.之后,将k值和初始聚类中心点作为传统的K-means聚类方法的参数计算,具体步骤如下:输入n个w维的原始数据集{X1,X2…,Xn},根据已经设定的k个聚类集,和k个聚类中心点{a1,a2…,ak},利用相似度度量方法将原始数据聚类,最终得到k个簇{M1,M2…,Mk}.

本文利用2.2中低维度出租车发生吸引量矩阵(451*4),对典型居民活动空间进行聚类,探索各类型热点小区的出租车需求特征.经计算k=6.选取欧几里德距离作为出租车需求特征的相似度衡量标准.计算欧几里德距离公式如式(2).

(2)

聚类结果如图3所示,六类聚类结果依次命名为类型1~类型6.

图3 出租车发生吸引强度聚类结果

3 基于特征图谱的出租车需求特征分析

对北京市典型居民活动区域出租车工作日的发生量和吸引量进行统计,为了避免极值对结果的影响,选取5月份不同区域各时段出租车发生量和吸引量的中值作为统计值.具体的北京市典型居民活动空间出租车需求特征如图4所示.

图4中由上至下依次是类型1~类型6以小时为时间间隔的出租车发生量和吸引量的变化情况.

类型1包含的交通小区数量较少,包含21个交通小区,但出租车的发生量较多,一天中有3个高峰时段,分别为08:00—10:00,13:00—15:00和19:00—21:00.16点后相对有减少区域但减幅较小.类型1出租车吸引量的2个高峰时段为07:00—11:00和13:00—15:00,吸引量相比于发生量少,峰值出现晚.类型1活动空间主要包括北京西站、北京南站、北京北站附近等区域,这些区域主要为交通枢纽区域,人流量大,因此夜晚的发生量仍保持较高值.

图4 各类典型居民活动区出租车出行特征图谱

图5 各类型典型居民活动区空间分布图

类型2,全天中出租车发生量有2个峰值,分别为09:00和14:00,07:00—9:00的出租车发生强度上升幅度较大,22:00后上车量明显减少.08:00—11:00为出租车吸引量的高峰时段,其时段长度和量级均高于出租车发生量.出租车吸引量在09:00有1个小高峰,可能受通勤出行影响.类型2主要分布于北三环、东三环附近、三里屯、西单、等商业娱乐区,出租车发生量第一个大幅上升趋势的形成主要受工作人员的通勤影响,而商业圈的发生峰值的形成时间相比于通勤出行的峰值有延后趋势,此类型区域傍晚至夜晚的出行主要受娱乐性出行影响较大,上车量较为平稳.

疾病是影响宝宝的重要生活事件,不但表现在身体健康上,还影响宝宝的心理健康,进而造就宝宝性格的雏形。虽然疾病是人力无法抗拒的,但是疾病对人的心理和性格方面的消极影响,是可以尽力避免的。

类型3在07:00—10:00的吸引量高于发生量,发生量和吸引量在12:00有一个低谷,无明显的晚高峰变化,发生量和吸引量无大幅减少.类型3大多集中在三环内,空间分布较分散,包括望京、劲松、西二旗等区域,包含许多商务楼、写字楼,可能为混合型就业区.

类型4包含114个交通小区,全天出租车的上车量较低,发生和吸引的强度变化均不明显,发生量在16:00后开始降低,而在08:00—22:00吸引量保持平均.类型4主要包括天坛公园、国家体育场、奥林匹克公园、北海公园、南锣鼓巷、朝阳公园、世纪森林公园等旅游景区、绿化地带,园区附近的居民较少,且旅游景区白天主要以为游客到达为主,因此上车量较低.

类型5包含120个交通小区,覆盖面积较大,且主要分布于东四环、北四环与西五环以及东城区附近,是主要的居住地,各时段的发生吸引量基本相等,08:00—10:00为高峰时段,而晚高峰不明显,20:00后出行量减少,该区域的居民收入偏低,出行方式一般为公共汽车、地铁等公共交通.

类型6的涵盖的交通小区面积最小,但在各个时段的发生量均高于其他类型.该区域08:00—24:00的发生量均在100次/h以上.全天有3个峰值,分别为11:00、15:00和19:00,其中,在15:00达到全天最高峰.而吸引量主要显示通勤特征,早07:00—10:00为早高峰时段,在13:00再次达到峰值.类型6的区域主要包括亮马桥、农业展览馆、机场、北京大学第三医院以及中关村等人流量大的综合型区域,医院及机场全天出租车发生量稳定在较高值,而在中关村及亮马桥工作的人员下班时间不固定,因此通勤高峰相对于其他工作地区延后.

4 结论

本文主要探究不同居民活动空间的出租车出行需求时空分布特征.以北京六环内出租车出行为案例,通过分析一天24个时段内不同类型的典型居民活动空间的发生吸引量,观察到不同类型的空间在不同时段出租车发生吸引强度具有显著差异,且符合居住地、就业区、商业娱乐区、旅游景区、交通枢纽区等不同功能区的居民出行规律,主要有以下4点结论.

2)出租车发生和吸引量最少的区域为旅游景区,在08:00—22:00出租车吸引量保持平均,出租车发生量在16:00后开始降低,但降幅较小,说明北京市旅游者对出租车的选择率低.

3)08:00—10:00为混合居住区出租车出行的高峰时段,但需求量不高,并无明显的晚高峰现象.说明居住在四环—五环的居民通勤出行大多不选择出租车,且越靠近城市中心或商业中心的出行者对出租车的选择率越高.

4)时间特征方面,一般每日有2个高峰时段,早高峰时段为09:00—10:00,比通勤早高峰延迟1 h,第2个高峰时段为14:00—15:00.出租车的快捷、灵活的特点可以满足以娱乐、事务为目的的出行者的需求.

本研究在出租车出行上车点和下车点的获取方面,关联出租车GPS数据和计价器数据,很大程度的改善了出租车轨迹数据上车点和下车点识别误差较大的问题,可以获取准确率高的乘客出行信息.利用主成分分析法和Canopy-Kmeans聚类方法将典型居民活动空间划分成6类,降低K-means聚类方法的参数对聚类结果的影响,提高聚类准确性.研究方法与结论可以为更精细化的交通运营管理提供依据.

[1] 北京交通发展研究院.2016北京市交通发展年度报告[EB/OL].2016.[2017-2-26].http://www.bjtrc.org.cn/InfoCenter/NewsAttach/2016%E5%B9%B4%E5%8C%97%E4%BA%AC%E4%BA%A4%E9%80%9A%E5%8F%91%E5%B1%95%E5%B9%B4%E6%8A%A5_20161202124122244.pdf.

[2] 迟光华.基于浮动车数据的出租车运行特点分析[J].交通世界(运输.车辆),2011(10): 84-85.

[3] Jiang S,Guan W,Zhang W,et al.Human mobility in space from three modes of public transportation[J].Physica A Statistical Mechanics & Its Applications,2017,483: 227-237.

[4] Veloso M,Phithakkitnukoon S,Bento C.Urban mobility study using taxi traces[C]//International Workshop on Trajectory Data Mining and Analysis.ACM,2011: 23-30.

[5] 张朋东.基于浮动车数据的城市居民出行行为规律研究[D].长沙: 中南大学,2012.

[6] Tang J,Liu F,Wang Y,et al.Uncovering urban human mobility from large scale taxi GPS data[J].Physica A Statistical Mechanics & Its Applications,2015,438: 140-153.

[7] 程静,刘家骏,高勇.基于时间序列聚类方法分析北京出租车出行量的时空特征[J].地球信息科学学报,2016,18(9): 1227-1239.

[8] 常凯,王爱平.基于功能区划分的出租车热点区域发现方法研究[J].电脑知识与技术,2013(9): 5571-5575.

[9] 黄润龙.数据统计分析: SPSS原理及应用[M].北京:高等教育出版社,2010.

猜你喜欢

发生量时段出租车
基于眼高刻槽数预测松褐天牛发生量分析
乘坐出租车
养阳的黄金时段到了
四个养生黄金时段,你抓住了吗
凭什么
六盘山地区落叶松红腹叶蜂发生量对温度与降水的响应研究
开往春天的深夜出租车
李书福炮轰出租车
蔗渣烧碱-蒽醌法蒸煮过程中甲醇的发生量
非木材原料碱法蒸煮过程中甲醇的发生量