地铁站点共享单车接驳客流分析与预测算法
2020-02-01郑晏群周梦麟
郑晏群,周梦麟
(1.深圳市综合交通运行指挥中心,深圳518041;2.宁波市公安局轨道分局,宁波310021)
0 引言
起始于2014年,公司化运营的无桩式共享单车开始在城市的街头广泛出现,并逐渐成为解决城市公共交通出行“最后一公里”的优选解决方案。但是,无桩式共享单车企业在运营期间频现的投放资源浪费、营收效率太低等问题亟需解决。通过改善车辆的投放调度效率,优化车辆供需的时空匹配效率,提升车辆使用频次将是有效的解决手段。
地铁口通常是公交站点和共享自行车等城市内部交通方式衔接的关键节点,提升地铁站点的共享单车接驳效率对整体效率的提升将起到重要作用。在该领域中,此前的研究工作主要集中在对地铁出站客流和骑行需求的分析预测。F.Zhang和J.Zhao等人[1-2]2016年的研究提出依靠进出站的刷卡数据对整个乘客行程进行分析,进而实现站点的客流预测,但尚未有进一步研究对其中的共享单车骑行需求进行分析和推测。
相应需求研究的缺乏,主要是受限于以前感知设备的限制,很难得到乘客步行或者使用自行车、电动车等慢行交通工具的信息。较早研究文献中的基本思路是依靠问卷调查[3],可靠性和样本数目都不足以去进行系统性的科学研究[4-5]。近些年共享单车的普及使用以及其上面配置的GPS设备提供了准确的使用起始位置与时间,是非常优质的分析数据源[6-7]。在此之前针对桩式公共自行车的研究中,陈超等人的相关研究接驳模式,除了共享单车运营机构自身的数据处理,该研究也通过耦合地铁客流数据与共享单车数据研究二者之间的接驳量化关系,为进一步展开相应时空域分析提供基础。以此为基础,结合POI目标点位置和已有的数据分析模式[8-10],对区域的人群移动模式分析,并使整个分析系统的数据源和分析结果可视化[11-13],并分析推测其移动的目的和意义,为公共交通决策提供支撑。
1 数据获取与处理
该研究的数据源基础包括共享单车企业的区域运营统计数据,单车使用状况和时空位置数据,选定地铁站的进出客流数据。
1.1 数据(源)获取
针对共享单车的相关数据,研究中的数据选取2018年10月深圳共享单车使用数据,相较于桩式公共自行车数据量,共享单车使用情况的刻画更为复杂,存在大量不能直接使用的数据,为方便后期的数据处理过程,数据抽取的字段需要进行定义。
此外,需要耦合的地铁数据客流数据,主要来源于深圳通的记录,包括刷卡站点、ID,以及刷卡时间。
1.2 数据处理流程
数据获取后需要对其进行相应的清洗评估、分析挖掘、融合延展和知识增强等操作处理流程,以实现对后续业务分析结果的支撑。
首先,研究中需要清除无效记录和重复记录,对于有轨迹漂移的记录判断其经纬度是否在深圳市范围之内,之后进行判断选择清除(粗略的地球面深圳市矩形经纬度范围轮廓经度:113.766666E-114.6166666E;纬度:2.45N-22.86666N)。
从宏观的全局统计,此次选取的数据包括2018年10月深圳市的无桩式共享单车总量均值为468568;时间范围涵盖2018-10-01 00:00:00到2018-10-31 23:59:59;空间位置的轮廓纬度:22.440738E-22.876659E,经度:113.7566616N-114.6220976N。考虑到单车有可能定位在深圳市与其他地区交界的范围,清洗的经纬度范围覆盖:113.75666E-114.62666E,纬度22.44N-22.87666N,范围未超出清洗的经纬度范围。根据新范围统计抽取,单车使用的总次数为34961797,日均单车使用次数为1127799次/天。对单车使用次数进行排序,排名最高的五辆车,使用次数超过的1000次,而且最多的达到了2360次,样本体量相当庞大。
同时,区域范围内地铁客流是该研究分析预测的关键组成部分,基本思路是通过进出站客流统计数据的特征字段对区域内车站客流的宏观特征分析预测。这里涉及的原始数据体量都相对较大,对其前期的处理基于Hadoop大数据处理平台,后期算法设计与执行也是在相应的框架内实现,其中涉及的算法涵盖了数据储存的HBASE算法,数据处理运用了PIG和HIVE相关软件,整个map-reduce过程都有相关算法支撑。对于深圳通ID的乘车记录,每一次都会有两条刷卡记录,选取时间较晚的一条作为后续算法中与共享单车记录的匹配。
2 初步接驳匹配
通过共享单车使用过程数据并不能建立地铁刷卡ID与单车使用ID的有效匹配,对此问题的基本构想是利用概率统计算法对整个过程进行数据处理。日常的慢行交通普遍通勤距离较短,因此可以在特定区域内的时间尺度上设定初始阈值,然后选择一个较小值以实现后续的迭代分析。根据相关研究的统计,在日常通勤中用户普遍的步行换乘区间在1.23km[5]以内,因此设定1.23km为初始迭代阈值选择范围上限。如果在最终迭代完成的算法中,依旧存在大量该范围以外时刻的共享单车使用记录,那么会进一步扩大阈值上限范围。在选择初始的阈值范围以后,我们需要选择客流出站时间与共享单车扫码时间相匹配[14],具体匹配的算法流程如下描述:
(1)设定用户的平均步行速度为v,扫码时间为b。
(2)根据地铁的时刻表,记录所有的地铁到站时间。以任一地铁到站为例,单车GPS位置到地铁站距离a,接驳时间为t+(a/v)+b,如果记录满足a小于阈值范围且时间大于接驳时间,记录改共享单车记录为接驳记录。
(3)由于各个地铁站位置,地形不同,很可能出现距离较近但从地铁接驳共享单车的时间远大于经验值的情况,之后重新选择阈值范围进行迭代。
(4)由于整个概率模型相对较为粗糙,所以需要对比上班-空闲,周末-周内,高峰-低谷等多种情况对于算法模型进行优化。初始的算法迭代需要依靠大量的历史记录作为基础,且需要与地铁整个客流情况作为判断的基础。
通过这样的基本流程,可实现地铁站出站客流与共享单车的使用数据进行匹配,在一定准确率范围上对地铁站点周边共享单车需求进行分析。这里以地铁3号线为例,选择其中一个站点进行地铁客流和共享单车使用数据进行耦合匹配。
得到数据后可以用算法不断调整整个模型,目前算法已经能较为精准的判断接驳使用情况,结合后文的移动模式分析已经可以作为初步的决策判断辅助。
3 移动模式分析
3.1 移动模式分析辅助数据
得到共享单车与相同的区位地铁站客流相应数据处理之后,就可以结合共享单车的数据与已有的人群模式算法相结合得到更精细的移动模式结果,并实现结果的可视化。
在初步的接驳匹配结果的基础上,为了分析共享
单车和地铁站之间更准确的接驳关系,首先对各个地铁站进行空间区域的功能属性划分。此过程使用的是深圳市地铁POI数据,数据来源是百度提供的地图服务器,其将POI数据分为19类,并在一级分类结果下划分了二级行业分类。
3.2 移动模式分析算法
引入POI数据后,后续研究基于DBSCAN算法[15]:一个聚类可以由其中核心对象确定,主要依靠空间点密度分类,大致算法流程为:
输入数据:地铁样本集D=(x1,x2,...,xm)(已有的地铁站信息),邻域参数(ϵ,MinPts)(判断的一个范围值),样本距离度量方式(同样也是一个判断值)
输出数据:簇划分C(针对具体的站点的类别)。
(1)设定地铁站位置为核心点集合Ω,聚类簇数k为地铁站数目,对所有POI进行编号,去除没有具体定位的POI位置。
(2)首先标出各个地铁站的经纬度位置,在此基础上加入POI具体的经纬度位置信息,以每个地铁站位置作为聚类中心,在选定的邻域参数MinPts内,只要存在POI点在地铁站核心位置内,归为指定类别。
(3)如果出现一个POI点的位置到两个地铁站的位置都在MinPts范围之内,那么默认这个POI点被两个地铁站所包括。
(4)最后进行遍历,再对所有的地铁站进行遍历,就可以输出地铁站划分。
由于该算法的初始核心点和位置都已确定,只需更改距离阈值范围并可以对整个算法准确性进行迭代,引入评估方法轮廓系数,则得到下列公式:
(1)s(i)计算样本i到同簇其他样本到平均距离ai。ai越小,说明样本i越应该被聚类到该簇(将ai称为样本i到簇内不相似度)。
(2)S(i)计算样本i到其他某簇Cj的所有样本的平均距离bij,称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度:bi=min(bi1,bi2,···,bik2)
若si接近1,则说明样本i聚类合理;若si接近-1,则说明样本i更应该分类到另外的簇;若si近似为0,则说明样本i在两个簇的边界上;如果整体偏差过大则重新迭代。
图1 区域功能属性的聚类分析结果
得到POI处理结果以后,需要对所聚类点进行分类,得到各个地铁站的特征值,用雷达图处理较为简便:
即每个射线表示一个维度,雷达视图的中心值为0,往外逐渐增大,在本发明中可以直观的显示出各个地铁站的特征属性,即可以得到各个地铁站的属性信息这里选取的是两个聚类之间的关系,可以看到把POI信息分类以后每个聚类项属性权重是不相同的。
之前的慢行交通无法分析用户使用共享单车的目的已经移动模式。根据研究上文算法判断出哪些用户使用了共享单车后,可以根据各个地铁站的属性,POI的类型点,从共享单车使用频繁的地方,判断其出行属于正常通勤,住宅,还是商业因素影响客流移动,也可以分析出哪些用途会使得用户更加青睐使用共享单车。
桩式公共自行车相较于无桩式共享单车,其由于站点位置的固定性,导致统计OD使用情况并没有很高的统计意义。从其使用特性来看也只有通勤的使用者会选择使用公共自行车,而政府的设定目标也是解决用户通勤使用习惯,相较于共享单车少了许多维度可分析的意义。整个系统可视化结果如图2所示。
由于深圳地图的覆盖范围相当庞大,地图选点数据量过大,显示的时候对线路进行了简化,大地图上显示的只有目前客流量较大的线路图。
图2 区域功能属性的聚类分析结果
图3 区域功能属性的聚类分析结果
除了线路图的可视化呈现,整个分析系统还可以热力图的形式表示换乘客客流的密度。
基于现有的数据,相较于医院、教育等属性,共享单车的使用者还是较为集中在住宅区域,而且明显客流较大的地铁站有大量的共享单车使用记录,一方面说明确实符合人们的固有印象,另一方面也是由于较大地铁站周围换乘人数较多,较为方便能找到共享单车。
根据的数据分析的使用,如果出现了共享单车使用频繁的情况且并没有明显的POI属性的差距,可以把具体站点的情况重新划定范围进行迭代并且额外标注其属性类别。
4 结语
本文探讨了共享单车接驳地铁的相关算法和分析系统。相较于之前较为偏平,简单的分析系统,将更加多元的数据与其他相关系统的结合能得到更加准确、有效的结果。算法研究的前半部分对判断地铁站周围的无桩式共享单车使用情况提出了一个基本判断方法,主要是基于人们出行的时间消耗容忍度;后半部分的数据分析系统,除去共享单车,目前还加入了公交和网约车的数据,让整个数据分析更精确可靠,同时呈现的结果功能和效果更完善,可以更好地辅助决策者。
未来的研究深入可以通过关系算法的改进、新的有效数据源接入、关键判别字段的优化等方面使分析结果更精细化,可视化效果更具直观性、支撑性。