基于地理信息数据的共享单车使用特征研究
2019-06-10孙丹辉王波
孙丹辉 王波
摘 要:为分析共享单车骑行特征和目的,运用SQL Server、ArcGIS、xGeocoding、Python等分析工具,对4 870.78万条GPS数据进行处理,统计分析共享单车骑行的时空特征,得到72万条有效的单车使用时空记录。爬取上海市53.6万条兴趣点地理信息作为聚类中心,借用K-means聚类分析思想对单车骑行目的地进行聚类分析。研究表明,单车在使用量上出现明显的早晚高峰现象,且早高峰阶段人们对单车使用的时间和距离更敏感。中心城区的使用强度远超周边城区,地铁站周围500m及公交站周围150m是共享单车与公共交通接驳转换的集中区域;用户使用单车主要是返家行程,且在不同行政区骑行目的地比重不同。
关键词:共享单车;时间特征;空间特征;聚类分析
中图分类号:TP319文献标识码:A文章编号:1672-7800(2019)002-0132-05
Abstract: In order to further analyze the demand of bike sharing system, this paper explores the characteristics and purposes of bicycle cycling in Shanghai. By using analysis tools such as SQL SERVER, ArcGIS, xGeocoding and Python, 487.78 million GPS data were processed, the spatial and temporal characteristics of bicycle cycling were statistically analyzed, and K-means clustering method was used to cluster the cycling destinations. The experimental results showed that 721,615 pieces of valid cycling records were obtained, and 536,113 points of interest in Shanghai were crawled as cluster centers, which ensured the effectiveness of cycling destinations classification. It is concluded that there is obvious morning and evening peak in the use of bike sharing system, and people are more sensitive to the time and distance of using bicycle in the morning peak period. The usage intensity of central urban area is far more stronger than that of the surrounding urban area, and 500 meters around the subway station and 150 meters around the bus station are the concentrated area for the connection and transformation between shared bicycles and public transportation. Users are more likely to use bicycles to return home, and the proportions of cycling destinations in different administrative areas are different.
Key Words: bike sharing; time characteristics; spatial characteristics; cluster analysis
0 引言
借助大数据、云计算、物联网等技术,共享单车行业快速发展。截至2017年底,共享单车覆盖全国200多个城市,投放量超過2 500万辆,在网民中渗透率达到41%,成为城市交通生态重要一环 [1]。但单车无序停放、使用需求不均衡等问题也给城市管理带来众多问题。自行车共享系统研究始于21世纪初[2],国外学者主要关注自行车共享系统的设计运营问题,包括公共自行车站选址、车队规模确定、车站容量设计、调度路径优化等[3-10],国内学者关注的是自行车租赁站点的选址布局问题。大多数研究从城市公共交通系统接驳角度出发,结合人口和用地性质,建立选址模型进行布局优化研究[11-18]。本文尝试从共享单车使用特征入手,利用上海市区ofo小黄车的地理信息记录,对单车使用时间和空间进行分析,探寻居民使用单车出行的特征和目的,为进一步分析单车使用需求打下基础。
1 研究方法及相关数据
1.1 研究区域概况
上海市作为首批引入共享单车城市,单车投放量和注册人数庞大。据统计,2017年6月全市共享单车数量突破100万辆,注册人数突破1 300万人[19]。但上海市共享单车分布极不均衡,且投放数量持续攀升,经政府发布一系列相关管理规范进行整治,到2017年10月,共享单车数量从最高峰的178万下降到115万。经过两年的投放运营,共享单车用户群体及使用习惯趋于稳定。2017年ofo小黄车在中国和海外市场均居行业第一,因此以ofo小黄车数据来研究共享单车使用问题具有一定的代表性,可为其它城市提供参考。
1.2 分析方法
首先,对原始数据进行处理,得到符合需要、有效的骑行数据子集;其次,对单车出行进行时空分析,总结单车出行的时空特征,概述出行需求波动状况;最后,结合城市用地类型和上海市兴趣点(Point of Interest,POI)数据,对骑行数据子集进行聚类分析,得到用户单车出行目的。
1.3 数据来源
本文研究数据来自ofo小黄车公司提供的2017年9月27日上海市所有小黄车在静止状态下的实时GPS记录。单车数据覆盖56.75万辆单车,共4 870.78万条地理坐标实时记录,数据字段包括自行车编号、时刻、经度、纬度,不包含任何居民個人信息。此外通过百度地图API获取上海市所有POI数据,包括居住、办公、教育等11类。
1.4 数据预处理
研究需要使用共享单车骑行记录。考虑到原始数据只有停放车辆的GPS记录,对于每一辆单车,前后相邻时刻地理坐标出现变化,即认为单车被移动,且前一时刻坐标为起点,后一时刻坐标为终点。因此,对原始数据进行如下处理:首先,对每一辆单车保留其每个坐标点最小和最大时刻的记录;其次,对每一辆单车,将前后时刻记录匹配;最后,删去前后时刻经纬度无变化的记录。完成以上步骤后,得到一份单车移动记录的初始数据集,包含1 787 720条数据,涵盖460 017辆单车。
计算单车移动的距离、时长和速度。假设每条数据前后移动坐标的经度分别是long1和long2,纬度分别是lat1和lat2,根据球面角余弦定理,两经纬度坐标点之间的距离由以下公式计算得出:
式(1)中,R为地球半径。由于缺少移动路径数据,研究将起点和终点间的直线距离看作单车移动距离,实际中移动距离应该更长。单车移动时长由前后连续两个时刻之差可得。为符合骑行规律,保证数据有效性,删去具有不合理移动速度(超出[50,334]范围,单位:m/min)和移动距离的数据(移动距离小于50m,认为未发生骑行行为),控制车辆使用时间在2017年9月27日(星期三)6:00-23:00范围内,由此得到最终单车使用数据集,包含721 615条骑行记录,覆盖234 802辆车。本研究利用SQL Server完成以上数据处理步骤。
2 共享单车出行时空特征分析
2.1 单车出行时间特征
每半小时统计一次用车数量,得到单车骑行需求时间分布情况,如图1所示。单车出行出现两个高峰时段:早高峰出现在7:00-9:30,晚高峰出现在17:00-19:00,骑行需求在短时间内出现激增和骤降现象,对共享单车布局能否满足骑行需求带来考验。当天骑行次数峰值为40 888次/半小时,平均骑行次数为21 224次/半小时,车辆平均使用频次为3次/天。如图2所示,单车使用平均速度为117m/min。早高峰阶段人们以更快的速度骑车,平均速度峰值为140m/min,用车时间也相对较少,说明人们在上班时对出行距离和时间更敏感。下班后则相对悠闲,早高峰时段单车的合理调度尤为重要。
图3和图4给出单车使用时间和距离分布特征:48%的用户骑行时间在5-10min,38%的用户在10-15min;44%的用户骑行距离在0.5-1km,23%的用户在1-1.5km。绝大多数用户使用单车出行,距离集中在2km以内,时间集中在15min以内,也有小部分用户使用单车完成长距离出行,因此得出人们偏爱使用单车进行短距离出行的结论。
2.2 单车出行空间特征
骑行需求空间分布是共享单车布局优化的重要依据。对于共享单车而言,其使用状态必定成对出现,既有用车行为也有停车行为,考虑空间因素时需要为两种状态都预留足够的空间。本研究利用ArcGIS平台,将2017年9月27日当天单车出行的起点和终点一起进行可视化分析,得到上海市各行政区内单车出行需求的空间分布特征(见图5)。以行政区为界限,统计区域内用车和停车次数总和,将16个行政区单车使用强度分为5个等级,用车和停车次数越多,则区域强度越大、颜色越深。由图5可看出,单车使用强度由东到西逐渐减弱:浦东新区因面积较大,且西北区域处于市中心繁华地带,空间要素丰富、人口众多,单车使用量远超其它各区;黄浦区等因设有单车禁行、限行路段,单车使用量略低于周边各区,但也因其较高的人口密度而位于强度第二梯队;2017年9月,崇明区仅有摩拜单车一个品牌投放约1 800辆车,未投放ofo单车,因此图中显示单车使用量为零,该地区单车投放量无法满足居民用车需求。
2.3 单车出行与公共交通的联系
协调好单车分布点与地铁站、公交站之间的衔接关系,是解决单车与公共交通系统接驳的关键。研究通过Python爬虫程序得到上海市区325个地铁站和15 518个公交站(除崇明区)的地理坐标数据,利用ArcGIS,以公共交通站点为中心进行多环缓冲分析,分别统计2017年9月27日当天发生在地铁站和交通站周围的用车和停车数量。考虑到地铁站和公交站具有不同的分布密度,对于地铁站,构建其周围1 000m范围内间隔100m的多环缓冲区;对于公交站,构建其周围250m范围内间隔50m的多环缓冲区,得到平均每个公共交通站点周边单车使用起止点分布特征(见图6、图7)。
结果显示,地铁站和公交站均在第5环出现了单车使用起止点聚集区域,即距离地铁站500m和距离公交站150m是共享单车与其它出行方式接驳转换的集中区域。因此,将地铁站周围500m范围内和公交站周围150m范围内确定为公共交通站点影响区域,统计落在其中的用车和停车次数,得到上海市共享单车与公共交通系统(除崇明区)的接驳强度图(见图8、图9)。研究发现,以黄浦区为中心,强度由中心城区向四周逐渐减弱。黄浦区与周边7个行政区的公共交通站点周围产生并吸引了大量单车骑行行为,一方面由于市中心城区用地类型丰富、人口密集带来大量骑行需求,另一方面由于最初单车投放不均,市中心区域单车扎堆造成周边城区无车可用,骑行需求无法满足。
3 单车出行目的
3.1 单车出行目的分类
共享单车的使用需求除了受公共交通系统影响,还与城市用地类型和空间要素有密切联系。共享单车因其“随用随停”属性,其停车点可认为是用户最终目的地。根据《城市用地分类与规划建设用地标准》和百度地图POI说明,将空间要素分为居住、办公等11类,其属性和涵盖范围见表1。停车点所属的POI类别可作为此次骑行的目的。研究利用Python爬虫脚本,抓取上海市行政区范围内所有百度地图POI名称、地理坐标和地址信息,处理后得到 536 113个POI信息(崇明区未列入)。
3.2 方法
聚类是一种常用的无监督学习数据分析方法,能有效处理未知领域的数据划分问题。K-means算法是基于划分的经典聚类算法,具有实现简单、收敛快速,对于大型数据集的简单性和可扩展性等优点[20]。K-means算法流程为:①随机选择k个对象作为初始聚类中心;②计算其余对象与各个聚类中心的距离,将其分配到最近的簇;③计算各个簇内所有对象的平均值,得到新的聚类中心;重复上述过程直到达到最大迭代次数或聚类中心不再变化为止。
为找到单车停车点所属的POI类型,借用K-means算法思想,将POI点作为聚类中心,计算各停车点与POI点的距离,将停车点分到与其最近的POI点归为一类即可。POI点和停车点均为大体量数据,因此采取分而治之策略,将中心点集合停车点集按行政区拆分,分别聚类计算。该方法易于理解实现,也可避免算法对初始中心化选择的依赖性,实现较高精度的聚类。利用xGeocoding软件对单车停车点经纬度坐标进行地址解析,得到所有停车点的行政区域划分,并利用Python脚本进行聚类分析。
3.3 结果
从图10可以看出,有34%的单车行程由用户返家完成,4项服务类行程共占总行程的1/3,占总量POI点3%的交通POI点吸引并产生了9%的行程。购物点与休闲娱乐点有较大部分重合或极为接近,可将其合并分析,两类行程共占约13%的总行程。从表2可看出,各区返家行程依然占据较大比例,奉贤、金山、松江和青浦4个区由工作地点产生的行程比重明显高于中心城区。结合前文分析,这4个行政区公共交通系统不如中心城区发达,尤其奉贤、金山两区尚未通地铁,人们上班出行需求非常大。同理,周边城区也有更大比重的单车进行与公共交通系统接驳的行程。中心城区则得益于发达的商业和旅游业,在休闲娱乐、酒店服务等方面吸引和产生了更多行程。杨浦区因学校众多,且ofo最初从校园投放起步,因此产生更多的教育类行程。
4 结语
本文基于上海市ofo单车地理信息数据,利用SQL Server、ArcGIS、xGeocoding、Python等分析工具,分析了ofo单车用户的骑行时空特征,对比分析了公共交通系统站点周边共享单车的使用需求及空间分布,并根据用地类型和空间要素对共享单车行程目的进行聚类分析,从时间、空间以及使用目的等方面总结了共享單车使用特征。本文在骑行数据缺失的情况下,运用多种分析工具,将单车GPS记录转化为用户骑行记录,为相关问题的处理方法提供参考。虽然只有一天的单车数据,但上海地区共享单车使用较早,单车投放量及用户群体庞大,用户骑行特征较稳定,因此分析结果具有一定参考意义。未来可在本文基础上归纳骑行链属性,分析不同骑行链的时空特征,预测共享单车的实际使用需求。
参考文献:
[1] 政策与经济研究所. 2017年共享单车经济社会影响报告 [R].中国信通院,2018.
[2] LIN J R, YANG T H. Strategic design of public bicycle sharing systems with service level constraints[J]. Transportation Research Part E Logistics & Transportation Review, 2011, 47(2):284-294.
[3] LIN J R, YANG T H, CHANG Y C. A hub location inventory model for bicycle sharing system design: formulation and solution[J]. Computers & Industrial Engineering, 2013, 65(1):77-86.
[4] VOGEL P, MATTFELD DC.Modeling of repositioning activities in bike-sharing systems [J].Bruges:World Conference on Transport Research, 2010(1):89-94.
[5] ROMERO J P, IBEAS A, MOURA J L, et al. A simulation-optimization approach to design efficient systems of bike-sharing[J]. Procedia - Social and Behavioral Sciences, 2012, 54(4):646-655.
[6] CHOU S J. Models for effective deployment and redistribution of bicycles within public bicycle-sharing systems[J]. Operations Research, 2013,61(6):1346-1359.
[7] MARTINEZ L M, CAETANO L, EIRó T, et al. An optimisation algorithm to establish the location of stations of a mixed fleet biking system: an application to the city of Lisbon[J]. Procedia - Social and Behavioral Sciences, 2012, 54(1):513-524.
[8] GEORGE D K, XIA C H. Fleet-sizing and service availability for a vehicle rental system via closed queueing networks[J]. European Journal of Operational Research, 2011, 211(1):198-207.
[9] FRADE I, RIBEIRO A. Bike-sharing stations: A maximal covering location approach[J]. Transportation Research Part A Policy & Practice, 2015(82):216-227.
[10] FORMA I A, RAVIV T, TZUR M. A 3-step math heuristic for the static repositioning problem in bike-sharing systems[J]. Transportation Research Part B, 2015(71):230-247.
[11] 羅海星. 城市公共自行车租赁站点选址方法研究[D].北京: 北京交通大学, 2013.
[12] 沈翔. 基于城市轨道交通换乘的公共自行车租赁点选址规划研究[D].西安: 长安大学, 2015.
[13] 申红飞. 轨道站点周边自行车停车设施布设方法研究[D].南京: 东南大学, 2016.
[14] 何流, 陈大伟, 李旭宏,等. 城市公共自行车租赁点布局优化模型[J]. 武汉理工大学学报:交通科学与工程版, 2012, 36(1):129-133.
[15] 何流, 李旭宏, 陈大伟,等. 公共自行车动态调度系统需求预测模型研究[J]. 武汉理工大学学报:交通科学与工程版, 2013, 37(2):278-282.
[16] 陈昕昀, 蒋永康, 李牧原,等. 基于BP神经网络的公共自行车单站点调度需求量研究[J]. 交通运输研究, 2016, 2(3):30-35.
[17] 解小平, 邱建东, 汤旻安. 基于Elman神经网络的公共自行车单站点需求预测[J]. 计算机工程与应用, 2017, 53(16):221-224.
[18] 刘路美. 城市公共自行车站点需求预测及调度优化方法研究[D].北京: 北京交通大学, 2017.
[19] 陈依萍. 上海共享单车再增长:数量突破100万,超1300万人注册[EB/OL]. https://www.thepaper.cn/newsDetail_forward_1707101
[20] SAINI A, MINOCHA J, UBRIANI J, et al. New approach for clustering of big data: disk-means[C]. IEEE International Conference on Computing, Communication and Automation,2017:122-126.
(责任编辑:杜能钢)