建成环境对共享单车分时骑行量的非线性作用研究:以上海市为例
2024-03-03吴静娴唐桂孔李文翔
吴静娴,唐桂孔,李文翔*
(上海理工大学,a.管理学院;b.智慧应急管理学院,上海 200093)
0 引言
共享单车是一种灵活快捷的出行方式,其推广不仅能促进城市公共交通发展、缓解城市交通拥堵和环境污染等问题,还能有效提升人们的身心健康[1]。然而,随着我国城市共享单车的大规模投入和使用,多区域在高峰时段出现共享单车淤积、一车难求或乱停乱放等潮汐性问题,严重影响了人们的骑行体验和出行效率。因此,有必要针对共享单车使用进行分时段研究。
现有关于共享单车的研究主要集中在对单车骑行时空特征、空间调度以及骑行特征影响因素的分析。在骑行时空特征方面,孙启鹏等[2]发现,工作日内北京市共享单车的骑行时空分布规律与通勤行为密切相关。高楹等[3]指出共享单车在工作日、周末以及工作日早晚高峰时段的骑行空间分布特征差异显著。吕雄鹰等[4]表示摩拜单车在工作日早晚高峰时段的供需矛盾主要集中于住宅小区和轨道站点周边。在影响因素方面,曹新宇[5]表示建成环境是供人类活动需求的重要空间,对人类骑行等交通行为有重要影响。孙超等[6]基于改进的空间滞后和残差模型,识别出酒店、餐饮、医疗等POI对北京市共享单车出行具有正向驱动作用。Wang等[7]利用广义结构方程分析建成环境特征对共享单车使用的影响,研究发现,公交站点、自行车道等交通设施特征与共享单车使用显著正相关,地铁分布密度、交叉口密度与之显著负相关。Guo等[8]基于负二项回归模型分析发现,深圳的土地混合度、人口密度、路网密度等建成环境对共享单车在地铁接驳中的使用有显著作用。王振报等[9]利用多尺度地理加权回归模型分析发现,不同尺度城市建成环境指标对还车的影响差异显著。上述研究多为基于线性模型的共享单车日骑行量与建成环境关系分析,极少能关注建成环境在不同时段对共享单车使用影响的差异以及非线性作用。事实上,建成环境对城市共享单车不同时段借还车量的作用并非均一不变,且会随城市不同地理环境变化而变化。
基于此,本文拟基于上海市摩拜单车、网络公开数据,利用梯度提升决策树模型,探究建成环境指标对不同时段下共享单车借还车量的非线性作用。研究成果可为城市管理者制定共享单车推广计划和优化共享单车资源配置提供一定的参考。
1 数据与方法
1.1 数据来源及特征
本文所用数据主要包括共享单车数据和建成环境数据两类。共享单车数据为上海市2016 年8 月摩拜单车骑行订单数据,覆盖上海浦西外环以内和黄浦江沿线浦东新区的156 个街道。订单数据主要包括用户、订单和单车编号,借车和还车时间,以及骑行起终点和途经轨迹经纬度坐标信息。图1 为共享单车在工作日和非工作日的全天骑行量分布。在工作日内,共享单车骑行存在明显的早高峰(7:00-9:00)和晚高峰(17:00-20:00),晚高峰单位小时的骑行量(3100次·h-1)高于早高峰(2750次·h-1)。非工作日内的单车骑行高峰小时特征则不明显,在6:00-20:00 时段呈稳定增长趋势。此外,鉴于共享单车在工作日,非工作日,工作日早、晚高峰4个时段的空间集聚特征差异显著,拟将订单分为工作日,非工作日,工作日早、晚高峰骑行借还车量进行分组分析。
图1 共享单车工作日和非工作日全天骑行分布Fig.1 Temporal distribution of bike-sharing usage on weekday and weekend
建成环境数据包括百度地图兴趣点数据、Open Street Map 路网数据和上海市第六次人口普查三类数据。参照文献[10],建成环境指标构建选取以街道为单元的密度、设计、多样性、目的地可达性和公交可达性五维指标。其中,街道人口密度、住宅POI密度、就业POI密度和社交娱乐密度用于指代密度;路网密度和非机动车道占比来测度设计;土地利用混合熵、至市中心距离和公家密度则分别指代多样性、目的地可达性和公交可达性。土地利用混合熵是利用居住、商业、工业、公共服务设施、交通设施、公园绿地这6 类兴趣点数据计算而成的指标,具体计算公式为
式中:pi为第i类兴趣点数量占比;n为兴趣点类型数。表1 为具体建成环境和单车骑行变量描述与统计。
表1 变量描述与统计Table 1 Variable description and statistics
1.2 梯度提升决策树
梯度提升决策树(Gradient Boosting Decision Trees,GBDT)是一种以前后决策树残差最小化为目标的连续迭代集成方法,通过累加决策树预测值实现模型预测[11]。与随机森林、支持向量机等其他机器学习模型相比,梯度决策树因调整学习率、树数量和树深度等参数降低了模型的计算速率,但有效防止了过拟合,提高了模型的预测精度,且具备较强泛化能力,能有效处理数据异常值等问题。同时,该模型在建模和运行阶段可解释性强,模型输出的变量相对重要度和非线性依赖图可以有效解释自变量对因变量的影响效应。因此,本文拟利用梯度提升决策树,进行建成环境对共享单车借还车量影响分析。为避免多重共线性影响,研究选取方差膨胀性因子值低于10的建成环境指标为共享单车骑行量的自变量。
已知{(x1,y1),…,(xN,yN)}为具有N个样本的共享单车数据集,利用梯度提升决策树,学习共享单车借还车模型,具体步骤如下。
Step 1 初始化共享单车借还车模型F0(x)。
式中:xi和yi分别为第i个样本的自变量向量和因变量的观测值;x为N组自变量向量的观测值;L(yi,β)为损失函数,用于计算观测值与模型预测值的平方误差;β为使损失函数L(yi,β)最小化的常数。
Step 2 利用最速下降法确定M次迭代的最优步长和决策树,以第m次迭代为例。(1)计算各样本损失函数负梯度。
式中:rim为样本i在当前模型F(x)的损失函数负梯度值;Fm-1(x)为经m-1迭代后的模型函数。
(2) 利用数据集{(x1,r1m),…,(xN,rNm)},生成决策树t(x;am),计算梯度下降的最优步长βm为
式中:am为第m棵树选择的最佳分裂节点。
Step 3 引入学习率ξ控制每棵树对模型的贡献,降低模型过拟合的可能性,更新模型函数为
此外,GBDT模型可有效量化自变量对因变量的影响程度,评估自变量的相对重要度。评估方法为
2 结果与分析
2.1 模型参数与拟合结果
为确保模型精度,在建立共享单车骑行借还车模型前,需对各时段模型的学习率、最佳树数和树深度参数进行调参。其中,学习率按照经验建议值设为0.001,最佳树和树深度值则由网格搜索下的均方根误差(Root Mean Square Error,RMSE)值来确定。同时,为避免过拟合问题,采用5 折交叉法进行模型检验,并结合可决系数R2评估各模型拟合优劣。表2 为共享单车工作日,非工作日,工作日早、晚高峰这4个时段借还车量模型的参数学习和拟合结果。表2中,各非线性模型拟合结果明显优于线性回归模型,表明建成环境变量与共享单车借还车量之间存在潜在的非线性关系。
表2 模型参数与拟合结果Table 2 Model parameters and result
2.2 建成环境相对重要度
表3 为各时段共享单车借还车模型的建成环境变量相对重要度,即各建成环境变量对共享单车借还车量的影响程度。其中,每个模型所有变量的相对重要度累计值为100%。表3中,在工作日,非工作日以及工作日早、晚高峰这4 个时间段,至市中心距离、路网密度、非机动车道占比和人口密度对共享单车借还车量的贡献最为突出,相对重要度高于11%,排名稳居前4;社交娱乐设施密度、住宅POI 密度也在各时段的重要度稳定适中,处于6.75%~10.86%之间;就业POI 密度、土地利用混合熵和公交站密度的作用最弱,重要度处于3.00%~5.50%之间。此外,人口密度、路网密度、非机动车道占比总体重要度高,但在4个时段的作用波动较大。人口密度在非工作日、工作日晚高峰的作用明显大于其他时段,重要度在18.00%和15.00%以上;路网密度对工作日早高峰时段的借车作用显著,重要度高达24.78%;非机动车道占比仅在工作日早高峰对还车量影响较高,相对重要度达17.92%。足见,部分建成环境指标在不同时段对共享单车的借还车量影响差异明显。
表3 建成环境影响程度Table 3 Relative importance of built environment
2.3 建成环境的非线性作用
图2 为工作日,非工作日以及工作日早、晚高峰街区中心邻近度与共享单车使用的非线性关系。市中心邻近度与4 个时段的单车使用总体呈倒U 型关系。在市中心(0,15]km 的区域,街区中心邻近度与单车使用总体正相关,至市中心距离约15 km 共享单车借还车量达到最大阈值,靠近市中心的街道共享单车使用得更加频繁,这与路庆昌等[12]的研究结果相似。在(15,20] km 区域,其与4 个时段的单车使用明显负相关,当区域临近度达20 km以上时,两者关系趋于平缓,对比同时段该因素对借还车量的作用,其在高峰时段的影响差异更为显著,主要作用于邻近度18 km 以内的区域,对早高峰借车和晚高峰还车的影响程度更高。在邻近度为15 km 的区域,该指标的阈值效应最为显著,早高峰借车和晚高峰还车达到峰值,分别为23 次·h-1和27 次·h-1,高于早高峰还车和晚高峰借车峰值,这与工作日内早高峰借车和晚高峰还车多发于市中心临近区的特征相关。综上,中心邻近度18 km以内的区域是共享单车全天骑行发生的主要区域,也是高峰时段单车供求失衡的多发区,而阈值点所在区更是单车运维部门高峰时段重点关注的区域。
图2 至市中心距离对共享单车订单的非线性影响Fig.2 Non-linear impact of distance to CBD on bike sharing
图3 为路网密度对共享单车借还车量的非线性影响。图中,路网密度与4个时段共享单车借还车量总体负相关。当路网密度在(0,16]km·km-2增加时,共享单车借还车量缓慢减小;当路网密度在(16,20]km·km-2时,共享单车借还车量急剧减小;随后,共享单车借还车量减小趋势放缓。这种负相关与Chen等[13]在成都案例中的研究结果存在差异,这种负向作用可能与上海市非机动车道占比总体较低以及高密度路网街区尺寸上明显小于周边区域,进而导致小街区累计车辆骑行数相对较小有关。此外,在高峰时段16 km·km-2以内的低密度路网街道存在明显的借还车供需失衡问题,即应重点关注该部分街道早高峰借车难和晚高峰停车淤积问题。
图3 路网密度对共享单车借还车量的非线性影响Fig.3 Non-linear impact of road density on bike sharing
图4 为区域非机动车道占比对共享单车借还车量的非线性影响。从图中可以发现,路网中非机动车道占比越大越有利于共享单车骑行,该结论与Yang等[14]的研究结果一致。当非机动车道占比在(0.10,0.35]内增加时,各时段共享单车借还车量有小幅提升;当指标增加至(0.35,0.38]时,非工作日外的其他时段共享单车借还车量会出现急剧提升;指标增加至0.40 后,4 个时段的骑行量渐趋平缓。这表示对于非机动车道占比在0.38以内的街道,适当增设非机动车道对促进共享单车的骑行有积极作用。此外,对比非机动车道占比在同时段下对借还车的作用发现,其对工作日早高峰还车、晚高峰借车的影响更甚,其在0.38阈值点处早高峰还车和晚高峰借车分别为27 次·h-1和28 次·h-1,高于早高峰借车量和晚高峰还车量,侧面反映在出行末端就业端增设非机动车道或专用道路面铺装对高峰时段人们是否选择单车通勤有重要影响。
图4 非机动车道占比对共享单车订单的非线性影响Fig.4 Non-linear impact of cycle-way ratio on bike sharing
图5 为人口密度对共享单车借还车量的复杂非线性影响。图中,人口密度在不同时段下与单车使用总体呈S 型关系。当街道人口密度在1.9 万人·km-2以内时,小幅人口密度增加对所有时段共享单车的使用有积极作用,其作用在1.9 万人·km-2处达到峰值,此处非工作日借还车量阈值比工作日借还车量阈值高30 次,而工作日早高峰还车量和晚高峰借车量分别达22 次·h-1和26 次·h-1,高于早高峰借车量和晚高峰还车量。当人口增至(1.9,2.5]万人·km-2时,各时段单车使用量有明显下滑。这与Li等[15]的研究认为高人口密度能吸引更多共享单车骑行存在差异,这可能与嘉定、宝山、闵行等偏郊区人口密度为(2.0,2.5]万人·km-2的街道附近投入共享单车较少有关。当人口密度增加至2.5万人·km-2以上时,各时段的单车使用会有不同程度的提升。总体而言,人口密度对同时段借还车的影响在工作日早、晚高峰时的借还车量影响差异最为显著。随着区域人口密度的增加,早高峰的借车量和晚高峰的还车量所受的正面影响程度更高。可见,企业在工作日早晚高峰应重点关注1.9 万人·km-2左右区域的共享单车投放和调度问题,而3.0万人·km-2以上的区域则须及时关注早高峰时段的供不应求和晚高峰时段车辆淤积的清运问题,减少高峰时段共享单车潮汐性交通问题。
图5 人口密度对共享单车订单的非线性影响Fig.5 Non-linear impact of population density on bike-sharing
图6为住宅POI密度对共享单车借还车量的非线性影响。图中,住宅POI密度与共享单车借还车量总体正相关,这与路庆昌等[12]的研究结果相似。当街道住宅POI 密度在[10,80]个·km-2内增加时,不同时段共享单车借还车量均显著增加;住宅POI密度为(80,160]个·km-2时,共享单车借还车量缓慢增加后维持稳定,可能原因是住宅POI密度高的街道邻里可达性高,步行较方便。对比同时段下住宅POI密度对借还车的影响,工作日和非工作日下该指标作用几乎同步,而在工作日早、晚高峰下其对借还车量影响略有差异。尤其在指标达到40个·km-2后,其对晚高峰借车的影响程度更高,这与工作日晚高峰居住端潜在的休闲娱乐出行有一定关联。可见除通勤外,晚高峰期间休闲娱乐活动也会提高共享单车的需求。
图6 住宅POI密度对共享单车订单的非线性影响Fig.6 Non-linear impact of residence POI density on bike sharing
图7 为就业POI 密度对共享单车借还车量的非线性作用。图中,当街道就业POI 密度低于30 个·km-2时,其增长对4 个时段的共享单车使用均有积极作用;当密度高于30个·km-2时,其对工作日全天骑行有轻微促进作用,对其他时段骑行有一定负作用。总体上,就业密度在高峰时段与单车骑行呈倒U型关系,该阈值说明不同街道的就业密度控制在[30,100]个·km-2为宜,因为高就业POI密度的街道可能在CBD 和高发达地区,共享单车需求较少,这与Yang等[14]的观点相似。对比同时段借还车影响,就业POI 密度对工作日早、晚高峰借还车量影响略有差异。在指标达到30 个·km-2后,早高峰还车和晚高峰借车量影响略大,这预示了关注城市就业集聚地高峰时段单车疏导及调度工作的必要性。
图7 就业POI密度对共享单车订单的非线性影响Fig.7 Non-linear impact of job POI density on bike sharing
图8 为工作日早高峰时段非机动车道占比和就业POI 密度对共享单车借还车的联合作用结果。随着区域就业POI密度的增大,早高峰时段共享单车借还车量在区域非机动车道占比为0.38 处(单指标阈值点)达到最峰值,分别为24 次·h-1和28 次·h-1,均高于非机动车占比(早高峰借车22次·h-1,还车27次·h-1)和就业POI点(早高峰借车19 次·h-1,还车19 次·h-1)的单指标阈值效益。这说明非机动车道占比、就业POI密度对早高峰小时单车骑行量有积极的协作正效应。此外,对比双变量作用下早高峰借还车量阈值发现,该时段单车还车所受影响更高。这与早高峰时段单车骑行以通勤为主的特征相关,因此,该时段骑行还车量受通勤吸引点影响更高。
图8 非机动车道占比与就业POI密度对工作日早高峰共享单车订单的联合影响Fig.8 Synergy impact of cycle-way ratio and job POI density on bike sharing during morning peak hour
图9 为工作日晚高峰时段至市中心距离和非机动车道占比对共享单车的联合作用。图中,在市中心邻近度为0~18 km 且非机动占比0.38 及以上的区域,晚高峰时段的共享单车借车量达到峰值,即33次·h-1。同时,在中心邻近度为10~18 km且非机动占比0.38以上的区域,晚高峰还车量达到阈值33次·h-1。这一联合指标作用峰值均高于市中心邻近度(晚高峰借车25次·h-1,还车27次·h-1)和非机动占比(晚高峰借车28次·h-1,还车26次·h-1)的单项指标作用阈值。该协同作用说明,在区位优越街道配备完善的非机动骑行设施,可显著提高城市居民晚高峰时段共享单车的骑行意愿。此外,市中心邻近度10 km 内,非机动车道占比0.38 以上,晚高峰借车量明显高于还车量,说明晚高峰通勤期间,更多的共享单车骑行发生于非机动车设施完善且临近市中心的就业POI。
图9 至市中心距离与非机动车道占比对工作日晚高峰共享单车订单的联合影响Fig.9 Synergy impact of distance to CBD and cycle-way ratio on bike sharing during evening peak hour
3 结论
考虑城市共享单车在不同时段的使用特征差异,本文利用GBDT 分别建立工作日,非工作日以及工作日早、晚高峰时段共享单车借还车量模型,对比分析建成环境对各时段共享单车借还车量的非线性作用。研究结果显示:
(1)本文建立的GBDT共享单车模型较传统线性模型的拟合度有明显提升,且有效捕捉了部分建成环境指标对共享单车借还的非线性作用和阈值效应。
(2)依据相对重要度水平,判断出对4个时段共享单车借还车影响起主要作用的关键因素,即街道至市中心距离、路网密度、人口密度、非机动车道占比。其中,市中心邻近度、非机动车道占比、人口密度以及就业密度与共享单车使用有明显的非线性关系,依据阈值给出了促进共享单车充分使用的正面因素最佳取值。
(3)在高峰时段,街道中心邻近度、人口密度、非机动车道占比对单车借、还车作用存在明显差异,且非机动车道占比与街道中心邻近度、就业POI 密度对高峰时段单车骑行作用有明显的协作性作用。揭示了街道社区建成环境优化对高峰时段的共享单车供求失衡的影响机理。为避免高峰时段一车难求或单车车辆淤积等潮汐性问题,要调整社区非机动基础设施配置或制定微环境优化政策,并协同单车运维部门做好分时段单车调度和高峰时段投放。