APP下载

考虑建成环境交互影响的共享单车需求预测

2023-10-09魏晋安实张炎棠

科学技术与工程 2023年26期
关键词:交通设施栅格数目

魏晋, 安实, 张炎棠*

(1.上海市政工程设计研究总院集团第十市政设计院有限公司, 兰州 730000; 2.哈尔滨工业大学交通科学与工程学院, 哈尔滨 150000)

伴随着实现双碳目标重大时间节点的提出,交通领域践行节能减排可持续发展任务迫在眉睫。大力发展公共交通是实现绿色交通的重要途径,然而公共交通“最后一公里”问题决定着其使用的吸引力、竞争力。而自行车等慢行交通以其灵活轻便、可达性高等出行特点[1],成为“最后一公里”的有利助力。随着共享经济的发展,以共享单车为核心的慢行交通正在被居民普遍接受[2-3]。共享交通成为解决“最后一公里”问题的关键,是实现可持续交通发展的有效途径[4]。为支撑城市可持续交通的发展以及为城市规划政策提供理论依据,有必要精准预测共享单车出行需求。

在以往研究中,建成环境因素常被用来预测共享单车出行需求[5]。Li等[6]利用普通最小二乘回归和地理加权回归模型探讨建成环境和社会人口特征对共享单车利用的影响,研究发现兴趣点数据(point of interest,POI)混合度大大增加居民出行的多样性。徐标等[7]使用POI数据构建以骑行距离为约束的多尺度时空地理加权回归模型,探究建成环境和区域经济属性对停车需求影响的时空异质性模式。Ma等[8]利用时空地理加权回归模型研究了南京市建成环境和社会经济属性在时空维度上对定桩和无桩共享单车使用的影响。崔树强等[9]采用逐步回归分析方法研究了长沙共享单车出行需求,发现POI密度与多样性、路网密度、土地利用类型多样性等因素对共享单车出行需求产生正向作用。现有的研究已经表明,建成环境即土地利用对共享单车出行需求影响十分关键。然而,以往的研究较少突破线性假设的限制,尽管能够得到建成环境要素与出行需求的影响,但其关系相对粗糙,忽视非线性关系所导致的阈值效应以及各土地利用要素间的交互作用将会对城市交通规划中的空间布局以及基础设施建设资源造成浪费和损失[10-11]。因此,需准确说明各影响因素对共享单车出行需求产生的影响。此外,最近有限的研究尽管使用机器学习模型如随机森林与梯度提升树等非线性模型审视了建成环境要素对共享骑行的影响,但鉴于机器学习模型的“黑箱”特性,对于预测结果无法有效解释。

考虑到以上研究不足,现提出一种基于GBDT模型的共享单车出行需求预测模型,为提高模型精度引入自行车道密度、公交站点数等交通属性的建成环境影响因素,以及对预测结果进行解释来阐明各影响因素的交互作用,借助SHAP方法对GBDT模型进行解释,分析各影响因子对于共享单车出行需求的作用,并为深圳市共享单车发展提出合理建议。

1 GBDT模型和SHAP解释方法

1.1 GBDT模型

GBDT模型是由Fridman等[12]提出的一种集成模型,它由多棵弱决策树组成,并通过提升策略提高模型质量。每一棵决策树的构建都使得残差向梯度方向减少,在逐次迭代中使得模型残差不断减小。利用损失函数来评价模型性能,认为损失函数越小,性能越好。在共享单车出行需求预测领域,与传统的回归模型相比[13-14],它具有预测精度高、非线性、鲁棒性强等优点。

GBDT模型工作流程如下。

(1)初始化弱学习器。

(1)

式(1)中:n为样本数;f0(x)为初始弱学习器;yi为训练集中第i个样本的标签数据;在初始化弱学习器时,c取值为所有样本标签值的均值;L(yi,c)为单个弱学习器的损失函数。

(2)对于m=1,2,…,M,重复步骤①~步骤③。其中,M为回归树迭代次数。

①对i=1,2,…,n,计算负梯度,即

(2)

式(2)中:rmi为第i个样本m次迭代的负梯度函数;f(xi)为第i个样本对应的弱学习器。

②对rmi拟合一棵CART回归树,得到第m个回归树对应的叶子节点区域为Rmj,j=1,2,…,J,其中J为第m棵回归树的叶子节点个数。

③对j=1,2,…,J,线性搜索损失函数的最小值,并计算计算最佳拟合值。

(3)

式(3)中:cmj为Rmj的平方损失最小值。

④更新:

(4)

式(4)中:I为指示函数,若x∈Rmj则I=1,否则I=0。

(3)得到强学习器。

(5)

损失函数一般使用平方损失、对数损失、交叉熵损失函数等。本文研究采用平方损失函数,即L[yi,f(xi)]=[yi-f(xi)]2,利用损失函数的负梯度作为模型残差的近似值。

1.2 模型评价指标

为评价GBDT模型的性能,选用平均绝对误差(mean absolute error,MAE)和均方根误差(root mean square erro,RMSE)来评价模型的预测有效性和可靠性,其计算公式分别为

(6)

(7)

1.3 SHAP解释

SHAP是基于博弈构建的一个加性解释模型,其中构建了不同输入变量的组合,通过输入变量的存在与否比较模型输出的平均变化来阐明目标输入变量的重要性[15]。SHAP将模型的预测值解释为每个输入特征的SHAP值之和,即

(8)

则模型中特征i的SHAP值为

[fx(S∪{i})-fx(S)]

(9)

2 案例分析

2.1 实验环境

所有实验分析均在Windows7,AMD Ryzen 9 5900HX,3.30 GHz,and 32 GB RAM系统中,使用Anaconda Navigator3(Jupyter notebook) Python3.6进行。

2.2 数据来源及处理

深圳市总面积1 997.47 km2,常住人口1 768.16万人。市政府为积极推动公共自行车发展,试图解决 “最后一公里”问题,提升公共交通效率。截至2022年8月,深圳全市现有共享单车数量约为41万多辆,注册用户有近3 000万,日骑行辆129万次。

研究数据包括:获取于深圳政府数据开放平台(https://opendata.sz.gov.cn/)的共享单车数据,数据记录了每次骑行起始时间和起始经纬度,结束时间和结束经纬度;获取于高德开发平台(https://lbs.amap.com/)的POI数据,数据包含兴趣点的土地利用信息及其经纬度信;含有道路类型、里程及位置信息的深圳道路网数据;含有站点名称、经过线路及其经纬度信息的深圳市公交线路数据。

一方面由于共享单车出行数据具有缺省值和偏差值,另一方面各种数据间进行匹配,需要对数据进行预处理。具体处理步骤如下。

(1)遍历共享单车出行数据,若存在缺省值、错误值等,将该条数据进行删除。

(2)通过共享单车出行起终点经纬度计算单次出行距离,将不满足真实出行距离的数据删除。本文定义单次出行距离在50 m到5 km之间。

(3)借助TransBigData模块将共享单车出行数据、POI数据、道路网数据和公交站点栅格化并匹配,计算各栅格共享单车发生吸引量、各类土地利用和土地混合使用度、公交站点数目及道路网密度等的情况。

2.3 出行需求分析

分别绘制各栅格共享单车发生吸引量分布图如图1~图2所示。可以发现,共享单车发生吸引分布接近且比较集中,在东南部,此处为沿海地区,经济发达,土地利用程度大;在西北和东北地区,共享单车出行需求量不大,该处为龙岗区和宝安区多为工业园区,因此共享单车出行需求较少。

图1 共享单车发生分布图

图2 共享单车吸引分布图

2.4 出行需求预测

大量研究表明,共享单车出行需求受土地利用、道路网等建成环境因素影响,结合上节分析,本文选取土地利用及服务设施和交通属性两类因素共17个变量分析预测土地利用等建成环境条件对共享单车出行需求的影响。表1详细地展示了17个变量及其统计特征,其中混合土地利用无量纲。

表1 影响因素统计

由表1可知,在各类土地要素中,餐饮美食、购物消费和公司企业POI数量最大,但其对应的标准差也较大说明其分布并不均匀;混合土地利用度均值为1.851,标准差为0.332,分布较为均匀,反映深圳各地区土地开发的混合程度一致,多种用地存在。在交通属性中,深圳市的自行车道密度以及公交车站数目均值较小,说明其设施不完善,而且自行车道密度的标准差较大,反映了各地区自行车道密度分布不均匀,自行车道建设存在较大的进步空间。

以500×500的栅格作为研究对象,通过空间连接将各变量与空间信息关联,并将各栅格的共享单车发生量作为出行需求进行研究,构建基于梯度提升决策树(gradient boosting decision tree,GBDT)的共享单车发生量预测模型。为判断GBDT模型在共享单车出行需求预测的可靠性和有效性,将GBDT模型预测结果与BP神经网络进行对比分析。图3展示了两种模型的预测的对比。结果表明GBDT模型的预测精度明显优于BP神经网络模型。而且GBDT模型对于极大的真实值拟合效果更优,说明GBDT模型对于非线性需求预测性能更突出。为进一步说明两种模型的差距,计算对比两种模型下MAE和RMSE如表2所示。

表2 不同模型评价指标对比

由表2可知,GBDT模型的MAE为0.68明显小于BP神经网络的0.859,说明其预测结果更准确;GBDT模型的RMSE也比BP神经网络低27.3%,说明了该模型预测结果更可靠。图3展示了两种模型的预测结果。综上所述,GBDT模型可以较为精确,满足对共享单车出行需求预测的要求。

2.5 影响因素解释

图4定量表征了各种影响因子对于共享单车出行需求量影响的相对重要性。点颜色越红说明该影响因子数值越大,颜色越蓝则越小。SHAP>0时表示该因子正向影响共享单车出行需求;SHAP<0则反向影响共享单车出行需求。从图4可以发现,当栅格中交通设施、金融机构、餐饮美食、路网密度和休闲娱乐POI兴趣点数量较多时,会使共享单车发生量较大,而且其中交通设施影响最明显。以交通设施为例,当栅格内交通设施较多时,居民出行便利,往往会产生更多的出行意愿,因此共享单车发生量较大。但是可以发现,交通设施、金融机构、餐饮美食等分布在SHAP值负半轴的样本点更多,说明深圳地区之间发展不平衡,许多栅格土地利用程度不高交通设施等并不完善,且对共享单车出行产生不良影响。其中图像显示购物消费类POI点数目对共享单车发生量具有明显反作用,可能是由于购物消费往往是居民出行的主要目的,栅格内购物消费POI点较多时其共享单车吸引量会大,而发生量反而会较小。

每行代表一个影响因子的作用;一个点代表一个样本

同时,可以发现,自行车道密度和公交站点数对共享单车出行需求也具有正向作用,但是其SHAP值较小,说明在GBDT模型中其影响程度不大,反映了深圳的慢行交通设施以及共享单车与公共交通衔接设施有待进一步提高。

在分析各个单影响因素作用情况时,结果表明土地利用混合度的散点颜色分布均匀。为进一步分析混合土地利用对共享单车出行需求的影响,绘制其部分依赖图(图5)。可以发现,当土地利用混合度小于2.0时,其SHAP值变化不大且较小;土地利用混合度大于2.0时,SHAP值随土地利用混合度增加明显。综上说明,一方面,若地区土地利用混合度较大,各类POI数目均匀,居民生活多样共享单车出行需求也会较大;另一方面,虽然各种土地利用比较均匀,但各类POI数目皆较小,诱发的共享单车总出行需求也会小。因此可知深圳存在区域发展不平衡的现象,在土地利用开发中,需对各地区进一步调整。

图5 土地混合程度影响

在绘制酒店住宿POI的部分依赖图时,结果表明酒店住宿POI数目对共享单车出行需求的影响具有阈值效应。从图6可知,在酒店住宿POI数目小于13.5,其SHAP值较为稳定,对共享单车出行需求影响不大;当酒店住宿POI数目大于13.5时,SHAP值发生突变,说明对共享单车影响突然增强。酒店住宿POI数目影响的阈值现象,进一步说明了影响因素作用的非线性,线性回归模型不能有效地解释该规律[16]。

图6 酒店住宿POI数目影响

为研究多种影响因素共同作用对共享单车出行需求的影响,结果展示了交互作用显著的几组变量。以购物消费POI数目和餐饮美食POI数目为例绘制其交互作用图如图7和图8所示。可以发现,栅格内购物消费POI数量和餐饮美食POI数量成正比趋势,当一类POI数量越多时,另一类POI数量越多。这是由于这两类POI多位于经济发达的区域,土地开发利用程度往往比较大,因此两类POI数目呈正相关关系。并且,购物消费POI数目越大,对共享单车出行需求起反向作用;而餐饮美食POI数目越大,对共享单车出行需求起正向作用。购物消费POI数目和餐饮美食POI数目对共享单车出行需求产生相反的作用,而两者又正相关,反映了共享单车出行需求的诱发并不是简单线性关系,而是各种因素复杂交互作用影响下产生的结果。因此,在土地利用开发中应将各影响因素的交互作用进行考虑。

图7 购物消费和餐饮美食交互作用图

图8 餐饮美食和购物消费交互作用图

2.6 政策建议

根据上述分析,结合深圳市实际情况,为促进共享单车发展,提出以下建议。

(1)加强交通设施尤其是慢行交通设施建设,注重共享单车设施与公共交通的结合[17]。一方面加强慢行交通设施的便利性、连贯性,满足居民使用共享单车的休闲娱乐、运动健身等需求;另一方面,共享单车停取点的设置结合公交、地铁枢纽站布设,方便居民借助共享单车弥补公共交通的最后一公里。

(2)注重各种土地利用的内在联系,协调发展。首先提高土地利用混合度,防止出现区域某类POI过多或过少的现象,促进地区内部各类土地利用共同发展;另一方面,关注不同土地利用的关系,例如餐饮美食POI和购物消费POI两类,如何协调两者的关系,促进共享单车出行需求的产生。

(3)协调深圳各地区发展,缩小区域差距。深圳经济发展存在以东南沿海地区为中心,共享单车的出行需求也集中在该地区。因此在后续的发展中,可以加强各区域的协调统筹发展,加大其他区域土地利用开发建设、交通设施建设,促进共享单车全市域发展。

3 结论

针对如何结合地区土地利用等数据精确预测共享单车出行需求的问题,使用深圳共享单车出行数据、POI数据、路网数据和公交线路数据,基于GBDT模型构建共享单车出行需求预测模型,最后借助SHAP方法解释建成环境要素在模型中的非线性影响及交互作用。经过实验得到以下结论。

(1)与BP神经网络模型相比,GBDT模型预测结果更加可靠准确,预测精度高,且能够识别解释变量与共享单车出行需求的非线性影响。SHAP方法可以通过部分依赖图、交互作用图等更直观地对GBDT模型解释,有利于发掘共享单车发展的重要限制因素。

(2)交通属性因素对于共享单车出行需求作用明显;交通设施POI数目的SHAP值最大;而自行车道数和公交站点数虽然具有正向作用,但对共享单车出行需求的作用不明显。

(3)土地利用对共享单车出行需求明显。一方面多种土地利用存在交互作用,共同促进共享单车出行需求;另一方面各类土地要素以及土地利用混合度也较大程度决定了共享单车出行需求。

猜你喜欢

交通设施栅格数目
基于邻域栅格筛选的点云边缘点提取方法*
移火柴
交通设施施工中的安全管理对策研究
《哲对宁诺尔》方剂数目统计研究
哈尔滨市城区部分交通设施的优化
牧场里的马
T.Russell Shields:利用车辆数据和交通设施支撑新商业模式
不同剖面形状的栅格壁对栅格翼气动特性的影响
基于CVT排布的非周期栅格密度加权阵设计
动态栅格划分的光线追踪场景绘制