APP下载

基于地理加权回归的共享单车需求影响因素分析

2020-06-03林鹏飞翁剑成尹宝才

交通工程 2020年2期
关键词:公共交通公交单车

林鹏飞, 翁剑成, 胡 松, 梁 泉, 尹宝才

(北京工业大学 交通工程北京市重点实验室, 北京 100124)

0 引言

共享单车作为一种新型低碳、绿色环保的出行方式,以其无桩和支持移动支付的便捷性,解决了以政府为主导的公共自行车的缺陷,自2016年开始得到了迅速发展,目前共享单车已进入国内160多个城市. 共享单车有效地解决了出行最后1 km问题,成为人们短途出行的首选出行方式,较好地补充和完善了现有的公共交通系统. 伴随着其快速发展,共享单车日常运营管理也显现出一些问题,如违规停放占用道路资源、停放点规划不完善等. 因此研究共享单车的需求影响因素对确定共享单车的投放规模和日常运营调度具有重要意义.

国内外学者对居民选择自行车出行的影响因素及机理进行了深入研究. 杨晨等[1]分析了个体特征、出行信息和交通方式服务水平主观感知等3类影响因素对自行车交通方式选择的影响权重和作用机理. 陈景旭等[2]以轨道交通站点为中心,考虑用地性质、居住人口和自行车方式分担率等因素提出分层分级布设公共自行车租赁点的布局方法. 李志斌等[3]根据南京市居民通勤出行问卷调查,基于出行态度对自行车通勤出行市场进行划分. 曹雪柠等[4]基于问卷调查数据,从出行个体和土地利用2个角度研究引起出行者选择公共自行车换乘轨道交通概率变化的影响因素. 舒诗楠等[5]基于公共自行车刷卡数据与问卷调查数据测算了公共自行车网点的吸引影响范围,提出了影响网点规模的关键因素. Campbell 等[6]利用问卷调查数据研究居民的个人社会经济属性、骑行距离以及天气对选择自行车出行的影响. Noland等[7]基于订单数据研究纽约市公共自行车需求与人口就业分布、区域的土地利用以及公共交通可达性的关系. 以上研究主要针对固定站点的公共自行车,而目前针对共享单车需求的影响模型研究较少. Xu等[8]利用长短时记忆网络方法对南京市的共享单车时空分布进行短时预测. 普通最小二乘回归(Ordinary Least Square OLS)是研究出行需求与建成环境之间复杂关系的常用方法之一[9-11],但该方法忽略了空间非平稳性,即没有考虑相邻区域的建成环境对本区域的出行需求的影响. Fotheringham[12]提出了地理加权回归模型(Geographical Weighted Regression GWR)可有效的解释自变量的空间非平稳性和空间依赖. Qian等[13]利用地理加权回归模型研究交通小区出租车出行需求影响因素,考虑的变量包括道路密度、自行车道密度、公交和地铁可达性等. Tu等[14]利用地理加权回归探究交通小区内出租车、地面公交、地铁3种出行方式的需求与社会经济、用地属性以及交通设施因素之间的关联. 马晓磊等[15]在考虑空间相关性的基础上,基于地理加权回归模型探究轨道交通站点进出站客流规模与站点周边的用地属性之间的关系. 因此本研究使用GWR模型构建共享单车需求影响模型.

本研究结合北京市的共享单车订单数据、POI数据以及公共交通刷卡数据等多源数据,构建影响共享单车需求的影响因素集,基于地理加权模型研究各因素对共享单车需求影响程度的空间非稳态性,结合回归系数的可视化结果,深入分析各影响因素对交通小区内共享单车需求的影响. 本研究可为共享单车的规模确定、停放点规划以及日常的再平衡调度提供参考依据.

1 多源数据基础及预处理

1.1 共享单车订单数据

共享单车订单数据由摩拜单车(https:∥mobike.com/global/)提供,摩拜单车已成为全球最大的智能共享单车运营平台,日订单量超过3 000万. 数据集包含北京市五环以内2017年5月的5个工作日的数据,约100万条记录. 共享单车数据集主要包括用户ID(已脱敏)、车辆ID、用户的骑行起终点位置、开始和结束时间等字段. 图1表明共享单车需求的空间分布具有明显的空间集聚特征,热点区域主要分布在北京市四环以内,中关村、望京、旧宫、丰台科技园等区域需求旺盛;部分区域需求接近于0,主要原因是受管理部门的政策要求,部分区域如天安门广场区域、长安街沿线区域和市内部分公园、景区内禁止使用共享单车.

1.2 空间地理数据

空间地理数据主要包括交通小区空间矢量数据和建成环境数据. 北京市交通小区矢量数据由北京市规划部门提供,五环以内主要包括644个交通小区. 本研究使用各类兴趣点(Point of Interest POI)的密度来表征每个交通小区的建成环境. 本研究使用的POI数据采集于高德地图,每条记录包括POI名称、POI的类型以及经纬度信息,涵盖居住用地、工作用地、休闲娱乐、购物服务以及科教服务等6种类型. 各类POI的具体属性如表1所示.

表1 各类POI的属性

1.3 公共交通乘客刷卡数据

共享单车有效解决了公共交通出行最后1 km问题,相关研究表明:公交和地铁站对该区域内自行车的使用具有促进作用[2,5,11]. 为了探究共享单车和公共交通出行的耦合关系,研究引入同期的公交IC卡刷卡数据和轨道交通AFC数据. 地面公交IC卡刷卡数据字段主要包括卡号、乘客上下车时间、站点以及所乘坐的线路信息等. 轨道交通AFC数据主要包括卡号、乘客进出站的时间、站点及线路等信息. 对刷卡数据进行预处理,删除刷卡时间间隔小于2 min,大于3 h的数据,最终得到每天约1 300万公交IC卡刷卡记录和525万条地铁AFC刷卡记录.

1.4 多源数据空间关联融合

首先,将不同坐标系的数据集进行坐标转换,统一转换为WGS84坐标系;其次,将公交、轨道POI中的经纬度与公交轨道刷卡数据关联,从而得到每位乘客上下车的经纬度信息;然后,将共享单车订单数据、POI数据通过ArcGIS软件建立空间数据库,建立相应的点层;最后,利用ArcGIS软件中的空间关联工具箱,分别将不同的点层与交通小区进行空间关联,获得每个交通小区共享单车订单量、公交和地铁登降量和POI的分布情况.

2 地理加权回归模型

传统的线性回归属于全局模型,常用于解释自变量与因变量的相互依存关系,基于OLS方法对参数进行估计,基本形式如式(1):

(1)

式中,yi为在观测点i的因变量值;xik为在观测点i的第k个自变量;β0为模型的截距;βk为k个自变量的回归系数;εi为随机误差,服从N(0,σ2)分布.

OLS方法获得模型回归参数反映了整个区域的平均水平,但是无法表征建成环境和公交登降量的空间变化对共享单车需求的影响. 由地理学第一定律可知,地球上的任意事物都是与其他事物相关的,且相近的事物关联更紧密[16]. GWR模型是对传统线性回归模型的扩展,即在回归参数中加入了地理位置的距离权重函数[12]. 通过加权最小二乘方法在局部范围内实现对观测点逐个参数估计,空间位置不断变化使得模型参数的估计值在回归的过程中也不断变化. 权重一般与距离成反比,即距离观测点越近的观测值权重越大,反之越小. GWR模型直观地表征因地理位置不同而导致的变量之间关系或结构的差异,即空间非平稳性(Spatial Nonstationarity). GWR模型的基本形式如式(2):

(2)

参数估计用矩阵形式表示为式(3):

βk(ui,vi)=[XTW(ui,vi)X]-1XTW(ui,vi)Y

(3)

3 北京市共享单车需求影响因素分析

3.1 OLS模型与GWR模型回归结果

本研究选择居住用地、办公用地、休闲娱乐、购物服务、风景名胜、科教服务、地铁站点密度、公交站点密度、公交登降量以及地铁登降量9个变量作为影响共享单车需求的影响因素. 对每个交通小区中的各个变量进行统计,统计结果如表2所示.

表2 模型变量的描述性统计

对变量进行空间自相关检验,以确定变量是否存在空间自相关性. 空间自相关Moran’s I指数如式(4):

(4)

表2中列出每个变量的Moran’s I指数计算结果,每个变量的Moran’s I指数均>0,同时p值均小于显著水平α=0.05,则所有变量均具有集聚特征即空间自相关性. 为了更直观地反映变量的空间集聚特征,图2列出了典型变量的空间分布,由于篇幅所限,仅列出居住用地、就业用地、公交登降量和地铁登降量的空间分布,可看出变量的分布具有明显的空间集聚特征和异质性.

图2 典型变量的空间分布图

在构建OLS模型和GWR模型之前,需要对变量进行筛选,避免变量之间存在多重共线性. 变量之间的Pearson相关系数如图3所示. 公交站点密度和公交登降量的相关系数为0.51,地铁站点密度和地铁登降量的相关系数为0.83,具有相关性,因此去除公交站点密度和地铁站点密度2个变量,选择居住用地、就业用地、风景名胜、休闲娱乐、购物服务、公交登降量与地铁登降量7个变量构建回归模型.

图3 变量相关性分布

选择模型的拟合优度(R2)和赤池信息准则(AIC)对模型进行检验,R2越大,AIC越小表明模型的结果越显著. 表3为OLS模型的参数回归结果,在7个影响因素中只有居住用地、科教服务、地铁登降量3个变量是显著的,同时这3个因素对共享单车需求的影响是正相关的. OLS回归模型结果中R2只有0.16,说明仅有16%的自变量得到解释. 同时计算每个变量的方差膨胀因子(Variance Inflation Factor,VIF),每个变量的VIF值均<2,表明各个变量之间没有多重共线性.

表3 OLS模型参数回归结果

注:带*的变量在显著水平为0.05的条件下显著

GWR模型准确捕获共享单车需求影响因素的空间异质性,各个因素对共享单车需求的影响程度的最小值、25%位分位数、中位数、75%位分位数、最大值进行统计,统计结果如表4所示. 每个变量的回归参数有正有负,即各个因素对出在不同的区域各变量对共享单车需求的影响有促进和抑制作用. 由各个变量的回归系数的中位数可知,居住用地、科教服务、公交登降量、地铁登降量4个变量对出行需求的影响是显著正相关的,而休闲娱乐、购物服务两个变量虽然也是正相关但影响程度相对较低,办公用地和风景名胜2个变量对出行需求的影响是负相关.

GWR模型的R2比OLS模型提高了0.48,表明GWR模型更好地揭示了自变量与因变量之间的关系. GWR模型的AIC值比OLS模型的降低了347.44,表明GWR模型对数据更敏感,模型拟合的效果更好. 所以在描述自变量空间非稳态对因变量的影响程度时,GWR模型比OLS模型的解释能力更强.

表4 GWR模型的参数回归结果

3.2 GWR模型各变量回归系数分布

对每个变量的回归系数采用Jenks自然间断点法分类,分类结果的可视化如图4所示,可看出各因素对共享单车需求的影响程度会随着空间位置变化而变化. 居住用地变量是对共享单车需求的最重要影响因素,共享单车在工作日主要作为通勤方式之一,绝大部分区域居住用地对共享单车需求的影响为正相关关系,在南二环至南五环之间的区域集中了潘家园、方庄、宋家庄以及旧宫等大型居住区,工作日通勤出行需求旺盛,导致共享单车使用的增长. 在城市中心区域,办公用地变量对共享单车需求的影响是负相关或者是影响不显著,在中关村区域、望京、亦庄经济技术开发区、丰台科技园等区域,办公用地变量对共享单车需求的影响是正相关.

科教服务因素与共享单车需求的影响是正相关,在海淀区高校和科研院所集中的区域,共享单车需求旺盛. 在工作日期间,休闲娱乐对共享单车需求的影响为正相关,但相对微弱. 在城市外围区域,购物服务变量对共享单车需求的影响为正相关关系,而在中心城区商圈周边的公共交通系统发达,同时人们以购物为目的的出行更倾向使用机动化出行工具,长安街沿线的西单、王府井商圈区域限制使用共享单车,从而导致购物服务变量在中心城区商圈的影响程度较微弱. 风景名胜因素对共享单车需求的影响呈负相关关系,主要原因是北京市部分景区、公园禁止共享单车驶入,同时市区内的景区周边公共交通的可达性较高. 在城市外围区域,公交登降量与地铁登降量2个变量与共享单车需求为正相关关系,在大兴区、丰台科技园等区域,公共交通出行需求旺盛,而共享单车解决了与公共交通系统末端“最后1 km”的衔接问题,从而促进了共享单车的使用.

4 结束语

掌握共享单车需求的影响因素对于共享单车规模的确定以及运营调度具有重要意义. 本研究采用北京市共享单车出行数据、公共交通刷卡数据以及空间地理数据等多源数据为基础,构建影响共享单车出行的影响因素集,建立基于地理加权回归模型的共享单车影响模型,探究各因素与骑行需求的关系,解释共享单车需求空间分异的影响因素. 结果表明相比OLS模型,GWR模型能更好地解释建成环境因素以及公共交通因素对共享单车需求影响程度的空间非平稳性. 在工作日,居住用地、科教服务、公交登降量和轨道登降量4个变量对共享单车的使用具有明显的促进作用,而办公用地和风景名胜2个变量具有抑制作用,休闲娱乐和购物服务2个变量影响相对微弱. 未来将不断完善影响因素集如考虑天气因素,对共享单车需求的影响因素进行更深入的建模分析.

致谢

感谢摩拜单车和北京市交通运行监测调度中心对本研究提供的数据支持.

图4 典型变量对需求的影响

猜你喜欢

公共交通公交单车
共享单车为什么在国外火不起来
一元公交开进太行深处
飞吧,单车
等公交
基于NB-IOT技术的公共交通显示牌设计
在未来,我们不需要路
对恶意破坏共享单车行为要“零容忍”
共享单车(外四首)
基于计算实验的公共交通需求预测方法
公共交通一卡通TSM平台研究