基于地理加权回归的区域出租车出行需求影响模型
2021-01-18翁剑成何寒梅钱慧敏
翁剑成,何寒梅,王 媛,张 可,钱慧敏
(1.北京工业大学交通工程北京市重点实验室,北京 100124;2.中咨泰克交通工程集团有限公司,北京 100083;3.北京市运输管理技术支持中心,北京 100073;4.北京市交通运行监测调度中心,北京 100161)
0 引言
出租车作为城市公共交通的重要补充和延伸,为市民提供个性化、点对点的服务。但在以巡游出租车为主要服务方式的出租车市场中,由于乘客出行具有随机性和波动性,同时车辆在道路网络中捜寻乘客的路径具有一定的盲目性,使得车辆空驶率高,高峰时段热点区域乘客打车难,区域出租车供需不平衡问题严重[1]。因此,分析出租车出行需求与影响因素之间的关系,挖掘出租车出行需求的时空分布特征对于预测不同区域不同时段的出租车需求,缓解出租车供需不平衡现象有重要作用。
国内外相关研究主要基于多源异构的数据源,结合问卷调查,将出行需求影响因素分为内部因素和外部影响因素进行分析[2-3]。内部因素主要有出行时间、费用、服务质量等,人口比例、就业率、城市土地利用等则被作为解释客流需求的代表性外部因素指标。Taylor 等人[4]在将所有影响客流生成的因素分为外部因素和内部因素两大类的基础上,讨论了外部因素中空间变量与社会经济变量之间共线性的问题,并重点强调在内部因素中服务质量(包括准点率及安全性等)是最为敏感的变量。Gutiérrez等人[5]选取研究区域相关指标(人口、经济、土地、交通)和站点相关指标(是否为起终点站、换乘站、线路)作为影响因素,运用GIS 建立距离衰减加权回归模型并分析了马德里市步行进入地铁站的乘客数与出发点至该地铁站距离的关系。Ding 等人[6]通过构建层次结构方程分析建成环境和出行之间的联系,发现汽车拥有量、外出活动时间、出行频率、出行时间等极大程度地影响人们的出行需求。姜伟[7]选取季节因素、环境变化、个体因素等作为动态因素进行问卷调查并构建出租车出行选择模型,预测居民租车出行选择情况。以上对出行需求影响因素的研究主要从单一层面入手,未综合多维度进行分析且模型因素集的构建不够全面。李龙[8]利用结构方程模型对服务环境、候车感受、服务水平、出行意向等影响居民出行方式选择的因素进行研究,并描述了各变量之间的潜在关联性,但研究未结合出行者个体特征进行分析。
针对公共交通出行需求分布与影响因素之间的关系,现有大量研究采用了多元回归分析、动态回归分析、逻辑回归分析等全局回归法构建出行需求影响模型进行分析[9-10],但全局回归模型无法解释因素的空间异质性,因此,地理加权回归模型(Geographical Weighted Regression,GWR)被应用于分析各影响因素的相关关系及公共交通客流预测等领域。Bradley 等人[11]建立了GWR 模型研究地理变量、经济因素和路网特征等对公交分担率的影响,发现该模型对影响因素的局部变化特征有更好的解释作用。Cardozo 等人[12]探究了地铁客流量的影响因素,并对比GWR 模型与普通线性回归模型(Ordinarily Linearity Regression,OLR),发现GWR 模型拟合度更高,其提供的信息认为空间变量具有弹性。Qian 等人[13]基于纽约市出租车数据和美国社会人口经济基础数据,探究了出租车客流量与人口经济、土地利用和其他交通出行方式的关系。张俊杰[14]通过公交GPS 数据和IC 卡数据获取公交客流量分布,然后利用GWR模型研究零售业数量、地铁可达性、公交可达性和停车场数量对公交客流量空间分布的影响。以上地理加权回归法在交通领域的应用研究,大多着力于分析各类型影响因素的潜在关系及其对公共交通客流的影响,但研究选取的自变量涵盖领域较少,且大多集中在地面公交和轨道交通领域,很少定量探究不同区域出租车出行需求的变化规律及空间用地属性变量对出租车出行需求分布的影响。
因此,本文围绕出租车出行供需不平衡问题,从用地属性、公共交通服务等维度入手,构建出租车出行需求影响因素集,并采用地理加权回归法构建区域出租车出行需求影响模型,挖掘多维因素对出租车出行需求的影响机理,进而对出租车出行需求的时空差异进行可视化。
1 数据基础与关联匹配
本文所需的多源数据包括出租车GPS 数据、计价器数据,公共交通刷卡数据及兴趣点(Point of Interesting,POI)数据,通过对这些数据的预处理和关联分析,为出租车出行需求影响模型构建提供支撑。
1.1 数据来源
本文所用出租车GPS 数据、计价器数据为北京市2016年6月15日—21日的出租车定位数据和计价器数据,利用这些数据可提取乘客出行过程的上下车信息,以获取不同时间段的区域出租车出行需求。POI 数据为2016 年高德地图的兴趣点数据,共116 806 条,通过统计各交通小区不同类型POI 数据的数量,可得各研究区域的用地属性信息,进而分析不同用地属性与出租车出行发生量、吸引量的关联性。公共交通刷卡数据包含地铁和公交的出行者交易数据,用于反映各站点和区域的公共交通出行需求。
1.2 数据预处理与关联匹配
1.2.1 数据清洗及关联
对回传的出租车GPS 数据和计价器数据进行数据清洗,剔除错误数据和冗余数据,具体包括重要字段为空值或超过阈值、经纬度和时间字段无变化以及经纬度短时间漂移的数据。通过车牌号和上下车时间字段对经过预处理的出租车GPS数据与计价器数据进行关联匹配,识别出同一辆车的数据。结合上、下车经纬度信息可判断出租车出行的OD 点位置,获取出租车出行需求。数据关联结果示例如表1所示。
利用ArcGIS 软件将关联匹配的出租车基础数据与北京市1 911 个交通小区进行空间连接分析,结果如图1 所示。由图1 可看出,出租车上、下车点主要集中于北京市六环内。因此,选取北京市六环内区域为研究范围,共包含1 398 个交通小区。
表1 数据关联结果示例
图1 出租车上、下车位置的空间分布
1.2.2 POI数据处理
将POI 数据与交通小区数据进行关联匹配,统计每个交通小区内各类POI 的数量,选取住宅、办公、休闲娱乐服务、风景名胜、地铁、公交共6 类兴趣点用于表征用地属性。图2 显示了北京市6 类用地属性密度的空间分布。由图可知,办公地主要集中在四环内,大量的住宅建筑位于五环外,地铁站在三环内更集中,而公交车站分布较为广泛且中心城区密度较高并呈线状向外环扩散。
图2 北京市用地属性密度空间分布
2 出租车出行需求的影响因素分析
通过整理出租车出行需求影响因素的研究成果[13,15],发现住宅用地、办公用地及商业用地等用地属性,地铁、公交等公共交通设施及风景名胜等因素是影响出租车出行需求的重要因素,因此选取涉及用地属性、公共交通和交通设施属性的10 个出租车出行需求影响因素构建备选因素集,并进行空间自相关性分析、多重共线性分析及影响因素与因变量相关性分析,确定出租车出行需求的核心影响因素。
2.1 空间自相关性分析
莫兰指数是用来衡量空间自相关性的指标,可判别某空间变量是否受周边空间变量影响及影响程度,反映影响因素在不同空间存在的差异性。因此,选用莫兰指数衡量各影响因素的空间自相关性。莫兰指数大于和小于0 分别表示变量空间正相关和负相关,莫兰指数等于0 表示变量空间不相关,即变量在空间上随机分布[16]。利用ArcGIS软件计算莫兰指数,结果如表2所示。
表2 出租车出行需求影响因素的莫兰指数计算结果
由表2 可知,10 个影响因素的莫兰指数均大于0,且P值为0,Z得分大于1.96,表明变量在空间上随机分布的概率为0,数据呈现明显的空间聚类特征,说明10 个影响因素存在空间自相关性。
2.2 多重共线性分析
多重共线性是指在回归模型中,两个或多个影响因素存在高度相关性。皮尔逊相关系数r值用于衡量变量线性相关的程度。
利用SPSS 软件计算出租车出行需求10 个影响因素的r值,结果如表3 所示。由表3 可知,所有影响因素之间的相关系数r值均未超过0.8,说明所有变量之间无高度相关性。地铁站密度、公交站密度与工作日和非工作日的区域公共交通产生量、吸引量的相关系数r分别为0.616,0.562,0.576,0.583 和0.611,0.602,0.568,0.598,均超过0.5,说明地铁站密度、公交站密度与工作日、非工作日的区域公共交通产生量和吸引量之间存在中度相关性。相比于地铁站密度和公交站密度,工作日和非工作日的区域公共交通产生量和吸引量能定量反映其他交通方式出行需求。因此,剔除地铁站密度、公交站密度两个影响因素。
表3 出租车出行需求影响因素的相关系数
2.3 影响因素与因变量的相关性分析
利用多元线性回归方法检验保留的8 个影响因素对工作日和非工作日出租车出行需求的影响程度,计算结果见表4。
表4 显示,风景名胜密度在工作日、非工作日的Sig值分别为0.606和0.866,均大于0.05,说明风景名胜密度对工作日、非工作日出租车出行需求没有显著影响。因此,剔除风景名胜密度变量。
表4 工作日、非工作日影响因素与因变量相关性分析表
经过以上影响因素多维分析,最终保留住宅密度、办公密度、休闲娱乐服务密度、工作日区域公共交通产生量、工作日区域公共交通吸引量、非工作日区域公共交通产生量、非工作日区域公共交通吸引量7 个因素,为出租车出行需求的核心影响因素。
3 基于地理加权回归的出租车出行需求影响模型构建
为了反映出租车出行需求的空间分布差异性及影响因素的空间非平稳性,基于地理加权回归法构建出租车出行需求影响模型,并采用普通的线性回归方法对比分析模型的优越性。
3.1 普通线性回归模型
普通线性回归模型通过多个影响因素预测一个因变量,可解释自变量与因变量之间的定量关系[16]。该类模型的计算公式如下,可采用最小二乘法求解未知参数。
式(1)中:y为工作日与非工作日早、晚高峰的区域出租车出行需求;xi为影响因素;βi为系数;ε为随机误差。
3.2 地理加权回归模型
地理加权回归模型引入空间权函数,可描述不同空间状态下各影响因素与出租车出行需求之间的关系特征。模型具体构建步骤如下。
(1)步骤1:参数确定
地理加权回归模型计算公式[17]为:
式(2)中:yi为工作日与非工作日早、晚高峰的区域出租车出行需求;(ui,vi)为北京市六环内1 398 个交通小区中第i个交通小区形心的地理坐标;βik(ui,vi)为第i个小区第k个影响因素的系数;xik为第i个小区的第k个影响因素;εi为随机误差,εi~N(0,σ2)。
(2)步骤2:参数估计
选择加权最小二乘法计算每个空间区域的系数,第i个小区形心的目标函数见式(3)~式(7):
式(3)~式(7)中:wij为空间权函数,为第i个形心与其他形心j的距离单调递减函数;Wi为空间权重矩阵的对角元素;X为影响因素变量构成的矩阵。
(3)步骤3:确定空间权函数与带宽
将出租车客流影响模型的回归点设定为北京市六环内1 398 个交通小区的形心。由于各交通小区的面积和形状各异,各小区的形心空间分布不均衡,因此,模型采用bi-square 函数作为空间权函数,选择赤池信息准则(Akaike Information Criterion,AIC)作为判断带宽的准则。
式(8)~式(9)中:wij为空间权函数;bi(k)为变化带宽(度);Dij为距离阈值(km);dij为i,j两点之间距离(km);σ为随机误差方差的极大似然估计;n为样本点数量;tr(S)为带宽的函数。求解最优带宽的目标函数min(AIC)。通过计算,最终确定模型的最优带宽为0.05 度,折算成公里数为6.94km。
4 案例分析
选取北京市六环内1 398 个区域2016 年6 月15 日—21 日的出租车GPS 数据、计价器数据,POI 数据及公共交通刷卡数据,利用ArcGIS 软件中的空间关系建模工具构建出租车出行需求影响模型。考虑时间因素的差异性,研究分别计算了工作日及非工作日早、晚高峰的区域出租车出行需求影响模型。
4.1 出租车出行需求影响模型计算结果
本文选取影响因素系数的最小值、最大值、均值、中位数、上四分位数、下四分位数和极差表示各影响因素对出租车出行需求的影响程度。影响因素系数的特征值计算结果如表5~表8所示。
表5 工作日早高峰出租车出行需求影响模型系数特征值
表6 工作日晚高峰出租车出行需求影响模型系数特征值
表7 非工作日早高峰出租车出行需求影响模型系数特征值
表8 非工作日晚高峰出租车出行需求影响模型系数特征值
4.2 出租车出行需求时空分布特征分析
利用ArcGIS 软件对模型计算结果进行可视化表达,各影响因素对出租车出行需求的时空分布影响如图3~图7所示。由图3可知,北京市中心区域和西北部区域的住宅密度对出租车出行需求有很强的正影响,而城市外围区域住宅密度对出租车出行需求为负影响。这主要因为城市中心区域高档住宅小区及商业用地较多,人均收入相对较高,而六环西北侧学校较多,对出行的准时性有很高的要求。经比较发现,五环北侧区域、房山区政府附近、通州区中心区域晚高峰期间住宅密度对出租车出行需求的促进作用高于早高峰。
如图4 所示,北京市各区的中心区域办公密度与出租车出行需求呈负相关,周边且公司密集区域办公密度与出租车出行需求呈正相关。这是因为中心区域的地铁和公交比周边区域更为发达,大多数人选择公交、地铁等出行方式上下班,通勤者很少选择出租车出行。而在市区周边区域公共交通的可达性较差,出租车竞争力增强,因此周边区域的办公密度对出租车出行需求有促进作用。
如图5 所示,周边区域的休闲娱乐服务密度较低,但对出租车出行需求的促进作用明显高于中心区域,且非工作日休闲娱乐服务密度对出租车出行需求促进作用明显大于工作日,因此建议通过政策引导,提升出租车的周末出车率。
如图6 所示,早、晚高峰区域公共交通产生量对出租车出行需求的影响有显著差异,早高峰中心城区的区域公共交通产生量对出租车出行需求有促进作用,晚高峰城市外围区域的公共交通产生量与出租车出行需求呈正相关。这主要是因为早高峰期间中心城区的总出行需求大,出租车为地铁、公交出行方式的重要补充;晚高峰期间,由于乘客无法乘坐地铁直达城市外围目的地,通常需换乘出租车以解决“最后一公里”问题。
图3 住宅密度系数时空分布图
图4 办公密度系数时空分布图
图5 休闲娱乐服务密度系数时空分布图
图6 区域公共交通产生量系数时空分布图
图7 区域公共交通吸引量系数时空分布图
如图7 所示,早高峰时段北京市东部区域公共交通吸引量对出租车需求有促进作用,晚高峰期间四环内区域公共交通吸引量对出租车需求有正影响,而各时段西部区域公共交通吸引量对出租车需求均有抑制作用。
以上分析结果表明:各中心区域住宅密度、周边且公司密集区域办公密度及城市外围区域的休闲娱乐服务密度对出租车出行需求有很强的正影响;城市外围区域住宅密度、各中心区域办公密度与出租车出行需求呈负相关;非工作日休闲娱乐服务密度对出租车出行需求促进作用明显大于工作日;区域公共交通产生量对出租车出行需求的影响早、晚高峰差异显著;公共交通吸引量对出租车出行需求的促进作用主要集中在东部区域,对西部区域的出租车出行需求主要表现为抑制作用。
4.3 模型对比分析
为验证所提方法的精度,分别计算GWR 模型和OLR 模型的拟合评价指标,结果如表9 所示。分析回归结果表明,工作日与非工作日早、晚高峰时段GWR 模型调整后的判定系数R2比OLR 模型调整后的R2分别提高了0.25,0.29,0.24和0.25。此外,各时段GWR 模型的残差平方和均小于OLR 模型的残差平方和。说明考虑空间因素的GWR 模型的拟合效果比OLR 模型更优,对影响因素与出租车出行需求之间的影响关系更敏感,更适合探究出租车出行需求与影响因素之间的定量关系,反映出租车出行需求的空间异质性。
5 结论
本文利用多源异构数据,结合空间自相关性、多重共线性和因变量与自变量的相关性分析法对出租车出行需求影响因素进行相关性分析,提取住宅密度、办公密度、休闲娱乐服务密度、工作日区域公共交通产生量、工作日区域公共交通吸引量、非工作日区域公共交通产生量、非工作日区域公共交通吸引量7 个核心影响因素,构建影响因素集。基于地理加权回归法,分别构建工作日与非工作日早、晚高峰的区域出租车出行需求影响模型,探究各核心影响因素对出租车出行需求影响的时空异质性。同时,通过模型验证可知,所建模型具有较高的精度,适用于解释各影响因素对出租车出行需求影响的时空差异性。
表9 GWR模型与OLR模型回归结果
本研究可为合理分配出租车运输服务资源、解决出租车行业供需不平衡问题提供重要支撑。但本文仅探究了涵盖用地属性和公共交通客流信息的7 个核心影响因素对出租车出行需求时空分布的影响,未就经济、政策、人口等因素进行分析,在未来的研究中可进一步扩展影响因素集,深入挖掘不同类型因素对出租车出行需求分布的影响程度。