基于手机导航轨迹数据的城市大规模人群出行模式分析
2023-08-02吴杭彬陈茜茜靳慧玲傅琛黄炜刘春
吴杭彬, 陈茜茜, 靳慧玲, 傅琛, 黄炜, 刘春
(1.同济大学 测绘与地理信息学院,上海 200092;2.自然资源部超大城市自然资源时空大数据分析应用重点实验室,上海 200063;3.北京大学 地球与空间科学学院, 北京 100871)
大规模人群出行可以揭示人类活动规律,在人类日常活动性研究、交通状况预测、城市规划等方面具有广阔的应用前景。目前国内外研究学者已经开展了大量研究,根据数据源,相关工作可分为基于单一数据源的人群出行模式分析以及基于多源数据的出行模式分析。
基于单一数据源的大规模人群出行模式研究所使用的数据一般包括手机信令数据、出租车轨迹数据、网约车订单数据等。例如,丁亮等[1]利用手机信令数据识别上海市内手机用户的居住地和工作地,在此基础上提取用户的通勤信息,并研究了中心城区的就业中心的能级、腹地和势力范围。Wu等[2]分析了上海市长距离出租车轨迹的时空模式,探索了地铁对长距离出行出租车客流的分流效应以及程度。Tang等[3]将城市中出租车轨迹的OD矩阵转换为网络模型,利用网络分析的方式研究城市中的人类活动性,并且使用社区发现算法划分了交通区域。Liu等[4]使用上海市出租车轨迹研究了城市内的人类活动性,在传统Lévyflight模型的基础上引入了人口分布以体现地理空间异质性,实验结果与真实出租车轨迹模式相符,验证了模型的有效性。Liu等[5]基于开放的GPS轨迹数据,使用马尔科夫链和聚类分析了游客微观运动时空行为模式。Liu等[6]使用社交媒体签到数据研究城市间的人类活动性,发现距离衰减服从幂律分布的重力模型可以很好地拟合城市之间的交互强度,并用社区发现算法对城市群进行划分,得到了与省级行政边界接近的结果。
单一的数据源通常只能代表部分群体的行为,而多源数据融合能更全面地反映整体的活动模式,增强分析结果的代表性。Ma等[7]使用北京公交和地铁数据,基于DBSCAN聚类检测出行模式,并结合K-means聚类分析出行模式规律。Liu等[8]使用GPS数据、公交和地铁卡数据,探索了居民日常出行模式,并基于聚类分析了不同地点之间的关系以及出行与社会经济、土地类型之间的关系。Tang等[9]使用GPS轨迹和网络数据来研究时空行为,提出了一个基于信息素的融合模型,模拟线上和线下的娱乐活动模式,基于现实世界和网络上的过去行为对未来行为进行预测。Xia等[10]基于地铁卡数据和GPS轨迹数据,利用行程位移、行程持续时间和行程间隔3个指标定性和定量地分析2种数据集,最后使用最大似然估计和贝叶斯信息准则,定量地探索了周末和工作日人类活动模式。岳梦雪[11]利用深圳市出租车轨迹、公交车及地铁刷卡数据,通过基于邻接关系的时空谱聚类方法挖掘出行模式,并分别从交通方式、社会背景和出行移动方面对居民的出行模式进行分析。
综上所述,使用单一来源数据或多源数据都可以满足一定场景下的大规模人群出行模式分析,但前者存在时空分辨率低、交通方式单一、用户群体组成单一、采集成本高、样本量小等问题[12];后者可以得到多种交通方式下的人群出行模式,但数据获取和融合难度较大。为此,本文研究采用具备多出行模式的手机导航数据,利用LGBM(Light Gradient Boosting Machine)分类方法和时空出行模式分析方法,以上海市为例,分析大规模人群的出行模式,比较不同模式下的城市人群出行特征。
1 实验区及数据
使用的上海GIS数据来源于OpenStreetMap网站。上海市位于长江入海口,常住人口2 489.43万人,行政区划面积6 340.5km2,下辖16个区(县)。
所用的手机导航数据时间范围为2017年9月16日(周六)至2017年9月19日(周二),原始数据格式如表1所示。数据采样间隔为1s,4天的总数据量约400G,共54.9亿个GPS点,日活跃用户约145至169万人,如表2所示。
表1 导航轨迹原始数据Tab.1 Raw navigation trajectory data
表2 导航用户分布统计Tab.2 Distribution statistics of navigation users
表1中日期为包含年、月、日的8位字符串;时间为包含时、分、秒的6位字符串;用户ID为加密后的16位字符串,可用于对用户进行识别;经度、纬度为GCJ02坐标系下的点坐标;速度为坐标点的瞬时速度;方位角为点的前进方向,以正北为参考方向。
2 基于手机导航数据的城市大规模人群出行分析方法
2.1 导航数据预处理
原始导航数据中存在脏数据、轨迹未分割等问题,因此需要进行预处理。具体包括:
(1)冗余数据清洗:主要包括同一用户在同一时刻记录的多个不同或相同坐标点。记录时间不在合理范围内的坐标点。
(2)轨迹分割:采用时间间隔分割法,提取单一用户的所有导航数据并按时间排序,若前后两数据点时间间隔超过时间间隔阈值,则在中断点上将原始轨迹划分为2条轨迹。手机导航轨迹采样间隔为1s,但城市环境中存在高楼、高架桥、隧道等遮挡,可能导致定位中断一段时间,因此时间间隔阈值设置为5min。
(3)异常轨迹清洗:冗余数据清洗仅针对数据点层面的异常,但有些异常或无效点无法根据单个点识别,因此在完成轨迹分割后再进行轨迹清洗。包括两方面:①误触数据清洗,对于持续时间不足10s、位移不足10m的轨迹,认为是用户误触产生,删除整条误触轨迹。②定位漂移数据清洗,部分轨迹中出现时间相邻的点在2个相距较远的位置来回跳动的情况,影响了导航轨迹长度的计算,这种情况认为出现了定位漂移,需删除整条轨迹。
2.2 基于LGBM的导航数据模式分类
经过预处理的导航数据无交通方式标注,还无法直接用于人群的出行模式分析,需要进行交通方式分类。本文采用轻量级梯度提升机模型(LightGBM)识别导航轨迹数据的步行、非机动车和机动车3种交通方式[13]。LightGBM是由微软亚洲研究院开发的一种基于决策树算法的梯度提升框架,支持并行学习,采用直方图算法,节点分类不需要遍历数据,提高了速度;采用分裂增益最大的叶节点的方式(leaf-wise)而非基于层的增长方式(levelwise),减少了不必要的分裂,降低了计算量,同时使用最大深度限制防止过拟合[14]。
交通方式识别模型中使用60个特征:5%~95%每5分位数的速度特征(19个)、5%~95%每5分位数的加速度特征(19个)、5%~95%每5分位数的角度转变量(19个)、停留率、速度转变率、角度转变率[15],各特征计算式如表3所示。
表3 交通方式特征计算公式Tab.3 Calculation formula for characteristics of transportation mode
GeoLife是微软亚洲研究院提供的开源GNSS(Global Navigation Satellite System)轨迹数据集,收录了2007年4月至2012年8月期间182位志愿者的移动轨迹,其中65人标注了各段轨迹的交通方式,包括步行、自行车、公交车、汽车、火车、地铁、飞机等[16]。使用GeoLife数据集训练和评价LightGBM交通方式识别模型,并对训练好的LightGBM模型进行5折交叉验证[17]来避免模型过拟合。
2.3 人群出行模式
2.3.1 出行时间模式
利用不同交通模式下的导航时间序列来分析导航人群的出行时间模式。以30min为间隔,分步行、非机动车和机动车3种交通方式,统计每个时间段内总的导航轨迹数量,得到的时间序列代表导航出行时间模式。通过分析时间序列的峰值等特征时间,按照不同的交通方式分析周末和工作日的人群出行时间模式。
2.3.2 出行空间模式
利用不同交通模式下导航终点在城市空间中的热点来分析导航人群的出行空间模式,使用核密度分析法来计算热点。通过核密度分析法分析周末和工作日不同交通方式导航轨迹的空间模式,并结合高架路中心线、地铁站出入口等辅助数据对热点地区进行识别。空间模式分析流程如图1所示。
图1 导航轨迹空间模式分析流程Fig.1 Flowchart for analysis of navigation trajectory spatial pattern
2.3.3 出行距离模式
人群出行距离的分布反映了人群的活动性,截断幂律分布是一种概率分布模型,可以模拟导航轨迹的出行距离模式。
幂律分布属于重尾分布(heavy-tail),其概率密度函数尾部的衰减比指数函数慢,在双对数坐标系下呈现为一条直线,被广泛用于对人群活动性建模。对于人类活动性而言,虽然大部分人的活动集中在小范围内,但仍有一部分人会进行长距离的出行,例如去离家较远的机场、火车站、旅游景点等。对于城市内部的活动而言,人群的移动受到出行时间、城市边界的限制,移动的距离不是无限的,而是在长距离区间有更快的衰减速度[18],截断幂律分布很好地体现了这一特性。以往的研究使用指数截断幂律分布模型在手机信令数据[19]、出租车轨迹数据上[20]拟合了这一现象,但区分交通方式的研究较少见。本文使用截断幂律分布按照不同的交通方式对手机导航轨迹长度d进行拟合,如式(1):
式中:p为轨迹数据长度服从的概率分布;d为轨迹数据长度;α为截断幂律分布的系数;β为幂律分布的指数(形状参数);λ为指数衰减因子。
导航距离模式分析的流程如图2所示。以100m为间隔,分别统计机动车、步行、非机动车轨迹长度在各区间的比例,作为出行距离等于区间中点时的概率。对长度超过1km的导航轨迹,分别用截断幂律分布的概率密度函数进行拟合。
图2 导航距离模式分析流程Fig.2 Flowchart for analysis of navigation distance pattern
3 实验结果与讨论
3.1 出行模式分类结果
使用GeoLife数据集训练LightGBM交通方式识别模型,并进行5折交叉验证,模型在测试集上的平均准确率为0.944±0.001。用调参后的模型对测试集进行预测,得到的混淆矩阵如表4所示。
表4 测试集预测结果Tab.4 Prediction results of test set
将训练好的模型应用于实验导航数据,并将识别出的交通方式附加到轨迹数据库中的相应轨迹上。以导航终止时间为标准进行统计,4天的轨迹总体情况如表5所示,总计轨迹数837万条,其中机动车轨迹数417万条,步行轨迹数374万条,非机动车轨迹数46万条。因为部分用户在一天中多次使用导航,从而导致轨迹总数显著大于表2中的不同ID数。
3.2 上海市导航人群出行模式
3.2.1 出行时间模式
分机动车、步行和非机动车3种交通方式分析导航轨迹的时间模式,结果如图3所示,图中虚线代表的峰值等特征时间如表6所示,以11:00代表区间11:00—11:30,以此类推。
图3 不同交通方式导航轨迹时间模式Fig.3 Navigation trajectory time pattern of different traffic modes
表6 导航特征时刻Tab.6 Feature time of navigation
3种导航方式的导航时间模式均呈现明显的早高峰—午高峰——晚高峰周期性,峰值时间基本一致,但峰值的强弱存在明显差异:机动车工作日午高峰较强,而步行、非机动车早晚高峰较强。周末(9月16日、9月17日)与工作日(9月18日、9月19日)的峰值持续时间和峰值时间也有所不同。周末高峰持续时间为11:00到17:30,工作日高峰持续时间为8:30到18:00,周末高峰持续时间比工作日减少3h。周末第一峰值时间比工作日推迟约2.5h,可以看出周末导航用户的生活节奏较为悠闲,上午出行高峰在11:00左右,而工作日则表现出通勤的特征,第一峰值时间在8:30左右。第二峰值在周末和工作日基本相同,分别出现在13:30到14:00,对应午休结束后的出行量回升。第3峰值在周末和工作日也基本相同,分别出现在17:30到18:00,对应外出就餐或通勤。转折点出现在20:00左右,导航数量下降速度放缓,这一点在周末尤其明显,可能与外出休闲娱乐有关。
3.2.2 出行空间分布模式
分步行、非机动车和机动车3种交通方式分析导航轨迹的出行空间分布模式。
3.2.2.1 机动车轨迹空间模式
周末和工作日机动车轨迹终点的核密度图如图4所示,图中清晰呈现了路网的形状,其热点地区主要分为3种情况:
图4 机动车轨迹终点核密度Fig.4 Endpoint nuclear density map of motor vehicle trajectory
(1)高架道路。图4的右下方小图标示了上海市区4条主要高架路(内环高架、南北高架、延安高架、沪闵高架),与核密度图中密度在2 000点·km-2以上的高密度带状区域重合。这一现象表明高架区域车流量大,路网较复杂,而引导标志还不够充足,有较多的用户进入高架区域后需要借助导航驾驶,或通过了高架区域的复杂路段后随即关闭导航。除了高架区域以外,一些地面主要道路的交汇处也形成了热点地区,如图中A5对应的五角场区域是5条道路的交汇点,A6、A7各对应世纪大道—张杨路—东方路、衡山路—虹桥路—肇嘉浜路3条道路的交叉点。这些路口附近有众多商业、商务场所,车流量大、空间构造复杂,在此开启导航和以此为目的地进行导航的轨迹多。
(2)交通枢纽。图4中B1、B2、B3分别对应虹桥枢纽、浦东国际机场、上海火车站,其中虹桥枢纽和浦东机场都在外环以外,离中心城区较远,虽设有地铁站,但驾车或乘出租车前往仍是一种主要的交通方式,因此轨迹终点密度高。
(3)隧道的出入口。图4中C1、C2、C3分别对应外滩隧道(3.3km,位于外滩地下)、延安东路隧道(2.3km,连通浦东和浦西)、上海长江隧道(9.0km,连通浦东新区和崇明岛)的一个出入口。这些隧道长度较长且车流量大,穿越隧道需要的时间超过轨迹分割的时间阈值,GNSS定位在车辆进入隧道后中断,导致驶入隧道前的最后一个点被错误地识别为轨迹终点,并在隧道出入口处形成伪热点区域。
相比周末热点,工作日热点地区不包括A5五角场,这是因为工作日前往五角场商圈娱乐的人相对减少。
3.2.2.2 步行轨迹空间模式
周末和工作日步行轨迹终点的空间分布如图5所示。除五角场—江湾体育场站以外,密度超过10 000点·km-2的热点地区都分布在内环以内,比机动车轨迹的热点地区更加集中。外环以内的热点地区、外环以外密度相对较高的区域与地铁站的分布吻合,这些地铁站分别对应交通枢纽(虹桥枢纽、上海火车站、上海南站)、旅游景点(七宝站)和热门商圈(南京东路、静安寺、徐家汇等),反映了大量用户以这些地铁站为目的地进行导航,或在出了地铁站后使用导航寻找附近场所的行为。
图5 步行轨迹终点核密度Fig.5 Endpoint kernel density map of walking trajectory
这一现象表明地铁是上海市交通系统的重要组成部分,大量用户通过地铁出行,地铁站周围形成了人流密集区域,在如图5所示的15个热点地铁站出入口内部的醒目位置需要增加指示牌和地图,标注附近主要设施(例如商场、景点)的位置以及应从哪个出站口出站;在上述地铁站出入口附近的地面道路上、主要设施内部也需要增加醒目的指示牌和地图,便于需要乘地铁的人群找到地铁站出入口的位置。
工作日跨省外出、景区游玩和到市区娱乐的人减少,因此工作日虹桥枢纽(图5中数字2)、上海南站(数字3)、莲花路站(数字13,莲花路站是闵行区连接市区的第一枢纽)和七宝站(数字15,七宝站是商圈站)等区域的热度显著低于周末。
3.2.2.3 非机动车轨迹空间模式
周末和工作日非机动车轨迹终点的空间分布与步行轨迹类似,集中在内环以内的地铁站附近和商务楼宇密布的地区,如图6所示。这一结果表明,图中14个热点地铁站是很多非机动车用户的目的地,因此地铁站出入口附近需要增加非机动车停放位;同时由上面对非机动车轨迹时间模式的分析可知,工作日的高峰期出现在早晚通勤时段,因此上述地铁站在通勤时段需要加强共享单车的调度管理。
图6 非机动车轨迹终点核密度Fig.6 Endpoint kernel density map of non-motor vehicle trajectory
相比周末,工作日热点地区不包括五角场站(图6中数字10)—江湾体育场站和金沙江路站(数字13,金沙江路站是商圈站点),这是因为工作日前往商圈的人相对减少。
3.2.3 出行距离模式
使用截断幂律分布拟合3种交通方式的导航轨迹,轨迹长度的概率密度分布散点图和拟合结果如图7、表7所示,R2均超过0.998,拟合效果较好。机动车轨迹超过30km和步行轨迹超过10km的部分概率密度分布的衰减速度变大,表现出指数衰减的特征。
图7 轨迹长度的概率密度分布散点图与拟合效果Fig.7 Scatter plots of probability density distribution of trajectory lengths with fitting effects
表7 各类轨迹长度分布的截断幂律分布拟合参数Tab.7 Truncated power-law distribution fitting parameters for each type of trajectory length distribution
4 结论
首先基于LightGBM模型构建了轨迹数据的交通方式分类模型,并在GeoLife测试集上取得了0.944±0.001的准确率。随后,该模型被应用到上海市数百万人口的手机导航轨迹数据上,实现了机动车、非机动车和步行的导航轨迹分类。最后,进一步分析了不同交通方式的导航轨迹数据在时间、空间和距离上的分布,并得到了以下结论:
(1)机动车、步行、非机动车3种交通方式的时间模式均表现出早高峰—午高峰—晚高峰周期性,出行方式主要以机动车和步行为主,并且周末出行高峰持续时间比工作日少3h,且周末的早高峰较工作日要晚2.5h,体现出周末导航出行高峰与工作日相比存在一定的滞后性。
(2)在出行空间模式方面,相比工作日,周末热点地区核密度更高、热点区域更多。机动车轨迹热点的分布与步行、非机动车轨迹有较大差异,机动车轨迹受路网的影响更大,热点地区出现在主要道路、交通枢纽、隧道出口;步行轨迹热点地区与地铁站吻合;非机动车热点地区与步行的分布类似。导航轨迹终点的空间热点提取结果可以为城市规划提供理论依据,热点高架区域需要增加引导标志和路网示意图,热点地铁站出入口内外需要在醒目处增加周边主要设施位置和地铁出入口位置的指示牌,出入口附近的地面上需要增加非机动车停放位并且在早晚通勤时段加强共享单车的调度和管理。
(3)3种交通方式的轨迹都可以用截断幂律分布较好地拟合,导航出行以中短距离为主,概率密度函数按照近似于幂函数的速度衰减,同时有一部分用户会进行长距离的导航,但在长距离出行区间概率密度函数衰减更快,近似于指数函数。
作者贡献声明:
吴杭彬:提出研究思路、设计研究方案、论文结构把控及修改。
陈茜茜:实验分析、论文撰写。
靳慧玲:数据预处理、协助实验。
傅 琛:数据预处理、协助实验。
黄 炜:实验与论文撰写指导。
刘 春:实验与论文撰写指导。