城市居民活动轨迹日间稳定性分析
——以西宁市为例
2024-01-29赵志远杨红杨喜平
赵志远,杨红,杨喜平
1. 福州大学 数字中国研究院(福建),福州 350003;
2. 空间数据挖掘与信息共享教育部重点实验室,福州 350003;
3. 陕西师范大学 地理科学与旅游学院,西安 710119
1 引 言
信息和通信技术的快速发展为人类活动位置观测提供了新途径,以手机位置数据、带地理位置标记的社交媒体数据等为代表的大规模人群位置感知数据,有力支撑了人类移动特征和活动模式挖掘的理论与方法的研究(González 等,2008;Song等,2010;罗茜和焦利民,2023)。有关成果被进一步用于支撑城市规划(傅英姿和王德,2021)、智能交通(张月朋和王德,2021;Yan 等,2022)、人类健康(Li 等,2019)等领域的创新应用,如评估自行车出行的潜在需求(Xu 等,2016;周亚娟等,2020)、优化商业选址(彭大芹等,2019)、改善出行导航方案(Hu 和Chen,2021)、研究人口迁入成因(詹庆明等,2020)等。
科学精准评估人群活动需求,需要从人群活动的物理空间本体特征和数据空间孪生特征两个角度进行考虑。一方面,从物理空间来看,个体活动呈现重现性和变化性并存的复杂特性,个体活动轨迹的日间稳定性能够有效刻画个体活动复杂特性。已有研究发现人类移动模式在人群汇总层面具有时间稳定性(Wang 等,2021)。其中内在机制需要通过继续分析个体出行活动的稳定性来挖掘,如活动空间的范围大小(Sharmeen 和Houston,2020)、出行距离(Susilo 和Kitamura,2005)等活动特征和出行模式(Neutens 等,2012;Zhang 等,2021)等。活动特征和出行模式是轨迹在特定维度的呈现,从微观个体活动轨迹出发分析居民活动的日间稳定性,能够帮助揭示在人群汇总层面稳定性的内在机制与特征,共同揭示人类活动在个体微观层面和人群汇总层面的日间稳定性特征,减少特征挖掘过程中因信息抽象概括对分析结果的影响。目前,直接基于轨迹分析日间稳定性的研究较少;涉及活动轨迹日间稳定性的研究常见于个体位置重访规律(González 等,2008;王德等,2021)或轨迹相似性度量(潘晓等,2019;梁明等,2023),这为活动轨迹日间稳定性度量提供了技术参考。另一方面,从数据空间来看,大数据时代虽然涌现了丰富的数据资源,但数据生产方和数据使用方往往出现错位的现象。此种情况下,由于缺乏数据支撑应用的有效性检验,数据是否能够充分满足应用需求以及对分析结果产生哪些影响是需要关注的问题。受隐私关切和数据获取条件限制等因素的影响,现有研究中的大规模人群位置观测数据在覆盖时间长度存在差异,有关分析结果既可能是人群行为本身特征映射的结果,也可能是数据覆盖时长变化作用的结果,如何科学理解有关分析结果对后续决策十分关键。以手机位置数据的研究为例,少数研究的数据覆盖时间超过1 个月(Guan 等,2021),许多研究所用的数据涵盖居民一天的出行活动轨迹数据(彭大芹等,2019;周亚娟等,2020;Hu 和Chen,2021)。考虑到个体日常生活需求、可支配资源限制及物理环境条件等因素,个体日间活动呈现出复杂性特点(Susilo 和Axhausen,2014;Duan 等,2017)。因此,迫切需要了解人类出行活动的日间稳定性特征,科学认识短时间轨迹数据集对人类移动复杂性的刻画能力。
本文以青海省西宁市为例,利用匿名化脱敏手机位置数据,基于轨迹相似性方法,分析并对比不同类型的日期之间居民个体活动轨迹的稳定性;同时,对不同属性和区域的人群日间稳定性进行了对比。研究结果可以为城市规划管理决策提供科学支撑。
2 研究区与数据源
2.1 研究区域
西宁市为青海省省会,位于青藏高原东北部,截至2016 年末,市区人口为128.91 万人。本文选取城东、城中、城西、城北四个城区作为研究区域(图1),分析其居民活动轨迹日间稳定性及人群和时空分布特征。
2.2 数据源
研究所用的匿名化脱敏数据来自西宁市某移动运营商,包括因通话、短信及移动互联网使用产生的记录。在空间范围上,数据主要涵盖的是西宁市主城区;在时间范围上,数据集包含两个工作日(2018 年8 月2~3 日)和两个休息日(2018 年8 月4~5 日)。数据集中有38 万个用户,一天约4500 万条数据。手机位置数据通过基站定位,约有2600个基站,基站间平均距离191.26 m,基站分布呈东西“十字”放射条带状(图1)。数据集属性情况见表1,为保护用户隐私,研究使用的数据均已经过匿名化脱敏处理。
表1 手机位置数据属性示例Tab.1 Example of mobile phone location data attributes
2.3 数据预处理
首先,删除手机位置数据中的空值、异常值等;其次,为尽可能准确地记录居民的活动轨迹,本研究筛选出任意一天的记录时长不低于16 h(Lu 等,2017)的手机用户4.79 万;最后,识别出居住地的用户有4.57 万作为研究所用数据集。数据集中青年(19~35 岁)人群占比最高,达57%;老年(60 岁以上)人群占比较少,约为2%。这与我国年龄人口分布和手机用户的群体分布相似。
以西宁市街道为空间单元,计算所用数据集中的各街道的人口与第六次全国人口普查数据的斯皮尔曼相关系数为0.85(p<0.01),说明研究区的居住地分布与人口普查结果在整体上有较好的一致性。其中,人口分布较多的街镇主要是占地面积较大且位于中心城区外围的彭家寨镇、韵家口镇和马坊街道。清洗后数据采样的平均时间间隔为8 min,有92.4%的数据采样时间间隔在30 min 之内,表明研究所用数据质量良好。各时间段的数据量在4 d内分布较为均匀(图2),工作日白天数据量明显高于休息日,星期天最低(8 月5 日)。4 d 数据记录时间分布的斯皮尔曼相关性最小值为0.84,综合说明本研究的数据记录量在日间有较好的一致性,可用于活动轨迹的日间稳定性分析。
图2 数据记录的时间分布Fig.2 Time distribution of data records
3 研究方法
基于手机位置数据,本文利用时间最邻近的位置记录对数据缺失的时间段进行位置插补,生成个体出行网格轨迹;通过个体在天与天之间相同时间段出现在相同网格的时间段次数,构建个体活动轨迹日间稳定性度量方法;对不同群体活动轨迹日间稳定性进行分析。技术流程如图3 所示。
图3 活动轨迹日间稳定性分析流程Fig.3 Flowchat of inter-day stability analysis of activity trajectories
3.1 居住地识别
居住地是居民日常活动的重要锚点。本文借助用户在凌晨的停留信息识别居住地,具体步骤如下:①使用SMoT(stop and moves of a trajectory)模型识别停留轨迹段(Spaccapietra 等,2008;徐金垒等,2015),统计用户每天在凌晨停留超过3 h 的位置,称为凌晨驻留点。②统计用户4 d 内凌晨驻留点的质心。③计算每个凌晨驻留点离质心的距离,将离质心距离最近的凌晨驻留点识别为用户的居住地。
3.2 缺失记录插补
手机位置数据的记录在时间上并非呈均匀分布。为了保证任意时间段下都有用户位置信息,本文对数据缺失的时间段插补空间位置信息。插补的具体规则为,将时间划分为间隔(Δt)相等的M个时间段:从0:00 开始,如果某时间段内无记录,则在该时间段前后的两条记录中选择时间间隔最近的位置信息插补到数据缺失的时间段;如果最短的前后记录时间间隔都相等,则将这两个位置信息都插补到该时间段内。经过缺失记录插补后的轨迹在任意时间段都至少有一条位置记录,如图4 所示。
图4 缺失记录插补示意图Fig.4 Schematic diagram of the interpolation for the missing record time windows
3.3 轨迹网格化
手机位置数据记录的位置是为用户提供通信网络服务的基站的位置。为了便于比较活动轨迹日间稳定性高低和消除基站分布密集地区手机信号跳转的影响,把以基站位置定位的轨迹转为以网格定位的网格轨迹。考虑到研究数据集基站间平均距离有95.3%在500 m 以内,本文使用500 m 大小的规则网格,将以经纬度定位的轨迹数据转为网格轨迹表示。把一天的时间划分为间隔相等(Δt)的M个时间段,任意一个时间段的定位点有n个(n≥1),则用户q一天活动的网格轨迹表示为式(1)。表示用户q在时间段m所在网格信息,可以表示为式(2)。有
3.4 日间稳定性度量方法构建
为了分析居民活动轨迹日间稳定性,本研究参考现有轨迹相似性方法(潘晓等,2019),基于用户在不同天之间对应时间段出现在相同网格的时间段次数与一天总时间段数M之比来量化用户活动轨迹日间稳定性的高低。如用户q在某两天的活动网格轨迹分别为和则用户q在这两天的活动轨迹日间稳定性分数表示如式(3)。稳定分数的取值为[0,1],其中,表示用户q在两天对应的时间段m中是否有相同网格编号的记录:
每个用户在任意的两天间都有一个活动轨迹日间稳定性分数,通过度量居民的活动轨迹日间稳定性可以了解其活动位置在日间的差异大小。为进一步挖掘居民在一天中不同时间区间的活动轨迹日间稳定性差异,本文以手机位置数据识别居住地常用的时间节点6:00 和晚高峰结束时间19:00 作为分割点,将一天划分为三个时间段(表2),再根据式(3)分别计算不同时间区间下的稳定性。
表2 时间段划分Tab.2 Division of Time Intervals
4 实验结果分析
分别选取时间段10 min、30 min 和60 min 计算居民活动轨迹的日间稳定性,发现随着时间段取值的增加,活动轨迹日间稳定性和各时间段的稳定人群占比都表现出升高的趋势。考虑到数据集采样时间间隔在30 min 以内的数据占92.4%,本研究选取30 min 的时间段进行后续分析。
4.1 活动轨迹日间稳定性总体概况
总体而言,居民活动轨迹日间稳定性不高,工作日活动轨迹较稳定,休息日活动位置多样。由表3、图5 可知西宁市居民活动轨迹日间稳定性均值为0.545,这意味着,居民的活动位置在日间平均约有54.5%的时间是相同的。其中,工作日之间(WW-day)的日间稳定性最高,比休息日之间(OO-day)的稳定性高出近6.4%。WW-day 稳定性较高主要是源于其白天工作时间有更多的稳定人群,这与时间地理学中,工作日居民出行受到工作活动的制约相符合。OO-day 的稳定性低于WW-day 反映居民休息日的活动轨迹不仅与工作日存在差异,在休息日之间差异也相对较大。因此,在提取人类活动信息时,需要更多的休息日出行轨迹才能获得与工作日准确性相当的特征信息。
表3 不同日期类型日间稳定性均值对比Tab.3 Inter-day stability distribution for different date types
图5 稳定人群占比时间分布Fig.5 Time distribution of stable population persentage
在T1~T3 的三个时段中,凌晨时段活动轨迹稳定性最高,晚上次之,白天最低。三个时间区间中的稳定性大小关系与个体位置预测准确率的时间分布特征(李明晓等,2018)相符合,其中,凌晨和晚上分别高出白天近38%、10%(表3)。这表明利用居民在凌晨的停留行为识别居住地的可靠性较高(Cao 等,2019)。此外,工作日不仅白天稳定人群占比高出休息日,在晚上也较高(图5),反映在工作日不仅白天的休闲出行活动受到限制,晚上的出行活动也会受到一定的限制。
4.2 各年龄段人群日间稳定性分析
按照年龄将居民分为青少年人群(13~18 岁)、青年人群(19~35 岁)、中年人群(36~60 岁)和老年人群(60 岁以上)。活动轨迹日间稳定性表现为青少人群最高,老年人群次之,青年和中年人群较低;其中,青少年人群日间稳定性比青年人群高出14%(表4)。青少年活动轨迹日间稳定性高可能与数据采集的时间有关,暑假学生以社区活动为主,表现出较高的活动轨迹日间稳定性。图6 中,青年和中年人群在工作日工作时间的曲线有明显的上下班现象,青年人群在上班时间较其他年龄段受到了更大的位置限制,但其在晚上有较其他年龄段更为多样化的活动位置。老年人群在休息日的中午12:00~13:00 有个小高峰,反映其在这期间有稳定的活动位置。从曲线处于最小值的时间来看,多数年龄段居民活动位置最不稳定的时间段在15:00 左右,但青年和中年人群工作日活动位置最不稳定的时间段在下班后的18:00~20:00。从晚上19 岁以上居民稳定人群占比的变化趋势来看,老年人群较早回到家中,青年人群在外逗留时间较长,回家最晚。
表4 各年龄段人群日间稳定性分布Tab.4 Inter-day stability distribution for different age groups
图6 各年龄段稳定人群占比时间分布Fig.6 Time distribution of stable population distribution for different age groups
4.3 男性与女性日间稳定性分析
男性和女性活动轨迹日间稳定性在总体上表现为女性略高于男性,仅高出1%左右,差异较小,体现出随时代发展,女性生活的限制性得到持续缓解。相比较而言,女性在工作日的稳定性高于男性(图7),这可能与女性较少承担工作中的外出活动有关。在休息日,女性日间稳定性与男性总体持平(表5),但在11:00~20:00 表现为更低的稳定人群占比,反映女性在休息日拥有更为多样化的活动位置,活动复杂性高。在21:00 之后和凌晨,女性稳定人群占比均高于男性,这与女性出于安全考虑会减少夜间的独自出门频次相符合。
表5 男性与女性日间稳定性分布Tab.5 Inter-day stability distribution for men and women
图7 男性与女性稳定人群占比时间分布Fig.7 Time distribution of stable population distribution for men and women
4.4 日间稳定性空间分布情况
结合识别的居民居住地,本研究发现西宁市街道尺度下城市居民活动轨迹日间稳定性在空间上表现为从城市中心向外,稳定性先降低后增高的趋势(图8)。不同城市功能分区下居民出行行为存在差异,进而在空间上表现为各地区居民活动轨迹的日间稳定性差异(王长硕等,2022)。位于老城区中心的仓门街历史悠久,区域功能结构复杂,居民出行轨迹多样;生物科技产业园作为经济高发展的工业区,人群出行需求和活动位置多样。远郊区居民活动轨迹日间稳定性高,可能与远郊地区从事农业的居民占比高,人群活动位置较为单一有关。
图8 人群稳定性空间分布Fig.8 Spatial distribution of population stability
4.5 典型地区稳定性对比
为了对比位于城市不同地区人群活动轨迹日间稳定性特征,本文从研究区域中选择几个典型区域来对比分析区域人群活动轨迹日间稳定性特征。从城市中心到远郊区依次选择东关大街街道、仓门街街道、虎台街道、大堡子镇(图9),分析不同区域人群活动轨迹日间稳定性特征。
图9 典型区域地理位置Fig.9 Geographical locations of the typical areas
从图10 来看,大堡子镇位于城市远郊地区,居民活动轨迹日间稳定性高且受日期类型影响较小,意味着在相同数据资源条件下,活动特征挖掘的准确率在远郊区居民上能有更高的准确率;虎台街道位于西宁市近郊区,稳定性较低且受日期类型影响较大,因为随着城市的发展与扩张,近郊区逐渐成为人口分布的次中心,且出行距离较远、出行路径不确定性较高;位于老城区中心的仓门街街道和相邻的东关大街街道居民活动轨迹日间稳定性均较高且受日期类型影响较小,不同居住主体的两个街道居民有相似的活动轨迹日间稳定性特征,反映西宁市居民均形成了较为稳定的生活节奏。
图10 典型区域人群稳定性对比Fig.10 Distribution of population stability in typical regions
5 结 论
本文围绕城市居民活动稳定性分析问题,研究了西宁市居民活动轨迹日间稳定性的时空分布特征,得出以下主要结论:①居民活动轨迹的日间稳定性总体偏低,其活动位置在日间平均约有54.5%的时间是相同的。居民在工作日的活动轨迹稳定性较高,休息日的活动位置多样性较高,其中,居民在白天的活动轨迹稳定性最低。因此,使用短时间轨迹数据挖掘居民工作地时,需要考虑居民出行活动的不稳定性因素,以提高数据挖掘的准确性。②青少年和老年人群活动轨迹的日间稳定性总体较高,青年人群在工作时间受到较大的位置限制,但在晚上有多样化的活动位置。在位置预测研究中,青年人群的活动轨迹日间稳定性在工作日和休息日、工作日的工作时间和18:00~20:00 的差异较大,同时青年人群是人类活动大数据研究数据集中的主体人群,针对不同时间下的居民出行稳定性特征分析位置预测算法能有效提升位置预测准确率。③男性与女性在活动轨迹日间稳定性上差异较小,虽然女性在工作日的活动位置较稳定,但其在休息日白天表现为有更为多样的活动位置,反映女性的活动模式限制得到基本的解除。④街道尺度下的活动轨迹日间稳定性在空间上表现为从城市中心向外,稳定性先降低,后增高的趋势。
本研究仍存在以下问题有待进一步研究:①居民活动轨迹日间稳定性结论的鲁棒性还需要更长时间的数据,做更深入的分析;②可变面积单元问题对结果的影响。