城市人口时空分布估计研究进展
2022-09-28吴华意胡秋实刘朝辉
吴华意,胡秋实,李 锐,刘朝辉
1. 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430079; 2. 湖北珞珈实验室,湖北 武汉 430079; 3. 地球空间信息技术协同创新中心,湖北 武汉 430079
人口是指生活在特定社会制度、特定地域具有一定数量和质量的人的总称[1]。城市人口则是将生活区域限定在某个城市范围,是构成该城市的社会主体,与城市活动密切相关。随着城市的出现和城市化进程的推进,大量的人口流入城市,有力推动了城市的发展和繁荣。但城市人口数量的激增也带来了很多问题,如城市交通堵塞、城市服务设施不足、城市环境恶化等[2]。城市人口是一把双刃剑,是城市发展中的核心和最为活跃的因素[3],对城市的规划与管理本质上是对人口信息的获取和管理,这就需要掌握城市人口在不同时间点上位于城市各地区中的分布状况,即城市人口的时空分布。实践表明,准确的人口时空信息,是城市规划、应急管理、交通出行、疾病防控等城市管理与社会服务的科学依据[4],因此对城市人口分布的估计和研究是城市地理学需要解决的热点问题和基础性研究[5]。
传统的城市人口分布数据主要通过调研统计的方式获得,例如,各个国家政府主要通过人口普查的方式获得行政管理区域内的人口分布信息。然而,人口普查在统计方式和成果应用方面存在较多的不足,主要体现为:①人口普查的方法对于人力和物力成本消耗较大,不能频繁开展,因此两次人口普查的间隔周期较长,无法形成时间上较为连续的人口分布数据[6];②人口普查数据的成果空间化方法是固定的,主要以行政管理属性的单元呈现,对于如交通、城市功能等多样化场景应用的适应能力较弱;③公开获取的人口普查数据一般以县区为单位,空间粒度较大,且城市中心和郊区的行政单元面积存在差异,在表达更精细且空间连续性较平滑的人口分布信息的能力上存在缺陷[7]。因此,为了在传统普查手段之外获取城市人口分布数据,国内外的研究者应用不同的方法和模型获取了不同时空分辨率的城市人口分布情况,相关成果不仅提高了城市人口分布估计的准确率和精细化程度,也推动了相关研究理论和应用的发展,同时在城市建设、交通规划、公共管理、综合治理等应用领域产生了广泛而积极的影响。
部分学者对城市人口时空分布的相关研究从不同角度已经做了一定的总结。文献[8]针对基于美国住房单元(house unite,HU)进行人口估计的研究,从建模数据、方法和应用等方面进行了总结,并提出准确的住房单元人口需要持续获取正确的住房空间单元和行政边界。文献[6—7,9]主要从模型和方法的角度总结了基于遥感和地理信息技术的人口空间分布估计的研究,并且提出人口分布估计需要与自然、经济因素相结合,同时要考虑特征和模型的选择。文献[10]主要针对利用遥感数据进行人口分布估计的国内外研究进行了总结,并提出目前估计的人口主要是居住人口,未来的研究应着重考虑白天实际的活动人口。文献[11]从人口统计数据空间化的角度,分析比较了10个主要模型的优劣,并提出人口分布城市中应加强社区级精细化尺度的研究,并考虑理论模型和统计模型的结合。文献[12]主要针对建模中使用的方法、参考要素对人口空间分布研究进行了总结,并提出未来研究应考虑多源遥感数据和新型传感器数据的使用。本文基于已有的研究总结成果,从城市人口分布的空间划分单元、模型与方法、城市应用等角度对相关研究进行了综合论述,在模型与方法中着重补充了针对动态人口和近年来最新的研究成果。
为了揭示城市人口分布估计在理论研究和应用方面的进展,本文以城市人口时空分布估计的关键点为核心展开综述:①从空间划分的角度介绍城市人口时空分布估计在空间单元构建上的研究现状;②介绍城市人口时空分布估计在模型与方法上的进展,从静态和动态人口的角度对其进行分类并详细阐述;③介绍城市人口时空分布估计的典型应用状况;④论述目前研究当中存在的不足和局限,并对未来的研究方向提出展望。
1 空间分布单元划分方法
城市人口空间分布单元是开展人口时空分布估计时,在空间上划分的基本空间对象。不同的划分方式决定了人口分布数据获取方式、可视化的效果和应用范围,是方法模型构建和应用的基础,并影响人口分布信息表达的精细度和准确度。因此,适宜的空间分布单元划分方法对于有效估计人口分布信息,进而支撑城市相关应用是至关重要的。在长期的城市人口研究中,已经使用或划分了多种空间单元,根据人口时空分布估计的空间尺度目标、应用场景的空间属性,以及估计模型使用的研究数据形式等需求,主要的划分方法分为3个方向:①基于空间尺度的单元划分;②基于应用场景空间属性的单元划分;③基于建模数据结构形式的单元划分。
1.1 基于空间尺度的单元划分
面积和大小是空间分布单元的基本属性,因此,空间尺度是城市人口时空分布优先考虑的研究目标和空间分布单元构建的基本需求。在长期的城市人口研究中,不同的空间尺度已经被城市管理者构建和规划了多个空间分布单元,相关的研究能够直接使用这些单元,以及其中包含的人口和其他属性信息开展分布估计研究。空间尺度的标准主要包括宏观、中观和微观3种。
宏观和中观的人口时空信息是城市总体规划和管理的传统支撑数据,相关研究者常基于该尺度构建空间单元并开展人口分布估计与研究。行政区划是城市中常见的宏观和中观单元(图1(a)),这类空间单元是由国家行政管理分级划分的空间区域,具体由国家民政部门进行划分。行政区划是政府发布人口普查数据和社会、经济、文化等其他统计数据的基本单元,其中人口普查数据是目前权威的人口分布数据,因此在相关研究中通常将人口估计结果汇总到街道、市辖区等行政区划单元,并以各级行政区划中的人口普查数据作为结果验证标准。文献[13—14]分别基于4级行政区和街道结合人口普查数据进行了建模,验证了多源数据特征可以有效提高人口分布估计的精度。文献[15]为了研究空气污染的总体影响,基于我国的区级行政单元的人口普查数据和手机信令数据评估了常住人口在PM2.5中的实时暴露情况,结论表明手机信令数据反映的受污染人口与人口普查数据具有较大差异,需要调整污染治理的区域和政策。同时,基于行政区划的人口分布研究也对行政区划的调整提供反馈。文献[16]基于街道级行政单元结合出租车数据分析了城市的人口时空变化情况,并提出北京市区级行政单元根据人口分布变化情况应进行合并。另外部分研究者为了研究宏观的人口分布中心,选择传统人口密度模型中的人口衰减圈层结构开展研究。文献[17—18]为了研究城市整体人口空间结构,将城市根据人口密度大小分为中心、近郊和远郊3个圈层。文献[19]以城市的3级交通环线构成了3层城市圈单元并研究城市人口多中心结构(图1(b))。进一步,随着人口数量剧增和城市应用场景的多样化发展,人口的精细化管理是目前城市工作重点,传统行政区划单元的空间尺度较大,部分研究者使用建筑物作为空间单元(图1(c))。建筑物是人工构建的地理要素,在二维空间上的面积普遍为几十米级,并且是人口居住的实际区域,因此适合表达微观尺度的人口分布信息。首先,建筑物本身可以提供更加精细的空间或属性数据关联人口分布信息。文献[20—21]为了获取精细化的人口分布数据,使用LiDAR导出的建筑物体积信息建立了基于建筑物的静态人口分布估计模型;同时建筑物可以与地名地址[22]、土地利用[23]、夜间灯光[24]、POI[25]等空间地理数据相结合,进而通过对建筑物进行功能分类和空置率识别以提高人口分布估计的精度。文献[26]为了提高精细化的人口分布估计精度基于POI数据获取了建筑物单元的功能分类。进一步,由于建筑物是人口居住的实际区域,可以建立人口分布的强相关模型。文献[27]为了研究微观尺度的人口分布特征,基于建筑物要素结合多源大数据建立了人口-建筑物引力模型。
图1 基于空间尺度需求的传统单元划分示例Fig.1 Examples of unit construction based on spatial scale requirements
上述划分方法主要针对人口分布估计的空间尺度需求构建,其中行政区划和城市圈层主要用于宏观和中观的人口分布研究,从而获取城市粗粒度的人口分布信息,但这些单元的尺度相对较大,无法对城市精细空间进行表达,不能体现人口分布的空间异质性。对于建筑物单元,可以表达局部精细的人口分布信息,并提供高精度的空间信息辅助人口分布估计。但是,建筑物在二维空间上的分布是不连续的,对于变化频率较低的静态常住人口可以进行表征;而对于变化频率较高的动态人口,由于人口并不只聚集在建筑物内部空间,建筑物以外的区域也包含大量人口活动和移动信息,而这部分信息基于建筑物在空间上进行表征会有损失。同时,考虑目前动态人口研究的数据源,在精度上普遍无法获得建筑物内部的活动信息,因此将建筑物作为动态研究的单元在表征人口活动的能力和研究可行性方面存在一定的缺陷。
1.2 基于应用场景空间属性的单元划分
应用场景是人口分布估计的重要导向,不同的应用场景对于人口分布信息的精细程度和表达方式有多样化的需求。在空间尺度需求的基础上,应用场景通常需要构建具有特定空间属性或符合场景主题的人口活动空间区域,进而需要人工构建或进行属性筛选。因此,考虑应用场景空间属性需求是空间分布单元划分的重要方向。本文列举了4类典型的应用场景,包括城市交通、卫生医疗、功能结构和居住生活。
针对城市交通,相关研究者通常以城市交通管理部门通过主干道划分的交通分析区(traffic analysis zone,TAZ)[28]作为空间单元(图2(a))。文献[29]基于TAZ探究城市人口职住和通勤结构,分析北京市人口的时空分布和移动情况。文献[30]基于TAZ和出租车GPS数据研究城市人口的动态分布和出行规律。进一步地,部分研究者结合相关交通设施开展场景的深入研究。文献[31]为了研究城市主要交通站点的人口分布变化特征,以公交车站点为中心划分了缓冲区作为空间单元。针对城市卫生医疗,研究者通常考虑场景的具体特征和相关事件划分空间单元。文献[32]为了研究新冠病毒的扩散模式,考虑武汉市封闭隔离的主体为住宅小区,同样以主干道划分了1140个交通分析区,结合手机定位数据分析人口的空间交互情况。文献[33—34]基于医疗设施和交通网络构建缓冲区研究了人口到达公共健康设施的时空分布特征。针对于城市人口活动功能结构,研究者以人口活动的区域或相似特征的区域作为空间单元。文献[35—37]为了识别人口活动功能区,根据主干道对于人口活动的限制作用将TAZ作为空间单元。文献[38—39]以多级城市道路网划分符合人口生活的面状要素以分析人口活动功能的时空结构。针对人口居住生活,相关研究者考虑场景典型的代表区域划分空间单元。文献[40]为了探究城市郊区人口的生活情况,以北京市城郊的多个大型社区作为空间单元,结合GPS数据分析人口日常活动的空间变化情况。文献[41—42]选择了典型的居住区分别研究了城市人口的职住分离特征和老年贫困人口的分布特征。
总体而言,上述划分方法从城市应用场景出发,根据应用场景的时空特征需求和对人口分布信息的需求构建空间单元,能够准确获得支撑应用场景的人口分布数据。但是,目前基于应用场景构建的空间单元具有较强的针对性,尤其是短期或局部性场景对于空间区域属性和范围有较多的限制,进而导致单元的普适性和通用性较弱。同时目前对于应用场景的需求认知缺乏统一的模型和标准,无法系统地支撑空间单元的划分。
1.3 基于建模数据结构形式的单元划分
多源异构的城市时空数据是人口分布估计方法建模的重要信息和特征来源,为了准确提取数据中与人口分布信息相关的特征,避免造成信息丢失和统计偏差,同时进一步支撑多源数据的融合分析,需要匹配建模数据的获取或统计的空间形式。本文主要以栅格类数据的分辨率匹配、融合及传感器类数据生产方式为例说明基于建模数据划分空间单元的方法。
栅格数据是城市人口分布估计最常见的研究数据,为了匹配栅格数据的分辨率,文献[43]使用由规则多边形构成的地理格网作为空间单元(图2(b))。文献[44]采用1 km格网来分析自然与社会现象,进而格网的概念发展成为一种地学分析方法。随着多个全球人口数据项目的建立,如GPW、LandScan等都推动了基于格网单元人口分布与分析的发展[45-46],通过控制格网尺寸的大小可以实现对不同空间分辨率栅格数据的有效匹配和人口分布数据的展现。文献[47—48]利用不同分辨率的夜间灯光数据基于地理格网研究人口分布特征,具有相似特征的栅格数据还包括遥感光谱数据[49]、土地利用数据[50]和地理形态数据[51-53]等。进一步地,由于规则划分的特点,地理格网不仅可以直接匹配上述的研究数据,也为单元内其他类型信息的快速统计和多源数据融合,以及开展人口分布估计提供了支撑[54]。例如为了多种遥感栅格数据的特征叠加,文献[55—56]基于地理格网融合了多种遥感数据。文献[57—58]基于地理格网结合遥感数据与GIS数据的特征进行了建模。文献[59—60]为了多源数据的快速统计减少计算量,基于地理格网综合统计了GIS数据和带有人口时空信息的众源大数据。随着新型传感器的发展,出现了多种具有人口时空信息的个体时空标记数据,受限于部分类型数据的记录方式,为了科学地开展人口分布估计,相关研究基于数据获取特点结合数学理论划分空间单元(图2(c))。文献[61]根据手机信令数据的获取方式,以手机基站位置为中心建立Voronoi多边形表示基站的服务范围,用于分析估计葡萄牙里斯本的人口分布。文献[62]根据地铁智能卡数据的记录方式,以173个地铁站点构建泰森多边形标识地铁服务范围,分析了北京市人口分布动态变化情况。文献[63]为了综合统计3个手机运营商的手机信令数据,以3个运营商的手机基站为核心结合Delaunay三角形划分方法构建统计分析子单元分别表示不同基站的服务范围,进而分析了城市人口的动态分布情况。
图2 基于应用场景属性需求和数据形式的单元划分示例Fig.2 Examples of unit construction based on application scenarios and data requirements
总体而言,上述划分方法主要从研究数据出发,根据数据的时空尺度和统计方式,充分提取了研究数据的时空和属性特征,并推动了数据间的融合,有效提高了人口分布估计的时空分辨率和准确度。但是,这些单元由研究数据驱动划分的同时也受到研究数据本身的限制,其空间分辨率和构建过程对于数据有较强的依赖性,对于数据的完整度和获取都提出了较高的要求。
2 人口分布估计的模型与方法
模型与方法是城市人口时空分布估计研究中的核心内容,相关研究者从不同角度对城市人口分布估计的模型和方法做了总结。文献[10]综合了GIS和遥感文献中关于人口估计的方法,将其分为区域插值和统计建模2类。文献[9]对国内外网格化的人口分布估计模型进行了总结,将其分为面积权重模型、核心估计模型、土地利用影响模型、重力模型和多源数据融合模型5类。文献[12]基于人口数据空间化方法的基本原理,将其归纳为城市地理学中的人口密度模型、空间插值方法和基于遥感和GIS的统计建模方法3类。本文主要从人口时空分布估计的对象出发,将其分为静态人口和动态人口两个类别,针对两种估计对象分别开展方法和模型的详细阐述。
2.1 静态人口分布估计
静态人口是对某一个时间节点上人口状况的总称,通过截取某一个时间节点的人口静止状况,反映连续不断变动过程中城市某一区域人口的快照。静态人口统计的内容,包括一定时间区间上的人口总数、人口密度和人口的地区分布。为了更准确地叙述模型与方法,本文将静态人口定义为某个区域内的人口普查工作中的常住人口。因此,针对静态人口分布估计,主要分为传统人口密度模型、空间插值和统计回归3种方法。
2.1.1 传统人口密度模型
20世纪50年代以来,城市人口分布估计的研究吸引了大量学者的关注,研究者从地理学和经济学的角度出发,形成了一系列描述城市人口分布的人口密度模型。最早的城市人口密度模型利用数据学模型进行表达[64],其核心思想是人口与城市中心的距离关系为由中心向外围呈递减关系,Clark模型的表达式为
d(x)=M×e-λx
式中,M为常数,是城市中心的人口密度;x为该位置城市中心的距离;e为自然常数;λ为人口密度衰减的定量系数,高值表示人口密度衰减快,低值表示人口密度衰减慢;d(x)为x位置的人口密度。基于Clark模型的研究成果,相关研究者对城市人口分布描述的模型做出了进一步的探索和改进,典型的模型例如异速生长模型、正态密度模型、Smeed模型、Newling模型、Gamma模型和分形模型等[65-70]。
传统的城市人口密度模型使用简单,能够快速地对城市人口分布进行宏观或大尺度的描述。但是,这些模型是对城市人口密度的理想近似模型[7],只考虑了城市中心对于人口分布的影响而忽略了自然、经济和人为调控等因素的内在作用。因此,这些模型对于目前的城市人口分布估计具有一定参考价值,其估计精度和空间尺度应用范围不能满足精细化的人口管理需求,目前很少有研究者采用该模型进行研究。
2.1.2 空间插值方法
政府人口普查数据由于汇总方式和隐私问题,在空间上一般以行政单元的方式展示,并且只到区县、街道一级。为了获得空间上更为精细的人口分布数据,部分研究者利用空间插值的方法将人口普查数据根据一定权重值在更精细的空间单元上进行分配。
空间插值理论假设在空间上邻近的点具有相似的特征值,根据空间插值在人口分布估计中的应用范式,可将其分为面插值[71]、点插值和地统计学3类[12]。面插值即一种面状单元到另一种面状单元的转换[72],其中以面积权重法为最基本的方法。文献[73]在传统面积权重法的基础上提出了对真实人口分布估计的面积内插方法。文献[74]基于面积权重的方法估计了宾夕法尼亚州东南地区100 m格网的人口分布。点插值是采用一定的采样点代替面从而进行插值,核密度函数是人口数据点插值最常用的方法[73],典型研究如文献[75]利用核心估计方法将人口密度分配到1 km格网上。地统计学以区域化变量理论为基础,研究分布于空间中并显示出一定结构性和随机性的现象。文献[76]利用变量理论以沈阳市为例,证明了人口密度尺度效应的存在。文献[77—78]利用克里金法进行了基于格网的地统计插值,分别估计了30、300 m格网分辨率的人口分布数据。
基于空间插值的方法理论成熟,可以将传统人口普查数据科学地分配到更精细的分析单元上。但是,其中面插值的理论基础是行政区划内的人口是均匀分布的,点插值则是用点要素来表征人口密度,这些特点导致这两类方法适合几十千米级的大尺度人口估计,而在更精细的尺度则需要其他辅助数据进行修正。而地统计学方法则主要将人口分布信息分解为稳定量和残差量两个部分,其中残差量可以结合多种高分辨率遥感数据得到更精细的结果,但缺点在于模型计算复杂,实现难度较大。另外,空间插值方法的关键在于人口普查数据的准确性,这使得空间插值的方法在人口普查工作统计效果较差的区域,如城市偏远地区或者非洲等地区的国家难以适用[79]。同时,由于人口普查数据的低频更新特点,空间插值的方法也难以用于高频的动态人口估计。
2.1.3 统计回归方法
回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。随着遥感和GIS技术的发展,多种类型地理大数据的获取为城市人口时空分布估计提供了新的信息来源。统计回归方法则可以构建多源地理大数据和静态人口分布之间的定量关系模型,是一种自下而上的估计思想,且不需要输入人口普查数据。根据数据类型的不同,部分研究者对统计回归方法的研究方向进行了初步总结。文献[6]在研究中将其分为遥感光谱与人口的关系、遥感和GIS间接构建人口指标及通过遥感影像获取土地利用数据3类研究方向。文献[12]将其分为土地利用类型法、基于像元特征法和多源信息融合法3类。综合相关研究成果,本文将统计回归方法归纳为基于遥感图像像元特征、基于遥感和GIS数据特征融合2类。
基于遥感图像像元特征的回归方法期望建立人口分布与遥感图像像元特征的关系模型,常见的特征量包括波谱、纹理、夜间灯光。文献[80]使用遥感图像的像元结合多元回归方法建立了人口分布估计的模型,并在日本关东和东京市进行了500 m格网的人口分布估计。文献[81]研究了TM影像中不同波段的光谱值与城市人口密度之间的关系并利用Spot影像对香港基于行政区划TPU单元进行了人口分布的估计[82]。文献[83]在波谱值的基础上引入纹理信息共同估计人口分布。文献[47,84—85]引入了美国的国防气象卫星计划数据,研究表明灯光强度、灯光等级、灯光区面积等属性与人口分布存在较高的相关性。除了直接利用遥感数据像元特征估计人口分布以外,相关研究者从遥感图像中进一步提取与城市人口分布相关的信息对城市人口分布进行研究。文献[86]根据遥感影像上解译的建筑物数量对人口普查数据的精度进行了验证和比较。另一种常见的从遥感数据中提取的信息是土地利用数据,相关研究表明人口与土地利用类型尤其是居住地最为密切。文献[87]利用遥感影像获取土地利用数据绘制了英国莱斯特郡1×1 km格网的人口分布数据。文献[88]建立了土地利用类型与人口数量的回归模型并对中国多个城市进行了1×1 km的人口分布估计。然而,由于不同地区获取的遥感图像数据在难易程度、数据质量和空间分辨率上具有较大差异,导致仅输入遥感图像特征的模型迁移性较弱。
为了解决上述问题,相关研究者进一步引入多种类型城市地理要素作为影响因子构造多源数据特征融合的回归模型。文献[46]基于全球人口数据集Landscan结合夜间遥感、土地利用数据、人口普查、DEM和道路网等数据建立了1×1 km网格的人口分布数据。文献[51]分析了与人口分布相关的GIS因子,如土地利用、高程带、坡度带、坡向带等。文献[89]基于遥感影像、土地覆盖和DEM等数据结合决策树建立空间单元的权重估计了城市100×100 m的人口分布。文献[56]基于遥感和多种GIS数据采用单个空间单元内影响因子贡献比重的方法,构建了回归估计模型,有效提高了估计的精度。近年来,城市兴趣点(POI)是静态人口分布估计中最流行的建模数据,由于其类型多、数量大,以及与静态人口分布关系密切的特点,众多研究者增加POI数据建立了更准确、精细化程度更高的回归模型[90-95]。文献[96—97]引入了建筑物数据,利用建筑物与静态人口的强相关关系修正估计结果,提高了估计精度。进一步,随着深度学习技术的发展,文献[98—99]将高分辨率夜间灯光、土地利用和地形等遥感数据输入卷积神经网络进行训练,得到大范围的高精度人口分布估计结果,在人口数量稀疏地区具有良好的精度。
高分辨率遥感影像城市人口分布估计模型的建模方法较为简单且估计精度较高并且随着近年来的遥感数据获取方式和类型增多,该方法具有很好的空间覆盖性和稳健性。而基于遥感和GIS数据特征融合的回归方法考虑了多种因素对于人口分布的影响,可以科学地为多个影响因子分配权重,较大程度地提高了城市人口分布估计的精度,空间分辨率可以达到几十米格网甚至建筑物级[5]。同时,该方法拥有良好的可扩展性,易与不同的GIS数据结合,是目前城市静态人口时空分布估计的最常用的方法。但是,随着建模要素的增加,该方法缺少数据间的相关性分析,各因子权重的确定与模型计算较为复杂并增加了信息冗余,同时也影响了对人口分布估计结果的可解释性。因此,上述方法中涉及的数据,如遥感数据、道路数据和POI数据的更新频率较低,一般以年为单位,在对高时间分辨率下的城市人口进行估计时较难利用其数据特征。
2.2 动态人口分布估计
与静态人口的定义相对,动态人口指的是在多个时间点上的人口状况总称。通过截取一段时间区间,以不同时间粒度反映城市某一区域人口的连续变化过程,即动态人口的状况是随时间不断改变的。由于动态人口分布变化的随机性和复杂性[100],并且缺少权威的动态人口分布数据,目前的研究方法主要围绕数据展开,实际上研究的是不同时间粒度下的人口活动量和相关特征。本文针对主要研究数据类型将相关方法分为基于土地利用类型、基于带有个体时空标记的数据和其他动态估计方法3类。
2.2.1 基于人口普查和土地利用分类数据的估计方法
遥感和GIS数据由于数据获取频率较低,一般为某一时刻下的静态值,不能直接适用于动态人口分布估计,但是部分研究者以人口普查数据和土地利用类型数据在不同时刻存在人口数量的规律为基础,建立了土地利用-时间-人口数量的关系模型,从而对城市人口分布进行粗粒度的动态估计。文献[101]以重庆市北碚区为试验区域,从Google Earth影像中解译结合实地调研获取北碚区13种土地利用类型,同时引入土地利用类型吸引权重,根据居民上班、休息等出行行为,结合白天、夜晚两个典型时间特征构建7个时间段并将人口普查数据按权重进行分配。文献[102]根据城市人口活动规律将人口分为家庭人口、钟摆人口和随机人口3类,并建立了这3类人口与土地利用类型和时间的关系模型,进而利用不同土地利用类型的面积权重结合人口普查数据分配得到了北京市海淀区250 m格网下的昼夜人口分布情况。文献[103]采用相似的方法并进一步结合建筑物功能、楼层数和面积等信息估计了南京市秦淮区100 m格网的昼夜人口分布情况。
基于土地利用类型的方法初步实现了一天不同时间段内城市人口分布的估计,并以白天和夜晚两个主要时间段进行区分,同时通过土地利用数据并结合其分类语义描述的建模方法对人口活动模式具有较好可解释性和空间范围覆盖性,与人口统计数据的结合能够反映人口分布数量的空间特征。但是,由于对人口出行规律认识不足、人口行为随机性和土地利用类型划分不精细等问题,这类方法的研究结果时间分辨率较低,通常只能达到昼夜的粗粒度估计,对于昼夜时间段中更精细的人口活动表达和挖掘能力较低。
2.2.2 基于个体时空标记数据的估计方法
随着传感器、无线通信技术和网络技术的发展,移动电话、智能卡、GPS等泛在传感器被大量普及[104-105],产生了大量内容丰富、属性详细和细粒度的新型数据,这些数据大都带有个体粒度的时空标记,为长时间、高精度、高效地跟踪个体空间移动提供了可能性[106-109]。因此,大量人类时空研究开始基于如GPS数据、智能卡数据、社交媒体数据和手机数据等进行开展[110-113],这也推动了城市人口时空分布估计的方法从“计量假设”到“实际行为”的转变,为城市人口分布研究提供了新的研究范式[114]。本文根据近年来的研究成果中数据的类型、用户群体和时空间粒度等特点的不同,将其归纳为基于智能卡刷卡数据、基于社交媒体数据和基于手机数据3类方法。
(1) 基于智能卡刷卡数据的估计方法。随着现代城市的发展,城市公共交通体系的建设也逐渐完善,在方便城市人口出行改善城市交通状况的同时也储存了大量由智能卡产生的刷卡记录数据,例如公交车、城市地铁等[115-116]。这些记录中通常包含精细的时间和空间信息[117],结合广泛分布的公共交通站点,可以为动态人口时空分布估计提供新的研究思路。文献[28]基于北京市公交车站点数据,结合公交车刷卡记录估计了北京市人口在早晚就业通勤和家庭活动时刻的位置分布进而识别了持卡人的居住地、就业地。文献[62]基于北京市173个地铁站的刷卡进出数据构建了以北京社区为空间单元的小时级粒度人口分布估计模型,并基于夜晚休息、早通勤、白天工作、晚通勤和晚间活动等多个典型时间段进行了研究。文献[118]基于上海市289个地铁站点,基于一周的地铁刷卡数据识别单元内通勤、工作和休闲时间段的人口数量,通过面积权重将人口数分配到街道级别。
基于智能卡刷卡数据的估计方法具有较为连续的时间分辨率,相比土地利用数据,可以估计一天内任意时刻的人口活动情况,并且对人口的通勤空间分布特征有较好的反映。但是,智能卡刷卡记录只能反映人口的行为片段,该方法在城市人口出行高峰的时间段精度和采样频率较高,对于没有出行行为人口或出行活动较少的时间段无法很好地表征。目前的研究一般以某一种公共交通数据为研究对象,以此来研究人口活动具有一定的局限性,随着智能卡功能的升级和公共交通体系的统一,在未来其数据仍然有很大的研究价值。
(2) 基于社交媒体数据的估计方法。网络信息技术和智能感知设备的发展提供了各类丰富的应用软件,改变了人们的生活行为方式,这其中有越来越多的应用软件使用基于位置的服务(LBS)技术或由于用户记录从而提供大量关于个人的时空信息[119],社交媒体就是其中的典型应用[120]。在使用社交媒体的功能中会产生定位信息,如社交媒体的签到功能可以直接捕捉人口的活动位置[121];社交媒体用户发布的消息和内容也包含着用户的时间和空间信息,从而形成用户的时空分布轨迹。例如Twitter、Flickr的推文[122-123],因此这就为动态人口分布估计提供了新的数据源。文献[124]分析得出Twitter的推文可以提供小于10 m空间分辨率的大量人口样本。文献[125]基于新浪微博签到数据结合聚类算法将南京市划分为90个空间子单元,并将一天24 h根据休息、工作、通勤、休闲活动分为8个典型时间段进行人口分布特征研究。文献[13]基于Twitter的地理推文数据将印度尼西亚雅加达地区3级行政区域的人口分布数据映射到4级行政区域,结果表明地理推文数据有效提高了人口分布估计的精度。文献[79]提出社交媒体数据不仅可以作为传统人口分布估计的一种协变量,也可以单独作为数据源估计动态的人口分布情况。
基于社交媒体数据的方法具有米级空间分辨率和小时级时间分辨率,数据中包含的用户信息可以持续地对大量人口在时间和空间上进行直接映射。相较于智能卡刷卡数据,该类数据在连续单位时间上的用户采样更为均匀,避免了不同时间段内的数据稀疏性,并且对夜晚休闲时间的活动人口特征进行了较好表达。但是,社交媒体数据具有明显的采样偏差问题,其用户主要反映的是城市人口中的年轻人群的活动特征,从而导致在空间上存在较多的零分布单元或稀疏单元即数据盲区,进而对研究结果产生误差;同时社交媒体数据的数据量较大,错误数据、无效数据和重复数据较多,数据预处理工作较为复杂。目前社交媒体数据一般作为参考数据或协变量应用于城市人口时空分布估计,由于其数据记录详细、时空信息准确等特点,一直是相关研究关注的热点。
(3) 基于手机数据的估计方法。智能手机作为现代化的通信设备已经在社会上广泛普及[126],手机的通信行为、应用行为和管理行为产生了大量带有手机用户时空特征的信息,例如信令数据、通话记录数据等,这些数据由手机网络运营商收集且成本低廉[127],因此已经有众多学者利用手机数据对城市人口的时空活动进行了跟踪、分析和研究[128-132]。
基于手机数据的特点和研究成果,近十年来使用手机数据对动态人口时空分布进行估计已经成为国内外研究的热点。针对手机通话记录数据,文献[133]利用每个移动基站的话务量数据建立了深圳市1 km格网每小时的人口分布估计模型。文献[134]分析了手机呼叫数量数据与人口数量之间的相关关系,并用Landscan数据集进行了验证。文献[61]将手机呼叫记录数据及里斯本的人口普查数据映射到100 m格网,并分析了手机数据在动态人口分布估计上的可能性。文献[59]基于手机呼叫数据结合人口出行调查数据,利用多元回归模型建立了日本多个城市500 m格网每30 min的人口分布估计模型。针对手机信令数据,文献[63]综合了3个手机运营商的手机信令数据,以3个运营商的基站服务范围为基础建立人口分析子单元,并利用POI数据将不同时刻的基站通信用户数量分配到子单元中估计人口分布的情况,同Worldpop数据集的验证结果表明其估计精度要高于其他模型。文献[135—136]基于手机信令数据以基站服务范围为空间单元,利用数据反演的方法估计了上海市每30 min的人口分布情况,并将结果分别映射到1 km和500 m的格网中。在此基础上,文献[137—140]结合GIS数据通过插值方法来弥补空间精度不足的问题。
基于手机数据的估计方法具有估计精度高、模型易操作和时间分辨率高等优势。相比其他新型数据,由于其用户覆盖群体范围较大且不存在群体偏差,因此对于任意一天内任意时刻,典型的人口活动时间段都具有较准确的特征表达。但是,该方法在空间分辨率上直接受手机基站的密集程度的影响,在基站布设稀疏的城市就限制了其研究结果的应用范围,并且不同手机运营商的市场占比不同,不能直接与真实的人口分布特征相关联;同时以基站为质心建立数学多边形作为空间单元偏离了城市人口的实际聚合方式,从而会导致对城市人口时空特征认知的偏差[60],其结果展示一般需要做插值或数据映射。
2.2.3 其他动态估计方法
除了上述估计方法以外,相关学者也采用了其他方法对动态人口分布进行研究。文献[141]基于遗传算法模型结合地形地貌、交通设施、土地覆盖等GIS因子对山西省和顺县1 km格网的人口分布进行了动态模拟。文献[142]根据耗散结构理论自组织建模原理,在费尔哈斯模型基础上以城市区域人口为状态变量模拟了广州市人口分布。同时,部分研究者基于智能体模拟方法以家庭或个体为人口估计单位随机生成人口分布数据,根据辅助GIS数据或社会经济数据对单位人口进行迁移模拟,经过迭代达到稳定状态即为城市人口分布的估计结果[2,143]。另外,高分辨率的遥感数据对于大范围的动态人口分布的研究提供了进一步的支持。文献[144]以随机森林模型为基础结合夜间灯光遥感数据、建筑物数据及人口活动模式设计了小时级人口分布估计的框架。文献[145]利用城市内不同功能、地形和地貌的遥感图像和LBS轨迹数据输入卷积神经网络模型进行训练,进而研究分析了多个城市的日常人口活动特征,尤其在传感器数据难以获取的稀疏地区具有更好的应用效果。上述方法中以智能体为代表的模拟模型随着模拟单位数量和影响因子的增加,计算量急剧增加,很难得到准确模拟结果[3]。而基于高分辨率遥感数据的研究由于数据精度高、易获取和覆盖范围广的特点,其空间分辨率较高且空间均质性较好,具有较好的方法普适性和迁移性。然而上述方法多基于更新频率较低的数据,因此在时间分辨率上还有待进一步精细化。
综上所述,目前的人口时空分布估计方法针对估计对象可以分为静态人口分布估计和动态人口分布估计2个方向(表1)。其中,静态人口分布估计方法经过长期发展,研究成果已较为丰富。以空间插值和统计回归为代表,其估计结果的空间精度可达到几十米级粒度,进一步可以达到建筑物粒度,建模的数据和特征也相对成熟。而对于动态人口分布估计,由于城市人口动态变化的复杂性,无法得到真实的高频人口分布,目前的研究还主要依赖于新型的个体时空标记数据作直接统计和简单特征提取,并对不同时刻和典型时间段的人口活动特征进行合理估算,估计结果取决于数据质量,时空分辨率不稳定。
表1 不同模型与方法特点Tab.1 Characteristics of different models and methods
3 人口分布估计在城市发展管理中的应用
城市人口的研究与城市发展有着本质上的联系,这是因为城市的发展实质上就是人的发展,人口为城市的繁荣发展提供推动力,反之,城市的良好发展也会提高人口生活质量和幸福指数,二者紧密关联,互相促进。相较于城市经济、文化的研究,对城市人口的研究具有更重要的意义,其中城市人口分布具有重要的参考价值。目前,城市人口时空分布估计的研究成果已经在城市发展管理中得到了一定的应用。
3.1 城市空间规划
城市的空间规划是城市建设和管理的基础内容,其具体的表现就是城市的空间结构。空间结构是城市发展的宏观体现,是人口发展、政策规划、自然环境等因素共同作用下人类空间活动和区位选择的积累结果[146-147],对城市空间结构的分析既是对已有城市空间规划的验证也是对未来规划的重要参考,例如城市空间结构中的中心区域、功能区域和热点区域都是政府管理和规划的聚焦点[148-149]。传统方法在解决这些问题的时候一般采用调研、政策统计、经济文化数据推测和人为经验等方法,这些方法具有“局部局限性”和“理论化”等问题,而通过城市人口时空分布估计的结果可以更直接和客观地反映出城市空间结构的实际情况。文献[78]利用空间插值结合DEM数据方法识别了沈阳市的人口分布情况,其结果表明沈阳市发展不符合单中心范式,具有11个明显的人口分布核心,城市空间结构上具有多中心特征。文献[150—151]分别利用社交媒体数据和移动手机数据进一步识别了城市的多中心结构。文献[152]利用英国某电信厂商的通话定位数据分析了几十亿条人口交易记录的分布,从考虑地理区域和居民联系强的角度上提出了一种细粒度的城市区域划分方法。文献[125]利用新浪微博的签到数据研究了南京市人口在不同时间的分布位置,并将南京市人口活动区划分为就业活动区、居住活动区、休闲活动区、夜生活活动区和综合活动区5类。文献[153]利用手机数据区别了上海市用户的日间驻留地和夜间驻留地,其结果表明上海市的空间结构在中心城区和郊区之间还存在一个中心城通勤区,中心城通勤区以内和以外区域存在显著差异。文献[154]利用空间句法和百度LBS大数据比较了合肥市城区理论规划的人口密集区域和实际情况的差异,结果表明由于交通可达性、人口生活习惯等问题,理论上的人口密集区域存在与实际密集区不符的情况。
3.2 基础设施配置与交通资源优化
城市的基础设施和交通系统一直是城市研究和管理人员关注的重点之一,通过分析人口在城市内的行为轨迹、活动强度和行为特征,能够揭示城市人口的活动演化规律及城市地理现象[105],可以为城市交通资源优化、基础设施配置提供支持,而动态的人口分布数据可以很好地提供人口在时空中的实际变化情况。
文献[40]利用GPS和活动日志结合的方法对北京市郊区巨型社区的人口动态分布进行了研究,结果显示郊区社区人口的个体活动在工作日和休息日有较大差别,总体上对市区空间的依赖性较大,显示出郊区配套设施不完善、休闲和商业中心缺乏等问题。文献[34]基于手机数据定量分析了肯尼亚居民到达公共健康设施的次数和距离,结果显示距离医疗设施偏远的居民到医院出行频率明显增加,因为这些居民普遍缺少流行病疫苗的接种,表明肯尼亚的公共健康设施分布不均。文献[62]利用地铁智能卡刷卡数据分析了北京市每小时的人口分布情况和人口出行特征,结果表明北京人口活动从夜间到白天人口呈向心流动模式,同时在晚高峰的人口估计总数低于早高峰,说明晚高峰有一部分居民在没有时间压力的情况下选择了其他交通出行方式。文献[138]利用手机信令数据分析得出上海市人口白天向中心聚集,夜间向郊区分散,就业人口较居住人口具有更显著的中心聚集度,从而产生明显的职住关系不匹配现象,是交通拥堵发生的重要原因。
3.3 商业格局识别与规划
城市的商业发展是城市经济的重要组成部分,通过结合城市人口的时空分布情况可以为识别商业空间格局和商业规划调整等应用提供信息支持。文献[155]基于社交媒体签到数据分析了上海市人口分布的热点区域,同时结合百度的POI数据提出了商业店铺选址的4个影响因素:多样性、竞争性、相关性和客流性。文献[156]基于百度POI和热力图数据分析了株洲市天元区人口空间分布和商业空间聚集情况,结果表明天元区零售业较为发达而服务业较为滞后,需要开展商业业态调整。文献[157]以赣州市中心人口分布数据为基础,结合经济社会发展、POI数据、城市总体规划数据对赣州市中心商业中O2O电商和实体商铺的分布格局进行了分析和研究,进而提出了传统商业转型的一些建议。
3.4 城市综合管理
城市人口时空分布除了上述应用之外,还可以应用于城市公共安全、城市环境与居民健康、城市防灾减灾等方面,为城市的综合管理提供科学建议。文献[158]利用移动电话数据进行实时的人口分布估计并应用于2010年尼泊尔、海地地震后受灾人群和人口迁移的评估,结果显示手机数据很好地反映了地震后人口时空分布的变化,尤其是加德满都山谷人口数量明显高于正常水平,较多人口也迁移到了尼泊尔中南部地区,为灾害救援和人道主义机构提供了及时的信息。文献[159]以百度地图用户在出行之前的查询记录数据,对城市人口分布进行了1~3 h的提前预测,并分析出可能的人口群体聚集区域,同时设置人群数量阈值进行人群灾难预警,结果表明百度地图查询数据与区域内定位用户数量之间存在强相关关系,能够以定量方式预测群体风险事件。文献[15,160]通过移动电话数据获取了动态的人口分布,同时结合基于测量站点的PM2.5的观测值,实现了人口在PM2.5中暴露的实时估算,研究表明通过考虑人口分布和PM2.5的时空变异性建立一个环境污染物暴露评估的框架,有效地支持了相关环境政策的调整。
4 存在的主要问题与未来研究展望
尽管对于城市人口时空分布研究的成果已经相当丰富,但由于城市人口分布的随机性、复杂性和已有方法模型的局限,目前的研究还存在一些问题,这同时也是未来的研究方向。
4.1 场景关联的人口分析单元构建
目前,常用的空间分布单元包括行政区划、格网、建筑物等,这些空间单元对人口分布刻画的精细程度、表达效果都不尽相同,在实际应用时可能存在精细化程度不足、空间连续性低、与城市空间形态不符等问题。需要以人口分析为核心,以应用场景为导向,构建相应的人口分析单元。其中,场景一般具有多尺度、多类别以及动态变化的特点,然而当前对于场景的定义模糊,场景需求认知方法研究较少,同时还缺乏空间单元和场景变化关联标准,这些问题都导致单元划分和构建结果可能无法支撑后续的人口时空分布研究和建模。因此,需要从场景认知角度出发,研究人口分析单元的系统构建方法。首先,研究城市应用场景的具体需求认知方法,包括时间、空间、属性等特征,并与人口分析单元进行关联性表达。然后,在此基础上,人口时空分布估计的研究对象是城市人口,需要针对人口时空分布研究的目标、尺度并从人口分布特征和规律角度出发考虑一种普适性空间单元的构建,从而提高结果的科学性和解释性。最后,可以考虑不同尺度的人口分布特征和主要影响因素,并结合场景认知结果,研究多个空间尺度下场景关联的单元自适应构建方法,有效支撑应用的开展。综合上述研究方向构建人口分析单元,可以更好地挖掘人口分布规律与模式,尤其可以获取更长效的动态人口数据;同时可以契合场景需要的人口分布信息和可视化方式,支撑进一步的应用分析。
4.2 多源异构数据的融合
带有个体时空标记的新型数据为城市人口分布估计带来了丰富的信息和新型的研究模式,也具有难以相互融合的研究局限和使用误区。目前的主要问题在于:①新型数据大多具有采样偏差的问题,每种数据背后代表的人口群体数量、空间范围都不同并且存在交叉,不能作简单的相加处理进行融合;②时空尺度一致的数据很难收集,尤其在时间尺度上,是数据融合的关键;③对于新型数据和城市人口分布的关系,在方法模型上还比较匮乏,研究结果很大程度决定于数据;④在大数据时代的冲击下,部分研究者以数据决定论的方式开展研究而没有关注人口分布背后的原因和机制。因此,未来对新型数据的研究可以从以下几点展开:①解析不同数据的具体特点,从空间覆盖范围和与人口相关性高低上寻找数据融合的突破点;②解决时空尺度一致问题,考虑在时间尺度上设定标准的时间尺度作映射;③引入以AI为代表的智能的建模方法,提高模型处理多源数据的能力;④数据是服务于理论的工具,是为了证明理论的前提和假设[161],应坚持对数据确定性的追求并从数据中挖掘有效的信息。
4.3 数据依赖与规律驱动建模
数据质量一直是城市人口时空分布估计的重要基础,目前的研究中,存在大量数据时空间尺度不匹配、数据缺失和依赖数据质量等问题,给数据的前期处理和建模带来了较大的困难。此外,部分研究基于试验地区特点,在数据和模型上做了特定处理和调整,导致研究结果的泛用性较差,没有挖掘人口分布的实质规律,不同的区域或城市很难复用其成果,例如文献[162]利用街区的人口统计数据进行建筑物级的人口分布估计,而在我国公开获得的人口统计数据只能到区县一级。因此,在未来的研究中需要从人口分布关键特征挖掘和提高模型可解释性的角度开展以下方向研究:①基于通用、易获取或少量的数据进行建模,提高模型的泛用性;②从空间区域属性差异对人口分布的影响角度出发,对城市进行分区建模和估计,例如,对城市空间区域按人口密度、功能、城市开发强度、离中心距离等属性进行分区,可以有效提高估计精度,并增强分布结果的可解释性;③对人口分布从时间和空间特征上进行分解,例如在时间上可分为长期分布模式、短期分布模式和随机分布模式,在空间上可分为全局分布概率和局部分布概率的研究,进而组成可泛用、可迁移的人口分布估计框架。
城市人口分布估计的研究需要考虑基于通用的或质量一般的数据,以挖掘人口时空分布规律和模式为目标建立模型,从而提高模型的普适性和规律性,同时结合长期的数据获取机制,使研究结果能够持续获取人口分布信息。
4.4 估计结果的科学验证
人口时空分布估计结果的验证一直是研究中的重要步骤,现有研究主要是通过与人口统计数据比较或采样验证的方法对结果进行验证。但是这种方法是一种粗粒度的验证,只能对人口总数作大致的检验,而对于精细化程度较高的模型无法适用,尤其是对高空间分辨率和动态人口分布估计研究,由于缺少权威的数据支撑,其研究结果很难做科学验证,从而无法对模型做有效的反馈修改。因此,除了依靠政府提供的精细化人口数据作为支撑,还需要建立估计结果的验证机制:①参考全球的或国内的人口分布数据集进行验证对比,例如GPW、LandScan、Worldpop等可以提供空间和时间尺度上的公开数据集;②利用不同来源和采样频率的数据结合机器学习、深度学习等多种模型分别进行建模,并对结果进行相互验证,提高结果可信度;③考虑在研究区域内开展随机采样,并对区域内人口变化进行实地调研和统计,对比研究的总体精度,同时验证人口活动特征的科学性。
5 结 语
综上所述,首先在空间分布单元上,分为空间尺度需求、场景需求和研究数据需求3个方向,丰富了人口分布信息展现的方式和效果。在城市人口分布估计的方法上,针对静态人口,从传统城市密度模型和分配人口统计数据的空间插值法,发展为结合多种地理大数据的统计回归方法;针对动态人口,从时间粒度较粗的土地利用数据建模到基于新型个体时空标记数据的估计方法,极大地提高了城市人口时空分布估计的精确度和时空分辨率。在未来,从构建适应应用场景和表达时空分布特征的人口分析单元出发,应考虑如何融合多源异构数据并将静态人口建模的方法融入动态人口估计,提高模型的可解释性和规律性并减少数据依赖,同时提供科学的验证方法,进而获得长效、高时空分辨率的人口分布信息。