基于夜光遥感的粤港澳大湾区人口空间分布及特征研究
2023-04-18李姗姗林文坛
李姗姗,林文坛
(广东财经大学 文化旅游与地理学院,广州 510220)
人口数据是重要的社会经济数据,在社会政策制定、灾害评估预防、城市区域规划等领域被广泛应用(李飞 等,2014)。基于统计学方法获取人口数据所需成本高、更新时间长,难以揭示区域内小尺度人口空间分布差异(江东 等,2002)。人口空间化数据指利用数学模型或机器算法,将基于行政区划的人口统计数据分配离散而获得的栅格格网数据。该数据能模拟人口空间分布的真实状况,挖掘小尺度人口空间分布信息,便于参与多源数据融合分析(董南 等,2016)。目前人口空间化研究大多止步于人口格网数据的获得。人口空间化的基础数据精度有待提高且缺少对人口格网结果蕴含的人口空间分布信息的充分挖掘。
最初的人口空间化方法是在地形数据的基础上进行分区密度制图(Wright, 1936),该理念对后续研究产生深远影响。当前实现人口空间化的方法主要有线性回归模型(陈晴 等,2015;胡云锋 等,2018;金耀 等,2021;王美玲 等,2021a)、空间回归模型(李翔 等,2017;吴献文 等,2021)和基于多源数据融合的随机森林算法等(谭敏 等,2017;朱守杰 等,2020)。线性回归模型分区方法的选用取决于研究区特征,相比于整体建模更有利于提高空间化精度;空间回归模型对不同的空间关系赋予不同的权重以参与建模;而随机森林算法依靠大数据和人工智能,实现难度较大。
夜光遥感数据记录了无云环境下地表物体发射的多种电磁波信息,能表征人口活动的空间范围和特征,是人口空间化的重要基础数据(徐嘉源 等,2021)。该类数据与人口密度显著相关(Suttonet al., 1997),具有更新周期短、信息丰富、检测范围大,易获取等优点(李德仁 等,2019)。珞珈一号卫星(Luojia1-01)是全球首颗专业夜光遥感卫星,也是国际上第3颗具备夜间灯光数据拍摄能力的卫星。其空间分辨率高达130 m,空间覆盖范围约250 km×250 km,辐射范围更宽,能清晰地揭示小尺度城市内部空间信息,更适用于人口空间化研究(陈颖彪 等,2019;钟亮 等,2019;刘权毅 等,2021)。
因此,本文以粤港澳大湾区为研究区,融合珞珈一号夜光遥感数据和高精度的土地利用数据,在区县级尺度上构建分区逐步回归模型获得500 m 人口格网数据,并从多角度揭示粤港澳大湾区2020年的人口空间分布特征。以期为粤港澳大湾区城市规划、资源配置、灾害防治、政策制定等提供参考。
1 研究区概况与数据
1.1 研究区概况
粤港澳大湾区包括广东省的广州、佛山、深圳、中山、珠海、惠州、肇庆、江门、东莞9个市级行政区以及香港、澳门2个特别行政区,总面积5.6万km2。粤港澳大湾区是中国经济活力最强,人口增长最为迅速的区域之一,是典型的人口集中分布区域。截至2018 年,该区域常住人口约为7 120万人,人口密度约为1 273 人/km2(邓昊键 等,2020)。粤港澳大湾区内部由于经济发展不平衡,人口呈现分布不均的空间格局。
1.2 数据来源
数据及描述见表1所示。
表1 数据来源及参数Table 1 Data sources and parameters
1.3 数据预处理
考虑粤港澳大湾区的地理位置,将大湾区所有空间数据的投影坐标统一为WGS_1984_UTM_Zone_49N(张雨欣 等,2020)。
1.3.1 珞珈一号夜光遥感数据预处理 首先,基于大湾区一级道路矢量数据,完成遥感影像几何校正。其次,去除背景噪声和极大异常值。珞珈一号影像的背景噪声主要出现在乡村、林地和水体等区域(王美玲 等,2021b)。统一珞珈一号与SNPP/VIIRS影像的量纲以确定噪声阈值,计算公式为:
式中:L为珞珈一号影像统一量纲后的辐射亮度值,单位为nW/(cm2·sr);a为带宽,取值为0.52 μm;DN为图像灰度值。
叠加天地图识别珞珈一号统一量纲后的影像背景噪声区,以平均值1.137为阈值,对SNPP/VIIRS影像进行去噪,并作为掩膜数据去除珞珈一号影像背景噪声。计算珞珈一号影像各栅格的8邻域的标准差(Standard Deviation STD)。将标准差>722 07(不足1%)的栅格进行中值滤波。对去噪后的珞珈一号DN 值影像进行辐射校正,计算公式(王美玲等,2021b)为:
式中:R为珞珈一号辐射亮度值,单位为W/(m2·sr·μm)
1.3.2 其他数据预处理 粤港澳大湾区设立了诸多经济产业园区,如肇庆的大旺高新区。该类经济区不具有行政性质,但其社会经济数据在各城市年鉴中单独统计。因此,以地理位置和区县级行政区划数据为依据,将其常住人口数据添加到对应区县级行政区划中,便于回归建模。并对珞珈一号辐射亮度值进行双线性重采样至土地类型数据的空间分辨率。
1.3.3 人口空间化指数的提取 将珞珈一号辐射亮度与土地类型数据融合,获取土地融合夜光指数,用于人口空间化。借助珞珈一号影像识别耕地、草地和林地上的少量人口聚集点,同时,高精度土地类型数据可以缓解不透水面处夜光遥感数据像元值饱和的问题。计算公式为(金耀 等,2021):
式中:LTRj为某区县级行政区划的第j种土地融合夜光指数总量;LTjk为某区县级行政区划第j种土地类型第k个栅格的土地类型代码;Rjk为某区县级行政区划第j种土地类型第k个栅格的珞珈一号辐射亮度值。
4 种土地融合夜光指数见图1 所示,可知,土地融合夜光指数综合了2类数据对人类活动的表达优势,空间差异性更明显,能揭示人类活动更多的细节信息,可为逐步回归模型的构建提供与常住人口数据显著相关的自变量因子。
图1 粤港澳大湾区4种土地融合夜光指数Fig.1 Noctilucent index of four land types in the Guangdong-Hong Kong-Macao Greater Bay Area
2 研究方法
首先,利用区县级常住人口密度进行研究区分区。其次,基于融合数据构建人口空间化逐步回归建模,验证建模结果精度。最后,在500 m 人口格网数据基础上从人口数量和密度、空间方向性和集聚离散特征等多角度揭示粤港澳大湾区2020年的人口空间分布特征。技术路线如图2所示。
图2 人口空间化及特征研究技术路线Fig.2 Technical route of population spatialization and characteristic research
2.1 研究分区
由于区域条件差异性,对研究区分区建模可提高人口空间化模型精度(金耀 等,2021;王美玲等,2021a)。根据粤港澳大湾区2020年各区县级行政区划常住人口密度数据,按分位数法将791、3 358、9 527 人/km2作为分区临界值,划分出低密度区18 个区县、中低密度区17 个区县、中高密度区17个区县、高密度区17个区县(图3)。
图3 粤港澳大湾区人口密度分区结果Fig.3 Results of population density zoning in the Guangdong-Hong Kong-Macao Greater Bay Area
2.2 人口空间化模型的构建与检验
2.2.1 人口格网估算模型的构建 在Arc-GIS 平台提取各区县的不透水面、草地、耕地和林地融合夜光指数以及像元总数共8 个土地相关指标,与常住人口数据进行相关分析(表2)。结果表明:常住人口数与不透水面像元数以及4 种土地融合夜光指数总量均>0.8,呈显著正相关,可作为候选自变量。
表2 各区县2020年常住人口数与各土地相关指标的Pearson相关系数Table 2 Correlation coefficient between permanent resident population and land related indexes in each district and county in 2020
在SPSS内实现回归系数的计算。土地是人类活动的承载者,没有土地则没有人口,故回归模型不设置常数项(杨小唤等,2002)。自变量以步进方式进入方程。为确保网格人口空间化值为非负值,人为剔除初次建模后系数为负数的自变量指标,将剩余自变量再次引入构建模型。循环往复,直至回归模型所有自变量系数均为正数,最后获得4 个研究分区的逐步回归模型(金耀 等,2021)。回归模型方程为:
式中:Pi是某分区第i个区县级行政区划常住人口;M为土地类型种数,取值为4;LTRij和LTij分别是某分区第i个区县级行政区划第j种土地融合夜光指数总量和第j种土地类型像元总数;aj和bj分别是LTRij和LTij的回归系数,需通过分区回归建模获取。
综合考虑方程拟合度系数R2、显著性Sig、共线性VIF 等统计学指标,获得4 个拟合度高、自变量之间无明显共线性的回归方程,各分区方程系数如表3所示。
由表3 可知,各分区的线性回归方程拟合度均在0.9 以上,效果较好。低密度区拟合效果最好,不透水面与林地像元总数能解释常住人口97.7%的变化。
表3 分区线性回归模型系数Table 3 Zonal linear regression model coefficient
3)500 m格网人口初始模拟值计算
选择适宜的格网尺度能较好地揭示人口分布差异,并表达人口分布位置(董南 等,2017)。本研究区范围较大,选择500 m 分辨率进行格网人口计算(金耀 等,2021)。根据研究分区的线性回归方程,提取分区格网对应自变量,计算每一个格网的人口数目,公式为(金耀 等,2021):
式中:Pik是某分区第i个区县级行政区划第k个格网的人口初始模拟值;M为土地类型种数,取值为4;LTRikj为第i个区县级行政区划第k个规则格网内第j种土地融合夜光指数总量;LTikj为第i个区县级行政区划第k个规则格网内第j种土地像元总数。
4)500 m格网人口修正模拟值计算
人口初始模拟值和常住人口统计数据会存在一定误差,需确定每个区县级行政区划的修正系数以便校正,计算方法(金耀 等,2021)为:
式中:Ci为第i个区县级行政区划的人口修正系数;N为每个区县级行政区划内格网总个数。
利用修正系数对500 m 网格人口初始模拟值进行修正,确保人口初始模拟值与常住人口数相等,计算公式为(金耀 等,2021):
式中:Pikr是第i个行政区划第k个格网的人口修正模拟值。
2.2.2 500 m 格网人口模拟值的精度验证 人口初始模拟值区县级精度验证指标有决定系数(R2)、平均绝对误差(MAE)和平均相对误差(MRE)。R2用于衡量各个分区回归模型的拟合效果;MAE用于衡量回归模型在整个区域的精度;MRE用于衡量回归模型在分区区域的精度。计算公式为(王美玲等,2021a):
式中:S为需验证的行政区划总数;为第i个行政区划人口初始模拟值;为需验证的行政区划人口初始模拟值的平均值;Pi为第i个行政区划的常住人口数;为需验证的行政区划常住人口数的平均值。
人口修正模拟后,镇街级精度验证指标有相关系数(R)、均方根误差(RMSE)和平均相对误差(MRE)。R计算同式(8),MRE 计算同式(10),将替换为修正模拟值,替换为修正模拟平均值。RMSE是一种常用的衡量两组数据接近程度的统计学指标,计算公式为:
2.3 人口空间分布特征测度
选用人口密度分析、人口空间分布方向性分析和人口空间自相关分析开展人口空间分布特征测度。人口密度分析采用核密度分析法,该方法把核函数引入人口数据中,计算每个栅格单元的值。本文基于人口修正模拟值,将人口栅格转化为人口矢量点并开展人口核密度分析。人口空间分布方向性分析采用标准差椭圆法(Standard deviational ellipse, SDE),该方法是描述社会经济数据时空分布主体和分布方向的经典方法。本文绘制500 m 人口修正模拟栅格数据的标准差椭圆,以探究粤港澳大湾区2020 年的人口重心和人口空间分布方向性等特征。
采用全局莫兰指数揭示人口修正模拟值在区域整体上的集聚分散特征,并采用局部G-统计量(Getis-Ord)识别区域内显著性的人口冷点区(人口低值区域)和人口热点区(人口高值区)
3 粤港澳大湾区人口空间化结果精度与人口空间特征分析
3.1 粤港澳大湾区人口空间化结果精度分析
3.1.1 区县级人口空间化结果精度分析 区县级精度验证结果如表4所示。各研究区分区的决定系数R2均>0.8,说明区县尺度夜光遥感数据与人口分布有明显的相关关系。粤港澳大湾区整体MRE 和人口空间化结果表明其数量级与常住人口数量有关,适用于同一研究区基于不同夜光遥感数据的人口空间化结果的精度比较。
表4 区县级人口空间化结果精度验证Table 4 Validation of accuracy of district-county level population spatialization results
3.1.2 镇街级人口空间化结果精度分析 随机选取504个镇街级行政区划常住人口数据进行精度验证,相关系数R为0.897,RMSE 为100 947.914,MRE为67%,说明大湾区镇街级行政区划的人口修正模拟值与常住人口数具有较高相关性。对504个镇街级行政区划MRE 分4 个等级进行统计:准确(MRE≤15%)、较准确(15%
根据区县级和镇街级行政单元的精度验证,粤港澳大湾区2020年人口空间化结果可信。珞珈一号影像和高精度土地类型数据的融合处理可确保人口空间化结果精度。
3.2 粤港澳大湾区2020年人口密度空间分布特征
图4显示,整体上,粤港澳大湾区存在人口分布不均的空间格局和人口数量从聚集高值向周围低值辐射递减的分布规律。从局部看,大湾区存在五大人口集聚区:分别是广州的天河、越秀、海珠、荔湾和白云区西南部组成的人口集聚区;东莞内部环形特征人口集聚区;深圳西、中和北部人口集聚区;港澳人口集聚区;以及肇庆端州月牙形人口集聚区。此外,还有部分人口集聚点和集聚小区分布在五大人口集聚区、交通干道或枢纽周围。人口稀疏的区域主要分布在大湾区边缘区,少量分布在城市腹地。空间化结果表明,土地融合夜光指数对区域人口空间分布细节具有较强的表达能力。该格网数据在行政区内显示平滑,展示人口密集区的分布差异,且在行政区边界处没有突变。同时,该结果可识别出大湾区内人口集聚点,描绘人口空间分布的细节信息。综上,珞珈一号影像融合高精度土地类型数据在人口空间化研究中具有较大应用潜力。
图4 粤港澳大湾区2020年五大人口集聚区Fig.4 Top five population clusters in the Hong Kong and Macao Greater Bay Area in 2020
将人口修正模拟格网数据转化为矢量点数据,进行人口核密度分析。利用自然间断点法,将人口核密度分为人口低核密度区、中低核密度区域、中高核密度区和高核密度区4类区域(图5)。整体上,粤港澳大湾区2020年的人口密度空间分布呈圈层结构,由高核密度区域不断向外辐射衰减,拓展延伸到低核密度区域。人口密度区与人口数量空间分布规律相似,两者具有高度协同关系。高核密度区主要分布在广州、深圳和香港,且特征不同。深圳的高核密度区在西、中和北部各区均有分布,说明深圳各区各具特色,人口聚集分布相对分散。而广州的高核密度区较为集中,密度向外衰减较快,大部分区域都是中高或低核密度区,说明广州人口聚集程度高,且各区发展不均衡尤为明显。
图5 粤港澳大湾区2020年人口核密度分区Fig.5 Population core density zoning of the Guangdong-Hong Kong-Macao Greater Bay Area in 2020
3.3 粤港澳大湾区2020 年人口空间分布方向性分析
由于香港没有镇街级行政区划,将其下辖的北区等18个行政区划作为镇街级行政区划参与分析。以人口修正模拟值为权重字段,通过ArcGIS 的方向分布工具生成粤港澳大湾区2020年人口分布标准差椭圆(图6)。
图6 粤港澳大湾区人口标准差椭圆Fig.6 The Guangdong-Hong Kong-Macao Greater Bay Area population standard deviation ellipse
人口标准差椭圆参数如表5所示。加权平均中心显示粤港澳大湾区2020 年人口重心坐标大约为22°52'33"N、113°33'54"E,位于广州与东莞边界的虎门港。1 级标准差椭圆主要覆盖广州南部、东莞、深圳大部分、香港北部、中山中北部和佛山东部,占大湾区面积的27.64%。而该范围包含大湾区约68%镇街级行政区划人口数据,基本与五大人口密集区的空间分布规律一致,反映人口在该区域具有明显的空间集聚特征。2 级标准差椭圆能覆盖约95%镇街级行政区划人口数据,足以说明大湾区人口分布的主体情况。
表5 粤港澳大湾区2020年人口标准差椭圆几何参数Table 5 Elliptic geometric parameters of population standard deviation of the Guangdong-Hong Kong-Macao Greater Bay Area in 2020
从方向性看,长半轴远大于短半轴,说明人口空间分布方向性明显。大湾区人口大致沿着西北-东南方向延伸,主要集聚区沿佛山-广州-东莞-深圳-香港方向分布。究其原因,近年来粤大湾区城市群间加强了协同发展力度,香港和澳门与内地经济交流愈发频繁,经济辐射效应明显,吸引大量人口沿该方向集聚。
3.4 粤港澳大湾区2020 年人口空间自相关分析
3.4.1 粤港澳大湾区人口全局自相关分析 使用ArcGIS 的空间自相关工具进行全局自相关分析。根据地理学第一定律,将参数空间关系概念化选择为INVERSE_DISTANCE_SQUARED。计算结果MoranI指数 为0.369 881,>0 且 远>预 期 指 数(-0.001 534),方差值为0.000 351,说明粤港澳大湾区2020 年人口空间正相关,区域内存在人口值相似的聚集区。Z得分为19.820 599,远>1.96且P值为0,说明粤港澳大湾区存在显著的人口空间集聚。综上,粤港澳大湾区存在人口值相似且呈现集聚形态的行政区划。
3.4.2 粤港澳大湾区人口局部自相关分析 使用ArcGIS 的热点分析工具进行局部自相关分析。根据镇街级行政区划的Gi值高低和显著水平,利用自然间断点法,将粤港澳大湾区人口区分为5类:冷点区、次冷点区、随机分布区、次热点区和热点区。粤港澳大湾区人口以热点区、冷点区和随机分布区3 种分布模式为主(图7)。大湾区2020 年人口热点区主要集中在东莞、深圳和香港,并从东莞东部延伸至广州南沙区和佛山的东部的部分区域,该区域人口数量普遍高于平均值。次热点区分布范围较小且零散,人口随机分布区面积最大且连续,主要位于大湾区中部和边缘等部分城市。而冷点区和次冷点区连续分布于在肇庆中部和江门。少量冷点区零散分布在佛山西南端以及广州中部和东北部,该区域的镇街级行政区划的人口数普遍低于平均值。
值得注意的是,广州人口密集的越秀区、天河区和海珠区内的镇街级行政区划并不属于人口热点区。这并非说明上述区县级行政区的人口数量少,而是其内部镇街级行政区划较多,导致人口较少的行政区划分布在部分人口数量较多的行政区划周围,以至无法形成连续的人口热点区。
整体上,大湾区核心区域为人口热点区,环核心区域为随机分布区,在大湾区边缘西北西南端存在冷点区。由中心向边缘热度降低的分布显示人口空间分布的不均匀和聚集性,实施配套政策推动湾区经济均衡发展,吸引人口向周边扩散,势在必行。
4 结论与讨论
本研究结合珞珈一号影像和高分辨率土地类型数据,生成土地融合夜光指数,构建人口空间化分区逐步回归模型,获得粤港澳大湾区2020年500 m人口格网数据并进行精度验证,从人口数量、密度、分布方向性和冷热点区多个角度探究2020年粤港澳大湾区的人口空间分布特征。得出的主要结论有:
1)珞珈一号夜光数据和高精度土地类型数据融合使用有助于获得精细人口格网数据。珞珈一号影像可识别零散的人口集聚点;高精度的土地类型数据可区分夜光遥感数据饱和区的人口分布细节。
2)粤港澳大湾区2020 年人口空间分布特征表现为:在数量上分布不均,68%的人口分布在27.64%空间范围内,形成五大人口聚集区,分别是广州天河、越秀、海珠、荔湾和白云区西南部组成的集聚区;东莞内部环形集聚区;深圳西中北部集聚区、港澳集聚区和肇庆端州集聚区。人口数量从高值区域向低值区域辐射递减的分布规律,人口密度与人口数量具有高度协同的空间分布关系;在空间上方向性明显,人口主要沿佛山-广州-东莞-深圳-香港方向分布,沿线城市经济发达,协同发展程度高,说明经济活动是吸引人口迁移集聚的重要影响因素;在集聚特征上,有明显的人口热点区和冷点区,热点区主要分布在东莞、深圳和香港,冷点区域主要分布在肇庆和江门内部。广州天河区、越秀区、海珠区等区人口过于密集,需要政策加以干预以缓解人口压力,改善人居环境,促进区域协同发展。
与现有人口空间化研究相比,在方法上,通过提取土地融合夜光指数提高了人口空间化精度;在应用上,在500 m 人口格网修正值的基础上,利用多种空间分析工具进一步探究了人口空间分布特征,对政策制定等方面有参考价值。
但也存在以下不足:1)珞珈一号卫星在轨时间仅有6个月。由于数据获取限制,仅探究了粤港澳大湾区2020年人口空间分布规律。因此未来长时序人口时空分布规律探究可作为本研究的拓展方向。2)未能综合考虑研究区地理尺度和数据分辨率等多种因素以选择适宜的人口格网尺度,将在今后进一步深入探究研究区大小对建模方法选取的影响,研究数据分辨率对建模精度的影响等;3)使用非同一时空数据,造成人口空间化结果在镇街级行政区划精度有所下降。未来人口空间化研究应拓宽实验数据来源以保证其时空一致性。