基于珞珈一号夜间灯光数据的人口空间化研究
2021-09-27王美玲张和生
王美玲,张和生*
(1.太原理工大学,山西 太原 030024)
目前夜间灯光数据在人口空间化方面的应用十分广泛[1-3]。最早的夜间灯光影像是由美国国防气象卫星(DMSP)搭载的线性扫描业务系统(OLS)提供的。通过研究发现,人口密度与灯光强度显著相关,因此DMSP/OLS数据具有刻画人口空间分布的潜力[4]。 随着对D M S P/O L S数据研究的深入,学者发现DMSP/OLS数据在城市中心存在大面积的辐射饱和区域,这些饱和区域无法体现城市中心区人口分布的差异[5]。虽然有学者提出利用植被指数修正DMSP/OLS数据增加城镇用地内部人口分布的差异性,并通过城乡分区建模来提高空间化结果的精度,但由于DMSP/OLS数据本身精度不高,因此限制了人口空间化结果的精度[6]。同时,美国国家地球物理数据中心仅提供了1992-2013年的DMSP/OLS数据,不能用于近些年人口空间分布的研究。
2011年美国新一代极轨运行环境卫星系统预备项目卫星(NPP)搭载的航天器可见红外成像辐射计套件(VIIRS)拍摄的夜间灯光数据弥补了2013年后夜间灯光数据的空缺,且NPP/VIIRS数据分辨率较高,也不存在灯光饱和现象。利用多源数据建立回归模型发现,NPP/VIIRS和DMSP/OLS均可用于人口空间化分析,且基于前者反演的人口空间化结果精度较高[7]。随着研究尺度的不断缩小,受城市内部公共服务设施的影响,夜间灯光亮度值与人口值的相关性有所降低。为了进一步提高小尺度人口空间化的精度,胡云锋[8]等提出了利用夜间灯光数据和土地利用数据构建逐步回归模型的方法。王珂靖[9]等将NPP/VIIRS夜间灯光数据与商业、居住区空间分布相结合,利用空间回归模型得到了精细空间尺度的常住人口分布结果。随着机器学习算法的不断成熟,出现了利用机器学习算法对人口数据进行空间化的研究。此外,谭敏[10]等基于随机森林模型,利用夜间灯光数据、道路网络数据、水域分布数据等空间变量得到了珠江三角洲30 m格网的人口空间化结果。
地理空间模型在线性回归的基础上加入了空间要素,虽然结果的精度较高,但模型结构复杂、模型精度很大程度上受数据的空间分布影响;基于机器学习算法的人口空间化方法,虽然对数据结构要求低,但样本的选择对模型精度影响较大,同时自变量与因变量之间的数量关系模糊,无法明确各变量对人口分布的影响;而逐步回归模型的模型简单,能明确因变量与自变量之间的关系,且可通过分区进一步提高人口数据空间化结果精度,还可对各分区进行深入的精度分析,是在人口空间化研究中使用较多的方法。总的来说,利用夜间灯光数据和土地利用数据分区构建逐步回归模型,是适用于不同尺度的人口数据空间化的典型方法。
长期以来,国内研究采用的夜间灯光数据均来自国外。为了拥有属于自己的夜间灯光数据,武汉大学发射了全球首颗专业夜光遥感卫星——珞珈一号,也是目前国际上第三颗具备夜间灯光数据拍摄能力的卫星,具有重要的历史意义和研究价值[11]。与其他夜间灯光影像相比,珞珈一号夜间灯光影像的分辨率显著提高,具有明显的城市结构分布,能清晰地区分城市范围、道路以及大面积房屋[12]。虽然钟亮[13]等发现珞珈一号数据与人口数据的相关性较高,但缺乏利用珞珈一号数据的人口空间化研究。
北京市是我国政治、文化中心,经济发达,城市发展迅速,人口基数大;同时外来人口不断涌入城市,给城市资源、环境管理造成巨大压力,因此了解北京市的人口空间分布对北京的城市规划和综合管理具有重要的参考意义。
综上所述,本文以北京市为研究区,将珞珈一号和NPP/VIIRS数据分别与土地利用数据相结合,分区构建渐进回归模型,以实现北京市人口的100 m格网空间化,并对人口空间化结果进行了精度评价,旨在通过对比两种夜间灯光数据人口空间化的结果来说明珞珈一号数据在人口空间化方面的应用价值和潜力。
1 研究区域与数据来源
1.1 研究区概况
本文选取北京市作为研究区,总面积为1.641万 km2;人口众多,2017年常住人口高达2 170.7万人,是我国人口高度集聚的三大城市之一。北京市的西部和北部地区多山地丘陵,地形起伏较大,人口较少、分布相对集中;东南部地势平坦,居住着全市绝大多数的人口,占总人口的91%,科技产业园区、高等教育和科研机构、商业中心、行政中心,文化中心均分布于此,是人口分布高度集中的区域。根据北京市乡镇(街道)行政区划,全市分为325个行政区。本文将各乡镇(街道)的WorldPop人口数据总值作为行政区人口统计数据,再利用行政区统计人口和面积得到人口密度(最大可达3.3万人/km2)。根据人口密度,本文分别以0.2 万人/km2、0.56 万人/km2和1.53 万人/km2为界,将行政区划分为4个分区,如图1所示。
图1 人口密度分区图
1.2 珞珈一号夜间灯光数据
珞珈一号01星由武汉大学于2018年6月2日发射,是珞珈一号科学实验卫星系列中的第一颗卫星。珞珈一号01星配备高灵敏度的夜光摄像机,光谱带宽为0.319 μm,可获得高精度夜间灯光图像,夜间动态范围可达14位,空间分辨率为130 m,幅宽为250 km,约15 d完成全球夜光遥感。珞珈一号夜间灯光数据可在湖北省数据与应用中心高分辨率地球观测系统中免费下载。由于珞珈一号卫星图像的辐射校准仍在改进中,本文利用图像灰度值(DN值)进行分析,采用2018年9月数据,分辨率为120 m。另外,由于原始数据为GEC系统几何纠正产品,因此还需对珞珈一号夜间灯光数据进行地理配准。
1.3 其他数据
NPP/VIIRS夜间灯光数据采用2018年9月数据,分辨率为450 m。WorldPop人口数据来源于WorldPop Project 官方网站,空间分辨率约为90 m。2017年北京市土地利用数据来源于地理国情云平台,分辨率为100 m,并将原始数据重分类为耕地、林地、草地、水域、城镇用地、农村居民地、其他建设用地和未利用地8类。
本文采用的矢量数据和栅格数据坐标统一为WGS84地理坐标系,并将其投影为墨卡托UTM投影,除土地利用外的其他栅格数据采用双线性法重采样为100 m。
2 研究方法
2.1 渐进回归模型
根据“无土地无人口”的原则,回归方程的常数为0,模型公式为:
式中,Pi为第i个行政区的人口;N为土地利用类型数量;NLij为第i个行政区第j种土地利用类型下的灯光辐射总量;NAij为第i个行政区第j种土地利用类型下的灯光辐射面积;aj、bj为回归系数。
本文利用SPSS软件分区构建渐进回归模型,以行政区内人口统计数据为因变量,以统计行政区内每种土地利用类型下的灯光辐射总量和灯光辐射面积为回归模型的自变量,自变量进入方程的方式为步进,置信水平为0.05,剔除的置信水平为0.1。虽然模型会剔除不显著相关的自变量,但还存在某些自变量系数为负的情况,这些系数会使人口的估计值出现负数。为保证最终进入模型的自变量系数全为正,本文在第一次构建模型的基础上,将系数为负的自变量直接剔除,再对剩余的自变量进行第二次建模。
2.2 评价方法
对比不同模型下相同格网的人口空间化结果时,一般采用决定系数(R2)、平均绝对误差(MAE)和 平均相对误差(MRE)3个指标。R2用来评价模型的拟合程度,数值在0~1之间,越接近1,模型的拟合程度越高;MAE和MRE分别用来评价模型在整体和各分区的精度,数值越低,模型精度越高。其计算 公式为:
式中,POPi为第i个行政区的统计人口数;POPi'为 第i个行政区的人口估计值;POP为区域内所有行政区统计人口的平均值;POP'为区域内所有行政区估计人口的平均值;A为统计范围内行政区总数。
3 研究结果与精度评价
3.1 人口空间化结果制图
由于各区人口的回归值和统计值存在误差,本文通过式(5)对各栅格人口的初步估计值进行修正。
式中,P'ik为第i个行政区第k个栅格的人口修正值;Pik为第i个行政区第k个栅格的人口估计值。
两种数据人口空间化结果在主城区的展示如图2 所示,可以看出,NPP/VIIRS数据的人口空间化结果单元栅格内人口分布的最大值为623,远小于WorldPop数据的最大值1 380;而珞珈一号数据结果的最大值为1 432,与WorldPop数据的最大值更接近,这是由于VIIRS传感器对高辐射的探测能力有限,使得探测到的灯光最大值低于实际值,进而导致人口空间化结果的最大值过低,而珞珈一号提高了探测能力,能如实记录灯光的高亮值,空间化结果的最大值也更接近实际值。从局部来看,NPP/VIIRS数据人口空间化结果的行政区范围内部平滑、差异性小,而在行政区边界变化突兀;珞珈一号数据结果能明显看出人口分布与街道分布的空间耦合,清晰反映行政区内人口分布的差异性,且在行政区边界处衔接良好。
图2 NPP/VIIRS和珞珈一号人口空间分布图
由人口空间化结果可知,北京市人口主要分布在城区,受城市规划等影响,人口密度并非越靠近城市核心区越大,而是在核心区周围呈多点集中分布。这些地区人口密度大、通勤人口多、人口流动大,对交通和基础设施具有巨大需求,因此未来要考虑通过改善交通将北京市人口疏解到更外层地区的方式来缓解人口增长带来的巨大压力。
3.2 人口空间化结果和精度评价
利用SPSS软件构建渐进回归模型得到人口空间化参数,如表1所示,可以看出,利用NPP/VIIRS和珞珈一号数据构建的模型R2均较高,说明在街道尺度夜间灯光数据与人口分布有明显的相关关系;且人口密度越大的分区,R2越大,人口密度越小的分区,R2越小,说明夜间灯光数据与人口分布的相关程度随人口密度变化而变化,人口密度越大,相关程度越高,反之,相关程度越小。对比两种夜间灯光数据发现,各分区珞珈一号数据的R2均大于NPP/VIIRS数据,说明珞珈一号数据与人口分布具有更紧密的相关关系。
表1 渐进回归模型的人口空间化参数
从精度上来看,与NPP/VIIIRS数据相比,珞珈一号数据人口空间化结果的整体MAE和MRE更小,误差更小、精度更高,说明珞珈一号数据对人口的拟合程度更高,拟合效果更好。从各分区来看,人口密度越大的分区,MRE越小,人口密度越小的分区,MRE越大;而MAE在各分区的变化情况与MRE略有不同,MAE在分区一、分区二和分区三的变化与MRE相同,随人口密度的增大而减小,但分区一的MAE小于其他分区,这并不代表分区一的精度就高于其他区分区。其原因有两个:①分区一的行政区人口基数小,计算得到的MAE也不会太大;②分区一的行政区个数远多于其他分区,虽然MAE较小,但绝对误差总值更大。因此,在人口密度大的地区,基于珞珈一号数据的人口空间化结果精度更高,对人口的拟合效果更好;而在人口密度小的地区,基于珞珈一号数据的人口空间化结果精度较低,拟合效果较差。
4 结 语
本文分别基于珞珈一号夜间灯光数据和NPP/VIIRS数据分区构建了渐进回归模型,进而实现了人口空间化;并将空间化结果制图,对比了两种数据拟合人口的能力和精度。其主要结论为:①利用回归公式计算得到人口初步估计,再经过公式修正得到基于 NPP/VIIRS和珞珈一号数据的北京市100 m空间分辨率的人口分布图,其中基于珞珈一号数据得到的人口最大值为1 432,更接近WorldPop数据的最大值1 380,且其人口分布图能清晰展示城市内部人口空间分布的差异,分区边界平滑自然,能更好地应用于城市资源、环境管理中;②对比两种夜间灯光数据和渐进回归模型对人口空间化的模型参数发现, 珞珈一号数据的整体和各分区精度均优于NPP/VIIRS数 据,尤其是在人口密度小的区域的拟合程度明显高于 NPP/VIIRS。总的来讲,珞珈一号夜间灯光数据更适合小尺度人口空间化研究。
本文在使用珞珈一号数据前并没有进行去噪处理,因此提出一种适用于人口空间化研究的去噪方法是新的研究方向。另外,利用珞珈一号数据进行小尺度人口空间化研究时如何提高人口密度小的区域的精度还需进一步深入研究。珞珈一号数据的时空分辨率明显高于其他夜间灯光数据,其在研究突发事件的影响范围方面具有巨大的应用潜力,可作为未来的研究方向。