基于夜间灯光数据的人口空间分布研究综述
2019-09-12肖东升杨松
肖东升, 杨松
(1.西南石油大学土木工程与建筑学院,成都 610500; 2. 成都理工大学地质灾害防治与地质环境保护国家重点实验室,成都 610059)
0 引言
人口空间分布是指某一时间点上人口在地理空间的分布情况,包括人口数量、密度及空间分布特征等[1]。长期以来,人们主要从人口统计数据中获取人口分布信息。人口统计数据通常是以行政区划为单元,通过普查和抽样统计等方式逐级汇总获得[2]。但该方法在实际应用中存在一系列问题: ①调查数据不易获取,部分区域和年份数据不完整; ②行政单元内部人口分布无法体现,且与地理单元数据难以融合等[3-4]。利用辅助数据进行人口空间分布研究可以有效解决这些问题。研究主要包括区域人口估算和人口分布模拟2个方面,前者多用于宏观人口估算和统计分析,后者将人口数据格网化,以模拟格网尺度的人口空间分布。人口数据格网化,或称为人口数据空间化,基本思想是基于人口空间分布模型或采用一定的计算方法,对人口统计数据进行离散化处理,发掘并展现其中隐含的空间信息,以便模拟或再现客观世界的人口地理分布[5],从而获得人口空间分布特征。
人口的空间分布与自然地理和社会经济的多种因素相关,例如地形坡度、海拔、土地利用、城市发展、道路交通和河流水系等。反之,这些因子又是人口分布的指示器。基于不同的数据源、精度需求及研究思路,国内外学者提出了多种人口分布模拟方法,主要包括空间插值法、遥感特征反演和多源数据融合等[1,6]。随着遥感技术的发展及遥感影像所具有的数据获取方便、覆盖范围广等优势,影像中土地利用类型、地形地貌和夜间灯光数据等都越来越多地被应用在人口空间分布研究中。
夜光遥感始于20世纪70年代的美国军事气象卫星计划(defense meteorolgical satellite program,DMSP),最初是用来探测云层对月光的反射以分析云层分布信息,其搭载的线性扫描业务系统(operational linescan system,OLS)传感器能够探测到无云情况下的城市灯光以及车流、渔船等发出的微弱灯光,其后主要用于获取地表夜间灯光以反映人类活动情况[7]。早期影像数据以胶片形式保存,研究成果较少且以描述性分析为主。自1992年起,美国空军联合国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA)开始整理、校正和合成夜间灯光数据,并且在国家地球物理数据中心(National Geographical Data Center,NGDC)建立了数字格式文档[8],影像数据覆盖年份为1992—2013年,大大促进了夜间灯光数据的研究应用。2011年10月,美国国家极地轨道卫星(national polar orbiting partnership,NPP)卫星成功发射,其上搭载了新一代可见光及近红外辐射仪(visible infrared imaging radiometer suite,VIIRS),夜间灯光数据得到了进一步发展。由此NGDC地球观测小组将工作重心转移至NPP-VIIRS数据,学者也越来越多地利用NPP-VIIRS数据进行研究[9-11]。
夜间灯光数据综合反映了人类活动情况,在城市建设与分析、社会经济因子估算、生态环境及自然灾害等方面都有大量研究[12]。在人口分布方面,Elvidge等[13-14]和Sutton等[15-16]研究发现DMSP-OLS夜间灯光数据与人口分布之间存在着显著的相关性,随后很多学者进行了大量的验证分析并将夜间灯光数据应用在人口分布模拟上。近年来,随着NPP-VIIRS数据的获取,高义等[4]、Xie等[17]和胡云峰等[18]对DMSP-OLS和NPP-VIIRS数据进行了对比分析,并揭示了NPP-VIIRS数据在人口空间分布研究中的巨大潜力。对于人口统计数据缺失的地区而言,夜间灯光数据为区域人口估算和人口空间分布模拟提供了新途径。随着数据的积累,基于夜间灯光数据的人口变化特征分析也逐渐增多,形成了丰富的研究成果。但其中也存在一些问题。基于此,本文对夜间灯光数据平台发展和人口空间分布模拟方法进行了总结,并且分析了数据、尺度、模型方法和精度验证等方面存在的问题,最后对未来的发展方向和研究重点进行了探讨。
1 夜间灯光数据源
1.1 DMSP-OLS及NPP-VIIRS夜间灯光数据
DMSP-OLS和NPP-VIIRS数据是目前应用最为广泛的2种夜间灯光数据,美国NGDC提供了相关数据产品[19]。目前能够下载到1992—2013年间DMSP-OLS的多种数据,其中使用最多的是第四版全球稳定夜间灯光数据,前几版已经不适用于定量分析。
DMSP-OLS夜间灯光数据产品主要有3种: 夜间灯光频率数据、辐射定标夜间灯光强度数据和非辐射定标夜间灯光强度数据[20]。夜间灯光频率数据是对获取的一段时间内的连续观测数据,计算各像元在此期间内的发光频率,选定阈值,去除噪声,但是该数据并没有记录灯光的强度信息,早期文献多用此类数据; 辐射定标夜间灯光强度数据,是NGDC进行的部分辐射定标实验,对传感器的增益进行了人为控制,虽然很好地解决了灯光影像的饱和问题,但需要关掉星载跟踪扫描放大跟踪算法和放大倍数自动修正功能[14],所以只有部分时段数据可供下载; 非辐射定标夜间灯光强度数据剔除了云层覆盖和不稳定光源的影响,记录了夜间灯光强度信息,其像元DN值范围为[0,63],数值越高,表明亮度越大,这是目前应用最广泛的一类数据。
2011年10月28日成功发射的NPP卫星上搭载的VIIRS传感器是高空间分辨率辐射仪(advanced very high resolution radiometer,AVHRR)和中等空间分辨率成像光谱仪(moderate-resolution imaging spectroradiometer,MODIS)系列以及OLS传感器的拓展改进。DNB(day/night band)波段是用于探测夜间灯光强度的主要波段[21],能够灵敏地捕捉到地表亮度信息,空间分辨率更高,且进行了在轨辐射定标,不会出现灯光饱和现象。在NPP-VIIRS平台发射后,经历了相关技术及算法改进[22-23],目前能够获取2012年至今部分日数据、月及年合成数据[19]。月合成数据过滤掉了云、月光和杂散光等的影响,保留了渔船、火灾和极光等短暂性光源,但对于人口分布研究来说,仍需要剔除这些短暂性光源。年合成数据则去除了短暂性光源和背景值。表1为DMSP-OLS与NPP-VIIRS传感器主要参数对比情况[9,21]。
表1 DMSP-OLS和NPP-VIIRS主要参数对比Tab.1 Comparison of main parameters betweenDMSP-OLS and NPP-VIIRS
1.2 其他夜间灯光数据
除DMSP-OLS和NPP-VIIRS之外,还有其他获取夜间灯光数据的平台。例如国际空间站拍摄的照片具有很高的空间分辨率,能详细地反映地表夜间灯光的分布情况,但Anderson等[24]和Liu等[25]发现其与人口分布的相关性一般,有待进一步研究。阿根廷2001年在SAC-C(satélite de aplicaciones científicas-C)卫星上搭载的HSTC(high sensitivity technological camera)传感器和2012年SAC-D卫星上搭载的HSC(high sensitivity camera)传感器、以色列EROS-B(earth remote observation system-B)卫星上搭载的全色波段传感器也都具有较高的空间分辨率[12]。我国于2018年6月2日成功发射一颗专业的夜光遥感卫星“珞珈一号”,其搭载了高灵敏度夜光相机,地面空间分辨率达到100 m左右。这些传感器平台将为以后的研究提供更好的数据来源。
2 基于夜间灯光数据的人口空间分布研究方法及模型
2.1 基于夜间灯光像元特征
基于像元特征,学者们构建了许多特征参数,例如灯光面积、灯光体积、灯光强度和光面积百分比等,通过建立模型对人口空间分布进行模拟。基于夜间灯光像元特征的主要方法如表2所示。这些方法没有使用其他辅助数据,模型简单易于实现,但整体精度不高,不利于精细尺度的人口分布研究,且对农村地区表现不足。同时,多数研究忽略了DMSP-OLS数据中存在的灯光饱和及像元溢出等问题,即使NPP-VIIRS数据削弱了灯光饱和及溢出影响,由于模型方法的局限性,模拟精度也不高。
表2 基于夜间灯光像元特征的主要方法Tab.2 Main methods based on nighttime light pixel feature
2.2 基于夜间灯光和土地利用数据
土地利用数据能够反映人类的主要活动范围,夜间灯光能够显示区域内部差异,将两者结合,能简单有效地模拟人口分布,并削弱灯光溢出影响。Briggs等[35]基于土地利用类型等级的4种策略将各区域各土地利用类型的灯光区面积、非灯光区面积和灯光亮度总和进行回归分析,制作了200 m和1 km空间分辨率的人口密度图; Bagan等[36]建立了普通最小二乘回归模型和地理加权回归模型,该模型考虑了人口分布的空间关系,但也存在多重共线性问题,还需要进一步研究; 李翔等[37]以上海市为例,基于城市详细土地利用数据,提取出商业和居住区的NPP-VIIRS灯光数据进行空间回归建模,减小了城市亮化区和路灯等影响,提高了模拟精度; 胡云峰等[18]分别利用NPP-VIIRS和DMSP-OLS数据,基于不同土地利用类型,与县级人口统计数据进行逐步回归分析,结果表明NPP-VIIRS数据模拟精度更高。
2.3 基于多源数据融合
自然地理和社会经济因素都会影响人口分布,融合多种辅助数据有利于提高人口分布模拟精度。该方法可分为2类: ①将各种辅助数据及夜间灯光数据作为人口分布的影响因子进行建模,不同的区域可采用不同的数据及方法; ②利用夜间灯光数据进行常规方法建模,并利用辅助数据提高模拟精度。黄益修[38]利用NPP-VIIRS数据进行人口空间模拟,并基于出租车全球定位系统(global positioning system,GPS)轨迹数据对模拟结果进行了校正。基于多源数据融合的方法虽然能够提高人口分布模拟精度,但也存在数据处理复杂、权重赋值主观性强以及模型适应性差等缺点。主要模型方法如表3所示。
表3 基于多源数据融合的主要模型方法Tab.3 Main model methods of multi-source data fusion
综合上述方法可以看出,基于像元特征的方法模型简单,数据处理方便,但不适合精细尺度研究; 结合土地利用数据的方法,即将不同土地利用类型与灯光强度信息结合起来,削弱灯光溢出影响,在一定程度上提高了模拟精度; 基于多源数据融合的方法,学者利用各种辅助数据对人口分布进行了研究,理论上,利用辅助数据越多,越接近真实人口分布情况,但更多的辅助数据,可能带来数据融合方面的技术问题,导致模拟精度提高受限,另外,数据处理过程较为复杂,模型适用性不强等问题都有待进一步研究。
值得注意的是,由于区域差异,不同的方法模型有不同的适用范围,要提高人口分布模拟精度,进行分类分区分城乡建模是必要的。Sutton等[43]和Zhang等[44]在研究区域内按照经济水平进行分类; Cheng等[30]在探讨灯光强度与人口密度的相关性时,将县域按照东西部差异、人口规模和城市化水平3种方法进行分区研究; Zeng等[45]利用夜间灯光图像聚类和最短路径进行了分区研究。
3 存在问题及解决方法
3.1 数据方面
夜间灯光数据应用广泛,但仍可能存在灯光饱和、灯光溢出、几何偏差以及时序影像不一致等问题。
3.1.1 灯光饱和
由于OLS传感器技术缺陷,获取到的夜间灯光数据DN值达到上限后,不再随地面灯光强度的增加而增大[46]。故随后对VIIRS传感器进行了技术改进,消除了饱和影响。但饱和问题的出现削弱了夜间灯光与人口分布的相关性,对于广泛使用的DMSP-OLS数据来说,灯光饱和校正是必要的。目前主要有3类校正方法:
1)利用不饱和区灯光特征校正饱和灯光。Letu等[47]在2010年利用建筑面积率与不饱和灯光强度的相关性,建立了三次回归方程对饱和区进行校正,在2012年又利用辐射定标数据与非辐射定标数据非饱和部分的线性回归方程对饱和部分进行校正[48]; He等[49]利用NDVI数据,建立了不饱和灯光样本的DN值与相应NDVI值之间的回归模型。这种方法能一定程度地削弱灯光饱和的影响,但精度不高。
2)利用辐射定标夜间灯光数据去除灯光饱和的影响。Elvidge等[14]在20世纪90年代就进行了辐射定标研究; Ziskin等[50]改进方法制作了2006年的辐射定标数据; Hsu等[51]在上述研究的基础上进行了改进。辐射定标方法理论上较完善,精度较高,但是算法复杂,目前只有部分时段的辐射定标数据可供下载。
3)利用DMSP-OLS数据和辅助数据构建指数模型。主要构建指数如表4所示。
表4 主要构建指数及优缺点Tab.4 Main index models and evaluation
3.1.2 灯光溢出
灯光溢出是指影像获取的灯光范围比实际的范围大。造成这种现象的原因有多种[58-59]: ①影像的空间分辨率较低; ②相邻像素的大量重叠; ③合成过程中地理位置发生了偏差; ④水体等造成的灯光反射及灯光的散射效果等。Bennett等[60]通过DMSP-OLS与NPP-VIIRS数据对比发现,VIIRS传感器数据大大削弱了灯光溢出影响。灯光溢出效应会扩大灯光区范围,影响人口分布模拟精度。阈值法是被广泛采用的一种校正方法,通过对灯光数据设定阈值来缩小照明区域,使其与实际情况更加匹配。由于区域差异,不同地区需要设置不同的阈值,过高或过低的阈值都达不到理想效果。Imhoff等[61]、Sutton等[43]和Henderson等[62]通过实例对阈值法进行了研究。另外,Townsend等[63]提出了灯光溢出消除模型,利用光源强度和灯光溢出部分距光源的距离关系,建立缓冲区,将灯光溢出部分逐步返回到光源区域。结合土地利用数据也可以削弱灯光溢出的影响。
3.1.3 相互校正
由于DMSP-OLS传感器缺乏星上校准,传感器随着时间也会发生退化,因此不同年份同一像元的DN值不连续,同一年份不同传感器获取的DN值也不一致。影像DN值的不一致阻碍了利用长时间序列影像进行人口分布变化研究,需要进行相互校正。Elvidge等[64]在DMSP-OLS年度序列影像研究中,以意大利西西里岛作为不变区域、F121999影像作为参考影像,构建二阶回归方程进行相互校正,成为夜间灯光数据相互校正的主要方法。此后,Liu等[65-66]、Zhao等[67]和Wu等[68]参考Elvidge方法,选择相应不变区域和参考影像进行校正。然而,不变区域的选择需要大量的统计分析和先验知识。因此,Li等[69]提出了简单迭代算法,以便自动提取2幅影像中的不变区域; Tuttle等[70]提出可以尝试建立永久活动目标光源以进行影像间的相互校正; Stathakis[71]提出了平行回归方法,这种方法为时间序列中每一个像素建立单独的回归模型,而不是为整个年度数据集建立单一的回归模型,每个像素的DN值都是根据地理适应趋势进行校正的,不需要指定不变区域和参考影像,但缺点是计算量较大,方法还需改进。NPP-VIIRS平台由于建立时间较短,存档数据不多,目前对此问题研究较少。
3.1.4 几何偏差
Elvidge等[58]在2004年就对DMSP数据的灯光面积及位置精度进行了探讨; Tuttle等[72]设计了一组便携式灯,通过GPS测量灯光位置与影像中灯光位置进行对比,对影像的地理位置精度进行了评估; Zhao等[73]通过计算参考影像与其他影像DN值的最大相关系数,发现部分影像之间存在像素级别的几何误差,并进行了几何纠正。在NPP-VIIRS数据的早期研究中,由于缺乏地理定位无法进行地形校正,导致山区的地理定位误差可达几km。随后,美国宇航局地理定位小组进行了深入研究并提出了校正方案[22]。
在实际利用时序影像进行研究的过程中,往往灯光饱和校正、溢出校正、几何纠正和相互校正等都需要进行。当然,不同的方法有不同的精度和适用范围,适合人口空间分布研究的校正方法还需要进一步探索。
3.2 尺度方面
尺度方面一般分为区域尺度和格网尺度2种。区域尺度多用在人口估算中,对区域内部情况则不做过多分析。格网尺度则更加精细和便于数据融合,多用在国家或省市范围内。鉴于夜间灯光影像空间分辨率及实际需求,1 km×1 km格网尺度应用比较广泛[32,36]。当然,也有很多学者融合多种数据,对影像进行重采样,生成了更精细格网尺度的人口分布图[41,47,74]。值得注意的是,简单重采样形成的精细格网尺度,其精度不一定高。同时,现有格网尺度的适宜性研究还很少[75],部分研究也只是生成多种格网尺度进行对比分析。目前,还缺乏系统性的方法对格网尺度进行适宜性选择和评价。
3.3 模型方法
虽然夜间灯光数据与人口分布间存在着显著关系,但也存在不确定性[35]。Bustos等[76]发现,人口的减少不一定会导致灯光面积的减少; Doll等[77]发现伦敦最亮的位置和最高的人口密度之间存在不匹配现象; Levin等[78]利用NPP-VIIRS数据对全球人口稠密地区夜间灯光进行了定量研究,并分析了造成灯光亮度差异的各种因素及季节性影响。因此,要想更加精确地模拟人口分布情况,需要详细分析夜间灯光与人口的对应关系及人口变化与灯光变化的特征规律,并结合各种辅助数据对人口分布的表征能力进行深入探讨。另外,经济结构、城市配置、建筑环境、交通设施和照明政策等都值得关注,以此探索新方法、新模型来提高利用夜间灯光数据模拟人口分布的精度。
3.4 精度验证
精度验证一直是人口分布研究中的困难之处。一般而言,学者多采用以下几种方法进行验证分析: ①与已有研究成果对比; ②与不同等级的人口统计数据进行对比验证; ③实地抽样调查,多见于精细尺度研究中。然而目前系统性好、可靠性高、适用性强的精度验证方法还没有建立起来。随着技术发展,未来可以尝试综合其他方式获取人口数据,比如基于移动定位数据等来获取人口分布情况。研究易于获取并且精度较高的验证方法也很重要。
4 总结与展望
本文对基于夜间灯光数据的人口空间分布研究情况进行了综述。较详细地阐述了常用的DMSP-OLS和NPP-VIIRS传感器平台以及夜间灯光数据特征。总的来说,DMSP-OLS数据有连续历史数据存档,应用相当广泛。而NPP-VIIRS数据精度较高,在人口空间分布中的研究会越来越多。对于夜间灯光数据的人口空间分布研究方法,由于不同的精度要求、研究区域和数据来源等,研究成果非常丰富。有直接利用遥感特征进行反演的,也有结合土地利用数据以及融合多源数据进行人口空间分布模拟的。其中也存在着许多问题: 如夜间灯光数据的饱和、连续性问题; 模型方法的适用性问题; 模拟尺度问题; 结果的验证分析问题等。
未来研究应着重考虑以下几个方面:
1)当前尺度适宜性及精度验证问题研究较少,部分人口分布模拟中,虽然格网尺度经过重采样变得更精细,但是精度并未提高。因此,探索不同条件下的格网尺度,形成系统的适宜尺度选择及评价方法是未来的研究重点之一。另外,精度验证一直是个难题,通常的统计分析及对比方法效果并不理想,实地调查的方法实施起来又较为困难。所以,在精度验证方面,融合多种数据源,研究易于推广的理想验证方法是今后努力的方向。
2)高精度夜间灯光数据和其他辅助数据的获取,包括社会感知数据或移动定位数据等,可以提高人口分布模拟精度。随着传感器技术和通讯技术的发展,对人类活动数据的收集有了多种途径。在利用传统自然地理和社会经济数据的基础上,应该更多地考虑各种传感器网络及大数据的应用,有效提高人口分布模拟精度。
3)在局部区域人口分布模拟中,需更加注重实效性和流动性,利用最新的泛在传感器网络获取的多源数据,结合人口的活动规律快速建立模型,实现局部区域动态人口分布的模拟,为防灾减灾等提供及时的人口分布信息。
4)融合多源数据探究人口构成的分布情况,包括不同年龄阶段、不同民族和不同职业属性等,挖掘人口分布中蕴含着的丰富信息,实现模糊人口分布到精细人口分布研究的转变,更好为社会发展服务。