夜间灯光数据在城市化及其资源环境效应研究中的热点主题追踪*
2022-07-06张晓平高珊珊陈明星赵艳艳
张晓平,高珊珊,陈明星,2†,赵艳艳
(1 中国科学院大学资源与环境学院, 北京 100049;2 中国科学院地理科学与资源研究所, 北京 100101)
中国是世界上城市化速度最快的国家,自1978到2019年,中国的城市化率从17.92%增加到60.60%,是推动经济增长的重要驱动力之一[1]。在城市化与社会经济发展水平提升的同时,也引发了诸多资源环境问题。如何实现城市化、社会经济发展和资源环境系统之间的协调发展备受关注。由于夜间照明同人类活动的足迹密切关联,因此夜间灯光(nighttime light, NTL)数据作为表征城市化进程和人类活动的重要手段,被广泛地应用于城市化、人口空间集聚、区域经济发展、电力消耗、碳排放等与城市化及其资源环境效应有关的研究领域,相关的学术成果日益丰富。追踪上述领域的研究进展,总结梳理研究主题和热点,有助于进一步深化学术研究并为城市化发展实践提供参考。
NTL数据应用研究涉及的数据集主要包括3类:第1类是美国国防气象卫星(defense meteorological satellite program, DMSP)搭载的可见光线性扫描业务系统(operational linescan system, OLS)数据产品,简称DMSP/OLS数据;第2类是美国新一代国家极轨卫星(suomi national polarorbiting partnership, Suomi-NPP)搭载的可见红外成像辐射计套件(visible infrared imaging radiometer suite, VIIRS)DNB波段(day/night band)数据,简称VIIRS/DNB数据;第3类是2018年中国发射的专业夜间灯光遥感卫星珞珈一号01星数据产品,简称珞珈一号数据。目前已有学者开展了NTL数据相关的文献综述,如王鹤饶等[2]、杨眉等[3]、Huang等[4]以及Li和Zhou[5]基于不同的视角针对DMSP/OLS数据的处理方法及应用方向进行了总结;Bennett和Smith[6]总结了DMSP/OLS数据和VIIRS/DNB数据的多时相应用;陈颖彪等[7]对DMSP/OLS数据和VIIRS/DNB数据的处理方法及应用方向的研究进展进行了总结;赵敏和程维明[8]、肖东升和杨松[9]分别梳理了NTL数据在城市空间扩展和人口空间分布领域的研究进展。以上文献综述有利于从多层次、多领域、多角度了解NTL数据相关研究的主题和进展。但现有文献综述中,对NTL数据集应用总结以DMSP/OLS数据和VIIRS/DNB数据为主,很少有涉及珞珈一号数据应用研究进展的总结以及珞珈一号数据同前两类数据应用领域的对比分析;在总结的研究主题方面,以城市化和社会经济活动相关研究为主,缺少从城市化及其资源环境效应视角的梳理。
综上,本文运用文献计量方法和知识图谱可视化技术,总结梳理NTL数据在城市化及其资源环境效应领域的应用研究热点,以期把握该领域的研究现状并对未来相关领域的研究方向进行讨论。
1 数据与方法
1.1 NTL数据集特点
夜光遥感起源于20世纪70年代美国发射的DMSP卫星上搭载的OLS传感器数据。1992年,美国国家大气和海洋管理局(NOAA)国家地球物理数据中心(NGDC)对DMSP/OLS数据进行数字化并对公众开放,有关NTL数据的研究开始系统化。DMSP/OLS的时间序列数据,作为一种稳定灯光数据被广泛地应用在城市与社会经济相关的各个领域;但在长时间序列研究中,由于数据本身的饱和效应、溢出效应以及未进行星上定标等问题,影响了研究的精度。2011年末,其继任者VIIRS/DNB出现,相比于前者在时间分辨率、空间分辨率和辐射分辨率方面都更有优势。2018年中国发射了专业夜间灯光遥感卫星珞珈一号01星,其数据空间分辨率为130 m,相较于前两者有显著提高,使得夜光遥感在更精细尺度上的研究得以进一步深化。表1和图1分别在数据参数和影像表达方面对比了不同的NTL数据集的差异。
表1 主要的NTL数据集及相关参数
图1 不同NTL数据的像元亮度空间分布对比(以北京市为例)
1.2 文献来源
以中国知网(CNKI)和Web of Science(WOS)核心合集数据库分别作为中文和英文文献的来源,时间范围为2000—2019年。中国知网文献检索主题为:夜间灯光+夜光数据+夜光遥感+夜间灯光数据+DMSP/OLS+NPP/VIIRS*灯光+珞珈一号。WOS检索主题为:nighttime light 或 night-time light 或 night light 或 nightlight或night time light或DMSP/OLS或VIIRS/DNB或LuoJia1-01。剔除部分明显与主题无关、无作者、无摘要的文章和广告,分别得到900篇中文文献和710篇英文文献。在研究期间内,与NTL数据相关的文献数量持续增加,尤其是近10年来增长更为显著(图2)。
图2 2000—2019年CNKI数据库和WOS核心合集数据库NTL数据相关文献数量
1.3 热点主题追踪方法
基于CiteSpace软件对NTL数据应用研究的相关文献进行计量分析。利用文献计量方法和知识图谱可视化技术,对大量文献进行数据挖掘,追踪NTL数据应用领域的研究热点;并基于研究热点对NTL数据应用的相关文献进行梳理和总结。技术流程如图3所示。
图3 本文的技术流程
2 中文和英文文献NTL数据研究热点对比
对NTL数据研究热点按年进行梳理和汇总。对于中文文献,设置CiteSpace中时间切片长度为1 a,选取每个时间切片长度 TOP 50 的关键词,并且不对网络进行裁剪,生成中文文献关键词共现网络。将含义相同的关键词合并后,忽略“夜间灯光”、“夜间灯光数据”、 “DMSP/OLS数据”、“NPP/VIIRS数据”、“夜光遥感”和频次为1的关键词,将频次高于15的关键词显示在图中(图4(a))。
对于英文文献,同样设置CiteSpace中时间切片长度为1 a,选取每个时间切片长度 TOP 50 的关键词,基于Pathfinder算法对网络进行裁剪,生成英文文献关键词共现网络。将含义相同的关键词合并后,忽略 “nighttime light”、“DMSP/OLS”、“nighttime light data”、“NPP/VIIRS”、“satellite imagery”、“imagery”、“remote sensing”和频次为1的关键词,将频次高于50的关键词显示在图中(图4(b))。
最终得到CNKI 数据库和WOS数据库中,NTL相关文献的关键词共现网络图谱(图4);并分别选择排名前20位的高频关键词进行汇总,见表2。
表2 NTL相关的中文和英文文献高频关键词
图4 NTL相关中英文文献关键词共现网络
对比分析中、英文文献的关键词共现网络可以发现,无论是在中文文献中还是英文文献中,“城市化”相关问题都是关注度最高的。基于NTL数据的英文文献研究领域比较广泛,研究热点涉及城市化、城市扩张、GDP、经济动态、人口问题、能源消费、碳排放、污染问题、气候变化等不同的领域;而中文文献中,研究热点集中在城市化相关的领域——城市建成区、城市扩张、空间结构、人口问题、GDP等,在能源消费、碳排放、污染问题等方面的研究相对较少。
除去表达NTL数据的关键词之外,城市化的词频和中介中心度都是最高的。城市扩张、城市建成区和城市空间结构等表征城市化特征的词语也具有较高的词频和中心度,表现了NTL数据应用方面,城市化相关研究的热点地位。同时,GDP、土地利用、人口分布、碳排放、经济增长、电力消费等与人类社会经济活动相关的词汇,在高频关键词中也占有很大的比重,同样体现出社会经济活动相关研究在NTL数据应用领域的重要地位。
3 城市化及其资源环境效应热点主题追踪
基于前文的对比分析,从城市化及其资源环境效应视角来看,NTL数据相关的研究可以总结为城市化、资源消耗和环境效应3个方面(见图5)。
图5 NTL数据在城市化研究中的热点主题分类
3.1 城市化
城市化是当今世界各国都面临的重要议题,同经济基础、产业结构、社会转型、资源环境等密切相关[11]。量化城市在空间和社会经济方面的动态特征对于理解城市化相关的主题具有重要的意义。
3.1.1 城市用地提取
城市建成区和不透水面的面积和比率特征,是表征城市土地扩张的重要指标。不透水面(impervious surface area, ISA)是指各种水体难以穿透的人工地物所覆盖和组成的表面,包括交通路网、人居住宅、商业密集区、工业混凝土建筑等。不透水面和城市建成区的提取是研究城市扩张、城市空间结构演变以及土地利用变化等问题的重要前提。
在20世纪90年代末期,阈值法是基于NTL数据研究土地利用最简明的方法,被用于人类居住区[12]、城市边界[13]、城市建成区[14]等城市相关特征的识别;而OLS传感器的高灵敏度及其粗糙的空间分辨率共同导致了照明区域的过度提取[15],使得ISA或城市建成区提取比率偏高。基于先验知识的阈值设定带有人为的主观性,缺乏一定的稳定性和科学性[16],因此很多学者结合其他辅助数据(如人口数据)和简单的数学模型对ISA或城市建成区的分布和比例进行估计[17-18]。
随着卫星数据量的增多以及数据处理方法的进步,现阶段基于NTL的ISA和城市建成区的研究有了新的进展,以多源数据组合应用最为典型。应用比较广泛的数据组合为“植被指数数据+NTL数据”,在此数据基础上提出不同的灯光指数。同时,大量的研究对比了3种不同分辨率的NTL数据在城市边界或城市建成区的提取精度。得益于较高的空间分辨率和较好的空间细节捕捉能力,珞珈一号数据成为建设用地提取的理想数据源[19-21]。在模型和方法应用方面,支持向量机方法作为一种半自动技术,能够很好地克服因为DMSP/OLS灯光数据的溢出效应所带来的阈值问题,Xiao等[22]、Zhang等[23]、Dou等[24]分别从不同尺度和不同时相角度对基于支持向量机的城市区域提取方法进行了深化。除支持向量机方法外,随机森林、多类逻辑回归、KNN最近邻算法、决策树等机器学习方法[25],以及双向马尔可夫随机场[26]等方法也被用于城市区域的提取。
3.1.2 城市空间结构
随着NTL数据处理方法和空间分辨率的提高,基于NTL数据的城市化研究开始突破仅关注于城市建成区与不透水面的提取,转向研究更小尺度下的城市空间结构。
由于DMSP/OLS数据空间分辨率比较粗糙,并且在城市中心区存在严重的饱和效应,使得利用该数据提取城市内部的纹理特征非常困难。VIIRS/DNB数据拓展并细化了NTL数据在城市空间结构分析中的应用领域。珞珈一号数据的出现,使得城市空间细节捕捉这一研究趋势更为深入,并且城市空间结构和形态特征的提取成为该数据应用的主要领域。
在基于NTL数据的城市空间结构研究方面,城市扩张模式和方向[27]以及城市扩张时空格局[28]等方面的研究都是城市建成区/建设用地提取的后续研究。同时,单中心结构[29]、多中心结构[30]、连通度[31]、空间关联度[32]等空间特征也是研究城市空间结构的重要切入点。近年来,景观生态学指标在城市空间结构研究中的应用越来越多[33-34],如:景观总面积、总斑块数量、斑块密度、景观形状指数等被用于刻画城市空间结构和形态的变化。
3.1.3 人口空间集聚
传统的人口数据大多是基于行政单元的统计数据,忽略了单元内部人口在空间上的差异性,不利于精细尺度的研究。在过去20年里,国内外学者创建了不同的方法,将传统的人口统计数据转换为空间异质性表现更为精准的人口格网数据,生产了多种人口数据集,如:GPW数据集(gridded population of the world),LandScan数据集,WorldPop数据集等。
利用夜光数据建立人口格网的相关研究可追溯到20世纪末期。1997年,Sutton等[35]就以美国纽约为研究区,对比GPW模型、LandScan模型和基于DMSP/OLS数据的简单经验模型在模拟人口密度方面的表现,证明了夜光数据在人口空间化方面的潜力。土地覆被数据是最常用来模拟人口的数据,有研究证明二者综合使用比单纯利用土地覆被数据进行人口模拟的结果精度更高[36]。近年来的相关研究倾向于综合多源数据模拟人口,包括NTL、植被指数、地形、土地利用、社交媒体大数据、水文、交通基础设施等;且随着机器学习等方法的推广,基于随机森林、神经网络等方法的模型也逐渐被利用到各种问题的解决上,如Zhao等[37]选择夜光数据、社交媒体数据、地形数据、土地利用数据作为影响人口的指标,分别用卷积神经网络、神经网络和随机森林模型进行人口空间化。除此之外,拥有更加丰富空间细节的珞珈一号夜光数据,不仅可以用于高精度的人口空间化研究,在短期人口流动方面的研究也表现出巨大潜力[38-39],包括对“鬼城”、住房空置率、节日人口迁移等现象的研究。
然而,有学者指出,作为一种中等分辨率数据,夜光数据并不能直接表示土地利用或人口,尤其是在复杂的城市环境中,提取与人类活动和社会经济相关特征的能力很有限[40]。另外,由于发达国家和发展中国家在城乡基础设施和人类的活动强度方面具有不同的特征,会存在发展中国家城市区域人口被低估而农村或者郊区的人口被高估的情况[41]。为了解决这一问题,Pavía和Cantarino[42]将三维数据综合到模型中去,提高了人口空间化的精度;还有学者对城市和农村地区[43]以及有灯光区和无灯光区[44]分别建立模型估算人口,也在一定程度上改善了这一问题。
3.1.4 区域经济发展
在区域经济发展方面,同人口数据一样,传统的经济数据多基于行政单元统计,缺乏有效的空间信息。相对于传统的统计数据而言,利用NTL数据模拟社会经济参数的优点表现在以下两个方面:1)可以在更精细的空间或时间尺度上捕捉经济动态特征,从而进一步挖掘背后更深层次的问题;2)对于那些无法获取官方统计数据的地区来说可以弥补数据缺失,并且对于不同国家或地区在各种主客观因素的影响下,统计数据没有可比性的问题也提供了一种解决方案。
在GDP相关研究方面,大量的研究表明GDP截面数据同NTL存在很强的相关性,如Elvidge等[45]通过对比NTL同人口、GDP和电力消费之间的对数关系后发现,NTL同GDP的关系最为密切。由于NTL信号同GDP之间的定量关系会随着时间和空间的改变而变化,因此模拟NTL与GDP之间的定量关系,不同地区不同时间往往选择的模型也不同,如线性模型、对数模型等简单的数量模型[46];还有基于多种辅助数据如人口、地形、土地利用等的多源数据模型,以及近年来逐渐流行的随机森林模型、卷积神经网络[47]等机器学习方法等。模拟社会经济参数通常并不是研究的最终目的,而往往是基于这些社会经济参数挖掘和解决城市发展中出现的各种现象和问题,包括贫困[48]、经济差异、地区发展[49]等。
3.2 电力消耗
基于NTL数据,对城市化相关的资源消耗研究主要集中于电力消费 (electric power consumption, EPC)。EPC同社会经济发展和人类活动密切相关,同时也是碳排放的主要来源,因此准确检测全球或区域EPC的时空动态,对于研究其变化的影响机制及其与社会经济活动的关系至关重要。
基于DMSP/OLS夜间灯光数据,Elvidge等[45]首次验证了NTL量同EPC统计数据的强相关性,证明了基于NTL总量估计EPC的可行性。在利用NTL估算EPC的研究中,研究范围从全球、地区、国家到省市。由于不同地区在经济、社会等方面的差异,面对不同的研究区,学者们建立了不同的数学模型,如对数模型[50]、指数模型和线性模型[51],以提取EPC的时空动态特征。有学者指出,基于数学模型的 EPC 反演都过于简化;为了将社会经济的综合影响效应考虑进去,基于产业结构[52]、灯光指数[53]等不同的特征和波士顿矩阵[53]、人工神经网络[54]等分类方法,对城市进行分类,对不同类别的城市分别建模,有效地提高了EPC的模拟精度。
3.3 资源环境效应
从碳排放、空气污染、城市热岛效应3个方面梳理NTL数据应用于城市化引致的资源环境效应的研究。
3.3.1 碳排放
现有的很多研究都证明,城市的能源消费是碳排放的主要来源。在基于NTL数据的碳排放相关研究中,由于DMSP/OLS数据本身存在的饱和效应和溢出效应,在一定程度上影响了灯光亮度和CO2排放之间的相关性。针对这一问题,很多学者在CO2的估算研究中加入多种灯光指数,如Zhao等[55]利用HSI、VANUI、EANTLI等3种指数,基于DMSP/OLS数据和VIIRS/DNB数据在县级尺度和像素尺度上进行了CO2排放的估算。基于NTL数据模拟碳排放的另一个问题是,世界上仍存在生活在夜晚无灯光地区的人们,将无灯光区视为无碳排放区进行碳排放估算,使无灯光区的碳排放被大大低估。目前,一些研究认识到这一不足,提出NTL与人口网格相结合的CO2排放估算模型[56-57],结果证明结合人口格网数据后的模型估算精度有显著提高。还有学者通过对比研究,强调了VIIRS/DNB数据较DMSP/OLS数据在碳排放估算精度方面的优势[55]。但由于前者是从2012年开放使用的,到现在的使用年限较短,不利于长时间序列的研究,因此综合利用DMSP/OLS数据和VIIRS/DNB数据进行研究就显得十分必要[58]。
3.3.2 空气污染
城市化引致的大气污染问题备受瞩目,卫星遥感数据逐渐被应用于空气污染物浓度的监测。基于NTL数据的污染物监测填补了传统光学卫星在夜间的空气污染监测方面的空白,受到了越来越多的关注。
由于数据周期的不同,基于NTL日数据和年数据的空气污染研究侧重点不同。在基于NTL日数据的PM2.5污染研究方面,无论是基于DMSP/OLS日数据还是VIIRS/DNB日数据的研究,都关注于PM2.5浓度和NTL辐射强度之间的强相关性的验证;在这种强相关性和辐射传输理论的基础上,针对不同地区不同时间段建立模型[59-60]进行PM2.5浓度的反演,研究区和时间范围的限定使得反演模型并不具有普适性。在NTL年数据的空气污染研究方面,集中在以NTL表达社会经济活动强度或者城市空间结构/景观的变化,进而研究长时间序列下不同因子同PM2.5浓度的耦合特征与作用机制。由于NTL同人类活动之间的密切相关性,这种表达涉及人类足迹[61]、社会经济发展[62]、城市空间结构[63]、城市空间形态[64]等。也有的研究认为NTL与污染物浓度之间存在直接相关关系,基于这种直接关联对长时间序列下的污染物浓度的时空特征与影响机制进行研究[65-66],并且以上探究通常与环境库兹涅兹曲线的验证相关。
3.3.3 城市热岛效应
城市化过程伴随着土地利用的变化,自然地表转变为ISA会改变地表的散热特性,进而导致城市热岛效应。城市热岛是由自然、人文和社会经济等因素共同作用的结果,如昼夜、季节、城市规模、城镇化模式等都会对其产生影响作用[67],这种作用并不是简单的叠加而是表现为复杂的交互作用。NTL与城市热岛没有直接关联,基于NTL数据的城市热岛相关的研究,大都是关于城市热岛驱动因素的研究。城市热岛效应关注于城区和郊区的温度差异,而NTL数据在城市建成区、城市中心、城乡边界、乡村等土地城市化特征的提取方面具有优良特性,使其被用于探究城市化对城市热岛[68-70]和极端高温天气[71]的驱动作用研究。NTL同人类活动直接相关,因此被用于人类居住区的提取和人口空间化,进而探究人类活动对于城市热岛的影响作用[72-74]。有的研究将NTL用于表达人为的能源消耗热排放,基于此探究人为热排放空间格局与影响作用[75];还有的研究直接将NTL作为驱动因子,研究其对于城市热岛的驱动作用[69,76-77]。
4 总结与展望
4.1 总结
通过文献计量分析与已有研究成果的归纳,NTL数据在城市化及其资源环境效应方面的研究现状可总结为以下3个方面:
1)城市化这一主题,是NTL数据相关的中、英文文献共同关注的核心主题。相较于英文文献,中文文献更加关注城市化状态的量化及刻画,而在城市化引致的资源消耗与环境效应方面的研究相对较薄弱。
2)无论是在土地城市化方面还是社会经济扩张方面,NTL数据能够很好地表征城市化进程,并且能够实现在更精细的尺度上探究人口和经济发展的时空特征,但对城市化本身及其资源环境效应的影响因素和作用机制的诠释,则有赖于多学科理论的支撑。
3)城市化、社会经济发展与资源环境效应表现出复杂的交互作用。NTL通常被用来表征城市化、社会经济发展、人类活动强度。随着数据空间分辨率的提高、多源数据的综合利用以及复杂模型等方法的使用,人-地系统交互作用的研究得以推向新的高度和深度。
4.2 展望
虽然NTL数据被广泛地应用在城市化及其资源环境效应相关的诸多领域,但不可否认的是,未来NTL数据相关的研究仍需进一步优化,可以概括为以下3方面:
1)研究数据方面
多源数据的融合是未来需要进一步深入研究的方向。DMSP/OLS数据的时间范围为1992—2013年,VIIRS/DNB数据的时间范围为2012年至今,若要进行长时间序列灯光特征的提取,就要对二者进行数据融合。因为数据融合方法的复杂性,基于二者的长时间序列数据的融合还较少并且主要集中在行政单元尺度的灯光统计值,基于像元尺度的长时间序列数据融合则更少。但是行政区内部相关特征的提取却在很大程度上依赖于像元表现,因此对于DMSP/OLS数据和VIIRS/DNB数据的融合方法和融合数据的应用还有待于深化。
多源数据的范畴需要拓宽,与大数据的结合使用度有待提高。近年来卫星数量的增多推动着遥感数据数量的迅速增长,基于NTL数据的应用研究中辅助数据大都是传统的卫星数据,如Landsat数据、MODIS数据、DEM数据等。而当下正处于大数据时代,人口迁移数据、社交媒体数据、交通路网数据、兴趣点数据等大数据也应被纳入多源数据中,以增强NTL表达城市化和人类活动的说服力。
2)研究主题方面
基于NTL数据的能源消费、城市热岛、碳排放、大气污染等资源环境效应方面的研究需要加强。近年来,国内外地理学界对资源环境主题持续关注,虽然形成了若干独立发展的研究方向,但是在特定方向探索与经典理论发展的结合方面还有待于进一步加强。环境经济地理学同时关注于资源环境对经济活动和空间关系的表达,NTL作为表征人类活动的一种重要辅助数据,在资源环境效应相关研究中的潜力有待于进一步挖掘。
加强空间数据挖掘的多尺度研究,强化数据分析与学科理论和实践前沿的对话能力。在多时间尺度研究方面,相较于城市发展、经济活动等基于年数据的长时间序列的研究,VIIRS/DNB数据和珞珈一号数据等短周期月数据和日数据的出现与普及,使得基于NTL数据的气候变化、渔业分析、重大灾害评估、油气平台识别、货流运输、人口流动等主题的短周期研究有望深化。在多空间尺度研究方面,DMSP/OLS数据适合宏观和中观尺度上的研究,而VIIRS/DNB数据和珞珈一号数据具备了针对微观尺度研究的特征识别能力,对不同尺度下的自然、经济和社会现象及其关联效应的研究,有利于全面理解人-地系统内部要素间的交互作用与互馈机制。
3)研究方法方面
多源数据的使用为数据分析提供了丰富的特征信息,基于丰富的特征信息进行更深层次的数据挖掘是未来研究的重要方向。NTL是一种重要的经济和空间特征,可以对城市经济做出有效的预测,在农村地区以及其他经济结构比较复杂的地区,其预测结果则差强人意,因为在人-地系统交互作用下,灯光同经济参数之间的关系往往是非线性的。未来随着人工智能的发展,以随机森林、BP神经网络等方法为代表的机器学习方法应被更深入地引入NTL数据应用的相关研究,基于大量特征信息和训练样本,使地表过程和经济空间中的非线性关系被更大限度地还原,从而提高社会经济和地理国情的监测能力与准确度。