APP下载

基于地理加权回归模型的新疆地区PM2.5遥感估算

2019-03-25付宏臣孙艳玲

关键词:高值监测站反演

付宏臣,孙艳玲,景 悦

(天津师范大学地理与环境科学学院,天津 300387)

PM2.5是指环境中空气动力学直径小于等于2.5 μm的细颗粒物[1].随着城市化和工业化进程的加快,PM2.5成为空气污染的主要污染物之一[2].PM2.5中含有大量有毒有害物质,这些物质通过呼吸道进入人体,并对人体造成严重影响,因此获取地面PM2.5浓度的空间分布具有重要意义[3].通过地面环境监测可以获取站点位置处连续的高精度PM2.5浓度,但由于监测站点分布不均,无法覆盖整个区域,故难以掌握大尺度区域内PM2.5的空间分布情况.卫星遥感具有监测范围广且空间连续的优点,弥补了地面监测站点离散分布的缺点.利用卫星遥感反演气溶胶光学厚度数据(aerosol optical depth,AOD)成为估算地面PM2.5浓度的一种有效方法[4-6].AOD是大气气溶胶最基本的光学特性之一,是表征大气浑浊度和推算大气中气溶胶含量的重要物理量[7-8].AOD数据产品多种多样,MODIS AOD是目前应用最多的气溶胶光学厚度数据[9].该数据产品中包含深蓝算法和暗像元算法两类算法[10],其中深蓝算法适用于沙漠和工业裸地等地表反射率较高的地区[9,11].

近年来,基于AOD数据进行PM2.5浓度估算已有大量研究,先后出现了多元线性回归模型[12]、人工神经网络模型[13]、混合效应模型[14]、地理加权回归模型[10]和土地利用回归模型[1]等多种模型.1996年,Fotheringham等[15]基于前人局部回归的思想提出了地理加权回归(geographically weighted regression,GWR)模型.该模型在处理数据时充分考虑到空间中不同变量间具有各自的局部特征、不同空间位置和不同性质的特点,将数据的空间特性纳入模型中,可以有效处理回归关系的空间非平稳性[16].Hu[17]最先利用此方法建立了美国地区AOD与PM2.5的关系模型,相关系数R2达到0.6.此后,相关研究对此模型加以改进,加入了相对湿度和边界层高度等影响因子,进一步提高了模型精度[18].2016年,陈辉等[19]将此模型应用于冬季PM2.5研究,取得了良好的反演效果.此后,张天琪[10]应用该模型反演了2015年中国区域PM2.5浓度,相关系数达到0.76.

新疆位于亚欧大陆中部,因具有干旱多风的气候特征,使其成为沙尘的高发区[20].2016年国际环保组织联合发布的全国366个城市PM2.5浓度排行榜中,浓度最高的5座城市有3个位于新疆地区.由2015—2017年新疆维吾尔自治区环境状况公报[21]中公布的PM2.5数据可以看出,2016年新疆地区PM2.5浓度处于较高水平.现阶段新疆地区利用AOD数据估算近地面PM2.5浓度的研究较少,且多仅针对乌鲁木齐市进行研究[22].本研究基于2016年深蓝算法的MODIS/Terra卫星10 km AOD数据,结合气象数据和地面PM2.5观测数据,利用地理加权回归模型反演得到2016年新疆区域PM2.5浓度时空分布情况,为该地区大气环境治理提供科学依据.

1 数据与方法

1.1 数据来源与处理

1.1.1 气溶胶光学厚度数据

气溶胶光学厚度数据来源于美国国家航空航天局(national aeronautics and space administration,NASA)官网(https://ladsweb.nascom.nasa.gov/),搭载在 Terra卫星上的MODIS传感器获取所得C6版本MOD04气溶胶二级产品的空间分辨率为10 km,时间序列为2016年1月1日—2016年12月31日,时间分辨率为1 d,去除缺失的15 d数据,共获取有效AOD数据351 d.国内外学者通过大量实验验证了MODIS AOD数据与地面太阳光度计测量所得AOD数据具有一致性[23-24].Hsu等[25]发现利用深蓝波段可以实现沙漠和城市等地表反射率较高地区的AOD反演,并将此算法加入到C6版本的AOD产品中.Sayer等[26]对此产品进行了全球性验证,证明其反演效果显著.因此,本研究采用深蓝算法反演的MODIS AOD产品.

首先,采用IDL语言进行几何校正,利用ENVI 5.3无缝拼接工具“seamless Mosaic”对2016年351 d的AOD数据进行无缝拼接,并将每日AOD数据加和平均得到月AOD数据,投影方式统一采用WGS 84(World Geodetic System 1984)坐标系统.为了消除变量间的量纲关系,便于不同单位和量级的数据能够进行比较和计算,本研究利用z-score标准化法对AOD数据进行标准化:

式(1)中:μ为所有样本数据的算术平均值;σ为所有样本数据的标准差;z-score为标准化后变量值;x为实际变量值.

1.1.2 气象数据

新疆气象数据来源于国家气象科学数据共享服务平台(http://data.cma.cn/),包括2016年66个气象站点的每日平均气温T、气压P、相对湿度U、降水量R和风速W,通过计算得出2016年每月各气象要素数据.2016年每日边界层高度H数据由WRF模型模拟得到,通过加和平均得到每月边界层高度.以上所有数据均通过克里格插值的方法生成与MODIS AOD投影和空间分辨率均一致的空间连续分布的栅格图层,并对图层进行裁剪和z-score标准化.

1.1.3 PM2.5地面监测数据

2016年新疆PM2.5浓度地面监测站和气象站的空间分布情况如图1所示.

图1 2016年新疆PM2.5监测站和气象站空间分布图Fig.1 Distribution of PM2.5concentration monitoring stations and meteorological stations in 2016

图1中42个环境监测站点PM2.5浓度的小时数据来源于中国环境监测总站(http://113.108.142.147:20035/emcpublish/).由于MODIS/Terra卫星在每日地方时10∶30 am左右过境,因此取各环境监测站点10∶00 am和11∶00 am监测的PM2.5浓度数据平均值作为该站点卫星过境时PM2.5浓度监测数据,并通过加和平均得到PM2.5月浓度数据.

1.2 研究方法

1.2.1 模型构建

本研究基于中国新疆区域月尺度数据进行建模,并将经过上述处理的PM2.5月浓度数据与对应月份消除量纲后的AOD和各气象要素数据进行匹配,分别构建了2016年12个月的AOD-PM2.5模型

式(2)中:PM2.5K为监测 K 点在位置(μK,νK)处 PM2.5浓度;β0为特定位置(μK,νK)处的截距;AODK、PK、RK、UK、WK、TK和 HK为位置(μK,νK)处的建模变量值;β1~β7分别为特定位置(μK,νK)处气溶胶光学厚度AOD、气压P、降水量R、相对湿度U、风速W、气温T和边界层高度H的斜率.

在模型构建过程中利用自适应型(ADAPTIVE)Gauss函数按照相关要素分布的疏密创建核表面,并采用1979年Cleveland[27]提出的交叉验证法(cross validation,CV)确定最佳带宽,当CV值达到最小时,对应的b即为最佳带宽.

1.2.2 回归映射

利用所构建的模型对新疆地区PM2.5浓度时空分布进行模拟的过程称为回归映射[28].通过回归方程估算PM2.5浓度通常存在异常值,即回归映射所得PM2.5浓度存在着负值或过高的情况.基于已有研究[29-30],本研究对回归映射所得PM2.5浓度进行如下处理:当回归映射所得PM2.5浓度高于所有监测站点所得PM2.5浓度最大值的20%时,将回归映射所得PM2.5浓度赋值为监测站点PM2.5浓度最大值的120%;当回归映射所得PM2.5浓度低于所有监测站点所得PM2.5浓度最小值的60%时,将回归映射所得PM2.5浓度赋值为监测站点PM2.5浓度最小值的60%.

2 结果与分析

2.1 数据描述性统计分析

为判断自变量是否符合建模要求,本研究对模型中的自变量进行描述性统计分析,各变量基本服从正态分布规律,满足地理加权回归模型的建模要求,各变量的统计特征如表1所示,各变量频率分布直方图如图2所示.

表1 建模变量描述性统计结果Tab.1 Descriptive statistical results of modeling variables

由表1和图2统计结果可知,2016年中国新疆区域 PM2.5浓度 CPM2.5范围主要集中在 3.90~200.00 μg/m3,最大值达到617.86μg/m3,平均质量浓度为53.38μg/m3;AOD平均值为0.09,最大值为0.60,主要分布在0~0.20范围内;气压P平均值为920.21 hPa,最大值和最小值分别为1 242.31 hPa和809.45 hPa;降水量R主要集中在0~40mm,平均值为21.64mm,最大值为73.94mm,最小值为0 mm;相对湿度U平均值为52.87%,最大值为80.77%,最小值为22.58%,主要集中在40~60%的范围内;气温T平均值为12.01℃,最高气温为28.10℃,最低气温为-12.68℃;风速W平均值为2.21 m/s,最大值和最小值分别为3.40 m/s和1.23 m/s;边界层高度H主要分布在100~300 m,最大边界层高度为538.38 m,最小为47.92 m,平均值为184.37 m.

2.2 模型拟合与结果验证

将研究区内42个站点PM2.5浓度监测数据与对应站点处模型反演值进行匹配,共获取2016年12个月有效数据410对,将地面监测站点PM2.5浓度值与地理加权回归模型反演所得PM2.5浓度值进行线性相关分析,分别计算相关系数R2、均方根误差RMSE和平均相对误差绝对值MAPE,其中相关系数R2为0.87,均方根误差为22.42 μg/m3,平均相对误差绝对值为0.35.为了对比预测模型精度,本研究同时选取多元线性回归(multiple linear regression, MLR)模型[18-19],对近地面 PM2.5浓度进行估算,该模型通过全局回归的方法探究自变量与因变量之间的关系,是地理学中常用的拟合估算方法.地面监测站点PM2.5浓度值与模型反演所得PM2.5浓度值的相关系数R2为0.78,均方根误差为29.14 μg/m3,平均相对误差绝对值为0.49.图3为2种模型PM2.5浓度拟合散点图,由图3可以看出,地理加权回归模型所得匹配点分布更集中,说明地理加权回归模型预测值更接近真实值,优于多元线性回归模型.

图2 变量分布直方图Fig.2 Histogram variable distribution

图3 GWR和MLR模型反演所得PM2.5浓度与地面监测PM2.5浓度拟合散点图Fig.3 Fitling scatler plot of PM2.5concentration inverting by GWR and MLR model and observed PM2.5concentration

为了更加详细地验证预测模型的精度,分别计算12个月的相关系数、均方根误差和平均相对误差绝对值,结果如表2所示.

表2 地理加权回归和多元线性回归拟合统计指标Tab.2 Fitting statistical index of geographical weighted regression and multivariate linear regression

由表2可以看出,基于地理加权回归模型和多元线性回归模型反演所得PM2.5浓度值整体保持一致,具有相同的变化趋势.地理加权模型和多元线性回归模型12个月的模型拟合度分别为0.46~0.89和0.20~0.82,地理加权模型相关系数R2明显高于对应月份多元线性回归模型相关系数,其中5月份地理加权模型相关系数最高,可达0.89,最低为1月份的0.46;多元线性回归模型相关系数在5月份和7月份均达到最高值0.82,最低出现在12月,相关系数R2为0.20.对比2个模型的均方根误差可以明显看出,地理加权模型均方根误差为9.51~45.95 μg/m3,普遍低于多元线性回归模型的11.12~61.30 μg/m3,地理加权模型均方根误差最低出现在8月,值为9.51 μg/m3,多元线性回归模型均方根误差最低出现在9月,值为11.12 μg/m3,最高值均出现在 3 月,前者为 45.95 μg/m3,后者为 61.30 μg/m3.多元线性回归的平均相对误差绝对值为0.27~0.87,误差明显高于地理加权回归模型的0.20~0.49,2种模型所得平均相对误差绝对值均在2月份最低,5月份最高,即地理加权最低为0.20,最高为0.49;多元线性回归最低为0.27,最高为0.87.

2.3 新疆地区PM2.5浓度估算及时空分布特征

基于上述地理加权回归模型分别计算2016年12个月的PM2.5空间分布情况及月均浓度值,所得结果如图4所示.

图4 新疆地区PM2.5月均浓度变化情况Fig.4 Change of monthly PM2.5concentration of Xinjiang

由图4可知,一年内PM2.5月浓度变化呈现多峰多谷结构,春季(3—5月)和冬季(12—2月)PM2.5浓度较高,1月份达到132.07μg/m3的峰值,3月份次之,值为113.22μg/m3.春季多大风,沙尘天气频发,是造成空气中PM2.5浓度骤增的主要因素.冬季多出现逆温现象,空气的垂直对流运动减少,不利于近地面PM2.5的扩散,采暖原因造成污染物排放量增加,却不能及时得到扩散,导致近地面PM2.5浓度增加.夏季(6—8月)和秋季(9—11月)PM2.5浓度较低,其中9月份PM2.5月浓度最低,为28.55 μg/m3,夏季的气象条件有利于PM2.5的迁移和扩散,因此PM2.5浓度较低.而农业活动对地表的扰动所造成的扬尘现象是秋季PM2.5浓度升高的主要因素.

新疆地区一般把1月、2月、3月、11月和12月划分为采暖季,6月、7月和8月为非采暖季,3月、4月、5月、9月、10月和11月为风沙季.风沙源是造成PM2.5浓度升高的主要原因[31].新疆位于中国西北部,沙漠总面积为4.29×104km2,占其总面积的26.12%[32].因此受风沙季影响3月、4月、5月、10月和11月南疆区域PM2.5浓度较高,受采暖季影响1月、2月和12月北疆区域乌鲁木齐市附近PM2.5浓度较其他时间明显升高.

基于地理加权回归模型反演所得PM2.5月浓度空间分布如图5所示.由图5可以看出,1月份北疆区域AOD缺值严重,南疆区域PM2.5浓度分布呈现出东高西低的现象,东南部由于受到昆仑山脉和阿尔金山阻隔,污染物无法扩散,导致污染物边界与阿尔金山北侧一致,吐鲁番和哈密地区气候相对干燥,易受沙尘影响.2月份PM2.5向西扩散,高值区主要集中在塔里木盆地边缘区域,新疆东部区域PM2.5浓度较1月份呈现明显下降趋势,南部延阿尔金山走向呈现AOD缺值带,阿尔金山南侧呈现条状性高值区.3月份受风沙季影响PM2.5主要集中在南疆区域,以塔里木盆地西侧最为集中,出现西部高值区,塔里木盆地中心反而略低于四周区域,新疆北部AOD覆盖范围明显扩大,北疆较南疆相对湿润,PM2.5浓度相对较低.4月份较前3个月PM2.5污染范围明显缩小,以塔里木盆地为高值中心区域,并向四周辐射,北疆区域PM2.5呈现低污染水平.5月份PM2.5污染范围有扩大趋势,但基本保持在天山山脉南侧,以天山山脉为分界线,南北两侧PM2.5浓度差异显著.3—5月为沙尘高发期,为此南疆和田和喀什地区PM2.5浓度较高.6月份PM2.5浓度明显下降,南疆区域呈现中度污染水平,以塔里木盆地为高值中心,四周辐射状分布.7月份PM2.5浓度较6月份呈现微弱上升趋势,高值区域向东扩散,这可能与新疆7月强对流天气频发有关.8月份和9月份的PM2.5浓度是一年中相对较低的2个月,低值覆盖范围明显扩大,PM2.5高值分布范围也较为集中,且分布区域较小,主要在塔里木盆地东侧的罗布泊附近.10月份PM2.5浓度总体而言也不是很高,呈现中等污染水平,PM2.5分布界限基本与昆仑山脉走向一致,主要集中在天山山脉与昆仑山脉间.11月份PM2.5浓度呈现上升趋势,高值区亦主要集中在塔里木盆地区域.12月份PM2.5浓度明显升高,高值区出现在罗布泊和吐鲁番盆地附近,即塔里木盆地东北部,新疆东南部区域延阿尔金山呈现条状低值区.对比2016年12个月PM2.5空间分布明显看出,冬季AOD覆盖较少,导致反演所得PM2.5缺值严重,缺值区主要集中在北疆区域.

图5 GWR模型反演所得新疆2016年PM2.5月浓度分布图Fig.5 Distribution of monthly PM2.5concentration of Xinjiang inverting by GWR model in 2016

为了进一步分析2016年新疆地区PM2.5空间分布情况,利用地理加权回归模型构建了2016年地面PM2.5浓度反演模型,结果如图6所示.

图6 2016年新疆区域PM2.5年均浓度空间分布情况Fig.6 Distribution of PM2.5annual average concentration of Xinjiang in 2016

由图6可以看出,PM2.5高值区主要位于新疆南部区域和乌鲁木齐市附近,其中喀什市、和田市和库尔勒市PM2.5浓度较高,新疆北部和南部边缘区域PM2.5浓度相对较低.PM2.5较高的3个地区属于典型的暖温带荒漠干旱气候特征,降水稀少,蒸发量大,土质疏松,地表缺少植被覆盖,为扬尘天气的形成提供了客观条件.有研究表明,在沙尘高发期,大风将地面的沙尘吹起,使其悬浮在空中,由于降水稀少,扬尘过后会持续几天浮尘天气,导致PM2.5浓度升高[31].喀什位于天山南脉与昆仑山交界处,且地形西高东低,形成三面环山的半封闭地形,不利于PM2.5扩散,造成PM2.5污染严重.特殊的地形和冬季大面积采暖是导致库尔勒市PM2.5浓度较高的客观因素,市政建设的快速发展也是导致PM2.5浓度升高的原因之一[33].有研究表明,沙尘天气是造成和田PM2.5污染的主要原因[34].乌鲁木齐市PM2.5浓度较高可能与冬季燃煤消耗,污染物排放增多,逆温层厚导致PM2.5难以扩散,浓度增加[35].新疆北部以及南部边缘区域多为山地,植被覆盖良好且人类活动较少,表现为PM2.5浓度低值区域.

总体而言,研究区PM2.5浓度呈现出南高北低的现象,PM2.5高值区域以塔里木盆地为高值中心区向四周辐射状,其中塔里木盆地拥有中国最大的沙漠塔克拉玛干沙漠,加之新疆特殊的地理环境,盆地相对闭塞,塔里木盆地北侧横亘天山山脉,南侧横亘昆仑山脉,导致PM2.5扩散受到阻隔,造成PM2.5污染物粒子聚集,使得天山山脉南侧以塔里木盆地为中心的区域成为PM2.5浓度高值中心区.

3 讨论

本研究利用站点匹配的AOD、气象要素和地面站点监测数据对2016年逐月AOD-PM2.5进行建模,得到新疆区域每月PM2.5质量浓度的估算值.通过对比地理加权回归模型和多元线性回归模型拟合结果,明显看出地理加权回归模型较多元线性回归模型更能体现出PM2.5浓度空间分异的特征,充分体现了地理加权回归模型的优势.但新疆区域环境监测站点数据较少,且主要集中在北疆区域,对于南疆塔克拉玛干沙漠区域基本没有环境监测站点,导致可匹配的有效数据对较少,影响模型精度.回归映射所得PM2.5浓度在新疆边缘区域,尤其是东南部存在着较多的异常值,本研究利用监测站点最小值将这些异常值进行修正,因此新疆东南部区域PM2.5浓度每月的估算值差异较小.

本次研究选用MODIS/Terra 10 km AOD数据,未考虑分辨率较高的MODIS/Terra 3 km AOD数据,原因在于目前MODIS 3 km AOD数据尚未发布深蓝算法(DB)产品,考虑到新疆区域多沙漠覆盖,属于亮地表类型,深蓝算法反演效果更好[9-11],故选择此算法.此外,本研究选用MODIS上午过境Terra卫星AOD数据,未用下午过境Aqua卫星AOD数据,导致研究可能存在局限性.因此未来在提高反演精度方面,还可以考虑双星协同数据、地表覆盖类型和人口密度等影响因素.

4 结论

针对新疆地区沙漠面积覆盖广泛的特殊地理环境,本研究采用深蓝算法的气溶胶光学厚度数据、气象要素数据和地面监测站点数据,利用地理加权回归模型和多元线性回归模型分别构建2016年12个月的PM2.5遥感反演模型,得到以下结果:

(1)基于地理加权回归模型反演的地面PM2.5浓度相关系数R2=0.87,均方根误差为22.42 μg/m3,平均相对误差绝对值为0.35,基于多元线性回归模型反演的地面PM2.5浓度相关系数R2=0.78,均方根误差为29.14 μg/m3,平均相对误差绝对值为0.49,综合各种拟合指标来看,地理加权回归模型均优于多元线性回归模型.

(2)基于地理加权回归模型反演所得2016年新疆地区一年12个月地面PM2.5浓度呈现波浪状多峰多谷型变化趋势,其中峰值主要出现在1月、3月、5月、7月和12月,其中1月PM2.5浓度最高,为132.07μg/m3,谷值出现在2月、4月、6月和9月,其中9月PM2.5浓度最低,为 28.55 μg/m3.

(3)2016年全年新疆地区PM2.5浓度空间分布呈现出南高北低的现象,高值主要集中在塔克拉玛干沙漠区域.喀什、和田和库尔勒的北部区域浓度最高,冬季乌鲁木齐市附近PM2.5浓度较其他月份表现出较高水平.

猜你喜欢

高值监测站反演
反演对称变换在解决平面几何问题中的应用
养殖废弃物快速发酵及高值转化土壤修复生物肥料关键技术
基于ADS-B的风场反演与异常值影响研究
南京地区高值医用耗材的使用与医保支付研究
麻文化发展与高值利用前景展望
利用锥模型反演CME三维参数
餐厨垃圾资源化处理与高值化利用技术发展展望
平面直角坐标系中的距离问题
一类麦比乌斯反演问题及其应用
巩义市审计局重点关注空气自动监测站运行情况