基于空间分析和BART算法的福建省降水量空间分布研究
2024-04-29林良君
林良君
(福建省良源建设工程有限公司,福建 宁德 352000)
气候变化和极端天气事件的发生给人类社会和自然环境带来了严重的影响。气象预测是预防和减轻自然灾害的重要手段。众所周知,获取降水量空间栅格面方法有很多种,例如统计学方法、计算机模型方法等。然而,这些方法中往往存在一些缺陷,例如面临数据样本不充足、难以解释和预测的问题。目前,气象站点资料结合机器学习算法被广泛应用于气象栅格化研究中。其中,随机森林是一种强大的非线性回归技术,已被证明可有效提取空间尺度上大气含水量、大气颗粒、气温等信息。福建地处东南沿海,气候湿润、降雨充沛,但降水量空间分布差异大,获取该地降水量精细栅格面对对农业生产和城市规划具有重要意义。因此,本文将运用随机森林算法和气象站点数据提取福建省的降水量1km分辨率水平的分布信息,探究该结果的准确性。
1 研究区概况
研究区属武夷山系、东南丘陵,海拔在2479m以下,总体地势自西北向东南沿海倾斜,该省海岸线总长3368km,另形成滩涂、海岛地貌。地带性植被为亚热带常绿阔叶林,森林覆盖率达到62.8%。气候类型属于亚热带海洋性季风气候,夏季绵长且湿热,全年平均气温为18~21℃,降水量为1800~2800mm,雨日数多在150~200d之间。典型气象灾害为台风、洪涝和寒潮等。如图1所示。
图1 福建省位置与雨量站
2 材料与方法
2.1 数据资料
本研究所采用的数据源于福建省气象局提供的从1981—2016年的降水量观测数据,其中包括了福建省69个气象站点的观测数据。该雨量站空间分布相对均衡,因此具有良好空间代表性。另外,还使用了福建省地理信息数据如DEM和气象站点经纬度信息。考虑到降水量空间分布受地形、海陆位置等因素影响,参考陈君等人研究经验,利用DEM生成的海拔、坡度、坡向、经度、纬度和经纬度乘积作为辅助变量。为消除数据之间的量纲不同和数值差异,采用标准化处理方法将各项指标转化为无量纲指标,用于建立随机森林预测模型。
2.2 BART算法原理
贝叶斯加性回归树(Bayesian Additive Regression Trees,BART)是一种总和树模型,其联合贝叶斯自适应原理和梯度回归树的特点,旨在近似未知函数f。每个树作为一个弱学习器,仅解释一部分结果。其采用决策树(CART)作为基函数,为避免CART易过度拟合缺陷,引入了正则化先验,规定每一CART仅能解释自变量和因变量之间有限关系。BART回归原理是推断对于输入向量x=(x1,…,xp)时输出y的未知函数f,其中
y=f(x)+,~N(0,σ2)
(1)
y=h(x)+,~N(0,σ2)
(2)
2.3 降水量空间插值精度验证
利用随机森林回归算法预测得到的降水量栅格点值y′为参考值,以地面观测站降水量y为真值,计算决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE),对福建地区降水量预测精度进行量化评估,其具体计算公式如下:
(3)
(4)
(5)
3 结果与分析
3.1 环境变量分布特征
研究区近35年平均降水量的站点尺度统计特征见表1。其中最大值在闽北的金山站,年降水量达1992mm,最小值出现在闽南的周宁站,仅为1435mm,空间相差557mm,其平均值为1689mm,属丰水区。统计得到其离差系数为13.52%,呈中度程度变异性,说明全省降水量丰沛,空间差异性一般。利用单样本Kolmogorov-Sirmov发现,其PKS值为0.08>0.05,说明该站点数据具有正态分布特征。
表1 福建省69个气象站点数据降水量统计特征
利用ArcGIS的Trend analysis工具拟合全部站点降水量空间趋势特征。如图2所示,研究区降水量在东西方向(x轴)上呈现反“L”型变化,说明站点降水量高值聚集于研究区西部,而东部地区降水量之间差异不大。在南北方向上(y轴),降水量呈平缓“L”型特征,表明区域北部降水量高于南部。图2揭示了区域降水量分布宏观趋势,因此可使用BART模型进一步发掘降水量与其他环境变量之间非线性关系。
图2 福建省站点降水量空间趋势统计
3.2 BART模型建立
本研究中,我们采用Python语言的Scikit-learn库实现了随机森林算法。首先,将数据集进行标准化处理,并按照7∶3的比例划分为训练集和测试集,其中训练集用于训练模型,测试集用于评估模型的预测能力。该模型性能不仅受数据结构影响,还对超参数的配置敏感。利用Random方法先对参数设置搜索空间。经交叉验证显示,当超参数num_trees、k、alpha、beta、nu的组合配置依次为500、7、0.01、0.46、0.3时,模型训练精度参数RMSE达到最低,仅为16.87mm。
图3直观展示了BART算法提取福建省降水量空间分布的独立验证精度,可知其R2=0.86,MAE和RMSE分别为36.03、57.44mm,表明该模型具有较好的验证一致性和较低的观测误差,该精度在可接受范围内。为进一步BART方法的优越性,同样利用独立验证法得到了OK、Anusplin传统插值法的验证精度,其中对OK方法而言,其R2为0.44,MAE和RMSE依次达到97.79、118.35mm;对Anusplin方法来看,其R2达0.76,而MAE和RMSE为73.51、92.86mm。上述分析表明,非线性拟合技术的BART算法比经典OK和Anusplin线性方法在研究区降水量空间分布分析方面更加优势[9]。
图3 不同模型精度散点图
3.3 福建省降水量空间分布特征
基于BART非线性回归算法生成福建省1km分辨率水平的降水量栅格面,如图4所示。该区降水量空间范围介于1578~2218mm之间,其空间平均值为1795mm,离差系数为23.56%,这与表1中站点统计观测值接近,表明该降水量栅格面数据具有一定可靠性。
图4 福建省降水量空间分布特征
从空间分布特征来看,福建省降水量分布中心位于宁都北部和武夷山麓地区,这一地段降水量在1800mm以上;而泉州中部和漳州西北部降水量次之,分布范围介于1650~1800mm之间;其他地区降水量最少,在16500mm以下。总体来看,区域降水量空间分布受季风路径和海陆位置影响,由于迎风坡、高地势的影响,海洋性季风水汽易于成云致雨形成降雨中心;而在沿海平原、盆地区蒸散发较为旺盛,湿气不易聚集。此外该分布图详细呈现了降水量地带性特征,并避免了“牛眼”现象,刻画了降水量随地形变化的分布规律,因此符合区域实际。
4 结语
本文基于GIS技术和GBZT算法,对福建省2020年的降水数据进行空间插值研究。结果表明,GBZT算法在福建省降水量空间插值中表现较好,插值精度R2达0.86,MAE和RMSE分别为36.03、57.44mm;比经典OK、Anusplin模型的插值精度的R2提升了95.45%、13.16%;MAE和分别减小了37.27%、50.99%;RMSE依次降低了9.93%、2.08%,反映了GBZT模型在降水量插值方面具有良好应用性,此外该分布图详细呈现了降水量地带性特征,并避免了“牛眼”现象,刻画了降水量随地形变化的分布规律,符合区域实际。下一步应在该方向上进行深入研究,探讨更多基于机器学习算法的降水量空间插值方法,将其应用于水资源管理和环境保护中。