基于随机森林算法的香港地区大气水汽反演

2022-03-13丁凯文张晨晰

现代测绘 2022年6期

丁凯文，张晨晰，陈宇

(1.山东科技大学资源学院，山东泰安 271019；2.中国矿业大学环境与测绘学院，江苏徐州 221116)

0 引言

对流层内部的水汽约占总大气含量的4%左右，急剧的三相变化会导致诸如洪涝、台风、寒潮、暴雨等恶劣天气，对人民生命财产安全造成重大隐患。

传统探测水汽的方式如无线电探空仪、水汽辐射计等时间分辨率低，无法满足预测的时效性。随着全球卫星导航系统(Global Navigation Satellite System,GNSS)应用领域的不断拓展以及其空间分布均匀、全天候、全天时、高精度的优势，利用GNSS预测地区可降水量(Precipitable Water Vapor,PWV)，对气象灾害预警领域的技术发展与研究具有重大推动作用[1]。

对流层延迟(Zenith Tropospheric Delay,ZTD)与大气加权平均温度(Atmospheric Weighted Average Temperature,Tm)是计算大气可降水量的两个关键参数，数十年来，国内外许多学者针对二者进行了大量相关研究[2-3]。ZTD模型根据是否需要实测气象参数以及建模方法不同，主要划分为气象参数模型与经验模型；在模型建立方面，继Bevis等[4]首次提出“GPS(Global Positioning System)气象学”的概念，并给出的回归经验模型后，有关的研究工作大多集中在模型的优化上[5-7]。与此同时，国内还有学者在Bevis模型的基础上建立了区域模型[8-10]，验证精度均较前者有不同程度的提升。

值得关注的是，以上研究中对流层延迟的获取大都来自GPS基线解算，且建模方法多基于最小二乘回归，加之文献[5]中严密验证了地表温度与加权平均温度存在非线性关系。综上，本文主要研究了基于单北斗卫星系统(BeiDou Navigation Satellite System,BDS)的精密对流层延迟获取，并考虑到随机森林算法训练速度快、非线性学习能力强、不易产生过拟合，以及在缺失某些特征的情况下依旧保证回归准确率等优势，建立了香港地区多因子模型，并在对模型精度进行了验证后，预测了香港地区2018年7月份可降水量。

1 地基GNSS反演PWV原理

地基GNSS反演水汽主要是利用地面上安置好的GNSS接收机，获取卫星信号穿过对流层的延迟量(主要是天顶方向延迟)。ZTD由天顶静力学延迟(Zenith Hydrostatic Delay,ZHD)与天顶湿延迟(Zenith Wet Delay,ZWD)两部分组成，其中ZHD约占对流层总延迟量的90%，性质较为稳定。本文选择Saastamoinen模型[11]分离出高精度ZHD分量，其模型计算公式为：

(1)

f(φ,H)=1-0.002 66×cos2φ+0.000 28×H

(2)

式中，δρZHD为天顶静力学延迟，Ps为测站压强(hPa)，φ为测站纬度(°)，H为测站高程(m)。

天顶湿延迟的影响因素较多，故ZWD的获取一般由ZTD与ZHD作差得到，即：

ZWD=ZTD-ZHD

(3)

在获得天顶湿延迟后，该值与气象转换因子Π相乘即可得到大气可降水量(PWV)，公式表示为：

PWV=ZWD×Π

(4)

其中，转换因子Π为：

(5)

(6)

式中，ei为第i层大气平均水气压(hPa)，Ti为第i层大气平均温度(K)，hi为第i层大气高度(m)。由于探空数据的不连续性(每天只能获取两次)，故Tm的计算均采用后一项离散化形式，并视为真值。

2 北斗系统获取对流层延迟的精度分析

使用GAMIT/GLOBK_10.7软件对吉林长春、北京房山、上海佘山、香港黄石4个IGS站点(测站距离均大于500 km，可减少对流层延迟相关性，避免引入系统误差[12])2018年2月5日(年积日036)进行基线解算，站点信息如表1所示。

表1 IGS测站及探空站信息

运行环境安装完成及前期文件准备就绪后，运行解算命令，之后分别对BDS与GPS进行单日批处理解算，解算成功后对两个系统的结果进行3个方面的精度分析。

2.1 标准化均方根误差

由于GAMIT/GLOBK软件采用合网解的方式解算基线向量，所以同步环闭合差在基线处理完成时已经进行了分配(同步环闭合差恒为零)[13]。因此，可将时段基线解算精度指标标准化均方根误差NRMS值作为同步环优劣检核的指标，对比结果如表2所示。

表2 基线解算均方根误差对比

在8h～12h、12h～16h、16h～20h、20h～24h四个时段BDS基线解算的NRMS值均略低于GPS。一般认为，NRMS值在0.12～0.5之间是合理的，在0.25左右为最优，二者NRMS值均在0.22～0.25之间，符合精度要求。

2.2 天空图

选择香港黄石(HKWS)站12h～16h、16h～20h、20h～24h三个时段的卫星天空图进行对比，从图1中可以很明显的发现，同时段参与解算的BDS卫星大致有5～9颗，而GPS卫星则均在10颗以上。由于BDS卫星数量受限，空间网型结构稀疏，其基线解算精度在一定程度上受到影响。

图1 BDS与GPS天空图对比

2.3 相位残差图

由图2可以看出，BDS卫星在高度角45°以下数据较GPS卫星离散程度较高，前期趋势线整体略偏离蓝色中线，收敛程度较低，反观GPS则较为平稳，这也表明GPS卫星数据质量稍好于BDS卫星。

图2 相位残差对比

综上可得，BDS基线解精度与GPS持平，虽参与解算的卫星数量以及相位残差收敛情况稍逊于GPS，但也保证了利用单一BDS获取对流层延迟数据的可行性与可靠性。

3 香港地区PWV反演分析

3.1 香港地区大气加权平均温度模型建立

对香港国王公园探空站2016～2018年1、3、5、7、9、11月份探空站数据进行相关性分析,验证了Tm与地表温度Ts、水汽压es、测站压强Ps、露点温度Ds四种气象因子均高度相关，相关系数如表3所示，并在此基础上建立了Tm单因子与多因子模型。

表3 Tm与Ts、es、Ps、Ds的相关系数

3.1.1 基于最小二乘的单因子模型

首先基于最小二乘法建立了香港地区Tm-Ts、Tm-es、Tm-Ps、Tm-Ds单因子模型，并在此基础上引入Bevis与LJG经验模型，模型公式及精度如表4所示。

表4 单因子模型分析结果

由表4可知，基于实测气象数据的Tm-Ts模型(以下简称LTs模型)在所有单因子模型中均方根误差最小，而对比Bevis与LJG经验模型，二者MAE、RMSE均较大，模型精度稍差。

3.1.2 基于随机森林算法的多因子模型

将与Tm具有映射关系的Ts、es、Ps、Ds作为输入因子，探空站数据离散积分计算得到的Tm视为真值，在Python环境下构建基于随机森林算法的RFTm模型，修改模型各参数配置。其中，样本数据n=1 012，将70%样本数据用于训练，余下30%用于预测验证；选择数据洗牌，即将样本数据顺序打乱再进行训练，这样做可减小数据出现过拟合现象。

RFTm模型构建结果如表5所示，模型训练完成后，随机取100组Tm预测值与对应真值对比，二者拟合曲线如图3所示。

表5 随机森林多因子模型分析结果

图3 数据测试预测图

结合表4～5和图3可以得出，RFTm模型在精度与模型拟合效果上均整体好于单因子模型与经验模型：均方根误差比LTs模型提升了16.2%，比Bevis模型提升了44.2%，比LJG模型提升了40.9%，并且与Tm的拟合程度超过0.9，进一步表明RFTm模型有更为良好的适用性。

3.2 2018年7月份香港地区可降水量预测

利用GAMIT/GLOBK提取得到2018年7月份每日0:00对流层延迟量并采用Bevis模型、LJG模型、LTs模型以及RFTm模型，结合公式(1)～(5)，计算得到PWV预测值。图4为各模型预测PWV对比图，其中柱状图为探空站数据计算得到的PWV真值，表6为各模型精度对比。

图4 RFTm、Bevis、LJG、LTs模型预测PWV对比分析图

表6 Bevis、LJG、LTs、RFTm模型预测PWV精度对比

由表6可知，RFTm模型均方根误差为1.889 mm，比LTs模型精度提升约20.1%，比Bevis模型提升约25.0%。结合图4可以看出，LJG模型出现较大偏差，R2也较低，模型拟合较差。进一步对4种模型PWV预测值的残差进行统计，如图5所示。

图5 Bevis、LJG、LTs、RFTm残差对比图

由图5可知，RFTm模型预测PWV的残差分布于-3～2 mm之间，最贴近于PWV真值；LTs模型总体在-3～2 mm之间浮动，最小值为-7.402 mm，可能是样本异常值；Bevis模型残差总体高于PWV真值，范围介于-3～7 mm，出现系统偏差；LJG模型精度最低，残差范围为-9～13 mm。可见，基于实测数据的本地化LTs模型与基于随机森林算法构建的RFTm模型皆可稳定良好预测香港地区大气可降水量，而传统的经验模型(Bevis、LJG)则在样本数量较少的情况下出现较大误差。

4 结语

本文从卫星基线解质量、卫星数量、信号相位残差三个维度验证了利用单一北斗卫星获取天顶对流层延迟的精度及进行水汽反演的可行性。以地表温度、水汽压、测站压强、露点温度为输入参数，通过随机森林算法构建了香港区域RFTm模型，与各模型精度对比，结果显示其精度较本地LTs模型、Bevis经验模型、LJG模型均有不同程度提升，可以看出Tm预测精度。利用上述模型分别对香港地区2018年7月份可降水量进行预测，RFTm模型较LTs模型、Bevis模型与探空站数据离散积分得到的Tm真值有更强的一致性。综上可见，北斗卫星系统结合随机森林算法构建的RFTm多因子模型具有良好的适用性以及稳定性，对预测大气可降水量有明显改善。