APP下载

基于GA-MLP的东北地区Tm模型研究

2022-11-04邹玉学詹金瑞朱腊腊上官明欧阳光

测绘工程 2022年6期
关键词:探空气象要素东北地区

邹玉学,詹金瑞,朱腊腊,上官明,欧阳光

(1.广州市城市规划勘测设计研究院,广州 510060;2.中国地质大学(武汉) 地理与信息工程学院,武汉 430074)

大气可降水量(precipitable water vapor,PWV)的相位变化与降水直接相关,在天气变化中起到了至关重要的作用[1-3]。全球导航卫星系统(global navigation satellite system,GNSS)技术的快速发展为研究PWV提供全新的手段,克服水汽微波辐射计、无线电探空仪等方法的时空分辨率较低、成本高问题[4]。利用GNSS技术反演高精度PWV过程中,大气加权平均温度(weighted mean atmospheric temperature,Tm)是其关键参数之一。

国内外学者对Tm模型研究主要集中在两大部分:第一部分研究主要聚焦于基于无气象要素建立的经验Tm模型,如Yao等[5]建立Tm与站点坐标和年积日有关的GWMT模型,Böhm等[6]建立顾及年周期和半年周期的GPT2wTm模型,此模型顾及了季节性变化,仅根据测站经纬度、高程和年积日等参数即可获取Tm,因此精度较差,反演PWV时精度无法得到充分保障。第二部分研究主要集中在利用地表气象数据建立的Tm模型,如Bevis等[1]利用美国地区探空数据建立Tm关于Ts(地表温度)间的单因子线性回归模型;多数学者研究发现Bevis模型应用到其它地区存在明显的系统性偏差,此后基于Bevis的线性回归模型思想,诸多学者先后建立了适合极地、西非、欧洲和中国区域的本地线性回归Tm模型[7-10];姚宜斌等[11]推导Tm与Ts间的非线性关系,突破传统的Tm与Ts间为一元线性回归关系的认识,建立Tm与Ts间的单因子非线性模型,并认为拟合曲线在低温地区拟合精度较低。Zhang等[12]研究线性Tm-Ts模型残差的半年周期性时发现其随纬度增加逐渐增大,因此在线性模型中加入谐波函数,合理解释线性模型残差周期性变化情况;臧建飞等[13]认为多因子线性回归Tm模型并不为最优,基于误差周期性分析,考虑年周期和半年周期性误差修正现有的线性模型、指数模型和混合模型,而新模型在中高纬地区依然存在较大误差。由此可见,现有Tm模型在我国东北地区普遍精度较低。为提高GNSS反演PWV精度,建立一个适合我国东北地区的Tm模型是当前研究的首要任务。随着计算机科学的发展,计算机的计算能力获得急剧提升,许多数据驱动型模型得以实现并广泛应用于各行各业的生产研究工作中。Ding[14]以较少的地表气象要素做模型输入,构建基于神经网络的Tm模型,结果表明该模型在全球尺度上优于GPT2w、GTm、GTm-I和PTm-I这4类旧模型;龙凤阳等[15]利用神经网络强大的非线性优势,基于补偿方法构建了适合中国区域的Tm融合模型。已有学者基于TFNN分别建立了NMFTm、SMFTm和MFMT模型,基于集成学习方式增强了模型的泛化能力[16]。多层感知器模型(multilayer perceptron,MLP)有着灵活的输入和输出且能解决非线性映射问题,具有很强的学习记忆功能。MLP模型的初始权值和阈值是随机性的,难以获得全局性最优初始值,计算结果不稳定,GA算法作为全局搜索算法恰能够弥补误差反传过程中的缺陷,具有更好的非线性拟合能力[17]。

利用GA-MLP对Tm模型的建立却鲜有报道。文中采用美国怀俄明大学(university of wyoming,UW)提供的东北地区7个国际探空站气象数据(数据来自于http://weather.uwyo.edu/upperair/sounding.html),通过GA-MLP模型,融合气象数据,建立适合东北地区的Tm模型,验证该模型在该区域的适用性。

1 计算原理

1.1 常用的Tm的计算方法

在GNSS气象学中,PWV与对流层天顶湿延迟(zenith wet delay,ZWD)之间的转换系数Π可由式(1)得到[1]:

(1)

(2)

式中:e,T分别为地表上的水气压(hPa)和温度(K);dz为积分高度;ei,Ti分别为第i层大气层顶的水气压和绝对温度;Δhi为第i层的层高。

由于探空站在全球的分布数量有限,且仅提供每天的0时和12时的观测数据,基于式(2)计算的Tm空间分辨率和时间分辨率较低,常用的Tm计算方式有以下几种:

1)常数法:王小亚等发现转换系数Π是随季节和气候变化的,近似值为0.15[18],由式(1)可反求Tm=264.42 K,此计算的Tm无法反映其时空变化;

2)GPT2w模型:利用GPT2w模型结合参数格网文件可以求解全球任一点的Tm经验值[6]。

3)单/多因子线性回归模型:多数学者根据Bevis模型(Tm=a+bTs)建立适合本地的单因子线性回归模型,也有部分学者建立了基于气象要素的多因子线性回归模型,此类回归分析方式计算的Tm值最为常用;

1.2 MLP模型构建

MLP神经网络属于人工智能常用的算法,对自变量与因变量间的拟合效果几乎可以逼近任意非线性函数。它是一种多层前馈网络,按照误差反向传播算法进行训练,通过逆向传播不间断地修改网络的阈值与权值,从而使网络误差达到最小[19]。

MLP由输入层、隐含层和输出层三部分构成,常用的三层网络模型结构如图1 所示,x1,x2,…,xn为输入数据;y1,y2,…,y0为输出数据;ωij为第i个输入到第i个隐含层节点之间的连接权重;ωjk为第j个隐含层节点到第k个输出节点的连接权重。输入信号x经过隐层被激活一次,后达到输出层再次经过激活函数得到输出。

(3)

式中:zj为第j个隐节点的输出;f为激活函数(Sigmoid、Tanh或者ReLU等);ωij为第i个输入到第j个隐节点之间的连接权重;xi为第i个输入;bj为第j个隐节点的阈值;yk为输出层的第k个输出;ωjk为第j个隐节点到第k个输出节点的连接权重;bk为第k个输出节点的阈值。

图1 MLP模型结构

根据Tm的定义,气压与Tm无关,且二者间的Pearson相关系数较低,因此文中选取的输入参数为与TmPearson相关性最高的Ts和Td(露点温度),输出参数为单个输出的Tm值,采用经验试算法最终确定隐含层神经元个数为9个。隐含层和输出层函数的确定对MLP模型预测精度影响较大,文中采用双曲正切函数(Tanh)为隐含层节点传递函数,采用线性传递函数为输出层节点传递函数,通过梯度下降算法对网络进行训练。

GA算法是模仿生物进化理论机制的一种全局搜索方法,恰好能够弥补误差反传过程中的缺陷[20]。GA算法使用生物进化的思想,设定一定数量的初始个体,计算初始适应度,选择适应度较大的个体进行交叉、变异,并淘汰适应度较小的个体,从而使整个群体产生进化。在多层感知器中结合遗传算法,具体过程如下:

1)MLP输入:读取数据并归一化,确定MLP模型的拓扑结构;

2)编码:将多层感知器的权值阈值视为基因,赋予多组不同的初始值,生成多个个体;

3)计算适应度:将个体代入多层感知器计算误差,以误差的倒数作为个体适应度;

4)选择:根据适应度的大小,采用轮盘赌的方式选择个体;

5)交叉:对选择的两个个体的某一随机位置进行交叉操作;

6)变异:避免GA算法在训练中陷入局部最优解,需将值在限制范围内进行调整;

7)进化:在个体基因经过选择、交叉和变异之后,新一代的个体产生,将新一代个体放入多层感知模型再次计算适应度;

8)迭代:重复过程4)~7)直到最大迭代次数后输出。

在经过遗传算法后,将最优个体的基因作为初始权值和阈值带入MLP模型参与训练,预测数据反归一化并得到最终预测值。GA-MLP模型的流程图如图2所示。

图2 算法流程图

2 模型评估与分析

2.1 数据来源与精度评定指标

图3 探空站点分布

为评价模型的表现,文中以均方根误差(root mean square error,RMSE)、平均偏差(Bias)和判定系数R2做模型精度评估标准。3种评估标准指标如下:

(4)

(5)

(6)

2.2 结果分析

2.2.1Tm模型精度分析

为了比较文中所建基于GA-MLP的Tm模型和现有的Tm模型在东北地区与Tm真实值的拟合情况,分别计算了2018年7个探空站的Tm值,并按月取均值,模型化Tm值与真实值对比结果如图4所示。

由图4可以看出,各类模型化Tm值与真实值变化趋势基本一致。无气象要素参与的GPT2w模型值低于真实值,在7个探空站上具有明显的系统性偏差,模型精度最差。具有气象要素参与的各类模型化Tm值与真实值拟合度较高,但单因子线性和非线性模型在个别站点的部分时间段与真实值间的波动较为明显,如嫩江、哈尔滨和通辽站的单因子线性和非线性模型值在4月和5月明显高于真实值,嫩江、伊春和临江站的单因子线性和非线性模型值在7月和8月明显低于真实值,这可能由于仅有单一Td参与的模型无法更加准确地反映Tm值。具有Ts和Td参与的多因子线性模型和基于GA-MLP的Tm模型与Tm真实值的拟合情况全年无明显变化,Tm值变化趋势一致,模型拟合情况最好。

为了进一步定量分析不同Tm模型在2018年东北地区探空站的精度检验结果,计算了各类模型在2018年的Bias、RMSE和R2,结果如表1所示。

表1 不同模型年均精度检验结果

图4 模型化Tm值与真实值对比

由表1可以看出,无气象要素的GPT2w模型RMSE为 6.37 K,Bias为2.03 K,在东北地区精度最差,具有明显的系统偏差,R2接近0.8,模型拟合优度较差;具有气象要素参与的各类模型的RMSE均低于GPT2w模型,Bias接近0 K,模型均无明显系统偏差,判定系数均接近0.9,模型拟合优度都较高,各类精度检验指标明显优于无气象要素参与的GPT2w模型,这说明气象要素在Tm模型中具有至关重要的作用;仅有Ts参与的单因子线性模型和非线性模型的各项精度指标无明显差别,RMSE均接近5.0 K,R2=0.878,单因子线性模型和非线性模型在东北地区的年均精度相当;多因子线性模型的各项精度指标明显优于单因子线性模型,RMSE为4.13 K,R2=0.917,由此说明多因子较单因子更能反映模型预报的真实情况;GA-MLP的Tm模型的各项精度指标均为最优,较常用的单因子、多因子线性模型和MLP模型,RMSE分别减少了20%、3%和8%;对比MLP模型,采用GA优化后的MLP模型精度提高明显,平均偏差更接近0 K,判定系数更接近1,拟合优度更优。由此说明基于GA优化MLP的Tm模型在东北地区精度最高,具有更优的适用性。

2.2.2 GPS反演PWV精度分析

建立精确的区域大气加权平均温度模型最终目的是为了提高GNSS反演PWV的精度。利用东北地区IGS长春站2018年间的GPS观测数据,由GAMIT软件进行高精度的基线解算得出对流层天顶总延迟(zenith total delay,ZTD),从中减去由Saastamoinen模型[1]获取的对流层天顶静力学延迟(zenith hydrostatic delay,ZHD),进而得到与PWV直接相关的对流层天顶湿延迟(Zenith Wet Delay,ZWD),ZWD需乘以转换系数Π才能得到PWV[21]。分别通过最为常用且较易获取Ts的单因子线性Tm模型、GPT2w模型、GA-MLP的Tm模型和真值Tm得到相应的GPS PWV,以临近的长春探空PWV为真值进行对比分析(图5),分析结果见表2。

图5 2018年长春PWV

表2 PWV精度比较

由图5可以看出,3类模型反演的PWV变化趋势一致。基于各类Tm模型反演的GPS PWV与探空PWV在冬季和春季基本吻合,两类PWV数据一致性春冬明显好于夏秋两季,由于IGS站和探空站并非并置,可能因夏秋两季局部天气存在多变。由表2可知,基于GPT2w模型得到的GPS PWV Bias为1.36 mm,RMSE为3.68 mm;基于单因子线性模型得到的GPS PWV Bias为1.21 mm,RMSE为3.54 mm;基于本地化模型GA优化的MLP模型得到的GPS PWV Bias为1.18 mm,RMSE为3.50 mm,符合国际上要求的3~4 mm的精度[21]。较普遍采用的GPT2w模型和单因子线性模型,GA算法优化的MLP神经网络模型的RMSE降低了4.9%和1.1%,Bias降低了13.2%和2.5%,但三类模型Bias均接近1 mm,可能由于探空站与IGS站并非并置,存在一定系统偏差。由于GPT2w模型在东北地区本身存在系统性偏差,所以其反演的GPS PWV偏差稍大。简而言之,基于GA优化MLP的Tm模型在东北地区具有更优的适用性,可以提高东北地区采用地基GPS技术反演大气可降水量的精度。

3 结束语

文中采用东北地区7个国际探空站2014—2017年间的气象数据,利用GA优化的MLP模型,建立了适合东北地区的Tm模型。对2018年的Tm进行预测,并验证其应用于GPS 反演PWV时精度,经文中分析后得出如下结论:

1)GA-MLP的Tm模型在2018年东北地区的预测Bias为0.04 K,RMSE为4.06 K,R2为0.920,模型无系统性偏差,预测精度较高。较常用的Tm模型和GA-MLP的Tm模型各项精度评估指标均为最优。

2)文中建立的GA-MLP的Tm模型在GPS反演PWV的应用中较常用的单因子线性模型和无气象要素参与的GPT2w模型具有更高的精度,RMSE精度分别提升1.1%和4.9%,Bias精度分别提升2.5%和13.2%。

采用GA优化MLP的Tm模型进行GPS反演PWV是可行的。由于探空站与IGS站并非并置,以探空站PWV为真值检验,可能存在系统偏差影响,在后续实验中有待进一步验证。

猜你喜欢

探空气象要素东北地区
成都电网夏季最大电力负荷变化特征及其与气象要素的关系
用L波段探空测风雷达评估风廓线雷达测风准确性
福州探空气球的漂移轨迹特征及其对航空飞行的影响分析
东北地区2020年第二季度M L≥3.0级地震目录
为什么人参喜欢长在我国东北地区
MP-3000 型地基微波辐射计探测性能分析
国内首个无人机机载下投探空系统将探测台风
河蟹养殖水温预报模型研究
探测环境变化对临沭站气象要素的影响
东北地区2016年第三季度ML≥3.0级地震目录