APP下载

利用机器学习方法改进风云3C星载GNSS掩星温度廓线

2022-12-16郭佳宾程丽丹金双根

南京信息工程大学学报 2022年6期
关键词:均方修正神经网络

郭佳宾 程丽丹 金双根

0 引言

全球卫星导航系统(GNSS)无线电掩星技术利用导航卫星与低轨卫星之间的信号延迟来反演全球高精度大气参数,在大气探测和气象预报中具有重要的应用前景[1].1995年,美国成功进行了GPS/MET探测计划,首次证明了大气掩星探测的可行性[2].2001年,德国发射了CHAMP卫星,该卫星搭载的掩星载荷更为先进,在掩星资料的数量以及资料精度上都有了较大改进[3-4].2006年,中国台湾和美国联合研制的COSMIC卫星成功发射,该星座共有在轨卫星6颗[5].2012年9月,欧洲气象卫星组织正式发射了METOP-B星[6].2013年8月,韩国发射了KOMPSAT-5卫星[7].2018年11月,欧洲气象卫星组织又再次发射了METOP-C星.在COSMIC取得巨大成功后,美国与中国台湾再次合作,开展了COSMIC-2计划,并于2019年6月下旬发射[8].2013年9月,我国发射了FY-3C卫星.FY-3C星上新增的GNOS载荷是国内第一个星上GNSS无线电掩星探测仪,该载荷可以同时接收北斗与GPS信号,从而大大提升了探测能力[9].

GNSS掩星探测技术拥有全天时、高精度、高分辨率等优势,但搭载低轨卫星数量少,数据空间分辨率低于传统再分析资料,且在较低高度上,由于水汽以及折射、超折射现象的存在,导致掩星数据质量较差.廖蜜等[10]研究证明了FY-3C的中性大气折射率产品的精度基本能够达到预定目标;徐晓华等[11]将FY-3C掩星数据与IGRA2 探空资料进行比较,证明了两种资料的一致性,但存在一定的差异;魏晋德[12]通过对FY-3C的掩星产品质量进行研究,证明了产品的可靠性,并使用相关产品对对流层顶特征进行了相关研究.上述文献均指出了FY-3C掩星数据的质量问题,但并未提出对数据质量进行改进的方法.GNSS掩星数据量大,对其精度进行分析时,通常是一个统计平均的结果.因此可以使用机器学习方法对掩星廓线数据进行修正.本文将FY-3C的温度廓线数据与ERA5再分析数据作为输入值,分别使用神经网络方法和随机森林回归算法对其进行修正,并对修正结果做出评价.

1 观测数据与方法

1.1 观测数据

1.1.1 GNSS掩星数据

本文所采用的数据是由风云数据网提供的2017年1月1日—12月31日FY-3C的L2温度廓线数据,其中6月1—31日没有数据.图1展示了2017年3月1—7日的掩星事件在中国区域的分布状况.

图1 2017年3月1日与3月1—7日掩星事件在中国区域分布状况Fig.1 Distribution ofradio occultation events in China on March 1,2017 and during March 1-7,2017

1.1.2 ERA5再分析数据

ERA5再分析数据的前身是ERA-Interim[13-14],是由欧盟提供资助、ECMWF(欧洲中期天气预报中心)进行运营的新一代再分析资料[15].在此之前,再分析资料已经历经了FGGE、ERA-15、ERA-40等产品[16].ERA5再分析数据水平分辨率为0.25°×0.25°,垂直分辨率为37层,时间分辨率为1 h.本文使用的是150 hPa的ERA5数据,其高度在10 km左右.

1.2 机器学习方法

1.2.1 神经网络方法

BP神经网络方法可以学习与存储较多的输入-输出模式的映射关系,且无需事先知道这种映射关系的数学方程.BP神经网络的拓扑结构中包括输入层、隐层以及输出层.首先在输入层输入学习样本,然后使用反向传播方法,不断地计算每个节点的权值与偏差,并进行调整,使输出层的值与预期值尽可能靠拢.当输出值与预期值满足设定条件时,保存整个网络的权值与偏差[17].本文的输入层、隐层以及输出层关系如图2所示.

图2 神经网络方法原理Fig. 2 Principle of neural network algorithm

1.2.2 随机森林

随机森林是指利用多棵树对样本进行训练,并预测的一种分类器.随机森林回归算法对于多种资料,可以产生高准确度的分类器,可以处理大量的输入变数.在存在N个数据的样本集中,每个样本的输入特征向量都有k个特征,通过依次有放回的抽样得到它们的子样本集,将子样本集带入决策树中,这样每棵决策回归树会随机选取特征,进而通过训练得到一系列回归结果,再对这些回归结果取平均得到最终的回归结果[18],以此来降低回归方差.随机森林回归算法结构如图3所示.

图3 随机森林回归算法结构示意Fig. 3 Structure of random forest regression algorithm

1.3 数据处理

1.3.1 GNSS掩星数据与再分析资料处理

使用机器学习算法对掩星数据修正前,要对掩星数据和再分析数据的时空特征进行匹配,生成若干组数据对.具体匹配规则为:时间间隔1 h;空间上选择距离掩星点最近点的ERA5温度数据.将经纬度、时间等数据进行归一化处理[19],处理规则如下:

(1)

(2)

(3)

其中:Ilat,ro为掩星事件的纬度信息;Ilat为归一化的掩星事件的纬度信息;Ilon,ro为掩星事件的经度信息;Ilon为归一化的掩星事件的经度信息;Itime,ro为掩星事件的时间信息;Itime为归一化的掩星事件的时间信息.

图5 不同纬度带平均绝对误差差值与均方误差差值Fig. 5 Differences of MAE and MSE at different latitudes

1.3.2 机器学习参数设置

在经过数据时空特征匹配后,随机选取80%的数据对组成训练集,剩下的20%数据对组成测试集.从图4可以看到,训练集与测试集具有相似的纬度分布特征.

图4 掩星数据训练集与测试集纬度特征分布Fig. 4 Latitude distribution of training set and test set of radio occultation data

神经网络模型选择5层全连接的神经网络,每个隐藏层设置10个神经元,损失函数设置为mse,参数更新采用Adam方法.随机森林回归模型中设置了100棵树,且不限制每棵决策树的树最大深度和最大叶节点数目,将决策树放入随机森林避免过拟合.

将全球化分为18×18个网格,即10°(lat)×10°(lon).计算每一个网格的平均绝对误差与均方误差.

(4)

(5)

式中:Tmae是该网格的温度平均绝对误差;Tmse是该网格的温度的均方误差;Tro,t是网格内任一掩星廓线的温度值;Trea5,t为对应的再分析资料的温度值;N为该网格内数据对的个数.

ΔTmae=Tmae,ro-ec-Tmae,pre-ec,

(6)

ΔTmse=Tmse,ro-ec-Tmse,pre-ec,

(7)

式中:Tmae,ro-ec为网格内未修正前的掩星数据与再分析数据的平均绝对误差;Tmae,pre-ec为使用相应方法修正后的掩星数据与再分析数据的平均绝对误差;Tmse,ro-ec为网格内未修正前的掩星数据与再分析数据的均方误差;Tmse,pre-ec为使用相应方法修正后的掩星数据与再分析数据的均方误差;ΔTmse为修正前后均方误差的差值,该值越大表明修正效果越好,反之则修正效果越差;ΔTmae为修正前后平均绝对误差的差值,该值越大表明修正效果越好,反之则修正效果越差.

2 结果与分析

图5为不同纬度带上神经网络方法与随机森林回归算法对FY-3C掩星数据的修正结果.可以看到,在全球范围内,两种方法都可以对掩星数据进行修正,且随机森林算法的修正效果远胜神经网络方法.

两种方法在中纬度地区的修正效果要优于其他两个纬度带.北半球的修正效果略优于南半球的修正效果,这是FY-3C星自身原因造成的:北半球的廓线数据略多于南半球,更多的数据意味着更多的样本与特征,能让模型对经纬度参数更加敏感.

2.1 高纬度地区

从表1可以看出,在高纬度地区,使用神经网络方法修正后的温度数据均方误差与平均绝对误差,北半球的正向收益均大于南半球.随机森林回归算法的南北半球修正结果较为一致.

表1 高纬度地区两种方法修正结果

从图6、7得知,在高纬度地区的108个网格中,经过神经网络与随机森林修正后的掩星温度数据大部分具有正向收益,且随机森林回归算法的修正效果远高于神经网络方法.神经网络与随机森林回归算法对平均绝对误差的正向修正率分别为74.07%与96.3%,对均方误差的正向修正率分别为66.67%与90.74%.

图6 高纬度地区神经网络方法对平均绝对误差与均方误差的修正结果Fig. 6 Correction of MAE and MSE by neural network in high latitudes

图7 高纬度地区随机森林回归算法对平均绝对误差与均方误差的修正结果Fig. 7 Correction of MAE and MSE by random forest regression in high latitudes

2.2 中纬度地区

从表2可以看出,在中纬度地区,两种方法的修正结果都具有正向收益.在每项修正指标中,随机森林回归算法的修正效果约为神经网络方法的10倍.

表2 中纬度地区两种方法修正结果

从图8可以看到,均方误差和平均绝对误差的差值范围集中在-0.4~0.6 K2与-0.1~0.15 K之间,相比于修正前的结果提升不大.对均方误差与平均绝对误差的修正率分别为70.37%与80.55%.

图8 中纬度地区神经网络方法对平均绝对误差与均方误差的修正结果Fig. 8 Correction of MAE and MSE by neural network in middle latitudes

从图9可以看到,使用随机森林回归算法后,均方误差与平均绝对误差的差值范围分别集中于0~2.5 K2与0~0.6 K.对均方误差与平均绝对误差的修正率分别为92.59%与98.15%.

美国卡内基·梅隆大学计算机科学系主任周以真教授在2006 年提出的“计算思维”(Computational Thinking),认为:计算思维是运用计算机科学的基础概念进行问题求解、系统设计以及人类行为理解的思维活动[2]。

图9 中纬度地区随机森林回归算法对平均绝对误差与均方误差的修正结果Fig. 9 Correction of MAE and MSE by random forest regression in middle latitudes

2.3 低纬度地区

从图10可以看到,对均方误差与平均绝对误差的修正率分别为66.67%与72.22%,且在某一块区域整体呈现为正向收益与负向收益.如5°S~5°N处大部分表现为负收益,25°S与25°N处表现为正收益.低纬度地区两种方法修正结果如表3所示.

图10 低纬度地区神经网络方法对平均绝对误差与均方误差的修正结果Fig. 10 Correction results of MAE and MSE by neural network in low latitudes

表3 低纬度地区两种方法修正结果

从图11可以看到,在低纬度地区,随机森林回归算法对均方误差与平均绝对误差的修正率分别为95.37%与98.15%,且随机森林回归算法的正向收益与负向收益的分布没有明显的分布规律.

图11 低纬度地区随机森林回归算法对平均绝对误差与均方误差的修正结果Fig. 11 Correction of MAE and MSE by random forest regression in low latitudes

3 结论

本文采用神经网络方法和随机森林回归算法对2017年FY-3C掩星廓线的温度数据进行修正和评估,按照10°×10°将全球划分为324个网格计算有效修正率,对两种修正效果的空间分布特征进行研究,得到如下结论:

1)神经网络方法与随机森林回归算法均可以对FY-3C掩星温度数据进行修正,其中随机森林回归算法对平均绝对误差与均方误差的正向修正率超过90%,神经网络方法对平均绝对误差与均方误差的正向修正率超过66.67%.

2)将修正结果按照高中低三个纬度划分,随机森林回归算法对三个纬度带的平均绝对误差的正向修正率分别为96.3%、98.15%和98.15%;均方误差的正向修正率分别为90.74%、92.59%和95.37%.神经网络方法对三个纬度带的平均绝对误差的正向修正率分别为74.07%、80.55%和72.22%;均方误差的正向修正率分别为66.67%、70.37%和66.67%.

3)神经网络方法和随机森林回归算法在北半球GNSS掩星温度剖面修正效果略优于南半球.

猜你喜欢

均方修正神经网络
Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
修正这一天
构造Daubechies小波的一些注记
Beidou, le système de navigation par satellite compatible et interopérable
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
软件修正
基于线性最小均方误差估计的SAR图像降噪
基于PID控制的二维弹道修正弹仿真
基于神经网络的拉矫机控制模型建立