基于RBF和IDW的气象要素插值方法比较
2019-11-11周银明吴达胜
周银明 吴达胜
摘 要: 我国众多的气象站点为气象监测、预测及其他资源与环境相关研究提供了较好的条件,但因受各种复杂因素的影响,已有监测站点的数据存在部分缺失问题。为此,需要对现有站点缺失数据进行补全。基于浙江省100个站点的2014年6月 至2016年5月两年的气象数据,分别采用IDW(反距离权重法)和RBF(径向基函数法)对各个气象因子进行插值比较。结果表明,RBF的插值精度总体优于IDW,RBF更适合作为缺失气象数据的补全方法。
关键词: 气象要素; IDW; RBF; 插值
中图分类号:TP301 文献标志码:A 文章编号:1006-8228(2019)10-08-03
Abstract: Numerous meteorological stations in China provide good conditions for meteorological monitoring, forecasting and other resources and environment related research, however, due to the influence of various complex factors, some data in existing meteorological stations are partially lost. It is necessary to complete the missing data. Based on the meteorological data of 100 stations in Zhejiang province from June 2014 to May 2016, in this paper, IDW (inverse distance weighting method) and RBF (radial basis function method) are used respectively to interpolate for each meteorological factor. The results show that the interpolation accuracy of RBF is better than that of IDW, so, RBF is more suitable as a complement method for the missing meteorological data.
Key words: meteorological elements; IDW; RBF; interpolation
0 引言
氣象要素不仅与我们的日常生活悉悉相关,而且也是其他资源与环境类研究(如森林资源、大气污染等)的数据基础[1]。我国气象站有人工气象站和自动气象站,数量较多,其监测技术正在逐步提高,为气象监测、预测及其他资源与环境相关研究提供了较好的条件。但不管是人工气象站还是自动气象站都存在一些的缺点:已有监测站的数据不完整问题;受经济、地理条件等制约,一些区域的气象数据难以获取。为此需要对现有站点缺失数据补全,并实现气象数据从点到面的估测。
气象要素数据补全方法有多种,其中空间插值方法(如多项式插值法、趋势面法、反距离权重法、样条函数法、克里金插值法等)被广泛使用[2-8]。
克里金插值法插值结果更准确,但其要求样本数据服从正态分布[9]。
本文研究中待插值的气象要素涉及气温、气压、水汽压、湿度、降水量、风速等,每个要素又根据采集时间的不同分为若干个子要素(共计33个),数据量较大,时间跨度2014年6月至2016年5月(共计24个月)。对样本数据进行正态分布检验后,发现存在部分气象要素数据不服从正态分布的情况,因此克里金插值法不适合作为本研究中的插值法补全数据。
本文分别采用了反距离权重法(IDW)和径向基函数法(RBF)对各个气象要素进行插值比较,发现考虑最近距离点值、下一时间段值的RBF插值法比IDW插值法的精度更高,更适合作为各个气象因子的插值方法。
1 研究区域与研究数据
本文研究区域为浙江省,共计气象站点100个。采集的气象要素涉及到气温、气压、水汽压、湿度、降水量、风速等,每个要素又根据不同的采集时间分为若干个子要素(共计33个),具体包括:02时气温(T02)、08时气温(T08)、14时气温(T14)、20时气温(T20)、平均气温(Ta)、最高气温(Tx)、最低气温(Tn)、日温差(Tx- Tn)、02时气压(P02)、08时气压(P08)、14时气压(P14)、20时气压(P20)、平均气压(Pa)、最高气压(Px)、最低气压(Pn)、02时水汽压(E02)、08时水汽压(E08)、14时水汽压(E14)、20时水汽压(E20)、平均水气压(Ea)、02时相对湿度(U02)、08时相对湿度(U08)、14时相对湿度(U14)、20时相对湿度(U20)、平均相对湿度(Ua)、最小相对湿度(Un)、20-08时间的降水量(R20_08)、08-20时间的降水量(R08-20)、20-20时降水量(R20_20)、02时风速(fF02)、08时风速(fF08)、14时风速(fF14)、20时风速(fF20)。研究数据来自于浙江省气象局,包含2014年6月至2016年5月期间每一天各个气象站点的气象数据。
历史气象要素数据共计68202条,每条数据信息含有:站点、日期、各个气象要素值,其中110条数据无效,剩余68092条数据不完整,尚存在如下问题:
⑴ 数据缺失,部分气象因子的日期数据缺失;
⑵ 数据异常,部分气象因子的少数时刻值超出最大值和最小值区间;
⑶ 气压、水汽压、相对湿度等要素中少部分数值出现零值;
⑷ 降水量的数据规则是0值代表有雨迹,空值代表不下雨。样本数据中空值就有两种含义:不下雨和未获取到数据。此时处理方式如下:当存在温度数据时,认为该日降雨量为不下雨;当不存在温度数据时,认为该日降雨量未获取到。
最终将根据每个站点、日期、各个气象要素,对数据进行过滤,筛选出针对每个气象因子的有效数据进行实验。
本次研究的主要目的是寻找缺失值和异常值并进行插值和修正,以获得完整的历史气象数据。
2 实验方法
2.1 反距离权重插值法
反距离权重插值法(IDW)基于Tobler第一定律(地理第一定律)的概念,从1970年开始,被定义为一切事物都与其他事物相关,而且与越近的事物越相关[10]。IDW的基本思想是假设一个待插值点的属性值是邻域内一组已知样本点属性值的反距离加权平均值[11]。
IDW的优点是便于理解且简单易行,缺点是只考虑已知样本点和待插值点的距离,没有考虑到其他因素的影响及变化规律。
2.2 径向基函数插值法
2.2.1 径向基函数插值法的基本原理
径向基函数(RBF)神经网络可以处理系统内难以获取的规律性,可以根据具体问题确定相应的网络拓扑结构,学习速度和收敛速度较快,具有良好的泛化能力,对非线性问题的处理具有优势。RBF神经网络通常只有三层:输入层、隐含层和输出层。隐含层的作用是将向量从低维映射到高维,使得在低维线性不可分的问题变成高维线性可分[12]。
2.2.2 插值思路
气象要素之间既有空间相关性又有时间相关性,因此要从时间和空間两个角度去考虑筛选自变量因子。如图1所示,本文在基于RBF估算第i点的气象因子时,筛选了“最近1个点的气象因子”、“下一时刻的气象因子”作为自变量。
3 实验结果与分析
表1为采用RBF和IDW插值后的各气象因子的MRE总和,随机取10日,计算每日各个气象因子的MRE,重复10次实验,取10次实验的MRE平均值作为各组的最终性能指标,总体而言各个气象因子RBF插值的误差小于IDW插值误差。表中也可看出,气象因子中降水量和风速(fF20)插值结果与实际偏差较大,其MRE相对较高,而且其RBF插值结果的误差较IDW高,原因来自两个方面:一方面降水量数据缺乏从而影响其插值精度;另一方面降水和风速在时间和空间上变化速度更快、幅度更大从而影响插值精度。如2015年2月21日次蓬山站20时-08时的降水量(R08_20)值为4,但下一时刻值变为11.2,2014年7月29日定海站20时风速(fF20)值为2.2,下一时刻值为5.2,最近距离点值为6.7。
4 结论
本文基于浙江省2014年6月至2016年5月两年气象数据,分别采用IDW和RBF对各个气象因子进行插值比较,得出以下结论:
⑴ RBF插值法中输入变量并非越多越好,需要预先筛选合适的输入变量作为自变量;
⑵ 总体而言,RBF的插值精度比IDW更高;
⑶ 从气象因子角度来说,不管是IDW还是RBF插值法对风速的插值精度均不及其他气象因子的插值精度高;
⑷ 风速和降雨的空间局部变化和时间短时变化较大,可能是导致预测精度较低的原因。
后期在条件允许情况下将尝试对插值方法进行改进,如引入海拔、坡度、坡向等,或者用其他气象要素作为输入变量,重点是探索提高风速插值的精度。
参考文献(References):
[1] 韩颖,蒲希.中国的气象服务及其效益评估[J].气象科学,2010.30(3):420-426
[2] 朱业玉,宋丽莉,姬兴杰,孟寒冬,李凤秀,罗璇.基于分段三次样条函数逐时气象资料模拟方法研究[J].气象与环境学报, 2017.33(2):44-52
[3] 储少林,周兆叶,袁雷,陈全功.降水空间插值方法应用研究——以甘肃省为例[J].草业科学,2008.25(6):19-23
[4] 李志,赵西宁.1961—2009年黄土高原气象要素的时空变化分析[J].自然资源学报,2013.2:287-299
[5] 林金煌,林广发.福建省降水空间插值方法比较与区域分布特征研究[J].海南师范大学学报(自然科学版),2015.1:61-65
[6] 宋亚男,王秀兰,冯仲科.区域气象要素的空间插值方法比较研究——以华北地区为例[J].山东林业科技,2014.6:1-6
[7] 闫星光,吴琳娜,周涌,宋具兰,邓仕雄.喀斯特地区月均降水协克里金插值方法研究——以贵州省为例[J].云南大学学报(自然科学版),2017.39(3):432-439
[8] 刘琰琰.气象要素插值的空间化精度提高方法研究[J].气象科学,2017.2:278-282
[9] 地统计学概论[M]. 科学出版社,刘爱利, 2012.
[10] Feng-Wen Chen (1) (2),Chen-Wuing Liu (1). Estimation of the spatial rainfall distribution using inverse distance weighting (IDW) in the middle of Taiwan [J]. Paddy and Water Environment,2012.10.
[11] Lu, George Y, Wong, David W. An adaptive inverse-distance weighting spatial interpolation technique [J]. Computers and Geosciences,2008.34:1044-1055
[12] 卫敏,余乐安.具有最优学习率的RBF神经网络及其应用[J].管理科学学报,2012.15(4):50-57