几种插值方法对年气温序列连续缺测插补的评估
2021-01-11成晓裕张进
成晓裕 张进
摘 要:以我国15个国家级地面气象代表站1961—2010年年平均气温序列为研究对象,设计各站年平均气温序列分别在前、中、末段连续缺测(5年、10年、15年),利用标准序列、多元回归、差值等方法进行序列订正试验,计算原序列与订正后序列气候变化趋势的绝对趋势偏差、均方根误差和平均绝对误差,考察了几种插值方法的相对优劣。结果表明:针对不同订正方法,相同缺测年份下,前段缺测有80%的站用多元回归插值法效果较好,中段和末段缺测分别有60%和53%的站用标准序列插值法效果较好;因为序列趋势变化受两端数据影响较大,所以中段位置插补订正对趋势变化影响最小;一般来说,低海拔地区较高海拔地区的插补订正效果要好,随缺测年份增加偏差在增大。
关键词:连续缺测;插补方法;标准序列法;多元线性回归法;差值法
中图分类号:P412.11 文献标识码:A 文章编号:1003-5168(2021)23-0139-04
Abstract: The annual average temperature series from 1961 to 2010 of 15 national-level surface meteorological representative stations in China are used as the research object.The annual average temperature series of each station are designed to be continuously absent in the front, middle, and end stages (5 years, 10 years, 15 years), Use standardized, multiple regression, difference and other methods to carry out sequence correction experiment, calculate the absolute trend deviation, root mean square error and average absolute error of the original sequence and the corrected sequence of climate change trend. The relative advantages and disadvantages of several interpolation methods are investigated. The results show that for different correction methods, under the same year of missing test, 80% of the stations with missing test in the front section have better results with multiple interpolation, and 60% and 53% of stations with missing test in the middle and end sections use standard method is good; because the sequence trend change is greatly affected by the data at both ends, the interpolation correction of the middle position has the least impact on the trend change; generally speaking, the effect of the interpolation correction in the low altitude area is better then hight altitude area , The deviation is increasing with the missing year .
Keywords: continuous missing test;interpolation method;standard sequence method;multiple linear regression;vogel method
氣温是气候变化监测的关键要素。分析气温长期变化趋势需要长时间的连续数据,而气温数据由于仪器故障、台站撤并、非正常人为干预以及不可抗力等因素造成数据缺测的现象比较常见。数据缺测对气候长期变化趋势分析有较大影响[1-2],不能满足气候变化研究等工作的需求,所以对缺测数据进行适当插补是有意义的。
很多学者对缺测数据的插补进行过研究。屠其璞[3]介绍气温、降水序列插补基本方法。黄嘉佑[4-5]对单月气温序列使用多种回归模型进行缺测数据的恢复研究。江志红等[6]用回归插补模型对全球陆面格点温度场进行插补延长试验。李庆祥等[7]采用EOFs展开方法插补延长北半球陆面月降水数据。张秀芝等[8-9]采用车贝雪夫多项式进行了年降水量、月平均气温数据的插补。王海军等[10]针对日气温缺测进行了几种插补方法的对比。余予等[11-12]探讨了标准序列法在日平均气温缺测数据插补中的应用。也有学者对土壤湿度、空气质量[13-14]等要素进行了插补试验。
综上,已有研究指定区域、单站点或特定年月日的插补,而对连续缺测数据的插补研究较少;单一插补方法的误差分析较多,多种插值方法对比分析相对较少。本文拟利用标准序列法、多元回归法以及插值法3种方法,对1961—2010年我国15个国家级地面气象代表站年平均气温进行前段、中段、末段连续缺测5年、10年、15年的插补试验,将插补后序列与原序列进行对比,考察了几种插值方法的优劣以及不同缺测位置插补对气候变化趋势大小的影响。研究结果对历史长时间缺测的插补有参考意义。
1 数据与方法
1.1 数据
本文选取长春、沈阳、北京、石家庄、南京、宝山、广州、南宁、郑州、武汉、沙坪坝、昆明、兰州、西安、乌鲁木齐15个代表站1961—2010年年平均气温序列及相关参考站的年气温序列。
1.2 插值方法
1.2.1 标准序列法。DEGAETANO等[14]用标准序列法对日最高最低气温进行过插补,国内学者[10-11]将其运用于日平均气温插补方面,本文应用此方法具体如下:
式中:[zj]为标准化距平序列;[j]为第[j]个参考站;[xj]为第[j]个参考站的年平均气温;[xj]和[sj]分别为第[j]个参考站年气温多年(1971—2000年)平均值和标准差;[n]表示参考站个数;[zavg]为平均标准化序列;[xi]为待插值站第[i]年需要插补;[xi]和[si]分别为待插值站年气温多年(1971—2000年)平均值和标准差。
1.2.2 多元线性回归法。多元线性回归法[15]应用较多,通过统计产品与服务解决方案(Statistical Package for the Social Science,SPSS)统计分析软件拟合回归方程为:
式中:[yi]为待插值站第[i]年缺测;[zj]为参考站;[n]为参考站个数;[z]为平均参考序列;[zi]为第[i]年平均序列的值;[ys]和[zs]分别为待插值站和平均参考序列去除缺测年份其余年份的平均值。
每个待插值站选3个参考站,其约束条件为待插值站与参考站的相关系数在0.8以上,海拔差不大于500 m,距离差不大于200 km。在海拔差和距离差满足的前提下,相关系数大的参考站优先选择。
1.3 评估方法
采用绝对趋势偏差、均方根误差(Root Mean Square Error,RMSE)和平均绝对误差(Mean Absolute Error,MAE)3项指标来考察不同插值方法的优劣以及不同缺测位置插补对气候变化趋势分析的影响。3项指标值越小,表示插值效果越好。其中,RMSE、MAE[11]计算公式如下:
式中:[N]为缺测年数;[Xci]为第i年插补后年平均气温;Xoi为第i年实际年平均气温。
2 结果分析
2.1 插值方法评价
分别用上述插值方法对15个代表站1961—2010年年平均气温序列在前段(1961—1965、1961—1970、1961—1975)、中段(1981—1985、1981—1990、1979—1993)、末段(2006—2010、2001—2010、1996—2010)连续缺测5年、10年、15年的数据进行插补分析。
以连续缺测10年为例,绝对趋势偏差统计如表1所示。不同插值方法的絕对趋势偏差范围在0~1.3×10-2 ℃,最大值出现在乌鲁木齐的前段,最小值出现在北京中段等多个站的不同缺测位置。不同缺测位置应用不同插值方法进行插补,在一定精度范围内均能满足插补要求,但在前段有13个站(约87%)均为用多元回归插值法的绝对趋势偏差最小,在中段和末段分别有11个站(73%)和8个站(53%)用标准序列插值法的绝对趋势偏差最小。
数据连续缺测10年的均方根误差如表2所示,均方根误差范围为0.025~0.362 ℃,其中误差最大值仍出现在乌鲁木齐前段。在前段有13个站(87%)用多元回归插值法均方根误差最小,中、末段分别有10个站(67%)和9个站(60%)用标准序列法插值法均方根误差最小。除乌鲁木齐平均绝对误差在前段为0.72 ℃,其他站年平均绝对误差在0.5 ℃范围内,插值效果较好。其中,在前段有13个站(87%)用多元回归插值法平均绝对误差最小,中、末段均有9个站(60%)用标准序列法插值法平均绝对误差小。
用连续缺测5年、15年的数据分析得到相似结论,前段多数站用多元回归法较好,中、末段多数站用标准序列法较好。
通过相同缺测位置不同缺测年数求对趋势偏差、均方根误差、平均绝对误差的平均值,综合考察不同缺测位置用哪种方法较好。结果表明,前段有12个站用多元回归法较好,中段和末端缺测分别有9个和8个站用标准序列法较好。整体上前段用多元回归插值法较好,在中、末段用标准序列法较好。
2.2 缺测位置评价
前、中、末段分别用上述较好插值方法进行统计。相同缺测年数不同缺测位置的绝对趋势偏差统计在中段缺测的绝对趋势偏差最接近0,数值小于两端缺测的绝对趋势偏差,而两端相互差异不明显,误差范围均在10-2以内。由于序列趋势变化受两端数据影响较大,中段位置插补订正对趋势变化影响最小,符合数学线性趋势规律。
一般随缺测年份的增加,相同缺测位置不同缺测年数均方根误差增大,所以不同缺测位置的最大均方根误差都出现在缺测15年段。以15年数据统计为例,在前段乌鲁木齐站的均方根最大为0.231,长春、北京、昆明、西安、兰州误差较大在0.1~0.2,其他站均方根误差均小于0.1;在中段沈阳的均方根误差最大为0.213,北京、宝山、昆明和乌鲁木齐站在0.1~0.2,其他站在0.1以内;在末段宝山均方根误差最大为0.207,沈阳、郑州、昆明、乌鲁木齐在0.1~0.2。长春、沈阳、沙坪坝、昆明、乌鲁木齐插值效果不好,高海拔地区的插补误差更大。去除插值方法自身因素,高海拔地区代表站与其参考站水平距离较远,海拔差较大,相关性较差,也致使插补误差较大。地形复杂的沙坪坝和昆明也存在同样的问题。而长春和沈阳两个站表现的不一致性可能与两个站距离较远、互相代表性较差有关。绝对趋势偏差也随缺测年份的增加而增大,高海拔地区比低海拔地区的值更大。总的来说,随着缺测年份的增加,插补效果越来越差;地形复杂或海拔较高的地区插值效果较差。
3 结论
用标准序列法、多元线性回归法、差值法对1961—2010年15个国家级地面气象站年平均气温进行前段、中段、末段连续缺测5年、10年、15年的插补试验,得到如下结论。
①综合不同缺测年数插值试验,每个站不同缺测位置的最优插值方法统计结果为前段有80%的站用多元回归插值法效果好,而在中段和末段分别有60%和53%的站用标准序列插值法较好。多元回归插值法和标准序列插值法相对好于差值法,实际应用中建议不同缺测位置斟酌选用合适的插值方法。
②一般随缺测年份的增加,绝对趋势偏差、均方根误差会增大。数据在中段缺测进行插补后对气候变化趋势影响最小,符合数学线性趋势规律。
③一般情况下,地形复杂、海拔较高的地区插值效果较差。
参考文献:
[1]李庆祥.气候资料均一性研究导论[M].北京:气象出版社,2011:99-101.
[2]STOOKSBURY D E,IDSO C D,HUBBARD K G.The effects of data gaps on the calculated monthly mean maximum and minimum temperatures in the continental united states: a spatial and temporal study[J].Journal of Climate,1999(5):1524-1533.
[3]屠其璞.氣象应用概率统计学[M].北京:气象出版社,1984:486-523.
[4]黄嘉佑.北京地面气温可预报性及缺测资料恢复的研究[J].气象学报,1995(2):210-216.
[5]黄嘉佑.北京降水缺测资料恢复的研究[J].气象,1996(7):6-11.
[6]江志红,屠其璞.20世纪全球表面温度场序列的插补实验[J].南京气象学院学报,2001(1):26-36.
[7]李庆祥,屠其璞.近百年北半球陆面降水资料的插补及初步分析[J].南京气象学院学报,2000(4):528-535.
[8]张秀芝,孙安健.气候资料缺测插补方法的对比研究[J].气象学报,1996(5):625-632.
[9]张秀芝,孙安健.利用车贝雪夫多项式进行资料缺测插补的研究[J].应用气象学报,1996(3):344-352.
[10]王海军,凃诗玉,陈正洪.日气温数据缺测的插补方法实验与误差分析[J].气象,2008(7):83-91.
[11]余予,李俊,任芝花,等.标准序列法在日平均气温缺测数据插补中的应用[J].气象,2012(9):1135-1139.
[12]赵兰兰,王恺,赵兵.农业气象资料中连续性数据缺失插补方法研究[J].水电能源科学,2010(5):4-6.
[13]王建华,于鹏,孙俊.相似分析在空气连续监测缺测资料插补处理中的应用[J].中国环境监测,2000(3):32-34.
[14]DEGAETANO A T,EGGLESTON K L,KNAPP W W.A method to estimate daily maximun and minimun temperature observations[J].Journal of Applied Meteorology,1995(34):371-380.
[15]黄嘉佑.气象统计分析与预报方法[M].北京:气象出版社,2007:57-77.