基于改进三次样条插值的探空资料质控研究
2023-10-27杨荣芳马瑞琪张光磊
杨荣芳,马瑞琪,张光磊
(1. 河北省气象技术装备中心,河北 石家庄 050000;2. 北京华云东方探测技术有限公司,北京 100081)
1 引言
L 波段探空系统是我国具有独立知识产权的高空气象探测系统,可连续自动测定高空的气温、湿度、气压、风向、风速等气象要素值,由于其观测数据具有高时空分辨率、质量可靠、时间序列长、能够完整描述大气三维结构等诸多优点,在天气学分析、云垂直结构分析以及人工增雨等领域中发挥重要作用,更是在同化中用以改善模式初始场质量、提高数值预报精度所不可或缺的基本资料[1-9]。但是在实际观测数据过程中,L 波段探空系统也存在多种因素影响着测量的准确性,其误差来源通常有太阳辐射、电路自加热效应、传感器滞后性等,还有人为原因和仪器性能本身造成观测数据的缺失,尽管对带有这些误差的观测资料进行了系统订正,但仍会存在误差,从而使探空观测资料的质量下降[10-13]。由于部分数据点缺测,造成探空曲线中存在着明显的间断层和数据的不连续性,严重影响了数据进一步的使用效果。为获得连续的数据,解决L 波段探空秒级数据因部分层次资料缺失导致数据不完整性的现象,通常采用插补方法来实现,即在已有观测数据基础上通过空间插补方法预测未知点数据值,获取较为精确的气象数据,以便预报人员分析L 波段探空秒级资料水平和垂直结构特征。
常用的插补方法有多种,目前,气象上常用的模拟方法大致可分为线性插值、拉格朗日插值、三次样条插值和一维傅里叶快速插值等多种插值方法[14-16]。每种插补方法有其各自的特点和相应的适用范围,这些插补方法均是建立在空间自相关或在空间属性平滑连续的假设之上。国内外研究学者为得到可靠精度的插补方法,提出了大量的插补模型和改进算法,基本上可归纳为两类[17]:一类是数据上的改进,通过增加数据的辅助信息以提高插补模型的精度。另一类则是数学模型上的改进,同样的数据源采用改进的数学算法,以获取更优的插补模型。
样条函数法是在由给定的一组节点分成若干个小区间,通过满足样本值与拟合值之差的平方和最小的方差控制方案,用低次多项式拟合的方法来产生平滑的插补函数。样条函数法插补主要适用于逐渐变化的表面,对于分布均匀的数据是最光滑的插补方法。因此在综合考虑误差估计、数据结构及计算简便时,使用样条函数法进行气候数据插值不失为一个好的选择[18-19]。许小勇等[20]对三次样条插值函数进行了构造论述,并给出了算法步骤。朱亚玉等[21]提出了基于分段三次样条函数逐时气象资料模拟方法研究。结果表明: 分段三次样条函数插值法可有效模拟实际气温的变化特征,且同样适用于其他连续性变化的气象要素的逐时模拟。由于样条函数插补不仅具有良好的收敛性和稳定性,而且其光滑性也高。潘霄等[22]分高度层采用三次样条插值的质量控制方法,对上海地区2016 年11 月探空气温观测资料进行插值。结果表明三次样条插值的质量控制效果显著,能有效地标记出气温观测数据中的可疑值。通过对临近点插值、线性插值和三次样条插值进行比较,临近点插值和线性插值计算速度快,插值结果不光滑,连续性差,三次样条插值结果最光滑,但是在已知数据分布不均匀的时候会出现异常结果。在L 波段探空秒级数据中,由于缺测数据的存在使得探空数据在垂直方向分布并不均匀,因此在使用三次样条插补可能出现异常结果,尤其在范围较大的缺测数据情况下,会出现龙格现象。为避免发生龙格现象,本研究在对比各种插值方法基础之上,提出基于插值半径和参与插值计算的因子个数约束条件的三次样条插值算法。通过查文献获知,目前国内学者尚无对三次样条函数插补算法改进的研究。利用改进三次样条插补算法对河北省3 个探空站点2015—2019 年的观测资料气温、相对湿度(以下简称“湿度”)和风等气象因子进行插补,通过交叉检验评估了插补结果的可行性和准确性,分析比较不同季节下、降水和晴空条件下的插补结果误差。
2 资料和方法
2.1 气象资料
本文采用的数据为高空气象台站直接观测的各要素定时观测值资料,未经过严格质量控制。数据研究范围为2015—2019 年河北省邢台、张家口、乐亭3 个探空站点L 波段探空秒级基数据,站点分布如图1所示。
图1 河北省探空站点空间分布图
2.2 实验方法
对L 波段探空秒级数据进行数据缺测检查预处理、基本参数允许值范围检查和台站气候学界限值检查,控制要素为气温、气压、相对湿度、风速,剔除超出判据范围的异常值、缺测值、错误值和突跳值等。
为了探究L 波段探空秒级数据的数据缺测情况,本研究分低(0~10 000 gpm)、中(10 000~20 000 gpm)、高(20 000 gpm 以上)三个高度层进行评估,计算出现连续缺测1 次、连续缺测2 次、连续缺测大于等于3 次的数量分别占对应高度层总样本数的百分比即为缺测率,选取了邢台站2015—2019 年探空数据进行缺测率计算(表1),缺测1次在低空出现最多,连续2次及以上缺测在中高空出现较多。高空出现大范围连续缺测数据的原因可能是高空温度、湿度较低且变化情况复杂,对探空仪器灵敏性影响较大。探空数据存在缺测尤其是连续缺测会导致大量有价值的信息丢失,影响数据的连续性,因此需要对数据进行插补,提高数据的完整性,补充气象要素垂直结构特征。
表1 不同高度下探空数据的缺测率
本研究采用改进的三次样条插补算法,即将插补区间分为若干个小区间,在每个小区间上运用三次样条插补方法构造低次插补多项式,以达到适当缩小插补区间长度,提高插补精度的目的。依据尽可能在插补点的邻近选取插补节点的原则,由三次样条插补定义可知,三次样条插补结果和插补半径的选取以及影响因子的个数有直接的关系。依据空间插补的基本假设估算点的数值受到临近控制点的影响比较远的控制点的影响大的原则,以探空资料的位势高度为整个插补区间,平均分成若干个子区间,考虑到三次样条插补法受权重因子和控制顶点选择不当,会引起数据畸变,产生病态结果,曲线会呈现凸包性的影响。
改进三次样条插补算法步骤如下。
(1) 对2015—2019 年L 波段探空秒级基数据气温、相对湿度和风速气象要素进行质量控制,包括基本参数检查、气候学界限值检查、要素内部一致性检查。
(2) 预先设定插补半径和参与计算权重因子个数的初始值分别为R和N,然后在计算的过程中不断根据计算结果调整R和N的值,直至出现最优解,本研究最优解以被插值点±40 gpm 为插值半径,取有效权重因子个数≥3个进行插值。
(3) 在R为垂直插补半径范围内统计非缺测值个数,如非缺测值个数大于等于N,则对温、压、湿、风各观测要素被插值点进行三次样条函数插补,反之,则设为空值。
(4) 采用交叉验证的原则,先剔除非缺测位置的温、压、湿、风数据,然后在各要素对应位置进行插补,计算插补结果和观测值的误差并进行指标分析,构造最优的改进三次样条插补算法,记为改进的三次样条插补算法。
2.3 检验指标
检验探空数据插补方法效果的标准是评价插补结果与真实值之间的差异程度,本文采用交叉验证的方法,具体做法如下:首先移除一个有效(非缺测)数据,记为省略点,然后用关联的数据值进行插补。将省略点位置的插补值与实测值相比较。然后对下一个点重复此过程,以此类推。交叉验证会对所有点的插补值与实测值进行比较[23]。
对不同气象要素的探空数据插补序列进行评估,检验其实际插补效果,使用均方根误差(Root Mean Square Error,RMSE)和绝对误差(Absolute Error,AE)作为实际插补精度的评价指标。用均方根误差来表征插补数据分布的离散程度,均方根误差和绝对误差定义分别如公式(1)和公式(2)所示:
其中,Si为原数据,Gi是插补数据,m为样本总数,RMSE 指标表征插补结果的离散程度,RMSE 的值越小,说明预测模型拥有更好的精确度。AE 指标表征插补结果误差的实际情况,AE 对应的值越趋近于0,表示插补效果越好,插补精度越高。
3 结果分析
3.1 插补结果分析
为验证改进后的三次样条函数插值方法的优越性,本研究以邢台站为例选取了RMSE 和AE 两项误差指标对L 波段探空秒级数据观测资料的插补效果进行评估。随机抽取邢台探空站2015 年1月1 日的L 波段探空基数据和插补后数据,图2~图4 分别给出了气温、相对湿度、风速的基数据和采用改进三次样条插值结果的垂直廓线和AE 分布。利用改进后的三次样条插值方法对气温、相对湿度和风速基数据插补,插补后与基数据廓线趋势一致,能够很好插补基数据中的缺测值,较好地表现出数据变化特征。图2b 和图4b 显示出插补后气温数据与基数据的AE 变化范围大多集中在±0.1 ℃之间,插补后风速数据与基数据的AE变化范围在±0.6 m/s之间,AE值较小,证明改进后的三次样条插值算法对于探空气温和风速观测资料均有较好的模拟效果。图3a 可看出,样本相对湿度原数据缺测率较高,结合探空气温数据曲线分析,在5 000 gpm左右,气温垂直递减率达到最高,对应高度相对湿度开始出现连续大范围缺测值。其原因可能是仪器本身存在缺陷,在低温条件下被冻结,会导致相对湿度感应元件瘫痪,无法获取相对湿度[24]。插补后相对湿度数据与基数据的AE 变化范围在-1.0%~+0.7%之间,证明本方法在基数据质量较差的情况下仍有较好的插补效果。经分析,张家口和乐亭站的探空数据插补效果误差分析与邢台站结果一致。
图2 2015年1月1日探空观测和插补后气温数据垂直分布的比较
图3 2015年1月1日探空观测和插补后相对湿度数据垂直分布的比较
图4 2015年1月1日探空观测和插补后风速数据垂直分布的比较
为验证改进三次样条插值方法的稳定性,分析在基数据不同缺测率的情况下的插补效果,从春夏秋冬四个季节的基数据中随机抽取了在插补半径范围内且缺测率为10%的4 组样本和缺测率为25%的4 组样本,计算其插补前后的RMSE(表2)。缺测率为10%的样本平均RMSE 为0.085,缺测率为25%的样本平均RMSE 为0.050。表明原数据连续缺测值较多的情况下,改进三次样条插值方法仍有较好的插补精度,进一步验证了本方法的有效性和稳定性。
表2 不同缺测率情况下插补数据的RMSE值
3.2 不同季节插补结果比较分析
对探空资料插补结果分季度进行检验评估,分为春、夏、秋、冬四个季节,春季为每年的3—5月,夏季为6—8 月,秋季为9—11 月,冬季为12 月至次年2 月。抽取邢台探空站2015 年春季、夏季、秋季和冬季的白天、夜间各90 组L 波段探空平均气温、平均相对湿度、平均风速基数据样本,采用改进三次样条算法插值。通过交叉验证对改进三次样条插值法的模拟效果及稳定性进行比较,模拟效果的指标RMSE 情况如图5 所示,图6~图8是春夏秋冬四个季节的平均气温、平均相对湿度、平均风速的基数据和采用改进三次样条插值结果的AE垂直分布。
图5 春夏秋冬不同时间段的原数据序列和插补前数据序列的RMSE值
图6 不同季节探空气温原数据和插补后数据的AE值
通过对春夏秋冬和白天黑夜不同时次的插补结果的指标评估,进一步分析改进三次样条插值方法在时间尺度上的性能。由图5a 和图6 可看出,春夏秋冬四个季节,探空平均气温的RMSE 变化不大,总体RMSE 值均小于0.1;AE 变化范围也大多数在±0.1 ℃之间。夏季、秋季白天和夜间的RMSE 变化不大,春季和冬季白天的RMSE 略高于夜间,两者之间的差异小于0.01。误差指标较小证明改进三次样条插值方法对于探空平均气温观测资料的模拟效果良好,且具有良好的稳定性,适用于各个季节不同时次的探空气温质量控制。由图5b 和图7 可看出,平均相对湿度的RMSE 在不同季节的变化较大,夏季夜间最高秋冬季节夜间最低,二者相差超过0.15。这可能是由于夏季的降水比秋冬季节频繁,导致夏季云层出现频率较高。探空球在上升过程中,湿度传感器穿过云层容易出现大范围异常值,导致夏季插补效果不如冬春季节,以上结论与唐南军等[25]的研究结果一致。此外,平均相对湿度AE 低空大于高空,春夏季节AE 高值区集中在15 km 以下,秋冬季节AE 高值区集中在10 km 以下,原因可能是由于春夏季节边界层较高,秋冬季节边界层较低,受传感器自身性能影响,探空仪穿过云层探测到的相对湿度变化比较剧烈,造成数据连续性较差,导致低空相对湿度插补结果AE相对较高。总体而言,平均相对湿度的RMSE 小于0.3,AE 在±1 范围内,证明改进三次样条插值方法对不同季节平均相对湿度数据的模拟均有较好的效果。不同季节的平均风速的RMSE 均小于0.2(图5c),春季最高夏秋季节最低,但变化不大;AE 也大多数集中在±0.6 m/s范围内(图8),冬春季节插补平均风速的AE 多为正值,表明探空平均风速插补数据存在低估现象,夏秋季节插补平均风速的AE多为负值,插补平均风速存在高估现象。由此可见,改进三次样条插值方法对于春夏秋冬各个季节探空平均风速的模拟精度高稳定性好,可以较好地插补探空平均风速数据。经分析,张家口和乐亭站的探空数据插补效果误差分析与邢台站结果一致。
图7 不同季节探空相对湿度原数据和插补后数据的AE值
图8 不同季节探空风速原数据和插补后数据的AE值
3.3 降水对插补结果的影响分析
对比降水和晴空条件下改进三次样条插值方法的插补结果误差情况,分析降水条件对插补结果的影响对方法后续的业务应用具有重要的参考价值。本研究选择2015 年7 月21 日作为降水样本、2015 年1 月1 日作为晴空样本,绘制了降水条件下探空气温、相对湿度和风速的AE垂直分布图(图9)。分析图9 和图7 可看出,降水天气情况下,相对湿度的AE 值较高,在±1.3 之间,相对湿度的RMSE 值为0.29,晴空条件下相对湿度的AE 的范围在±0.6%之间,RMSE 值为0.18。分析结果表明,在降水天气条件下相对湿度的插值结果误差高于晴空天气下,可能由于湿度垂直变化情况复杂多变,探空相对湿度数据质量较差,插补结果偏离率较高。而在有降水条件下的探空气温的RMSE 为0.06,探空风速的RMSE 为0.13,均与晴空条件下气温和风速的RMSE 相差不大。使用改进三次样条插值方法对相对湿度的插补效果在晴天好于有降水天气,对气温和风速的插补效果不受晴空天气条件和降水天气条件的影响。经分析,张家口和乐亭站的探空数据插补效果误差分析与邢台站结果一致。
图9 降水条件下探空原数据和插补后数据的AE值
4 结论
本文通过对L 波段探空秒数据插补算法研究,提出对三次样条增加约束条件得到改进的三次样条插补方法,并对2015—2019年河北省邢台、张家口、乐亭3个探空站点L波段探空秒级数据集进行质控,用误差指标分析该方法的插补效果和稳定性。结果表明改进后的三次样条插补方法有较好的收敛性和稳定性,误差相比其他插补方法较低,拟合效果良好。
(1) 改进的三次样条插值是对三次样条插值计算增加约束条件,限制参与插补计算的权重因子个数和插补半径,本研究以被插值点±40 gpm为插值半径,取有效因子个数≥3 个进行插值。在增加模拟曲线光滑的同时,能有效避免三次样条插值在缺测范围比较大时带来的龙格现象。
(2) 改进的三次样条插值适用于L波段探空数据质量控制,在探空气温、相对湿度和风速资料的缺测率较高的情况下仍有较好的插补效果,插补后气温数据与基数据的AE 变化范围大多集中在±0.1 ℃之间,风速数据的AE变化范围在±0.6 m/s之间,相对湿度的AE 变化范围在-1.0%~+0.7%之间,插补后结果与基数据相比RMSE 和AE 值均偏小,说明该方法拟合精度较高,质控效果较好。
(3) 通过对L 波段探空秒级基数据使用改进三次样条插值算法插补,平均气温插补序列在时间和空间上稳定性较好;平均相对湿度在秋冬季节插补效果优于春夏季节,高空插补效果优于低空;平均风速插补数据在冬春季节存在低估现象,在春夏季节存在高估现象,整体误差较小。
(4) 分析在有无降水条件下改进三次样条插值算法的插补效果,探空气温和风速在晴空条件下的AE 和RMSE 与降水条件下相差不大,探空气温的RMSE 为0.06 左右,探空风速的RMSE 为0.13 左右,晴空条件下相对湿度的AE 的范围在±0.6%之间,RMSE 值为0.18,均小于有降水天气,表明改进三次样条插值方法对相对湿度的插补效果在晴天优于有降水天气,对气温和风速的插补效果不受晴空条件和降水条件的影响。
通过改进的三次样条插补算法对缺测探空数据进行插补,形成连续且均一性较好的气象要素数据,能更好研究温、压、湿、风等气象要素的细致垂直结构特征。在后续的研究和应用中,将探空插补数据集运用于气候统计分析和模式同化中,进一步检验该算法的有效性。