不同插值方法对典型固体潮水位插值结果比较
2023-02-28韩孔艳崔博闻孙小入费伯秀
韩孔艳 崔博闻 孙小入 费伯秀
1 北京市地震局,北京市苏州街28号,100080
地震前兆观测数据多是等间隔采样的,观测过程中如果受停电、仪器故障等影响会导致数据缺失。但对前兆数据进行统计分析时,往往要求数据序列必须是一个连续完整的数据集,不能包含缺失值。地下流体水位观测是地震前兆台网重要观测手段之一,在前兆异常提取、地震预测研究、震情跟踪中发挥着重要作用。由于观测井条件和受干扰因素等不同,各种频率信息叠加使水位数据形态各异[1-2]。因此,研究不同缺值情况下典型水位的最佳插值法极为必要。
1 插值方法及水位数据
1.1 插值方法及评价标准
本文选用5种常用的数据插值方法:最邻近插值法、线性插值法、三次多项式插值法、三次样条插值法和ARMA模型预测插值法。其中,ARMA模型预测插值法使用缺失值前360个数据的一阶差分作为建立ARMA模型的基础,通过确定模型阶数、估计模型参数和残差分析判定最佳的ARMA模型,利用模型预测数据作为插值结果[3-4]。本文利用插值与观测值的均方根误差RMSE的大小、变化情况来评估5种插值法对3种典型固体潮水位数据的插值效果。
1.2 水位数据筛选
水位变化分为宏观动态和微观动态,对浅部承压含水层来说,宏观动态变化较明显;随着含水层埋深越来越深,微观动态增强[1-2]。本文根据水位变化特征,筛选出具有固体潮效应的9口观测井的3类典型水位数据,观测井信息见表1,3类典型水位数据变化特征如下。
表1 9口固体潮观测井的详细信息Tab.1 The detailed information of nine solid tide observation wells
第1类数据趋势变化较大,固体潮被压制。该类观测井普遍受地下水开采和降雨径流补给影响,如张道口井、永清井和东三旗井。3口井水位最大月变幅分别为5.25 m、8.06 m和2.71 m,最大日变幅分别为0.44 m、0.40 m和0.25 m,表现为快速大幅上升或下降,有清晰固体潮,但被压制在趋势变化之下。
第2类数据趋势变化平稳,固体潮明显。该类观测井受开采和降雨影响小,如抚顺山龙峪井、沈家台井、上海大学井。3口井水位最大月变幅分别为0.56 m、0.25 m和0.29 m, 最大日变幅分别为0.26 m、0.23 m和0.11 m,固体潮波动与趋势、日变幅差距不大,潮汐波动明显。
第3类数据起伏波动,固体潮清晰。该类观测井易受浅层开采和降雨直接补给影响,如冀20井、孝义井和良乡井。3口井水位月变幅分别为0.45 m、0.47 m和0.93 m,日变幅分别为0.19 m、0.22 m和0.22 m,既有固体潮波动,月变和日变也存在较大起伏。
2 不同插值结果对比分析
2.1 插值方案
选取上述9口观测井2016年相近时段水位整点值序列180组,每个类型60组,每组不小于480个数。人为设计缺失1/4 d、1 d、2 d和3 d的情况,用前述5种插值法对缺失序列进行插值,分别计算每种插值的RMSE。另选3类、12组数据进行回溯性检验。
2.2 不同插值结果的对比分析
从3类数据的RMSE变化曲线(图1)和优势插值法占比情况(表2)可知,在连续缺失1/4 d的情况下,三次多项式插值法的RMSE值小且波动小,3类数据的优势占比分别为96.67%、63.33%和88.33%,表明该方法对少量数据缺失的插值优势比较突出。线性插值法对第1类数据缺1 d、2 d和3 d的情况插值优势较大,最优占比最大达71.67%(表2),且对第3类数据的插值优势与ARMA模型预测插值法基本相当,两者最优占比之和为91.66%,是缺失较多的第3类数据较优的2种插值方法。ARMA模型预测插值法的RMSE波动最小(图1),特别是对第2类数据,其插值最优比都在80%以上(表2),是不同缺值情况下该类数据的最优插值方法。随着缺失值的增加,各插值法的误差有增大的趋势,但ARMA模型预测插值法的变化幅度相对较小,其优势一直很明显。
图1 3类水位数据的RMSEFig.1 RMSE of three types of groundwater level data
表2 最佳插值结果占比情况Tab.2 The proportion of the best interpolation results
最邻近插值法与线性插值法的RMSE很相似(图1),但后者的优势更突显。三次样条插值法的RMSE波动较大(图1),除对部分第1类数据外,其他插值RMSE都较大,但该方法对数据缺失量不敏感,不会随缺失值增多而明显增大。
2.3 回溯性检验
选取3类观测井同一时段的12组数据,假设整点值缺1/4 d、1 d、2 d和3 d,计算5种插值法的RMSE,比较插值与观测值曲线,检验上述结论是否正确。
对第1类水位数据(图2(a)、表3),当数据缺失1/4 d时,三次多项式插值法的RMSE为0.001 5 m,其插值结果更优。当数据缺失1 d、2 d和3 d时,线性插值法的RMSE分别为0.023 7 m、0.048 9 m和0.065 8 m,小于其他插值法结果。
图2 插值与观测值对比Fig.2 Comparison of interpolation results and observed values
表3 3类水位数据的插值结果比较Tab.3 Comparison of interpolation results of three types of groundwater level
对第2类水位数据(图2(b)、表3),当数据缺失1/4 d和1 d时,ARMA模型预测插值法的RMSE分别为0.000 5 m和0.010 5 m,与三次多项式插值法RMSE的0.005 1 m和0.015 3 m相差不大;当数据缺失2 d时,ARMA模型预测插值法的RMSE远小于其他插值法,插值优势突显;当数据缺失3 d时,ARMA模型预测插值法虽能还原潮汐波动周期,但很难还原波动幅度,与线性插值法的优势相当。
对第3类观测数据(图2(c)、表3),当数据缺失1/4 d时,线性、ARMA模型预测和三次多项式插值法的RMSE分别为0.006 5 m、0.008 7 m和0.002 9 m,三次多项式插值法更有优势;当数据缺失1 d、2 d和3 d时,线性插值法与ARMA模型预测插值法的RMSE相近,但ARMA模型预测插值法的RMSE波动更小,插值结果更有优势。
3 结 语
本文选取9口有固体潮效应的观测井的180组水位数据,在不同缺值情况下进行5种插值方法的对比研究,得出以下结论:
1)三次多项式插值法对数据缺失1/4 d的插值RMSE小,且波动较小,其优势占比分别为96.67%(第1类数据)、63.33%(第2类数据)和88.33%(第3类数据),表明该插值法普遍适用于少量数据缺失的情况;
2)对趋势变化大、固体潮效应被压制的数据(第1类数据),当数据缺失1 d、2 d和3 d时,线性插值法能延续数据趋势变化,是最佳插值方法;
3)对固体潮显著、趋势变化平稳的水位数据(第2类数据),当数据缺失1 d、2 d和3 d时,ARMA模型预测插值法能还原规则潮汐波动和单一趋势的变化,插值最优比都在80%以上;
4)对固体潮汐明显,又兼有起伏波动的水位数据(第3类数据),线性插值法和ARMA模型预测插值法的优势相当,线性插值法能还原趋势变化,ARMA模型预测插值法能还原周期的潮汐波动。