APP下载

统计检验与处理在地下水监测数据中的应用

2022-08-22康彩琴

海河水利 2022年4期
关键词:检验法峰度离群

康彩琴

(山西省水文水资源勘测总站,山西 太原 030001)

1 引言

地下水动态监测是随着经济社会的发展和地下水开发利用程度的提高逐步发展起来的[1]。过去二三十年随着经济社会的高速发展,对地下水进行的掠夺式开采已造成了很多不可逆转的环境问题,要改善解决生态环境问题,分析地下水动态数据的重要性不言而喻,它是地下水资源评价及生态环境评价必不可少的基础工作。

目前,我国地下水监测工作正处于专用井和生产井并用的过渡时期,新旧数据的连续性、自动化监测数据的稳定性、系列数据整合的一致性都存在一定的不合理情况。为使地下水动态数据信息特征具有完整性、代表性和科学性,须用相应的方法进行解读、整理及处理,继而用于水资源管理、评价等工作。

本文依托水利部2020 年开展的地下水管控指标确定项目[2],选取某典型区地下水位年变差数据进行分析和处理,以期该统计学方法在地下水监测数据的其他研究工作中得到推广。

2 地下水水位年末差特征

在进行地下水动态规律分析、地下水资源评价、合理开发利用和保护地下水资源规划等研究时,一般以一个日历年为一个均衡期,采用均衡期末地下水水位变差即年末差进行分析。一般而言,地下水水位年末差为当年末地下水水位监测值与上年同期监测值的差值[3]。

地下水水位年末差ΔH表述的是区域年际间地下水水位变化特征。ΔH<0,表明地下水水位下降;ΔH>0,表明地下水水位上升。以某地下水超采区为例,在一定时期内,地下水水位呈下降趋势,年末差趋近于一个稳定的负值a;以某地下水非超采区为例,在一定时期内,地下水水位呈稳定趋势,年末差趋近于0(如图1所示)。可见,无论地下水超采区还是非超采区,地下水水位年末差都表现出正态分布特征,即超采区ΔH-N(a,σ2)、非超采区ΔH-N(0,σ2)。

图1 地下水水位年末差变化特征

3 地下水水位年末差分布检验

根据地下水水位年末差趋近于某一个稳定值的特征,采用GB/T 4882—2001《数据的统计处理和解释—正态性检验》无方向检验中的夏皮洛-威尔克(Shapiro-Wilk)检验[4],对超采区和非超采区地下水水位年末差分布进行检验。

3.1 超采区地下水水位年末差分布检验

以某超采区2001—2019 年地下水水位年末差数据为例进行检验,水位年变差共有19 站年,即n=19,将19 个独立地下水水位年末差按非降次序排列,样本次序统计量线性组合S计算式为:

式中:k分别取1,2,…,n/2(n为偶数)或1,2,…,(n-1)/2(n为奇数),因为n=19为奇数,所以k=1,2,…,9;ak是系数,根据n值查表取得。

xk、x(n+1-k)、x(n+1-k)-xk及ak值,详见表1。

表1 某超采区地下水水位年末差 m

经计算,S=4.734 1。

通常的方差估计量nm2计算式为:

式中:xi为独立样本地下水水位年末差(m);xˉ为样本平均值(m)。

经计算,xˉ=-0.82,nm2=22.75。

检验统计量W计算式为:

经计算,W=0.985。

在显著性水平α=p= 0.05 时,经查表,当n= 19 且α=p=0.05 的p分位数为0.901,由于W=0.985>0.901,因此不拒绝零假设,即某超采区2001—2019年地下水水位年末差呈正态分布。

3.2 非超采区地下水水位年末差分布检验

以某非超采区2001—2019 年地下水水位年末差数据为例,与超采区相同,利用夏皮洛-威尔克进行分布检验。

经计算,S=2.921 2,xˉ=-0.02,nm2=8.75,则W=0.975。

在显著性水平α=p= 0.05 下,经查表,当n= 19 且α=p=0.05 的p分位数为0.901,由于W=0.975 >0.901,因此不拒绝零假设,即某非超采区2001—2019年地下水水位年末差呈正态分布。

4 地下水水位年末差处理

如上所述,不同区域的地下水水位年末差系列数据均呈正态分布,为使新旧数据的连续性、自动化监测数据的稳定性、系列数据整合的一致性等问题得以改善,采用GB/T 4883—2008《数据的统计处理和解释—正态样本离群值的判断和处理》中未知标准差情形离群值的判断规则(限定检出离群值的个数大于1)——偏度-峰度检验法对偏离群体原因不明确的数据进行判断、解释、剔除,以达到降低利用错误数据带来错误判断的概率[5]。

区域现状地下水开发利用条件下,地下水水位年末差受水平年降水量的影响,根据实际情况和以往经验,丰水年离群值都为低端值,为上侧情形;枯水年离群值都为高端值,为下侧情形;平水年离群值可为高端值,也可为低端值,为双侧情形。上侧情形和下侧情形统称为单侧情形,采用偏度检验法;双侧情形采用峰度检验法。

以某超采区地下水控制站网2001—2019年114站年资料为例进行分析。其中,平水年30 站年,丰、枯年各42站年。

4.1 单侧情形——偏度检验法

4.1.1 上侧情形

丰水年42 站年地下水水位年末差按非降次序排列,详见表2。

表2 某超采区丰水年地下水水位年末差 m

偏度统计量bs计算式为:

式中:n=42,为站年数;xi为42个独立地下水水位年末差值(m);xˉ为样本平均值(m)。

经计算,xˉ=-0.04,偏度统计量bs=-1.95,确定检出水平α=0.05,通过查表计算得到临界值b0.95( 42 )=0.58。由于-bs=1.95>b0.95( 42 )=0.58,因此判定最小值x1=-8.20为离群值。

对于检出的离群值,在确定剔除水平α*=0.01时,通过查表计算得到临界值b0.99( 42 )=0.85。由于-bs=1.95>b0.99( 42 )=0.85,因此判定离群值x1=-8.20为统计离群值,予以剔除。

对剔除x1=-8.20 后余下的41 个数据重新进行计算。xˉ=0.16,偏度统计量bs=1.42,确定检出水平α=0.05,通过查表计算得到临界值b0.95( 41 )=0.58。由于-bs=-1.42<b0.95( 41 )=0.58,因此判定不能再检出离群值。

4.1.2 下侧情形

同样将枯水年42 站年地下水水位年末差按非降次序排列,经计算,xˉ=-1.08,偏度统计量(同丰水年计算公式)bs=1.38,确定检出水平α=0.05,通过查 表 计 算 得 到 临 界 值b0.95( 42 )=0.58。 由 于bs=1.38>b0.95( 42 )=0.58,因此判定最大值x42=10.17为离群值。

对于检出的离群值,在确定剔除水平α*=0.01时,通过查表计算得到临界值b0.99( 42 )=0.85。由于bs=1.38>b0.99( 42 )=0.85,因此判定离群值x42=10.17为统计离群值,予以剔除。

对剔除x42=10.17 后余下的41 个数据重新进行计算。xˉ=-1.35,偏度统计量bs=-0.58,确定检出水平α=0.05,通过查表计算得到临界值b0.95( 41 )=0.58。由 于bs=-0.58<b0.95( 41 )=0.58,因此判定不能再检出离群值。

4.2 双侧情形——峰度检验法

同样将平水年30 站年地下水水位年末差按非降次序排列,峰度统计量bk计算式为:

式中:n=30,为站年数;其余变量含义同上。

经计算,xˉ=-0.03,峰度统计量bk=3.90,确定检出水平α=0.05,通过查表计算得到临界值b'0.95( 30 )=4.11。由于bk=3.90<b'0.95( 30 )=4.11,因此判定不能检出离群值。

5 结论

(1)掌握合理的地下水动态数据对水资源管理和评价工作有重要作用。

(2)地下水水位年末差表述的是区域年际间地下水水位变化特征。根据地下水水位年末差趋近于某一个稳定值的特征,初步判断地下水水位年末差具有正态分布特征。经检验,无论超采区还是非超采区,地下水水位年末差都呈正态分布。

(3)地下水水位年末差呈正态分布特征,采用偏度-峰度检验法对某超采区114 站年资料中偏离群体原因不明的数据进行判断、解释、剔除,经计算,丰水年和枯水年各剔除1 个统计离群值,平水年没有离群值。

(4)在统计学方法的科学处理下,大大降低了错误数据被利用的概率,使该超采区地下水水位年变差数据的应用变得合理,为后续分析工作的顺利开展奠定了数据基础。本文认为该方法可在系列数据的合理性分析方面得到推广和应用。

猜你喜欢

检验法峰度离群
一种基于邻域粒度熵的离群点检测算法
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
扩散峰度成像技术检测急性期癫痫大鼠模型的成像改变
梧州市高温事件气候特征分析
随吟
一种相似度剪枝的离群点检测算法
基于自动反相校正和峰度值比较的探地雷达回波信号去噪方法
国际法中的“反事实推理”:作用与局限
从数学的角度初步看离群点检测算法
论TRIPS协议中“三步检验法”存废之争和解决途径