拉依达准则在处理区域水文数据异常值中的应用
2016-11-08侍建国张亦飞
侍建国,张亦飞
(1.天津市水文水资源勘测管理中心,天津300061;2.天津市水务工程建设交易管理中心,天津300204)
拉依达准则在处理区域水文数据异常值中的应用
侍建国1,张亦飞2
(1.天津市水文水资源勘测管理中心,天津300061;2.天津市水务工程建设交易管理中心,天津300204)
区域水文数据具有时间系列长和数据量大的特点,以天津市宝坻区地下水监测井埋深观测数据为例,利用Excel绘制地下水埋深动态曲线,分析埋深异常值的原因,通过拉依达准则(3σ准则)法剔除异常值,为区域水资源的合理开发利用提供科学的参考依据。
拉依达准则;异常值;地下水埋深;水文监测
1 引言
水文数据是水资源调查评价和水资源环境问题研究的基础,也是水资源管理工作的基础。研究区域水资源动态变化特征及趋势,对揭示各种环境因素对水资源的影响及合理开发利用水资源至关重要,对制定区域水资源开发利用规划具有重要的意义。在区域水资源综合研究中常常需要长序列的水文观测数据作为数据支撑,在分析处理观测数据时往往遇到较多明显异常变化数据,对于较早年代的水文异常观测数据,由于历史原因难以辨别真假,将会直接影响水文观测数据的准确性。如果不剔除异常水文观测数据就进行水资源分析研究,结果的准确性将缺乏可靠的数据支撑,因此判断和剔除水文观测数据异常值非常重要。
2 水文数据异常值
数据是对自然、社会现象的观察结果的定量记录,是科学研究的基础与支撑,其准确性直接影响以此为基础研究结果的正确性。水文数据通常指水文的实测资料,即通过水文测验所收集的各种水文要素的原始记录。对于水文数据的处理,关注的重点往往是水文数据的异常值问题。水文数据异常值产生的原因一般有3个方面:一是水文监测设备原因,当水文监测设备在运行过程中有元件损坏,监测结果将出现异常值;二是人为原因,在水文监测过程中由于人为操作失误等产生异常值;三是水文监测环境原因,如在地下水水位监测过程中,由于采用生产井观测地下水水位,监测的水位数据往往出现异常值。水文数据异常值一般明显偏离它所属样本的其余观测值,极大地降低了水文观测数据的准确性,因此在进行水文观测数据分析研究时,首先需要进行异常值的识别和剔除。
以天津市宝坻区3眼地下水埋深观测井观测为例[1],识别水位埋深观测数据中的异常值。将宝坻区相邻的地下水水位观测井bd62(太平庄)、bd77(区井队)、bd78(盐业公司)观测的序列埋深数值绘制出埋深过程线,数据时段从1995年1月1日到1999年12月31日,监测频率为5 d/次,每眼监测井有360个监测数据,异常值分别出现在bd62(1998年12月11日)和bd78(1997年5月1日和1999年9月21日),如图1所示。
图1 宝坻区3眼地下水水位观测井的埋深及异常值动态过程线
3 拉依达准则处理水文数据异常值的条件
水文数据异常值的剔除一般采用物理判别法,对于多次重复观测的数值一般采用拉依达准则(3σ准则)法[2]、格拉布斯(Grubbs)准则法和狄克逊(Dixon)准则法等方法进行异常值的剔除。对比其他方法,拉依达准则法具有操作简单、使用方便等特点,尤其观测次数较多时更方便,当观测次数小于或等于10时拉依达准则法则失效。
区域水文观测数据一般延续时间较长,后期还需长期观测,积累的数据量尤为庞大,通常采用拉依达准则法来进行水文数据的后期处理和分析。
拉依达准则法一般假定数据具有正态分布,则基本分布的均值和标准差可以通过计算数据的均值和标准差来估计,然后可以估计每个对象在该分布下的概率。正态分布概率,如图2所示。
图2 正态分布概率
由图2可以看出,数值分布在(μ-σ,μ+σ)中的概率为0.682 6,数值分布在(μ-2σ,μ+2σ)中的概率为0.9544,数值分布在(μ-3σ,μ+3σ)中的概率为0.9974。由此可以认为,Y的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。根据拉依达准则法,处于(μ-3σ,μ+3σ)区间内的区域水文观测数据可以视为正常值,反之为异常值。
以天津市宝坻区地下水埋深观测值为例,3眼观测井太平庄监测井bd62、区井队监测井bd77和盐业公司监测井bd78观测数据经拉依达准则法剔除异常值后所绘制的地下水位埋深过程线,如图3所示。对比图1,可以看出其平均线的动态趋势更为平缓和合理,由此可见埋深异常值对平均值的影响较大。
图3 宝坻区3眼地下水水位观测井的埋深异常值剔除后的动态过程线
4 采用拉依达准则法处理水文数据异常值的过程
在Excel中分别定义工作表Data、Calculation、Main。其中,Data为原始数据,Calculation为数据处理过程,Main为最终成果显示。
(1)在工作表Data中,定义时间变量Time、数据变量Data,并输入原始数据。
(2)在工作表Calculation中分别计算数据个数COUNT(Data)、最大值MAX(Data)、最小值MIN(Data)、平均值AVERAGE(Data)、标准偏差STDEV(Data),并以此为基础计算出成图数据。其中,分组刻度:B2=AVERAGE(A:A)-340*(MAX(A:A)-MIN(A:A))/650,B3~B21=B2+(MAX(A:A)-MIN(A:A))/ROUNDUP(SQRT(COUNT(A:A)),0);频率C2~C21{=FREQUENCY(A:A,B2:B22)};正态分布数据D2=NORM.DIST(B2,AVERAGE(A:A),STDEV(A:A),0);异常值E1=IF(A1="","",IF(ABS(A1-AVERAGE(A:A))>3*STDEVP(A:A),"",A1))。
(3)在工作表Main里显示最终处理成果。以宝坻区太平庄监测井bd62从1995年1月1日到1999年12月31日的观测数据为基础,在Excel里经过上述步骤处理,最终处理结果对比分析见表1。
从表1右侧图可以看出,bd62地下水埋深观测数据呈正态分布;bd62地下水埋深过程线(原始数据)异常值产生的时间节点数据起伏较大,如1998年12月11日观测数据,影响了序列数据的整体动态变化趋势;bd62地下水埋深过程线(处理数据)为剔除异常值后的数据所生成的过程线,其动态变化趋势更加合理和准确。
5 结论
(1)区域水文观测数据具有时间序列长、数据量大的特点,其准确与否直接影响到区域水资源的管理和开发利用,对长序列水文观测数据进行分析处理显得尤为重要。
(2)拉依达准则法具有操作简单、使用方便等特点,当观测次数小于或等于10时拉依达准则法则失效,当积累的水文观测数据量十分庞大时采用该方法处理水文观测数据中的异常值十分便捷。
(3)在Excel基础上,以天津市宝坻区太平庄监测井观测数据为实例,分析研究了用拉依达准则法处理水文数据异常值的详细过程,对处理过程中的变量进行了编程处理,为区域水文观测数据异常值的处理提供了科学的参考依据。
表1 太平庄监测井观测数据异常值处理前后的对比分析
[1]张伟,侍建国.天津市地下水动态序列分析及预测[R].天津:天津市水文水资源勘测管理中心,2007:38-45.
[2]何少华.试验设计与数据处理[M].长沙:国防科技大学出版社,2002.
TV12;P333.9
B
1004-7328(2016)05-0049-03
10.3969/j.issn.1004-7328.2016.05.017
2016—06—12
侍建国(1977—),男,工程师,主要从事水文信息化研究工作。