APP下载

实测潮位异常值判别方法比较

2018-05-17罗俐雅崔彦萍陈永平

江苏水利 2018年4期
关键词:拉伊维勒潮位

罗俐雅,崔彦萍,甘 敏,陈永平

(1.江苏省水文水资源勘测局,江苏 南京 210029;2.河海大学,江苏 南京 210098)

0 引言

在实际的潮位观测中,尤其是长时间的自动观测,由于受到仪器故障、恶劣天气、地理位置制约和观测方式等因素的影响,很难得到从观测初始时刻到结束时刻这段时间内完整的高质量数据资料[1]。如果将含有异常值的数据直接用于潮汐调和分析,有可能带来较大的预报误差[2]。因此,科学合理地判别异常值,对于准确的潮位分析至关重要。

通常有2种方式对异常潮位数据进行处理。第1种是手工处理,即通过比较数值的大小或分析要素的变化趋势等进行判别处理[3]。这种方式主要取决于操作员的主观判断,可靠性无法保障,当潮位数据多时,工作量将非常大;第2种是通过给计算机设定一个判别准则,让计算机自动判别其异常值[3]。方国洪等[4]介绍了2种计算机判别异常值的方法,第1种是利用2次抛物线拟合得到一个拟合值,通过比较实测值与拟合值的差值来判断数据是否异常,当异常值较少时,此方法能较方便地找出异常值,如果异常值周期性出现,此方法不再适用;第2种是根据大误差出现的可能性来判断,该方法基于概率论理论,设定了判别标准,找出异常值的效率较快,为方国洪等的推荐准则。此外,许军等[5]借助余水位曲线的变化趋势来判断,可以很好地判别以离散形式出现的异常点数据,但不太适用异常值数据集中出现时的情况。董玉磊等[6]采用了基于回归分析的方法来判断异常潮位,该方法是通过分析被检测数据所在的验潮站与附近验潮站之间的线性关系来判别异常值,能有效地判别出由验潮仪零点逐渐变化而带来的潮位数据异常等问题,此方法是基于验潮站与附近验潮站之间的回归分析,需要附近有验潮站才能判别。

鉴于上述分析,当前针对实测潮位异常值判别方法存在一定局限性,有必要探讨如何高效准确地识别近岸实测潮位中的异常值。事实上,潮位异常值与真实值之间的误差可以当作粗大误差[7],熊艳艳等[8]介绍了多种粗大误差的判别方法,并对它们的适用性做了比较,其中拉伊达准则、肖维勒准则[8]适用于样本数较多且服从正态分布异常值的检验,它们被应用到异常波浪的判别中[9]取得了良好效果。本文将上述2种准则引入到潮位异常值的判别中,并与方国洪准则进行比较,通过对潮位资料的调和分析,定量说明3种准则的判别效果。

1 三种判别准则

1.1 拉伊达准则

拉伊达准则基于样本服从正态分布的假定,认为被检验值与平均值之间差值的绝对值超过3倍样本的标准差时被检验值数据异常,需要舍弃,然后重新生成样本继续判断。

对于潮位异常值检验,首先假设所有实测潮位值都是正常的,第i个实测潮位值为xi,用实测潮位值进行回报的对应潮位为hi,误差ri计算如下:

潮位资料通常为1年的逐日每小时数据,设有N个,将误差作为样本,假设误差服从正态分布,计算样本的平均值和标准差S为:

当ri与的差值超过±3S时,认为ri为异常值,即对应的潮位hi异常。

1.2 肖维勒准则

肖维勒准则假设样本服从正态分布,认为在N个数据点中,出现概率小于1/2N的数据点,可认为是异常值,应该舍弃然后重新生成样本继续判断。设Z为某个大于0的值,当|ri- |≤ZS时,满足如下函数关系∶

设存在某个特定的Zc,称其为肖维勒准则数,当认为出现了概率小于1/2N的数据点,则:

联合式(5)、式(6)可得∶

N已知时,可以根据式(7)解得Zc,若|ri-|>ZcS,即可认为ri为异常值,即对应的潮位hi异常。

1.3 方国洪准则

方国洪准则假设误差服从正态分布,且其平均值为零,方差为υr。实际分析时,先假设所有数据正常,当选用了J个分潮用于调和分析自报时,观测误差平方值为:

方差 υr为:

在这个假设下,某个被检验值误差小于Z的概率P为:

所有点误差均小于Z的概率P为:

如果给定P0,则可以求出Z,假设为μ,称它为临界系数,使得:

μ2近似按照下式计算:

图2 万福闸下部分潮位过程

式中a、b、c为系数,取值见表1。

表1 对应P0下a、b、c系数取值表

若有某个值的>μ2υr时,认为相应的观测值异常。当第1次将所有异常潮位判断出来后,用回报值替代异常值,然后进行第2次判别,2次判别出来的异常值作为最后的判别结果。一般情况下通常取P0=0.9,后续采用方国洪准则进行异常值判别时取P0=0.9。

图3 万福闸下部分实测潮位过程图

2 异常点判别结果

本文选取了江苏浒浦闸和万福闸下2个代表潮位站点的资料进行分析。按照上述3种准则发现了下面几类异常值:(1)某个区间段潮位突然被抬升,见图1;(2)实测高潮位在一个时间段内保持不变,见图2;(3)高潮位异常大,见图3。异常值点数识别统计结果汇总在表2中。

图1 浒浦闸部分实测潮位过程图

表2 不同准则识别潮位异常点数表

从表2可以看出,拉伊达准则识别异常点数多于肖维勒准则、方国洪准则。对比3种准则识别的异常点位置,拉伊达准则找出的异常值包含肖维勒准、方国洪准则找出来的所有异常值,肖维勒准则找出的异常值点包含方国洪准则找出来的点。对于图1、图2中这种异常值密集出现的异常点,拉伊达准则好于肖维勒准则,而肖维勒准则又优于方国洪准则,后2种准则对异常点连续段边缘点存在漏判现象。

3 调和分析结果

为了定量比较3种准则的判别效果,本文采用了T_TIDE[10]软件对判别后的潮位数据序列进行调和分析,通过潮位的回报精度来说明3种准则的相对优劣。为了确保用于分析潮位的数据可靠,采用自报值循环逼进法[11]对判别出来的异常数据进行修正或插补,然后对修正或插补后的数据序列进行调和分析。

表3统计了浒浦闸2014年、2015年和万福闸下2014年潮汐回报均方差的比较结果。从表中可以看出,虽然基于3种准则都可以在一定程度上提高浒浦闸和万福闸下的潮位回报精度,但相比较而言,拉伊达准则表现最好,肖维勒准则次之。

表3 代表潮站潮位回报均方差统计表

4 结果分析

3种准则的识别效果差异,可以根据3种准则的判别原理进行解释。由于含有缺测值,调和分析采用的潮位值小于8759个。取N=8759的话,肖维勒准则数Zc=4.02。拉伊达准则是误差超出3倍标准差则判断数据点异常,而肖维勒准则是误差超出4.02倍标准差才算异常值。拉伊达准则是一个固定的判别标准,而肖维勒准则数Zc随N变化,N越大则Zc越大,N不同时它的判别标准会改变。Zc=3时,N为190,当样本数N小于190时,肖维勒准则判别异常值比拉伊达准则更为严格,会判断出更多的异常值;当样本数N超过190时,拉伊达准则比肖维勒准则会判别出更多的异常值。本次样本数N远远超过190,因此拉伊达准则判别出来的异常值数目比肖维勒准则多。

拉伊达准则和肖维勒准则分别认为误差超过3倍样本标准差和4.02倍样本标准差时数据异常,本次样本中方国洪准则的μ值约为4.37,由于样本N较大,可以近似认为方国洪准则下的标准差与前两种准则的标准差S相等,相当于方国洪准则认为超出4.37倍标准差才算异常值,所以拉伊达准则和肖维勒准则判别出来的异常值数目比方国洪准则多。此外,拉伊达准则、肖维勒准则每剔除一个异常值后重新生成样本,标准差会随着异常值的剔除逐渐变小,判别标准会逐渐变严格,虽然方国洪准则判断了2次,但是每次都是一次性判别所有异常值,当异常值较多时,方国洪准则的标准差会较大,判别界限值的差异也导致了拉伊达准则和肖维勒准则的判别标准比方国洪准则更严格。本次样本中很多异常值数目较多且与真实值差别较大,方国洪准则一次性判别所有数据的方法,导致有较多异常值被漏判。

5 结论

利用3种准则对潮位异常值进行判别,以探讨潮位异常值对潮位调和分析的影响和3种准则判别潮位异常值的准确性,得到以下几个主要结论:

(1)采用拉伊达准则可以对异常值密集和连续出现的情况进行较好的判别,而方国洪准则易发生异常值漏判现象。

(2)通过异常值判别后,潮位调和分析的回报精度有明显提高,相对而言拉伊达准则表现最好,肖维勒准则次之。

潮位异常值的自动判别对于资料的高质量整编和潮位的高精度预报具有重要的实际应用价值。后续将进一步对拉伊达准则中的判别参数进行优化,最大程度地减小漏判或误判数据的比例,有效提高自动测站实测潮位的资料质量。

参考文献:

[1]张凤烨,魏泽勋,王新怡,等 . 潮汐调和分析方法的探讨 [J] . 海洋科学 . 2011,35(06)∶68-75 .

[2]陈宗镛 . 潮汐学[M] . 北京∶科学出版社,1980∶127 .

[3]黄谟涛,翟国君,王瑞,等 . 海洋测量异常数据的检测(英文)[J] . 测绘学报,1999(03)∶269-276 .

[4]方国洪,郑文振,陈宗镛,等 . 潮汐和潮流的分析和预报 [M] . 北京∶海洋出版社,1986∶ 90-93 .

[5]许军,刘雁春,暴景阳,等 . 基于余水位的水位粗差探测与数据修复[Z] . 成都∶2009 .

[6]董玉磊,曲萌 . 一种基于回归分析的海上定点验潮站异常数据处理方法[Z] . 北京∶2015 .

[7]费业泰 . 误差理论与数据处理[M] . 北京:机械工业出版社, 2010∶4 .

[8]熊艳艳,吴先球 . 粗大误差四种判别准则的比较和应用 [J] . 大学物理实验 . 2010(01)∶66-68 .

[9]王红川,左其华 . 海洋资料中异常值的分析和判别[J] . 水利水运科学研究,1998,12(4):364-365 .

[10]Pawlowicz R,Beardsley B,Lentz S . Classical tidal harmonic analysis including error estimates in MATLAB using T_TIDE[M] . Pergamon Press,Inc. 2002 .

[11]吴俊彦,张亚彪 . 潮位观测资料缺失的补足应用研究[Z] .广西∶2008 .

猜你喜欢

拉伊维勒潮位
基于距离倒数加权的多站潮位改正方法可行性分析
远海PPK 测量潮位用于深度基准面计算的研究
唐山市警戒潮位标志物维护研究
材料星故事(一)
多潮位站海道地形测量潮位控制方法研究
伊布拉伊木
格里格·维勒与他的全球互联梦想
拉伊对唱(选译)
津总理返乡称车祸是意外
津巴布韦总理 车祸成谜团