APP下载

水质分析过程可疑数据的几种处理方法及注意问题

2014-02-24闫鹏魏张永亮

建材发展导向 2014年1期
关键词:离群标准偏差均值

闫鹏魏+张永亮

摘 要:在水质分析时,经常会存在一些可疑值,对可疑数据处理常用方法有:拉依达法、Dixon法、Grubbs法。文章对这三种方法的计算方法,使用条件,方法优点以及多个可疑值出现时的处理问题做出探讨。

关键词:可疑值;3s法;Dixon法;Grubbs法

在水质分析时,异常值可能是因为各种随机误差的影响,也有可能因为其他因素。对可疑值的处理,可通过一些方法进行统计检测。本文列出了三种方法,下面对这三种方法分别做出讨论。

1 拉依达法

由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。

适用条件:当测量数据较多时,且成正态分布时可选用此方法。

检验方法:检测公式|x-xd|>3S (1)

x:样本平均数xd:可疑数据S:样本标准偏差,若xd满足(1)式,则为离群值,应舍去。

取3S的理由:根据随机变量的正态分布规律,在多次试验中,测量值落在xd-3S与xd+3S之间的概率为99.73%,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。

另外,当测量值与平均值之差大于2倍标准偏差(即|x-xd|>2S)时,则该测量值应保留,但需存疑。

方法优点:拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一组测量值中即使混有异常值,也无法舍弃。

2 Dixon法

适用条件:用于一组测量值的一致性检验和剔除离群值,本法中最小可疑值和最大可疑值进行检验的公式因样本的容量(n)不同而异。

检验方法:(1)将一组数据从小大大排列为X1,X2,X3,…,Xn,X1和Xn分别为最小和最大可疑值;(2)按下表1求Q值。(3)通过显著性水平以及n值,查出Q值。若Q≤Q0.05,则可疑值为正常值;若Q0.05Q0.01,则可疑值为离群值。

方法优点:相对比较严密,对一组数据中只有一个可疑值存在时较为适用。

注意问题:用该方法剔除一个可疑值时,若剩余数据还有可疑值存在,经过检验又被剔除,则说明该方法对此组数据检验存在误差,不能再使用此方法,可使用Grubbs法。

表1 Dixon检验法计算公式和临界值Qn表样本数n 统计计算公式 显著性水平(α)

检验最小异常值 检验最大异常值 0.10 0.05 0.01

3 Q Q 0.886 0.941 0.988

4 0.679 0.765 0.889

5 0.557 0.642 0.780

6 0.482 0.560 0.698

7 0.434 0.507 0.637

8 Q Q 0.579 0.554 0.683

9 0.441 0.512 0.635

10 0.409 0.447 0.597

11 Q Q 0.517 0.576 0.679

12 0.490 0.546 0.642

13 0.467 0.521 0.615

14 Q Q 0.492 0.546 0.641

15 0.472 0.525 0.616

20 0.401 0.450 0.535

25 0.360 0.406 0.489

3 Grubbs法

使用条件:用于多组测量值均值的一致性和剔除多组测量值中的离群均值,也可以用于检验一组测量值的一致性和剔除一组测量值中的离群值。

检测方法:对L组测量值,将每组n个测量值的均值记为x1

计算所有均值的总均值,标准偏差

若可疑值为最小值x1,则T=,若可疑值为最大值为x1,则T=。根据T值和L值对比临界值表: 若T≤T0.05,为正常均值;若T0.05

表2 Grubbs检验临界值(Ta)表

L 显著性水平α L 显著性水平α L 显著性水平α

0.05 0.01 0.05 0.01 0.05 0.01

3 1.153 1.115 11 2.234 2.485 19 2.532 2.854

4 1.463 1.492 12 2.258 2.050 20 2.557 2.884

5 1.672 1.749 13 2.331 2.607 21 2.580 2.912

6 1.822 1.944 14 2.371 2.695 22 2.603 2.939

7 1.938 2.097 15 2.409 2.705 23 2.624 2.963

8 2.032 2.221 16 2.443 2.747 24 2.644 2.987

9 2.110 2.322 17 2.475 2.785 25 2.663 3.009

10 2.176 2.410 18 2.504 2.821

方法优点:较Dixon法更为严密,能对一组数据中多个可疑值进行检测,可进行多次可疑数据的剔除,提高数据处理的准确度。

注意问题:当可疑数据有两个或两个以上时,且均匀分布在同一侧(即为x1,x2或xL-1,xL) 此时在检测时,要先检测靠近的可疑值(即为x2或xL-1),然后通过计算T= 来检验x2是否舍去,若x2离群,则x1必然离群,应当注意的是此时总均值=,不包括x2。同理检验xL-1,即T=,此时=,然后对照T值表,检验xL-1是否离群,若xL-1离群,则xL必然离群。当可疑数据在总均值两侧时,要先检验离均值远的可以数据,若剔除了一个数据,在检验下一个时,此时总均值的求解为剩余L-1个均值的算术平均值。

通过这三种方法,我们可以在水质分析数据处理过程中提高我们检测结果的准确度,从而相对客观的反映水质情况,为水质鉴定,水污染防治提供可信资料。

参考文献

[1] 奚旦立,孙裕生,刘秀英.环境监测[M].北京:高等教育出版社,2010.

[2] 刘国华,吕晓柯,石晨,刘晓蕾,王鹏.初速数据判别方法研究[J].火炮发射与控制学报, 2013(3):01-0008-03.

[3] 华东理工大学分析化学教研组,四川大学工科化学基础课程教学基地编.分析化学[M].北京:高等教育出版社,2009,7.

作者简介:闫鹏魏(1991- ),男,汉族,河南项城人,郑州大学2011级给水排水工程本科生;张永亮(1991- ),男,汉族,河南长垣人,郑州大学2011级给水排水工程本科生。

摘 要:在水质分析时,经常会存在一些可疑值,对可疑数据处理常用方法有:拉依达法、Dixon法、Grubbs法。文章对这三种方法的计算方法,使用条件,方法优点以及多个可疑值出现时的处理问题做出探讨。

关键词:可疑值;3s法;Dixon法;Grubbs法

在水质分析时,异常值可能是因为各种随机误差的影响,也有可能因为其他因素。对可疑值的处理,可通过一些方法进行统计检测。本文列出了三种方法,下面对这三种方法分别做出讨论。

1 拉依达法

由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。

适用条件:当测量数据较多时,且成正态分布时可选用此方法。

检验方法:检测公式|x-xd|>3S (1)

x:样本平均数xd:可疑数据S:样本标准偏差,若xd满足(1)式,则为离群值,应舍去。

取3S的理由:根据随机变量的正态分布规律,在多次试验中,测量值落在xd-3S与xd+3S之间的概率为99.73%,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。

另外,当测量值与平均值之差大于2倍标准偏差(即|x-xd|>2S)时,则该测量值应保留,但需存疑。

方法优点:拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一组测量值中即使混有异常值,也无法舍弃。

2 Dixon法

适用条件:用于一组测量值的一致性检验和剔除离群值,本法中最小可疑值和最大可疑值进行检验的公式因样本的容量(n)不同而异。

检验方法:(1)将一组数据从小大大排列为X1,X2,X3,…,Xn,X1和Xn分别为最小和最大可疑值;(2)按下表1求Q值。(3)通过显著性水平以及n值,查出Q值。若Q≤Q0.05,则可疑值为正常值;若Q0.05Q0.01,则可疑值为离群值。

方法优点:相对比较严密,对一组数据中只有一个可疑值存在时较为适用。

注意问题:用该方法剔除一个可疑值时,若剩余数据还有可疑值存在,经过检验又被剔除,则说明该方法对此组数据检验存在误差,不能再使用此方法,可使用Grubbs法。

表1 Dixon检验法计算公式和临界值Qn表样本数n 统计计算公式 显著性水平(α)

检验最小异常值 检验最大异常值 0.10 0.05 0.01

3 Q Q 0.886 0.941 0.988

4 0.679 0.765 0.889

5 0.557 0.642 0.780

6 0.482 0.560 0.698

7 0.434 0.507 0.637

8 Q Q 0.579 0.554 0.683

9 0.441 0.512 0.635

10 0.409 0.447 0.597

11 Q Q 0.517 0.576 0.679

12 0.490 0.546 0.642

13 0.467 0.521 0.615

14 Q Q 0.492 0.546 0.641

15 0.472 0.525 0.616

20 0.401 0.450 0.535

25 0.360 0.406 0.489

3 Grubbs法

使用条件:用于多组测量值均值的一致性和剔除多组测量值中的离群均值,也可以用于检验一组测量值的一致性和剔除一组测量值中的离群值。

检测方法:对L组测量值,将每组n个测量值的均值记为x1

计算所有均值的总均值,标准偏差

若可疑值为最小值x1,则T=,若可疑值为最大值为x1,则T=。根据T值和L值对比临界值表: 若T≤T0.05,为正常均值;若T0.05

表2 Grubbs检验临界值(Ta)表

L 显著性水平α L 显著性水平α L 显著性水平α

0.05 0.01 0.05 0.01 0.05 0.01

3 1.153 1.115 11 2.234 2.485 19 2.532 2.854

4 1.463 1.492 12 2.258 2.050 20 2.557 2.884

5 1.672 1.749 13 2.331 2.607 21 2.580 2.912

6 1.822 1.944 14 2.371 2.695 22 2.603 2.939

7 1.938 2.097 15 2.409 2.705 23 2.624 2.963

8 2.032 2.221 16 2.443 2.747 24 2.644 2.987

9 2.110 2.322 17 2.475 2.785 25 2.663 3.009

10 2.176 2.410 18 2.504 2.821

方法优点:较Dixon法更为严密,能对一组数据中多个可疑值进行检测,可进行多次可疑数据的剔除,提高数据处理的准确度。

注意问题:当可疑数据有两个或两个以上时,且均匀分布在同一侧(即为x1,x2或xL-1,xL) 此时在检测时,要先检测靠近的可疑值(即为x2或xL-1),然后通过计算T= 来检验x2是否舍去,若x2离群,则x1必然离群,应当注意的是此时总均值=,不包括x2。同理检验xL-1,即T=,此时=,然后对照T值表,检验xL-1是否离群,若xL-1离群,则xL必然离群。当可疑数据在总均值两侧时,要先检验离均值远的可以数据,若剔除了一个数据,在检验下一个时,此时总均值的求解为剩余L-1个均值的算术平均值。

通过这三种方法,我们可以在水质分析数据处理过程中提高我们检测结果的准确度,从而相对客观的反映水质情况,为水质鉴定,水污染防治提供可信资料。

参考文献

[1] 奚旦立,孙裕生,刘秀英.环境监测[M].北京:高等教育出版社,2010.

[2] 刘国华,吕晓柯,石晨,刘晓蕾,王鹏.初速数据判别方法研究[J].火炮发射与控制学报, 2013(3):01-0008-03.

[3] 华东理工大学分析化学教研组,四川大学工科化学基础课程教学基地编.分析化学[M].北京:高等教育出版社,2009,7.

作者简介:闫鹏魏(1991- ),男,汉族,河南项城人,郑州大学2011级给水排水工程本科生;张永亮(1991- ),男,汉族,河南长垣人,郑州大学2011级给水排水工程本科生。

摘 要:在水质分析时,经常会存在一些可疑值,对可疑数据处理常用方法有:拉依达法、Dixon法、Grubbs法。文章对这三种方法的计算方法,使用条件,方法优点以及多个可疑值出现时的处理问题做出探讨。

关键词:可疑值;3s法;Dixon法;Grubbs法

在水质分析时,异常值可能是因为各种随机误差的影响,也有可能因为其他因素。对可疑值的处理,可通过一些方法进行统计检测。本文列出了三种方法,下面对这三种方法分别做出讨论。

1 拉依达法

由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。

适用条件:当测量数据较多时,且成正态分布时可选用此方法。

检验方法:检测公式|x-xd|>3S (1)

x:样本平均数xd:可疑数据S:样本标准偏差,若xd满足(1)式,则为离群值,应舍去。

取3S的理由:根据随机变量的正态分布规律,在多次试验中,测量值落在xd-3S与xd+3S之间的概率为99.73%,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。

另外,当测量值与平均值之差大于2倍标准偏差(即|x-xd|>2S)时,则该测量值应保留,但需存疑。

方法优点:拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一组测量值中即使混有异常值,也无法舍弃。

2 Dixon法

适用条件:用于一组测量值的一致性检验和剔除离群值,本法中最小可疑值和最大可疑值进行检验的公式因样本的容量(n)不同而异。

检验方法:(1)将一组数据从小大大排列为X1,X2,X3,…,Xn,X1和Xn分别为最小和最大可疑值;(2)按下表1求Q值。(3)通过显著性水平以及n值,查出Q值。若Q≤Q0.05,则可疑值为正常值;若Q0.05Q0.01,则可疑值为离群值。

方法优点:相对比较严密,对一组数据中只有一个可疑值存在时较为适用。

注意问题:用该方法剔除一个可疑值时,若剩余数据还有可疑值存在,经过检验又被剔除,则说明该方法对此组数据检验存在误差,不能再使用此方法,可使用Grubbs法。

表1 Dixon检验法计算公式和临界值Qn表样本数n 统计计算公式 显著性水平(α)

检验最小异常值 检验最大异常值 0.10 0.05 0.01

3 Q Q 0.886 0.941 0.988

4 0.679 0.765 0.889

5 0.557 0.642 0.780

6 0.482 0.560 0.698

7 0.434 0.507 0.637

8 Q Q 0.579 0.554 0.683

9 0.441 0.512 0.635

10 0.409 0.447 0.597

11 Q Q 0.517 0.576 0.679

12 0.490 0.546 0.642

13 0.467 0.521 0.615

14 Q Q 0.492 0.546 0.641

15 0.472 0.525 0.616

20 0.401 0.450 0.535

25 0.360 0.406 0.489

3 Grubbs法

使用条件:用于多组测量值均值的一致性和剔除多组测量值中的离群均值,也可以用于检验一组测量值的一致性和剔除一组测量值中的离群值。

检测方法:对L组测量值,将每组n个测量值的均值记为x1

计算所有均值的总均值,标准偏差

若可疑值为最小值x1,则T=,若可疑值为最大值为x1,则T=。根据T值和L值对比临界值表: 若T≤T0.05,为正常均值;若T0.05

表2 Grubbs检验临界值(Ta)表

L 显著性水平α L 显著性水平α L 显著性水平α

0.05 0.01 0.05 0.01 0.05 0.01

3 1.153 1.115 11 2.234 2.485 19 2.532 2.854

4 1.463 1.492 12 2.258 2.050 20 2.557 2.884

5 1.672 1.749 13 2.331 2.607 21 2.580 2.912

6 1.822 1.944 14 2.371 2.695 22 2.603 2.939

7 1.938 2.097 15 2.409 2.705 23 2.624 2.963

8 2.032 2.221 16 2.443 2.747 24 2.644 2.987

9 2.110 2.322 17 2.475 2.785 25 2.663 3.009

10 2.176 2.410 18 2.504 2.821

方法优点:较Dixon法更为严密,能对一组数据中多个可疑值进行检测,可进行多次可疑数据的剔除,提高数据处理的准确度。

注意问题:当可疑数据有两个或两个以上时,且均匀分布在同一侧(即为x1,x2或xL-1,xL) 此时在检测时,要先检测靠近的可疑值(即为x2或xL-1),然后通过计算T= 来检验x2是否舍去,若x2离群,则x1必然离群,应当注意的是此时总均值=,不包括x2。同理检验xL-1,即T=,此时=,然后对照T值表,检验xL-1是否离群,若xL-1离群,则xL必然离群。当可疑数据在总均值两侧时,要先检验离均值远的可以数据,若剔除了一个数据,在检验下一个时,此时总均值的求解为剩余L-1个均值的算术平均值。

通过这三种方法,我们可以在水质分析数据处理过程中提高我们检测结果的准确度,从而相对客观的反映水质情况,为水质鉴定,水污染防治提供可信资料。

参考文献

[1] 奚旦立,孙裕生,刘秀英.环境监测[M].北京:高等教育出版社,2010.

[2] 刘国华,吕晓柯,石晨,刘晓蕾,王鹏.初速数据判别方法研究[J].火炮发射与控制学报, 2013(3):01-0008-03.

[3] 华东理工大学分析化学教研组,四川大学工科化学基础课程教学基地编.分析化学[M].北京:高等教育出版社,2009,7.

作者简介:闫鹏魏(1991- ),男,汉族,河南项城人,郑州大学2011级给水排水工程本科生;张永亮(1991- ),男,汉族,河南长垣人,郑州大学2011级给水排水工程本科生。

猜你喜欢

离群标准偏差均值
倾斜改正在连续重力数据预处理中的应用
平滑与褶皱表面目标的散射光谱的研究
均值不等式失效时的解决方法
互感器检定装置切换方式研究
均值与方差在生活中的应用
离群数据挖掘在发现房产销售潜在客户中的应用
离群的小鸡
关于均值有界变差函数的重要不等式
对偶均值积分的Marcus-Lopes不等式
关于垂准仪一测回垂准测量标准偏差检测方法的探讨