水质分析过程可疑数据的几种处理方法及注意问题
2014-02-24闫鹏魏张永亮
闫鹏魏+张永亮
摘 要:在水质分析时,经常会存在一些可疑值,对可疑数据处理常用方法有:拉依达法、Dixon法、Grubbs法。文章对这三种方法的计算方法,使用条件,方法优点以及多个可疑值出现时的处理问题做出探讨。
关键词:可疑值;3s法;Dixon法;Grubbs法
在水质分析时,异常值可能是因为各种随机误差的影响,也有可能因为其他因素。对可疑值的处理,可通过一些方法进行统计检测。本文列出了三种方法,下面对这三种方法分别做出讨论。
1 拉依达法
由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。
适用条件:当测量数据较多时,且成正态分布时可选用此方法。
检验方法:检测公式|x-xd|>3S (1)
x:样本平均数xd:可疑数据S:样本标准偏差,若xd满足(1)式,则为离群值,应舍去。
取3S的理由:根据随机变量的正态分布规律,在多次试验中,测量值落在xd-3S与xd+3S之间的概率为99.73%,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。
另外,当测量值与平均值之差大于2倍标准偏差(即|x-xd|>2S)时,则该测量值应保留,但需存疑。
方法优点:拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一组测量值中即使混有异常值,也无法舍弃。
2 Dixon法
适用条件:用于一组测量值的一致性检验和剔除离群值,本法中最小可疑值和最大可疑值进行检验的公式因样本的容量(n)不同而异。
检验方法:(1)将一组数据从小大大排列为X1,X2,X3,…,Xn,X1和Xn分别为最小和最大可疑值;(2)按下表1求Q值。(3)通过显著性水平以及n值,查出Q值。若Q≤Q0.05,则可疑值为正常值;若Q0.05Q0.01,则可疑值为离群值。
方法优点:相对比较严密,对一组数据中只有一个可疑值存在时较为适用。
注意问题:用该方法剔除一个可疑值时,若剩余数据还有可疑值存在,经过检验又被剔除,则说明该方法对此组数据检验存在误差,不能再使用此方法,可使用Grubbs法。
表1 Dixon检验法计算公式和临界值Qn表样本数n 统计计算公式 显著性水平(α)
检验最小异常值 检验最大异常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用条件:用于多组测量值均值的一致性和剔除多组测量值中的离群均值,也可以用于检验一组测量值的一致性和剔除一组测量值中的离群值。
检测方法:对L组测量值,将每组n个测量值的均值记为x1 计算所有均值的总均值,标准偏差 若可疑值为最小值x1,则T=,若可疑值为最大值为x1,则T=。根据T值和L值对比临界值表: 若T≤T0.05,为正常均值;若T0.05 表2 Grubbs检验临界值(Ta)表 L 显著性水平α L 显著性水平α L 显著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法优点:较Dixon法更为严密,能对一组数据中多个可疑值进行检测,可进行多次可疑数据的剔除,提高数据处理的准确度。 注意问题:当可疑数据有两个或两个以上时,且均匀分布在同一侧(即为x1,x2或xL-1,xL) 此时在检测时,要先检测靠近的可疑值(即为x2或xL-1),然后通过计算T= 来检验x2是否舍去,若x2离群,则x1必然离群,应当注意的是此时总均值=,不包括x2。同理检验xL-1,即T=,此时=,然后对照T值表,检验xL-1是否离群,若xL-1离群,则xL必然离群。当可疑数据在总均值两侧时,要先检验离均值远的可以数据,若剔除了一个数据,在检验下一个时,此时总均值的求解为剩余L-1个均值的算术平均值。 通过这三种方法,我们可以在水质分析数据处理过程中提高我们检测结果的准确度,从而相对客观的反映水质情况,为水质鉴定,水污染防治提供可信资料。 参考文献 [1] 奚旦立,孙裕生,刘秀英.环境监测[M].北京:高等教育出版社,2010. [2] 刘国华,吕晓柯,石晨,刘晓蕾,王鹏.初速数据判别方法研究[J].火炮发射与控制学报, 2013(3):01-0008-03. [3] 华东理工大学分析化学教研组,四川大学工科化学基础课程教学基地编.分析化学[M].北京:高等教育出版社,2009,7. 作者简介:闫鹏魏(1991- ),男,汉族,河南项城人,郑州大学2011级给水排水工程本科生;张永亮(1991- ),男,汉族,河南长垣人,郑州大学2011级给水排水工程本科生。
摘 要:在水质分析时,经常会存在一些可疑值,对可疑数据处理常用方法有:拉依达法、Dixon法、Grubbs法。文章对这三种方法的计算方法,使用条件,方法优点以及多个可疑值出现时的处理问题做出探讨。
关键词:可疑值;3s法;Dixon法;Grubbs法
在水质分析时,异常值可能是因为各种随机误差的影响,也有可能因为其他因素。对可疑值的处理,可通过一些方法进行统计检测。本文列出了三种方法,下面对这三种方法分别做出讨论。
1 拉依达法
由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。
适用条件:当测量数据较多时,且成正态分布时可选用此方法。
检验方法:检测公式|x-xd|>3S (1)
x:样本平均数xd:可疑数据S:样本标准偏差,若xd满足(1)式,则为离群值,应舍去。
取3S的理由:根据随机变量的正态分布规律,在多次试验中,测量值落在xd-3S与xd+3S之间的概率为99.73%,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。
另外,当测量值与平均值之差大于2倍标准偏差(即|x-xd|>2S)时,则该测量值应保留,但需存疑。
方法优点:拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一组测量值中即使混有异常值,也无法舍弃。
2 Dixon法
适用条件:用于一组测量值的一致性检验和剔除离群值,本法中最小可疑值和最大可疑值进行检验的公式因样本的容量(n)不同而异。
检验方法:(1)将一组数据从小大大排列为X1,X2,X3,…,Xn,X1和Xn分别为最小和最大可疑值;(2)按下表1求Q值。(3)通过显著性水平以及n值,查出Q值。若Q≤Q0.05,则可疑值为正常值;若Q0.05Q0.01,则可疑值为离群值。
方法优点:相对比较严密,对一组数据中只有一个可疑值存在时较为适用。
注意问题:用该方法剔除一个可疑值时,若剩余数据还有可疑值存在,经过检验又被剔除,则说明该方法对此组数据检验存在误差,不能再使用此方法,可使用Grubbs法。
表1 Dixon检验法计算公式和临界值Qn表样本数n 统计计算公式 显著性水平(α)
检验最小异常值 检验最大异常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用条件:用于多组测量值均值的一致性和剔除多组测量值中的离群均值,也可以用于检验一组测量值的一致性和剔除一组测量值中的离群值。
检测方法:对L组测量值,将每组n个测量值的均值记为x1 计算所有均值的总均值,标准偏差 若可疑值为最小值x1,则T=,若可疑值为最大值为x1,则T=。根据T值和L值对比临界值表: 若T≤T0.05,为正常均值;若T0.05 表2 Grubbs检验临界值(Ta)表 L 显著性水平α L 显著性水平α L 显著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法优点:较Dixon法更为严密,能对一组数据中多个可疑值进行检测,可进行多次可疑数据的剔除,提高数据处理的准确度。 注意问题:当可疑数据有两个或两个以上时,且均匀分布在同一侧(即为x1,x2或xL-1,xL) 此时在检测时,要先检测靠近的可疑值(即为x2或xL-1),然后通过计算T= 来检验x2是否舍去,若x2离群,则x1必然离群,应当注意的是此时总均值=,不包括x2。同理检验xL-1,即T=,此时=,然后对照T值表,检验xL-1是否离群,若xL-1离群,则xL必然离群。当可疑数据在总均值两侧时,要先检验离均值远的可以数据,若剔除了一个数据,在检验下一个时,此时总均值的求解为剩余L-1个均值的算术平均值。 通过这三种方法,我们可以在水质分析数据处理过程中提高我们检测结果的准确度,从而相对客观的反映水质情况,为水质鉴定,水污染防治提供可信资料。 参考文献 [1] 奚旦立,孙裕生,刘秀英.环境监测[M].北京:高等教育出版社,2010. [2] 刘国华,吕晓柯,石晨,刘晓蕾,王鹏.初速数据判别方法研究[J].火炮发射与控制学报, 2013(3):01-0008-03. [3] 华东理工大学分析化学教研组,四川大学工科化学基础课程教学基地编.分析化学[M].北京:高等教育出版社,2009,7. 作者简介:闫鹏魏(1991- ),男,汉族,河南项城人,郑州大学2011级给水排水工程本科生;张永亮(1991- ),男,汉族,河南长垣人,郑州大学2011级给水排水工程本科生。
摘 要:在水质分析时,经常会存在一些可疑值,对可疑数据处理常用方法有:拉依达法、Dixon法、Grubbs法。文章对这三种方法的计算方法,使用条件,方法优点以及多个可疑值出现时的处理问题做出探讨。
关键词:可疑值;3s法;Dixon法;Grubbs法
在水质分析时,异常值可能是因为各种随机误差的影响,也有可能因为其他因素。对可疑值的处理,可通过一些方法进行统计检测。本文列出了三种方法,下面对这三种方法分别做出讨论。
1 拉依达法
由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。
适用条件:当测量数据较多时,且成正态分布时可选用此方法。
检验方法:检测公式|x-xd|>3S (1)
x:样本平均数xd:可疑数据S:样本标准偏差,若xd满足(1)式,则为离群值,应舍去。
取3S的理由:根据随机变量的正态分布规律,在多次试验中,测量值落在xd-3S与xd+3S之间的概率为99.73%,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。
另外,当测量值与平均值之差大于2倍标准偏差(即|x-xd|>2S)时,则该测量值应保留,但需存疑。
方法优点:拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一组测量值中即使混有异常值,也无法舍弃。
2 Dixon法
适用条件:用于一组测量值的一致性检验和剔除离群值,本法中最小可疑值和最大可疑值进行检验的公式因样本的容量(n)不同而异。
检验方法:(1)将一组数据从小大大排列为X1,X2,X3,…,Xn,X1和Xn分别为最小和最大可疑值;(2)按下表1求Q值。(3)通过显著性水平以及n值,查出Q值。若Q≤Q0.05,则可疑值为正常值;若Q0.05Q0.01,则可疑值为离群值。
方法优点:相对比较严密,对一组数据中只有一个可疑值存在时较为适用。
注意问题:用该方法剔除一个可疑值时,若剩余数据还有可疑值存在,经过检验又被剔除,则说明该方法对此组数据检验存在误差,不能再使用此方法,可使用Grubbs法。
表1 Dixon检验法计算公式和临界值Qn表样本数n 统计计算公式 显著性水平(α)
检验最小异常值 检验最大异常值 0.10 0.05 0.01
3 Q Q 0.886 0.941 0.988
4 0.679 0.765 0.889
5 0.557 0.642 0.780
6 0.482 0.560 0.698
7 0.434 0.507 0.637
8 Q Q 0.579 0.554 0.683
9 0.441 0.512 0.635
10 0.409 0.447 0.597
11 Q Q 0.517 0.576 0.679
12 0.490 0.546 0.642
13 0.467 0.521 0.615
14 Q Q 0.492 0.546 0.641
15 0.472 0.525 0.616
20 0.401 0.450 0.535
25 0.360 0.406 0.489
3 Grubbs法
使用条件:用于多组测量值均值的一致性和剔除多组测量值中的离群均值,也可以用于检验一组测量值的一致性和剔除一组测量值中的离群值。
检测方法:对L组测量值,将每组n个测量值的均值记为x1 计算所有均值的总均值,标准偏差 若可疑值为最小值x1,则T=,若可疑值为最大值为x1,则T=。根据T值和L值对比临界值表: 若T≤T0.05,为正常均值;若T0.05 表2 Grubbs检验临界值(Ta)表 L 显著性水平α L 显著性水平α L 显著性水平α 0.05 0.01 0.05 0.01 0.05 0.01 3 1.153 1.115 11 2.234 2.485 19 2.532 2.854 4 1.463 1.492 12 2.258 2.050 20 2.557 2.884 5 1.672 1.749 13 2.331 2.607 21 2.580 2.912 6 1.822 1.944 14 2.371 2.695 22 2.603 2.939 7 1.938 2.097 15 2.409 2.705 23 2.624 2.963 8 2.032 2.221 16 2.443 2.747 24 2.644 2.987 9 2.110 2.322 17 2.475 2.785 25 2.663 3.009 10 2.176 2.410 18 2.504 2.821 方法优点:较Dixon法更为严密,能对一组数据中多个可疑值进行检测,可进行多次可疑数据的剔除,提高数据处理的准确度。 注意问题:当可疑数据有两个或两个以上时,且均匀分布在同一侧(即为x1,x2或xL-1,xL) 此时在检测时,要先检测靠近的可疑值(即为x2或xL-1),然后通过计算T= 来检验x2是否舍去,若x2离群,则x1必然离群,应当注意的是此时总均值=,不包括x2。同理检验xL-1,即T=,此时=,然后对照T值表,检验xL-1是否离群,若xL-1离群,则xL必然离群。当可疑数据在总均值两侧时,要先检验离均值远的可以数据,若剔除了一个数据,在检验下一个时,此时总均值的求解为剩余L-1个均值的算术平均值。 通过这三种方法,我们可以在水质分析数据处理过程中提高我们检测结果的准确度,从而相对客观的反映水质情况,为水质鉴定,水污染防治提供可信资料。 参考文献 [1] 奚旦立,孙裕生,刘秀英.环境监测[M].北京:高等教育出版社,2010. [2] 刘国华,吕晓柯,石晨,刘晓蕾,王鹏.初速数据判别方法研究[J].火炮发射与控制学报, 2013(3):01-0008-03. [3] 华东理工大学分析化学教研组,四川大学工科化学基础课程教学基地编.分析化学[M].北京:高等教育出版社,2009,7. 作者简介:闫鹏魏(1991- ),男,汉族,河南项城人,郑州大学2011级给水排水工程本科生;张永亮(1991- ),男,汉族,河南长垣人,郑州大学2011级给水排水工程本科生。