对剔除离群数据准则的探讨
2015-07-07赵成钢
赵成钢
摘 要:在精密测量中,处理测试数据时,需要采用科学的方法剔除可疑离群数据,以保证测量结果的可靠性。简要论述了常用判断准则——莱特(3δ判据)、肖维勒、格拉布斯和t检验4个准则的相关内容,从准则的定义出发,比较了各准则之间的区别和联系,并保留了数据域的宽窄,提高对其的理论认识,以便在日后的数据处理工作中更好地使用这些准则。
关键词:精密测量;离群数据;判断准则;数据域
中图分类号:TB114 文献标识码:A DOI:10.15913/j.cnki.kjycx.2015.10.003
1 判断准则的数学形式
重复测量某物理量的精度n次,得测得值X1,X2……Xn;某测得值的残余误差的绝对值大于标准偏差δs与判别系数T之积,即:
.
由此可知,该误差为粗大误差,测得值Xd为离群数据,应剔除。
式(1)中:
采取t检验准则时,剔除可疑离群数据Xd后,计算算术平均值和标准偏差为:
4个判断准则都有与式(1)相同的判别式,只是其中的判别系数T不同而已。
2 判别系数T的确定
2.1 莱特准则
在莱特准则下,规定T=3显然有其合理性。
对于服从正太分布的随机误差,任意区间(-Δ,Δ)的差落在该区间的概率为:
拉普拉斯函数为:
当Δ=3δ时,2φ(3δ/δ)=0.997 3. 这说明,其残余误差落在区间(-3δ,3δ)以外的概率仅为0.27%,即经过370次测量才会出现一次,对于有限次测量来说,可以认为这是不可能发生的。由于3δ判据实质上是建立在n→∞基础上的,所以,当n有限时,特别是当n比较小时,这一判据并不是十分可靠的。同时,又因为δ是δ的估计值,δ的精密度与测量次数n有关,所以,在使用过程中,处理n比较大的数据群为好。
从另一个角度也可以说明,n取比较大的值为好。在等精度的n次重复测量中,如果只有一个测得值的残余误差|Xd-X|
超出某一界限±Tδ,而相应的概率Pa=1-2φ(T)=1/n,则按正态分布规律可知,此值的残余误差为正常超出,因为n个等精度测得值中出现一个的概率恰好是1/n.这说明,此值中含有随机误差,但是,不含疏忽误差。如果按以上条件算出的概率Pa值小于1/n很多,则上述正常超出的可能性便会减小,而含有疏忽误差的非正常超出的可能性便会增大。
对于莱特准则,可估算,取Pa=1-2φ(3)=1/n,则有n=1/(1-0.997 3)=370.
这说明,莱特准则可用于n比较大的测量数据群。经验表明,一般n≥50,即可选用莱特准则判别。
2.2 肖维勒准则
Pa为残余误差落在(-Tδ,Tδ)以外的概率,则:Pa=1-2φ(T).
规定当Pa=1/2n时,则判别该测得值的残余误差为含有疏忽误差的非正常超出,所以,应将该值剔除。
由此可得:Pa=1-2φ(T)=1/2n.
其中,φ(T)=(2n-1)/4n.
由n和拉普斯函数可得肖维勒准则的T值。
由此可知,肖维勒准则是莱特准则的改进,T判别系数从定值修正为一个与n有关的参数,n增加,T相应增大,n越小,保留数据域就越小。
对于肖维勒准则,可估算,取2φ(T)=(2n-1)/2n=0.975,则有n=20;取2φ(T)=(2n-1)/2n=0.997 3,则有n=185.
由此可知,肖维勒准则可用于测量次数比较少的数据群离群数据判别。经验表明,一般n=20-100,即可用肖维勒准则判别。
2.3 格拉布斯准则
由正太分布原理可知,选定一个危险率α.一般选5.0%,2.5%,1.0%,从而建立起T=λ(α,n)的函数关系。
在该函数关系中,λ(α,n)为测量次数;n为危险率是α时的统计临界值,可查λ(α,n)表而得。经过分析后可知,λ(α,n)值随α增大而减小,随n增大而增大。
考虑到危险率α和测量次数n双因子,给出了比较严格的结果[λ(α,n)来源推导复杂约],所以,该准则可用于测量次数n比较少的数据群可疑离群数据的判别中。
一般经验表明,该准则用于n≤25的测试数据群的可疑数据判别中。
2.4 t检验准则
t检验准则是应用分布原理合理检验测量数据的又一种方法。该准则与格拉布斯准则一样,考虑到危险率α和测量次数n,建立起T=k(α,n)的函数关系。
在该函数关系中,k(α,n)为测量次数;n为危险率是α时的统计临界值,可查k(α,n)表而得。经过分析可知,k(α,n)值随α增大而减小,随n增大而减小。
考虑到危险率α和测量次数n双因子,给出了比较严格的结果[k(α,n)来源推导约],所以,该准则可用于测量次数比较少的数据群可疑离群数据的判别。
一般经验表明,该准则可用于n≤20的测试数据判别中。
那么,格拉布斯准则与t检验准则有什么关系呢?可以从计算标准偏差严格的较差公式出发进行推证:
令:
由λ(α,n)和k(α,n)数表可知,λ(α,n)随n的增加单调增加,k(α,n)随n的增加单调减少。当n增大到一定数字时,λ(α,n)>k(α,n).由式(15)可得,B>A,A>λ(α,n),则B>k(α,n).
由式(20)可知,在k(α,n)>λ(α,n)的情况下,计算并对照λ(α,n)表和k(α,n)表得,当A>λ(α,n)时,则B>k(α,n).
由此可知,t检验准则的保留数据域比格拉布斯准则窄,即如果可疑数据被格拉布斯准则剔除,那么,它也一定会被t检验准则剔除。
3 体会
以上各准则都是人为主观拟定,但是,又都是以数据按正态分布为前提的。当偏离正太分布时,判断的可行性将会受到影响,特别是测量次数减少时更不可靠。因此,对于可疑离群数据,除了从测量结果中及时发现和利用剔除准则鉴别外,更重要的是提高工作人员的技术水平和工作质量,保证不出现有较大误差的离群数据。
另外,可依据测量准则度的要求和测量次数选择判别准则。从上述准则间的联系、数据域的宽窄和实践操作经验来看,推荐当测量次数n≤50或n≥10作粗略判别时,可采用莱特(3δ判别)准则,在其他情况下,采用格拉布斯准则判别为好。
在有限的测量列中,当出现2个异常数据时,通常可认为整个测量结果是在不正常条件下得到。鉴于此,应不断改进和完善测量方法,重新进行有效测量。
〔编辑:白洁〕