APP下载

关于三种实验室间比对数据统计分析方法的研究

2021-03-05马文丽林立民孙艳勤宋晓东

粮食与饲料工业 2021年1期
关键词:检验法统计法布斯

马文丽,林立民,孙艳勤,宋晓东

(内蒙古蒙牛乳业(集团)股份有限公司,内蒙古 呼和浩特 011500)

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。利用稳健(Robust)统计法、格拉布斯检验法(Grubbs)、科克伦(Cochran)检验法三种统计方法对实验室间比对的检测数据进行统计分析,发现在计算过程特别是离群值判断方面存在较大差异,现将三种统计方法进行详细介绍与分析,对结果进行客观的评价。

1 数据统计方法简介

1.1 稳健统计法

采用稳健统计法进行统计分析的前提是假设分析的结果服从正态分布。在开始进行统计分析之前,应确保所采集的数据是正确、合理的,并对数据中的粗大误差和潜在问题进行识别。通常在数据统计过程中需要统计结果数、中位值、标准四分位间距(标准化IQR)、稳健CV、最小值、最大值和极差七种统计量。这些统计量的计算是进行实验室结果统计评价的基础。其中最重要的统计量是中位值和标准化IQR,它们是数据集中和分散的量度,属于稳健统计量,不受数据中离群值的影响。

对实验室检测结果应使用基于稳健总计统计量的Z比分数(中位值和标准化IQR)进行评价。对于分割水平对样品a和样品b应统计计算两个Z比分数——实验室间Z比分数(ZB)和实验室内Z比分数(ZW)。它们分别基于结果对的标准化和(S)和标准化差(D)来进行计算,标准化和(S)和标准化差(D)的计算公式如下:

(1)

(2)

通过计算各实验室的标准化和(S)和标准化差(D),可统计出所有参加实验室的S和D的中位值和标准化IQR,再根据公式(3)和公式(4)计算实验室间Z比分数(ZB)和实验室内Z比分数(ZW)。

(3)

(4)

实验室结果依据Z比分数(包括ZB和ZW)进行评定。|Z|≥3的结果为离群值,2<|Z|<3时为可疑值。正的实验室间离群(即ZB≥3)表明该样品对的两个结果太高,负的实验室间离群值(即ZB≤-3)表明其结果太低,而实验室内离群值则表明其两个结果间的差值太大。

1.2 科克伦检验法

科克伦检验法应用于所有标准差都是在重复性条件下,且由相同数目(n)的测试结果计算得出的情形。实际中由于数据的缺失或剔除,测试结果数可能不同。所以假定在正常组织的试验中,每个实验室的测试结果数目不同所造成的影响是有限且可以忽略的,科克伦检验中所用的n可取多数实验室的测试结果数。

该统计方法是对标准差的最大值进行评定,属于单侧检验。统计过程为先将全组实验室检测结果标准差从小到大排列,然后根据标准差的最大值计算科克伦检验的统计量,见公式(5)。查阅科克伦检验临界值表,通过比较相同显著水平下的临界值来判定该最大标准差是否为离群值。如果标准差的最大值是离群值,则将该值舍去后对剩余的标准差重新计算科克伦检验的统计量。

(5)

式中,si为实验室的标准差,smax是si中最大值。

离群值的判断:

(a)当统计量小于等于5%的临界值时,认为该值是正常值。(b)当统计量大于5%的临界值且小于等于1%的临界值时,该值为可疑值。(c)当统计量大于1%临界值时,认为该值是统计离群值。

1.3 格拉布斯检验法

格拉布斯检验法适用于判定一组检测结果中最大值或最小值是否为离群值,此方法通过计算平均值和标准偏差(s)然后再计算统计量(G),见公式(6)、公式(7)。通过查阅Grubbs检验临界值表获得一定显著性水平(α)下的临界值,比较统计量(G)与查到的临界值。当统计量(G)大于临界值时,此数据即为离群值,并对剩余数据继续检验,直到数据中无异常值为止。

Grubbs检验的统计量计算公式为:

(6)

最小值x1的统计量计算公式为:

(7)

式中,x1为一系列数据xi(i=1,2,…,p)中的最小值。

离群值的判断:

(a)当统计量小于等于5%的临界值时,认为该值是正常值。(b)当统计量大于5%的临界值且小于等于1%的临界值时,该值为可疑值。(c)当统计量大于1%临界值时,认为该值是统计离群值。

2 实验室间比对结果分析

2.1 稳健统计法结果分析

样品检测结果见表1。

表1 实验室间比对结果

本次牛奶中营养元素指标实验室间比对采用“分割水平”的样品设计,脂肪的样品分为A、B两组,蛋白质的样品分为C、D两组。在对实验室检测能力进行评定时,不出具“合格”与否的结论,而是使用“满意”、“可疑”或“离群”的概念。如果一个结果被评定为离群值,这意味着从统计上看它明显地不同于同组的其他结果。

用稳健统计法计算各参加实验室的实验室间Z值(ZB)和实验室内Z值(ZW)。通过对检测结果进行统计分析,本次脂肪检测项目发现实验室间离群4家,实验室间可疑0家,实验室内离群4家,实验室内可疑0家;对于蛋白质检测项目,此次有实验室间离群4家,实验室间可疑1家,实验室内离群0家,实验室内可疑4家。将实验室Z值(ZB和ZW)合并统计,本次脂肪项目共有91.11%的实验室结果满意,8.99%的实验室离群;蛋白质项目共有90%的实验室结果满意,5.56%的实验室可疑,4.44%的实验室离群。具体稳健统计如表2。

表2 实验室间比对稳健统计结果

由统计数据可见,实验室内的离群与可疑明显多于实验室间离群与可疑,说明实验室内部检测过程中的随机误差比较多,而实验室间的系统误差要少一些。

2.2 采用科克伦检验法评定结果

用科克伦检验法进行数据统计时,需要计算统计量C,再与临界值进行比较判定离群值。科克伦检验法是对检测结果的标准偏差进行统计以剔除离群值。经过统计计算,本次实验室比对活动中,样品A、样品B、样品C、样品D均无可疑值和离群值。

表3 实验室间比对柯克伦检验统计结果

根据科克伦统计原理,采用此方法时,参与实验室数量越多,其对应的临界值越小,即要求标准偏差的离散程度要小。参与实验室数量少时,对应的临界值大,那么对于数据标准偏差离散程度的要求就不是那么严格。因此,在此次实验室间比对活动参与实验室较多,而数据的离散程度偏大的情况下,科克伦检验法评定剔除的离群值相对较多。

2.3 采用格拉布斯检验法评定结果

在此次实验室间比对中,对同一种样品的检测结果呈两端离散的形式,所以在采用格拉布斯检验法进行数据统计时,需要同时对最大值和最小值计算统计量Gp和G1,再与临界值G(α)比较。如果Gp>G1且Gp>G(α),则评定最大值为离群值;如果G1>Gp且G1>G(α),则评定最小值为离群值。对于样品A,计算发现离群值1个;对于样品B,计算发现可疑值1个,离群值2个;对于样品C,计算发现离群值2个;对于样品D,计算发现离群值1个。

格拉布斯检验法是对实验室检测结果的平均值进行统计,从而剔除离群值。在数据量较少时,其对应的临界值越小,那么剔除离群值的概率就较大。在数据量较大时,其对应的临界值越大,那么剔除离群值的概率就较低。

2.4 不同统计方法实验室比对结果评定的比较

对于本次实验室间比对样品的参考值,不同的统计方法依据不同的统计量来反映。稳健统计法采用中位值反映样品的参考值,而科克伦检验与格拉布斯检验则采用总平均值。总平均值并不是对一组数据计算其平均值得到的,而是首先通过科克伦检验法对标准偏差进行评价剔除离群值,然后通过格拉布斯检验法剔除平均值的离群值,之后再对剩余的数据计算平均值即为总平均值。

表4 实验室间比对格拉布斯统计结果

通过对本次实验室间比对数据的计算,得到的参考值与离群情况见表5、表6。

表5 实验室间比对参考值比较

表6 实验室间比对结果统计

由表5、表6可以看出,虽然通过稳健统计法判定出的可疑值与离群值数量与通过科克伦检验法和格拉布斯检验法剔除的可疑值与离群值数量有较大的差别,但是两种统计方法计算的样品参考值是很接近的。由此可以看出,稳健统计法和由科克伦检验法与格拉布斯检验法组合检验这两种检验方法的统计参数受极端值的影响都不大。

3 结论

通过对此次实验室间比对数据的分析统计,可以看出,稳健统计法不受数据量多少的影响,而且受极端值的影响也不大。由科克伦检验法与格拉布斯检验法组合检验的统计方法,受数据量多少的影响较大,而受极端值的影响较小。不过两种统计方法相比较,稳健统计法在数据处理和计算程序上更加科学、直观和简洁方便。

猜你喜欢

检验法统计法布斯
稳健统计法在实验室能力验证中的应用
梧州市高温事件气候特征分析
国际法中的“反事实推理”:作用与局限
新建应用型本科院校课堂教学质量评价主体的权重赋值研究
天生不凡
论TRIPS协议中“三步检验法”存废之争和解决途径
完善企业统计制度提高企业管理水平