协同评定试验在测量审核结果评价中的适用性
2018-01-19,,,,,,,
, , , , , , ,
(环境保护部标准样品研究所, 北京 100029)
测量审核是“一个参加者对被测物品(材料或制品)进行实际测试,其测试结果与参考值进行比较的活动”,是对一个参加者进行“一对一”能力评价的能力验证计划[1]。测量审核以其及时、高效和覆盖范围广的独特优势,逐渐成为实验室获得能力验证的重要途径[2]。随着实验室认证、认可的快速发展,测量审核的需求逐年增加,广泛的样品种类及结果评价方式可以促进测量审核更好的发展。
协同研究试验是实验室间进行的试验研究,这些实验室对同一物料进行检测[3],一般主要用于标准样品定值研究、方法评价研究及实验室间比对研究等领域。协同评定试验是一种实验室间的试验,在这样的试验中,用相同的标准测量方法对同一物料进行测试,以评定每个实验室的水准[4]。协同评定试验是协同研究试验方式中的一种。
测量审核的主要评价方法包括En值、CD值和按专业标准方法规定允许差评定[1]。实验室评定不确定度水平的不均衡,以及只有部分标准方法提供精密度数据及允许差,使以上几种评价方法不能被广泛使用。本文主要通过对协同评定试验的统计原理及试验条件的研究及分析,来探究是否可将协同评定试验结果用于测量审核结果评价,从而增加测量审核结果评价方法的可选择性。
1 协同评定试验的原理及算法
1.1 协同评定试验的基本统计模型及假设
协同评定试验一般要求具备检测能力的实验室使用同一种标准方法或多种方法(方法之间具有良好的一致性,无系统差异)对同一样品的特性量值进行检测,每个实验室要求进行n次平行检测。所有测量程序均应可溯源到“规定测量标准”。
协同评定试验的基本统计模型见公式(1):
y=x+δ+B+e(1)
式中:y为观测结果;x为总平均值(期望);δ为测量方法的固有偏倚;B为偏倚的实验室分量;e为随机误差。
根据协同评定试验过程可知:样品相同、测量方法一致,测量仪器具有良好的可溯源性。由于使用相同的测量方法,δ导致的结果间的差异可以忽略。检测结果主要受到实验室间的差异和一些相互独立的随机因素的影响;假定偏倚的实验室分量是在近似正态分布情况下得到,但在多数实际情形中只须假定分布为单峰即可[5]。所以检测结果的总体(X)遵循或近似遵循正态分布N(μ,σ)。多家实验室协同评定试验结果相当于从检测结果总体中抽取的样本,对样本结果进行经典统计,以样品来估计总体。
为了使样本标准偏差对总体标准偏差的估计更理想,一般要求参加协同评定试验的实验室数量为8~15家[4];使用经典统计法在统计学上容易犯第二类错误[6],即取伪,一般使用Grubbs检验剔除离群值后,再进行统计,从而减少极值对最终结果的影响。
1.2 协同评定试验的算法
p个协同实验室对同一试样的特性量值进行n次重复检测,剔除离群值后,计算检测结果的算术平均值和实验室间标准偏差,具体算法见公式(2)、公式(3)和公式(4):
xi=∑nk=1xikn(2)
x=∑pi=pxip(3)
s=∑pi=1(xi-x)2p-1(4)
式中:n为每个实验室重复检测次数;p为参与协同评定实验室个数;xik为第i个实验室的第k次检测结果;xi为第i个实验室检测结果的平均值;x为所有实验室检测结果的平均值;s为实验室间标准偏差。
将协同评定试验结果的算术平均值即x作为能力验证(测量审核)的指定值;协同评定试验结果的实验室间标准偏差即s表示结果间的离散度和变异性,作为能力评定标准差,来评价实验室使用该相同方法及样品时检测结果的偏离程度。
1.3 利用协同评定试验结果的精密度确定能力评定标准差
根据ISO 13528:2015《利用实验室间比对进行能力验证的统计方法》中“8.5由协同研究确定精密度试验结果”确定,能力评定标准差(σpt)见公式(5):
(1-1/n)(5)
式中:n为实验室重复检测次数。
实验室间标准偏差可以进行转换,得到公式(6):
s=∑pi=1(xi-x)2p-1
所以将协同评定试验结果的实验室间标准偏差即s作为能力评定标准差,既可以充分利用协同评定试验确定的方法精密度数据,又满足经典统计方法的要求。同时为了检验协同评定试验结果的变异性是否满足标准方法再现性要求,可以将协同评定试验定值结果的精密度数据与标准方法中的精密度数据进行卡方检验,检验协同评定试验结果与标准方法要求的一致性。
2 结果与讨论
2.1 数据来源
以空气中二氧化硫检测(水剂样品)和水中铅检测为例,对协同评定试验统计结果在测量审核结果评价中的应用进行讨论。协同评定试验检测结果来自具备相关检测能力的8~10家实验室。协同评定试验的检测结果见表1。
表1 协同评定试验的检测结果Tab. 1 Determination results of collaborative assessment experiment mg·L-1
表1(续) mg·L-1
2.2 协同评定试验结果与标准方法一致性检验
以二氧化硫和铅检测项目作为应用举例进行介绍,特别选择了与标准方法中精密度数据浓度水平接近的样品。
二氧化硫样品的协同评定试验中,实验室均采用HJ 482-2009《盐酸-副玫瑰苯胺分光光度法》;铅的协同评定试验中,方法涉及电感耦合等离子体原子发射光谱法(ICP-AES)、电感耦合等离子体质谱法(ICP-MS)和原子吸收光谱法等现行国家及环境标准,只有HJ 776-2015标准方法(ICP-AES)中规定了精密度数据。
协同评定试验精密度结果及方法精密度结果见表2。表2中sr为协同评定试验的实验室内标准差;sR为协同评定试验的实验室间再现性标准差;sL为协同评定试验的实验室间标准差;ρ为标准方法样品中待测物的质量浓度;σr为标准方法的重复性标准差;σR为标准方法的再现性标准差;σL为标准方法的实验室间标准差。
表2 二氧化硫和铅的协同评定试验精密度结果及标准方法精密度结果Tab. 2 Results of precision of sulfur dioxide and lead in collaborative assessment experiment and standard method mg·L-1
将协同评定试验的精密度结果与HJ 482-2009、HJ 776-2015中方法精密度结果进行卡方检验,评价依据见公式(7):
由表3可知:二氧化硫和铅的协同评定试验精密度结果与标准方法精密度结果无显著性差异,与标准方法要求一致。
2.3 协同评定试验结果应用举例
以二氧化硫为例,确定指定值及能力评定标准差。作为测量审核(能力验证)样品,需要考虑样品
表3 二氧化硫和铅的协同评定试验精密度结果与标准方法精密度结果的卡方检验结果Tab. 3 Results of chi-square test of precision results of sulfur dioxide and lead in collaborative assessment experiment and standard method
的均匀性及稳定性是否满足能力验证要求,对该二氧化硫水剂样品进行了均匀性检验,使用sS≤0.3σpt准则(sS为样品之间的不均匀性标准偏差)[7]。该二氧化硫样品的均匀性满足能力验证要求;该样品的配制及保存条件与二氧化硫有证标准样品一致,在有效期内样品的稳定性良好。
对协同评定试验结果进行Grubbs检验,无离群数据。经典统计结果表明:x为0.632 mg·L-1;s为0.0116 mg·L-1。由于参与协同评定试验的实验室为8家,少于11家,平均值的定值不确定度(uchar)为0.004 1 mg·L-1(>0.3 s),sS为0.002 7 mg·L-1。能力评定标准差需考虑定值不确定度分量[8],能力评定标准差按公式(8)进行计算:
.012 3 mg·L-1(8)
将二氧化硫样品作为测量审核样品,使用z值对二氧化硫检测结果进行评价,z值按公式(9)进行计算:
z=xlab-xσpt(9)
式中:xlab为实验室检测结果,z≤2为结果满意;2 表4 协同评定试验数据对二氧化硫检测结果的评价Tab. 4 Evaluation of collaborative assessment experiment values on determination results of sulfur dioxide 由表4可知:实验室1和实验室2的二氧化硫检测结果为满意,实验室3的二氧化硫检测结果有问题。 本文利用协同评定试验结果确定测量审核指定值及能力评定标准差,该统计评价方法具有统计意义并满足能力验证结果的评价要求,为今后开展测量审核活动增加了样品及评价方法的可选择性。 [1] CNAS-GL02:2014 能力验证结果的统计处理和能力评价指南[S]. [2] 张鹏杰.测量审核指定机构管理的思考[J].中国认证认可, 2010(5):52-53. [3] ISO/WD 15725-1 Accuracy(trueness and precision) of measurement methods and results-part 1 general principles and definitions[S]. [4] GB/T 6379.1-2004 测量方法与结果的准确度(正确度与精密度)[S]. [5] GB/T 6379.2-2004 测量方法与结果的准确度(正确度与精密度)[S]. [6] 中国环境监测总站.环境水质监测质量保证手册[M].2版.北京:化学工业出版社, 1994. [7] CNAS-GL03:2015 能力验证样品均匀性和稳定性评价指南[S]. [8] ISO 13528 Statistical methods for use in proficiency testing by interlaboratory comparison[S].