数理统计在地球化学样品分析质量控制中的应用
2021-02-23李超群刘立平禹莲玲
郭 斌 李超群 刘立平 禹莲玲 龙 亮
(湖南省地质测试研究院,长沙 410007)
前言
数理统计是统计学的理论基础,它根据人们对偶然现象的统计规律的认知,制定出解决各种数据问题的具体统计方法。地球化学样品分析是根据地球化学及地球化学探矿工作的需要而发展起来的一门应用学科,它是地球化学及地球化学探矿工作者取得地球化学样品物质组成、成分或存在形式等信息资料的重要环节,是地质科学研究和地质调查工作的重要技术手段之一,其产生的数据是地质科学研究、矿产资源及地质环境评价的重要基础。我国开展区域地球化学调查工作以来,对地球化学样品分析数据质量的监控方案不断补充与完善,逐渐形成了地质矿产行业规范[1-4]。全国地质实验室除了按照相应规范进行了内部和外部质量监控外,还与现行的其他行业分析方法(环保或者农业)的质量控制管理方案比较,额外采取了一些其他措施来提高地球化学样品分析质量[5-6]。在这些质量控制的措施中应用数理统计知识,分析出原始数据中蕴藏的大量特征信息、关系信息以及分类信息,科学地发掘出隐藏在这些原始数据中的经验规律,对区域地球化学样品分析水平和质量的提高起到了促进作用。本文使用Excel2013、Minitab这两种常用且易上手的软件,采用描述性统计、正态分布、背景值与异常3种方法对广西某县地球化学样品的实验室分析数据进行整理分析,综合运用上述技术方法对地球化学样品的分析数据进行了质量评价,比较发现,样品中CaO含量分析数据对数转换后比原始数据的分布更趋于正态分布,通过探讨数理统计方法对地球化学样品分析质量控制的影响和作用,有助于地质实验室在样品分析过程中及时发现问题、采取有效措施、选择最佳分析方法、制定最佳配套方案,保证分析数椐的准确性和可靠性。
1 样品及分析数据的选择
选取我院实验室承担的广西某地地球化学样品及分析数据为研究对象,依据多目标区域地球化学调查规范和批量样品质量控制方法,以不超过100个样品为一组,每组样品插入8个外控标准物质、8个内控标准物质、不少于5个平行样品,以确保分析系统处于受控状态。采用了电感耦合等离子体发射光谱(ICP-OES)法和X射线荧光光谱(XRF)法来进行本次样品测试分析。必须指出的是:在用数理统计方法分析实际样品结果数据时,为了反应实际样品的概率分布,分别剔除了上述重复样和质量控制样。本文后续所有统计样本也都剔除了监控样和重复样。
2 样品分析质量控制的数理统计方法结果及讨论
地球化学样品中测试元素较多,本文选取1 300个样品中CaO的测定进行质量控制数理统计分析。图 1和图2分别是ICP-OES法和XRF法分析广西某县地球化学样品中CaO含量的频率直方图。
图1 ICP-OES法测定CaO结果直方图(正态)
图2 XRF法测定CaO结果直(正态)
2.1 实验数据的描述性统计
描述性统计是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。常用的指标有平均值、中位数、四分位数、方差、标准差等。数据的集中趋势一般采用平均值、中位数表示;数据的离散程度一般采用方差、标准差表示。
Excel2013的数据分析工具能快速地对数据作出描述性统计,方法是:打开Excel2013,从数据栏中的数据分析模块选择描述统计(图3),然后选择需要分析的数据区域,确定后得到描述性统计结果。
图3 Excel2013数据分析向导
表1是分别用ICP-OES法和XRF法对广西某县地球化学样品中CaO分析数据的统计结果。通过对CaO的分析结果原始数值取对数,能降低分析数值之间的差距,从而使处理后的数据趋于正态分布[7];为了避免对数结果为负值,将CaO单位换算成mg/kg再取对数。
表1 ICP-OES法和XRF法对地球化学样品中CaO的测定数据统计结果
表中参数的涵义为:平均值反映了数据的平均水平;标准误差是指样本平均值的“抽样误差”;中位数是对数据趋中性的一种描述,是样本中数据从小到大排列后的中间值;众数是样本数据中出现频率最高的数值;标准差是所选样本的标准偏差,是衡量数值相对于其平均值的离散程度的指标;方差是标准偏差的平方,同样是描述数据离散程度的指标;峰度是刻画测度数据分布陡缓程度的指标;偏度也就是偏态系数,也称不对称度,是测度数据分布的偏斜方向和程度的指标;最大值为整个数据系列中数值最大的一个,最小值为数据系列中数值最小的一个,它们刻画了数据的离散状况,最大值与最小值之差称为极差,它反映了样本数据整体涵盖的范围大小;
置信水平表示样本数据的数值落在某一区间的概率,置信度则为在一定置信水平的情况下,样本平均值可能出现的最大偏差,此时,总体平均值的置信区间即为样本平均值±置信度,求解置信区间实际上是置信度的求解过程。
描述性统计能直观地展示数据的特征。从表1可以明显发现几组数据中最小值有区别,用ICP-OES法检测样品中CaO结果的最小值是0.018%,而XRF检测结果是0.040%,即XRF检测样品中CaO的最小结果是ICP-OES检测结果的2.22倍,这是因为两种不同的方法检出限不一样,检出最低结果值不一样。
峰度常用来检验分布的正态性,从表1峰度结果看,两种分析方法得到的结果大于3,因此,分析数据分布具有过度的峰度。从两种分析方法得到的标准差来看,比较接近,而峰度值相差较大,因此,峰度更大的XRF检测样品中CaO结果数据分布就有更多的极端值,那么其余值必然要更加集中在众数周围,其分布必然就更加陡峭。
从偏度结果来看,两种分析方法得到的偏度值均大于0,且算术平均数>中位数>众数,因此数据分布具有正偏离,即数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于左边的尾部要长,因为有少数变量值较大,使曲线右侧尾部拖得较长;同时XRF分析数据偏度绝对值更大,说明分布的偏移程度越严重。
从图1和图2也可以看出,就本次实验结果而言,无论是ICP-OES法还是XRF法对地球化学样品中CaO分析数据分布均出现正偏离,曲线右侧出现明显拖尾,原始数据都不符合正态分布,这与峰度和偏度得到的结果是一致的。
2.2 正态分布
正态分布又名高斯分布,是数理统计中最重要、最基本的一种概率分布。在地球化学的研究中,地质体中元素含量概率分布形式主要是正态分布,其次是对数正态分布[8]。地球化学样品分析中,常用正态分布模型对数据进行研究分析[9]。
在对数据进行统计处理的时候,需要先进行正态性检验。检验偏离正态分布有多种方法,如图方法、有方向检验、无方向检验[9]。有方向检验方法中,有偏度和峰度检验。无方向检验有Shapiro-Wilk检验(W检验)、Epps-Pulley检验、Kolmogorov-Smirnov检验(D检验)、Anderson-Darling AD检验、Ryan-Joiner检验。
检验正态分布可以用Minitab软件,通过菜单:统计>基本统计量>正态性检验,然后选择检验方法。Minitab提供了三种方法,如图4所示。检验结果看P值,P>0.05就基本可以认为数据呈正态分布。
图4 Minitab正态性检验向导
选择Kolmogorov-Smirnov对CaO对数结果进行检验,两种仪器检验结果如图5所示。从概率图5分析,ICP-OES法测定CaO结果的P值为0.079,大于0.05,因此可判定ICP-OES法测定结果成对数正态分布,而XRF法测定结果的P值为小于0.010,比0.05小,因此其测定结果数据是非正态分布。
用Minitab图形功能作直方图,选择包含拟合,两种仪器结果如图6。从图6明显看出,ICP-OES法测定CaO结果的对数变换后符合正态分布,而XRF法测定的结果与正态分布曲线有较大差异。
综合分析概率图和直方图,可以得出结论:ICP-OES法测定结果成对数正态分布,XRF法测定结果非正态分布;XRF法测定结果中低值集中在0.04、0.05,ICP-OES法测定结果在低值与正态分布曲线拟合很好。这是因为XRF法的检出限只有0.05,而ICP-OES法的检出限能达到0.025,故在低含量段上ICP-OES分析结果比XRF更合理。最后在质量控制时,选择报出ICP-OES法检测的CaO结果。
对于勘查地球化学数据而言,一般认为:常量元素服从正态分布,微量元素服从对数正态分布,这一观点被众多的化探工作者认知[10]。通常情况下,土壤中的氧化钙是常量组分,但从我们本次样品分析结果来看,由于所分析的地球化学土壤样品中氧化钙含量较低,因此,原始数据不符合标准正态分布,而是服从对数正态分布,这与文献[9]中所报道的结果一致。
2.3 背景值与异常
地球化学背景值是指地球化学背景范围内的元素呈正态分布时,其平均值为背景值(对数正态分布的元素背景值是几何平均值),其最大值为背景上限或异常下限。确定背景值及异常下限常用的有长剖面法、图解法和计算法[11]。
图解法包括直方图解法和概率格纸图解法。本文用Excel2013按《区域地球化学勘查规范》的要求,以ICP-OES法测得的CaO结果对数值做直方图,见图7。
图5 ICP-OES法和XRF法分别测定样品中CaO数据对数值正态概率图
图6 ICP-OES法和XRF法分别测定样品中CaO数据对数值分布直方图
图7 CaO对数直方图
拉依达准则是从数组中剔除大于平均值加上2倍(或3倍)标准偏差和小于平均值减去2倍(或3倍)标准偏差的数据,然后重新计算新数组的平均值和标准偏差。重复多次上述步骤,直到没有可被剔除的数据。地球化学样品分析中,常用3倍标准偏差来计算[4]。
在地球化学样品分析质量管理规范中[1-4],要随机抽查2%~3%重复性检验样品,异常值和极低值可以从图7中极低值区和高异常值区中查找。也可以用拉依达准则找出3倍标准偏差外的数据,当作异常值去抽查重复。
3 结语
利用常用的Excel和Minitab软件的数据分析功能,将数理统计知识应用在地球化学样品分析质量控制中,可以系统准确高效地对数据进行质量控制。
1)描述性统计,利用Excel2013的数据分析功能,快速给出一组数据的详细信息,方便了解该组数据的特征。
2)正态分布,利用地球化学中元素含量正态分布或者对数正态分布的特性,对数据作正态分布拟合图。Minitab软件可以方便地检验数据是否正态分布,然后作出正态分布拟合的直方图。从中可以分析地球化学样品实验室数据的准确性,通过比对可以选择更好的方法来分析测试样品。
3)在地球化学样品中,元素正态分布的前提下,可以找出元素的背景值和异常值。利用直方图法、Grubbs法或者拉依达准则剔除异常值。Excel2013可以按《区域地球化学勘查规范》要求作直方图,从中找出数据异常值进行重复抽样。