APP下载

典型矿区非正态分布土壤元素数据的正态变换方法对比研究

2010-10-18李晓晖白晓宇张明明周涛发

地理与地理信息科学 2010年6期
关键词:正态正态分布变异

李晓晖,袁 峰,白晓宇,张明明,贾 蔡,周涛发

(合肥工业大学资源与环境工程学院,安徽合肥230009)

典型矿区非正态分布土壤元素数据的正态变换方法对比研究

李晓晖,袁 峰,白晓宇,张明明,贾 蔡,周涛发

(合肥工业大学资源与环境工程学院,安徽合肥230009)

对于铜陵矿区这类变异性强、偏度大、不符合正态分布的土壤元素样品数据,直接进行空间变异及插值分析会产生较大误差,需首先选择合适的正态变换方法进行稳健处理。该文以铜陵矿区表层土壤中的Pb元素数据为例,采用不同的正态变换方法进行数据正态变换,并通过变异函数对其变换效果进行分析。对比研究显示:对数变换无法使铜陵矿区土壤元素数据服从正态分布;Box-Cox变换虽使数据的正偏度有所减少,但仍难以通过 K-S正态检验;而Johnson变换结果最优,其通过了 K-S检验,对于异常数据的处理效果更优。Johnson变换与Box-Cox变换均可使变异函数表现出更好的形态,其中Johnson变换具有更强的正态变换能力,对于研究区土壤元素的变异函数稳定形态具有一定优势,是数据变异性强的成矿区地统计学数据正态变换的理想工具。

地统计学;正态变换;土壤;元素;铜陵

0 引言

地统计学作为研究空间变异和结构分析、空间预测、空间模拟的工具,被广泛应用于地质[1,2]、土壤[3,4]、环境[5]、气象[6,7]、生态[8]等诸多领域。由于地统计学理论与方法建立在固有假设或内蕴假设的基础上,所以要求进行分析计算的数据服从正态分布[9]。但在实际应用中,数据常具有的异常值、高偏度以及非正态分布性质对于变异函数拟合及插值稳健性有着极大的影响[10]。异常值引起的偏度过大虽然会保持变异函数的一般形状,但却会使块金值、拱高和块金/拱高等指标升高[11];而数据的非正态性分布则会产生比例效应,将使克里格插值无法达到无偏最优的特性,这些都将直接影响到变异函数模型的拟合、分析以及克里格插值的精度。为了解决异常值和数据非正态分布对地统计学分析的影响,地统计学家采取了多种有效的措施以提高空间分析与估值的稳健性,其中较为常见的一是利用稳健的变异函数及稳健的克里格估值方法来适应实际数据, Genton等[12-15]从不同角度提出的稳健变异函数模型,Haw kins等[16]提出的稳健克里格方法,均能有效地提高地统计分析的稳健性;二是对实际数据进行稳健处理,使数据逼近正态分布以满足地统计学的理论前提,通常包括异常值的剔除以及数据正态变换。剔除异常值的方法由于减少了样本数量,也有可能删弃正确或有意义的数值,对于空间变异性强烈的地区如成矿区弊端非常明显;而数据正态变换方法则可以在有效保留原有数据信息的基础上使数据服从正态分布。目前常用的数据正态变换有对数变换(Logarithmic)和Box-Cox变换,其中Box-Cox变换由于其可以针对不同的数据选择最优的幂参数,所以对于某些无法应用对数变换的数据有较好的变换效果[17,18];近年来,Johnson变换作为一种高级数据变换方法,在工业产品质量控制领域应用广泛[19,20],Johnson变换包含了一组复杂的变换曲线,理论上具有更强的正态变换能力。

本文以铜陵矿区表层土壤中的Pb元素数据为例,分别采用不同的正态变换方法进行数据正态变换,并通过变异函数对其变换效果进行分析,以期为更合理有效地在空间变异性强烈的成矿区应用地统计学方法提供定量依据。

1 数据与方法

1.1 数据

本文的Pb土壤元素含量数据来源于安徽省地质调查院“安徽省江淮流域多目标区域地球化学调查”资料,土壤样品为较稳定地块的表层土壤,按间距为2 km网格采样所得,覆盖了铜陵矿区的主要矿田,样本数共计204件。

1.2 正态变换方法

(1)对数变换。其公式如下:

(2)Box-Cox变换。其属于幂变换[17,18],且包含了对数变换(λ=0)、平方根变换(λ=1/2)和倒数变换(λ=-1)等常用变换,但其作用有限。公式为[21]:

式中:λ可按极大似然估计得到[22]。

(3)Johnson变换[23]。其包含一组变换曲线,用于将不同类型分布的数据转化为标准正态分布,一般可由下式表示:

其中:Z为标准正态分布变量,X为非正态分布变量;参数γ和δ控制X分布的形状;ξ为位置因子,λ为尺度因子。根据不同的偏度和峰度,变换函数将从Johnson函数曲线系统中选择(表1)。Johnson函数曲线系统中的参数γ、δ、ξ和λ可参照 Hill[24]、Chou等[25-27]提出的理论与算法。

表1 Johnson变换系统中的变换函数Table 1 Transformation functions of Johnson transform system

1.3 正态性检验

Kolmogorov-Smirnov(K-S)是正态分布检验常用而有效的方法,其原理是将样本数据的经验累积分布函数与假设数据呈正态分布时期望的分布进行比较,如果实测差异足够大,该检验将否定总体呈正态分布的原假设[28]。本文设置信度α=0.05,若检验的P<0.05,则否定原假设,断定总体呈非正态分布。

1.4 标准变异函数

为将各种变换的变异函数图统一到同一尺度进行对比,可对变异函数进行标准化处理。标准变异函数γs(h)计算式为[29]:

式中:S2为样本方差。标准变异函数与变异函数的形状基本相同,因此可以通过判断标准变异函数的形状与拟合情况进而类推到普通变异函数。

2 数据基本统计分析

对Pb元素样品数据进行基本统计分析,统计结果(表 2)显示 Pb元素样品数据的变异系数达152.92%;根据土壤性质变异程度的分类[30],说明其空间变异性较强,数据中极可能存在很大的样本值。同时,Pb元素数据的K-S检验值 P小于0.01,说明数据总体不符合正态分布,且Pb元素的浓度频率分布都表现出一定程度的正偏(偏度大于0),这在其直方图中(图1)有更直观的表现。此外,在Pb元素数据直方图右侧存在较长的拖尾,表明数据中存在异常值。鉴于Pb元素数据的基本统计特征,地统计分析前的数据稳健处理不可或缺。

表2 铜陵矿区土壤元素含量基本统计Table 2 The statistical results of the soil element contents in Tonglingm ining area

图1 铜陵矿区土壤Pb元素浓度频率直方图Fig.1 The frequency histogram of soil Pb element contents in Tonglingm ining area

3 正态变换结果与分析

3.1 数据变换及正态性检验

由于对数变换的正态变换能力较弱,无法使Pb元素数据服从正态分布,同时Box-Cox变换已包含对数变换的能力,故下文只对Box-Cox及Johnson正态变换的效果进行正态性检验。本文首先统计了两种变换后的偏度、峰度并进行了 K-S检验(表3),发现Box-Cox变换虽使数据的正偏度有所减少,但难以使数据通过 K-S正态检验(P<0.01),而Johnson变换结果明显好于Box-Cox,其变换值顺利通过了K-S检验(P>0.15)。

表3 原数据的Box-Cox与Johnson变换及正态分布检验结果Table 3 The Box-Cox and Johnson transformations of raw data and results of normality test

为更直观的反映两种变换结果的正态效果,本文给出了变换结果的正态分布概率图(图2),同时划出置信区间为95%的分布线。可见,Box-Cox变换后的数据虽然大部分点都依附于正态分布线周围,但仍有头尾两端的数据出现在95%的置信区间以外; Johnson变换后的数据不仅使中间(均值周围)的数据更加吻合正态分布线,而且使更多两端的数据落在95%置信区间之内。因此,Johnson正态变换方法更能使数据接近正态分布,尤其对于两端的数据(右端常为异常数据)效果明显优于Box-Cox变换。

图2 Box-Cox和Johnson变换正态分布概率Fig.2 The normal distribution frequency after Box-Cox and Johnson transformations

3.2 变换对变异函数的影响分析

为对比不同正态变换方法对变异函数形状和趋势的影响,本文分别计算了研究区土壤Pb元素原数据(Raw Date)、对数变换(Logarithm)、Box-Cox变换及Johnson变换结果的标准变异函数,结果见图3。

图3 标准变异函数对比Fig.3 Comparison among different standard variograms

可见,用原数据直接计算的变异函数趋势混乱、跃动明显,块金效应与基台值较高,无法很好地描述数据空间变异的趋势,且变异函数在达到基台值后出现下降,出现所谓的“漂移”现象。因此,采用原数据直接计算的变异函数难以进行有效的空间变异分析,也无法拟合出理想的变异函数模型,这将直接影响进一步的克里格插值分析。相比而言,对数、Box-Cox及Johnson变换后的数据计算得到的变异函数则具有明显优势;特别是Box-Cox和Johnson变换,其变异函数表现出较小的块金值、基台值,明显优于对数变换和无变换的结果。总体而言,Box-Cox与Johnson变换的变异函数较为接近,但Johnson变换的变异函数趋势更加平滑稳定,更有利于理论变异函数的拟合。

4 结论

对于铜陵矿区这类变异性强、偏度大、不符合正态分布的土壤元素样品数据,直接进行空间变异及插值分析会产生较大误差,需首先选择合适的正态变换方法进行稳健处理。对数变换无法使铜陵矿区的Pb土壤元素数据服从正态分布,Box-Cox变换虽可使数据的正偏度有所减少,但仍难以通过 K-S正态检验。Johnson变换能够使数据很好地符合正态分布,并可以顺利通过K-S正态检验,其对于异常数据的正态变换效果更优。Johnson变换与Box-Cox变换可以使变异函数表现出更好的形态,其中Johnson变换具有更强的正态变换能力,对于变异函数稳定形态具有一定优势,是空间变异性强烈的成矿区地统计学数据正态变换的理想工具,其正态变换结果可为随后的理论变异函数拟合与克里格插值奠定良好的基础。

[1] JOURNEL A,HU IGBREGTSC.矿业地质统计学[M].北京:冶金工业出版社,1982.1-586.

[2] 孙洪泉.地质统计学及其应用[M].徐州:中国矿业大学出版社,1990.1-282.

[3] 张长波,李志博,姚春霞,等.污染场地土壤重金属含量的空间变异特征及其污染源识别指示意义[J].土壤,2006,38(5):526 -533.

[4] 师荣光,赵玉杰,周启星,等.苏北优势农业区土壤砷含量空间变异性研究[J].农业工程学报,2008,24(1):80-84.

[5] 李蒙文,战明国,赵财胜,等.稳健估计方法在内蒙古新忽热地区水系沉积物测量异常评价中的应用[J].矿床地质,2006,25 (1):27-35.

[6] 魏凤英,曹鸿兴.地统计学分析技术及其在气象中的适用性[J].气象,2002,28(12):3-5.

[7] 岳文泽,徐建华,徐丽华.基于地统计方法的气候要素空间插值研究[J].高原气象,2005,24(6):974-980.

[8] 王政权.地统计学及在生态学中的应用[M].北京:科学出版社,1999.1-195.

[9] 张仁铎.空间变异理论及应用[M].北京:科学出版社,2005.1 -188.

[10] KRIGE D,MAGRI E.Studies of the effects of outliers and data transformation on variogram estimates for a base metal and a gold ore body[J].Mathematical Geology,1982,14(6):557-564.

[11] OL IVER M,FROGBROOK Z,WEBSTER R,et al.A rational strategy for determining the number of cores for bulked sampling of soil[A].Precision Agriculture[C].UK Oxford:BIOS Scientific Publishers Ltd,1997.155-162.

[12] GENTON M.Highly robust variogram estimation[J].Mathematical Geology,1998,30(2):213-221.

[13] MARCHANT B,LARK R.Robust estimation of the variogram by residualmaximum likelihood[J].Geoderma,2007,140 (1-2):62-72.

[14] CERIOL I A,RIAN IM.Robust methods for the analysis of spatially autocorrelated data[J].Statistical Methods and Applications,2002,11(3):335-358.

[15] CRESSIE N,HAW KINS D.Robust estimation of the variogram:I[J].Mathematical Geology,1980,12(2):115-125.

[16] HAWKINS D,CRESSIE N.Robust kriging——a p roposal[J]. Mathematical Geology,1984,16(1):3-18.

[17] ZHANG C,SEL INUSO,SCHEDIN J.Statistical analyses for heavy metal contents in till and root samples in an area of southeastern Sweden[J].The Science of the Total Environment,1998,212(2-3):217-232.

[18] ZHANGC,ZHANGS.A robust-symmetricmean:A new way of mean calculation for environmental data[J].GeoJournal, 1996,40(1):209-212.

[19] 王少熙,贾新章.半导体质量控制中的非正态工序能力指数计算模型[J].半导体学报,2007,28(2):227-231.

[20] 周群艳,田澎,田志友.基于Johnson转换体系的非正态过程能力指数估计[J].系统工程,2004,22(5):98-102.

[21] BOX G,COX D.An analysisof transformations[J].The Royal Statistical Society.Series B(Methodological),1964,26(2): 211-252.

[22] JOBSON J.Applied Multivariate Data Analysis:Regression and Experimental Design Categorical and Multivariate Methods[M]. New York:Sp ringer,1991.

[23] JOHNSON N.Systems of frequency curves generated by methods of translation[J].Biometrika,1949,36(1):149-176.

[24] H ILL I,H ILL R,HOLDER R.Fitting Johnson curves by moments[J].Applied Statistics,1976,25(2):180-189.

[25] CHOU Y,POLANSKY A,MASON R.Transforming non-normal data to normality in statistical p rocess control[J].Quality Technology,1998,30(2):133-141.

[26] SLIFKER J,SHAPIRO S.The Johnson system:Selection and parameter estimation[J].Technometrics,1980,22(2):239-246.

[27] MANDRACCIA S,HALVERSON G,CHOU Y.Control chart design strategies for skewed data[A].Process,Equipment,and Materials Control in Integrated Circuit Manufacturing II[C]. USA Austin:TX,1996.196-205.

[28] L ILL IEFORS H.On the Kolmogorov-Smirnov test for normality with mean and variance unknow n[J].The American Statistical Association,1967,62(318):399-402.

[29] PANNA TIER Y.Variow in:Software for Spatial Data Analysis in 2D[M].New York:Sp ringer,1996.1-91.

[30] MULLA D,MCBRA TNEY A.Soil Spatial Variability[M]. Boca Raton,FL:Soil Physics Companion CRC Press,2002.343 -373.

Abstract:Fo r the strongly variable,large skewed and non-no rmal distributed soil samp le data,such as those in Tongling mining area,spatial variability analysis and interpolation directly w ill lead to considerable erro rs,so it needs to select an app rop riate no rmal transfo rmation method to perfo rm the robust p rocessing firstly.In thispaper,Pb element dataof surface soil in Tongling mining area was taken fo r examp le,the raw data were transformed by different normal transfo rmation methods and the effects was analyzed by variogram,expecting to p rovide a mensurable basis fo r app lying geostatisticsmore reasonable and effective in the strong spatial variability metallogenic region.Comparison study showed that the logarithmic transfo rmation could notmake the soil element data in Tongling mining area obeying normal distribution,although Box-Cox transformation could decline the skew ness of the data,it still didn′t pass the K-S test.Johnson transfo rmation is an op timalmethod and the results passed the KS test successfully,especially for non-normal distributed data.Both Johnson transfo rmation and Box-Cox transfo rmation could make the variogram shape better,and Johnson transfo rmation had stronger no rmalization capacity and advantage fo r stabilizing the shape of variogram.Johnson transfo rmation is an ideal geostatistics normalization tool fo r the strong spatial variability metallogenic region.

Key words:geostatistics;no rmal transformation;soil;elements;Tongling

Comparison of Normalization Methods for Non-Normal Distributed Soil ElementsData in Typical M ining Area

L IXiao-hui,YUAN Feng,BA IXiao-yu,ZHANGM ing-ming,JIA Cai,ZHOU Tao-fa
(School of Resources and Environmental Engineering,Hefei University of Technology,Hefei 230009,China)

P628+.1

A

1672-0504(2010)06-0102-04

2010-07-20;

2010-10-18

新世纪优秀人才支持计划项目(NCET-10-0324);安徽省科技攻关计划项目(08010302200);安徽省公益性地质(科技)工作项目(2009-13);安徽省优秀青年科技基金项目(08040106907、04045063)

李晓晖(1986-),男,博士研究生,主要从事多维分形及地质体三维建模预测研究。E-mail:lxhlixiaohui@163.com

猜你喜欢

正态正态分布变异
利用二元对数正态丰度模型预测铀资源总量
变异危机
变异
基于对数正态分布的出行时长可靠性计算
双幂变换下正态线性回归模型参数的假设检验
正态分布及其应用
基于泛正态阻抗云的谐波发射水平估计
半参数EV模型二阶段估计的渐近正态性
χ2分布、t 分布、F 分布与正态分布间的关系
变异的蚊子