马氏距离法在东昆仑东段多元异常圈定中的对比试验
2021-04-16耿国帅杨帆
耿国帅,杨帆
(1.中国地质大学(北京) 地球科学与资源学院,北京 100083; 2.中国地质调查局 地球物理调查中心,河北 廊坊 065000; 3.北京矿产地质研究院,北京 100012; 4.中国地质调查局 土地质量地球化学调查评价研究中心,河北 廊坊 065000)
0 引言
在地球化学数据处理中,许多情况下异常下限并不是某个重要元素的浓度值, 而是样品中几种元素的相互关系[1],因此,用传统的统计学方法确定的单元素异常下限, 可能无法揭示或突出数据集中有价值的复合信息, 还可能误入歧途。目前,已有多种方法来识别多元素地球化学异常[2-5],但应用最广泛的是基于马氏距离的多元异常识别方法[6-13]。常规马氏距离方法是依据数据的算术平均值和样本的协方差矩阵来计算各样本点离数据中心的距离,将计算的马氏距离与卡方分布的临界值(通常取卡方分布的97.5%)相比较,大于临界值的数据点为异常点[14]。但算术平均值和协方差矩阵是不稳健的统计量,部分异常点的存在会造成算术平均值的偏大或偏小及协方差矩阵的变化,进而掩盖一些异常点[15-19]。为了克服不稳健的问题,许多科学家采用了稳健的方法来计算马氏距离[20-21]。应用最广泛的是Rousseeuw提出的基于最小协方差矩阵行列式(MCD)的快速方法(FMCD)[22]。Majewska认为,基于M-估计、S-估计、MM-估计、MVE、MCD 和FMCD的稳健马氏距离在识别异常的效果上已经证明比常规马氏距离好,在这些稳健方法中,FMCD的方法相对较好[23]。Filzmoser等认为这种根据马氏距离大于某一固定值判定为异常的方法也有很大的缺陷,它没有考虑样品的个数及数据的结构,因此提出了基于校正的稳健马氏距离法(adaptive method)[24]。此外Sajesh和Srinivasan提出了用Comedian来代替Covariance的稳健马氏距离法来识别异常(comedian method)[25]。笔者利用常规马氏距离方法、FMCD法、Adaptive法和Comedian法等4种方法,分别对东昆仑东段水系沉积物测量地球化学数据进行处理,用于圈定多元素组合异常效果对比,旨在优选适宜该区的方法。
1 研究区概况
青海省东昆仑东段跨越了古亚洲和特提斯两大构造域,位于南北两大构造域结合部位,区内可划分为秦祁昆、特提斯2个一级单元,东昆仑造山带、巴颜喀拉造山带2个二级构造单元及昆北、昆中、昆南、北巴 4 个三级构造单元(图1)。
区内地层出露齐全,从古元古界到新生界均有出露,其中昆北带主要出露三叠系鄂拉山组,昆中带主要出露太古宇古老变质岩系,昆南带出露地层最为复杂,从古元古界到侏罗系均有出露,北巴带内主要出露三叠系巴颜喀拉群的复理石沉积。区内岩浆侵入活动强烈,以花岗岩类为主,在4个构造单元均有出露,尤以昆中带最密集,北巴带最稀少,时代从元古宙、早古生代、晚古生代到中生代均有分布,其中中生代最为发育。
该区已发现金、铁、铜、铅、锌、钨、锡、钴等矿床(点)110多处,其中大型矿床4处,都为金矿床;中型矿床7处,为金、铁、多金属矿;小型矿床13处,为金、铜、铁、多金属矿;矿点46处;矿化点41处。近些年来,该区一直是找矿工作的热点地区之一。
张德全把该区的矿床类型分为喷气—沉积矿床组合(VHMS型和SEDEX型)和造山矿床组合(斑岩、矽卡岩、热液脉型和造山型金矿)共两个组合、六个类型[26];丁清峰把该区的矿床类型分为热水喷流沉积和与造山作用有关的斑岩型、矽卡岩型、热液脉型和叠加改造型[27];田立明把该区主要成矿类型归为海相火山岩型、斑岩型/矽卡岩型和造山型金矿等3种组合[28]。笔者根据前人的研究成果,把该区的金属矿床分为3种成因组合(表1)。
1—主缝合带;2—次缝合带;3—新元古代-早古生代结合带俯冲方向(一侧有齿者为单向俯冲,两侧有齿者为双向俯冲);4—晚古生代-早中生代缝合带俯冲方向;5—A型俯冲带;6—公路;7—研究区位置;Ⅰ—柴达木地块;Ⅱ—东昆仑造山带;Ⅱ1—东昆北早古生代弧后裂陷带(昆北带);Ⅱ2—东昆中岩浆弧带(昆中带);Ⅱ3—东昆南构造-混杂岩带(昆南带);Ⅲ—巴颜喀拉造山带(北巴带)1—main structure zone; 2—secondary structure zone; 3—Neoproterozoic-early Paleozoic combined belt subduction direction(one-way subduction with teeth on one side and two-way subduction with teeth on both sides); 4—subduction direction of late Paleozoic and early Mesozoic suture belt; 5—A type subduction zones; 6—high way; 7—location of study area; Ⅰ—Qaidam massif; Ⅱ—East Kunlun orogenic belt; Ⅱ1—East Kunbei early paleozoic back-arc rife (Kunbei belt); Ⅱ2—East Kunzhong magmatic arc zone(Kunzhong belt); Ⅱ3—East-Kunnan tectonomagmatic belt(Kunnan belt); Ⅲ—Bayan Kara orogenic belt (Beiba belt)图1 东昆仑地区大地构造分区Fig.1 The map of geotectonic units in the study area
表1 研究区矿床成因类型
2 四种马氏距离算法和元素组合的选取
2.1 四种马氏距离算法
马氏距离是由印度统计学家P. C.Mahalanobis提出的,表示数据的协方差距离[29]。它是一种广义距离,因为考虑了各变量间的协方差,与普通欧氏距离相比,能消除量纲及各变量间相关性的影响。马氏距离的计算方法为
式中:Xi为分析数据;T为数据中心位置估计值;C为数据离散的估计值。
1) 在常规方法中,T为算术平均值,C为协方差矩阵。
2) FMCD法,实际上就是挑选一个不含异常点的背景子样本,使其矩阵行列式的值最小,从而计算出该子样本的算术平均值和协方差矩阵,来代替上式中的T和C。子样本个数须适宜,少了代表性差,多了稳健性差,样本个数一般在(n+p+1)/2~3n/4,其中n为样本数,p为元素个数[22]。
3) Adaptive法,计算马氏距离的算法同步骤2),只是判断异常下限的方法不同,它考虑了样本容量和元素个数对异常下限的影响[24]。
4) Comedian法,是利用Comedian来代替Covariance的方法,但直接计算的Comedian是一个非半正定矩阵,因此采用了奇异值分解的方法来重新生成一个半正定的Comedian矩阵和计算出中心位置的估计值[25]。
2.2 元素组合的选择
马氏距离圈定多元素异常,通常是针对不同类型矿床的特征元素组合的。本文根据该区的矿床(点)个数、规模及与元素间的关系,挑选出下列3种元素组合:
1) 以基性岩有关的矿床类型的元素组合:Cu、Co、Cr、Ni、V、Fe;
2) 以酸性岩有关的矿床类型的元素组合:Cu、Mo、Pb、Zn、Ag、Cd;
3) 以造山型金矿有关的元素组合:Au、As、Sb。
3 结果及讨论
3.1 数据的来源
本文所采用的数据来源于青海省地质矿产局 1∶50万水系沉积物地球化学扫面工作(1个点/4 km2,8~16 km2的组合样作为一个分析样)。这项工作为近年来东昆仑地区的金多金属资源调查提供了极为宝贵的基础资料。张文秦依据该数据,对东昆仑地质背景进行探讨[30];安国英对数据进行处理,分析了元素的地球化学特征,总结了各构造单元地球化学元素的分布特征,并用于金矿靶区的筛选及评价中[31-32]。笔者旨在利用上述数据对比优选适宜该区的多元素组合异常圈定的方法。
3.2 不同方法计算的马氏距离对比
对研究区4 001件样品按照上述3种元素组合计算其马氏距离,由于Adaptive马氏距离是利用FMCD的方法计算得出的,因此4种方法仅有3种马氏距离。把3种元素组合经FMCD、基于Comedian计算的马氏距离分别与常规方法计算的马氏距离进行对比(图2)。从图2可看出:① 常规马氏距离与基于FMCD计算的马氏距离相关性较好,如Au、As、Sb中,两者的相关性近乎呈一条直线。而基于Comedian计算的马氏距离与常规马氏距离的相关性较差。② 几乎所有基于FMCD计算的稳健马氏距离值都大于常规方法计算的马氏距离值,而基于Comedian计算的稳健马氏距离值大部分大于常规方法计算的距离值,少部分小于常规方法计算的距离值。③ 常规方法圈定的异常点一定是基于FMCD和Adaptive方法圈定的异常点(通过计算,Adaptive法确定的异常下限都大于FMCD法确定的异常下限,因此FMCD稳健距离确定的异常点一定包括Adaptive稳健马氏距离确定的异常点),但不一定是基于Comedian稳健距离圈定的异常点。④基于FMCD计算的马氏距离最大值(图2中红色圆圈所突出的点)与基于Comedian计算的马氏距离最大值(图2中蓝色圆圈所突出的点)通常不一致,且相差较大,例如Cd、Pb、Zn、Cu、Mo、Ag元素组合中,用FMCD计算的距离最大值,在Comedian计算的距离中甚至达不到异常点的标准,而用Comedian计算出的最大值点,在FMCD计算的距离中值都较大,在FMCD和Adaptive中都是异常点。
3.3 异常下限及识别的异常点数对比
对比4种马氏距离方法确定3种元素组合的异常下限及异常点数,结果显示,常规方法识别异常能力较弱,识别出的异常点数较少,而其他3种稳健马氏距离识别异常的能力较强,圈定的异常点数较多,克服了异常数据对不稳健马氏距离的的掩蔽效应。但各种稳健方法识别出的异常点数也大不相同,Comedian识别出的Au、As、Sb组合异常点最多,而识别出的Cu、Co、Cr、Ni、V、Fe组合异常的点数最少;FMCD识别出3种元素组合异常的个数差别不大,而Adaptive识别出的异常点数差别介于两者之间(表2)。为了探究元素组合异常与元素离散度间的关系,对3种组合中的元素标准化后作箱线图(图3),标准化的方法如下:
图2 3种元素组合的常规(a)和稳健(b)马氏距离对比Fig.2 The comparison of classical and robust mahalanobis distance from three element associations
表2 4种马氏距离确定的异常下限及异常点数统计
Z=(X-median(X))/MAD(X),
MAD(X)=1.4826×median|X-median(X)|。
式中:median表示数据集的中值,而MAD表示中值的绝对偏差,目的是统一各元素的量纲,使各元素值在统一水平线上,同时使各元素的中值处于箱线图纵轴的零刻度位置,方便进行比较。
标准化元素箱线图显示,该区Sb、Au、As元素组合中,元素的离散度都较大,高值点较多,形成的异常也应该较多;Cd、Cu、Mo、Pb、Zn、Ag元素组合中,Pb、Mo、Cd、Ag离散度也较大,Cu、Zn离散度较小;而Co、Cr、Cu、Ni、V、Fe元素组合中,除Cr、Ni离散度较高外,其他元素离散度都较小。
图3 元素标准化后的箱线Fig.3 Boxplot for elements of standardized data
从该区所形成的矿床来看,造山型金矿床无疑是该区最具找矿潜力的类型,与中酸性岩有关的矽卡岩型和斑岩型次之,与基性岩有关的矿床找矿潜力最小。故基于Comedian的方法较其他两种稳健方法更好。
3.4 圈定的异常对比
根据4种方法确定的异常下限值,圈定了Cu、Co、Cr、Ni、V、Fe,Cd、Cu、Pb、Zn、Mo、Ag和Au、As、Sb组合异常(图4~图6),各异常特征对比如下。
3.4.1 Cu、Co、Cr、Ni、V、Fe组合异常
使用常规马氏距离方法圈定的异常面积较小,异常较零星,强度较低,浓集趋势不明显,而基于稳健马氏距离圈定的异常,强度较高,浓集趋势也比较明显。从3种稳健方法所圈定的异常看,Comedian圈定的异常主要集中分布在昆南带内,而FMCD和Adaptive所圈定的异常,除了大部分集中在昆南带内外,在昆北带内也有较多的小异常存在,在昆中和北巴带内的异常也较前者多。常规方法和FMCD计算的马氏距离最大值点都分布在北巴带内,而Comedian计算的马氏距离最大值点分布在昆南带内的清水泉铬铁矿点附近。相较于FMCD方法,Adaptive方法所圈定的异常面积减少,但浓集趋势不变,矿床与异常对应关系也没有改变,表明Adaptive圈定的异常较FMCD合理。总之,Comedian法更符合地质情况,所圈定的异常最真实,其次是Adaptive,常规方法效果最差。
3.4.2 Cd、Cu、Mo、Pb、Zn、Ag组合异常
使用常规马氏距离圈定的异常面积较小,分布较零星,强度较低,浓集趋势不明显,而采用稳健马氏距离圈定的异常面积较大,强度较高,浓集趋势较明显,与矿床点的对应性较好。从3种稳健方法所圈定的异常看,Comedian所圈定的异常强度更高,浓集趋势更明显,与矿床点的对应性也更好。从马氏距离最大值所处位置来看,常规方法和Comedian稳健方法计算的最大值点都处在图幅中间,山根果勒南端,而FMCD所计算的最大值点处于图幅最东端哈拉深沟的南东。目前在Comedian极值点附近已发现了没桑确昂、注斯楞等热液脉型铅矿点。相较于FMCD,Adaptive圈定的异常面积减小,但浓集趋势及与矿床点的关系没有改变。
3.4.3 Au、As、Sb组合异常
使用常规方法圈定的Au、As、Sb组合异常,较常规方法所圈定的前两种元素组合异常,分布更零星,面积更小,强度更低,也说明了常规方法不稳健所带来的掩蔽效果对Au、As、Sb组合更严重。而从3种稳健方法所圈定的异常来看,用Comedian所圈定的异常强度更高,浓集趋势更明显,且从马氏距离最大值所处的位置来看,Comedian所计算的马氏距离最大值处于五龙沟矿床,而其他两种方法计算的马氏距离都处于研究区的最南端。
3.5 Adaptive和Comedian识别出的异常点分布
对Adaptive和Comedian所识别出的异常点分别进行统计(见表3),从所识别的异常点数看,两种方法识别的Co、Cr、Cu、Ni、V、Fe组合异常点数区别较小,共同识别的异常点数占总异常点数近50%,仅被一种方法所识别的异常点数各占总异常点数的近25%。而在识别其他两种元素组合的异常点数时差别较大,在Cd、Cu、Mo、Pb、Zn、Ag元素组合中,两者共同识别出的异常点数仅占1/3左右,而Comedian所识别的异常点数远高于Adaptive所识别的异常点数;在Au、As、Sb元素组合中,两者共同识别出的异常点数大于总异常点数的40%,Comedian所识别的异常点数也远远大于Adaptive所识别的异常点数。
异常识别方法的优劣,取决于异常点个数及其与地质及矿床点分布的吻合程度。因此,笔者选择两种方法所识别异常点数区别较小的Co、Cr、Cu、Ni、V、Fe组合,比较两种方法所识别的异常点与矿床点的吻合程度(见图7)。
从该区所收集到的25处该类型的矿床点与异常点的分布情况看,除了1处矿床点周围无异常点外,其他24处矿床点都处在异常点上或异常点附近,且大都处于两者共同识别出的异常点上,但从矿床点与两者单独识别出的异常点的关系看,9处矿床点处于Comdeian识别出的异常点附近,而只有3处矿床点处于Adaptive识别出的异常点附近,故Comedian识别出的异常点更合理。
表3 Adaptive和Comedian异常点统计
图5 4种马氏距离圈定的Cd、Cu、Mo、Pb、Zn、Ag组合异常Fig.5 Multivariate outlier delineation for Cd,Cu,Mo,Pb,Zn and Ag from four mahalanobis diatance methods in study area
图6 4种马氏距离圈定的Au,As,Sb组合异常Fig.6 Multivariate outlier delineation for Au,As,Sb from mahalanobis distance methods in study area
图7 Adaptive和Comedian识别的Co、Cr、Cu、Ni、V、Fe组合异常点分布Fig.7 Outliers distribution of Co,Cr,Cu,Ni,V,Fe association using Adaptive and Comedian methods
4 结论
常规马氏距离法、FMCD法、Adaptive法、Comedian法在东昆仑东段异常识别和圈定中的实际效果显示:
1) 常规马氏距离容易受到特异值的影响,而造成异常的掩蔽效应,识别出的异常点数较少,圈定的异常面积小,分布零星,强度低。
2) 3种稳健方法由于消除了特异值的掩蔽效应,识别出的异常点数多,圈定的异常面积大,强度高,浓集趋势明显。但由于FMCD没有考虑数据结构,圈定的异常只与变量个数有关,因此与实际情况不太相符;而Adaptive虽然考虑了数据结构,但马氏距离的计算是基于FMCD的方法,Maronna等指出,FMCD估计值的偏差会随着变量数的增加而增大[32-33]; Comedian是基于中值和中值的绝对偏差,因此具有高稳健性和高截断点,但由于Comedian是非半正定矩阵,因此不能直接计算,而要采用奇异值分解的方法来重构Comdian矩阵。
3) 综上所述,4种方法在东昆仑东段多元素异常圈定效果依次为Comedian方法、Adaptive法、FMCD法、常规方法。