APP下载

化探数据处理提取多层次信息的数据挖掘方法

2018-02-23程正发

安徽地质 2018年4期
关键词:等值线图直方图数据处理

程正发

(安徽省地球物理地球化学勘查技术院, 安徽合肥 230022)

0 引言

无论何种目的的地球化学勘查工作,通常都包括立项、设计编写、野外调查、样品分析与测试、数据处理与综合研究以及成果报告编写等多个工作阶段。在数据处理与综合研究阶段运用多种数据挖掘与数理统计方法或方法组合,充分而深入地进行多层次信息提取,是最大限度的研究资料,保障勘查工作成果的一个十分重要的工作环节,本文以新疆天山某勘查区多金属矿地球化学详查为例,简述这些方法的综合运用及其处理效果。

1 勘查项目概况

该详查区域为一东西方向长6.2km,南北方向宽3.7km,面积22.94km2的矩形区域(见图1)。

区内出露地层有奥陶系中上统大柳沟组玄武安山岩、英安岩、火山角砾岩、沉积凝灰岩;奥陶系中上统庙尔沟组粉砂岩、泥质粉砂岩、沉积凝灰岩;泥盆系下统大南湖组一段凝灰质细砂岩、含碳粉砂岩、凝灰质长石岩屑砂岩;第四系更新-全新统砾石、沙土及亚砂土等。

岩浆岩有石英闪长岩、花岗闪长岩、中细粒二长花岗岩及钾长花岗岩等,多呈岩株产出,具有一定规模。

区域内见有多处Cu及Ag、Pb、Zn、Au等多元素综合异常。

1∶1万地球化学详查按照200m×40m的规则网布置采样点2976个,分析了Au、Cu、Ag、Pb、Zn、W、Sn、Mo、As、Sb等10种元素。

图1 新疆天山某详查区地质矿产图Fig.1 Geological and mineral map of a detailed survey area in Tianshan, Xinjiang

2 数据挖掘与数理统计方法的综合运用

2.1 数据预处理

数据预处理是对实验室提供的分析数据进行预处理,形成可用于统计分析及编图的数据文件。最终数据文件中不应有空白值、不确定值及其它错误数值,每个数值均应大于0,也尽量不要有特别“离群”的特高或特低值。

不确定值的处理:如果分析结果中有小于分析检出限的不确定值,建议用检出限值代替之;有大于分析方法最高检出限的值,建议用最高检出限值的1.5倍代替之。如果不确定值过多,例如超过了某元素总数据量的10%,建议改变分析方法重新分析样品。

空白值的处理:如果出现空白值,建议用相邻样品分析值或若干个相邻样品分析平均值代替之。如果空白值过多或连续出现多个空白值,建议实验室重新制样后重新分析。

2.2 地球化学参数统计

经过数据预处理后得到的数据文件就可以用“多元素地球化学参数统计及分布型式检验程序”来进行地球化学参数统计了,这是一项很重要的基础工作,据地球化学参数统计结果可划分色阶,编制地球化学图。

经过统计分析可以得到的各元素地球化学参数有:最大值、最小值、中位数、平均值、标准离差、变异系数、逐步剔除特异值前后的样品数、逐步剔除特异值后的背景值、标准离差、变异系数及异常下限等,同时得到的还有频率分布直方图的分组参数及经柯-斯准则检验的分布型式,见表1~表2所列,表中Au、Ag含量单位为10-9,其它元素为10-6,后文皆同。

还可以得到将原始数据转换成对数以后,逐步剔除特异值前后的地球化学参数等(见表3)。分别统计各元素按照对数0.1的间隔进行分组的频率分布直方图分组参数,据此可用Grapher 10绘图软件做出各元素含量频率分布直方图(图2)。以元素Ag为例,其分组参数列于表4。

表1 各元素未经过剔除特异值的地球化学参数Table 1 Geochemical parameters of each element without removing outliers

表2 各元素剔除特异值后的地球化学参数Table 2 Geochemical parameters of each element after removing outliers

地球化学参数统计提取了丰富的地球化学信息,充分研究各元素的分布特征可以确定其地球化学图上的色阶值,用Surfer14绘图软件制作各元素地球化学图,主要成矿元素的色阶值见表5。各含量区间在地球化学图上对应的颜色分别是:低值区-深蓝色(Electric Blue)、低背景区-浅蓝色(Pastel Blue)、背景区-淡黄色(Chalk)、高背景区-深黄色(Light Yellow)、异常外带-浅粉色(Soft Pink)、异常中带-深粉色(Hot Pink)、异常内带-红色(Neon Red)、异常强内带-深红色(Brick Red)。Cu、Pb、Zn、Ag等4种主要成矿元素地球化学图见图3~图6。

也可以采用稳健统计学的EDA法确定各元素色阶值及异常下限,以Cu为例统计结果如下:

中位数12.4,下节点7.18,上节点21.5,内散度14.32,异常下限参考值28.64(实际可以采用30.0)。色阶划分及各色区样品所占百分比见表6。

2.3 多元统计分析方法的运用

多元统计分析方法主要有因子分析、聚类分析、对应分析及模糊聚类等。为研究揭示元素间共生组合关系,通常采用一种或多种方法组合,在此基础上进行更深层次的数据挖掘,例如:用衬度累加值和因子得分甚至用衬度累加值及因子得分的趋势面分析结果做成等值线图,提取更深层次的信息,研究元素共生组合关系,编制综合异常及成矿远景预测图等成果图件。

表3 各元素剔除特异值前后的地球化学参数对数值Table 3 Logarithmic values of geochemical parameters before and after removal of outliers for each element

图2 主要成矿元素含量频率分布直方图Fig.2 Histogram of frequency distribution of contents of main metallogenic elements

表4 Ag的频率直方图分组参数Table 4 Frequency histogram grouping parameters of Ag

本详查区以10种元素为变量,用全部数据做了R型因子分析,得到的结果有:相关系数、特征值、公因子方差、初始及正交因子载荷、斜交因子相关、结构及模型矩阵、正交及斜交因子得分等,限于篇幅在此不逐一列出,表7中列出了正交因子载荷。

图3 详查区Cu地球化学图Fig.3 Geochemical map of Cu in the survey area

从正交因子载荷所揭示的元素共生组合关系看,F1因子反映了详查区最主要的多金属矿化Pb-Zn-Ag组合;F2因子反映了W-Sn元素组合;Cu、Au、Mo、As及Sb等均为单独因子。

根据元素共生组合关系可知,用F1因子得分等值线图能较好地反映Pb-Zn-Ag综合异常(图7),将密切相关的三种元素衬度值累加,做成衬度累加值等值线图也可以作为Pb-Zn-Ag综合异常(图8),二者具有相似的应用效果。

表5 主要成矿元素的色阶上限值Table 5 Upper limit of color gradation of major metallogenic elements

图4 详查区Pb地球化学图Fig.4 Geochemical map of Pb in the survey area

图5 详查区Zn地球化学图Fig.5 Geochemical map of Zn in the survey area

图6 详查区Ag地球化学图Fig.6 .Geochemical map of Ag in the survey area

图7 详查区F1因子得分(PbZnAg)等值线图Fig.7 Contour map of F1 factor score (PbZnAg) in the survey area

表6 稳健统计得到的Cu的色阶上限值Table 6 Upper limit of color gradation of Cu obtained by robust statistics

详查区主要矿化或指示元素大致可以分成4组,据此可编制出各元素组合异常图(见图9)。

表7 详查区R型因子分析正交因子载荷Table 7 .R-type factor analysis of orthogonal factor loading for the survey area

3 结论

在勘查地球化学数据处理过程中,根据研究工作的需要,运用多种数理统计方法或方法组合,并在此基础上进行深层数据挖掘,提取更多的信息,编制各类成果图件是十分必要且有效的。

图8 详查区PbZnAg衬度累加值等值线图Fig.8 Contour map of accumulated contrast values of PbZnAg in the survey area

图9 详查区元素组合异常图Fig.9 Element association anomaly in the survey area

在实际工作中经常会遇到什么是更好的数据处理方法的困惑,在此要说明的是没有更好的方法,只有更合适的方法,应根据不同的工作目的和研究区大小,灵活选择或实验对比运用各种数据处理方法,以期取得更好的数据处理、综合研究及成果图件编制效果,进而提交高质量的成果报告,更好地完成各类勘查工作任务。

本文简述了多种数据处理方法的综合运用及其取得的效果,作者并结合工作实际编写了这些方法的计算机程序,希望能对同行们有所帮助与启发,文中不妥之处还请同行们批评指正。

猜你喜欢

等值线图直方图数据处理
统计频率分布直方图的备考全攻略
符合差分隐私的流数据统计直方图发布
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
用直方图控制画面影调
如何来解决等值线问题
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
利用ACAD线型编辑功能实现SURFER绘制等值线图的修改初探
基于直方图平移和互补嵌入的可逆水印方案
镇泾油田HH42P3井网格立体图的绘制应用