基于多源地球物理数据的机器学习方法在地质体分类中的应用
——以黑龙江多宝山矿集区为例
2022-08-31李希元崔健胡望水李成立
李希元,崔健,胡望水,李成立
1 长江大学地球科学学院,武汉 430100 2 江苏华东八一四地球物理勘查有限公司,南京 210007 3 中国地质调查局沈阳地质调查中心,沈阳 110034
0 引言
随着地质、地球物理大数据时代的到来及地质研究工作对地球物理大数据解释的不断深入,将机器学习与人工智能引入地质科学已经成为当前地质、地球物理大数据研究的热点,人工智能理论与地质、地球物理大数据的结合应用具有十分重要的意义(Wang,2007;林香亮等,2018;周永章等,2018;韩启迪等,2019).作为人工智能的核心,机器学习理论主要是研究计算机模拟或实现人类学习行为,从海量、多源、多维度的数据中寻找知识规律并建立学习模型,进而通过已获得的学习模型对其他数据进行分类与预测(杨午阳等,2019).
近年来,在机器学习中,支持向量机(Support Vector Machine,SVM)这种具有代表性的算法被广泛应用于地学及地球物理研究的各个领域.在岩性识别方面,采用机器学习的方法,利用岩石各组分的含量及标准岩性分类图版,实现了对岩石岩性的鉴定(杨佳佳,2012;付光明,2017;韩启迪等,2019;张昭杰和方石,2019);利用火山岩在地球物理方面所表现的重磁电震特征,通过支持向量机实现了对火山岩岩性的预测(张尔华等,2011;朱怡翔和石广仁,2013;柳成志和滕立惠,2014;牟丹等,2015;吴施楷和曹俊兴,2016);根据不同矿体赋存的地质环境结合有利成矿的地质与地球物理信息,应用机器学习的方法达到对矿体预测目的(向杰等,2019);在三维地质建模方面,机器学习方法也取得了较好的应用效果(郭甲腾等,2019).在地震大数据处理解释方面,人们将机器学习方法应用到初至波切除、地质层位追踪、断层自动检测、波形分类及岩相预测当中,不仅有效地提高了工作效率,而且大大地增强了地球物理资料处理成果的精度,进一步增强了地质解释成果的可靠性(邴萍萍等,2012;李建军和伦墨华,2018;周永章等,2018;蒋一然和宁杰远,2019).从以上可以看到,机器学习在众多领域得到广泛的应用并取得了较好的效果,多方面展示了机器学习理论在地学领域具有广泛的应用前景,不仅提高了工作效率,而且通过机器学习这种人工智能技术在地学各应用领域创新了地球物理处理与解释方法.
为便于地球物理资料的地质解释,常常通过反演将地球物理异常转换为刻画地下地质体的物性参数(张志厚等,2021),通过地质体的物性特征及分布规律实现单一或多源地球物理数据的地质解释(杨辉等,2002).通过对大量岩石物性数据统计可知,存在地球上的各类岩石的物性参数都不是唯一的,不同岩石种类的物性参数在数值上存在一定的交叠,因而利用单一物性参数所圈定的地质体及所确定的地质体的属性存在相当大的不确定性,从而降低了地质解释的可靠性,但具有物性交叠现象的地质体,对于同一地质体不同位置的物性数值在物性交会图上具有一定统计的聚类性(朱怡翔和石广仁,2013).
人们为了增强地球物理资料地质解释成果的可靠性,在同一地区采用多种地球物理方法进行勘探以便获得反映地下地质体不同物性特征的地球物理场,通过对多源地球物理场的反演获取反映地质体属性特征的密度、磁化率及电阻率,进而结合区域地质进行综合解释,以便增强地质解释的可靠性(郁军建等,2015).正像前面所说的那样,刻画与描述地质体特征的岩石物性在大多情况呈现交叠现象,这为应用多源地球物理场反演得到的独立物性参数(密度、磁化率、电阻率)综合圈定地质体及识别地质体的岩性带来极大的困难.
对多源地球物理资料的综合地质解释常常需要联合反演.一般的联合反演都是在两种地球物理资料之间进行(彭淼等,2013;彭国民和刘展,2020)或是人机联作最优化地质解释(陈建国,1991;周子阳等,2016;吴珍汉等,2021),至多是将一种能够确定地下地质结构的地球物理资料作为模型的约束或作为初始模型(例如,地震解释得到的构造界面或圈定的地质体),进一步通过人机联作的方式对其余两种地球物理资料进行联合反演与综合地质解释(汪在君等,2007;李德春等,2012;郭伟等,2014;汪洋等,2020),以期达到同一地质模型在给定不同的物性参数的情况下与所观测的地球物理响应或是异常达到统一(何展翔等,2005).在两种以上地球物理联合反演中,一般要求岩石物性之间具有一定的相互关系(陈晓等,2017),这种相互关系只能在一定程度上通过拟合多源地球物理异常改变地质体的形状以期提高地质解释的可靠程度,但还不能从本质上克服岩石物性具有交叠现象不具有定量相关关系的地质体属性特征的反演与地质解释(徐海波等,2006).近年来,多源地球物理联合反演有了较大的进展,研发了交叉梯度联合反演方法,这种方法不需要依赖不同物性参数间的岩石物性的定量关系,而是假设同一地下区域不同物性参数的空间结构分布完全相同或者部分相同.多源地球物理的交叉梯度联合反演有效的降低了地球物理资料的多解性,增强了多物性参数结构的耦合,改善了反演的准确性和稳定性,使得参与联合反演的地球物理方法的结果尽最大程度的具有反映地质体特征的物性结构的统一性,对于提高地质解释结果的可靠性、简化地质解释具有重要的意义(闫政文等,2020),但联合反演方法还不是对地质体存在物性交叠现象的多源地球物理资料的地质解释方法.
尽管可以通过对地球物理异常的反演得到反映地下地质体特征的物性参数(密度、磁化率、电阻率)的三维分布,但如何对客观存在物性交叠现象多源地球物理反演结果实现地质体的圈定与岩性的识别并减轻地质解释的复杂性,同时又增强地质解释的可靠性与客观性是摆在地球物理及地质工作者面前的重要课题,也是利用多源地球物理资料可靠圈定与识别地质体属性的关键所在.
虽然对于同一地质体的岩石物性(密度、磁化率、电阻率)一般不具有三者物性之间的定量相关关系,但同一地质体的物性在俩俩的交会图上却具有明显的统计聚类关系,为应用地质体物性参数开展多源地球物理的地质解释奠定了基础(杨建辉等,2013;甘之翔和张艺,2017;屈挺等,2021).
支持向量机是建立在结构风险最小化原则以及VC维(Vapnik Chervonenkis Dimension)概念基础上的一种专门针对小样本的统计学习理论上的分类方法,它属于有监督学习的模型,在有监督学习的情况下,每个样本训练数据都有一个标识值或结果值(左斌等,2018).支持向量机的这个特性符合利用具有统计聚类特征地质体物性参数的分类性质,从理论上完全能够用于对多源地球物理反演的密度体、磁化率体及电阻率体(以下简称物性三体)进行地质体的圈定及岩性判别的综合地质解释.
本文以利用多源地球物理数据进行多宝山矿集区3000 m地质结构研究为目的,从多源地球物理数据的地质解释出发,探索了采用支持向量机构建地质体分类解释模型,并利用物性三体进行地质体圈定及岩性识别的多源地球物理综合地质解释的方法.
1 多宝山矿集区区域地质特征
多宝山矿集区是我国重要的斑岩型铜钼矿成矿区,矿产资源较为丰富,矿集区北西段为矽卡岩型铜铁矿床与热液型铜钼矿,中段为斑岩型铜钼矿,南东段为热液型金矿,热液型和斑岩型矿床是重要的矿床类型.矿集区内多宝山组的安山岩及其碎屑岩中是斑岩型铜矿的重要矿源层,矿集区内斑岩型及矽卡岩型铜(钼)、铜(铁)矿床均与中奥陶统多宝山组有关,区域上,斑岩型铜矿体除以花岗岩作为赋矿围岩外,均无例外地赋存于多宝山组变安山岩及中性凝灰岩或凝灰砂岩中,多宝山组及铜山组最发育的地区也正是斑岩型铜矿床(点)密集分布区.著名的多宝山超大型铜钼矿、铜山大型铜矿和争光大型岩金矿(图1)就在该矿集区内.铜钼、金矿床的形成主要与早奥陶世岛弧岩浆活动有关(赵元艺等,2012).
图1 多宝山矿集区地质简图Fig.1 Geological sketch of the Duobaoshan ore concentration area
矿集区内产出的地质体主要为古生代地层和岛弧岩浆岩,中生代地层和岩浆岩出露较少.产出的地层主要有:下奥陶统多宝山组,呈大面积分布,主要由岛弧钙碱性中性-中酸性火山岩组成,为铜钼、金矿床成矿的主要母岩;下奥陶统铜山组,主要由弧间盆地浅海相中细粒砂岩、变粉砂岩、板岩组成;中奥陶统裸河组、上奥陶统爱辉组、志留纪黄花沟组为一套连续沉积地层,主要由弧间盆地浅海-半深海相砂岩、粉砂岩、板岩组成;下泥盆统泥鳅河组主要由弧间残余盆地浅海-半深海相粉砂岩、板岩组成;上三叠统清水河组不整合于多宝山组之上,主要由钙碱性中性火山岩组成;下白垩统光华组不整合于多宝山弧盆系之上,主要由钙碱性酸性火山岩组成;下白垩统九峰山组整合于下白垩统光华组之上,为一套断陷盆地含煤沉积建造,由砂岩、粉砂岩、泥岩及酸性火山碎屑岩组成(向安平等,2012).
矿集区内侵入岩以奥陶纪花岗闪长(斑)岩、英云闪长岩和中三叠世花岗闪长岩为主.奥陶纪花岗闪长(斑)岩、英云闪长岩分布面积较大,有多个岩体侵入多宝山组,少量闪长岩、闪长玢岩,为典型岛弧侵入岩,是铜钼矿成矿的主要岩浆岩;闪长岩、闪长玢岩、辉长岩规模较小,呈岩株和岩脉状侵入多宝山弧盆系.从早奥陶世-晚奥陶世均有侵入岩,以早奥陶世为主.中三叠世的侵入岩主要有花岗闪长岩、英云闪长岩、二长花岗岩和闪长岩,以花岗闪长岩分布面积最大,侵位于多宝山弧盆系边部,在侵入体边部的弧盆系中形成一系列韧变形带;其余分布零星,多以脉状产出(车合伟等,2015).
2 支持向量机模型构建理论
支持向量机是基于结构风险最小化原理的基础上,建立数学模型进行有限数据样本情况下的统计模式识别(吴施楷和曹俊兴,2016;林香亮等,2018;韩启迪等,2019;张昭杰和方石,2019),支持向量机的这一特性,为利用多源地球物理资料进行地质体的圈定与岩性识别奠定了理论基础.
支持向量机一个最重要的应用就是对数据集进行分类.下面从数学理论方面简要说明支持向量机对数据集的分类原理.首先定义一大小为m×n矩阵X及大小为m的向量Y.
X=[X1,X2,X3,…,Xi,…,Xm],
(1a)
Y=[y1,y2,y3,…,yi,…,ym],
(1b)
在利用支持向量机进行分类时,m为样本数,n为属性特征数,X为支持向量机的输入数据集,Xi为具有n个属性的特征向量,Y为标签变量,yi是Xi的分类标签,当数据集为二分类时,yi∈(-1,+1).在样本数据集为线性可分时,对于支持向量机二分类问题就会存在形如(2)式的一个超平面完全分开样本数据集.
W·X+b=0,(2)
式中:“·”是向量点积,W为n维超平面的法向量;b为位移项,决定了超平面与原点之间的距离.靠近超平面最近的特征向量离超平面的距离达到极限的超平面称为最优超平面.
最优超平面可以通过求解下面的二次凸规划问题来获得.
(3a)
yi(W·Xi+b)≥1,i=1,2,…,m.
(3b)
在样本数量较大的情况,可以利用(3)式二次凸规划问题的对偶问题(4)式加以求解(韩启迪等,2019).
(4a)
(4b)
(4c)
式中:α=(α1,α2,…,αm)是Lagrange乘子,W*是最优超平面的法向量,b*是最优超平面的偏移量.
=sign(W*·Xk+b*),(5)
式中:sign()为符号函数.根据f(Xk)的符号来确定样本Xk的分类类别.
对于线性不可分的分类数据集,不能再要求所有特征向量都满足约束条件yi(W·Xi+b)≥1.为此,这里对每个样本都引进一个松弛变量ξi≥0,把约束条件放松为:
yi(W·Xi+b)≥1-ξi.
(6)
(7)
这样就把线性不可分问题转化为如下的优化问题:
(8a)
yi(W·Xi+b)≥1-ξi,ξi≥0,i=1,2,…,m
(8b)
惩罚系数C在模型的复杂度和训练样本误差之间起到一种平衡的作用,合适的C参数能使训练模型具有较好的泛化能力.
为了利用超平面对非线性样本数据集进行分类,需要对样本数据集进行一些变换,将非线性样本数据集转化为线性样本数据集.为此将原空间中的非线性样本数据集T通过一个非线性映射转换到更高维的特征空间H中,使其在特征空间H中是线性可分的,从而在H空间中建立一个分类超平面(图2).设:Φ:T→Φ(T)={(Φ(xi,yi)|i=1,2,…,m},使得Φ(T)在H中是线性可分的.将(8b)式中的Xi换成Φ(xi)即可得到如下的最优化问题:
(9a)
yi(W·Φ(xi)+b)≥1-ξi,ξi≥0,i=1,2,…,m.
(9b)
图2 核函数变换示意图Fig.2 Schematic diagram of kernel function transformation
利用拉格朗日乘子法,并求解(9)式的对偶问题(10)式.
(10a)
(10b)
在(10a)式中,Φ(x)总是以内积(Φ(xi).Φ(xj))的形式出现,所以只需从总体上定义一个函数K(xi,xj),并使K(xi,xj)=(Φ(xi).Φ(xj)),称K(xi,xj)函数为核函数.核函数将原空间样本非线性数据集转换到高维特征空间H中的线性数据集,使其在高维特征空间H中实现线性可分.本文应用的是(11)式的径向基函数(Radical Basis Function, RBF).
(11)
式中σ为带宽,σ>0.
在利用支持向量机对具有非线性样本数据集进行分类模型的构建时,确定(C,σ)这两个关键参数对于提高模型分类的准确性和泛化能力具有重要的作用.
本文采用网格搜索寻优法来确定最优的(C,σ)参数.网格搜索法是将C和σ分别取M个值和N个值,对M×N个(C,σ)的组合分别进行训练.对于每一组(C,σ)参数,将样本数据集分为K份,其中K-1份作为训练集,另一份作为测试集,并将K次的平均交叉验证识别率作为该组(C,σ)参数的学习精度.扫描M×N个(C,σ)参数,选取学习精度最高的一组为构建分类模型的(C,σ)最优参数.
基于上述支持向量机的二分类理论就能解决支持向量机进行样本数据集的多分类问题(苟博和黄贤武,2006).支持向量机进行样本数据集的多分类有多种方法,一对一分类是常用的多分类方法.
所谓的一对一分类法就是在共有B个不同类别训练集T中找出P=B(B-1)/2个不同类别的两两组合,分别用两两组合的类别样本组成两分类问题训练集T(i,j),然后用求解两分类问题的SVM分别求得P个判别函数fi,j(X).判别时将第K个需要分类判别的特征变量Xi分别代入P个判别函数fi,j(Xk),若fi,j(Xk)=+1判x为i类,i类获得一票,否则判为j类,j类获得一票.分别统计k个类别在P个判别函数结果中的得票数,得票数最多的类别就是最终判定的类别(Moreira and Mayoraz,1998;Cutzu,2003;Debnath et al.,2004),以此达到对样本数据集进行多分类的目的.
3 多宝山矿集区综合地球物理资料的获取与反演及岩石物性样本采集与分析
为了探索利用多源地球物理场采用支持向量机方法进行地质体圈定与岩性识别的应用效果,在多宝山铜(金)矿集区选择了长12 km,宽7 km的一长方形重点区域作为方法探索的试验区并开展了高精度重力及三维广域电磁法勘探,两者勘探网度均为150 m×150 m,在重点区外围还部署了总长度130 km的二维重力、电法剖面.在研究区内共采集重力坐标点5048个、广域电磁法测量坐标点4614个,获取了面积性高精度重力及高质量的三维电法测量资料,重力总精度为±0.032×10-5mGal,电阻率相对误差为±3.8%.此外,1∶25000的高精度航磁覆盖整个矿集区,磁力总精度为±4.3 nT.这些资料的取得不仅为多宝山矿集区3000 m地质结构的基础研究,而且也为应用多源物理场采用支持向量机探索地质体的圈定与岩性识别及进行矿集区深部地质结构研究奠定了可靠的资料基础(图3、图4、表1).
图3 多宝山矿集区高精度重力勘探测点分布图Fig.3 Distribution map of high precision gravity prospecting points in Duobaoshan ore concentration area
图4 多宝山矿集区广域电磁法勘探测点分布图Fig.4 Distribution map of WFEM (Wide Field Electromagnetic Method) prospecting points in Duobaoshan ore concentration area
表1 矿集区重磁电资料采集工作量统计表Table 1 Statistical table of gravity,magnetism and electricity data collection workload in ore concentration area
为了更全面、系统的分析和研究地层岩石的物性特征及变化规律,以便认识重磁电异常的成因及对重磁电异常进行综合地质解释,依据区域地质图,在基本涵盖了多宝山地区地层及不同岩性侵入体的100处露头共采集物性样本974块.为了解岩(矿)石随深度的变化特征,在矿集区已钻探井中,选取了钻井深度较大、钻遇地层及矿石种类较多、具有代表性的6口钻井,采集了包括含矿岩石的260块岩心样本进行了密度、磁化率、电阻率测定.对测定结果进行了分组统计分析,获得符合正态分布的特征值作为岩石样本的物性测定值,依据测定分析结果对物性按岩性、时代、矿化等分别进行了统计分析.将多宝山矿集区的岩石物性按地层组与岩体分别绘制了密度、磁化率、电阻率区间分布图(图5、图6),从图5、图6可以清楚地看到,同一地层或岩体的岩石物性数值具有较大的分布区间,各不同的地层组或岩体之间的物性呈现明显的交叠现象,根据矿集区的岩石物性统计结果总结了各类地质体的岩石物性响应特征(表2).
表2 矿集区地质体物性响应特征Table 2 Characteristics of physical properties response of geological body in ore concentration area
将所取得的矿集区三维高精度重磁电资料进行了一些必要的预处理工作,在经过航磁化极处理及矿坑重力异常效应校正的基础上,分别对磁力及重力进行了诸如滑动趋势分析、小波多尺度分解、匹配滤波等多种重磁异常的分离处理工作,得到了反映地下3000 m以浅地质体所产生的重磁异常效应,对广域电磁法资料进行了静电校正处理.将经过预处理的重磁电资料采用确定性非线性共轭梯度重磁电三维物性反演方法完成重磁电资料的三维反演并获取了反映地下三维地质体结构特征、用于开展支持向量机进行地质体分类的物性三体(图7).
图5 矿集区地层物性分布图Fig.5 Physical distribution map of formation in ore concentration area
图6 矿集区岩体物性分布图Fig.6 Physical distribution map of rock mass in ore concentration area
图7 多源地球物理数据三维网栅图(a) 三维反演密度数据体; (b) 三维反演磁化率数据体; (c) 三维反演电阻率数据体.Fig.7 3D grid diagram of multi-source geophysical data(a) 3D inversion density data volume; (b) 3D inversion susceptibility data volume; (c) 3D inversion resistivity data volume.
4 支持向量机在多宝山矿集区多源地球物理场地质解释中的应用效果分析
4.1 支持向量机分类样本的选取及各类地质体的多源物性参数响应特征
试验样本是模型建立与效果检验的基础,获取具有代表性的样本对于利用支持向量机应用物性三体进行地质体的圈定与岩性识别结果的合理性具有重要的意义.为了获取优质的训练样本,收集了多宝山矿集区内的钻孔岩心、勘探线地质剖面以及浅层地质模型资料.基于所搜集到的地质资料及对矿集区深部地质结构、岩体识别、成矿地质体规律研究的目的,将多宝山矿集区内的地层和岩体共划分为如表2所示9个大类,能够满足矿集区地质成果表达对地球物理解释的需要.
为了解每类地质体的多源地球物理参数响应特征,优选了246个能够代表9大类地质体的样本,并依据样本的三维空间坐标通过三维普通克里格插值方法从物性三体中提取了表征样本所代表地质体类别的密度、磁化率及电阻率值(表3).将各大类地质体样本的物性参数绘制了密度-电阻率、磁化率-电阻率交会图(图8).因多宝山组是矿集区重要的铜(钼)矿成矿地层,特别利用117个与成矿关系密切的多宝山组样本绘制了密度-电阻率、磁化率-电阻率交会图(图9).从图8、图9可以看到,研究区内多期次的岩体,其多源参数的响应特征具有很强的聚类性和规律性,可以通过密度、磁化率、电阻率参数加以区分.在地层方面,前奥陶系具有“高密度、强磁性、高电阻率”特征,铜山组具有“高密度、弱磁、中等电阻率”特征,与其他地层有明显区分的物性差异,特别是与成矿关系密切的多宝山组在物性交会图上的聚类效果更佳.各地质体物性在交会图上显著的聚类性,为利用物性三体采用支持向量机进行圈定地质体及岩性的判别的综合地质解释奠定了重要的基础.需要说明的是:受磁性矿物含量不同的影响,中奥陶世岩体磁性差异较大,本文将其分为磁性偏强和磁性偏弱两类.
图8 地层和岩体多参数交会图Fig.8 Crossplot of strata and rock mass with multiple parameters
图9 多宝山组多参数交会图Fig.9 Multi-parameter crossplot of Duobaoshan Group
表3 部分训练样本的多源参数值及分类编码Table 3 Multi-source parameter values and classification coding of part of training samples
4.2 多宝山矿集区支持向量机模型的构建及矿集区地质体分类预测
4.2.1 多宝山矿集区支持向量机分类模型的构建过程
(1) 样本参数的归一化处理
根据钻孔及区域地质资料,优选用于构建支持向量机模型的样本,依据优选出样本的三维坐标物性三体样本参数,每个样本包含密度、磁化率、电阻率三个物性参数及岩石类型分类标志等四个参数值.由于反映地质体物性特征的物性三体参数的量纲不同,以至于在数值上存在数量级上的差异,为了避免在支持向量机模型构建及识别过程中数据计算量大及消除个别奇点的影响,需要对数据进行归一化处理,以便达到各类输入数据之间的平衡.因此,在获取了高质量的训练样本后,对物性三体参数进行归一化处理,采用的处理方法为:设训练样本数据的某一个特征参数(或密度,或磁化率,或电阻率)集为xp(p=1,2,…,m),定义该特征数据的最大值和最小值分别为xmax=max{xp},xmin=min{xp},将xp归一化到[0,1]区间的公式为:
(12)
(2)选取核函数
选取径向基核函数,将低维空间的特征变量(物性三参数)映射到高维空间.
(3)样本加权处理
基于样本对SVM 分类模型最大分类间隔的贡献,为进一步改进对分类模型的学习,采用一种自适应样本加权方法.通过给样本赋予不同权值有利于提高SVM分类器潜在正确分类能力与整体分类性能.对样本的加权实际上有两部分:一是惩罚系数C;二是为每个样本通过自适应算法按对分类模型的贡献赋予不同的权值.在自适应赋予权值的算法中,充分考虑了训练样本不平衡的情况及分类样本对训练模型泛化能力的影响(郑玮,2016;曹万鹏等,2018).
(4)支持向量机分类模型的构建
利用优选的地质体分类样本构建了利用物性三体进行地质体圈定及岩性识别的模型.在构建模型的过程中,按给定的范围应用网格搜索方式采用粗-细网格相结合的方法有规律的扫描σ与C并精确地确定这两个参数,以便获得具有最大泛化能力的训练模型.图10、图11与图12展示了随σ与C的变化,识别模型及判别准确率也随之变化的过程.从参数寻优过程可以看出,随着径向基函数带宽σ以及惩罚系数C的改变,交叉检验的正确率也随之有规律的变化,交叉验证正确率81.6%的最高值出现在惩罚系数C较小的一组参数上[log(C),log(σ)]=[2,6](图11).根据不同带宽σ和惩罚系数C的组合,提取了交叉检验的正确率由低到高的4个预测结果(图12),从图12中的a、b、c、d(交叉验证正确率分别为36.7%、46.9%、57.1%、77.6%)的顺序可以看出,预测结果细节逐渐丰富,各类地质体边界逐渐清晰,与每种地质体的物性特征匹配程度更高.依据交叉验证正确率最高值为81.6%的(C,σ)重新构建了用于多宝山矿集区多源地球物理资料解释的分类预测模型.
图10 参数寻优模拟图Fig.10 Parameter optimization simulation diagram
图11 寻优参数变化与交叉验证正确率关系图Fig.11 The relationship between optimization parameter variation and cross validation accuracy
图12 寻优过程识别模型变化示意图(a) 寻优参数组合为σ=2-3, C=2-3; (b) 寻优参数组合为σ=2-1, C=2-1; (c) 寻优参数组合为σ=2-2, C=20; (d) 寻优参数组合为σ=25, C=23.Fig.12 Schematic diagram of model change identification during optimization process(a) The optimization parameter combination is σ=2-3, C=2-3; (b) The optimization parameter combination is σ=2-1, C=2-1; (c) The optimization parameter combination is σ=2-2, C=20; (d) The optimization parameter combination is σ=25, C=23.
4.2.2 多宝山矿集区地质体分类预测
根据所构建的用于多宝山矿集区多源地球物理资料解释的分类预测模型,对多宝山矿集区的物性三体进行了地质体分类预测,获得了多宝山矿集区从地表至海拔-3000 m范围内的三维地质体分类结果(图13).从地质体分类预测结果三维空间分布图(图13)可以看出,中生界及上奥陶统分布在浅部,深部以岩体和前奥陶系为主(图13a、图13b),大规模的岩体主要分布在研究区的北部及东南部(图13c),地质体圈定与岩性识别的结果与多宝山矿集区的地层与岩体分布的区域地质特征是吻合的.
图13 预测结果三维空间分布图(a) 三维立体图; (b) 三维栅格图; (c) 三维岩体分布图.Fig.13 3D spatial distribution of the predicted results(a) 3D stereogram; (b) 3D raster diagram; (c) 3D rock mass distribution diagram.
为了说明利用物性三体采用支持向量机进行地质体分类预测的效果,从物性三体与三维预测地质模型中切取了密度、磁化率、电阻率及二维地质剖面(图14d),从剖面图可以看出,剖面地质结构分为两个部分,左侧以地层为主,右侧以岩体为主,剖面浅部散布着中生界与上奥陶统,其他地层大致呈层状展布,岩体则呈团块状.除闪长岩外,其余岩体对应的(图14a、图14b、图14c)基本上为低密度、强磁性、高电阻率区域,与本区实测的岩体物性特征一致.
图14 预测结果二维剖面图(a) 重力三维反演数据体切片; (b) 电法三维反演数据体切片; (c) 磁力三维反演数据体切片; (d) 预测地质体分类切片.Fig.14 2D profile of the predicted results(a) Section of gravity 3D inversion data; (b) Section of electrical 3D inversion data; (c) Section of magnetic 3D inversion data; (d) Prediction of geological body classification sections.
图15 地质体分类预测模型正演场与实测场对比图(a) 实测重力场经处理后得到的布格重力剩余异常场; (b) 地质体分类预测模型正演重力场; (c) 实测航空磁力场经处理后得到的磁力剩余异常场; (d) 地质体分类预测模型正演磁力场.Fig.15 Comparison of forward field and measured field of geological body classification prediction model(a) Bouguer gravity residual abnormal field obtained after the measured gravity field is processed; (b) Forward gravity field derived from the geological body classification prediction model; (c) The residual magnetic anomaly field obtained after the measured airborne magnetic field is processed; (d) Forward magnetic field derived from the geological body classification prediction model.
4.3 预测地质体模型的可靠性及对其可靠性影响因素的分析讨论
为了进一步验证地质体分类预测结果的可靠性,在利用支持向量机得到地质体分类预测模型后,对分类地质体填充了相应密度与磁化率的平均值并正演了地质体预测模型的重力与磁力异常(图15b、图15d),从整体上看,图15b、图15d和实测的重磁异常(图15a、图15c)具有很强的相似性.由于实际分类地质体的密度和磁化率在空间上是变化的,因此,实测的重磁异常与正演的预测模型重磁异常必然存在差异.
应用支持向量机对多源地球物理地质解释的可靠性不仅取决于样本的代表性,还与以下因素有关.
(1)重磁电三维反演结果对地质体的分辨能力,尤其是提高对深层地质体的分辨力;
(2)对实际地质体岩性鉴别的准确性直接影响已知样本所代表地质体类别的可靠性,原则上同一地区的同类地质体的岩石物性具备统计的聚类性,但由于地质体鉴别的不可靠性,在一定程度上直接影响选取样本的代表性,对预测地质体的可靠性带来影响.
总的来说,通过对多宝山矿集区多源地球物理资料的地质解释,展示了支持向量机在多源地球物理地质解释中具有以下三点优势.
(1)实现了多种地球物理资料(不局限于重磁电三种)的快速有效的地质解释;
(2)利用在样本类别约束下所建立的支持向量机智能模型简化了对存在地质体物性交叠资料的地质解释,实现了对地质体的圈定与岩性分类;
(3)突破了利用多源地球物理剖面进行人工比对进行三维地质解释的局限,快速实现了多源地球物理资料的三维地质解释.
总之,本次基于多源地球物理数据的支持向量机预测得到的地质体分类模型具有较高的可靠性,实现了通过多源地球物理场所反演的物性三体,采用支持向量机对地质体圈定及岩性识别地球物理资料综合地质解释的目标,为多源地球物理场的综合地质解释提供了有效的方法技术手段.
5 结论
在多宝山矿集区,通过利用多源地球物理资料,采用支持向量机方法对地质体圈定与岩性识别所取得较好的应用效果,得出以下结论:
(1)岩石物性参数的交叠现象及地球物理资料反演的物性参数的连续性及非唯一性是引起地质解释成果不可靠的重要因素.
(2)地质体鉴别的可靠性及准确分类与同类地质体岩石物性的代表性对预测地质体的可靠性产生一定的影响,提高重磁电对深层地质体的分辨力是另一制约地质体预测可靠性的因素.
(3)机器学习是多源地球物理大数据地质解释的有效技术手段,也是未来多源地球物理数据地质解释的发展趋势.
(4)在浅部区域地质及钻井的约束下,选取兼顾深浅地质体物性特征具有代表性分类地质体的样本,是决定利用多源地球物理数据,采用机器学习进行地质体圈定与岩性识别应用效果优劣的关键因素之一.
(5)为提高判别模型的泛化能力,选取合适的核函数并通过反复训练模型获取最优参数,足够数量的交叉验证样本对于避免过拟合,获得合理的判别模型至关重要.
(6)为利用多源地球物理数据所反演的物性数据体进行综合地质解释,机器学习方法开辟了新的途径,提供了多源地球物理综合地质解释的新思路,具有广阔的应用前景.
致谢撰写本文的过程中得到了中国地质调查局沈阳地质调查中心朱群研究员、杨晓平正高级工程师、邵军研究员、许逢明博士等人的指导,在此一并致谢.