基于语义分割深度学习的找矿靶区预测研究—以广东省阳江-茂名地区为例
2023-10-08贾黎黎朱世博王建荣胡飞跃
贾黎黎,朱世博,王建荣,胡飞跃
(广东省地质调查院,广东广州 510080)
0 引言
过去的几十年中,地球化学异常一直在矿产勘探领域发挥着日益重要的作用(Cohen et al.,2010;Grunsky,2010;Zuo and Wang,2016;梁鸣等,2022;郭小刚等,2023)。随着深度学习技术的不断发展和普及,其在地球化学数据分析和找矿预测中的应用也越来越受到人们的关注(Xiong and Zuo,2020;Luo et al.,2020;钟羽等,2022;李沐思等,2023)。
相比传统的机器学习方法,深度学习方法在处理多源、异构、高维、高计算复杂度及高不确定性数据方面具有独特的优势,能够更有效地从中挖掘矿床与数据之间的深层次相关性(左仁广,2019)。目前,国内外研究者针对地球化学异常识别及矿产远景预测的深度学习方法主要分为卷积神经网络(刘艳鹏等,2018;Li et al.,2018;蔡惠慧等,2019;邓浩等,2020;Li et al.,2020;Sun et al.,2020)、生成对抗网络(Zhang and Zuo.,2021;Li et al.,2022)和深度自动编码器(Xiong and Zuo,2016;Xiong et al.,2018;Chen et al.,2019;Zhang et al.,2019;Luo et al.,2020)三类。这些方法能够自动从多源找矿信息中提取高级特征,并实现大规模数据表征。
尽管众多学者已经在探索如何将深度学习更好地运用于找矿预测,并取得了一系列成果,但目前仍存在一些尚未解决的问题:(1)深度神经网络(DNN)深度学习只能建立采样点与预测点之间的数据联系,但是无法建立空间结构关系。在找矿预测中,单点异常并不意味着区域异常,以单点异常来表征区域性异常通常会引起误判,因此在区域性找矿靶区预测方面效果欠佳。(2)卷积神经网络深度学习模型解决了数据结构的空间关系问题,但是由于地球化学数据的局部空间特征提取对卷积尺度设定较为敏感,卷积尺度设置过小时,卷积核会提取到异常的空间结构,尺度过大时卷积核会提取混合背景的空间结构,窗口过大过小都会对预测结果产生重要影响,目前并没有科学的方法确定对找矿预测最有效的卷积窗口大小。
为提高深度学习技术在地球化学异常找矿中应用的深度及效果,需要解决的关键问题是如何通过融合多源地质环境数据来识别异常区位的空间结构特征。语义分割模型作为卷积神经网络的提升,采用了上采样、下采样、池化和注意力机制等方法来增强卷积窗口的有效感受野,以尽可能缓解训练精度受窗口大小的限制。这样可以有效地识别出数据中重要的异常特征,从而显著提高预测精度。目前语义分割深度学习方法已广泛应用于医学成像、自动驾驶、机器人导航、虚拟现实、遥感测绘等领域,成为计算机视觉和计算机图形学领域的一个重要研究课题(Long et al.,2015;Huang and Wu,2022;Maji et al.,2022),但很少利用于成矿靶区预测中。鉴于此,本文融合地球化学数据、地层岩性数据、地质构造数据及DEM数字高程数据组成多维地质环境数据集,以UNet、SegNet、PSPNet三种语义分割作为主要技术手段,对比3种模型对本区数据集的训练效果并选择最优模型开展广东省阳江-茂名地区找矿靶区预测工作。
1 研究区概况与数据处理
1.1 研究区概况
研究区地处广东省西南部,大地构造上属华南褶皱系,涉及范围横跨云开大山隆起及粤中凹陷两个构造单元。地层由老至新有元古界、寒武系、奥陶系、泥盆系、石炭系、二叠系、三叠系、侏罗系、白垩系、古近系、新近系及第四系。区内地质构造在后加里东时期受新华夏构造体系改造,多呈北东或近北东走向。发育两个规模较大的向斜褶皱,分别为阳江新洲桐迳至合山那崖一带向斜褶皱和茂名合江向斜。北东向断裂构造发育,主要有:四会-吴川大断裂、信宜-廉江断裂、金垌-河唇断裂、丽岗-笪桥断裂、大潮-曹江断裂、清湾-平定断裂、织簧断裂、温泉一海陵断裂、白石-那湖断裂(图1)。其中四会-吴川大断裂、信宜-廉江断裂对本区成矿起重要作用,自外向内可划分为以铁为主、硫金铜、铅锌银为主的三带,具有对称性。
图1 广东省阳江-茂名地区地质图Fig.1 Geological map of the Yangjiang-Maoming area in Guangdong Province1-大湾镇组;2-桂州祖;3-礼乐组;4-黄岗组;5-北海组;6-高棚岭组;7-老虎岭组;8-尚村组;9-黄牛岭组;10-油柑窝组;11-上垌组;12-铜鼓岭组;13-三丫江组;14-三水组;15-叶塘组;16-罗定组;17-百足山组;18-帽子峰组;19-天子岭组;20-春湾组;21-东坪组;22-东岗岭组;23-信都组;24-桂头群;25-老虎头组;26-杨溪组;27-云开岩群;28-白垩系侵入岩;29-侏罗系侵入岩;30-三叠系侵入岩;31-二叠系侵入岩;32-石炭系侵入岩;33-泥盆系侵入岩;34-志留系侵入岩;35-奥陶系侵入岩;36-南华系侵入岩;37-青白口系侵入岩;38-混合花岗岩;39-混合岩;40-实测断层;41-推测断层;42-水系;43-行政界限;44-研究区范围1-Dawanzhen Formation;2-Guizhou Formation;3-Lile Formation;4-Huanggang Formation;5-Beihai Formation;6-Gaopengling Formation;7-Laohuling Formation;8-Shangcun Formation;9-Huangniuling Formation;10-Youganwo Formation;11-Shangdong Formation;12-Tongguling Formation;13-Sanyajiang Formation;14-Sanshui Formation;15-Yetang Formation;16-Luoding Formation;17-Baizushan Formation;18-Maozifeng Formation;19-Tianziling Formation;20-Chunwan Formation;21-Dongping Formation;22-Donggangling Formation;23-Xindu Formation;24-Guitou Group;25-Laohutou Formation;26-Yangxi Formation;27-Yunkai rock group;28-Cretaceous intrusive rocks;29-Jurassic intrusive rocks;30-Triassic intrusive rocks;31-Permian intrusive rocks;32-Carboniferous intrusive rocks;33-Devonian intrusive rocks;34-Silurian intrusive rocks;35-Ordovician intrusive rocks;36-Nanhua System intrusive rocks;37-Qingbaikou System intrusive rocks;38-migmatitic granite;39-migmatite;40-measured fault;41-inferred fault;42-river system;43-administrative boundaries;44-boundary of study area
本区成矿作用主要受晋宁期大地构造控制。区内矿产有高岭土、油页岩、铁、铜、锡、磷矿、钼矿、铅锌矿、稀土矿、金矿、钨矿、水泥用灰岩及矿泉水、地下热水等。其中铁、金、铜、高岭土为本区分布面积最大、储量最高的矿种,全区共有69个此类矿点,其中包含31 个铁矿点、12 个铜锌矿点、20 个金矿点及6个高岭土矿点。铜矿类型主要为矽卡岩型及斑岩型;金矿类型主要为河台式破碎带蚀变糜棱岩型;铁矿类型主要为大冶式矽卡岩型;高岭土矿类型主要有沉积岩风化残坡积型及花岗岩质岩石风化残积型。
1.2 化探数据处理及异常分析
研究区收集到的数据为1∶25 万区域地球化学调查数据,其地球化学分析指标为W、Sn、Bi、Mo、Be、Li、Rb、Nb、U、Th、Zr、Y、La、Au、Ag、Pb、Zn、Hg、As、Fe、Mn、Co、Al、Mg、Si、Na、Ca、K 等28 种元素。从研究区28种原始地球化学基本统计参数看出(表1),研究区元素分为如下几类:(1)弱变异(变异系数<0.25):均匀分布型元素较少,仅SiO2。(2)中等程度变异(0.25≤变异系数<0.5):元素以较均匀分布型为主,包括Y、Zr、Al2O3、Nb、La等5个元素,这些元素区域背景值总体上含量起伏变化不大。(3)强度变异型(0.5≤变异系数<0.75):强度变异型元素包括Fe2O3、Li、Th、Hg、U、Sn、Zn、MgO、Pb、Be、K2O、Ag、Mn 等13 种元素。该组元素区域上含量起伏较大,分异特征明显。(4)高度变异(0.75≤变异系数<1):高度变异型元素包括Na2O、Rb、W、Co、CaO。该组元素在不同地质背景及不同自然环境区含量差异较大,区域地球化学场表现为在多个生态环境区呈现富集或异常区(带)的不均匀分布特征。(5)极度变异(变异系数≥1):极度变异型元素有Bi、As、Mo、Au。该组元素在区域地球化学场表现不均匀分布特征,在多个生态环境区呈现富集或异常。
原始的地球化学数据存在数据变量单位差异及变量间数据集差异等问题。为了尽可能地表征数据特征,提高预测的精度,本文对化探数据进行归一化处理,即经处理后用0~1 之间数值来表征原始数据特征,其次用栅格叠加运算的方式表征地球化学元素组合异常特征。
由研究区元素异常分布图可见(图2),Fe2O3异常主要分布在高州市北部、化州市西部,出露地层为早中泥盆世老虎头组、信都组、中泥盆世东岗岭组、晚泥盆世-早石炭世天子岭组、帽子峰组和石橙子组及元古代云开群及青白口系侵入岩。Cu、Pb、Zn 综合异常分布在高州市北部、化州市西部、阳江市东部,出露地层为赋矿地层为泥盆统信都组、东岗岭组、天子岭组、老虎头组及元古代云开岩群,其次为燕山期侵入岩。Ag、Au综合异常主要分布在化州市南部、电白区南部及阳江市东北部,主要出露地层为中元古代云开岩群。Al2O3、MgO、SiO2、CaO、K2O 综合异常主要分布在电白区中部、阳江市东部及高州市北东部,出露地层主要为有中新统尚村组、中新统-上新统老虎岭组、上新统高棚岭组及中元古代云开岩群及青白口系侵入岩。该异常特征可为靶区圈定提供一定依据。
图2 研究区元素异常分布图Fig.2 Distribution of element anomalies in the study area
2 语义分割深度学习模型
卷积神经网络(Convolutional Neural Network,简称CNN),是一种可以自动从图像和其他类型的大数据中学习表示的深度学习模型。它可以通过多层卷积和池化操作来提取输入图像中的特征,然后使用全连接层进行分类或回归等任务。与传统的神经网络相比,卷积神经网络模型具有更强的可解释性及更好的利用性能(李炳臻等,2021;张菊和郭永峰,2021)。相比较传统卷积神经网络模型,语义分 割 模 型(Semantic Segmentation with Deep Learning)更加注重像素级别的分类,将图像分割成若干个像素类别,每个像素点都对应一种类别标签。与物体识别不同,语义分割不仅需要标记出物体的边界,还需要准确刻画内部物体的区域。因此,语义分割模型需要更为复杂的网络结构和更高的计算效率,以实现精准的图像分割效果。此外,在应用场景上,语义分割广泛应用于计算机视觉、自动驾驶和医学图像处理等领域(赵霞等,2019;何家峰等,2023)。
目前常用的语义分割模型有多种,其中比较流行和常用的模型包括:U 型网络(UNet)、编码器-解码器网络(Encoder-Decoder)、空洞卷积网络(DCN)、语义分割神经网络(SegNet)、金字塔空间池化网络(PSPNet)以及深度拉普拉斯金字塔网络(DeepLab)。本文选取了UNet、SegNet、PSPNet 模型进行找矿靶区预测,这三种模型均是深度学习中用于图像分割的经典模型(图3)。在找矿靶区预测任务中,模型可以有效提取地质图像中重要的特征信息,为矿区的预测和分析提供有力支持。其中UNet模型是一种基于卷积神经网络的全卷积网络,它的设计灵感来自于生物学的图像重建过程。这种模型可以通过上采样和下采样的过程,逐步提取出图像中的局部特征和全局特征,从而实现高质量的图像分割(Ronneberger et al.,2015)。SegNet 模型也是一种全卷积网络,但是它使用了一种特殊的编码器解码器结构,可以有效解决深度学习中的过拟合问题。这种模型在医学图像分割和自然图像分割中都有出色表现,因此在找矿靶区预测任务中也有很大的潜力(Zhao et al.,2017)。PSPNet模型是一种基于金字塔池化的深度学习网络,它可以利用多个尺度的特征信息来进行图像分割。这种模型在自然图像分割中取得了非常好的结果,因此也可以应用于找矿靶区预测任务中(Badrinarayanan et al.,2017)。
图3 语义分割模型框架结构图Fig.3 Framework structure diagrams of the semantic segmentation models
3 模型评估
3.1 训练样本制作
本区成矿元素较多,包括W、Sn、Bi、Mo、Be、Li、Rb、Nb、U、Th、Zr、Y、La、Au、Ag、Pb、Zn、Hg、As、Fe、Mn、Co、Al、Mg、Si、Na、Ca、K 等28 种元素。本次研究利用这些元素测试结果制作地球化学异常图,并结合地质构造图、地层岩性图、DEM 数字高程影像等重采样成500 m×500 m 空间尺度的图像,最后打包组成一幅包含31 个维度信息的高维度图像。通过已有矿区资料制作样本标签,其中标签内容包括背景、铁矿、铜矿、高岭土矿、金矿等分别用0、1、2、3、4等数字代替文本内容,最后重采样生成500 m×500 m 空间尺度的标签图像。基于Python 平台利用Gdal、Numpy 库等,将训练样及标签分别裁剪成32×32窗口大小的训练集,共制作了包含3866个训练样本及标签的训练集,并按照3∶1 比例分成训练数据及验证数据。
3.2 模型评估
为评估语义分割模型性能,我们使用了两个广泛应用于图像分割领域的标准评估指标,分别是Mean IoU(平均交并比)和Pixel Acc(像素准确率):
式中nij为类别i被预测成类别j的数量;ncls为目标类别个数;ti为目标类别i数量;nii为类别i预测正确数量;nji为类j被预测成类别i的数量。主要模型参数epochs=500、batch_size=20,选择Callback 函数当loss<0.02时进行回撤。
评估结果表明(表2),PSPNet模型在Mean IOU和Pixel Acc精度方面都优于UNet与SegNet模型;在训练时长方面,PSPNet、UNet、SegNet每次迭代耗时分别为25 s、1 s、2 s(RAM容量8G、显卡型号NVIDIA GeForce 940MX)。PSPNet模型虽然在耗时方面较长,但是由于它引用了金字塔池化机制,可以获得多种不同尺度的特征信息,从而可以更好地覆盖不同大小的目标物体,其次在设计上更注重场景信息,可以更好地捕捉输入图像中的上下文信息,对于具有复杂背景或多个目标物体的场景,可以获得更好的分割结果。
表2 模型精度评估表Table 2 Evaluation of model precision
4 讨论
本文选择最优模型PSPNet进行找矿靶区预测,在Python 中利用Numpy 库对研究区数据集进行矩阵化生成多维矩阵数据,将模型训练结果对矩阵数据进行运算,并利用Gdal 库对矩阵运算结果栅格化输出预测结果栅格图,在ArcGis 软件中将栅格图矢量化,并叠加矿点及成矿带数据绘制找矿靶区预测图(图4)。预测结果显示全区69 个矿点种有14 个矿点不在预测靶区中,其中金矿数量为6个、铁矿数量为5个,铜矿数量为2个,高岭土矿为1个,整体识别精度达到了79.7%,其中金矿、铁矿、铜矿、高岭土矿的识别精度分别为70%、83.8%、83.3%、83.3%,此外也预测出了21个目前未有查明矿点的找矿靶区。
图4 基于PSPNet语义分割的深度模型找矿靶区预测图Fig.4 Prediction of prospecting target areas based on PSPNet semantic segmentation in deep model1-Ⅳ级成矿带;2-Ⅲ级成矿带;3-铁矿点(查明);4-铜矿点(查明);5-金矿点(查明);6-高岭土矿点(查明);7-金矿(预测靶区);8-铁矿(预测靶区);9-铜矿(预测靶区);10-高岭土矿(预测靶区)1-grade IV metallogenetic belt;2-grade III metallogenetic belt;3-iron ore spot(identified);4-copper ore spot(identified);5-gold ore spot(identified);6-kaolinite ore spot(identified);7-gold(predicted target area);8-iron(predicted target area);9-copper(predicted target area);10-kaolinite(predicted target area)
铁矿(1-1),位于III-85-2 云浮-信宜Au-Ag-Cu-Pb-Zn-Fe-Sn-Mo-Mn-硫铁成矿带。赋矿地层为早中泥盆世老虎头组、信都组、中泥盆世东岗岭组、晚泥盆世-早石炭世天子岭组、帽子峰组和石橙子组,为碳酸盐岩建造。地质构造上属岩体与围岩接触带,接触变质岩发育,形成大理岩、角岩、钙矽卡岩、镁矽卡岩。成矿时期为中侏罗世、早白垩世。金属矿物主要为磁铁矿、锡石、赤铁矿、黄铁矿、磁黄铁矿,见Fe2O3、Cu、Zn、Mo、Sn三级化探异常分带。
铁矿(1-2~1-8),位于III-85-2云浮-信宜Au-Ag-Cu-Pb-Zn-Fe-Sn-Mo-Mn-硫铁成矿带及III-85-3 阳春-吴江Cu-Pb-Zn-Fe-Sn-W-Mo-Au-硫铁成矿带。赋矿地层为中元古代云开岩群,为海相类复理石建造,并有海底火山喷发-喷溢沉积。地质构造上属于罗定盆地西南缘,贵子弧形构造带,侵入岩为蓟县纪及加里东期花岗岩、二长花岗岩,变质岩岩性主要为长石云母石英片岩、绢云母石英片岩、片麻岩等为一套巨厚层的浅变质岩系,属高绿片岩相。成矿时期以元古代为主,次为加里东期为主。金属矿物主要磁铁矿,其次有少量黄铁矿、磁黄铁矿及微量黄铜矿,见Fe2O3异常。
金矿(2-1~2-10),位于III-85-2 云浮-信宜Au-Ag-Cu-Pb-Zn-Fe-Sn-Mo-Mn-硫铁成矿带及III-85-3 阳春-吴江Cu-Pb-Zn-Fe-Sn-W-Mo-Au-硫铁成矿带。赋矿地层为中元古代云开岩群,自下而上岩性为眼球状混合岩、长石石英片岩和条带状混合岩。地质构造上处于云开隆起带东翼,吴川-四会大断裂西,侵入岩以花岗岩脉、伟晶岩脉。长英岩脉为主,零星分布透辉岩脉、伟晶岩脉。矿物组合主要以磁铁矿、黄铜矿、黄铁矿、自然金为主,少量或微量碲铋矿、方铅矿、闪锌矿、自然铋、磁铁矿、赤铁矿、黝铜矿。
铜矿(3-1),位于III-85-2 云浮-信宜Au-Ag-Cu-Pb-Zn-Fe-Sn-Mo-Mn-硫铁成矿带。赋矿地层为泥盆统信都组、东岗岭组、天子岭组、老虎头组,为含陆源碎屑的碳酸盐岩建造,岩性为灰岩、白云质灰岩、粉砂质灰岩、白云岩等。地质构造上属岩体与围岩接触带,层间破碎带发育,发育矽卡岩化、大理岩化,次为金云母化、蛇纹石化、硅化等围岩蚀变。成矿时期为燕山晚期,金属矿物主要为黄铜矿石,主要为磁铁矿、黄铜矿、黄铁矿、斑铜矿。
铜矿(3-2~3-9),位于III-85-2云浮-信宜Au-Ag-Cu-Pb-Zn-Fe-Sn-Mo-Mn-硫铁成矿带及III-85-3 阳春-吴江Cu-Pb-Zn-Fe-Sn-W-Mo-Au-硫铁成矿带。赋矿地层为中-新元古代云开岩群第三段,为变质砂岩-石英岩-片岩建造,其中绿片岩与铜铁锡矿成矿关系密切。地质构造上属于Ⅲ级构造分区属粤西俯冲型侵入岩带。区域上位于罗定弧形断裂的南缘,夹于廉江-信宜断裂和吴川-四会断裂之间,侵入岩一般为燕山五期花岗斑岩、斑状花岗岩。花岗斑岩为钼矿的成矿母岩,斑状花岗岩为锡-钼锡矿床的成矿母岩。金属矿物主要是辉钼矿、锡石、黑钨矿、黄铁矿、微量黄铜矿、方铅矿、闪锌矿。
高岭土矿(4-1),位于III-85-2 云浮-信宜Au-Ag-Cu-Pb-Zn-Fe-Sn-Mo-Mn-硫铁成矿带。地层主要为有中新统尚村组、中新统-上新统老虎岭组,上新统高棚岭组,第四系残坡积层。其中矿体主要赋存于老虎岭组中下段的强-全风化土层中。成矿原岩为含砾、砾质粗粒长石石英砂岩、含砾不等粒长石石英砂岩夹粘土岩,受强烈风化形成残积高岭土矿层。
高岭土矿(4-2),位于III-85-2 云浮-信宜Au-Ag-Cu-Pb-Zn-Fe-Sn-Mo-Mn-硫铁成矿带。地层主要为中-新元古界云开岩群,岩性有变质细粒长石石英砂岩、石英云母片岩、黑云斜长片麻岩、混合岩化花岗岩、均质混合岩等。矿体赋存于加里东期伟晶岩化均质混合岩风化残积土中,由均质混合岩风化残积而成。
5 结论
靶区预测需要将物探、化探、遥感、地质等多源复杂信息综合分析,基于深度学习的算法可以迅速有效地融合地学信息,依托高性能计算机快速有效地圈定靶区,具有客观性及高效性的优点。本文提出利用语义分割的深度学习模型进行找矿预测,相较于传统积神经网络模型,语义分割模型通过上下文信息融合方法,可以更准确地捕捉到异常特征的位置、大小及形状等特征,更适用于相对范围极小地质异常区的识别,具有更高精度及鲁棒性,在靶区预测任务中显然具有更大的利用潜力。
在本次阳江-茂名地区开展找矿靶区预测研究中,PSPNet 模型在预测精度方面优于SegNet、UNet模型,因为PSPNet 采用金字塔池化策略,从而具有更严格的上下文信息融合及感知野扩展策略、跨数据集泛化能力更优秀,更适应在找矿靶区预测中的应用。同时,本次研究共圈定了55 处找矿靶区,其中包含9 个铜矿靶区、15 个铁矿靶区、17 个金矿靶区及7 个高岭土矿靶区,结合已有的69 个矿点,共有55 个矿点在靶区内,识别率达到了79.7%,同时也预测出了21处未有查明矿点的靶区,表明PSPNet语义分割深度学习模型在找矿靶区预测中具有很好的适用性。