基于随机森林算法的新疆木吉一带金矿区域成矿预测
2024-04-17呼冬强何福宝李辉郝延海张强冯昌荣廖风云
呼冬强 何福宝 李辉 郝延海 张强 冯昌荣 廖风云
摘 要:木吉-乌孜别里山口一带位于印度-欧亚大陆碰撞造山带西段的帕米尔构造结,发育多处金铜等矿床(点),砂金矿床大量发育,显示巨大的金矿找矿潜力。在总结木吉一带金矿区地质特征基础上,剖析区域Au元素异常,提取区内各类遥感蚀变异常,构建地质-地球化学-遥感综合预测模型,利用随机森林算法,开展多信息集成的定量预测。基于随机森林算法定量预测找矿概率,结合研究区目前的研究现状及已知矿床点的类型、数量、代表性、规律等信息,对找矿靶区进行优选,圈定A级找矿靶区3个,B级找矿靶区2个,C级找矿靶区1个。基于随机森林算法的机器学习,在地物化遥感多数据区域中,预测精度较好,提高了预测效率,为该区域实现高效定量预测提供了依据。
关键词:成矿预测;金矿床;随机森林;机器学习
随着地质找矿工作不断深入,积累了大量地质找矿信息,需要成熟的预测理论方法获取矿产资源分布位置、产出机率、资源潜力,实现高效成矿预测。叶天竺全面利用物探、化探、遥感等地质找矿信息,运用体现地质成矿规律内涵的预测技术,全面、全过程应用空间数据库及GIS技术,在圈定成矿预测区基础上估计潜在资源量[1];王世称提出以研究地质、地球物理、地球化学和遥感信息为基础综合信息矿产预测理论[2];赵鹏大以地质异常分析为基础,以成矿多样性分析与矿床谱系研究为指导,将地质异常、成矿多样性及矿床谱系3方面定量化研究紧密结合,形成“三联式”矿产预测及定量评价[3];严光生归纳总结了主要矿床类型的地质特征,构建了反映矿体赋存位置的成矿地质体-成矿结构面-成矿作用特征标志“三位一体”找礦预测地质模型[4];左仁广基于数据科学的矿产资源定量预测理论与方法,采用机器学习方法挖掘地质找矿大数据与矿床的相关性,丰富了矿产资源定量预测的理论[5-6];肖克炎通过构建地质空间数据库、圈定成矿预测类型和工作区、编制专题预测底图-综合信息预测要素图、建立综合信息预测模型,进行矿产资源的定位-定量预测,提出矿床成矿系列综合信息预测理论方法[7]。王欣采用证据权重与基于遗传优化的BP神经网络(WOE-GA-BP)模型,对宁芜盆地陆相火山岩型铜矿进行成矿预测,进一步丰富了预测模型[8];刘嘉情等借助机器学习随机森林算法,开展机器学习模型训练,建立能够识别该地区斑岩?矽卡岩多金属矿床成矿岩体和非成矿岩体的新方法[9];董赛娜使用支持向量机和随机森林两个机器学习分类模型可有效区分密西西比河谷型、火山块状硫化物型、喷流-沉积型、矽卡岩型4种类型铅锌矿床[10];郑孝诚运用卷积神经网络模型实现了金矿区高效预测[11]。矿床基于机器学习的成矿预测方法,实现了矿产资源定量预测,但算法对数据的依赖度高,在小样本区域内需要寻找预测敏感度高的算法。随机森林算法由于其天然的并行特性,良好的模型可解释性,广泛用于各种应用领域,不同于一般的“黑箱”模型,随机森林算法可给出变量的重要性排序及变量间的偏依赖关系,从而能识别重要的预测因子并进行解释,在矿产资源预测中有很好的应用。
木吉-乌孜别里山口一带位于印度-欧亚大陆碰撞造山带西段的帕米尔构造结,发育多处金铜矿床(点),且砂金矿床较发育,显示出巨大的金矿成矿潜力。
1 区域背景
研究区位于印度-欧亚大陆碰撞造山带西段的帕米尔构造结中帕米尔区木吉一带(图1),自震旦纪以来经历了长期的地体裂离、寒武纪至古新世俯冲增生、始新世的最终造山及始新—全新世大型走滑-伸展、逆冲推覆及构造隆升,岩浆、构造活动十分强烈[12],已发现铁、锰、金、铜、钼、铅、锌等矿产,成矿条件十分优越。
区内岀露地层主要为甜水海岩群、下志留统温泉沟群、中上志留统达坂沟群、下上石炭统恰提尔群、上白垩统铁龙滩群等(图2)。下志留统温泉沟群沉积环境为被动陆缘环境下的半深海-浅海斜坡扇浊积岩相复理石建造,整体为一套区域低温动力变质作用类型的低绿片岩相变质相带的“黑色岩系”,为区域内金矿赋矿重点层位。
区内处于西藏三江造山系(Ⅰ)-羌塘弧盆系(Ⅱ)-塔什库尔干-甜水海地块(Ⅲ)之早古生代陆缘盆地(Ⅳ)构造单元,位于印度板块与欧亚板块碰撞带的前缘区附近,属挤压应力最强烈的地带,褶皱、断裂发育。断裂构造极其发育,按规模可划分为3级;Ⅰ级为NWW向恰特-奥依巴勒根断裂(F2)、近EW向展布的乌孜别里山口断裂(F7);Ⅱ级为呈近EW、NW向F1、F3、F4、F8、F9断裂;Ⅲ级为近NE向F5、F6断裂,另外也发育有NNW、SN向分支小断层及裂隙构造。不同级别的断裂构造对区内以金、铜、铅、锌为主的多金属矿产的形成与分布起着分级控制作用。
区域上岩浆岩以酸性侵入岩为主,岩浆活动始于寒武纪,结束于新生代古近纪。寒武纪、奥陶纪仅有少量酸性岩侵入,泥盆纪表现为少量中性-超基性岩的侵入与喷出,石炭—侏罗纪以大规模的中酸性岩浆侵入及中基性岩浆喷出为特点,古近纪仅有较小规模的酸性岩浆侵入活动。该区岩浆活动整体较弱,岩浆岩出露面积不大,主要为沿断裂带侵入的少量辉绿岩、闪长岩脉,伴有不同程度的孔雀石化。
2 矿床特征
在帕米尔构造结中帕米尔木吉一带已发现多处金铜等矿床(图2),且砂金矿床发育[13],显示出巨大的金矿成矿潜力。区域内金矿床产于下志留统温泉沟群下段含碳酸盐硬绿泥石绢云千枚岩建造中,与NW向展布的韧-脆性剪切带密切相关,含金热液沿韧-脆性剪切带上升至硅-钙界面有利空间沉淀而形成,显示典型的造山型金矿宏观地质特征。
研究区内控矿地层主要为下志留统温泉沟群一段,岩石类型主要为绿泥绢云千枚岩夹石英岩脉,多伴有褐铁矿化,部分伴有菱铁矿化、孔雀石化,成果显示此类具有菱铁矿化和铜矿化的石英脉,多为含金石英脉,共发现有12条金矿化蚀变带,为区内主要赋矿层位;区内韧性剪切作用强烈,岩石发生挤压变形,常见有“S”型、“M”型扭曲褶皱、紧闭剑鞘褶皱、层间褶皱、膝折现象,由于构造应力集中,层间破碎带发育,沿断裂发育不同期次、规模不等、密集遍布的石英脉带。区内岩浆岩不发育,脉岩发育,主要为石英脉,是金矿床的主要脉石矿物及含金载体,石英脉较纯净时,不含金。当石英脉中混杂有围岩和金属硫化物时,可形成金矿体,以褐黄色、破碎成粉末状、糖粒状的石英脉含金性最好。区内矿化主要有褐铁矿化、菱铁矿化和孔雀石化,发育绢云母化、绿泥石化等,区内矿体矿石中金属含量较少,矿物种类较多,金属矿物以毒砂、黄铁矿、黄铜矿为主,次为褐铁矿、孔雀石、铜蓝、黝铜矿、斑铜矿、辉铜矿等,镜下可见自然金,非金属矿物以硬绿泥石、绢云母、石英为主,次为白云石、红柱石、碳质、黑云母等。矿石属具千枚状构造的低级变质岩石,含特征变质矿物硬绿泥石,原岩可能为泥质岩、酸性凝灰质岩等。晚期在脆性状态下,受动力变质作用,局部发生破碎,形成裂隙,裂隙由细碎物质充填。
3 研究方法
3.1 随机森林算法概述
在机器学习中,随机森林是一个包含多个决策树的分类器,输出类别是由个别树输出类别的众数而定。每棵决策树均是一个分类器,对一个输入样本,N棵树有N个分类结果。随机森林集成了所有分类投票结果,将投票次数最多的类别指定为最终输出,是一种最简单的机器学习领域的团体学习算法思想,随机森林算法的过程见图3。
3.2 技术流程
基于随机森林算法的矿产预测资源定量的技术流程主要包括数据收集、数据预处理、数据特征提取、预测模型建立和验证、模型预测等过程。本次用于区域金矿定量预测的数据主要包括地质、地球化学、遥感等3类数据。首先需要对地质找矿大数据进行预处理和清洗,包括坐标转化、空间配准、数据拼接、缺失值、重复值、异常值处理等,然后利用数据科学方法对地质找矿大数据进行特征提取,包括岩浆岩识别、有利地层提取、构造缓冲区分析、地球化学、遥感异常识别等。最后建立预测模型,并对预测模型的参数进行调整,使预测性能达到最优,再利用预测模型进行预测,最终圈定找矿靶区。
4 预测过程及结果
进行矿产预测前,需对地质找矿大数据进行特征提取,利用mapgis进行空间分析,提取研究区金矿床空分布有关的侵入岩、有利地层、构造,在此基础上进行缓冲区分析。针对地球化学和遥感数据,用异常提取方法进行异常识别。
4.1 有利地层提取
根据研究区金矿床地质特征,区内控矿地层主要为下志留统温泉沟群一段,将矿区内已发现的金矿(化)点叠加到地层上,所有矿化点均落入下志留统温泉沟群一段中,可作为区内重要预测要素,在研究区内,利用mapgis软件,提取出下志留统温泉沟群一段图层(图4-B),供后期机器学习。
4.2 构造缓冲区分析
缓冲区分析是据空间数据库中的点、线、面自动地在其周围建立一定宽度的多边形区域。通常用于确定地理空间目标的一种影响范围或服务范围。研究区内断裂走向整体为近NW向,多为逆冲断层,韧性剪切作用强烈,中部岩石发生挤压变形,层间破碎带发育,沿断裂发育不同期次、规模不等、密集遍布的石英脉带,控制矿体产出,具明显的导矿、容矿作用,是重要的控矿因素。在mapgis平台,基于线要素的缓冲区,以近NW向断层为中心轴线,距中心轴线一定距离的平行条带多边形,形成断裂构造控矿有利区(图4-A)。
4.3 化探异常分析
選取研究区内1∶5万水系沉积物测量原始数据进行分析,14种元素相对全疆丰度值,Ag,Sb,Cu,Zn,W,Sn,Mo等7个元素较接近,Au元素明显高于全疆丰度值。Au元素高背景或高值区主要分布于研究区西南一带,中部地区零星出现高背景或高值区,Au异常为主要成矿元素,密集区分布于西南角,受群层及断裂带控制,分布有砂金、岩金矿(化)点多处。Au异常密集区异常强度高、规模大、浓集中心明显,分带清晰,具“矿致异常”基本特征,提取Au元素含量大于1.5×10-9 区域,套和已发现的矿(化)点,具很好的包含关系,选取Au元素含量大于1.5×10-9 的区域为重要的预测要素。
4.4 遥感蚀变信息提取
遥感蚀变信息提取是在遥感影像上以矿物光谱特征为依据,利用数字图像处理技术提取与近矿围岩蚀变有关的信息,遥感矿化蚀变信息的提取能够对矿产资源的勘查及评价提供科学的参考依据。研究区金矿床为热液矿床,区内热液活动强烈,发育多种热液蚀变,主要有硅化、褐铁矿化、菱铁矿化、绢云母化和绿泥石化等。基于工作区自然地理、蚀变类型和遥感科学技术方法现状,主要采用ASTER和Sentinel2数据对工作区蚀变信息进行提取。收集购买的遥感数据时相在4~10月,尽可能减少高山积雪对研究区遥感解译的干扰,且单景影像平均云量小于10%,辐射畸变、几何畸变和噪声均较小,目标地物大小、形状、阴影、色调、纹理等标志信息突出,能够准确反映地物各种特征。采用主成分分析法提取Sentinel2数据中的铁化蚀变,ASTER数据中的绢云母化、高岭石化、青磐岩化、硅化蚀变(图5)。
4.5 随机森林模型预测
结合研究区金矿床的分布特征及预测数据集特点,选取网格单元法开展预测,选取150 m×150 m作为预测单元格标准,共划分出71 466个单元格,其中含矿单元格有577个,在PYTHON软件下,通过机器学习,最终计算出每个预测单元的成矿有利程度,确定预测单元所属的矿产资源靶区级别,达到预测区优选的目的。
在随机森林模型预测的基础上,将预测区内集中的区块进行圈定,根据木吉一带金矿区大地构造演化、区域地质特征,依据化探异常、遥感异常和找矿概率,结合研究区目前的研究现状及已知矿床点的类型、数量、代表性、规律等信息,对找矿靶区进行优选,并将找矿靶区划分为A、B、C三级。其中靶区划分标准为:A级找矿靶区为成矿条件很有利,有大中型以上金矿床分布,直接找矿信息强,找矿概率0.6~0.9;B级找矿靶区为成矿条件有利,有一定的金矿点分布,直接找矿信息较强,有一定的找矿潜力,找矿概率在0.6~0.8;C级找矿靶区为地质工作程度低,成矿条件有利,有一定的遥感蚀变异常或化探异常分布,具一定找矿潜力,找矿概率在0.4~0.6。最后,圈定找矿靶区6个(图6):A级找矿靶区3个,B级找矿靶区远景区2个,C级找矿靶区1个。
4.6 靶区特征及验证
A1靶区位于研究区西南侧,找矿概率为0.8~1.0,区内成矿地质条件优越,找矿信息丰富,成矿潜力巨大,已发现阔克吉勒嘎、阔克吉勒嘎东、克热格塔什、木吉西等金矿点,目前正在开展评价工作,有望实现中大型金矿勘查突破。A2靶区位于研究区南侧,找矿概率为0.6~0.9,已发现克孜捷克金矿点,位于韧性剪切带内,地表已发现一定规模金矿(化)体,成矿潜力好;A3靶区位于研究区最南端,区内已发现金矿化点;B2靶区找矿概率为0.6~0.8,经野外查证,圈定2条含金铜矿化蚀变带,呈层状、似层状近EW向展布,地表断续出露长1.4~1.6 m,地表宽10~14 m,有进一步工作的价值;B1、C3靶区还未查证,区内成矿地质条件良好,叠加的成矿信息较多,有良好的找矿前景。
5 结论
(1) 圈定找矿靶区6处,其中A级靶区3处,B级靶区2处,C级靶区1处,为区域进一步开展金矿床勘查提供了方向。
(2) 基于随机森林算法的机器学习,在地物化遥感多数据区域中,有较好的效果,从预测模型的AUC值得出预测精度较好(图7),提高了预测效率,为该区域实现高效定量预测提供了依据。
参考文献
[1] 叶天竺,肖克炎,严光生.矿床模型综合地质信息预测技术研究[J].地学前缘,2007(5):11-19.
[2] 王世称.综合信息矿产预测理论与方法体系新进展[J].地质通报,2010,29(10):1399-1403.
[3] 赵鹏大.“三联式”资源定量预测与评价-数字找矿理论与实践探讨[J].地球科学,2002(5):482-489.
[4] 严光生,叶天竺,庞振山,等.成矿地质体找矿预测理论与方法[J].地质通报,2023,42(6):857-882.
[5] 左仁广.基于数据科学的矿产资源定量预测的理论与方法探索[J].地学前缘,2021,28(3):49-55.
[6] Zuo R G.Data science-based theory and method of quantitative prediction of mineral resources[J].Earth Science Frontiers,2021,28(3):49-55.
[7] 肖克炎,樊铭静,孙莉,等.矿床成矿系列综合信息预测理论方法及其应用[J].地球学报,2023(5):1-12.
[8] 王欣,白世彪.基于WOE-GA-BP神经网络模型对陆相火山岩型铜矿成矿预测研究-以宁芜盆地(江苏部分)为例[J].南京师范大学学报(工程技术版),2023,23(3):67-74.
[9] 刘嘉情,钟世华,李三忠,等.基于机器学习和全岩成分识别东昆仑祁漫塔格斑岩-矽卡岩矿床成矿岩体和贫矿岩体[J].西北地质,2023,56(6):41-56.
[10] 董赛娜,王达,马国桃,等.机器学习在闪锌矿微量元素特征识别铅锌矿床类型研究中的应用[J].成都理工大学学报(自然科学版),2023(12):1-21.
[11] 郑孝诚,张明华,任伟.卷积神经网络在山东金矿勘查预测中的应 用[J].物探与化探,2023,47(6):1433-1440.
[12] Robinson A C.Mesozoic tectonics of the Gondwana terranes of thePamir plateau[J].Journal of Asian Earth Sciences,2015,102:170-179.
[13] 杜亚龙,李智明,姜寒冰,等.新疆地区金矿分布特征及找矿潜力分析[J].西北地质,2016,49(1):121-134.
[14] 欧阳渊,刘洪,李光明,等.基于随机森林算法的找矿预测-以冈底斯成矿带西段斑岩-浅成低温热液型铜多金属矿为例[J].中国地质,2023,50(2):303-330.
Gold Mine in Muji Area of Xinjiang Based on Random Forest
Algorithm-Regional Metallogenic Prediction
Hu Dongqiang1, He Fubao2, Li Hui2, Hao Yanhai2, Zhang qiang2,
Feng Changrong2, Liao Fengyun1
(1.School of Mining Engineering and Geology,Xinjiang Institute of Engineering,Urumqi,Xinjiang,830023,China;
2.The Second Geological Brigade of Xinjiang Bureau of Geology and mineral resources,Kashi,Xinjiang,844000,China)
Abstract: The Pamir tectonic junction in the western section of the Indian-Eurasian continental collision orogenic belt is located in the muji-Wuzibieli mountain pass. It is found that there are many gold-copper deposits (points), and a large number of gold deposits are developed, showing great gold prospecting potential. With the deepening of geological prospecting work in the area, a large amount of geological prospecting information has been accumulated. Mature prediction theory and method are needed to obtain the distribution location, output probability and resource potential of mineral resources in the area, so as to achieve efficient metallogenic prediction. On the basis of summarizing the geological characteristics of the gold mining area in Muji area, the regional Au element anomaly is analyzed, and various remote sensing alteration anomalies in the area are extracted. The geological-geochemical-remote sensing comprehensive prediction model is constructed, and the quantitative prediction of multi-information integration is carried out by using the random forest algorithm. Based on the random forest algorithm to quantitatively predict the probability of prospecting, combined with the current research status of the study area and the type, quantity, representativeness and regularity of known ore deposits,the prospecting target areas are optimized, and three A-level prospecting target areas are delineated. Two B-level prospecting target areas and one C-level prospecting target area. The machine learning based on random forest algorithm has better prediction accuracy and improves the efficiency of prediction in the multi-data area of geophysical and geochemical remote sensing, which provides a basis for efficient quantitative prediction in this area.
Key words: Metallogenic prediction; Gold deposits; Random forest; Machine learning
項目资助:新疆地质局自筹资金项目、克州战略性矿产资源成矿规律与找矿靶区优选(XGMB202363)资助
收稿日期:2023-11-16;修订日期:2024-01-12
第一作者简介:呼冬强(1988-),男,陕西延川人,副教授,硕士,现主要从事成矿规律与成矿预测研究和教学工作;E-mail: hdq@xjie.edu.cn
通讯作者:何福宝(1985-),男,高级工程师,学士,现从事矿产勘查相关工作;E-mail: 28130924@qq.com