基于支持向量机的顾北煤矿北一矿区三维地质模型构建
2022-08-05熊玖琦刘星
熊玖琦, 刘星
(安徽理工大学地球与环境学院, 淮南 232001)
为发展智能化煤矿建设进程,必须解决地质条件的透明化问题,以确保采掘过程的可视、可控和可预[1]。三维地质建模是实现地质数据可视化、地质空间分析以及透明地质的关键技术[2-3]。由于地质构造错综复杂及地下空间可见性低,目前主要采用钻探、地震勘探、电法探测等方法获取地下空间构造数据。根据建模过程是否以数学模型为核心过程,主要将建模方法分为显式建模和隐式建模[4]。针对隐式三维地质建模,郭甲腾等[5]使用径向基函数对矿体进行隐式自动三维建模方法,Zhong等[6]融合地质规则约束对复杂矿体进行隐式建模,王博等[7]使用自动化提取与量化地层特征参数实现地质体隐式建模。近些年来,将传统地学与移动互联网、大数据、人工智能技术相融合也正在推进地质调查工作的发展,并且将人工智能核心的机器学习与地质工作结合也成为近期研究的热点[8]。杜炳毅等[9]建立了基于机器学习应用地震数据识别复杂储层微小断裂系统,向杰等[10]应用机器学习算法准确的预测出成矿产量,李昊阳[11]将机器学习与地质统计学相结合,使得建模结果与地质资料更加符合。现将机器学习与地质建模工作相结合,先构建地质体SGrid栅格模型,将建模问题转换为栅格单元的属性分类问题,通过机器学习算法根据已知地质数据预测栅格单元的地层类别得到地层界线清晰的三维模型,并将该建模方法应用于顾北煤矿北一矿区的三维模型构建,为矿区的灾害防治、区域治理等工作提供参考依据。
1 研究区地质概况
顾北煤矿隶属于安徽省淮南市,位于淮南煤田中部,潘集背斜西部与陈桥背斜东翼的衔接带,总体呈南北走向、向东倾斜的单斜构造形态,地质比较平缓,5°~15°倾角。据钻孔揭露,地层由新到老依次为第四系(Q)、二叠系(P)、石炭系(C)、奥陶系(O)及寒武系,由于研究区范围广,数据量庞大,选取顾北煤矿北一矿区进行隐式三维地质建模,该矿区主要涉及四条勘探线、共有23个钻孔勘探点,总面积10.08 km2,不含断层、褶皱等复杂地质构造,研究区钻孔二维分布如图1所示及三维显示如图2所示,从二维分布图可以看出钻孔在矿区内呈分散分布,提取的钻孔数据对该矿区地层划分具有一定代表性,从三维显示图可以看出钻孔揭露地层分层良好,地层层序能够清楚划分。
图1 研究区钻孔二维分布图Fig.1 Two-dimensional distribution map of boreholes of study area
图2 研究区钻孔三维显示图Fig.2 Three-dimensional display of boreholes of study area
2 建模主要原理及流程
2.1 支持向量机
支持向量机[12](support vector machine,SVM)是一种基于统计学的机器学习算法,将输入向量通过预先提供的非线性关系映射到更高维的空间,并寻找一个最优超平面进行分类,使得不同类别之间的分类间隔最大。考虑一个线性分类器y=sign(wT+b),简称(w,b),训练样本集D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,+1}。为了评估分类与数据的适合度,可以使用铰链损耗,即
(1)
从xi到超平面wTxi+b欧氏距离为
(2)
式中:w为超平面的法向量;b为超平面的截距。
(3)
s.t.yi(wTxi+b)≥1-ξi, ∀i=1,2,…,m)
ξi≥0, ∀i=1,2,…,m
式(3)中:C为一个参数;ξi为松弛变量。
2.2 建模流程
本文中三维地质建模方法,规避地质数据有限的客观因素和传统建模方法专家经验的主观因素,基于少量数据判断出地质构造及地层信息,基于机器学习的三维地质建模流程如图3所示。
2.2.1 数据标准化
原始的地质数据包括勘探点的三维地理坐标(X,Y,Z)、地层类别(A、B、C、D)、各地层起止深度以及各地层厚度,而计算机无法根据各地层起止深度认识到地层起止点之间为同一类别地层的地学意义,并且原始数据特征空间过于稀疏,训练结果不理想,所以需要对原始钻孔数据进行预处理。根据各地层类别起止埋深,以1 m为单位对其进行加密处理,把地质数据变成一系列具有三维坐标和地层属性类别的点,数据预处理示意图如图4所示,并且对数据进行标准化处理以消除不同坐标量级之间的影响。
图3 三维地质建模流程图Fig.3 Flow chart of 3D geological modeling
图4 数据预处理示意图Fig.4 Data preprocessing diagram
2.2.2 分类器选择及参数寻优
每个分类器的算法不同也导致预测结果不同,因此分类器的选择会从根本上影响建模的效果,选择一种合适且高效的分类器也是本文工作的重要内容。同时为避免数据出现过拟合现象以及使用相同的验证方案比较会话中的所有模型,在训练分类器之前,对样本数据进行折数为5的交叉验证。利用各类分类器对预处理过的钻孔数据逐一训练,并在训练过程中对分类器进行优化以及搜索最佳超参数,目前常见的有贝叶斯优化、网格搜索和随机搜索等优化方法进行超参数寻优,由于数据量比较大,网格搜索和随机搜索需要耗费大量时间,而贝叶斯优化通过迭代的形式对超参数进行观察,收集预期具有良好分类结果的超参数,抛弃结果不确定的超参数,此方法减少了储存空间并且计算速度快,从最小分类误差图(以支持向量机为例)如图5所示中也可以看出,此优化器可以很好地将最小误差点作为最佳超参数,所以本文选用贝叶斯优化器进行超参数寻优。研究区不同分类器分类结果如表1所示,可以看出,支持向量机和决策树的分类效果较好,以支持向量机分类算法进行预测结果分析以及三维地质建模。
图5 最小分类误差图Fig.5 Minimum classification error map
表1 分类器分类结果
支持向量机算法中影响分类效果最显著的超参数是核函数,核函数是为避免高维空间中“维数灾难”问题而引入的,常用的核函数有高斯(径向基,RBF)核函数、线性核函数以及多项式核函数[13]。对几种核函数使用默认参数在该样本数据上的分类结果进行对比,核函数分类结果如表2所示,其中高斯(径向基)核函数分类准确度最高,因为其能够将原始特征映射到无穷维的特征空间,对处理非线性问题非常有效,这正符合钻孔数据三维地质建模的高度非线性特征,所以选择高斯核函数作为支持向量机的最优核函数。
2.2.3 建立地质体栅格单元
由于地质构造发育纷繁复杂,地质勘察中获取的钻孔数据离散且不完备,为了提高分类结果准确度,根据所建地质体边界点坐标,以一定步长建立大小相等、分布均匀的栅格单元,构建规则的地质体三维空间数据场。研究区总面积10.08 km2,模型取900 m深度,建立大小为30 m×20 m×10 m的栅格单元,共计约150万个。
表2 核函数分类结果
2.3 模型构建与评价
2.3.1 分类器性能
该研究区地层共分为4个类别,为了解SVM分类器在每个类别中的执行情况,是否有分类性能不佳的区域,绘制混淆矩阵如图6所示和ROC(receiver operating characteristic curve)曲线如图7所示,真正类率(ture positive rate, TPR)表示每个真实类正确分类的观察值比例,假正类率(false positive rate, FNR)表示每个真实类中错误分类的观察值比例。从图6中可以看出第1类TPR达到99.2%,第2、第4类在90%左右,ROC曲线呈直角走向且曲线下面积AUC=0.99,说明SVM分类器性能很好,分类结果可信。
图6 混淆矩阵图Fig.6 Confusion matrix
图7 ROC曲线图Fig.7 ROC curve graph
2.3.2 模型构建
一系列三维建模软件的涌现,如GOCAD、Surpac、3DMINE、Earth Vision以及三维可视化技术的发展,为地质数据的可视化提供了便捷条件,大大提高了地质建模的精度[14]。选用GOCAD软件对预测数据进行三维模型构建,COCAD软件具有强大的地质解译、可视化、三维建模和分析的功能,在矿业开发、地质工程、水利工程等领域受到广泛应用,并且该软件主要采用离散光滑插值(discrete smooth interpolation, DSI)算法[15],该算法思想是将地质界面看作离散化的不连续界面,然后根据地质点、剖面线数据等约束条件求解目标函数(全局粗糙度函数),将相同属性的节点拼接起来获取最优地质界面,正符合本文根据地质体栅格单元分类属性进行隐式建模的思想。为使所建模型在训练集和测试集上都能取得良好的预测结果,因此,在机器学习之前,将预处理后的钻孔数据进行数据分割,分为训练数据和测试数据,并且确保数据的均匀性和随机性。然后选取合适的分类器进行训练,并用最佳的训练分类器对栅格单元进行分类预测。
将已知类别的地质体栅格单元数据导入GOCAD软件中,建模结果如图8、图9所示。同时,对该模型进行开挖显示,可以看出模型内部并未出现地层穿插现象,并且地层分界处光滑自然,建模结果符合实际。为检验所建模型的准确性,将根据实际钻孔数据建立的剖面图与预测模型进行对比,以五勘探线为例如图10所示,可以看出地层走向、各地层厚度基本一致,说明预测模型结果可靠。
图8 研究区三维地质模型图Fig.8 3D geological model map of the study area
图9 模型删状图Fig.9 Model deletion diagram
图10 原始地质剖面与预测模型剖面对比Fig.10 Comparison between original geological section and prediction model section
3 结论
(1)基于机器学习的三维地质建模方法,将地质建模问题转换为地质栅格单元的属性分类问题,不需复杂处理和专家经验,通过少量稀疏地质数据就可以准确构建区域三维地质模型。
(2)通过对机器学习的各种分类器及其超参数的比较分析,针对此研究区,支持向量机和决策树分类器较其他分类器分类准确度较高,并且采用RBF核函数的支持向量机分类器分类结果较好。同时对预测模型进行开挖显示并与实际剖面对比验证,建模结果可靠,符合实际,并且对于地层尖灭位置,无需进行复杂处理,可以直接准确构建。
(3)该方法成功应用于顾北煤矿北一矿区的三维地质模型构建,有效直观地表达了该矿区地层走向及各地层分布特征,为矿区的灾害防治、区域治理等工作提供参考依据。