数据驱动下的矿产预测模型构建方法研究
2018-09-20朱月琴常力恒
聂 虹,朱月琴,常力恒,闫 东
(1.中国地质大学(北京)地球科学与资源学院,北京 100083; 2.自然资源部地质信息技术重点实验室,北京 100037; 3.中国地质调查局发展研究中心,北京 100037; 4.中国地质大学(武汉)资源学院,湖北 武汉 430074; 5.中国矿业大学(北京)地球科学与测绘工程学院,北京 100083)
0 引 言
人类提升对世界的认识能力的方法就是从现实世界中发现规律,从感性认识上升到理性认识。从自然科学的角度来看,人类描述自然规律的方法是用数学公式的方法,将规律用一个数学公式(或者类似的数学工具)表达,这就是所谓的模型(model)或模式(pattern),所谓的数学建模就是从大量的数据中发现数量之间关系并且用数学公式的方式体现出来。建模首先就得有数据,随着IT技术的兴起,人类收集了海量的数据,但传统的计算科学已经越来越难以处理海量的数据。为了适应数据量的飞速膨胀,我们需要一种新的研究工具才能更有效地进行科学计算,因此,以处理海量数据为核心的“第四范式”——数据密集型科研应运而生。这是一个计算无处不在、软件定义一切、数据驱动发展的新时代。
大数据技术,包括海量数据获取技术,海量数据存储技术,海量数据的计算技术,海量数据的分析技术和数据可视化,已成为当前第四范式的主要工具。大数据正在引发地球科学领域异常深刻的革命,大数据的关键不在于数据的大,而在于思维的新,从数据出发,让数据说话,依靠人工智能方法,让机器学习、深度学习、可视分析等大数据技术逐步成为必需。大数据作为第四科学范式的研究领域十分宽广,它将改变地球科学家的思维方式,从逻辑思维方式转变为数据驱动的关联思维方式[1]。
如何从数据抽象出模型。从理论上讲,只要有足够代表性的样本(数据),就可以运用数学方法找到一个或者一组模型的组合使得它非常接近真实情况。计算机技术的进步、大数据的普及使得在数据驱动下构建模型得以实现,对一个问题暂时不能用简单而准确的方法解决时,可以根据以往的历史数据,构造出近似的模型来逼近真实情况,实际上是用计算量和数据量来换取研究时间,得到的模型虽然和真实情况有偏差但是足以指导实践。机器学习,是人工智能领域的一个分支,其基本思想是基于数据构建统计模型,并利用模型对数据进行分析和预测;而深度学习基本上是“更深层次”的机器学习,运用的都是数据驱动的思维去构建模型。
1 研究方法与模型现状分析
1.1 数据驱动下的模型构建方法研究现状
机器学习可以发挥出计算机在推理和学习等方面的能力,实现自动学习数据,从中提取出复杂的模式,继而提出智能决策,在金融和医学等领域越来越受到人们的关注[2]。
互联网金融的兴盛,每时每刻都在产生着海量的各类金融数据,有效地管理它们并及时地预测与分析发展其发展态势,更深层次地挖掘出它们背后潜在规律和内在的联系,需要将金融数据与人工智能、机器学习等紧密地联系起来。金融领域里人工智能和机器学习的应用主要以下几个部分:面向金融客户的应用、管理层面的应用、交易及资产组合管理、监管合规等[3]。金融风险预测传统上依靠经验判断,随着业务量的增大和金融数据的日益庞大,传统的方法已经无能为力,机器学习方法为金融风险预测注入了新的动力,主要使用的机器学习算法包括人工神经网络、决策树、K最近邻分类算法、贝叶斯网络、集成学习技术和支持向量机等。如:Chen等[4]提出了一种结合模糊逻辑和人工神经网络的混合破产预测模型,Min等[5]提出的一种基于支持向量机的破产预测模型,Chaudhuri等[6]提出一种基于模糊支持向量机的破产预测模型。Oliveira[7]通过组合指数平滑、自回归积分滑动平均模型模型、人工神经网络模型和支持向量回归机来预测金融时序数据。
1.2 数据驱动下的矿产预测模型研究现状
矿产预测是矿产资源勘查的重要组成,经历了由定性预测到定量预测的过程[8](表1),预测方法具有复杂、精细、多元信息综合等特点。矿产预测的方法可以分为知识驱动(依据专家经验知识,各类参数由专家确定)和数据驱动[9](对成矿要素和已知矿点相关关系进行定量化分析之后,建立数学模型)。数据驱动的建模方法主要有:证据权模型[10-14]、逻辑回归[15-16]、D-S证据理论[17-18]、模糊逻辑[19]、人工神经网络[20-21]、支持向量机[22-23]和随机森林[24-25]等方法应用的都很广泛。
表1 矿产资源预测评价发展历程
近年来,随着地质大数据时代的到来,使得矿产预测向定量化、智能化、三维可视化等方向发展。利用数据挖掘等技术,更深层次地识别和提取出找矿信息,分析矿产资源信息的空间关联性,结合地质、物探、化探、遥感资料,开展综合信息矿产预测工作。
随着人工智能、机器学习、深度学习的兴起,机器学习和深度学习算法在矿产矿产资源评价中应用的也比较广泛。如:Brown[26]在矿产资源评价中使用了人工神经网络模型;阴江宁等[27]应用Hopfield循环神经网络对新疆东天山的铜镍硫化物矿床进行矿产资源评价;Abedi等[28]在评价斑岩铜矿资源中使用了多分类支持向量机;Carranza等[29]在预测菲律宾碧瑶地区金矿资源时使用了逻辑回归、证据权和随机森林三种模型。相较于以前统计方法,机器学习算法的优势在于能更好地表现出矿化点和空间要素之间的非线性的复杂关系。
但是机器学习算法的预测效果,仍然受很多不确定因素的影响,比如:模型的优化,如何调整各模型的参数达到最优,使其更加适用于矿产预测;训练样本的选择,训练样本数据的数量和质量对矿产预测也有很大的影响。
本文采用的是决策树、支持向量机、卷积神经网络算法来构建矿产预测模型,分析三个模型的性能和评价结果,找出更适合提高矿产预测效率的算法模型。
2 数据驱动下的矿产预测模型构建
当前的矿产预测工作中,应用地质、物探、化探、遥感等多种综合信息来找矿,是当下矿产勘查工作发展的新思路。对于研究物探、化探资料传统的方法是找到各种化探和物探异常,再用地质理论对它们进行分析和解释。本文中,改变了传统的研究思路,将地质、物探、化探、遥感数据融合起来,将区域航磁数据与化探数据统一格式,同时进行计算处理。运用决策树、支持向量机(SVM)、卷积神经网络算法(CNN)构建矿产预测模型,学习区内全部数据,提取特征,分析预测“有矿单元”,即已有矿床(点)产出的区域。具体工作流程如图1所示。
图1 建模流程图
2.1 数据预处理(关联分析)
2.1.1 面向矿产资源信息的空间关联性分析
所谓的关联性分析,即将多源、多类的数据综合起来,探索出数据中潜在的相关关系和相关程度,找出数据之间的关联性,继而挖掘出地质大数据中更深层次的潜在价值、地质要素之间的共生组合规律等。
矿产资源数据具有空间特征、属性特征、时间特征等。不同类型的地质空间数据从某一个方面反映了地质对象的属性特征,而对于空间位置相邻或相同的数据,在空间特征上也往往存在着相似性,属性特征上呈现出一定的空间关联性。因此,可以针对不同类型的空间数据,建立数据之间基于位置的强关联。将不同专题类型的空间数据统一至相同的坐标系统下,提取数据的空间属性特征,建立数据的空间属性数据库。关联性分析则是在空间数据库的基础上发现和挖掘不同项集之间隐藏的关联关系。统计矿床产出位置不同的地质现象、地质体、地球化学元素等空间实体出现的频数。将频数最高的特征属性或超过一定阈值范围的特征属性转换为关联规则[30]。
2.1.2 物化探信息综合处理
本文是以化探资料为主要信息,结合地、物、遥资料,开展综合信息矿产预测工作。需要解决两个问题:一是精准的异常下限确定——提高原始数据精度;二是有效的分幅平差处理——消除系统误差,提取低缓异常信息。
目前确定异常下限的方法十多种,并且不断有新方法被提出,不同方法确定的异常下限相差悬殊(达数倍)。化探资料处理的首要问题是准确确定异常下限。
应用分形理论准确确定了各图幅、各元素的正异常下限和负异常上限。
消除各图幅系统误差:①分幅定量系数补偿;②分幅相邻边沿平均值补偿,其共同的问题是低缓假异常产生、低缓真异常丢失。本文采取的工作方式是通过异常下限的准确确定,以线性拟合方案精确的进行分幅平差处理,以确保低缓信息(异常)不被遗漏。
为使物探、化探数据能够同时进行相关定量处理,选取以化探数据坐标点为中心,以1 km为直径范围内平差后航磁数据的最大值(ΔTd)和最小值(ΔTx)作为新的航磁参数,如此选择即考虑到航磁的正、负异常,同时兼顾了航磁梯度带的特征。经整理构建起全区样本——即多个变量形成的定量处理的数据集。
2.2 模型构建
选用规格单元为研究对象,以物探、化探、遥感数据为变量,构建起矿产预测模型。
2.2.1 标记数据
在经过物化探信息综合处理后的数据集中每一条记录对应一个特定的统计单元,数据取值为0、1。对于某一找矿证据或含矿属性来说,1代表单元内有矿床(点)存在或有找矿证据存在;0代表无矿或无找矿证据存在[31]。
2.2.2 训练集和测试集选取
从中选择一定量的特征数据作为训练样本构建算法模型,在总数据集中随机选取其中一半的数据,作为训练样本集进行训练,构造模型,其余数据作为预测集,对训练出的模型进行预测。
2.2.3 基于决策树的矿产预测模型
决策树(decision tree),顾名思义,就像一棵树,是一种特殊的树形结构。它类似于流程图的结构,其中每个内部节点表示一个属性上的“测试”,每个分支表示测试的结果,每个叶节点表示类标签(在计算所有属性之后所采取的决定)。从根到叶的路径代表分类规则,从而生成一棵决策树[32]。进行从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。在机器学习中,决策树是预测模型,将预测的对象属性与对象值之间建立一种映射关系。在做数据挖掘时,决策树会经常使用,既可以通过它来分析数据,也可以做预测。在做面向矿产预测评价的机器学习时,决策树也是用的比较多的一种算法。
2.2.4 基于SVM的矿产预测模型
在机器学习中,支持向量机(support vector machine,SVM)是分类与回归分析中分析数据的监督式学习模型与相关的学习算法。SVM算法最初是为二值分类问题设计的,实现多分类的主要方法是将一个多分类问题转化为多个二分类问题。将给定一组训练样例,每个训练样例标记为属于两个类别中的一个或另一个,通过这样的算法延伸,如果有k个类别的样本的话,就可以构造出了k个二分类SVM,SVM可被推广为结构化的支持向量机,推广后标签空间是结构化的并且可能具有无限的大小。SVM的优势体现在可较好地解决小样本情况下非线性函数拟合问题,并且具有适应性强、全局优化、训练时间短、泛化性能好等优点。
2.2.5 基于卷积神经网络的矿产预测模型
深度学习受到了越来越多研究者的关注,它在特征提取和建模上都有着相较于浅层模型显然的优势。深度学习善于从原始输入数据中挖掘越来越抽象的特征表示,而这些表示具有良好的泛化能力。它克服了过去人工智能中被认为难以解决的一些问题,且随着训练数据集数量的显著增长以及芯片处理能力的剧增,它在目标检测和计算机视觉、自然语言处理、语音识别和语义分析等领域成效卓然,因此也促进了人工智能的发展。
深度学习是包含多级非线性变换的层级机器学习方法,深层神经网络是目前的主要形式,其神经元间的连接模式受启发于动物视觉皮层组织,而卷积神经网络(CNN)则是其中一种经典而广泛应用的结构(图2)。
图2 卷积神经网络的结构
3 实践与探索
3.1 数据准备
数据来源为甘肃省北山地区(含敦煌地块),将其不同时期、不同测区的10份航空磁测数据资料,3 893 381个测量数据。其中1∶20万地球化学水系沉积物测量图幅29幅,成图样品间距2 km×2 km,样品数24 825件,样本测试元素39种。区内现已发现Au矿床(点)109个(中型5个,小型23个,矿点61个,矿化点20个)。
经对全区不同时期的物探、化探原始数据做分区、分幅平差处理后,消除原始数据因系统误差对定量处理结果产生的影响,不同比例尺航磁测量数据接图部位的平差后;然后选取以化探数据坐标点为中心,以1 km为直径范围内平差后航磁数据的最大值和最小值作为新的航磁参数。将全区按5 km间距绘制正方形网格,计算各网格范围内所有样本39个化学元素的均值,选择航磁数据的最大值和最小值(共41个变量),整理之后便构建起全区24 821个样本。其中,2 500个为已知有矿单元,22 321个尚未发现Au矿的单元。
3.2 模型构建
处理后的数据集24 821条记录对应一个特定的统计单元,数据取值为0、1。对于某一找矿证据或含矿属性来说,1代表单元内有矿床(点)存在或有找矿证据存在;0代表无矿或无找矿证据存在,其中属性为1的为2 500个,属性为0的为22 321。
本文中决策树的构造使用的是基于基尼系数的CART分类树。①对于当前节点的数据集为D,如果样本个数小于阈值或者没有特征,则返回决策子树,当前节点停止递归。②计算样本集D的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归。③计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数。④在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分D1和D2,同时建立当前节点的左右节点,做节点的数据集D为D1,右节点的数据集D为D2。⑤对左右的子节点递归的调用1-4步,生成决策树。
本文中支持向量机参数选择,惩罚因子C=1.0,本次研究的数据中,惩罚因子的变化对于预测结果的影响不大;核函数参数选择径向基核函数,表达式:K(x,z)=exp(γ‖x-z‖2)K(x,z)=exp(γ‖x-z‖2),其中,γ大于0;分类决策参数decision_function_shape选择OvO,OvO(one-vs-one)是指每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元分类,得到模型参数。我们一共需要T(T-1)/2次分类。
ROC曲线能很容易地查出任意界限值时的对性能的识别能力。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少(图3)。
本文中建立的卷积神经网络模型,设置32个滤波器,长度为3,宽度为3的卷积窗口,通过大量的实践测试得来的,这个大小的卷积核最好用。卷积层数设置为4层,因为数据大小的原因,最终选择用4层卷积来实现。
3.3 分析对比
从三种模型对比中,可以看出在有矿点数据的预测中,决策树模型更精确,达到了89%,SVM模型的精确度略低,为83%,CNN模型的精确度相对偏低,只有55%;在无矿点预测判断中,SVM模型的精度最好,达到了100%,CNN模型的精度略低为97%;召回率衡量了分类器对正例的识别能力,SVM模型在有矿点预测中召回率最高,决策树模型的在无矿点预测中召回率更高,因此,在本次测试的数据中,CNN模型的精度和召回率偏低,决策树模型和SVM模型准确度和召回率更高,更合适这批数据的处理(表2)。
图3 SVM模型的ROC曲线
表2 三个模型预测结果
模型取值PrecisionRecallF1-scoresupport00.990.990.9922 330决策树10.890.900.892 491Avg/total0.980.980.982482101.000.980.9922 720SVM10.830.990.902 101Avg/total0.980.980.9824 82100.970.930.9522 321CNN10.550.750.632 500Avg/total0.930.910.9224 821
注:精度(precision)=正确预测的个数(TP)/被预测正确的个数(TP+FP);召回率(recall)=正确预测的个数(TP)/预测个数(TP+FN);F1=2×精度×召回率/(精度+召回率);Avg/total:各指标的加权平均值。
4 结 语
本文以甘肃省北山地区(含敦煌地块)基于区域地球化学信息的物化探综合信息的Au矿数据为例,通过对全区以1 km网格划分24 821个格子(研究单元)为样本数据进行了基于各类机器学习、深度学习方法的重新学习及分析,其预测结果基本上达到了预期结果。但模型中还有很多需要完善的地方,比如决策树的剪枝,通过剪枝能使决策树对训练数据有很好的分类能力,防止过拟合现象;针对当前这组训练的数据,卷积神经网络模型的效果并不是很理想,可能是数据量偏少、样本单一的原因等。在今后的工作中会逐步加以改进,构建更合适的矿产预测模型。