APP下载

多源数据驱动下委员会机器测井解释研究进展

2022-03-25谭茂金张海涛李高仁肖承文魏修平

石油物探 2022年2期
关键词:测井机器委员会

谭茂金,白 洋,吴 静,张海涛,李高仁,肖承文, 韩 闯, 魏修平

(1.中国地质大学(北京)地球物理与信息技术学院,北京100083;2.中国石油长庆油田勘探开发研究院,陕西西安,710021;3.中国石油塔里木油田勘探开发研究院,新疆库尔勒841000;4.中国石油化工股份有限公司石油勘探开发研究院,北京100083)

页岩油气和致密砂岩气等非常规油气资源是未来重要的接替资源,对这类非常规油气藏进行储层评价是地球物理测井解释面临的重要任务之一。地球物理测井作为深入地层的“眼睛”,具有方法多、分辨率高和信息量大等优点,能够为油气藏评价提供连续、准确的电、声、核或核磁等原位物理参数。如何从这些测量数据中提取与复杂油气藏相关的信息是测井解释的主要内容。测井解释的内容主要包括岩性识别、流体判别等定性分析,以及孔隙度、渗透率、饱和度、脆性指数等参数预测,前者属于分类问题,后者属于回归问题。测井解释的方法主要包括两大类:一类是基于数理统计的方法,通过构建交会图等建立流体识别、岩性划分的图版,利用岩心分析资料构建经验公式;另一类是体积模型与理论公式方法,例如孔隙度公式和饱和度公式等,通过响应方程和最优化方法可以实现储层定量评价[1-4]。但是,针对非常规油气藏,例如页岩油气藏,由于岩性矿物成分复杂、油气赋存方式多样、非均质性强、物性差等特征,构建的交会图、简化的体积模型均不适用。而且,测井数据与测试、岩心实验数据间常为非线性关系,建立的线性经验公式精度较差,推广能力不佳。目前,井壁成像测井、核磁共振测井和阵列声波测井等现代成像测井技术能够从不同的角度有效解决测井解释和储层评价中的一些难题,但是这些测井技术相对昂贵,应用范围较小,没有在非常规油气藏勘探开发中大规模应用[5-6]。

近年来,具有强非线性拟合能力的机器学习方法发展迅速,特别是当前流行的深度学习,在图像识别、语音识别和自然语言处理等领域取得了长足的发展。在地球物理测井智能解释中,神经网络、决策树、支持向量机等智能算法在岩性、流体识别等分类问题[7-8],以及孔隙度、渗透率、TOC含量等储层参数预测问题中的广泛应用[9-10],大大提高了评价精度,为测井解释和地层评价提供了有效“利器”。但是,测井数据具有多源异构、小样本特征,浅层网络拟合能力不足而深层网络又易过拟合,大量繁复训练得到的模型难以推广,泛化能力较差。因此,需要开辟适合测井学科背景、密切联系油气开发应用场景的新思路和新方法。

针对当前单一智能算法在地球物理测井解释应用中面临的困境,集成学习将是一种更合适、更灵活的解决方案[11-12]。本文介绍了集成学习的框架和策略研究进展,概述了集成学习算法的原理、分类,尤其是以异质集成为特征的委员会机器在致密砂岩流体识别、储层参数计算和有机页岩生烃潜力评价等方面的应用效果。

1 集成机器学习模型概述

集成学习算法模仿了人类在做出重大决定时寻求多方意见辅助决策的现象。该智能算法针对同一研究问题,同时训练多个学习器,并采用特定的组合策略集成这些学习器的预测结果,以得到较全面、可靠的判断。集成学习算法在油气藏解释和评价中应用广泛,可通过该方法组合多个智能算法解决流体识别等分类问题和储层参数预测等回归问题。根据使用的集成学习器种类,可将集成学习算法分为同质集成和异质集成两类,前者采用相同类型的智能算法构建同质集成模型,后者采用不同类型的智能算法,如神经网络、支持向量机、最近邻算法和决策树等构建异质集成模型,也称做委员会机器(committee machine,CM)。

对于同质集成模型,吴静[13]基于决策树使用Bagging算法构建了同质集成模型,通过有放回的自助采样从原始数据集中得到k个采样集,将采样得到的训练集分别用于决策树基分类器的训练,然后将各基分类器的输出结果组合得到最终的同质集成输出结果。在解决分类问题时,按照少数服从多数的投票策略获得最终预测结果;对于回归任务,采用简单平均获得最终预测结果。该方法在构建模型的过程中引入随机性,减少了基分类器的方差,有效解决了过拟合问题,其算法原理如图1所示。

图1 基于Bagging算法的同质集成模型

对于异质集成模型,委员会机器中不同类型的智能算法通常被称为专家,联合这些专家并制定相应的决策机制能够有效改善预测结果,增强训练模型的推广能力[14-15]。而且,基于柯西不等式能够直接证明委员会机器的最终输出总是优于专家的平均水平[16]。但是,与同质集成模型类似,委员会机器提升机制的前提是专家训练模型的误差必须低于随机猜测,才能保证足够数量的专家实现较好的集成效果[17]。图2为一种通用的委员会机器结构。

图2 一种通用的委员会机器结构

一般而言,集成学习算法中各学习器的独立性和差异性是提高集成能力的关键。因此,在同等条件下,异质集成往往优于同质集成。针对鄂尔多斯盆地大牛地气田的流体识别问题,分别采用决策树使用Bagging算法构建了同质集成分类模型,采用多数投票法综合各决策树的分类结果,最终的分类准确率为99.23%;采用反向传播神经网络(BPNN)、支持向量机(SVM)和K邻近(KNN)组成异质集成回归模型,最终的分类准确率达到99.60%,说明异质集成学习器的分类效果更好。类似地,在储层参数回归问题中,采用决策树使用Bagging算法构建同质集回归模型,采用反向传播神经网络、支持向量机和高斯过程回归(GPR)组成异质集成回归模型,前者预测结果均方误差为1.45,后者预测结果均方误差为1.36。可以看出,异质集成算法在测井智能解释中构建的分类模型和回归模型均展现出较好的性能,且预测精度高于同质集成。

我们将上述异质集成模型称为委员会机器。但是,随着测井解释问题逐渐由常规走向非常规,由各向同性走向各向异性,委员会机器中的专家常常出现性能不足的问题,进一步发展和应用受限。因此,针对复杂测井解释问题,在传统委员会机器模型中引入门网络,将复杂学习任务划分为更简单的子任务,能够达到降低专家训练难度,提高专家训练模型性能的目的。此外,考虑到当前地球物理测井智能算法应用中存在的数据驱动与模型驱动割裂的问题,我们将物理模型约束引入委员会机器,能够更好地结合数据挖掘和物理模型两者的优势,取长补短,改善最终预测结果。

2 委员会机器

近年来,针对不同测井解释问题,分别构建了面向流体识别等分类问题的分类委员会机器和面向孔隙度、渗透率、饱和度等岩石物理参数预测等回归问题的回归委员会机器。委员会机器测井智能解释方法已发展三代,分别为静态委员会机器、动态委员会机器及物理模型与数据共同驱动的委员会机器。

2.1 委员会机器学习框架

在利用智能算法进行模型训练和实际预测的过程中,针对同一预测目标,不同智能算法总会产生不同的训练和预测结果,而这些结果有好有坏。这反映出面对同一预测目标,有些智能算法表现为弱学习机;有些表现为强学习机。这个过程实质上取决于智能算法与预测目标间的适应关系,当预测任务改变时,适应关系也随之改变。适应关系的不可预知性导致适用各种场景的强学习机难以寻找。因此,人们提出了一种通过训练方式让智能系统自动判别学习机强、弱,并将其结合起来的方法。这种方法通过一定的组合策略,对多个专家输出进行组合,能够最大程度地考虑到不同专家与预测任务间的适应关系,最终得到的结果优于绝大部分专家。这一过程类似于人类委员会的决策过程,因此称之为委员会机器[18]。委员会机器一般由输入层、专家层、组合器、输出层构成[19]。针对地球物理测井解释中的分类问题,优选适合分类问题的专家,以投票法作为组合器构建分类委员会机器;针对回归问题,优选适合回归问题的专家,以加权平均法作为组合器构建回归委员会机器。其中,投票法采用绝对投票策略,即选择频数最高的输出结果作为最终输出YCCM[20]。

YCCM=Pmax(yi)

(1)

式中:yi为对应第i组输入数据的不同专家输出的预测结果;Pmax(·)为基于最大频数的投票函数。

对于回归委员会机器组合策略,假设共有n个专家,组合器分配给第j个专家的加权系数wj由遗传算法(GA)和粒子群算法(PSO)等最优化算法计算得到。然后,将加权系数分别分配给每个专家的输出并求和,得到最终输出YRCM。

(2)

式中:yj为第j个专家的预测结果。在这一过程中,若某一专家性能表现不佳,系统能够自动以调整权重的方式来保证最终结果的误差最小。

在以公式(1)和公式(2)作为组合策略的委员会机器中,集成模型性能的提升机制源于这一组合策略下的多专家联合决策。实际上,该过程中的单个专家训练性能并未得到提升,会导致集成效果受学习器影响很大,需要提前花费大量资源准备最优化的学习器组合。而且,当专家数量达到一定程度后,提升效果将会趋于稳定,输出结果将不会得到进一步改善。因此,可以认为这种无法提高专家自身性能的委员会机器是静态的(图2)。

2.2 动态委员会机器

在静态委员会机器的输入层和组合器之间加入门网络,能够将委员会机器的多专家联合提升机制改变为“分而治之”的提升机制[21]。模糊C均值聚类算法(FCM聚类)是一种典型的门网络,该网络首先对输入数据进行聚类分析,通过学习到的数据模式以类内差异足够小而类间差异足够大为原则划分子数据集[22]。

式中:U指示输入数据属于某个聚类簇的隶属度矩阵;V为聚类质心;X为输入的测井数据;M表示数据组数;C为聚类簇数量;q为模糊系数。通过不断对V和U进行最优化,可以得到最佳的聚类结果,并得到对应的子数据集。

专家层接收这些简化的子数据集进行训练,得到多个子模型。基于给定的模型性能评价指标,建立专家与子数据集间的最优化匹配关系,即遍历哪些专家与哪些子数据集的适应关系最好。然后,通过组合器将这些子模型组合起来,作为最终预测模型。最后,将数据输入到这些最优化的子模型组合中,集成系统会自动根据输入数据的隶属度分配子模型进行预测和组合,得到最终输出YDCM。

(4)

由于此过程通过门网络对输入数据进行自适应的无监督学习,并自动建立子数据与专家间的适应性关系、最优化子模型组合,因此可以将这种提升方法称为动态委员会机器(DCM)[23]。动态委员会机器通过引入门网络,简化了子数据结构,降低了专家训练难度,再结合多专家训练策略,保证了最终集成模型具有较高的提升上限,集成效果受专家性能的限制较小(图3)。相应地,针对分类问题和回归问题,动态委员会机器(DCM)又细分为动态分类委员会机器(DCCM)和动态回归委员会机器(DRCM)。

图3 引入门网络的动态委员会机器结构与工作原理示意

2.3 物理模型与数据共同驱动的委员会机器

数据驱动是目前机器学习算法的核心。在有监督学习过程中,机器学习一般通过自动调整内在结构满足特征数据与标签数据间的映射关系,建立有一定推广能力的训练模型。然而,在地球物理测井智能解释过程中,单纯采用没有地质约束的数据驱动策略容易导致训练模型预测结果与客观认识大相径庭。此时,即使训练模型的评价指标相当好,但其对未知样本空间的预测结果仍不会令人信服。因此,将物理模型约束引入到机器学习中将是未来测井智能解释的趋势之一。物理模型约束可以作用在专家结构中,也可以作用在输入与输出端。考虑到委员会机器采用的专家类型不同,后者更易于实现。所以,在数据集构建过程中,将岩石物理模型的计算结果与其它测井数据作为特征数据,岩心岩石物理实验数据作为标签数据一起输入到委员会机器中进行训练,构建物理模型和数据共同驱动的委员会机器模型(图4)。然后,将其它测井数据和岩石物理模型计算结果输入到上述复合模型中,得到最终输出YMCM。

图4 引入物理模型约束的委员会机器结构与工作原理示意

(5)

式中:Ej(·)为专家函数,其输出即为专家预测结果;M为岩石物理模型的计算结果,如基于体积模型计算得到的孔隙度、Timur方程计算得到的渗透率和Archie公式计算得到的含水饱和度等。

此方法基于委员会机器的特殊结构而提出,不仅将物理模型约束项直接引入输入数据中,还可以提前设定权重来调整约束项比重,能够更加灵活地改善预测结果[24]。

3 应用实例与分析

在委员会机器实际应用中,测井流体识别问题可将生产和测试结果作为标签数据,采用概率神经网络、贝叶斯分类、决策树等适合分类问题的智能算法作为专家;测井储层参数计算问题则可以将孔隙度、渗透率、密闭取心饱和度等岩心岩石物理实验结果作为标签数据,采用广义回归神经网络、Elman神经网络、极限学习机等适合回归问题的智能算法作为专家。基于以上分类问题和回归问题,结合3种委员会机器学习框架,分别构建适用于致密砂岩储层流体识别的静态分类委员会机器(SCCM)、适用于有机页岩TOC含量预测和致密砂岩含气性预测的动态回归委员会机器(DRCM)以及适用于致密砂岩孔隙度、渗透率、饱和度3个重要储层参数预测的引入模型驱动的委员会机器(MCM)。

3.1 委员会机器致密砂岩流体识别

以鄂尔多斯盆地致密砂岩储层流体识别为例,采用BP神经网络、概率神经网络和决策树作为专家,采用投票法作为组合器构建了分类委员会机器。训练数据包含796组,以自然伽马、AT10~90、声波、密度和中子作为特征数据,以气层、气水同层、水层和干层作为标签数据。其中,标签数据采用了独热编码进行形式转换,即以[1 0 0 0]作为气层标签,以[0 1 0 0]作为气水同层标签,以[0 0 1 0]作为水层标签,以[0 0 0 1]作为干层标签。将数据集输入到委员会机器中进行模型训练,专家超参数采用网格搜索法进行优化,并以准确率作为模型性能评价指标。然后,将训练数据输入到委员会机器中进行训练,训练结果显示BP神经网络准确率为83.75%,概率神经网络准确率为89.25%,决策树准确率为86.75%,委员会机器组合输出准确率为91.25%。最后,利用训练模型进行地下储层流体识别,井A的识别结果如图5所示,在2679~2681m深度处的测试结论显示该层为水层,原解释结论为气水同层,而委员会机器流体识别结果正确预测为水层。此外,采用该方法在环江地区7口井进行了验证,预测得到296个小层,与测试结果的符合率为90.91%。

图5 A井致密砂岩储层委员会机器测井流体识别

3.2 动态委员会机器页岩TOC含量预测及致密砂岩含气性预测

结合上述委员会机器和动态委员会机器构建方法,以中国黔南坳陷九门冲组页岩为例分别建立了静态回归委员会机器(SRCM)、动态回归委员会机器(DRCM)来预测TOC。训练集由声波时差(AC)、中子(CNL)、密度(DEN)、钾(K)和深侧向电阻率(LLD)共5个测井系列构成,包含237组数据。由于该数据集为小样本数据,为了能够有效评价训练模型的性能,采用留一交叉验证法进行模型测试。然后,通过以上方法分别对比了3个专家、SRCM和DRCM模型性能。留一交叉验证结果显示,Elman神经网络、极限学习机和广义回归神经网络的平均相对误差分别为13.92%,11.91%和12.78%。SRCM的平均相对误差为11.32%,而DRCM的平均相对误差为8.71%。利用上述构建的静态、动态TOC含量预测模型在中国黔南坳陷九门冲组页岩B井中进行TOC含量预测,结果如图6所示。第1、3、4道分别为常规测井系列,第2道为深度道,第5~7 道分别为基于铀(U)测井拟合的TOC含量、SRCM和DRCM的TOC含量预测结果。实际预测的TOC含量与岩心TOC对比结果显示,基于U测井拟合的TOC含量的平均相对误差为18.34%,SRCM预测结果的平均相对误差为10.34%,DRCM预测结果的平均相对误差为7.16%。误差对比结果显示,针对页岩储层,动态委员会机器能够较好地建立起测井数据与TOC含量间的非线性映射关系,为无岩心井段提供可靠、连续的TOC含量信息。

图6 B井动态委员会机器TOC含量测井解释(1ft≈30.48cm)

另外,采用决策树、概率神经网络、贝叶斯分类、BP神经网络、最近邻算法5个专家构建的动态委员会机器,以ΔRT、RT90、密度、声波时差和中子作为输入,训练得到了塔里木盆地库车坳陷大北、克深、博孜地区的智能流体识别模型,模型训练、验证准确率分别为96.29%和91.39%。采用该模型,以井C为例进行了流体识别,如图7所示。第6道为静态委员会机器(SCCM)流体识别结果,第7道为动态分类委员会机器(DCCM)流体识别结果,第8道为对应的动态分类委员会机器解释结论,第9道为测井解释结论,第11道为测试结果。其中,动态委员会机器流体识别结果与测试结果对应性更好,且更符合油水分布规律。将该方法应用该地区5口井的流体类型识别,识别结果中的11个小层有测试结果,识别结果符合率达到100%。

图7 C井动态委员会机器含气性预测结果(1mD≈0.987×10-3μm2;1l=1×10-3m3)

3.3 物理模型约束的致密砂岩储层参数预测

针对鄂尔多斯盆地长8组地层,结合由BP神经网络、极限学习机和小波神经网络构建的静态委员会机器,分别引入物理模型约束构建了孔隙度、渗透率和饱和度预测模型。由于是将约束项作用在输入端,因此将基于体积模型计算的孔隙度、Timur模型计算的渗透率和阿尔奇公式计算的饱和度,再加上自然伽马、深探测感应测井、浅探测感应测井、声波时差、密度和中子等测井数据分别作为特征数据加入到孔隙度、渗透率和饱和度模型训练中。与岩心数据对比显示,训练得到的孔隙度、渗透率和饱和度模型的平均相对误差分别为7.43%,14.65%和6.33%,均高于单个专家及传统委员会机器方法(传统委员会机器孔隙度、渗透率和饱和度模型平均相对误差分别为10.23%,17.98%和9.25%)。利用上述模型预测实际致密砂岩储层参数,图8为D井智能预测结果,第3道、第5道和第6道分别列出了渗透率、含水饱和度、孔隙度的预测结果,以及岩心实验测量结果,其中,深褐色曲线为模型计算的储层参数结果。对比结果说明,模型驱动的委员会机器比单纯委员会机器预测结果有进一步改善。

图8 D井物理模型与委员会机器联合驱动的孔隙度、渗透率、饱和度预测结果

此外,为了进一步推广委员会机器测井解释方法,简化智能模型构建流程,结合上述委员会机器学习框架,开发了委员会机器测井解释软件,能够实现输入数据预处理、专家超参数自动优化、组合权重最优化及分配、实际数据预测与输出、预测结果可视化等功能,对提高测井解释效率和精度具有积极作用。

4 结论与展望

本研究基于测井数据的多源和小样本等特征提出了适用于页岩、致密砂岩等非常规油气储层的委员会机器智能测井解释方法,并针对实际问题进一步提出动态委员会机器和物理模型约束的委员会机器,在储层流体识别和储层参数预测等问题中展现出了较好的应用效果。

1) 委员会机器集成多个异质专家,提高了解空间的搜索范围,减小了最终解落入局部极小的风险。再结合投票、加权求和等组合方式,实现了小样本特征下的测井智能解释。预测结果表明,委员会机器预测误差低于单个专家,预测结果优于同质集成方法。

2) 动态委员会机器引入门网络,针对不同储层模式构建多个子模型,采用组合器实现子模型组合自动优化。与传统委员会机器相比,动态委员会机器的工作机制更科学、合理,预测精度更高。

3) 在传统委员会机器基础上,引入地球物理模型进行约束训练,减小了最优解的搜索范围,对提高训练模型泛化能力具有较好的作用,实际预测结果也更符合真实地层变化规律。

猜你喜欢

测井机器委员会
本期广告索引
机器狗
机器狗
八扇区水泥胶结测井仪刻度及测井数据处理
跟踪导练(五)(2)
编辑委员会
未来机器城
基于测井响应评价煤岩结构特征
无敌机器蛛
中石油首个全国测井行业标准发布