APP下载

基于机器学习智能决策系统的古龙页岩油储层总有机碳含量定量表征及智能预测

2022-05-17王如意杨向同丁江辉

大庆石油地质与开发 2022年3期
关键词:岩心测井聚类

王如意 吴 钧 杨向同 丁江辉 秦 冬

(1.中国石油集团工程技术研究院有限公司,北京 102206;2.中国石油大庆油田有限责任公司勘探开发研究院,黑龙江 大庆 163712)

0 引 言

随着常规油气资源日益匮乏,页岩油等非常规油气资源日益增加,逐步成为油气储量和产量增长的重要领域。 页岩油储层总有机碳含量(w(TOC))是反映页岩油气富集程度及生烃潜力的关键参数之一[1]。w(TOC)的定量表征和预测对于页岩油地质甜点确定、储量评估和开发方案制定具有重要作用。w(TOC)通常在实验室内通过岩石热解仪器对少量岩心化验分析获得,数据采集成本较高,数据量也相对较少[2]。因此对于w(TOC)预测通常利用岩心标定测井建立数学模型的方法实现。目前ΔlogR法[3-10]及改进ΔlogR法[11-14]、Carblog 法[15]、叠合面积法[16-17]、多元回归法等常规方法应用于w(TOC)的预测中,但预测精度普遍较低。近年来随着大数据和人工智能技术的发展,支持向量机[18-21]、最近邻[22]、贝叶斯判别[23]、随机森林回归算法[24]、最优化估算和贝叶斯统计[25]、BP 神经网络[26-28]、贝叶斯正则化改进BP 神经网络[29]、卷积神经网络[30]和概率神经网络[31]等人工智能技术和方法开始应用于w(TOC)的预测中。虽然人工智能技术在烃源岩w(TOC)预测上已经取得了较多的应用成果,但是受岩心测试数据与测井数据之间分辨率差异、钻杆深度与电缆深度系统误差、敏感测井曲线与算法和参数选择等因素影响,w(TOC)预测具有较高的不确定性,模型的泛化能力普遍较低。针对这一问题,本文提出融合滑动窗口法岩心归位技术、基于相关系数的层次聚类算法和机器学习自动化技术融合的机器学习智能决策系统,解决w(TOC)智能预测的不确定问题,最大化降低w(TOC)预测的不确定性,提高预测精度和模型的泛化能力,并利用大庆油田古龙页岩油实际钻测井资料进行了验证,取得了很好的应用效果。

1 研究区概况

古龙凹陷处于松辽盆地中央坳陷区的西部,东面邻近大庆长垣,面积约为5 500 km2。古龙凹陷在青山口组沉积阶段湖平面上升,沉积了一套70~120 m 厚的半深湖—深湖相富含有机质的暗色泥页岩[32]。其中,青一段和青二段下部地层是页岩油富集的重点层段,岩性以厚层页岩为主,局部可见厚度极薄的粉砂岩、白云岩及介壳灰岩等夹层,有机质类型以Ⅰ型和Ⅱ型干酪根为主,属于典型的湖相富有机质泥页岩。通过对古龙凹陷青山口组4 口取心井中680 块样本的总有机碳含量岩心化验结果进行数据分析,w(TOC)主要为1.5%~4.2%,平均值为2.2%[32],其中,青一段的w(TOC)相对较高,主要为2.0%~4.2%,平均值为2.7%[32],属于高有机质含量泥页岩。

2 方法原理

针对古龙页岩油藏多尺度数据耦合、敏感测井响应特征优选、机器学习方法及附带参数优选问题,以系统论为思想基础,联合基于滑动窗口算法的w(TOC)岩心自动归位技术、基于相关系数的层次聚类算法w(TOC)敏感特征优选技术和基于粒子群机器学习自动优化算法的w(TOC)预测技术构建机器学习智能决策系统。应用该系统可以实现基于测井数据的页岩油w(TOC)定量表征及智能预测研究。

2.1 基于滑动窗口算法的w(TOC)岩心自动归位技术

该技术是将w(TOC)岩心化验分析数据标定到测井曲线上的一种智能算法,以有效解决因电缆和钻杆压缩系数不同而产生测量深度系统误差问题[33]。在利用滑动窗口法进行岩心归位时,首先需要明确测井数据的采样间隔和滑动窗口的长度,依次逐点滑动计算各数据中w(TOC)和常规测井数据之间的相关系数,以相关系数的绝对值最大为决策条件优选出绝对相关系数最大的测井曲线类别及深度位置(图1)。一般而言,滑动长度控制在10 m 以内,窗长为目标地层岩心分析测试数据顶底深度,滑动步长为测井数据采样间隔,多为0.1 m 或者0.125 m。

图1 滑动窗口法岩心自动归位示意Fig.1 Schematic diagram of automatic core location by sliding window method

2.2 基于相关系数的层次聚类算法w(TOC)敏感特征分析技术

定义1:数据集S= {Sm1,Sm2,…,Smn}是一个具有m行,n个维度特征的数据集合。对于任一维度特征数据有X=S:k,Y=S:j,k,j∈[1,n]。

相关系数是由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,相关系数定义为

式中:r——相关系数;cov(X,Y)——X,Y的协方差;var(X)、var(Y)——X、Y的方差。

层次聚类算法是一种表征数据之间相似度系数层次结构关系的算法。该算法在处理高维度或多类别数据问题上具有不可替代的优势,该算法可以根据数据点、数据变量和数据簇之间相似度系数进行相似度层次结构的构建。开始时,点、变量或聚类等数据样本分别被视为一个单独的聚类,即每个聚类只包含一个数据样本(点、变量或聚类)。然后计算出数据样本之间的相似系数矩阵,并将大多数相似的数据聚类合并成一个新的聚类。重复上述步骤,直到所有样本(或变量)被合并到一个聚类中,或者所有相似性系数小于或大于阈值的多个类别中。通常,数据点或数据簇以距离为度量进行聚类,其中具有最小距离的两个点首先被合并。本文以相关系数为相似度计算指标代替距离重构,基于相关系数的层次聚类算法,解决连续型数据之间层次结构关系问题。应用该算法可以实现w(TOC)敏感特征的定量分析。

2.3 基于粒子群机器学习自动优化算法的w(TOC)预测方法和参数智能优选技术

为了解决不同数据集或同一数据集不同模式识别训练任务会对不同的算法具有不同的适应性问题,将交叉验证数据集剖分技术、粒子群优化算法和机器学习算法融合构建出基于粒子群机器学习自动优化算法。应用该算法进行w(TOC)智能预测,可起到人工智能算法和附带参数智能优选的作用,具有智能化程度高、预测精度高和计算效率高的特点。

粒子群优化算法(Particle Swarm Optimization,PSO)是基于模拟鸟群捕食行为提出的一种群智能算法,其中每一只鸟代表一个粒子,鸟群所寻找的“食物”就是所求的最优解。采用粒子群优化算法对一群随机粒子进行初始化处理,第i个粒子的坐标为xti=(xti1,xti2,…,xtiN),xtiN∈[LN,UN],N个目标解的坐标为未优化前的目标解。第i个粒子运行 速 度 为vti= (vti1,vti2,…,vtin),vtin∈[vmin,N,vmax,N],第i个粒子最优化位置为Pti=(Pti1,Pti2,…,),种群最优化位置为Ptg=(,,…,)。则第s维度的粒子运动速度和粒子坐标的迭代结果可表示为

式中:v——无因次粒子速度;t——迭代次数;ω——惯性权重,具有平衡全局和局部搜索的作用;c1、c2——学习因子,分别控制着粒子寻找个体最优位置和全局最优位置的能力;r1、r2——介于[0,1]的随机数。

基于粒子群机器学习自动优化算法的w(TOC)智能预测技术利用数据集剖分技术将标签集划分为参数优化数据集和测试数据集2 部分,参数优选数据集采用交叉验证法将数据集N等分,依次将其中的1 份当作验证数据集,其余的N-1 份当作训练数据集。

基于粒子群机器学习自动优化算法中不同的数据集具有不同的作用,训练数据集主要承担模型训练的任务,验证数据集主要承担机器学习参数优选的任务,而测试数据集主要承担机器学习算法的评价和优选任务(图2)。

图2 基于粒子群优化算法的机器学习自动化技术流程Fig.2 Machine learning automation system based on particle swarm optimization algorithm

当前机器学习算法类别较多,每种算法需要优化的参数也较多,利用常规的网格搜索算法耗时较长,难以满足智能化运算的时间需求。将机器学习算法和参数的选择问题转化为优化问题,应用粒子群优化算法驱动w(TOC)数据进行机器学习算法和参数的智能优选,最终得出满足平均绝对误差最低或者符合率最高决策条件的机器学习算法及其最优参数组合(图2)。

为得到优良的人工智能回归模型,本次集成6种回归算法进行基于粒子群优化算法的机器学习自动化模型优化,包括线性回归算法、岭回归算法、决策树回归算法、随机森林回归算法、最近邻回归算法和支持向量机回归算法。每种机器回归学习算法的关键参数见表1。

表1 机器学习智能决策系统回归算法及其关键参数Table 1 Machine learning intelligent decision system regression algorithm and its key parameters

3 基于机器学习智能决策系统的总有机碳含量预测应用

本文利用4 口取心井中680 个w(TOC)测试数据和对应测井数据,应用机器学习智能决策系统开展古龙页岩油w(TOC)参数定量表征及智能预测研究。基于该方法预测,井A2 等w(TOC)岩心测试为训练数据集和验证数据集;井A8 为盲井测试数据集。

3.1 基于滑动窗口算法的w(TOC)岩心自动归位技术构建w(TOC)―测井数据大表

针对各w(TOC)岩心测试井利用基于滑动窗口法的岩心归位技术从自然伽马(qAPI)、浅侧向电阻率(RLLS)、深侧向电阻率(RLLD)、微球型聚焦电阻率(RMSFL)、声波时差(Δt)、密度(ρDEN)和中子孔隙度(φN)共7 种常规测井曲线中智能优选出与w(TOC)相关系数绝对值最高的特征敏感曲线和最优归位深度,以此建立w(TOC)—测井数据大表。以井A2 为例,应用基于滑动窗口法的岩心归位技术后计算得出的敏感测井曲线为声波时差(Δt),将归位深度下移4.250 m,归位后的w(TOC)和声波时差(Δt)的相关系数从0.06 提高到0.55(图3—图4,表2,图5)。其他各岩心测试井经基于滑动窗口法的岩心归位技术计算后具有相同的规律,声波时差(Δt)是进行岩心归位最优特征测试曲线。以相关系数绝对值为决策条件可以准确得出最优岩心归位位置,实现w(TOC)岩心测试数据对测井数据的标定,以此建立测井数据大表。基于滑动窗口算法的w(TOC)岩心自动归位技术解决了钻杆深度和测井深度之间系统误差校正问题,通过滑动窗口法进行岩心归位从200 次运算中求取了最优解,寻找到了岩心归位最佳位置,消除了岩心测试w(TOC)数据和测井曲线之间链接的系统误差。通过该算法智能化计算出w(TOC)的敏感测井曲线,确定了最优化归位位置,最大程度提升了岩心刻度测井曲线的准确度,降低岩心归位的不确定性。

图5 井A2 w(TOC)岩心自动归位成果Fig.5 Results of w(TOC)in Well A2 by automatic core homing

表2 井A2各测井曲线岩心自动归位参数Table 2 Automatic core homing parameters for logging curves of well A2

图3 井A2岩心自动归位效果Fig.3 Automatic core location of well A2

图4 井A2归位前、后w(TOC)和Δt测井特征关系Fig.4 Relationship between w(TOC)and Δt logging characteristics of Well A2 before and after homed

3.2 基于相关系数的层次聚类算法的w(TOC)敏感测井响应特征

本文通过w(TOC)—测井数据大表中岩心化验分析w(TOC)参数与自然伽马(qAPI)、浅侧向电阻率(RLLS)、深侧向电阻率(RLLD)、微球型聚焦电阻率(RMSFL)、声波时差(Δt)、密度(ρDEN)和中子孔隙度(φN)共7 种测井曲线数据,应用基于相关系数的层次聚类算法进行w(TOC)参数敏感测井曲线分析。研究发现w(TOC)参数与自然伽马(qAPI)、浅侧向电阻率(RLLS)、深侧向电阻率(RLLD)及微球型聚焦电阻率(RMSFL)不具有明显的相关性,因此这3 个参数不是w(TOC)的敏感测井响应特征参数。w(TOC)与声波时差(Δt)、密度(ρDEN)和中子孔隙度(φN)测井曲线具有明显相关关系,声波时差(Δt)是w(TOC)最为明显的敏感测井参数,它们之间的相关系数为0.65。声波时差(Δt)、密度(ρDEN)和中子孔隙度(φN)之间具有明显的自相关性,声波时差(Δt)和中子孔隙度(φN) 之间相关性最强,相关系数为0.75(图6)。经过数据挖掘分析可知,声波时差(Δt)、密度(ρDEN)和中子孔隙度(φN)测井曲线可以作为w(TOC)参数预测的特征测井曲线。

图6 w(TOC)参数与测井曲线相关系数矩阵Fig.6 Matrix of correlation coefficients between w(TOC)parameters and logging curves

基于相关系数的层次聚类算法解决了多特征参数内部之间以及多特征参数与目标之间层次结构关系定量表征问题,该方法突破了传统人工二维交会图法进行数据分析的技术瓶颈,不仅实现了两两数据之间的关系分析,还能实现多维连续性数据之间层次结构关系的定量化分析,从而实现了预测目标参数敏感特征的准确分析,挖掘出油藏数据中蕴含的地质规律。在本次研究中发现w(TOC)参数的敏感特征,并非主观认为的电阻率测井曲线而是三孔隙度测井曲线。该项技术对于挖掘地质规律从而提高w(TOC)参数的预测精度具有重要意义。

3.3 基于粒子群机器学习自动优化算法的w(TOC)预测方法和参数智能优选建模

针对w(TOC)—测井数据大表进行数据剖分,除井A8 的122 个数据点作为盲井测试数据集外,其余558 个w(TOC)—测井数据设置为参数优化数据集,以交叉验证技术按照5 等份进行数据集剖分,轮番以其中4 份数据作为训练数据集,剩余1 份作为验证数据集。

利用粒子群智能优化算法驱动6 种人工智能回归算法,以5 次验证数据集w(TOC)平均绝对误差最低为决策条件,迭代运算进行算法参数优化,并以井A8 测试数据集w(TOC)平均绝对误差最低为决策条件进行层次迭代优化。最终利用粒子群智能优化算法优选出随机森林回归算法在max_depth=24, max_features=0.7, n_estimators=63的参数组合下(图7)可实现训练集的平均绝对误差为0.313%,符合率为81.2%;验证集平均绝对误差为0.320%,符合率为82.3%。井A8 测试集粒子群优化算法参数优化后的随机森林算法可以将w(TOC)预测平均绝对误差降低为0.354%,预测符合率可达81.7%(表4、图8―图9)。

图9 井A8机器学习智能决策系统w(TOC)参数多方法智能预测成果Fig.9 Multi-method intelligent prediction of TOC parameters for machine learning intelligent decision system for Well A8

表4 井A8测试集机器学习模型评价Table 4 Evaluation of machine learning models for test set of Well A8

图8 测试集岩心实测w(TOC)和不同算法测井预测w(TOC)结果交会Fig.8 Crossplots of w(TOC)of test dataset core vs.w(TOC)of log prediction by different algorithms

基于粒子群机器学习自动优化技术解决了页岩油储层w(TOC)参数预测中方法和参数智能选择的不确定问题,通过粒子群智能优化算法驱动6 种机器学习回归算法,以w(TOC)参数预测平均绝对误差最低为决策条件进行w(TOC)参数智能预测。该方法与应用单一人工智能算法手工调参技术或网格搜索进行调参技术相比,最大化提高了w(TOC)参数预测的精度并最大化降低计算时间。

4 结 论

(1)基于滑动窗口法的岩心归位技术可以有效解决岩心测试数据和测井曲线之间耦合中钻杆深度和电缆深度之间存在误差的问题,该方法应用于井A2 确定下移4.250 m 为岩心归位最优距离,归位后w(TOC)和声波时差(Δt)的相关系数可从0.06提高到0.55。

(2)基于相关系数的层次聚类算法可以有效解决w(TOC)与测井曲线之间相关性层次结构分析问题,应用该算法挖掘出古龙页岩油声波时差、密度和中子孔隙度是w(TOC)的敏感测井响应特征曲线,可以作为预测w(TOC)的特征参数;自然伽马、浅侧向电阻率、深侧向电阻率及微球型聚焦电阻率曲线不能有效地反映w(TOC),是预测w(TOC)的无效特征参数。

(3)应用基于粒子群机器学习自动优化技术解决页岩油w(TOC)参数预测中人工方法和参数选择出现的不确定性问题,从6 种回归算法中系统优化出随机森林回归算法及其附属参数组合可将盲井测试集w(TOC)的预测精度最大提高到81.7%。

(4)基于系统论思想将滑动窗口法、基于相关系数的层次聚类算法和机器学习自动化技术有机融合构建机器学习智能决策系统,应用该系统可以解决古龙页岩油藏多尺度数据耦合、w(TOC)敏感测井响应特征优选、机器学习方法及附属参数优选问题,最大化降低页岩油w(TOC)参数定量表征和智能预测的不确定性。

猜你喜欢

岩心测井聚类
基于数据降维与聚类的车联网数据分析应用
资源勘查工程专业《地球物理测井与解释》课程的教学改革
我国测井评价技术应用中常见地质问题分析
基于模糊聚类和支持向量回归的成绩预测
浅析一种岩心分割台的设计
浅析一种岩心分割台的设计
扎平1井上干柴沟组地层认识
基于密度的自适应搜索增量聚类法
岩心对复配型驱油剂采油效率的影响
酸岩长、短岩心酸化流动模拟实验研究