随机森林在储层孔隙度预测中的应用
2018-10-20魏佳明韩家新
魏佳明 韩家新
Abstract: Traditional reservoir porosity calculation mainly adopts statistical regression method. However, in the real environment, reservoir conditions are complex and heterogeneity is strong. The reservoir porosity error calculated by the traditional method is large. In view of the above problems, based on the logging curve, a Random Forest method is introduced into the prediction of reservoir porosity to establish a nonlinear relationship between logging data and reservoir porosity. The experimental results show that the reservoir porosity error predicted by this method is less. Compared with multiple linear regression, it can effectively improve the accuracy of reservoir logging interpretation model and provide reliable geological parameters for reservoir comprehensive evaluation.
引言
储层孔隙度是描述储层特性、流体模式和建立储层地质模型最重要的参数之一,也是油層识别、含油饱和度计算和油藏精细评价的基础[1-2]。目前,针对储层孔隙度计算的方法很多,包括测井响应方程、交会图、利用岩心分析与声波时差、密度或中子测井曲线建立回归关系等方法,这些方法在一定程度上实现了储层孔隙度的计算[3],也取得了良好的效果。但储层实际环境复杂,非均质性强,由于受沉积和成岩作用等地质因素的影响,储层孔隙度和测井数据之间往往是非线性的关系,利用单纯的多元统计回归等方法,难以充分反映储层孔隙度和测井数据之间的关系,由此建立的模型难以达到预期效果,误差较大[4]。
为了精确描述储层状况,提高储层孔隙度预测精度,本文在基于测井数据的基础上,引入了效果较好的随机森林方法,该方法在设计中不仅兼顾了研究问题的复杂性,而且还呈现出预测准确率高、对异常值和噪声数据容忍度高的优点。对比多元线性回归[5],实验证明该方法可以有效提高储层孔隙度预测的精度,取得比较理想的结果。
1随机森林理论
作为一种机器学习、统计学习理论,随机森林[6]是Bagging集成学习[7]思想的一个扩展,是在Bagging的基础上,进一步在决策树的训练过程中融入了随机属性选择。随机森林使用Bootstrap重抽样方法[8]从原始样本中抽取多个样本,再对每个样本展开决策树建模,并组成多棵决策树进行预测。对于分类问题,通过少数服从多数的投票方法决定分类结果;对于回归问题,将所有回归决策树输出值的平均值作为预测结果[9],其基本算法的设计代码可见如下。
随机森林具有调节参数少、操作方便、训练速度快的优点[10],而且还有较好的抗噪性,也不易发生过拟合,尤其适用于诸如分类、回归等技术问题的研究。
2随机森林在孔隙度预测中的应用
2.1预测模型的样本数据
本文的实验数据拟以某测井为例,采集深度为1 882~2 132 m,以0.500 m的间隔采集样本,孔隙度POR介于10%~28%之间,其深度—孔隙度散点图如图1所示。通过分析该测井数据及孔隙度数据,共有500个样本,分为训练样本和测试样本,其中80%的数据(400个训练样本)用于训练模型,20%的数据(100个测试样本)用于测试模型。每个样本主要有自然伽马GR、声波时差AC、密度DEN、补偿中子CNL、自然电位SP、中感应电阻率RILM、深感应电阻率RILD、井径CAL等8个测井参数[11]。这里,基于对最终更好预测效果的考虑,研究中对所有样本进行了归一化处理。
2.2实验过程与结果分析
本文实验以python的scikit-learn[12]工具包为基础,部署建立本次实验的基础环境。研究知道孔隙度POR为连续值,因此本文实验即属于回归问题,主要将用到随机森林回归。对每个测试样本而言,取所有树预测的孔隙度POR的平均值作为最终孔隙度POR的预测结果。通过反复实验,确定本次实验随机森林树的个数为2 000、特征集合的子集合为4,最大深度为50。实验中拟将采用不放回的随机采样,抽取400个样本为训练集,剩余100个样本为测试集,这样可以保证训练集中不包含测试样本,从而有效改善预测模型自身的泛化性。如图2所示,为单次实验采样的过程,400个训练样本均匀覆盖了所有样本,如此训练得到的预测模型更具健壮性,在100个测试样本上预测精度会更高。
为了提升实验结果的可靠性,可将本次实验重复10次,每次实验的平均真实孔隙度(100个测试样本真实孔隙度的平均值)如图3所示。而在每次实验中分别采用多元线性回归和采用随机森林回归运算得到的平均预测的孔隙度(100个测试样本预测孔隙度的平均值)、平均绝对误差(100个测试样本绝对误差的平均值)和平均相对误差(100个测试样本相对误差的平均值)在经对比研究绘制后,最终结果即如图4~图6所示。
分析图4结果可知,多元线性回归在设计储层孔隙度模型时,只是简单建立测井数据和孔隙度之间的线性关系,拟合效果并不理想,其预测值与真实值偏差较大。而随机森林回归以非线性方式建立测井数据和孔隙度之间的关系,预测值要更为接近真实值。同时,参考图5、图6的性能统计后判断可知,在误差分析方面,每次实验中随机森林回归的平均绝对误差和平均相对误差均要小于多元线性回归的结果数值,这也说明其孔隙度预测值偏离真实值较小,更为接近真实值。
对比随机森林回归与多元线性回归10次实验结果,详情可参见表1。分析后发现,运用随机森林回归预测得到的总的平均绝对误差为2.12%,平均相对误差为11.48%,明显要小于多元线性回归得到的平均绝对误差2.63%和平均相对误差13.57%,预测效果要高于线性预测结果。
同时,上述结果表明,当测井数据和储层孔隙度之间相关性不强且呈现非线性关系时,运用简单的多元线性回归,只是线性拟合测井数据,其预测结果整体误差较大,预测效果并未臻至理想。究其原因即是和该区的沉积特征、地质情况有关。而随机森林回归是以非线性的方式拟合测井数据,充分考虑了测井数据和孔隙度之间存在的潜在联系和实际可能,就可明显提高预测的精度,尤其有助于在研究中运用测井数据来预测孔隙度。
3结束语
储层孔隙度是精确描述储层的基础,在储层环境复杂,非均质性较强时,测井数据与孔隙度之间往往是非线性关系。运用简单的多元线性回归得到的预测模型效果较差,可以应用随机森林回归等方法进行对比研究,优选效果最佳的方法实现建模。随机森林回归具有较高的准确率,能更好地容忍噪声数据和异常值,当测井数据和孔隙度之间关系复杂时,利用随机森林回归可以更为精准、有效地挖掘测井数据和孔隙度之间的关系。此外,与常用的非线性方法一样,随机森林回归也可能存在过拟合的问题,在后续的工作中将对此展开有针对性的研究改进。作为一种新的储层孔隙度预测方法,随机森林回归仍亟待学界的更多关注和研究投入。
参考文献
[1] 杨东民, 秦志强, 徐艳萍,等. 双孔隙度预测技术在油藏描述中的应用[J]. 断块油气田, 2004, 11(5):23-25.
[2] 顾伟欣, 周红, 耿锋. 多元统计方法在储层孔隙度模型建立中的应用[J]. 断块油气田, 2008, 15(3):58-61.
[3] 魏晓, 陈天一, 周邵鹏,等. 基于三孔隙度测井对致密砂岩储层流体识别综述[J]. 科技创新导报, 2015(27):80-81.
[4] 张静, 王志章, 赵永军,等. 支持向量机在致密砂岩储层孔隙度预测中应用[J]. 河南科学, 2015(6):993-997.
[5] 杜波, 于正军, 韩建军. 多元线性回归法在DX北带砂砾岩储层孔隙度定量预测中的应用[J]. 天然气勘探与开发, 2012, 35(4):36-40.
[6] 曹正凤. 随机森林算法优化研究[D]. 北京:首都经济贸易大学, 2014.
[7] BREIMAN L. Bagging predictors[J]. Machine Learning, 1996, 24(2):123-140.
[8] 謝益辉, 朱钰. Bootstrap方法的历史发展和前沿研究[J]. 统计与信息论坛, 2008, 23(2):90-96.
[9] 宋建国, 高强山, 李哲. 随机森林回归在地震储层预测中的应用[J]. 石油地球物理勘探, 2016, 51(6):1202-1211.
[10]李贞贵. 随机森林改进的若干研究[D]. 厦门:厦门大学, 2014.
[11]柴愈坤, 冯沙沙, 王华. 致密砂岩储层物性参数建模方法探讨[J]. 中外能源, 2017,27(5):39-43.
[12]PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al. Scikit-learn: Machine learning in Python[J]. Journal of Machine Learning Research, 2012, 12(10):2825-2830.