APP下载

基于形态相似度识别的大数据分析方法在测井岩性识别中的研究

2023-05-30郭林沈东义毛火明袁秋霞

电脑知识与技术 2023年3期
关键词:并行计算测井数据挖掘

郭林 沈东义 毛火明 袁秋霞

关键词:大数据;测井;数据挖掘;Apache Spark;并行计算

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2023)03-0054-03

1 引言

随着互联网和云计算技术的发展,大数据的理念和技术的应用已经在工作和生活中发挥了越来越重要的作用。海量数据的出现,催生了新的科研模式,为更综合且更复杂的系统问题提供了更多的解决方案,即面对海量数据,科研人员可以从数据中直接查找或挖掘所需要的信息、知识,更加快捷地得出所需的结论[1] 。

石油行业大数据的开发应用还处于起步阶段,但很多石油公司在信息化建设中,已针对多年积累的数据建立了数据模型,并研发了对应的大数据分析软件,例如油井数据的实时采集、实时生产监控分析系统等,都是大数据在石油行业的基本体现[2]。对此,渤海石油研究院近几年在测井岩性分析、储层预测、压力预测等多方面也进行了大数据的分析与研究。本文重点介绍在测井岩性分析方面的研究,对于未进行钻井取心的新井,某些层段复杂岩性不易判断时,通过从一个工区甚至更大范围内自动找到类比的参考井,以大数据分析手段确定目标井的岩性,进而类比参考井已有资料进一步判断目标井含油气性和产能。

2 测井解释的大数据适应性分析

测井解释能否适用大数据分析方法,要从测井解释的原理和数据特点出发,根据目前行业对大数据的认识,大数据指是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据的意义在于利用相关数据进行分析和统计得出预期结果甚至是传统方法无法得出的结论,可以帮助我们降低成本、提高效率、开发新产品、做出更明智的业务决策等[3]。因此,结合实际,测井数据符合大数据的以下“5个V”的特点:

(1) 数据规模大(Volume) :油田几千口井乃至上万口井的数据,上千米的井深且每隔0.1米一个采样间隔,同时对应着多条常规测井曲线,从数据量上完全可以达到大数据的分析要求并得出正确的结论;

(2) 数据多样性(Variety) :测井解释的过程中,除了常规测井曲线外,还需同时综合参考DST测试、核磁共振测井、阵列声波测井、成像测井、生产动态、岩矿分析等资料;

(3) 数据处理时效性(Velocity) :测井解释的数据可以进行及时处理,满足一定的响应性能要求;

(4) 结果准确性(Veracity) :油田多年来积累的测井数据和经过验证的解释结果,足以保证数据处理的准确性;

(5) 深度价值(Value) :通过全局的大数据分析,有利于进一步挖掘潜力储层。

3 大数据计算技术与系统的选取

大数据并行化计算系统是整个大数据技术中的计算核心层,近几年出现了多种不同的典型大数据计算模式,并涌现了一批适应这些计算模式的大数据计算系统。其中,Hadoop是目前最流行的分布式数据和计算框架,其MapReduce是一种典型的大数据批处理计算模式,它简单易用的两阶段Map和Reduce的数据处理过程,使其成为主流并行计算模式。但在本文中,我们选取了Apache Spark,Spark为了克服MapRe?duce缺乏对迭代计算模式支持的缺陷,对MapReduce进行了很多改进。目前,在迭代计算方面,Spark是最广为使用的一个基于分布式内存的弹性数据集模型的高效迭代计算系统[4]。

4 基于曲线相似度的大数据技术在岩性分析中的应用

渤海油田近几年除了建成数据处理中心用于数据的存储、管理和共享之外,还建立了勘探开发项目知识库和勘探成果數据库,进行勘探开发生产活动的参数采集、数据积累与管理。基础数据库中已经存储了数千口井的测井曲线相关数据,具备大数据分析的数据基础。

4.1 基本原理与流程

科研工作中,不同井的测井曲线形状存在某种相似性,测井曲线与地层特征间也具有一定的对应关系。因此,通过利用测井曲线数据进行相关分析,根据给定某一口井深度段的测井曲线组合的形状,在数据库中快速检索具有类似曲线组合形状的井,并根据测井大数据分析算法,精准拟合出测井曲线与地层特征之间的对应关系,同时根据命中概率进行岩性的识别。具体包括以下几步:

(1) 搜索具有“相似形态”的测井曲线(深度段),并按相似度进行排序;

(2) 搜索具有某一测井曲线特征的老井,使用新的技术方法重新认识老井;

(3) 搜索、统计测井曲线特征与地层特征的对应关系和分布情况,论证科研人员的分析结果,并为科研人员的研究工作提供辅助支持。

数据挖掘的具体过程中利用分类与预测、聚类分析、关联规则、偏差检测等方法,发现数据之间的关系,用以解决实际问题。基本过程包括:定义挖掘目标、数据取样、数据预处理、挖掘建模和模型评价,基本过程如下图1所示。

4.2 底层Apache Spark 并行计算平台搭建

在具体的数据分析与计算过程中,我们首先要搭建计算平台,Apache Spark 并行计算平台的逻辑结构,具体如下图2所示。

主要工作任务包括:在一个主管理节点(虚拟机)和多个工作节点(虚拟机)中,安装和调试ApacheSpark运行环境;配置运行参数,包括网络参数、CPU资源分配策略、内存资源分配策略等。

4.3 数据准备

数据收集环节中,需要准备原始数据,包括测井曲线数据和地层岩性数据。之后,对数据进行规范化处理,使测井曲线命名一致,并对测井曲线和地层岩性数据进行清洗。最后,建立测井曲线的数据缓存,将规范化的测井曲线数据在各个工作节点(虚拟机)上建立分布、多层结构的数据缓存,用于加快分析计算的速度。

数据准备工作完成后,再加入区域位置信息,形成区域位置—测井曲线—地层岩性结构的关系数据,最后根据区域位置、深度段和测井曲线,分析对应区域位置和深度段的地层岩性的可能性。

4.4 模型建立

首先,对某一口井的测井曲线滤波,平滑测井曲线。通过滑动对比样本窗口(某一深度段的一组测井曲线),计算测井曲线形状的相似度,找出最相似的测井曲线的深度段,其原理简单描述如下:

(1) 将需要预测的目标井所选测井曲线的组合形成一个m*n的矩阵(所选的测井曲线数*所选深度段的采样点数)。

(2) 目标井的m*n数据集与数千口现有井的数据集从采样点初始索引开始的m*n数据集比较,并平滑移动逐点计算。

(3) 将数据进行归一化处理,并采用均方根算法,计算每条测井曲线间的差异,即相对差异。

(4) 结合其他算法多维度判断相似度,例如根据箱形图(Boxplot) 法,排除异常值,最终确定曲线某一深度段的最大值、最小值、平均值等特征值,并进行归一化处理,然后将多条曲线的特征值进行组合后进行综合判断。

(5) 将搜索结果按相似度由高到低进行排序,找出最相似的测井曲线的深度段,形成测井曲线与测井曲线之间的相似度模型。

其次,在搜索结果的已知岩性数据基础上,通过数据挖掘,归纳测井曲线与地层岩性间的关系特征,推导目标深度段的岩性类别,并按概率由高到低进行排序。建立测井曲线样本与地层岩性间的分布关系,使用大量的测试数据集,验证和调整模型。

4.5 速度优化

由于参与计算的井超过七千口,数据量巨大,且在计算过程中需要滑动样本点进行逐个计算,由于计算节点有限,如果仅依赖CPU,每進行一次地层识别将耗费至少十几分钟的时间,这在科研过程中是无法接受的。为了保证数据的计算速度,代码编写中采用OpenCL并行计算技术结合GPU进行性能优化。OpenCL并行计算技术是一个通用多CPU、GPU和其他芯片异构计算的标准,充分利用GPU强大的并行计算能力以及与CPU的协同工作,更高效地利用硬件高效地完成大规模的尤其是并行度高的计算[5],通过GPU的加速,使得单次的处理时间缩短到了10秒以内,优化效果显著。

5 应用案例

以某C油田某J井数据为例,通过选取需要预测的深度段测井曲线数据,并选择需要匹配的曲线,如:GR、ZDEN、CNCF一定范围内的数值组合,系统通过对所有井的测井数据进行全量的数据匹配分析计算,匹配得到有效的测井曲线组合与地层岩性的对应关系,在19 个相似的地层中,有18 个地层都是玄武岩,从而初步判定该深度段岩性大概率与玄武岩具有对应关系。分析过程图如图3所示。

实际应用中除了概率问题,还需考虑置信度的问题,例如匹配到的井只有3口,而其中两口岩性相同,这时由于数据量太少,无法作为最终判断依据,因此,必须将数据的总量和数据准确度达到足够的高度,才能保证应用的准确性。地层岩性分析结果效果如图4。

6 结论

在大数据时代,数据已经成为重要的生产因素,石油和天然气勘探在数字化和大数据集成上,将会有越来越多的需求,构建专业化的测井大数据分析平台,实现从一口井的单打独斗,到区域的多井联动,帮助科研人员进行决策,有利于测井数据向地质分析、区域评价和工程应用等方向拓展。而本文所探讨的基于大数据曲线形态识别的岩性判断方法,就是针对该需求所做的研究,通过更前沿的大数据技术提高工作效率,是信息化建设在渤海油田的发展方向和工作重点。未来随着数据建设逐步完善,还可利用深度学习等人工智能算法进一步优化应用效果,并进行流体性质自动解释等功能的研究。

猜你喜欢

并行计算测井数据挖掘
本期广告索引
八扇区水泥胶结测井仪刻度及测井数据处理
基于并行计算的大数据挖掘在电网中的应用
云计算中MapReduce分布式并行处理框架的研究与搭建
并行硬件简介
一种基于Hadoop的大数据挖掘云服务及应用
基于测井响应评价煤岩结构特征
中石油首个全国测井行业标准发布
基于GPGPU的离散数据挖掘研究