大数据技术在石油工程中的应用现状与发展建议

2021-04-20耿黎东

石油钻探技术 2021年2期

耿黎东

（中国石化石油工程技术研究院，北京102206）

随着物联网、云计算的快速兴起和智能终端的快速普及，数据已经渗透到各个行业和领域，逐渐成为重要的生产因素。数据特性逐渐向更大、更快和更复杂的方向演变和发展，催生了一个全新的概念——大数据。2011年，J. Mckinsey等人发布了《大数据：创新、竞争和生产力的下一个新领域》，对大数据的关注程度达到历史新高[1]。

石油工程比以往更快的速度获取了更大的数据量和更加多样化的数据，这些数据除了基于数以万计的传感器采集得到的数据外，还包含大量的半结构化和非结构化数据。钻井、测井、录井资料，生产数据和作业日志都可以快速添加为TB级甚至PB级的信息。油气勘探开发的对象是不可见的地下岩石和流体，因此石油工程对数据的依赖性更强。与传统信息技术相比，大数据技术对海量数据的分析和处理更为迅速和高效，可以提高决策的准确性、及时性和全面性，对油气的增储上产和降本增效起到重要的推动作用。为此，笔者介绍了大数据的定义和特点，分析了大数据技术在石油工程领域的应用现状，并提出石油工程大数据技术发展建议，以加速大数据技术在石油工程中的研究和应用。

1 大数据的定义和特点

大数据技术目前并没有教科书式的明确定义，互联网数据中心（IDC）将其定义为基于高速的捕获、发现和分析技术，以经济的方式从超大规模数据中提取有价值信息的、一种全新的技术和构架。大数据的核心意义不在于掌握庞大的数据量，而在于从海量的结构化、非结构化数据中提取出有效的数据，经过专业化处理获取有价值的信息。以数据为本质的大数据技术不仅是技术变革，更是理念、模式和应用实践的创新变革。

随着油气勘探开发的深入和石油工程技术的发展，石油公司已经在勘探、地质、测井、钻井完井和开发等各个环节积累了海量数据，为大数据技术的应用奠定了良好的数据基础。石油工程大数据除了具有大体量（vo lum e）、多样性（variety）、时效性（velocity）、准确性（veracity）和低密度价值（value）的5 V特点外[2]，还具有独特的特点。例如，钻井完井过程产生的数据种类很多，包括钻前工程数据、工程设计数据、施工记录数据、工程参数测量数据、测井数据和工程管理数据等；数据形态各异，包括各类静态结构化表格、非结构化的视频和图片以及各类工业数据格式标准；数据体量变化幅度大，传统测井方法的8项测井数据量约为1Mb/m，而声波测井、成像测井等新型测井方法中的一项测井参数数据量就可达到1Gb/m以上；数据可管理性差，各类钻井完井数据生成周期不同、采集方式各异，难以用统一的数据模型容纳所有的钻井完井数据。数据采集、传输的瓶颈问题突出，目前油田现场采集设备还无法达到高精度、快速采集的要求，常用的井下数据无线传输方式传输速率低、可靠性差，有线传输方式虽然传输速度快，但存在设备开发成本高、制造工艺复杂等缺点。

2 应用现状

近年来，国际油价低迷已成为新常态，石油企业利润大幅降低，如何利用大数据技术降低油气勘探开发成本和提高勘探开发效率已成为油公司和油服公司发展的新突破点。相比互联网、航空和电子商务等行业，石油和天然气行业大数据技术的研究、应用起步较晚，目前国内外公司正在尝试将大数据技术应用于石油工程中，并取得了一定进展。

2.1 大数据平台应用现状

2.1.1 国外

为了促进多部门协同工作和生产运营的一体化，国外大型油公司纷纷推出大数据分析平台。康菲公司经过近20年的发展，形成了IDW（integrated data warehouse）大数据分析平台（见图1）。

图1 康菲公司IDW大数据平台发展历史Fig.1 The development history of IDW big data p latform of ConocoPhillips

IDW是一个涉及多学科的集中式大数据存储中心，可存储分析包括地球科学、钻完井、油藏工程、生产、运营、财务等方面的数据（见图2）[3]。其精髓在于将具有不同功能的数据仓库整合起来，实现跨功能集成。不同业务部门的数据真正实现一体化存储、管理和分析，数据的体量、多样性、传输速度和质量均有了大幅提升，显著提高了获取有效信息的效率。此外，IDW要求每个业务部门都采用一体化的运营方法来组建业务和信息技术多学科团队，建立了新的工作方式。IDW主要采用Teradata数据库技术和PPDM数据模型，以Spotfire为数据分析工具，Informatica为ETL工具。康菲公司也正在尝试将认知分析和人工智能等新兴数据分析方法应用到IDW中。美国Eagle Ford页岩气开发过程中，采用IDW大数据平台进行数据分析后，每台钻机平均钻探量增加了80%，每口井的平均钻井时间从一个月缩短至12 d。

图2 IDW集中式数据存储中心Fig.2 IDW centralized data storage center

科威特国家石油公司构建了基于数据分析和人工智能的地面地下一体化油田智能工作平台，用于油田中长期产量预测、注水优化及生产参数优化。其工作流程为：1）采用节点分析、虚拟计量等方法，利用数字化工具记录生产历史；2）采用蒙特卡洛、线性回归等方法，利用统计分析工具监测实时生产状况；3）采用神经网络、模糊逻辑等人工智能方法进行短期产量预测；4）应用数值模拟进行中长期产量预测。科威特国家石油公司公司应用该系统后油气产量明显提高，支撑了该公司至2030年日产油量400×104bbl的战略目标[4–5]。

国外大型油服公司通过建立大数据平台，旨在增强多学科互通，实现工程技术一体化。2003年开始，斯伦贝谢公司着手整合勘探开发生产的16个数字化应用程序，将大数据分析、人工智能和物联网等多个技术领域的优势集中，在微软Azure云平台上开发了DELFI勘探开发认知环境信息平台（见图3）[6]。DELFI整合了各类计划、作业程序和软件，存储全部历史数据资料，为各类专业操作系统和程序提供接口，目的是实现斯伦贝谢公司业务的数字化转型，为油气勘探开发生产提供低成本、高效率的专业化生态系统。通过利用大数据分析、机器学习和物联网等最新的数字化技术，DELFI将地球物理、油藏工程、钻井完井工程和采油工程等多学科知识交互融合，真正实现了技术一体化。

图3 斯伦贝谢DELFI大数据平台发展历史Fig.3 The development history of Schlumberger’s DELFI big data p latform

贝克休斯公司依托通用电气的Predix工业互联网平台，借助先进的数据采集技术、大数据分析算法和云计算技术，对海量的工程作业和生产运营数据进行统一分析和优化，打破了数据信息之间的壁垒，并通过应用程序将现场情况和决策方案进行可视化展现[7]。哈里伯顿与微软合作推出DecisionSpace 365云平台，将地质、钻井、油藏和生产等数据资料有效存储起来，实现了不同工作流程数据的快速更新和一体化分析，提高了油藏模拟结果的准确性[8]。

除了大型石油公司、油服公司之外，部分小型技术服务公司也开展了大数据平台的相关研究。美国AKW Analytics公司是一家成立于2013年、员工不超过10人的小型公司，专注于提供油气行业大数据分析服务。该公司利用自主知识产权技术将大数据分析、机器学习和优化结合到PALMTM（petroleum analytics learning machine）平台中[9]。

PALMTM平台以数据为中心，具有预测和指导功能，可以对来自不同数据源的数据进行实时多元分析，数据源包括地球物理、岩石物理、油藏工程、钻井、压裂、生产和管线输送等，利用大数据和深度学习技术分析历史产量的特征属性和重要性的权重，实现了从钻井完井到油气生产再到提高采收率全过程准确的预测。

PALMTM平台包含多种分析工具、算法和模型：有MAPGEORES（油藏模型）、MAPDRILL（钻井数据集成）、MAPFRAC（水力压裂）、MAPPROD（产能优化）、MAPGATHER（管线维护）和MAPPORTFOLIO（资本支出优先顺序）等分析工具；有逻辑回归、支持向量机、k-最邻近、决策树和神经网络/深度学习等算法；利用mongo DB处理非结构化数据，采用P ostgreSQL和MySQL处理结构化数据。

2.1.2国内

国内大型石油公司在大数据平台建设方面也取得了一定进展。中国石油历经30余年的探索发展，推出了国内油气行业首个智能云平台——勘探开发梦想云平台[10]。基于PaaS云平台和勘探湖技术，建立了通用的协同工作环境，实现了勘探开发经营、管理、决策的一体化，大幅提高了协同工作效率和决策水平。目前，梦想云平台的数据湖中包含了超过48万口井、600个油气藏和7000个地震工区的钻井、生产数据。中国石油内部应用梦想云平台后，在线协同效率提高20百分点以上，研究工作效率提高20%以上，硬件成本节约50%以上。

中国石化正在逐步打造统一的、规范的、覆盖公司内各油田勘探开发业务的协同平台——EPBP（Sinopec E&P business cooperation platform）。EPBP的核心是实现岗位业务信息化，由岗位工作人员在线填报本岗位的关键业务数据，并由相关责任部门进行数据审核。填报的数据在该系统中统一汇总管理和应用。在数据模型方面，石油工程部分涵盖了钻井管理、录井管理和测井管理3个一级专业目录，包含119个数据表，基本上能够满足石油工程关键业务数据管理的要求。在数据录入和管理方式方面，具有较为严谨的数据审核管理流程。但是，由于仅提供了网页版的数据录入工具，在少数网络条件较差的井场，存在着因网络不稳定造成填写数据丢失，需要反复录入的问题。在数据共享与应用方面，该平台具有便利的数据授权共享机制，且性能良好。

2.2 具体业务场景应用现状

2.2.1 钻井工程

1）钻井设计优化。道达尔公司提出一种基于大数据分析的工作流程，基于地质特征的启发式定义，实现不确定性条件下复杂井况井位设计的优化[11]。该方法首先利用搜索方法生成井眼轨迹，然后筛选和计算每个井眼轨迹的特征，不同的特征采用不同的模型表征，最后将聚类算法应用于井身结构参数特征矩阵，利用机器学习算法得到最优特征参数，并预测新井眼轨迹的最终累计产量。NOV公司建立了包含地质数据、岩石力学数据、钻井数据及地理数据的钻头选型大数据库，并利用ANN方法对数据进行训练，形成了基于大数据技术的钻头优化选型新方法[12]；侯凯等人[13]利用聚类方法得到了测井数据和地层特性间的相似性关系，使用K-means模型评价了相似地层中钻头的使用效果，并采用k-最近邻算法得到最优的钻头选型方案。

2）机械钻速预测。为了确定不同动态钻井特征参数相互作用的影响程度，提高机械钻速预测的准确性，德州农工大学提出一种基于大数据和机器学习的钻速预测方法[14]。该方法首先建立了包括层间厚度、钻井液密度、钻压和转速等参数的钻速特征集合，通过绘制不同特征参数随时间的变化曲线直观地检查是否有特定参数控制响应；然后利用主成分分析法对特征数量进行降维，以此来提高模型的预测精度和计算简便度；最后通过特征分析推导出每个特征属性的相对权重和贡献。此外，采用确定系数R2和均方误差度量不同预测模型的预测精度，发现采用随机森林模型预测的钻速与实际钻速的误差最小，预测效果最好。左迪一等人[15]利用大数据分析方法分析了塔里木油田克深区块钻井的提速技术：利用相关系数法分析了影响机械钻速的主控因素；采用随机森林和梯度提升树方法建立了针对不同类型井特点的机械钻速预测模型，并通过局部依赖分析获得最优钻井参数。中国石油集团长庆钻井公司将各区块的地层地质信息进行整合，将神经网络技术与专家头脑风暴相结合构建出机械钻速预测模型，并采用历史数据进行了有效测试[16]。

3）地层岩性预测。钻井过程要钻遇不同岩性的地层，实时了解钻头周围岩石的物理、力学性质，对于提高钻井效率、控制井眼轨迹具有重要作用。俄克拉荷马大学以钻头与钻柱性能大数据为基础，采用机器学习算法建立了随钻预测钻头周围岩性的方法[17]：首先建立油田现场的公共大数据集，并分析测井数据的主成分，用不相关成分代替相关变量；再利用k-均值、层次聚类和自组织映射神经网络等3种聚类方法对岩性变化进行分离，通过观察3个岩性群的测井数据和岩心特征来确定岩性群的岩石物理意义；最后采用随机森林、神经网络和梯度增强等分类技术预测不同岩性群的岩性。该方法在Volve油田现场进行了测试，岩性预测准确率达到了75%。

4）钻井风险预测。李维校等人[18]采用支持向量机方法，对钻压、转速、钻速、扭矩、泵压和排量等参数进行实时监测和分析，建立了考虑钻井过程状态的钻井风险识别模型；BP公司建立了钻井过程中的套管卡管预测模型，通过分析过去发生的与静摩擦事件相关的230个属性特征，以近实时状态预测可能发生的静摩擦事件，帮助司钻提前校正管柱下入方法。CGG公司将大数据分析技术应用于英国大陆架复杂井段钻井中，采用趋势分析和相关性分析方法识别钻井风险，优化钻井参数[19]。在Terada Aster平台构建了包含约350口井的钻井参数、测井资料、地质和井位数据的数据库，建立了钻井参数（钻压、机械钻速、扭矩等）与井筒条件之间的联系。通过单井、地层、地层地理位置以及任何组合形式，可以将影响钻井质量的钻井参数显示出来。通过分析不同钻井参数关系曲线上的异常点来识别钻井过程中的异常情况，并提前采取预防措施。沙特阿美公司开发了大数据井涌监测自动化系统[20]，该系统采集压力、流量、悬重、泵速和钻压等参数后，将每个参数组标注“有井涌”或“无井涌”（见图4），并采用决策树、k-最近邻和人工神经网络等5种模型对样本进行学习，最后针对每个参数组进行井涌预测。结果表明，最理想的模型是决策树和k-最近邻，精度达到90%。k-最近邻比决策树模型更精确，但计算时间长。

图4 用于井涌监测的人工神经网络模型Fig.4 The artificial neural network m odel for kick monitoring

2.2.2 储层压裂

低油价背景下，利用大数据分析技术优化水力压裂参数、设计水力压裂方案，是获得最大水力压裂价值、降本增效的有效手段。斯伦贝谢公司提出利用云进行裂缝和储层并行模拟，结合大数据分析和人工智能算法建立代理模型，以实现快速、有效的压裂设计[21]。建立代理模型的过程主要包括数据创建和数据分析2部分（见图5）。首先建立目标区域的静态地球数值模型，通过调整储层渗透率、相对渗透率和裂缝渗透率，使模型的计算结果与历史产能拟合；然后利用标准抽样方法对参数空间内的敏感参数（井距、压裂段数、簇数等）进行随机抽样，通过对多个参数排列组合，得到多个参数的影响；最后利用随机森林、梯度提升、线性回归和决策树等预测分析技术寻找输入数据与输出数据之间最好的拟合关系，建立代理模型，并利用钻井完井过程中获得的新数据对代理模型进行训练，以提高模型的准确性。

图5 代理模型建立流程Fig.5 The flow chart of establishing an agent model

2.2.3 油气开发

1）采收率预测。美国奥斯汀大学与中国石化石油工程技术研究院联合研究了一种基于大数据挖掘和数学回归算法的页岩油气藏的最终采收率（简称EUR）预测新方法[22]。该方法首先利用敏感性测试方法选取与岩性和工程参数相关的主控影响因素，然后利用非线性回归和多元线性回归方法评估EUR与工程和生产参数的相关性，再在原有模型的基础上加入岩性参数因子，最后利用优化后的数据模型测算页岩油气藏的最终采收率。A.W ilson建立了基于无因次数和大数据挖掘技术的油田采收率预测方法，并将其应用于墨西哥湾油田[23]。该方法主要包含以下步骤：首先收集包括地质参数、储量及产量参数、油层物理参数、压力、体积和温度等84种油田属性参数；然后利用无因次数完成油田数据集的聚类和降维；再利用无因次数分析流体流动驱动力的相对重要性；最后利用偏最小二乘回归法提取潜在的因数，实现数据降维，将油田聚类并计算采收率。

2）产量分配。Devon公司综合大数据分析方法、地理信息系统和IT技术，研发了适用于北美非常规页岩油气区块的简易产量分配平台[24]。该平台根据复杂的页岩油气井生产历史数据，快速计算和评估各产区中各区域的油气生产情况，甚至可以精确计算出单井各层射孔段的产量分配。该平台的地理信息系统自带的制图工具可提供产能分配图，用户可以直接在地图上做出选择并使之数据化。该平台应用于试验井Parkins22-20N-13W井的Chester目标产层，5m in内生成以目标井为中心、半径19.2 km区域油气累计产量分布图，评估显示该井周围1.6 km区域内已生产约13.8×103m3当量油气，已产油气量较高，说明该区域内Chester层的枯竭风险较高，可据此指导布井。

3）生产设备性能优化。壳牌公司利用大数据技术分析了大量的历史生产数据、自动化监测数据、故障维修日志和测试数据等，建立了电潜泵故障预测模型，与采油专家经验结合，对预测模型进行实时修正，识别并去除因传感器等故障导致的伪劣数据，进一步提高了预测精度（超过80%），大大减少了故障停机次数。挪威国家石油公司将大数据分析技术应用于设备维护作业系统，基于实时采集的设备运行数据，利用智能算法计算了设备的最佳维修保养周期，优化了维修保养停机的计划，达到了设备维修保养周期最大化的目的。此外，基于历史数据建立了设备的失效模型，并优化了设备检测策略和方案，利用大数据技术实时监测设备运转，一旦设备运行达到方案预设的条件，系统将预警并给出维修保养建议，从而避免了设备严重故障造成的停机大修事故。

3 大数据在石油工程中的发展建议

目前，国内外能源公司在油气勘探、开发业务中尝试使用大数据分析技术，并取得了良好的实施效果，主要具备以下特征：1）国际大型石油公司正在或基本已建成大数据分析平台。通过建立大数据分析平台，将人、过程和技术联系起来，以实现价值的最大化；2）小场景产生大价值。针对钻井、压裂、生产中具体的应用场景，以解决具体业务问题为目标，通过大数据发现各相关因素的变化情况并预测其变化带来的结果，提高业务预见性，实现业务的自动优化；3）云化趋势降低技术使用门槛，与互联网公司跨界联姻趋势明显。各大能源公司均与数字巨头公司合作构建云上数据平台，向云化解决方案的演进使石油公司能够更专注于数据和业务逻辑，不需要维护底层的硬件和网络；4）引入了智能算法。通过引入机器学习和深度学习等智能算法，进一步提高了大数据分析的准确性和实时性。

利用大数据技术优化石油工程作业流程、实现降本增效目的已成为各大石油公司的广泛共识。在大数据技术应用日益广泛和深入的趋势下，石油行业应借助互联网、电子商务等行业的大数据应用经验，明确各领域的应用需求，积极推动大数据技术的推广应用。具体建议如下：

1）建立统一的石油工程大数据平台，实现数据互通、信息分享。数据是石油公司智能化转型的基础，建立统一的大数据平台需要油田分公司、油田服务公司和科研机构的共同参与，只有加强石油工程各环节的数据共享，打破数据孤立分散、相互隔绝的局面，通过共享不同专业和部门之间的信息数据，规范数据的采集、传输、存储、转换、集成和应用，提升数据的一致性和可靠性，才可能实现一体化的数据融合。

2）紧密联合数字化巨头，自主创新与合作研发并重。与互联网、电子商务等行业相比，石油行业在信息通信技术方面的技术积累和人才积累明显薄弱，通过自主创新获得大数据技术成功将是一个非常漫长的过程。加强与数字化巨头公司的合作，探索以石油公司为主体，与阿里巴巴、华为等国内顶尖信息企业、高等院校联合筹建石油工程大数据技术重点实验室，提供专项资金支撑石油工程大数据技术的研发。

3）完善大数据管理机制和技术标准。建立针对石油工程的大数据标准体系，推进油田现场数据采集、指标口径、交换接口、访问接口、数据质量和数据交换等关键标准的制定和实施。推进数据管控制度建设，明确业务职能责任部门、专业分公司石油工程数据管理及共享的义务和权利，形成石油工程大数据治理长效机制。

4）强化基础技术、前瞻技术研究。针对传统的大数据优化算法在处理高维石油工程大数据时性能急剧下降的问题，结合石油工程大数据特点，强化机器学习、深度学习等智能算法的基础研究，开展钻井井筒数字孪生系统、钻完井机器人、井场虚拟现实/增强现实和认知计算等前瞻技术的研究，以提高石油工程大数据分析的速度和准确度，为下一代石油工程智能化的发展奠定技术基础。

5）坚持“以点带面”和“先易后难”原则，逐步构建石油工程大数据生态系统。研究石油工程大数据技术发展战略，制定石油工程与大数据技术融合发展的技术路线，先针对容易实现的具体应用场景部署实施相关项目，再集成各单项技术形成石油工程人工智能生态系统。建议近期重点攻关钻井参数优化、钻井风险预警、油藏智能导向钻井、完井参数优化和地质工程一体化等单项技术。

4 结束语

海量数据是石油工程多学科交叉融合一体化的基础，从海量数据中快速分析、挖掘得到有价值信息的核心就是大数据技术。大数据技术的进步为石油工程的信息化、智能化发展提供了新的机遇，建立统一的、一体化的大数据平台，结合石油工程专业的特点，借助机器学习、深度学习等人工智能算法，形成石油工程领域大数据生态系统，对于优化工程作业参数、提高作业效率和降低作业成本具有重要意义。

致谢：论文撰写过程中，孙旭东专家给予了帮助和指导，李丹丹、廖璐璐、陈曾伟等同事帮助完成了资料的收集工作，在此表示感谢！