APP下载

基于双向长短期记忆循环神经网络和条件随机场的钻井工况识别方法

2023-04-08王海涛王建华邱晨毛金涛李辉

石油钻采工艺 2023年5期
关键词:钻具双向正确率

王海涛 王建华 邱晨 毛金涛 李辉

关键词:钻井工况;智能识别;双向长短期记忆循环神经网络;条件随机场;深度学习

0 引言

当前,国内钻井工况识别主要通过基于机理模型与现场钻井作业人员判断的方式进行识别,具有一定主观性与滞后性。国内外主要是运用大数据和机器学习[1]对钻井故障进行预测及预防或研究相关理论问题,近年来对钻井工况识别的研究开始逐渐增多。2019 年,孙挺等[2]基于支持向量机模型识别倒划眼、接立柱、下套管、下钻及旋转钻5 种工况。2020 年候欣欣等[3]通过数据清理、样本标定,采用基于人工神经网络的技术识别9 种常见钻井工况,包括接单根、起钻、下钻、正划眼、倒划眼、循环、旋转钻进、滑动钻进和其他。郭长杰等[4]深入分析了国内油气行业机器学习的应用场景,并从大数据分析等角度提出了油气公司应用机器学习技术的建议。Ben 等[5]指出由于顶驱振动,仅根据地面转盘转速很难将“旋转钻进”和“滑动钻进”2 种钻井工况分类,而机器学习模型远优于基于规则的计算模型。Oliveira 等[6]通过建立自动钻井工况识别方法和计算钻井时效关键绩效指标,发现钻井过程中的不可见损失时间。Coley[7]开发了新设备,以报告整个钻井作业中的非作业时间,并研发了基于监督机器学习的常见钻井工况分类引擎。钻井现场工况类型繁多,钻井工况的业务逻辑复杂,要想实现更多种类的工况识别,获取不同工况下的实时数据做进一步研究,需解决各工况多条件判断的业务逻辑模型,还要解决工况之间的逻辑冲突问题,这是多工况识别技术的开发难点所在。因此,采用近年来热门的人工智能算法[8],基于双向长短期记忆神经网络加条件随机场建立了钻井工况实时智能识别模型,精准进行钻井工况识别[9]。

1 钻井工况识别模型人工智能算法优选

录井工程会对钻机各项参数进行传输与记录,其数据的特点是具有实时性、数据特征变换规律性、钻机动态逻辑性,基于以上特性,选取3 种人工智能算法进行优势对比,优选出钻井工况智能识别模型的人工智能算法[10]。

决策树算法工况识别模型[11]是由决策点、策略点及输出结果构成的模型,以最大收益值或最低期望作为决策准则,求解在不同条件下各类数据的效益值,通过比较输出识别结果。但该方法适合对识别结果进行精准度校正,对复杂多变的钻井工况识别正确率不高[12]。

ANN 全连接神经网络[13],是机器学习和认知科学领域中一种模仿生物神经网络的结构和功能的数学模型,对一组输入信号和一组输出信号之间的关系进行模拟。全连接神经网络可以用来解决回归任务、预测任务和分类任务,通过设置深层次的网络模型可以取得很好的拟合效果,但不适合处理时序性較强数据,因此不适合进行钻井工况智能识别。

BiLSTM+CRF[14],其计算是基于细胞状态中信息遗忘和新信息输入,实现时序性计算信息从前到后与从后到前的双向信息捕捉,并引入遗忘门、输入门、输出门,对双向时刻的信息遗忘、记忆、输出进行控制,同时添加CRF 层,计算输出序列的条件概率分布,用以纠正错误识别结果,提高识别精度。双向长短期记忆循环神经网络如图1 所示。

图1 中x 是某一时刻的输入特征,对应的y 是该时刻的钻井工况识别结果。基于上述3 种人工智能算法的优势分析,研究优选双向长短期记忆神经网络和条件随机场作为钻井工况识别模型的算法,开展后续研究。

2 样本数据预处理

2.1 录井综合实时数据特征参数

录井综合数据的参数种类繁多,可分为钻井参数、钻井液参数、气测参数共3 种类型,具体分类及内容见表1。若将录井综合数据一并纳入模型进行训练,会导致模型过于复杂,既增加模型训练难度,又可能影响模型输出效果。

钻井液参数、气测参数是反映钻井液性能与地层气状态特征的参数,与钻井工况特征相关性差。而钻井参数中井深、钻头位置、大钩高度、大钩载荷等9 个参数,与钻井工况特征密切相关[15]。如复合钻进时,井深与钻头位置相等,且逐渐增加,大钩高度逐渐降低,钻压、转速、扭矩、排量、立管压力均不为0。这说明不同钻井工况下,9 个钻井参数的特征具有特定规律,故本次选取录井综合数据中的井深、钻头位置、大钩高度、大钩载荷、钻压、转速、扭矩、排量、立管压力9 个钻井参数作为特征参数进行模型训练。

2.2 样本数据收集与处理

钻井工况的人工识别方式,是通过录井综合实时数据的特征变换规律及现场求证方式进行识别。邀请钻探企业录井专家,结合工况人工识别逻辑,对录井综合实时数据进行特征标注。下面介绍工况的人工识别逻辑。

钻进时,钻头切削地层,井深随之增加,钻头位置与井深时刻保持一致[16];转速数据特征取决于钻进类型,如滑动钻进,转速为0,复合钻进,转速大于0;扭矩数据特征与钻进类型同样相关,如滑动钻进,地面扭矩为0,如复合钻进,地面扭矩大于0。钻进类工况具体识别逻辑见表2。

活动钻具时,钻头位置小于井深,钻压理论上为0。活动钻具分上提下放钻具与划眼[17],上提下放钻具时钻柱无旋转,转速为0,划眼时钻具旋转,转速大于0;活动钻具时,大钩载荷大于空大钩载荷;活动钻具时钻柱上提下放交替进行,大钩高度变化趋势不定。活动钻具类工况具体识别逻辑见表3。

钻具位置暂停时,钻机主要为坐卡、静止工况类型。钻头位置小于井深;静止或坐卡时钻柱无旋转,转速为0;静止或坐卡时钻机不循环,则排量为0,立压为0。钻具位置暂停类工况识别逻辑见表4。

结合现场求证结果可总结钻进类、活动钻具类、钻具位置暂停类3 种类型的钻井工况人工识别逻辑,其中钻进类总结工况类型有复合钻进、滑动钻进,活动钻具类总结工况类型有上提钻具、下放钻具、开泵上提钻具、开泵下放钻具、上提干划眼、下放干划眼、上提开泵划眼、下放开泵划眼、起钻、下钻、短起钻、短下钻;钻具位置暂停类总结工况类型有坐卡、静止、原地循环、旋转循环、空转、空井,共可识别钻井工况共计20 种。表2、表3、表4 给出了部分典型工况的人工识别逻辑,其余工况的人工识别逻辑与此类似,读者可参考总结归纳。

基于不同工况的人工识别逻辑,对塔里木油田满深区块10 口井的录井综合实时数据进行工况人工划分[18],得到模型训练样本数据共1 209 533条,第1~7 口井的样本数据为训练集(853 246 条),第8~10 口井的样本数据为测试集(356 287 条)。

3 双向长短期记忆循环神经网络和条件随机场架构设计

3.1 遗忘门、输入门、输出门设计

双向长短期记忆循环神经网络单元可通过设计遗忘门、输入门、输出门进行信息存储的取舍判断[19]。通过遗忘门设计选取舍弃与保存的数据信息,通过输入门设计用于更新细胞状态,通过输出门设计用来确定下一个隐藏状态的值,将新的细胞状态和新的隐藏状态输送至下一序列中。

3.2 CRF 层设计

BiLSTM 模型的输入是上层的输出向量,输出是该时刻的预测工况标签,在独立使用BiLSTM 模型时,模型可以通过计算标签识别分数,选取识别分数最高的标签进行预测标签的输出,但该模型可能存在识别错误的可能,例如“上提钻具”工况之后不能自动识别为“坐卡”工况,这需要对钻井工况的前后组合条件进行约束,通过CRF 层设计来对钻井工况前后组合条件进行约束。

CRF 即条件随机场模型,善于通过邻近标签的关系获取最优预测序列,适合用于计算某个序列中的最优联合概率。该模型优化的是整个序列,而不是将每个时刻的最优解拼接起来, 在这一点上CRF 要优于LSTM。故本方法采用CRF 对BiLSTM的输出进行解码,得到优化后的钻井工况智能识别结果[20]。钻井工况智能识别模型如图2 所示。

在设计CRF 层的损失函数时,设置发射得分、转移得分2 种得分类型。发射得分从BiLSTM 层获取。如图2 所示,x1 为时刻1 的9 项输入特征参数组成的向量,经过正向LSTM 层,得到一个与20 种钻井工况对应的20 维向量输出,每一维的值对应一种钻井工况在此时刻的预测得分。再经过反向的LSTM 层,也得到一个对应各种钻井工况的预测得分。正向LSTM 层的预测得分除了受当前输入参数的影响,还受前面各时刻输入参数的影响;反向的LSTM 层的预测得分则受当前时刻和后面各时刻输入参数的影响。将正向LSTM 层和反向LSTM 层的预测得分合并即为BiLSTM 层的预测得分,作为发射得分。x1 对应各钻机状态的得分中,上提划眼是1.50,复合钻进0.73 等,上提划眼得分最高,即经BiLSTM 层预测的钻机状态为上提划眼。

转移得分为训练集钻机各项动态前后约束条件的统计结果,是通过统计所有钻井工况相互转移之后的得分矩阵,如表5 所示。矩阵中每个数值表示该行标识的钻井工况变为该列标识的钻井工况的统计概率,如第1 行第3 列的数值0.85,表示复合钻进工况变为上提开泵划眼工况的统计概率为0.85。该矩阵中的数值在训练开始时先随机初始化,在训练过程中会不断地对钻进状态的转移情况进行统计,来更新该矩阵的数值,随着不断的训练,这些数值也会越来越合理。

在模型建立后,需利用损失函数,计算预测标签与训练集的正确率,并不断调优以求损失函数的值降至尽可能低,从而保证模型精度。CRF 的损失函数说明如下。

对于输入序列x 对应的输出钻井工况序列y,定义分数函数为

3.3 超参数优选

输入层神经元个数与录井综合实时数据特征参数项个数相同,为9 个;输出层的神经元个数与所识别工况类型个数相同,为20 个。神经网络的隐藏层个数的选取影响着模型训练的准确性[21],在选择时,既要保证模型训练准确性,又要防止模型结果“过拟合”。考虑输入项与输出项的复杂程度,本文分别测试5 层、10 层、15 层隐藏层的神经网络模型,每层隐藏层的神经元数均在10~100 之间,共测试30 组模型。如图3 所示,10 层隐藏层、70 个神经元数的模型准确率最高,为95.12%,因此优选10 层隐藏层、70 个神经元数的模型进行模型训练。

4 钻井工况识别实验

4.1 双向长短期记忆循环神经网络和条件随机场神经网络训练过程

使用双向长短期记忆循环神经网络和条件随机场神经网络结构进行训练,每次训练持续100 次迭代,计算验证模型识别正确率[22]。不同迭代的正确率(Accuracy) 与损失值(Loss) 如图4 所示,经过100 次迭代,训练集和测试集的正确率均达到较高水平,不再有较明显的提高,已经达到训练目的。训练集、测试集的正确率分别为96.49% 和97.23%,训练集损失值为0.000 23。

4.2 双向长短期记忆循环神经网络和条件随机场神经网络正确率验证

根据上文各钻井工况判别条件及特征化处理结果,结合10 口井连续一周记录的共计1 209 533 条录井实时数据,对实验井段的原始数据进行工况识别,识别结果按混淆矩阵[23]统计见图5、图6。

在二分类模型的评价中,正确率是全部样本中预测正确的样本比例,精准率是预测为正样本中预测正确的样本比例,召回率是正样本中预测为正样本的比例。在多分类模型中,可以先将每一个类别单独视为正,其他类别都视为负,计算该类别的正确率、精准率和召回率,然后再取平均值作为多分類模型的评价。F1 分数通过精准率和召回率计算得到[24]。

利用F1 分数计算模型对训练集、测试集的模型识别结果正确率分析验证,结果如表6、表7 所示。

根据实验结果与现场实际情况验证表明,采用双向长短期记忆循环神经网络和条件随机场神经网络所训练的钻井工况识别模型的识别精准率达到91%~97% 左右,平均识别精准率为94.3%,由此可见本模型识别结果准确有效,可用于现场进行钻井工况识别判断。

5 结论

(1) 对比了决策树、ANN 全连接神经网络、BiLSTM+CRF 算法的使用原理,认为BiLSTM+CRF算法更适合用于应对处理工况复杂多样且时序性强的钻井工况识别问题。

(2) 设计了一种基于双向长短期记忆循环神经网络和条件随机场架构的钻井工况识别模型,该模型通过学习录井实时数据的变换特征与钻井工况类型的关联性,得到钻井工况智能识别模型,并通过条件随机场模型对钻井工况识别序列的精度进行优化。

(3) 研究模型最终测试集工况识别正确率达97.23%,满足应用需求,该算法可将录井综合数据赋予“工况状态”信息,为钻井时效分析、各工况数据深度挖掘提供了研究基础,后续应对“发送旋导指令”、“下套管”等复杂工况识别做进一步研究。

猜你喜欢

钻具双向正确率
双向度的成长与自我实现
门诊分诊服务态度与正确率对护患关系的影响
生意
品管圈活动在提高介入手术安全核查正确率中的应用
国外潜孔钻具研发方面的新动向
生意
施必牢螺纹在采样钻具防松连接中的应用研究
一种软开关的交错并联Buck/Boost双向DC/DC变换器
旋挖钻机钻具产品类型
一种工作频率可变的双向DC-DC变换器