APP下载

一种基于PCA-RF的卡钻预测方法

2021-04-09刘建明李玉梅宋剑鸣

关键词:原始数据贡献率钻井

刘建明,李玉梅,张 涛,宋剑鸣

(1.北京信息科技大学 自动化学院,北京 100192;2.北京信息科技大学 高动态导航技术北京市重点实验室,北京 100192;3.中国石油集团渤海钻探工程技术研究院,天津 300457)

0 引 言

卡钻是钻井复杂工况最常发生的事故之一,也是造成钻井成本升高的原因之一。根据近年来的钻井资料统计分析,卡钻工况在井下复杂工况中占40%~50%,由卡钻引起的资金损失占非生产耗费资金的50%以上[1-2]。

卡钻的发生会导致井下工程参数的异常变化,传统的数学模型难以完全反映卡钻发生时的变化规律,机器学习可以对非线性规律进行较为准确的描述,建立有效的非线性分类模型,通过机器学习方法可以实现卡钻预测。2006年在墨西哥湾油田实现了通过神经网络模型进行卡钻预测的工程应用[3]。单志刚等[4]采用人工神经网络模型进行卡钻预测,开发出人工神经网络实时卡钻预测系统软件。王江萍等[5]通过人工神经网络对知识进行获取,利用专家系统对事故进行诊断,研发出一套能诊断多种钻井工况的系统。刘光星等[6]将时间序列ARMA模型与神经网络非线性模型相结合,提出一种基于时间序列的神经网络卡钻预测方法。

卡钻发生前可以分成钻具正常运行时间和异常运行时间,卡钻预测归属于分类问题。RF(random forest,随机森林)是一种成熟的分类算法,有可靠的预测性能;PCA(principal component analysis,主成分分析法)可以降低数据集的维度,提高运算效率。PCA与RF相结合的算法既能保证预测准确率,又能在数据量大的情况下保证较高的运算效率,近年来取得了良好的应用效果。朱志浩等[7]采用PCA-RF算法构建对回采巷道稳定性预测的模型,比RF、支持向量机和BP神经网络预测模型预测精度高。赵帅等[8]提出一种结合RF与PCA的刀具磨损评估方法,该方法比AdaBoost能更准确评估刀具的磨损程度且适应能力更好。何珂等[9]采用PCA和RF相结合的模型实现对交通事故持续时间的预测,比RF模型预测精度和效率更高,比人工神经网络模型运算效率更高。

本文利用PCA方法对初始数据集做降维处理,降低输入数据的维度,提高运算效率;利用降维后的数据集构造RF模型,实现卡钻预测。

1 PCA-RF模型

1.1 模型构建

PCA-RF模型构建流程如图1所示。

图1 PCA-RF模型构建流程

1.2 PCA基本原理

K.Pearson在1901年提出主成分分析思想[10]。Hotelling在1933年完善了PCA属性基础[11]。PCA可以使数据集维数减少,并尽可能减少信息损失。在井下钻井过程中,各类传感器采集到不同的数据,组成高维数据集,不利于对卡钻预测方法的研究,主成分分析法可以解决数据维数高的问题,并能够提高预测模型的运算效率,步骤如下:

1) 对原始数据进行标准化处理。

(1)

2) 计算相关系数矩阵R。

相关系数矩阵

R=(rij)m×m

(2)

式中:rii=1,rij=rji,rij为第i个指标与第j个指标的相关系数。

3) 计算特征值和特征向量。

计算相关系数矩阵R的特征值λ1≥λ2≥…≥λm≥0,以及对应的特征向量u1,u2,…,um,其中uj=(u1j,u2j,…,unj)T,由特征向量组成m个新的指标变量

(3)

式中:y1为第1主成分,y2为第2主成分,…,ym为第m主成分。

4) 选择p(p≤m)个主成分,计算综合评价。

①计算特征值λj(j=1,2,…,m)的信息贡献率和累积贡献率。称bj为主成分yj的信息贡献率:

(4)

称αp为主成分y1,y2,…,yp的累积贡献率:

(5)

当累积贡献率接近于1时,则选择前p个指标变量y1、y2、…、yp作为p个主成分,代替原来m个指标变量,从而可对p个主成分进行综合分析。

②计算综合得分

(6)

式中bj为第j个主成分的信息贡献率,根据综合得分值就可进行评价。

1.3 构建RF模型

随机森林最早由Leo Breiman和Adele Culter提出[12]。该算法综合了Leo[13]提出的Bagging算法和H.O[14]提出的随机子空间方法,利用两种随机的思想,很好地抑制了传统决策树的过拟合现象。随机森林能处理数据量大的数据集,且模型的抗干扰能力强,泛化能力好,分类准确率高[15]。

RF模型构建步骤如下:

1) 设原始数据集为Q,样本数目为W,属性数目为E。通过Bootstrap重采样方法从原始数据集Q中有放回地随机采样,生成一个样本数为w的训练子集,其中训练子集样本数w应小于W;

2) 从E个属性中任意选e个作为子集的属性,以w个样本、e个属性的子集训练生成决策树;

3) 将上述两步进行P次,可得棵数为P的RF模型;

4) 将测试集输入生成的P棵决策树中,用Bagging的集成思想,汇总P棵决策树的诊断,即可得RF的诊断结论。

2 实验数据及其预处理

实验数据来源为冀东某油井钻井过程中的实测数据,测量工具为北京信息科技大学自主研发的井下多参数测量短节,可测量包括钻压、扭矩、内压、外压、温度、振动在内的多种工程参数。g为重力加速度,表1为仪器参数测量量程和精度。

表1 仪器参数测量量程和精度

图2、3、4为实测数据,卡钻事故发生在112 000 s后,可以看到在107 000 s到112 000 s处钻压数据有明显变动,同时三轴振动数据波动变得剧烈,故可将90 000~10 7000 s视为正常钻进状态,107 000~112 000 s视为卡钻前的异常钻进状态。90 000~107 000 s时间段内,温度、压力数据接近平稳变化,X向、Y向、Z向振动数据未发生剧烈变化,表示此时间段钻井工作正常进行。107 000~112 000 s时间段内,钻压明显上升,Y向振动变化剧烈,此阶段表示钻井工作进入异常阶段,即将发生卡钻事故。

图2 井下内外压和温度实测数据

图3 井下三轴振动实测数据

图4 井下钻压和扭矩实测数据

本文选用90 000~107 000 s区间的部分正常钻进数据点和107 000~112 000 s区间的部分异常钻进数据点组成原始数据集,每条数据由钻压、扭矩、温度、内压、外压、X向振动、Y向振动、Z向振动8种特征组成。对原始数据集做主成分分析,计算分析后的各主成分贡献率,将各主成分按贡献率由大到小进行排序,如图5所示。

图5 数据集PCA降维后各主成分的贡献率

从图5可以看出,前3个主成分的累计贡献率达到99.19%,可以用前3个主成分来代替原始数据集作为模型输入数据,通过RF模型和SVM模型对降维后的数据进行训练和测试。

3 卡钻预测结果与分析

选用近钻头的钻压、扭矩、温度、内压、外压、X向振动、Y向振动、Z向振动组成数据特征向量,选用数据集90 000~107 000 s区间的200 000组正常数据和107 000~112 000 s区间的100 000组卡钻数据组成原始数据集,对RF和SVM卡钻预测模型进行训练和测试;对原始数据进行PCA降维,用贡献率前3的主成分组成新的数据集,对PCA-RF和PCA-SVM卡钻预测模型进行训练和测试。图6、7分别为4种预测模型训练时间和准确率,测试时间和准确率。

图6 4种预测模型训练时间和准确率

图7 4种预测模型测试时间和准确率

由图6、7可知,PCA-RF预测模型的训练集和测试集准确率均高于RF、SVM、PCA-SVM模型,分别高0.11%、0.78%、0.95%和0.16%、0.89%、0.94%,同时训练时间和测试时间分别减少了1.63 s、7.29 s、3.83 s和0.61 s、1.48 s、0.9 s。PCA-RF模型准确率高于RF模型,PCA-SVM模型准确率低于SVM模型。

通过公式(时间A-时间B)/时间A来计算效率的提升,分析和计算后可知:PCA-RF预测模型综合性能优于RF、SVM、PCA-SVM模型,准确率高于其他3种模型,训练效率和测试效率分别提高26.0%、61.1%、45.2%和46.2%、67.6%、56.0%。PCA方法在降维过程中存在不确定性,对原始数据处理过程可能过滤掉有效信息,也可能过滤掉冗杂和缺失信息,导致准确率可能提升也可能降低,准确率波动不大,但运算效率一定会提升。

4 结束语

为实现井下卡钻工况预测,本文提出了一种基于主成分分析法(PCA)与随机森林(RF)相结合的卡钻预测方法。将PCA-RF卡钻预测模型与RF、SVM、PCA-SVM等模型进行比较分析,得到以下结论:

1) PCA-RF卡钻预测模型训练集准确率98.56%,测试集准确率98.53%,能够有效预测卡钻事故的发生。

2) PCA-RF卡钻预测模型的训练和测试效率分别比RF、SVM、PCA-SVM提升了26.0%、61.1%、45.2%和46.2%、67.6%、56.0%,减少了模型的时间复杂度。PCA方法在保证准确率波动不大的情况下,提高了模型的运算效率。

3) 结合实验结果,对PCA-RF卡钻预测模型的准确率和运算效率进行分析,认为PCA-RF卡钻预测模型的综合性能最佳,可优选为预测预防卡钻事故的方法。

由于钻井作业时间和空间的限制,井下测量工程参数传送至地面存在时间长、数据衰减的问题,使得地面操作存在时间滞后性和不准确性。本文作者所做研究致力于井下工况智能识别,将算法模型搭载于井下钻井微处理器,利用井下实时数据进行井下卡钻工况预测和分析,将结果返回地面,一定程度上能降低钻井作业中的时间和空间限制,有利于钻井事业的发展。

猜你喜欢

原始数据贡献率钻井
受特定变化趋势限制的传感器数据处理方法研究
一种通用的装备体系贡献率评估框架
论航空情报原始数据提交与应用
14.8%
中国建成全球最大海上钻井平台
对物理实验测量仪器读数的思考
浮式钻井平台将迎来史上最大拆解潮
未来2年将有超过100座钻井平台报废
振华重工研制国内首个钻井VFD控制系统