APP下载

极端梯度提升与随机森林融合的天然气 露点预测方法

2022-07-09熊伟何彦霖宋伟张厚望尹爱军

装备环境工程 2022年6期
关键词:露点吸收塔特征选择

熊伟,何彦霖,宋伟,张厚望,尹爱军

(1.中国石油西南油气田分公司 重庆气矿,重庆 400021; 2.重庆大学 机械与运载工程学院,重庆 400044)

天然气作为一种优质的清洁能源,承担着国民经济快速发展的重要职责,保证天然气在集输过程中的安全以及产品质量至关重要。天然气在集输过程中,由于时变温度及压力的作用会析出游离的液态水,极易与天然气中的碳、硫等酸性物质形成酸性溶液,进而导致集输管线腐蚀穿孔、阀门堵塞等危害现象。天然气水露点反映了天然气中液态水的含量,是衡量脱水装置脱水性能及天然气产品质量的一项重要技术指标。目前,对于水露点的测量方法大多停留在人工采用冷却镜面露点仪测量的阶段,成本高,且检测仪易受到外界因素的影响,从而导致检测结果与实际值存在误差,同时结果存在一定的时延性,不能实时准确地反映产品质量。因此,对天然气水露点进行实时准确地评估是天然气集输过程中一项重要的任务。

考虑到对天然气水露点影响最大的工艺参数为三甘醇(Triethylene Glycol,TEG)浓度与吸收塔接触温度,基于此,研究人员已提出多种利用相关均衡性的天然气水露点估算方法。然上述平衡式无法精确估计气相TEG溶液上方的平衡水浓度。Twu等提出使用TST(Twu-Sim-Tassone)状态方程来模拟含有TEG与水的二元系统,同时提出TST状态方程与相关均衡关联的天然气水露点预测方法,但该方法泛化能力较弱。文献[8]构建了水露点关于吸收塔接触温度与TEG浓度的一个平衡多项式,尽管该多项式相关工艺参数的有效覆盖范围较广,如吸收塔接触温度范围为10~80 ℃、TEG浓度范围为90%~99.999%,但仍有必要开发更高精度的水露点预测模型。随着数据驱动方法的兴起,Ahmadi等提出应用基于粒子群优化(Particle Swarm Optimization,PSO)的人工神经网络(Artificial Neural Network,ANN)预测不同TEG浓度和吸收塔接触温度下的水露点。Afshin等根据TEG浓度与吸收塔接触温度,分别利用多层感知网络(Multilayer Perceptron,MLP)与径向基神经网络(Radial Basis Function Neural Network,RBF-NN)对水露点进行预测,结果表明,MLP模型具有更好的表现。文献[11]采用基因表达式编程(Gene Expression Programming,GEP)构造水露点关于TEG浓度与吸收塔接触温度的函数,结果显示,所构建的函数较文献[8]更简单、更准确。Ahmad等将贝叶斯正则化训练的前反馈人工神经网络(Feedforward Artificial Neural Network,FANN)用于预测TEG脱水过程中天然气平衡水露点。尽管上述各方法均能实现对水露点的评估,但仅考虑了TEG浓度、吸收塔接触温度2个与天然气水露点关联紧密的工艺参数,忽略了天然气TEG脱水与再生过程中其余重要工艺参数的影响。

由于在解释变量与响应之间复杂非线性时所具备的优秀能力,基于分类回归树(Classification And Regression Tree,CART)的算法被证明是有效可靠的方法,但仍存在过拟合、预测能力差等问题。随机森林(Random Forest,RF)作为其中最具代表性的算法,它克服了上述缺点,拥有极佳的预测能力,在医学、航空、电力等领域均得到了有效应用。将RF算法引入石化领域,构建天然气水露点预测模型,为天然气脱水装置关键参数预测提供参考。实际TEG脱水装置中,在天然气脱水与TEG再生流程中涵盖多个反映装置状态的工艺参数,如各部位的流量、液位、压力、温度以及控制阀开度等,各工艺参数相互耦合以维持化工过程平衡。提取对水露点敏感性较高的影响参数,减少无关或冗余参数对水露点预测结果的影响,提高预测模型的预测精度是本文重点研究内容之一。极端梯度提升(eXtreme Gradient Boosting,XGBoost)是一种性能优秀的特征选择算法,在各领域获得了较好的效果。

本文将XGBoost算法引入至水露点预测领域,对脱水过程中各工艺参数与水露点间的重要性进行评分,筛选最优特征参数集,以最优特征参数集作为RF模型特征变量,提出将XGBoost算法、RF算法有机结合的天然气水露点预测方法。利用XGBoost约简样本指标,提取关键特征参数,充分利用脱水流程中各工艺参数对预测对象的影响。再使用RF建立水露点预测模型,实现对水露点进行有效且实时的预测。以天然气脱水监测系统监测数据与生产数据为例,验证所提方法的有效性。

1 XGBoost特征选择

XGBoost是一种基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的机器学习框架。常规GBDT模型在优化过程中仅使用一阶导数信息,难以实施分布式训练。XGBoost则对损失函数执行二次泰勒展开式,同时利用一阶及二阶导数信息,可在训练时自动使用CPU的多线程并行计算。此外为防止过拟合,在损失函数中增加正则惩罚项降低模型复杂度,并采用行列采样的方式进行采样。模型如式(1)所示。

式中:为CART树的数量;f为表示第棵CART树;为所有CART树的集合空间;x表示第个数据点的特征向量。

对应的目标函数为:

式中:代表损失函数,表征预测值与观测值之间的误差;为用于防止过拟合的正则惩罚项函数,可有效限制叶子节点的数量。

式中:、为惩罚系数;表示给定CART树的叶节点数目;为每棵CART树上叶子节点的权重。

对目标函数进行二阶泰勒展开,有:

其中,gh分别表示一阶与二阶梯度,见式(6)。

将式(3)与(6)代入目标函数的二阶泰勒展开式,当其导数为0时,最佳权重及目标函数为:

基于XGBoost进行特征选择时,特征变量的平均增益反映了以当前特征为分支节点进行分裂所提升的准确率,以该指标量化特征变量在模型中的重要程度。每次分裂后模型的增益表示为:

式中:、分别表示分裂后所有左、右侧叶子节点的集合。对特征变量在每棵CART树的增益进行加权平均计算即可得到其在模型中的重要性得分。

2 水露点预测模型

2.1 随机森林

随机森林(Random Forest,RF)是在一种在决策树基础上所构建的集成学习方法,其在决策树训练过程中引入了随机子空间与随机属性特征,有效提高了模型的抗噪能力、抗过拟合性,如今广泛应用于分类与回归问题中。单棵决策树在面对数据中的微小变化时容易产生极大误差,RF结合多棵决策树进行分类或回归处理,克服了单棵决策树容易出现的结果不稳定现象。RF的基本原理是通过使用Boostrap重抽样法,从总体训练数据集中有放回地随机抽取多个与样本容量相同的样本子集,最大限度地构建多棵决策树,且每棵决策树随机选择特征进行节点分裂,构建一个全局集成学习器,而后取每棵决策树的回归均值作为回归预测结果。RF模型的构造过程如图1所示。

图1 RF构造过程 Fig.1 The Construction process of RF

构造随机森林的一般步骤有:

2)对于特征参数集,针对每个样本子集,建立决策树回归模型(,),=1,2,…,。随机选择个特征,应小于总的特征数,使得每个叶节点选择最大信息增益的特征进行分裂,同时不进行剪枝处理。其中,信息增益表示为:

3)所有样本子集训练完成后,得到决策树回归模型,将所有决策树组合形成随机森林,取各决策树的均值作为随机森林回归预测模型的最终结果。

2.2 预测流程

在三甘醇脱水装置天然气水露点预测中,用XGBoost筛选出的影响水露点的关键特征参数建立特征变量集,输入至RF模型得到水露点的预测结果。其流程如图2所示。

图2 天然气水露点预测流程 Fig.2 Natural gas water dew point prediction process

采用均方根误差()与平均绝对误差()指标评价预测方法的有效性及准确性。

3 实验验证

3.1 数据来源

西南油气田公司重庆气矿某脱水装置现场如图3所示。该套脱水装置采用三甘醇脱水工艺实现对天然气脱水,分为天然气脱水与三甘醇再生2部分子系统,包括原料气分离器、吸收塔、重沸器及精馏柱等众多处理子设备。

图3 脱水现场 Fig.3 Dehydration site map

根据已建立的脱水装置实时数据监测与采集系统,对原料气分离器液位、三甘醇循环量及精馏柱温度等33个工艺参数数据进行采集,并统计三甘醇贫液浓度、三甘醇富液浓度及天然气水露点等3个生产参数数据,详细监测参数见表1。

表1 脱水装置工艺参数 Tab.1 Process parameters of dehydration unit

本文以该脱水装置生产数据对所提方法进行实验验证,并在全部特征及特征选择后的数据集上对比验证方法的优越性。以脱水装置监测工艺参数为特征参数集,收集该场站2017—2019年共计495条监测数据及天然气水露点,部分工艺参数原始数据如图4所示。

图4 部分监测参数原始数据 Fig.4 Raw data of some monitoring parameters

3.2 特征提取

针对该三甘醇脱水装置多维原始训练数据集,以所有工艺参数为自变量、天然气水露点为因变量,设定XGBoost模型损失函数正则项的叶节点复杂性系 数=0.0,惩罚系数=1,决策树的数量为100,决策树的最大深度为8,最小叶子点权重和为2,学习率为0.01。得到所有工艺特征参数对于天然气水露点的重要性得分,如图5所示。

图5 工艺参数重要性排序 Fig.5 Process parameter importance ranking

从图5可以看出,出吸收塔富甘醇温度的特征重要性最高,达到0.297 07,说明出吸收塔富甘醇温度对天然气水露点具有较大的影响作用。该参数同时反映了三甘醇进吸收塔温度与湿天然气进塔温度2个影响因素,与实际情况吻合。在模型特征选择中,过多或过少的特征数都会导致模型的预测失效,根据重要性得分进行排序,由排序后不同特征个数所对应模型预测准确率如图6所示。随着特征个数的增加,在特征集为前9个特征时及均达到最小值,故选择前9个工艺参数作为后续RF预测模型的特征参数集,见表2。

图6 不同特征个数预测评价 Fig.6 Prediction and evaluation of the number of different features

表2 特征参数集 Tab.2 Characteristic parameter set

3.3 对比分析

设置测试集与训练集的比例为0.25,为了更好地验证所提方法的优越性,在全部特征以及特征选择后的参数集中,运用RF、XGBoost、支持向量机(Support Vector Machine,SVM)进行对比分析验证,结果如图7、8所示。其中,采用网格搜索对RF模型进行寻优处理,设定RF模型的决策树数量为100,叶子节点最小样本数为15,不限制树的最大深度,内部节点再划分样本数为2。图7表示了以全部工艺参数作为后续预测模型的特征集时各种预测模型的预测结果对比,图8表示了采用XGBoost选择的特征参数作为预测模型特征集时各种预测模型的预测结果对比。可以看出,无论是以全部参数为特征还是进行特征选择后,RF的预测值相较于其余2个模型而言更接近真实值,吻合效果更佳,说明RF用于天然气水露点预测领域具有较强的可行性。

图7 全部工艺参数为特征集 Fig.7 The feature sets of all process parameters

图8 选择特征参数集数 Fig.8 Select the data of feature parameter sets

为进一步评价模型预测性能,采用式(12)、(13)所示的均方根误差、平均绝对误差对3组预测模型进行误差分析,结果如图9所示。对于全部参数作为特征集时,RF的=0.827 7 ℃分别低于XGBoost模型的0.896 2 ℃和SVM模型的1.005 3 ℃,同时其均低于其余2组模型;以XGBoost选择参数作为特征集时,RF相较于其余XGBoost与SVM模型,具有最低的、值。进一步说明了无论是否进行特征选择,RF的预测效果更好。对比特征选择前后的评价指标,可以看出,、值均有一定程度的降低。从值来看,RF、XGBoost与SVM特征选择后,分别减少了0.016 9、0.031 8、0.082 1 ℃;从值来看,特征选择后,RF与SVM预测模型分别降低了0.014 6、0.230 8 ℃,而XGBoost则增加了0.020 4 ℃。出现该现象的原因是XGBoost模型中存在个别观测值与实际值有较大偏离程度的离群点,导致指标变差。根本原因在于按照特征重要性选择特征参数数目时,所选择的基准模型为RF,从而针对XGBoost模型可能去除了部分有效信息,导致预测结果出现个别奇异点。从指标可以看出,XGBoost模型在特征选择后,整体预测效果得到了提升。综上所述,经过特征选择后的预测模型,预测性能均得到了一定程度的提升,且本文所提方法均有更好的预测效果。

图9 预测结果评价 Fig.9 Evaluation of prediction results:a) all parameters are characteristic parameters; b) after seleeting characteristic paramenters

将原始脱水监测数据集划分为5等份,任取其中1份作为测试数据集,交叉验证本文所提方法的泛化能力,取评价结果的平均值作为交叉验证评价指标,结果见表3。可以看出,经过特征选择后,与XGBoost模型及SVM模型相比,RF模型具有更优的及指标性能,说明由XGBoost特征提取后运用RF模型对天然气水露点预测具有较好的泛化能力,预测精度和可靠性更高。

表3 交叉验证评价结果 Tab.3 Cross-validation evaluation results

4 结论

针对三甘醇脱水装置实际生产中天然气水露点数据多为人工采用检测仪获得,易受到外界因素的影响,同时检测费用高昂、时效性低等问题,将XGBoost与RF进行有机融合,建立了天然气水露点XGBoost- RF预测方法。以实际生产数据对比分析,结果表明:

1)以脱水系统实时监测工艺参数数据为特征,可有效实现对天然气水露点的预测,实时性高,且避免了外界因素的影响。

2)采用XGBoost算法,对特征参数进行重要性排序,并选择对目标参数敏感特征,降低了冗余特征的影响,提高了预测模型的预测性能。特征选择前后,RF预测结果的平均绝对误差值降低了0.016 9 ℃,均方根误差值降低了0.014 6 ℃;

3)对比分析RF与XGBoost、SVM预测模型结果,RF预测模型具有更好的预测能力与工程实用性,可为天然气集输处理现场提供积极的指导作用。

猜你喜欢

露点吸收塔特征选择
5号炉脱硫提效改造效果分析
提高岩石乳化炸药做功能力研究
一种天然气烃露点控制工艺的制冷模拟优化
燃煤电厂脱硫提效应用研究
基于智能优化算法选择特征的网络入侵检测
一种炼厂富气吸收稳定方法
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
浅谈烟气脱硫改造中吸收塔改造施工方法