基于密度聚类和随机森林的地下储气库注采系统风险评估方法研究
2021-03-19冀丰偲张早校仝淑月高继峰
冀丰偲 王 磊 张早校 仝淑月 高继峰
(1.西安交通大学化学工程与技术学院;2.中石化中原石油工程设计有限公司)
天然气地下储气库是国家能源战略基础性设施, 由生产装置、SCADA控制系统和单元模块组成,一般分为地下储层、注采系统和地面设施,彼此之间相互作用,同时整体系统易受外部环境影响,导致存在复杂的动态行为特征。 根据国际气体工业联合会(IGU)统计,我国储气库实际库容量仅为设计库容量的26%。 由于储气库单元设备失效、运行方案不合理造成无法完成既定任务注采气量,是我国储气库运营过程中所面临的挑战之一[1]。而作为天然气调峰的重要设施和手段,对地下储气库注采系统进行高效、准确的风险管理尤为重要。
目前国内关于储气库风险性的标准尚未制定,仅针对特定油气井的类型进行了规定,但并未指明可操作性和具体实施流程[2]。 以数值模拟[3,4]、可靠性理论[5,6]及故障树[7]等为代表的传统技术路线的有效性在长期的工业实践中得到了证明,但不足之处是需要充足的专业知识、工程理论,难以拟合精确的全局模型,且在系统建模中无法捕捉生产过程波动引起的动态风险,带来了模糊性和不确定性[8]。
注采井场作为地下储气库的核心组成部分,受到注气、采气双重循环的影响,运行中“强采强注”,对工艺、设备和流程的要求高[9]。笔者以地下储气库注采系统为研究对象,利用基于密度的聚类和随机森林算法构建大数据智能化动态风险判别模型,具备强大的数据分析能力,能从实际注采过程中发现隐藏的规律,避免抽象的过程机理分析,从而指导、优化生产管理模式。
1 建模理论
1.1 基于密度的聚类
储气库注采系统风险的本质是生产过程变量偏离其正常运行模式的状态,而分析来自不同状态偏差的数据可用于风险评估。 对历史运行数据进行基于密度的聚类分析,能判断出不同运行工况所对应的数据簇,而且可以剔除少数不合理数据,是建立稳定、健康的模型的基础。
DBSCAN是一种经典的通过定义密度对空间中数据点进行聚类的算法[10],聚类相关算法适用于复杂大型工业生产过程的数据分析和标记过程[11~13]。DBSCAN定义了Eps、Minpts两个参数来描述邻域数据点的分布情况, 其中Eps描述了某一数据点邻域距离的阈值,即为定义密度引入的邻域半径;Minpts描述了某一数据点在半径为Eps的邻域中包含点的数量的阈值;样本集为D={x1,x2,…,xn},聚类簇为C={C1,C2,…,Ck}。 DBSCAN算法流程如下[14]:
1.2 随机森林
随机森林[15](Random Forest,RF)是基于决策树[16,17]的一种分类算法,它包含多个随机决策树,每一棵决策树之间是没有关联的,当输入待训练的样本集数据时,最终的类别结果由单个决策树的输出结果“简单投票”决定。 随机森林模型对噪声和异常值有一定的容忍性, 同时能减轻过拟合,对实际工业生产相关的分类问题具有较好的可扩展性和实用性[18~21],其原理如图1所示[22]。
图1 随机森林分类过程示意图
随机森林{h(d,θt),t=1,2,…,T}由树形分类器集合而成,其元分类器h(d,θt)可构造出未剪枝的分类决策树。 对于训练样本集D′,可有放回地进行采样,得到n组训练集D′1,D′2,…,D′n,并生成T棵分类回归树, 其输出类别由森林中树的多数投票决定:
式中 c——得票最多的训练样本的所属类别;
h(d,θt)——随机森林分类函数,d是输入向量,θt是独立同分布的随机向量;
I——指示器函数。
投票完成后得到混合矩阵CM。 准确率CA的计算式是:
其中,CM(i,j)表示i类别的样本被划分为j类的次数,当i=j时表示预测正确。
对地下储气库注采系统进行风险评估,就是要实现对不同运行工况的分类,原理是根据建立的随机森林分类器识别,并评估实时监测的生产数据风险的高低。
2 风险评估系统架构设计
笔者结合大数据技术与储气库生产运行的特点,提出并设计了一种基于密度聚类和随机森林的地下储气库注采系统风险评估方法,框架如图2所示,包括离线建模和在线评估两个阶段。
图2 风险评估方法架构
2.1 离线建模
离线建模流程如下:
a. 采集历史运行监测数据;
b. 数据预处理和数据集矩阵构建;
c. 基于密度的聚类分析,数据标签标记和验证;
d. 训练集、测试集划分,训练随机森林分类模型;
e. 模型测试、性能调优;
f. 若准确率优良, 保存模型并进入在线评估阶段,否则需重新训练。
2.2 在线评估
在线评估流程如下:
a. 输入实时运行监测数据;
b. 以历史运行数据为尺度,对实时数据进行预处理,构建数据集矩阵;
c. 输入随机森林模型,输出风险评估结果;
d. 专家对模型进行诊断和验证, 确保有效性, 若存在较大差异则需使用最新数据重新训练。
3 实例分析
某储气库是以季节调峰为目的的枯竭气藏型地下储气库,其多口注采井在日常运行、应急调峰时产生大量的温度、压力、瞬时流量等过程信息,以及生产制度、时间节点等管理信息,这些数据都通过总站的SCADA系统直接或间接地反映系统的运行状态。
3.1 数据预处理
数据预处理是数据分析过程中的关键环节,高质量的数据能提升数据分析的效果。 从生产现场直接获取的监测数据,无法避免系统噪声对数据真实性的扰乱,加之数据传输中间环节和人工操作可能造成误差,因此不同来源、不同格式、不同量纲的传感器数据需经过预处理才能够在系统建模中应用,包括数据集成、清洗、相关性分析及标准化等,具体流程如图3所示。
乞求皮特发慈悲的想法让我怒从胆边生,冲动之下,我抬脚朝皮特的侧身踢去。事与愿违,他抓住我的脚,向前一拽,我一下失去了平衡,背部着地,仰面朝天狠狠地摔在地上,只好把脚抽回来,挣扎着站起身。
图3 数据预处理流程
受限于数据来源,笔者通过筛选,选定“注气”生产模式下,涉及储气库工艺参数的4个连续特征字段用以代表该注采井生产运行时的状态,分别是注采井“生产油压”、“生产套压”、“油管温度”和“套管温度”,计2 591组数据。 其余变量,如“瞬时流量”、“技套/表套压力”及“井口外输管线压力”等由于未被连续监测等客观原因,未计入数据矩阵。
以相关性分析为例进行说明。 在地下储气库注采系统中,各种单元、设备的测量变量,如温度、压力等之间存在相互影响、互相作用的非独立关系,如两个特性的相关性较高,那么至少有一个特征需要被丢弃。 皮尔逊相关系数法是度量两个变量X=[X1,X2,…,Xn]和Y=[Y1,Y2,…,Yn]间密切程度的一类指标[23],其系数r的大小反映了相关程度的强弱,r值介于 [-1,1],|r|越接近于1,则代表相关性越高,其计算式为:
以皮尔逊相关系数法计算的某注采井四维度特征变量的相关性系数见表1, 可知 “生产油压”与“生产套压”间的r值相对较大,为0.55,但未达到相关性警戒值,故可保留所有待观察的特征变量。
表1 特征变量相关性分析
经数据预处理流程后, 剔除了217组不合理样本数据,消除了不同量纲、量纲单位给建模带来的影响,得到的有效数据矩阵为2374×4,其中,2 374代表数据组的行数,4代表特征变量的列数。
3.2 聚类及运行状态验证
地下储气库注采系统是一个工业领域的生产过程, 为按模式计划生产且规则一贯式的作业,在大部分生产时间,都处于一个动态稳定的过程,不会出现偏离正常生产状况过大的情况。
为便于数据可视化验证和展示,笔者采用主元 分 析(Principal Components Analysis,PCA)方法[24~26],将四维度原始特征变量均降至三维度,维度约简后特征集的大小由2374×4减小为2374×3。
由于对储气库注采系统运行数据信息及其代表的实际生产意义“无知”,在缺乏数据标签的情况下,采用DBSCAN进行聚类分析,可根据不同数据的特点进行聚类数据簇的划分,实现数据标签的自动化标注,这里选取模型参数为{Eps=0.5,Minpts=5}。 图4a为三维原始数据,其中x、y、z轴指代数据的3个维度, 可以看出, 数据分布各自聚散,大簇、小簇混合交织,且存在部分孤立的噪点;图4b是聚类计算后的数据,数据存在一定规律类别,既有较大的数据团,也有中等大小的数据团,还有散落分布的数据点,分别以不同颜色呈现。
图4 三维数据聚类展示
通过原始数据的聚类,可实现对注采系统中不同类型数据团的追溯,并分析不同类数据团的特点和异同点, 获取所对应运行状态的规律,为操作人员提供生产指导。 笔者结合地下储气库现场的实际生产工况和专业知识考虑不同生产状态的数据信息与其他聚类数据簇的差异度,精确定位“不良”运行状态数据簇,自顶向下匹配各种运行工况,运行数据标记见表2。
表2 运行数据标记
3.3 模型训练和结果输出
将以上数据,包括聚类后的运行标签一起构建数据集矩阵,随机划分训练集和测试集,训练集比例为75%,计1 780组,测试集比例为25%,计594组。
输入随机森林风险评估模型,可快速判别出运行模式编号和所对应的动态风险大小,验证了笔者所提出方法的有效性。
模型在测试集上的准确率见表3, 综合准确率达到98.99%。 将训练好的高精度风险判别模型保存,用于后续的在线风险评估过程中,能够更好地辅助生产决策。
表3 混淆矩阵
4 结束语
基于注采现场生产数据,重点关注以“生产油压”、“生产套压”、“油管温度”和“套管温度”为代表的指标量化风险分级控制和动态风险识别,采用相关性分析、主元分析等算法对输入变量进行数据预处理以便于可视化验证,基于密度并结合现场生产工况,实现了对不同聚类簇和运行工况标签的自动划分,设计了离线建模、在线评估的随机森林动态风险评估系统, 综合准确率达98%以上。 该方法避免了传统风险评价策略对系统内部复杂机理过程的研究,最大限度地利用了数据的价值,提升了企业风险管理能力。 实例分析结果表明了该方法的适用性、有效性,但不足之处是在实例分析中,受限于数据来源等客观原因,未能获取充足的特征变量维度和数量。