基于数据挖掘的输油管道智能化研究
2020-05-08李传宪李龙东郑琬郁
于 涛 李传宪 李龙东 郑琬郁 于 瑶
1. 中国石油大学(华东)储运与建筑工程学院, 山东 青岛 266580;2. 中国石油北京油气调控中心, 北京 100007;3. 中国石油西部管道公司, 新疆 乌鲁木齐 830013
0 前言
长输液体管道作为国家经济发展动脉,目前多采用Supervisory Control And Data Acquisition(SCADA)系统进行远程控制,日常运行中调度员通过分析压力、流量等参数,结合设备状态变化实现管道监控。近年来,随着长输液体管道的自控通讯技术发展,SCADA系统实时数据及历史数据的分析应用,通过参数及设备的自动监测、调节保护、参数预测及工况实时捕捉的管道智能化,逐渐被生产部门重视并投入建设[1-3]。
管道智能化建设是一个综合性工程,人员包括业务专家、数据挖掘专家及软件开发人员等,涉及业务需求的提出、数学模型构建应用等工作。国内外的石油公司在物联网、机器学习、人工智能等管道智能化方面持续开展了大量研究工作,并在管网负荷预测[4]、运营效率及业务优化等方面取得了一定成果[5]。国内石油公司目前多侧重于数据采集与展示,对于数据挖掘和应用主要应用于管道完整性建设[6]、内检测[7-9]、泄漏监测、管道安全识别等方面[10-11],但未打通不同业务之间的界限,信息孤岛现象明显,没有形成统一的数据平台[12]。本文研究并提出了长输液体管道智能化架构,给出架构的核心为数据挖掘层及其相应的数据挖掘算法,通过HY原油管道应用案例,获得基于数据挖掘技术建立的油温预测模型,为未来管道不同业务的智能化应用探索道路。
1 管道智能化架构
长输液体管道的智能化研究应用架构,从下到上分为物理层、数据层、数据挖掘层、应用层和用户层五个[13],见图1。在系统的总体架构中,需充分结合国家、行业及企业标准规范,形成系统需要的标准规范体系。同时考虑系统建设过程中的网络、数据安全,建立安全保障体系,确保系统的安全性。
图1 管道智能化系统架构图Fig.1 Pipeline intelligent system architecture
1.1 物理层
物理层是系统运行的基础硬件环境,主要包括硬件、软件和通讯设备,其中硬件包括服务器,如:应用服务器、数据库服务器、磁盘阵列等设备,通过这些硬件设备为系统提供物理设备支撑;软件主要包括部署在服务器设备上的操作系统,通过软件系统,实现人机界面的交互,为用户提供方便快捷的操作界面;网络通讯设备包括网络交换机、防火墙等设备,为应用系统的运行提供通信保障。
1.2 数据层
主要对各类数据源的采集、存储与管理,通过部署数据采集程序、手动录入、数据上传等多种方式,将生产数据、文档数据、GPS数据等上传到数据库内,对各类数据进行统一管理,为系统应用、分析提供基础数据源。
1.3 数据挖掘层
根据业务需求,利用理论公式、数据回归、数据挖掘等方式,将基础数据进行加工处理,变成可为系统提供支撑的数据或预测模型,如参数的趋势预测,工况识别算法等模型。
1.4 应用层
利用数据挖掘层提供的技术与服务开展各项业务应用,包括:热油管道参数预测与优化、成品油管道批次界面跟踪、异常工况智能识别等。
1.5 用户层
提供多种数据集成、图形报表展现及多维数据分析,以满足用户分类汇总、统计分析、决策支持的需要,为管理人员以及相关业务人员提供决策依据。
2 数据挖掘方法与应用
管道智能化架构研究中,数据挖掘层是通过理论及数据挖掘算法,将业务需求理论化、模型化,是管道未来智能化管理控制的核心。由于长输液体管道运行过程产生大量的实时数据,发生的事件工况、报警信息具有复杂多样、变化快、多维度、多时域频域等特点。以往理论研究方法在数据挖掘层的适用性较差,需采用更为实用的数据挖掘算法建立预测模型。与传统实验研究和数值分析不同,应用于大数据挖掘技术中的神经网络、机器学习及深度学习等算法模型,能够挖掘不同参数之间的隐性关系,实现参数的有效预测,如电网负荷预测、设备故障在线预测与诊断等[14-16]。数据挖掘方法与传统理论研究方法相比,各自的特点,见图2。
图2 传统理论研究方法与数据挖掘方法流程对比图Fig.2 Process comparison between traditional theoreticalresearch method and data mining method
以热油管道苏霍夫油温计算公式为例[17],因公式受影响因素较多,实际应用适应性较差。其主要局限性一是模型构建过程需要对参数进行理想假设和简化,影响误差;二是实际应用过程中,因影响参数的变化,导致模型适用性差;三是分析较片面,局部难以反映宏观时空关联特性。数据挖掘方法不依赖于机理,可将历史和实时数据综合分析,得到多维度宏观时空关联特性。数据挖掘方法与传统理论研究方法并不矛盾,研究过程中数据挖掘方法通过使用传统理论研究方法确定输入参数,建立时空关联特性,提升研究效率,同时也进一步完善科学研究体系,推动研究方法的发展。
3 应用实例分析
HY热油管道主要外输长庆油田高含蜡原油,油品物性见表1,管道全长132.4 km,管径Φ 457 mm,设计压力6.3 MPa(局部10 MPa),设计输量500×104t/a,全线共设1#首站、2#热站、3#热站和4#末站共4座站场。根据沿线地温和油品物性特点,管道采用综合热处理、热处理、加热和常温输送等不同工艺,保证全线油温高于凝点3 ℃,具有运行工艺复杂,动力及燃料油费用高等特点。生产过程中管道油温是重点关注参数。
表1 HY热油管道外输油品物性表
Tab.1 Oil properties of HY hot oil pipeline
原油名称凝点/℃密度/(kg·m-3)含蜡量/(%)胶质沥青质含量/(%)析蜡点/℃反常点/℃外输油品18847.816.48.136.425
HY热油管道下游站场进站油温与输量、地温、上游站场出站油温等参数是一种复杂且相互影响的内部关系,BP神经网络具有实现任意复杂非线性映射的能力,适合于求解此类复杂问题。但BP神经网络同时存在容易陷入局部极小值,网络收敛速度慢,网络结构及参数的选择缺乏统一标准等问题。本文研究使用遗传算法(Genetic Algorithm,GA)优化BP神经网络的初始权值和阈值[18-19],主要包括种群初始化、适应度函数、选择操作、交叉操作和变异操作等,提升模型的准确性和效率。
3.1 GA-BP油温预测模型构建
GA具有自组织、自适应等特点,在运行过程中处理参数编码集,而非参数本身,不受优化函数连续性、可导性约束,此外BP神经网络擅长局部搜索,GA擅长全局搜索。模型构建过程中首先通过GA优化神经网络初始权值,定位获得较优搜索空间,再通过BP神经网络在较优的搜索空间产生最优值,从而较好地确定输入值与期望输出值之间的非线性关系,提高模型预测精度[20]。GA优化程序见图3。
图3 GA优化程序框图Fig.3 Genetic Algorithm Optimization Program
由图3可知,GA优化的步骤如下:
第一步,网络初始化与遗传编码。初始化BP神经网络,随机产生一个Xm×n种群,确定网络输入、输出节点数s1、s2,训练次数N和隐含层数H,训练误差ε等参数,个体长度即为神经网络权值个数。确定种群规模m、最大迭代次数T、交叉概率Pc和变异概略Pm,其长度n为:
n=H×(s1+s2)+H+s2
(1)
第二步,遗传进化。通过迭代求解最佳结构权值和阈值,包括选择、交叉、变异等操作。若第i个个体的适应度值为fi,则选中概率为:
(2)
交叉由2个个体通过线性组合产生新个体。交叉概率产生新个体为:
Xi(k+1)=αXi(k)+(1-α)Xi+1(k)
(3)
Xi+1(k+1)=αXi+1(k)+(1-α)Xi(k)
(4)
式中:α为0~1之间的随机值,由变异概率Pm所对应的取值范围内,随机值替换原值,即:
Xi=Xi(p)+s1×q+Xi(n-p-1)
(5)
式中:q为第p+1个基因所对应阈值范围,通过遗传进化,可利用父辈种群产生新一代子种群Xt。
第三步,适应度值计算。根据流程计算模型适应度值,判断迭代次数和精度,确定是否返回计算。在遗传结束后,通过解码获得最优个体作为BP神经网络初始权值和阈值。
通过GA对BP神经网络在权值和阈值的优化选择,结合BP神经网络算法特点,建立热油管道GA-BP油温预测模型,其架构见图4。
图4 HY热油管道油温预测模型架构图Fig.4 Oil temperature prediction architecture of HY hot oil pipeline
3.2 数据预处理
通过SCADA系统历史数据库下载相关数据,数据密度为30 min,剔除非稳态数据与错误数据,即对数据进行清洗、预处理,提升数据质量,将数据矩阵集成,以便 GA-BP 油温预测模型学习使用。为了模型训练和提高程序运行时收敛效率,对数据进行归一化处理,把数据映射到0~1范围内,本文采用min-max标准化(Min-Max Normalization)……,见式(6):
(6)
式中:X*为标准化后的数据;max为样本数据最大值;min为样本数据最小值。
3.3 模型验证
本文使用均方根误差RMSE、平均绝对误差MAD和相关性系数R评估模型精度,见式(7)~(9)。使用绝对误差和相对误差分析油温的预测值与真实值。
(7)
(8)
(9)
3.4 模型对比分析
梳理分析完成SCADA系统生产数据,选取70%样本数据作为训练集,30%作为测试集,利用建立的BP神经网络模型,GA-BP油温预测模型对数据集进行训练和测试。模型均设5个隐藏层,迭代200次,各模型达到最低训练误差时的迭代次数和训练时间,BP、GA-BP油温模型测试结果对比见表2。
表2BP神经网络模型、GA-BP油温预测模型测试结果对比表
Tab.2 Comparison of test results of BP neural network model and GA-BP oil temperature prediction model
内容BP神经网络模型GA-BP油温预测模型训练误差/℃迭代次数/次训练时间/s训练误差/℃迭代次数/次训练时间/s1次0.004 37096.080.002 83687.04.02次0.003 58072.070.002 58265.03.03次0.006 77056.060.002 113107.05.04次0.693 61079.070.002 473110.05.05次0.005 45082.070.002 92987.04.06次0.004 47083.070.001 84348.03.07次0.037 63079.070.002 82326.02.08次0.003 530113.090.002 01971.03.09次0.004 29093.080.002 09280.04.010次0.853 75085.070.001 75172.03.0平均训练误差0.161 74583.87.30.002 34675.33.6MAD0.244 800——0.000 380——RMS0.324 880——0.000 440——
由表2可知,GA-BP油温预测模型训练时平均训练误差、迭代次数和训练时间分别为0.002 346 ℃、75.3次、3.6 s。相比未优化前BP神经网络模型,训练过程精度、迭代次数和时间均有较大提升。GA-BP油温预测模型训练结果的RMS、MAD分别为0.000 38.0 ℃和0.000 440 ℃。在此基础上利用BP神经网络模型、GA-BP油温预测模型,对油温数据进行预测,预测结果见表3,输出误差趋势和各模型预测结果与真实值相关性曲线见图5~6。
表3 不同模型预测结果对比表
Tab.3 Comparison of prediction results of different models
内容误差对比BP神经网络模型GA-BP油温预测模型误差<0.5 ℃样本/个819.00867.00误差<0.5 ℃占比/(%)81.8286.61误差<1 ℃样本数/个925.00959.00误差<1 ℃占比/(%)92.4195.80最大绝对误差/℃5.443.08RMSE/℃0.890.48MAD/℃0.880.02R0.920.96
图5 油温预测误差对比图Fig.5 Comparison of oil temperature prediction errors
a)BP神经网络模型的预测值与真实值a)Predictive values and true values of the BP neural network model
b)GA-BP油温预测模型的预测值与真实值b)Predictive values and true values of GA-BP oil temperature prediction model
由表3和图5可知,GA-BP油温预测模型,预测误差较小,误差小于0.5 ℃和1 ℃的数据分别占总预测数据的86.61%和95.8%,最大绝对误差、RMSE、MAD和R分别为3.08 MPa、0.48 ℃、0.02 ℃和0.96,相比BP神经网络模型,预测结果的准确性和稳定性提高较大。由图6可知,GA-BP油温预测模型的预测值与实际值的离散度较小,预测结果与实际数据的相关性较好,满足实际生产运行需要。
3.5 模型应用
将BP神经网络模型和GA-BP油温预测模型应用于HY热油管道各站场的油温预测,同时使用苏霍夫公式反算油温,将预测结果与实际工况数据进行误差对比,计算结果及误差对比见表4。
表4 BP神经网络和GA-BP油温预测模型预测值与真实值对比表
Tab.4 Comparison of predictive values and true values of BP neural network model and GA-BP oil temperature prediction model
站场实际油温/℃BP神经网络模型/℃GA-BP油温预测模型/℃苏霍夫公式/℃预测值MSE预测值MSE预测值MSE2#站进站26.6127.533.46%27.111.88%23.0813.27%3#站进站23.4022.583.5%23.771.58%20.1313.97%末站进站23.0723.873.47%23.391.39%19.2316.64%误差均值—0.85—0.40—3.55—
由表4可知,使用苏霍夫公式反算油温数值与真实值平均绝对误差3.55 ℃,而BP神经网络模型预测得到的绝对误差平均值为0.85 ℃,经过GA优化后预测精度进一步提高,平均绝对误差0.40 ℃,能够满足管道日常运行的使用要求。将GA-BP预测模型应用于管道智能化架构的数据挖掘层,可实现热油管道油温数据的实时在线预测,进而指导热油管道加热炉的优化调整等工作。
4 结论
1)通过研究建立管道智能化架构,架构包括物理层、数据层、数据挖掘层、应用层和用户层,其中数据挖掘层是管道智能化的核心。数据挖掘层是将生产数据,通过业务专家和数据挖掘专家将数据算法模型理论化、模型化。
2)经实际应用和对比分析,传统理论公式在数据挖掘层适用性较差,需通过基于数据挖掘算法,对实际生产数据建立相应的预测模型。
3)利用GA-BP油温预测模型,可准确预测HY热油管道油温,指导工艺运行调整。即根据业务需求,基于数据挖掘算法建立的算法模型可满足业务需求,并应用于未来管道智能化研究。