APP下载

基于时序片段的油气管道运行工况识别方法*

2022-12-14江璐鑫张劲军

中国安全生产科学技术 2022年11期
关键词:阀门工况分类

张 丽,苏 怀,范 霖,江璐鑫,张劲军

(1.中国石油大学(北京) 油气管道输送安全国家工程实验室,北京 102249;2.中国石油大学(北京) 城市油气输配技术北京市重点实验室,北京 102249)

0 引言

实时监控油气管道系统的运行状态是保障油气管道安全稳定运行的重要手段之一。油气管网主要采用管道数据采集与监视控制系统(SCADA,Supervisory Control and Data Acquisition)储存运行数据、事件和报警等信息[1]。近年来,为降低操作员的负荷,提升管道安全管理水平,国内某些公司对SCADA系统进行了优化改造。例如,辽阳石化成品油长输管线,将管道泄漏自动监测系统与SCADA系统对接,实现对管道泄漏定位和参数的管理[2];中国石化销售有限公司华南分公司采用浙江中控开发的国产SCADA系统,该系统设置间歇、瞬闪、关联等5种报警措施,提高SCADA系统的报警效率,实现对成品油混油界面跟踪、批次和报警管理等功能[3-4]。但这些改进措施并没有加强SCADA系统在管道运行工况识别方面的能力,这是因为SCADA系统的事件记录仅描述管道或设备的动作,没有对某时间段内的管道运行状态进行归纳总结,工况标签不完善。现阶段油气管道部分运行工况的识别一般以专家经验判断为主,人力和时间成本较高,且难以实现实时、全面监测。

针对上述问题,许多学者采用计算机算法与工程经验法相结合的方法,对油气管道系统的运行工况进行分析[5-7]。其中,管道泄漏监测技术相对成熟,其主要基于压力、流量等实时监测数据,通过负压波法或数据模型定位泄漏位置,形成适用不同管道系统的商业检漏软件[8-10]。但智慧管网的发展,不仅要着眼于某1类异常工况,还要提升系统对各类工况的感知能力。如何基于油气管道的运行数据变化准确区分管道运行的正常与异常工况,并识别阀门内漏、泵异常停机、电压异常波动等异常工况,是实现管道全方位感知需要攻克的重要难题。

油气管道的压力、流量等运行数据属于典型的时间序列数据,准确识别管道运行工况的关键是对高维、非稳态时间序列数据模式的识别。时间序列模式识别问题在设备故障监测、人类行为识别、能源系统工况识别等方面已形成一定的研究基础[11-13]。目前,主流方法是采用数据时频域特征分析、具备监督机器学习分类等方法,进行阶段性系统动作识别。但是,该类方法适用于满足标注样本量大、数据时域特征或频域特征明显的场景,且可解释性较弱,不能直接移植、应用于我国现阶段的油气管道系统。因此,本文以某真实成品油管道为例,提出1种基于时间序列片段的油气管道运行状态识别方法。根据时间序列的概率分布变化识别不同状态变化点,进而划分不同运行工况的时域区间,解决现阶段管道系统缺少有标注数据样本的难题。算例分析显示,该方法在运行工况识别准确率、误报率以及漏报率等方面均优于经典方法,例如孤立森林法[14],研究结果可为油气管道运行工况实时监控提供新的方法借鉴。

1 油气管道系统运行工况识别

本文提出1种数据驱动的油气管道系统运行工况识别方法,该方法由4部分组成:数据的采集与预处理、状态变化识别、子序列后处理和时间序列分类,具体研究思路如图1所示。

图1 管道运行工况识别方法框架Fig.1 Framework of recognition method on operating conditions of pipeline

1.1 状态变化点识别模型

建立状态变化识别模型,可以明确管道所经历的各种操作变化,并检测到管道运行过程中可能出现的异常状态变化,结合SCADA系统的事件记录,可快速判断不同时间段内,导致管道运行状态变化的事件。

当管道运行状态发生改变时,压力时间序列的概率分布在2个连续的区间内发生突变,由于2个区间是移动的,所以当2个区间的概率分布明显不同时,就认为存在状态变化点。实现上述判断过程的方法如式(1)所示,这种方法被称为累积和检验法[15]:

(1)

1.2 运行工况识别模型

建立基于时间序列片段的运行工况识别模型,目的是快速准确判别管道在不同时间段的运行工况。与其他识别模型不同的是,工况识别模型是基于连续的时间片段,而不只是某个特殊的时间点。如图2所示,描述基于时间序列片段的运行工况识别模型的构建过程。为便于理解,将模型构建过程涉及到的相关定义说明如下:

图2 代表性时间序列片段提取过程Fig.2 Extraction process of representative sequential segments

1)时间序列。在本文研究中,时间序列用来描述管道系统的历史运行状态。

2)目标时间序列。目标时间序列是对时间序列分段后的结果,其长度不固定。为了排除重叠事件对后续分类的影响,在本文研究中,每段目标时间序列的长度依据是状态改变点检测模型得到的结果。

3)时间序列片段[16-17]。时间序列片段用于描述系统在某段时间内的运行工况,其数据表现形式为目标时间序列中的1段子序列。因此,不同时间序列片段所代表的序列形状可以区分不同运行工况。

4)候选时间序列片段集。候选时间序列片段集是所有时间序列片段的集合。以时间序列片段的长度为基准,采用滑动窗口在目标时间序列中选取所有子序列,时间步长取1,以避免错过任何运行状态。每个目标时间序列中的所有子序列都被提取出来,从而形成候选时间序列片段集合。

5)距离相似性矩阵。距离相似性描述候选时间序列片段和测试子序列之间的所有距离[18]。该距离采用动态时间规整(DTW)方法进行测量。相比欧氏距离测量方法,DTW的优势是可以测量2个异步长的时间序列之间的相似度[19]。

6)最佳时间序列片段。在距离相似性集合中,每个最短距离所对应的候选时间序列片段是该目标时间序列所对应运行工况的最佳描述性子序列。通过计算测试集时间序列片段与最佳时间序列片段的相似性对测试子序列进行工况识别。图2中,SN表示运行工况所对应的最佳时间序列片段,其中N=1,2,3,…,n,表示最佳片段所对应的索引。

1.3 评价指标

本文采用4个指标对模型测试结果进行评价:精确度(prec)、召回率(rec)、误报率(FPR)和F1值[11],如式(2)~(5)所示:

(2)

(3)

(4)

(5)

式(2)~(5)中:TP(真阳性)表示把实际正样本预测为正样本的样本数量,个;TN(真阴性)表示把实际负样本预测为负样本的样本数量,个;FP(假阴性)表示把实际正样本预测为负样本的样本数量,个;FN(假阳性)表示把实际负样本预测为正样本的样本数量,个;F1值表示精确度和召回率的调和平均数,在[0,1]值域内取值,F1值越大,模型整体评价越好。

2 数据的采集和整理

本文所提出的识别方法在1个真实的成品油管道系统中应用。该成品油管道系统由9个站组成,图3所示为该成品油管道系统拓扑结构示意。基于该成品油管道的SCADA系统,收集总时间长度为2个月,采样间隔为1 min,总样本量为86 400条。收集的参数类型主要有:各站的进出口压力、泵和阀门的进出口压力等。采集的历史事件包括:管道或设备在每个时刻的运行状态、动作和报警信息。

由于SCADA系统的数据记录功能遵循“逢变则记”原则,因此有必要在分析之前对数据进行调整。首先,基于所研究油气管道的SCADA系统设置,需要将导出后的数据按时间顺序进行重组。由于SCADA系统的后台处理负荷限制,导致采集数据中出现空缺值,因此,本文采用向前填充法对空缺数据进行填补。如果出现时间戳重复但运行数据不同的情况,则保留第1次出现的时间戳。

图3 管道系统拓扑结构示意Fig.3 Topological structure of pipeline system

由于通信网络的信息传输方式是异步传递,所以记录顺序是随机的。系统只是简单地记录所有到达的事件信息,未将时间戳考虑在内,这可能导致时间戳的重复,对事件标签的匹配和管道运行工况的识别产生影响。因此,本文研究使用文本匹配方法找到与需要识别状态相关的重要事件描述,消除其他不相关事件的影响。若出现同时刻对应不同事件的情况,则需要将事件标签合并,再根据建模所需的事件类型确定标签。

3 案例分析

本文实验设计3种应用情景:分输站C的阀门开关状态、首站A的泵异常停机状态和分输站E的阀门内漏状态。通过这3种常见的应用情景验证所提方法的可行性。

3.1 成品油管道运行状态变化的检测

1)阀门开关状态检测。模型的输入为该阀门的进出口压差,输出结果为检测到的阀门全开和全关的对应时间。采用真实历史运行事件中关于阀门开关状态的记录对所得结果进行评价。

2)泵异常停机状态检测。模型的输入为该泵的进出口压差,输出结果为检测到的泵异常停机时间。采用真实历史运行事件中的泵异常停机记录对检测结果进行评价。

3)阀门内漏状态检测。模型的输入为该阀门的进出口压差,输出结果为检测到的阀门出现内漏的时间。采用真实历史运行事件中阀门关闭记录对结果进行评价(需考虑时间延迟)。

如表1所示为不同工况下,改变点检测模型的最佳输入参数。其中,用户自定义参数h和v是基于输入子序列确定的,改变点检测和精度检测的时间误差是通过优化最佳精确度确定的,二者对精确度的影响起决定性作用。这是因为,当管道运行状态切换时,压力差会产生短暂的波动直至完全稳定,这些波动在数据上对应1个时间序列区间,该区间内的所有时间点均可被检测为是状态改变点。但从物理意义的角度来说,开关状态的改变实际上只对应1个时间点。所以,为处理时间误差对检测精度造成的影响,有必要对不同工况设定相应的允许时间误差。

表1 不同工况下改变点识别方法的参数设置Table 1 Parameters setting of recognition method on change points in different scenarios

采用经典异常点检测方法即孤立森林[14],对相同的时间序列数据进行检测,用以检验评估改变点识别的效果。2种方法评估结果如表2所示。从表2中可以看出,2种方法的识别精度相差不大,区别在于改变点识别方法的漏报率更低,整体性能更好(从F1值可以看出)。一方面,相较于孤立森林方法,在阀门状态检测、泵异常停机和阀门内漏检测3种应用场景中,漏报率分别降低了约26%,17%和26%。另一方面,当缺乏数据标签时,改变点识别方法得到的结果可以作为时间序列数据状态分段的依据。其可为缺乏数据标注的大型复杂系统提供更准确的标注,或为不同运行模式的预警提供相关依据。

3.2 成品油管道运行工况的识别

如图4所示为时间序列片段提取数量对不同运行工况识别准确度的影响。从图4可以看出,当时间序列片段的数量超过50个时,3种工况的识别准确度较高。

表2 状态改变点识别方法在不同工况下的评价结果Table 2 Evaluation results of recognition method on state change points in difference scenarios

但随着所选取的时间序列片段增多,分类过程的计算复杂度也随之升高,所以不能盲目增加时间序列片段的数量;在阀门内漏场景下,当时间序列片段数量在0~10 个之间时,准确度高达90%以上;当数量在10~15 个之间时,该方法的分类准确度高于95%,说明此时时间序列片段已包含该场景下的多种形状特征,再增加时间序列片段数量反而会混淆分类特征,影响分类质量。相似地,在阀门开关状态和泵异常停机工况的识别过程中,也可以得到基本相同结论。

图4 最佳时间序列片段数量对分类准确度的影响Fig.4 Influence of number of optimal sequential segments on classification accuracy

如图5所示为测试子序列长度对识别不同运行状态的影响。其中,横坐标表征测试子序列数据的时间长度,以分钟(min)为单位。对于管道运行工况的判断来说,应做到快速、准确的判断标注,才能规避危险事故的发生。所以,所选择的输入子序列长度不宜过长。在案例分析中,本文考查了输入子序列长度在2~10 min之间的识别效果,以2 min为单位步长递增。结果表明:输入的测试子序列长度在6 min以内呈现微弱递增趋势,长度超过6 min后,识别准确度基本保持不变。所以,结合判别速度和准确性2方面因素,输入子序列的时间长度在4~6 min之间为宜。

图5 测试子序列长度对识别准确度的影响Fig.5 Influence of test subsequence length on recognition accuracy

比较基于时间序列片段的分类方法与其他传统分类方法的分类准确度,汇总后的结果如表3所示。从表3中可以看出,基于时序片段识别方法的识别准确度较高,该方法相较于自适应提升方法,对阀门开关工况的分类准确度提高了约3.8%;相较于时间序列森林方法,对泵异常停机和阀门内漏分类准确度分别提高了约2.7%和2.8%。这是因为,管道运行数据与管道状态改变之间存在延时,在数据变化还不明显时,系统工况已发生改变。这时,基于统计特征和字典等传统方法可能会产生误报或错报现象,而基于时间序列片段的分类方法可以较好地处理这种情况。时间序列片段通过保留序列的形状特点和时频域特征对子序列进行分类,通过在训练集中添加此类时间序列片段,即可准确地对延时导致的数据变化进行状态分类。该方法所具备的另1个优势为:对分类结果具有一定的可解释性,即对于任意的输入子序列,可以通过与之相似性较高的时间序列片段对该输入子序列的分类结果进行解释。

表3 不同分类方法的识别结果比较Table 3 Comparison on recognition results of different classification methods

本文所提出的识别方法除上文应用工况以外,油气管道系统涉及到的其他运行工况也可以通过基于时序片段的分类方法进行识别。在识别过程中,需预先得到各个工况的真实标签,然后结合实际数据的变化规律和专家经验提取与各种运行工况关联度最高的参数时间序列,最后通过本方法对时序片段进行分析。

4 结论

1)提出1种基于时序片段的油气管道运行工况变化识别与运行状态判别方法,该方法仅需管道运行压力数据即可完成对管道运行状态较为快速且准确的判断。

2)通过引入状态变化识别模型,准确识别管道运行工况转变的运行数据变化点,将连续的运行数据准确分割为代表不同运行工况的时间序列片段,弥补缺少标签的不足。该方法对孤立森林方法中漏报率高的问题有所改善。例如,在阀门开关状态检测、泵异常停机状态检测、阀门内漏状态检测3种应用场景中,利用该方法使其漏报率分别降低约26%,17%和26%。

3)基于时间序列片段的分类方法可以在提高工况识别准确度的同时,对识别结果进行解释。该方法相较于自适应提升方法,对阀门开关工况的分类准确度提高约3.8%;相较于时间序列森林方法,对泵异常停机和阀门内漏工况的分类准确度分别提高约2.7%和2.8%。

猜你喜欢

阀门工况分类
美嘉诺阀门(大连)有限公司
热网异常工况的辨识
变工况下离心泵性能研究
分类算一算
装配式玻璃钢阀门井的研发及应用
不同工况下喷水推进泵内流性能研究
基于非负矩阵分解的高速列车走行部工况识别
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类