探讨天然气管网大数据分析方法及发展建议
2022-03-11王兴军王瑞林
王兴军 王瑞林
河北省任丘市华北油田华港燃气集团有限公司 河北 任丘 062552
1 天然气管网大数据概述
1.1 天然气管网大数据的内涵
在长期运行过程中,天然气管网积累了大量的运行数据与管理数据,例如故障数据、历史负荷数据、性能监测数据等,需利用大数据分析技术开展数据采集与处理等工作,加强管网建设[1]。
1.2 天然气管网大数据的特点
(1)数据量大。首先,天然气管网的SCADA 系统、智能视频监控系统与设备运行监测系统等系统在运行过程中会产生和积累大量的运行数据。其次,天然气管网的运行管理会受到市场供需、环境以及天气等各个方面因素的影响应收集外部数据,为运行管理提供关键依据。
(2)采集速度跨度大。天然气管网具有多种不同类型的传感器与业务场景,且数据采集覆盖管网的各个阶段,毫秒级数据、日常检修记录等都需要采集,数据类型不同,具有不同的实效性,对相应速度也有不同要求。
(3)类型多样。天然气管网的数据来自多个环节与部门的数据系统,例如调度运行、市场营销等环节以及管道生产管理系统、SCADA 系统等。同时,天然气管网的数据类型较多,其中常见类型有结构化、半结构化以及非结构化等类型。非结构化数据即图像、视频等,半结构化数据有地质与气象等信息数据,这些数据不断增加,导致分析工作愈加困难。
(4)价值密度差异大。天然气管网的数据类型多样,其信息含量与价值密度也不同。
(5)数据具有较强的关联性、时序性与复杂性。天然气管道的可靠性决定于设备、环境等状态,所以数据具有关联性;天然气管网的运行工艺是环环相扣的,所以运行数据的时序性较强;天然气管网的运行管理覆盖了多个平台,业务场景十分复杂,数据的复杂性也较强。
2 天然气管网大数据分析方法
近年来,我国不断研究天然气管道数字化,积累了数据处理的经验。因此中石油、中石化等企业以管道智慧化发展为目标进行了天然气管网大数据分析基本逻辑与思路的探索(图1),也明确了大数据分析方法(图2)。
图1 天然气管网大数据分析的基本逻辑
2.1 数据处理方法
当前,在处理天然气管网数据时出现了诸多问题,需明确问题并解决。第一,管网运行数据可能会丢失或重复。第二,管网数据会出现噪声。第三,管网数据具有多源异构的特点。第四,天然气管网中的传感器较多,数据间的非线性关系较为复杂,需要通过降维处理解决信息冗余等问题。为了解决这些问题,应当深入研究数据清洗、特征筛选与特征重构等方法。
(1)数据清洗。数据清洗是解决数据处理问题的关键手段,其准备工作是利用数据解析以及一致性验证等不同的方法检测数据,从而发现数据当中的问题,例如值域格式错误、语法错误等。之后,需要通过相关统计方法与数据转换方法进行异常数据的修正与剔除。天然气管道的生产数据是以时间序列为主的,常出现的数据异常情况包括传感器故障等因素造成的数据缺失、数据重复等,需要通过插值、统计分析以及聚类等方法进行异常数据的检测与纠正[2]。同时,若数据噪声影响到了分析结果,需要利用小波分解、滤波等方法消除噪声。
(2)数据特征筛选。一般情况下,数据处理人员都会直接将数据特征输入数据分析模型当中,模型虽然可以处理这些问题,但是会加大计算量,降低运行效率,且过多的数据特征也会导致模型专注学习数据当中的伪规律,降低分析结果的准确性。这一问题需通过数据特征筛选解决,即从天然气管网数据特征集合当中筛选出具有代表性的数据特征子集,减小分析模型的计算量,提高运行效率,且通过筛选不会改变数据特征的表现形式。
(3)数据特征重构。数据处理人员会以数据- 任务映射关系为基础选择天然气管网数据特征。但是,由于数据分析具有复杂的分析场景,若情况复杂,便无法明确数据与任务之间的映射关系,便无法有效选择数据特征。为此,需要进行数据特征重构。重构数据特征即在保证原始数据不发生改变的基础上,通过有效措施将原始数据转变为新的数据特征。常用的转换方法为无监督学习,例如成分分析等,可为数据特征的降维处理提供帮助。但是这种方法比较适用于线性数据特征重构,对于非线性数据特征重构来说,需要应用多层神经网络的无监督学习方法,例如深度自编码器模型。
2.2 数据挖掘
在天然气管网大数据分析中,数据挖掘占据着重要地位,进行数据挖掘是利用数据分析模型与算法在海量数据中选取有效数据。从智慧管网的实际需求来看,需要通过预测预警、模式识别等手段挖掘数据。
(1)预测预警。智慧管网有两大功能的实现难度较大,即预测预警可控与综合性预判,只有利用预测预警才能够实现这两个功能。管网中的预测预警方法包括两种类型,一是预测天然气管网运行压力流量、用户需求等方面参数的方法,二是预测管网运行异常的方法。
(2)模式识别,有利于实现智慧管网的全方位感知。天然气管网中的数据模式识别方法有模式挖掘与模式区分。挖掘模式的依据有先验知识与数据关系。若想明确天然气管网数据的模式就需要明确表征数据与量化数据之间的属性差异,完整这一项任务后需要进行模式区分,继而形成聚类方法。有很多常用的聚类方法,例如距离聚类、层次与密度聚类等,不同聚类方法的应用场景与适用的数据类型不同。其中距离聚类方法的应用范围最为广泛,可以通过距离判断数据对象间的相似度。假设两个数据对象分别为a 和b,两者之间的相似度为Sim(a,b),两者之间的距离为d(a,b),可以通过Sim(a,b)=1/[1+d(a,b)]这一公式得到两者之间的相似度。
(3)模式区分。模式挖掘可以解决数据认识问题,而模式区分可以解决数据识别问题。模式挖掘即判断数据对象的所属模式,常用的模式区分方法包括判别式与生成式这两种类型。判别式区分方法主要是通过学习历史数据,在特征与模式类别之间构建相应联系,继而建模。生成式区分方法是根据大量数据的特点进行分布学习,算出给定特征条件下不同类别出现的概率分布情况。
2.3 数据分析与决策
天然气管网的子系统较多,所以其决策场景较为复杂,涉及诸多数据,而多元化数据之间存在人为阻隔或天然壁垒,阻碍了智慧管网的发展。只有突破这些壁垒才能够为智能决策奠定基础,常用的方法有多源异构数据的综合分析方法、跨部门数据的协同分析方法。
(1)多源异构数据的综合分析方法。天然气管网的数据类型较多,具有多源异构的特点,加大了数据应用的难度。需要通过多种手段发展天然气管网多源异构数据的多模态学习方法,从而解决数据分析问题。首先,需要发展管网数据的多模态表示学习。对于结构化数据,数据表示学习可以将原始信息转变为计算机可处理的数值向量,主要是将结构性数据映射到统一表示空间当中或者将不同模态的信息映射到各自满足统一约束的表示空间[3]。其次,需要发展管网数据的多模态融合学习。多模态融合学习可以整合多个模态的信息,从而提高分析与决策质量。
(2)跨部门数据的协同分析方法。人为壁垒也是数据间的主要壁垒,需要通过有效手段打破这些壁垒,进行跨部门数据的协同分析。近年来,医疗、金融业等多个领域都深入研究了人为壁垒这一问题,掌握了边缘计算、加密算法等解决方法,其中企业对企业的数据可以称为B2B 模式,企业对客户的数据属于B2C 模式。在天然气管网建设中,管道企业与政府之间的数据属于B2B 模式,管道运营部门利用个体用户的消费数据与员工的移动设备数据属于B2C 模式。在B2B 模式中,可以利用纵向联邦学习架构进行数据分析模型的构建,而在B2C 模式中可以利用面向隐私保护的分布式加密机器学习方法构建个体隐私数据的模型。
3 天然气管网大数据分析发展建议
大数据分析在天然气管网运行管理中发挥着重要作用,但是从实际情况来看,天然气管网大数据分析方法在发展过程中仍存在一些问题。
(1)需完善天然气管网的大数据应用环境。首先,天然气管网数据的分析场景复杂,且具有多源异构的特点,数据分析会跨越多个学科与领域,只通过几个简单的框架与技术无法完成这项工作。同时,天然气管网大数据分析发展需要很多专家根据业务场景进行数据分析软件的开发,从而形成完善的天然气管网大数据分析技术体系。其次,需要完善大数据基础设施建设,为数据采集等提供支持,继而提高数据维度与质量。与此同时,应当完善与世界接轨的传感器接口、各方面技术标准,优化软件研发环境,增强算法兼容性。
(2)需深入研究天然气管网大数据分析的核心算法。当前,互联网领域中的大数据分析方法在计算机视觉、推荐系统、自然语言处理等方面较为完善,但是天然气管网在数据运行管理、分析以及决策等各方面的需求与互联网领域的数据分析需求不同。且天然气管网内部中有多个部门,不同部门采用的数据分析方法不同。这就要求相关人员研究适用天然气管网系统特点以及业务逻辑的数据分析方法。在数据驱动机制的“黑箱”特质这一因素的限制下,主流机器学习模型的输出结果可能会出现较大的误差,甚至会导致分析结果不符合常识,若盲目应用不合适的数据分析方法可能会加大安全隐患。为此,在解决天然气管网运行管理、分析评价等方面的问题时,需要深入研究人工智能算法并发展管网大数据分析方法体系。
4 结语
大数据分析在智慧管网中处于核心地位,需加强重视,并不断完善大数据基础设施,从而为数据采集、传输、存储、计算等各个方面奠定基础,并根据实际情况发展适用天然气管网系统特性的数据分析方法,提高管网智能化水平。