电力企业生产数据多维度质量分析及处理
2021-04-10韩建春
荀 华,韩建春
(内蒙古电力科学研究院,呼和浩特 010020)
0 引言
数据分析过程中,使用未经过质量检测的数据,分析结果往往无效或错误,因此全面了解数据质量,查找低劣数据产生的根源及其表现形式,并修正低劣数据造成的影响,成为数据分析过程中最基础的环节[1-2]。内蒙古电力(集团)有限责任公司(以下简称内蒙古电力公司)的生产管理信息系统是集数据采集、共享和应用为核心的电力大数据平台,能够实现电网设备整体数据的共享、查询、留痕和追踪。随着电网信息化建设的逐步推进,生产管理信息系统建设的不断深入,输变电设备台账数据、运行数据以及缺陷、试验、检修等运维数据日益信息化,数据量的产生与日俱增,这些数据与生产安全和设备管理密切相关,数据的规范性、正确性、及时性和完整性对电网工作的支撑、决策越来越重要。但由于生产数据来源于基层供电单位,属于二手数据,大量历史数据的诸多属性并不完整,特别是面向设备全寿命周期管理的厂家、设备型号、投运时间等关键数据的缺失或错误,严重影响了设备家族性缺陷的评估分析。
数据质量是从数据的一致性、正确性到相关性等一系列参数决定的[3-7],为了提高生产管理信息系统数据利用价值,本文针对内蒙古电力公司生产管理信息系统的数据质量情况,通过检查设备台账、技术参数、试验报告、检修记录、缺陷记录等信息,对设备数据从完整性、正确性、一致性等角度多维度进行分析,并提出解决策略,以提高数据质量,实现设备全寿命周期“源”数据的可靠性。
1 生产管理信息系统数据质量分析
1.1 设备信息完整性
根据DL/T 1624—2016《电力系统厂站和主设备命名规范》[8]和内蒙古电力公司现有的设备管理规范要求[9-15],对一次设备基础台账信息、技术参数信息、检修记录、试验报告、缺陷记录的完整性进行检查分析。
1.1.1 一次设备基础台账信息
根据内蒙古电力公司《生产管理信息系统输变电设备台账信息录入规范》[9],对变电一次设备300多万个关键数据,按照设备参数录入的统一规则进行完整性统计分析,发现设备规格型号、生产厂家、厂家性质、出厂日期、投运日期和污区等级这6个技术参数指标存在共性缺失问题,一次设备台账信息的完整率为86.0%。
1.1.2 设备技术参数录入
根据内蒙古电力公司《状态检修变电一次设备分类和参数规范》[10],选取变压器和断路器约118万个技术参数作为本次分析的样本数据,以参数项为非空作为检查标准,分析参数的完整性。经分析,这两类设备技术参数的平均完整率为63.27%,设备所属所有类型技术参数都存在或多或少的缺失。这些设备技术参数的缺失会影响设备全寿命周期精确评价的结果,特别是在设备精益化评价的过程中,运行数据变化率分析是关键要素。
1.1.3 缺陷、试验、检修数据
按照内蒙古电力公司《输变电设备状态检修导则》[11]《输变电设备状态检修试验规程》[12]《输变电设备缺陷管理标准》[13]和《设备状态资料信息收集与管理工作规定》[14],对生产管理信息系统中的缺陷数据、试验数据、检修数据的完整性进行检查,统计表中缺少某一项或多项的信息都定义为记录录入不完整。2011—2018年,在生产管理信息系统中共录入检修记录20.8万条信息,平均完整率为66.0%;缺陷记录3 万条信息,平均完整率为57.6%;试验记录28.6 万条信息,平均完整率为70.6%。随着带电检测技术的推广,设备试验检修数据量呈递增趋势,因此提高数据的完整性对数据的分析、安全生产、决策预警具有至关重要的作用。
1.2 设备参数正确性
设备参数的正确性检查内容较多,根据状态检修工作的重点要求,针对状态检修工作中的关键数据(一次设备基础台账数据和设备技术参数)进行正确性检查,并制定检查规则。
1.2.1 一次设备基础台账数据
根据内蒙古电力公司《生产管理信息系统输变电设备台账录入规范》[9],对内蒙古电网21万台变电一次设备300 多万个关键参数,按照数据梳理方式选择常规性基础数据进行正确性分析,主要选择设备电压等级、出厂日期、投运日期、设备名称、设备类型、设备型号和设备所属间隔这8 个设备状态评价、状态检修过程中的重要参数,以电压等级的表述、出厂日期与投运日期关系、设备名称与设备类型不符、间隔归属、设备型号描述为检验规则。分析结果为:出厂日期和投运日期正确的占63.8%,设备名称与设备类型一致的占67.2%,所属间隔正确的占69.7%。
1.2.2 设备技术参数录入
根据《状态检修变电一次设备分类和参数规范》[10]对内蒙古电网设备参数填写情况进行检查,发现主变压器15.7 万个技术参数平均正确率为79.4%,其中有23个技术参数正确率不到60%,主要涉及调压方式、循环方式、接线组别等参数。102万个断路器技术参数的正确率为82.6%,其中一些技术参数的正确率不足50%,主要涉及断路器分类、机构型号、合闸电阻阻值等参数。
1.3 设备台账与铭牌数据的一致性
统计收集110 kV 及以上变压器冷却系统的数据台账及其铭牌数据,对二者的一致性情况进行对比分析。对1254 台变压器的冷却系统台账信息与铭牌数据进行一致性分析,发现仅72.6%的变压器冷却系统与铭牌数据一致。设备台账数据与铭牌数据不一致、数据信息错误导致数据质量低下,统计数据出现偏差。
2 数据质量问题造成的影响
对内蒙古电力公司生产管理信息系统数据进行梳理分析,发现存在参数信息缺失、填写错误以及垃圾数据数量大的情况,对设备精确评价、安全生产的决策评估造成一定影响。
2.1 设备信息缺失、错误、完整性差
(1)设备的技术参数缺失与错误,特别是一些关键数据的缺失,会对设备精确评价、安全生产的决策评估造成影响,如变压器的抗短路参数错误或缺失,会直接影响到对变压器的精确评价以及对变压器实际情况的正确分析。
(2)设备生产厂家和规格型号的缺失会影响数据共享。按照《电网设备家族性缺陷管理办法》[15]对同厂家同型号设备进行家族性缺陷分析时,如果运行规则、检修建议等相关通用信息无法共享,则对网内设备无法进行统筹预警研究,同时也影响最佳检修方案的制订。
(3)出厂日期和投运日期的缺失会影响设备全寿命周期管理,无法正确分析设备的运行年限,同时影响设备运行、检修方案的制订,同时会影响对老旧设备的监督。
(4)污区等级的缺失会影响管理决策的时效性。如在对某变电站出现问题的设备进行分析时,无法及时获得同类设备关于运行、检修等方面的技术驰援。
(5)设备基础台账信息缺失,如设备规格型号、位置名称等的缺失又会导致系统检修、缺陷、试验记录不完整,设备状态评价结果数据的不一致。
(6)数据错误会对生产数据的统计分析造成影响,导致决策出现偏差。
2.2 错误和重复的垃圾数据造成系统冗余
生产管理信息系统中数据呈幂指数的趋势增长,在实际应用中由于缺少对于原始数据检查的有效手段,造成了大量的垃圾数据,如在生产系统中进行数据信息检查时发现各类记录存在大量错误和重复的垃圾数据,会导致系统运行越来越慢,且在数据读取过程中这些垃圾数据由于没有被处理,每次都会被读取,对数据分析也造成很大的迷惑性,影响决策分析。
3 解决措施
为了提高数据质量,确保数据的准确性和完整性,提出如下措施。
3.1 建立数据质量管理体系
数据的缺失与错误源于数据质量的管理不规范,如检修内容、消缺内容、试验结论等数据的缺失就是源于设备检修、缺陷、试验记录闭环管理的不规范,造成记录不完整。通过建立数据质量管控体系,明确在数据产生、存储、应用整个生命周期中数据管理的要求,根据“谁录入,谁负责”的原则,明确不同阶段数据质量的归属责任,形成统一的管控体系,如设备进行返厂解体检修,冷却系统进行改造,铭牌信息更换,应及时在生产管理信息系统中更新台账;设备参数录入时与铭牌信息进行比对等,有效的管控措施可以实现对数据质量的定期评估和动态管理。数据质量管控流程如图1所示。
图1 数据质量管控流程示意图
3.2 开展基于问题数据的治理
对于已经在系统存在的缺失、错误的信息,通过数据治理查找问题根源,对于缺失数据进行完善,对于错误信息进行更正,对于垃圾数据进行删除,不断提高数据的准确性与完整性,消除信息间的不一致,减少冗余数据的数量,提高源数据的质量,建立规范的数据应用标准,提升数据价值,保持生产数据与工作目标任务的高度一致,增强数据可信度,实现数据全生命周期的有效性。
3.3 提升数据交互的应用力度
通过数据质量管理系统实现数据间互通、互用,达到数据广泛共享,建立基于电网运行、检修、试验和基础数据映射的评估技术,客观、准确地提升数据质量,真正把数据作为产业,深入挖掘数据资产的价值,并能将数据应用于业务、管理、战略决策中,发挥数据资产的价值。
3.4 应用规则分析数据状况
开展对数据质量的状况分析,采用规则权重配置方式综合评估数据检查任务,实现对业务数据的质量检验,标记数据存在的质量问题,生成数据分析报告,利用度量规则和检核方法对系统表、字段进行多角度的数据质量检核评估,发现数据存在的问题及时修正,实现关键业务数据的全方位质量把控。
利用统计学中的聚类和关联分析方法,开展基于内蒙古电网生产管理系统数据自动创建研究和数据关联挖掘分析。内置数据质量检查规则如图2所示。
图2 内置数据质量检查规则
4 结语
随着生产管理信息系统建设的不断深入,应用业务覆盖范围不断扩大,一系列数据质量问题也在不断积累,例如:参数缺失、数据不完整、数据不准确、数据重复、数据属性不一致等,影响了数据信息的可靠性,导致信息化建设效果不理想、决策出现偏差。生产大数据的使用和分析须建立在高质量的数据上,这是数据产生价值的有力保障,在大数据环境下,数据质量的优劣将直接影响数据价值的高低,进而影响人们的分析和决策,因此针对目前内蒙古电网数据积累出现的问题,建立基于内蒙古电网决策的数据质量管理体系和数据治理方案,可以有效规范的管理数据质量,实现设备全寿命周期的“源”数据可靠性。