规则库在电力数据质量评价中的研究与应用
2021-03-07杨婧
杨婧
(贵州电网有限责任公司计量中心 贵州省贵阳市 550000)
电力数据的使用、管理及价值最大化已经越来越被电力公司重视,电力数据资产逐渐成为电力企业最重要的核心资产,准确科学地评价、保证电力数据质量的重要性不言而喻。加之电力数据质量评估是进行数据异常识别、问题解决的关键技术手段,因此需要一种科学性、可实施性较强的数据质量评估方法帮助电力公司有效整改问题数据、提高数据质量管理水平。
鉴于此,以南方电网某省公司的电力计量数据为基础,构建基于规则库的电力数据质量评估模型,对电力数据质量进行准确评估,并通过选取某一电力数据对象,展示规则库的实际应用与数据体检结果,以帮助电力公司厘清如何开展数据治理工作。
1 规则库
1.1 规则库的概念
科学制定数据质量规则,使数据质量评估取得良好的效果。数据规则也被称之为是数据约束,主要指的是客观世界数据必须遵从的语义限制,具体内容为业务规则和领域知识。规则库则是这些规则组织在一起的统称。规则定义是数据质量分析的基础,不同的业务数据和数据集,最终的规则也各不相同。本文以数据库为基础,积极创建了电力数据质量评估办法。
1.2 规则库形式
规则库的分析体系由基本规则B(不可再分的最小判别单位)和派生规则R(一个以上的基本规则的逻辑集合)两类组成。其中,作为指标评价单位的派生规则,具备权重、期望值两个属性,通常人为赋值。基本规则与派生规则的关系为:R=L(B1,B2···Bn),L∈{Not,Or,And},其中L表示R是由多个基本规则B组成的逻辑和[3]。
按照如上规则的逻辑关系,可将规则库应用在多个领域中,例如电力营业厅,对办理某项新型电力业务的客户规定条件为月平均电费交费额在300元以上,对于一个客户资料数据集的规则可能是客户为办理某项新型电力业务,且月平均消费额在300元以上的客户。则用公式可以表示为:
B1:客户类型=新型电力业务办理
B2:客户月平均电费交费额在300元以上
R=B2 And B1
2 数据质量评估方法
2.1 电力数据质量评估框架
基于规则库构建电力数据质量评估模型,该评估模型由规则库、数据质量评价指标、规则、评估模板、评估报告五大部分组成。其中规则库为评估的数据集;数据质量评价指标为根据电力业务实际情况来科学选择一致性、精确性、完整性等评估指标;规则指的是评估指标相对应的标准,使用形式化语言或者是规范的自然语言来书写,能够转化为程序脚本;评估报告指的是计算评估结果以后,形成的具体评估报告。
2.2 电力数据质量评估流程
根据电力数据质量评估模型的评估框架图可知,构建数据质量评估模型有五个步骤:
(1)确定具体评估数据集,即规则库。
(2)对数据质量评估指标进行确定。
(3)以选择的数据评估指标为基础,确定数据质量评估标准。
(4)生成数据质量评估模板,对规则设置相应的权值和期望值,并计算评估结果规则得分。
(5)形成数据质量评估报告单。电力数据质量评估的具体流程详见图1。
图1:电力数据质量评估流程
2.3 电力数据质量评估标准
从不同维度出发,划分数据质量会呈现出不同的数据质量评估结果,且数据评估指标维度的划分受不同行业领域、数据类型等的影响而差别迥异。在评估电力数据质量时,依据电力数据质量评估需求来设置相关的指标,一般包括如下6个维度:有效性、准确性、完整性、及时性、一致性、唯一性[7]。
(1)数据有效性:评价数据质量水平的重要指标之一,检验数据的取值与定义是不是与相关规范要求一致,确保数据编码、取值范围、数据格式、字符长度、数据精度以及数据类型与有关规定相同。
(2)数据准确性:评价数据质量水平的关键性指标,检验数据值能够真实的反映出业务发展的真实情况,确保数据与实物相同,且统计口径完全一致。
(3)数据完整性:评价数据质量水平的重要指标之一,用于检验业务所需的数据项是否在系统中有定义,数据项是否被采集等。
(4)数据及时性:评价数据质量水平的重要指标之一,能够在规定的时间范围之内完成数据的获取、录入、加工、更新和删除无用信息等。
(5)数据一致性:评价数据质量水平的重要指标之一,检验同一系统或者是不同系统中不同表单的取值保持高度的统一,关联数据之间保持着严谨的逻辑关系和完整性。
(6)数据唯一性,评价数据质量水平的重要指标之一,用于描述数据记录中是否存在重复。
2.4 电力数据质量评估计算方法
在制定电力数据质量评估规则时,要以电力数据质量评估指标为基础,在对电力数据质量进行评估计算时需首先对数据质量评估规则结果得分计算,并由此计算不同评估模板结果,进而对数据质量评估模型计算,最终计算出每个数据集的数据质量结果。电力数据质量评估规则结果得分与评估模型的具体计算方法如下:
2.4.1 电力数据质量评估规则结果计算
利用加权平均法、简单比率法来计算相应规则赋权值以及期望值。其次计算规则集R中每个评估指标的合格百分比,即符合规则的数据数占所有规则总数的百分比为计算规则最终结果得分S。根据评估模板中所设置的权重值计算出该模板评估结果。
2.4.2 电力数据质量评估模型计算
根据每条评估规则的计算结果与不同评估模板计算结果,利用评估模型实现对所有数据集的数据质量结构的计算。将与数据集T相应的规则集信息设置为RT=(R1,R2,…,Rn)T,RT中规则Ri的权值设置为Wi,期望值设置为Ei,Ri的最终计算结果得分即为Si,以此为基础完成数据集T的数据质量计算:
规则集RT最终结果得分的加权平均值为SA,将数据集T的数据质量情况真实的反映出来。期望值与SA的差值为SR,将数据集T与其所对应的期望值数据质量情况反映出来,如果SR符号为正,其数值比较大,其数据质量要比预期效果好很多;如果SR符号为负,其数值比较大,其数据质量要比预期效果差很多。使用数据质量相对量化值和绝对量化值计算方法均可科学、准确地对数据质量进行评估,由此直观地分析数据质量水平。
3 实例分析
本研究以南方电网某省公司的电力计量数据为基础,构建基于规则库的数据质量评价模型,以定量方法全方面、科学性、合理性地对电力数据质量进行全面分析。
3.1 评价对象与评估指标
根据南方电网某省公司的业务实际情况,本研究将台区作为相应的数据质量评价对象,对表码、电量、线损率、覆盖率、在线率、完整率6个数据对象进行细分梳理。根据计量业务不同数据类别,从完整性、唯一性、有效性、准确性、一致性、及时性6个维度中分别选取合适的评估维度指标,定义评价规则与梳理规则判断依据,形成以台区为评价对象的数据质量评价规则库与评价模型。如图3计量数据质量评价对象细分梳理。
由于表码、电量、线损率、覆盖率、在线率、完整率6个数据对象的评估方式均一致,受篇幅影响,在此仅以台区日线损计量数据质量评价对象为例,确定台区日供入电量、台区日供出电量、档案数据损为具体的数据质量评价对象小类,在创建以规则库为基础的数据质量评估模型时,要确保其满足完整性、有效性、准确性、一致性。
3.2 评价规则库计算
在本研究中,台区日供入电量、台区日供出电量、档案数据三个评估模板构建而成台区日线损的整体评估,且此三个评估模块的具体评估方式均一致,此处仅以台区日供入电量评估模块为例进行计算示例。
第一步:计算规则合格率。采用简单比率法,规则执行合格率R=(1-异常记录数/源数据总数)*100%,例评估对象台区日供入电量对应的规则合格率分别为81.92%、81.66%、81.42%、81.21%。
第二步:为各个评价规则赋权值。根据层次分析法,利用“1-9”重要性标度法,分别赋予指标相应权重,例如台区日供入电量的四个规则权重值为:9、7、9、1。
第三步:计算评估模板结果。根据权重值计算出每个评估模板结果,即∑每条规则的合格率*每条规则的权重数。例如台区日供入电量评估模块的计算结果为:(9*81.92+7*81.66+9*81.42+1*81.2 1)*100%=81.65%。见表1台区日供入电量数据质量评估结果。
表1:台区日供入电量数据质量评估结果的具体情况
在计算每个数据集的质量结果时,要以已经构件和计算出来的评估模板结果和每条规则检测结果为核心。按照如上计算方法与步骤,计算得知台区日供出电量与档案数据的评估模板结果分别为80.82、78.50,由此计算台区日线损评估得分为台区日供入电量、台区日供出电量、档案数据三个评估模板结果值的平均值,计算得知为80.31。
同样的,对于台区下其他数据对象的分数均可以使用该计算方法来计算,在此不予赘述。在本研究中,通过对不同规则集赋予不同的权重,计算得出台区数据集的数据质量绝对量化值SA=79.61(台区得分计算规则具体为:∑数据对象权重*数据对象得分)。
3.3 电力数据体检结果
计量数据质量评价的核心是对数据对象异常值的检测,根据体检和评测结果,结合异常原因分析评价模型,精准定位异常所在位置,实现数据异常的及时发现和定位处理。通过数据质量评估发现,该电力计量中心在表码、电量、线损、终端在线率、终端覆盖率、和采集完整率6类数据对象方面均存在问题,以线损为例进行具体原因分析,见表2线损评估结果分析。
表2:线损评估结果分析
4 结论
本文从数据质量评估角度出发,提出一种基于规则库的电力数据质量评估的方法,结合电力数据的实际业务情况,通过建立规则库,实现对电力数据质量的评估,为技术人员和业务人员提供了一个了解数据质量问题的便捷途径,并能够有效支持整改问题数据,增强公司的管控力与风险防控力,为公司经营决策提供有力支撑。