APP下载

企业电力征信大数据价值挖掘与应用

2021-11-22辛保江李德文王兰兰

大数据 2021年6期
关键词:误码率准确性用电

辛保江,李德文,王兰兰

国网山东省电力公司潍坊供电公司,山东 潍坊 261000

1 引言

中国是全世界唯一实现全民通电的国家[1-5]。在电力技术高速发展的今天,电力成为一种不可或缺的资源,我国的电力消费一直秉承着“先使用后付款”的收费方式,但在用户拖欠电费、违约用电方面没有一个很好的解决方案[3]。电力征信的应用能够有效约束信用不良的用户,减少违约用户的产生,提升供电公司的管理水平。

参考文献[1]设计了基于9项指标的电力征信检测平台,根据用户的用电量、用电缴费情况和违约用电记录等指标对用户进行分类,增强管理的条理性,但数据采集方式过于老旧,没有正确建立用户的用电模型。参考文献[2]提出利用大数据平台对电力征信用户数据进行提取与处理,这一做法能保证数据分析的客观性与准确性,但系统稳定性却没有得到保证。本研究针对电力征信平台进行创新,设计电力征信大数据平台,基于平台稳定性与测试准确性进行优化。

2 电力征信关键技术

2.1 用户用电模型构建

在大数据模型技术中,联机分析法是数据分析的主要方法,通过联机分析法,大数据信息能够在信息平台上进行多维传播[6]。将联机分析法运用到电力征信领域,对电力用户的用电行为进行收集与分析,从而为电力企业供电计划的制订提供便利[7-10]。用电数据处理流程如图1所示。

图1 用电数据处理流程

如图1所示,首先对用电用户的数据进行提取,将用户的用电行为进行分类,然后记录分类数据,同时对用户数据进行行为分析,最终审核数据是否有遗漏或者错误的地方,如果有,则需要对数据进行再次提取。传统记录主要提取用户的9类数据,本研究针对用户的数据分析,将数据提取分为四大类、八小类,使得数据处理更加条理化,同时加快数据采集工作的开展与完成。数据分类如图2所示。

图2 数据分类

如图2所示,将数据分为用户行为、费用细则、用户价值与个人信用四大类。此外,还可以将上述数据信息分为用电情况、费用情况、信用情况与用户评价,为了表达方便,本文使用“用户行为、费用细则、用户价值、个人信用”进行说明。然后将用户行为细分为该用户的月度、季度、年度用电量与用电规律,将费用细则细分为用户的缴费情况和预付费用情况;将用户价值细分为对未来用户用电情况的预估;针对个人信用方向,记录用户欠费情况与缴费及时率,通过对此4项数据的采集,能够完整地构建用户的用电模型,有利于对未来电力分布、企业管理和用户信用进行综合分析。

对以上几类数据进行分析处理时,还可根据分析结果将用户群分为尊贵用户、普通用户、风险用户和失信用户,针对不同的用户提供不同的处理方式,从而加强电力企业对用户的管理力度,对电力企业的绩效分析起到促进作用[11]。

2.2 模块化设计优化

传统电力征信平台通过模块化的设计将硬件进行组合,但这种模块化设计在数据处理过程中出现错误数据的概率大于需求的概率阈值[12]。因此,在传统数据采集过程中需要分配人力资源对数据进行预先审查,这一过程中人力与时间耗费巨大,且人工审核的准确率也无法达到预期[13]。因此针对这一缺点,本研究在传统模块化的基础上进行优化创新,主要将数据采集模块与网络模块进行交互,使得网络数据能够对采集到的数据进行校正;将设备管理模块中的硬件检测部分应用于数据分析模块,提高数据分析的速度,提升数据分析的效率[14];在用户交互模块中,添加软件后门进行二次开发,便于及时应对电力资源需求变化过快的情况,提高平台稳定性[15]。平台模块化设计如图3所示。

图3 平台模块化设计

本研究所提电力征信大数据平台的创新点为针对硬件方面的模块化创新,其中数据存储方面为固定存储,当网络模块检测到错误数据时,可将数据存储模块中存储的同类数据进行替代,针对替代数据进行分类。在实验中可以明显发现,此方法虽然会在一定程度上产生误差,但是其对结果的影响远没有输入错误数据造成的误差大,因此本研究针对模块化设计的创新具有技术优越性。

面对传统电力征信平台的功能与优缺点,本研究对电力征信平台进行改进。下面将从网络架构设计与算法设计两部分对本研究平台的创新点进行分析。

3 电力征信大数据平台设计

3.1 网络架构设计

本文设计的平台从电力行业的基础出发,与目前主流的大数据技术框架相吻合。针对传统电力征信平台计算准确性不足、电力征信大数据分析系统对数据分析的客观性不够的缺点,本研究通过对电力征信平台的网络架构进行重新整合,将数据监测与营销分析、运行管理等作为服务层,面向电力企业提供真实的业务服务[11-17]。同时在数据计算方面采用专门针对电力信息分析的综合型算法,通过综合型算法得到用户的用电模型,将此模型通过数据接口应用于用电用户(即与用电相关的企业用户),为他们提供良好的用电方案与维护方案。本研究设计的平台整合了电力信息接入、用户数据分类治理、用户模型搭建与模型分析展示等功能,集成了多图形的可视化建模界面与二次开发接口拓展[18]。整体网络架构如图4所示。

图4 整体网络架构

在网络架构中,对数据进行过滤,主要通过对数据的筛选与对关联数据的整合,将用电数据通过表格和饼状图等可视化视图直观地展现出来。数据过滤流程如图5所示。

图5 数据过滤流程

如图5所示,针对源表,即用户表的信息,可以选择将用户表作为基础,将用户表分解为区域表和设备表,区域表记录一个区域间的用电数据,将不同区域进行对比,能够很直观地看出区域与区域之间的用电差距;设备表主要记录电流与电压的监测值,根据电流与电压的变化预测用电量的变化趋势,具体如图6所示。

图6 源表数据

3.2 算法设计

针对本研究设计的电力征信大数据平台的网络架构,设计一种将数据进行分类、聚类、回归与集成的算法,即创新的综合型算法[19]。给定一个电力征信平台的用户信息集,首先使用分类聚类算法将此信息集分为用户行为、费用细则、用户价值与个人信用四大类,这里采用K近邻(K-nearest neighbor,KNN)算法[20-24]。K值根据电力信息数据集规模的不同进行选取,比如一个区域内的用电度数与用电时间不同,K值也会随其不同而发生变化,在K值的选择上使用交叉验证的方式,即将不同的样本集交叉起来验证K值的方差,从而求得最佳的K值,K值交叉验证如图7所示。

从图7可以明显看出,开始时随着K值的增大,误码率由高向低变化;当K值大于10之后,误码率开始变大,因此要选择样本能承受的最佳K值。此算法除了要注意K值的选择,还要考虑点与点之间的距离的计算,给定两个电力信息的数据点(x1,y1)与(x2,y2),则这两点之间的距离ρ的计算式为:

图7 K值交叉验证

通过式(1)可以计算出二维平面内点与点之间的距离,但电力信息一般为多维度的数据,因此需要将距离计算式拓展到多维空间,即:

确定好K值并计算完成电力数据集的点间距离后,就能进行数据的分类,将数据分为前文所述四大类后,下一步进行数据的决策,通过数据的决策将分类后的信息进行处理。这里给定电力征信数据集为D,计算电力征信数据集D的Gini系数,对于电力征信数据集中的每一个用电用户数据A,用户数据A中包含a1、a2、a3这3种分组数据信息,然后对这3种分组进行处理和计算,得到该电力征信数据集的不同集合。

在式(3)中,Gini系数Gini(D,A)指不同分组情况下电力征信用户数据A在整个电力征信数据集合D中的关联集合。假定将电力征信用户数据分为N个类别,测试用户数据中的任一随机数据属于第n类的概率为Pn,则针对电力征信用户模型分类概率因素的Gini系数为:

在式(4)中,将给定区域内的电力征信用户数据,按照用户行为、费用细则、用户价值与个人信用4个方面展开,根据Gini系数对用户未来一段时间的用电情况进行判定,通过对电力征信大数据的分类与决策,得出区域的用电规律,通过此用电规律可以调整整个电力企业服务覆盖区域的配电方案。通过这一设定,在区域内进行雷电预警测试,可根据配电决策树来演化雷电预警概率[19-24],如图8所示。

图8 配电决策树

4 实验设计与分析

4.1 实验环境及数据

本研究采用的硬件计算机操作系统为64位的Microsoft Windows 10,CPU为Inter(R)Core(TM)i7,主频为2.59 GHz,内存为16 GB。

X市常住人口约1035万人,用电量在230万kW·h左右,因此本研究采用X市中心区域的用电情况作为模拟对象。在实验过程中将X市中心区域作为测试区域,通过对市中心区域的用电情况进行模拟,比较本研究所用电力征信大数据平台与传统电力征信平台的优缺点,验证本文平台的技术优越性。

4.2 实验设计与实验过程

为了验证本文所设计的平台的技术优越性,设置对照实验,先对平台搭建进行仿真,主要通过对电力征信大数据平台中的网络架构与数据分类模型进行搭建,对比参考文献[1]提出的基于9项指标的电力征信检测平台(后文称为一号平台)与参考文献[2]提出的利用大数据平台对电力征信用户数据进行提取与处理的平台(后文称为二号平台),判断三者在电力征信大数据信息处理过程中的稳定性与准确性。

设计两种实验分别验证本文平台与一号平台、二号平台之间的平台稳定性和测试准确性。针对平台稳定性的测试,本文选用高压测试,使用X市某地停电事故的错误数据集(该数据集为造成停电的各种数据信息集合,比如负荷停电、电力加载、异物等数据信息)对平台分别进行测试,记录平台结果的误码率,对平台测试的稳定性进行分析,同时标定应急用户、重要用户与普通用户,观察系统给出的3种用户的处理方式是否合理。针对准确性的测试,将X市近3年的用电情况输入平台,再将各个平台预测的未来一周用电情况与现实生活中的用电情况进行对比,比较三者的准确性。

4.3 实验结果

为了测试平台稳定性,将测试数据输入平台中,观察3个平台给出的反应。将平台的误码率绘制成折线图,如图9所示。

误码率在本文中是衡量平台测试数据在一定的时间范围内实现数据传输的精确性指标,计算式为:误码率=传输中的误码/传输的总码数×100%。从图9可看出,一号平台误码率较高,在6.5 h的测试结束后,一号平台误码率达到8%,这是因为一号平台没有将错误的处理结果及时筛选出来,导致错误的结果继续向下游运算,进而产生更大的错误;二号平台在1.1 h之前与本研究平台误码率相同,但在1.1 h以后,由于算法处理等问题无法及时更新错误运算,导致误码率逐步提升,在6.5 h时达到4.5%;本文平台由于更新了大数据分类机制,能够有效地控制误码率增长,因此在6.5 h时,误码率仍在1.5%左右,且上升趋势稳定,这表明本文的数据分类方法稳定性较高。

图9 平台误码率测试

针对准确性的设计,本文将近3年的用电数据作为训练集,先对3个平台进行训练,再对未来一周X市的用电情况进行,将预测结果与真实结果进行对比,引入准确性(在一定实验条件下,经过多次测定后的平均值与真实值相符合的程度),然后对准确性进行分析。具体用电分析情况见表1。

由表1可知,本文所用方案在用电量与缴费预测中都明显优于一号平台与二号平台。在用电预测中,本文平台的预测值与真实值仅相差0.2万kW·h;在缴费预测中,本文平台的预测值与真实值仅相差0.02万元,准确率高达98.9%。该数据信息是经过多次测定后计算出的平均值。

表1 用电分析情况

经过上述两种实验的分析,本文平台在稳定性与测试准确性上都明显优于参考文献[1]与参考文献[2]设计的平台,验证了本文平台的技术优越性。

5 结束语

本文基于大数据挖掘进行数据研究,对传统电力征信平台进行改良。利用模块化结构技术,构建电力征信大数据平台的网络架构,以此构建出用户用电模型与区域用电模型,再通过综合型大数据分类决策算法对用电用户的用电情况进行分类判断,进一步改进了传统电力资源管理平台稳定性不足与准确性低的缺点,同时为电力征信行业的大数据分析提供了理论与实践依据。

猜你喜欢

误码率准确性用电
CT及超声在剖宫产瘢痕部位妊娠中的诊治价值及准确性
CT诊断中心型肺癌的准确性及MRI补充诊断的意义
面向通信系统的误码率计算方法
浅谈如何提高建筑安装工程预算的准确性
用电安全要注意
失效网络中节点可通信性能评估方法研究
D—BLAST基带系统的FPGA实现研究
线性调频扩频技术的研究与分析
学习用电小知识
谈书法作品的完整性与用字的准确性