基于数据挖掘的供电企业线损问题与用电检查研究
2024-03-08国网陕西省电力有限公司延安供电公司高海朝代佳豪马荣琛王陈禾
国网陕西省电力有限公司延安供电公司 贺 鑫 高海朝 代佳豪 马荣琛 王陈禾
供电企业线损大小与企业内部的技术应用和管理水平关系密切,为此企业对电能传输环节中线损总量是否超出预计指标十分重视。但传统线损计算所采用的方法中并未对海量数据中的异常值和缺失值进行清洗,导致所得到的样本数据不满足后续精细化分析的要求,得到的降损策略与实际情况契合度不高。
用电检查是及时发现线损问题的日常管理手段,检查人员应当利用多种符合数字化时代特征的检查方法,以此实现从分析到维护全方位管控线损的目标。本文以某公司为例,对基于数据挖掘的供电企业线损问题与用电检查进行研究。
1 基于数据挖掘的供电企业线损问题
1.1 配电网线损计算
1.1.1 数据清洗
数据清洗是将脏数据在利用重复记录清除、深度学习、机器学习和统计学习方法后转换为高质量数据的操作,最终得到的数据标准差、均方根误差和平均绝对误差越小,越能够证明数据具备精度高和平滑的特征。在线损数据中主要存在异常数据和缺失值两种情况,针对以上两种情况所对应的清洗方法如下。
采取统计值填充的方法易造成数据质量不高以及适用范围小的问题,因此本文给出FCM 聚类算法,用聚类中心粒子群优化过程替代聚类中心自我更新过程,防止出现聚类中心在迭代过程中陷入局部最优问题,提高历史数据聚类中心的精准度。
算法应用的流程为:供电企业将配电网历史日负荷数据提取,经格式处理确定缺失水平。当缺失数据的总量较大时,利用历史负荷曲线和电量数据预填充缺失数据。根据Xie-Beni 挖掘历史负荷数据,寻找分类情况,将聚类数进行确定。设定迭代次数,令其为0,初始化RODDPSO 算法中的所有参数,计算出粒子目标函数,更新pbest和gbest。依据演化状态更新粒子位置和速度方程,判断是否满足迭代条件,满足条件后输出经填充的数据。
在整个过程中,粒子位置和速度的更新公式为:
其中,c2r2(gbest(t)-xi(t))为粒子的社会认知;c1r1(pbest(t)-xi(t))为粒子的自我认知;ωvi(t)为粒子的记忆部分;r1、r2为随机数;c1、c2为自我认知和社会认知学习率;gbest(t)为粒子历史最优位置;pbest(t)为第i 个粒子的历史最优位置;vi(t+1)为第个粒子在第t 次迭代的速度;为惯性权重。
聚类算法表示为:
其中,V 为维度为c 个的d 聚类中心向量组成的矩阵;U 为隶属度矩阵;xi为样本;uij为隶属度;pj为聚类中心。
迭代终止条件为:
RODDPSO 算法为:
1.1.2 线损计算
经数据清洗后,按照如图1所示的形式设计馈线节点系统,表示出分层矩阵中的各个节点。在图1中包含15个层次,所形成的节点分层矩阵为:
图1 节点系统节点分层示意图
计算支路电流的公式为:
节点电压的逐层计算公式为:
经收敛判定,求取馈线中各条支路的电流和节点电压,基于此,求出线路总损耗。计算公式为:
其中,Ii为支路i 的电流幅值;Ri为支路电阻;L 为馈线的支路数。
变压器损耗的计算公式为:
其中,Vk%为阻抗电压百分数;SN为变压器的额定容量;VN为变压器的额定电压;pk为变压器短路损耗。
总损耗由固定损耗和可变损耗组成,对应的计算公式为:
ΔPT=P0+PR
其中,PR为变压器等值电阻的损耗;P0为固定损耗。
线损率的计算公式为:
其中,T 为馈线售电的持续时间;Wes为馈线的总受电量;λ 为扩线线损率。
1.2 配电网馈线成因辨识
配电网馈线线损成因识别的基本流程为:指标参数收集与数据预处理,输出线损指标参数→数据归一化处理→馈线整体逻辑回归,得到多类馈线,输出实际配电网线损相关因素→对各类馈线进行逻辑回归训练,将新馈线利用马氏距离判别确定其具体类别,并构建不同类别的馈线线损识别模型→通过模型确定馈线线损成因及新馈线的线损大小。
其中,传统逻辑回归算法在应用中容易带来拟合问题,为此,通过添加惩罚项的方式提升精度。具体计算公式为:
其中,λ 为惩罚项的正则化参数;n 为样本维度;r 为输入样本数;θj为第j 维权重;j(θ)为逻辑回归损失函数。
马氏距离判别法的应用步骤为:设定G=(X1,X2,…,Xr)T为样本总体,共含有r 个样本,用Xi=(x1,x2,…,xn)代表n 维样本。假定μ=E(Gr×i)i=1,2,…,n,则n 维样本的均值向量可表示为μ=(μ1,μ2,…,μn),n 阶矩阵的协方差矩阵为S=Cov(G)。马氏距离可定义为:
其中,S-1为协方差矩阵的逆矩阵。
现有C 个总体,对于任一样本Xnew=(x1,x2,…,xn),其需满足:
通过求出每一类总体与Xnew的马氏距离,判断二者大小。若Xnew到总体Gl的马氏距离为最小值,则在总体Gl内添入Xnew。
1.3 实例验证
以某地级市的供电企业为实例验证背景,对1.2中所给出的线损计算方法予以验证。对于线损率Y而言,其二维指标体系中可分成馈线属性和运行参数两大维度。其中,馈线属性维度下细分为线路运行年限X1、线路截面X2、配变容量X3、电缆化率X4、线路总长度X5、配变型号X6、供电半径X7;运行参数维度下细分为功率因素X8、负荷率X9、配变负载率X10、平均电流X11、最大电流X12。
经调查,供电企业各供电分区的馈线线损情况为:A 线损率不合格、合格馈线数分别为1和13,高线损概率为7%;B 线损率不合格、合格馈线数分别为55和207,高线损概率为21%;C 线损率不合格、合格馈线数分别为34和85,高线损概率为29%;D 线损率不合格、合格馈线数分别为288和272,高线损概率为51%。可以看到,D 区为馈线线损率最高的区域,A区基本合格,B、C 区线损率虽低于D 区,但线损率仍旧偏高。因此,线损成因分析的对象为B、C、D 区。
分别设计相应供电分区馈线测试集和训练集,保证训练集的总数量占总数据集的80%,以此保证模型验证的准确性可信。经超参数优化,借助网络搜索,优化正则化参数和学习率。通过优化,形成不同颜色的超参数优化结果示意图。经统计,B、C、D 区的最优超参数处于第175~200种的范围内。对所研究的馈线进行逻辑回归处理,得到变量的权重、SE、t 值和p 值。
经过处理,线路截面X2、电缆化率X4、负荷率X9和配变负载率X10的权重较低,分别为0.23、-0.62、0.68、-0.77,且p 值超过0.05,代表以上几种因素并非影响配电网线损的主要要素,应当将以上要素剔除。通过对剩余指标单个分析,得到供电半径长、馈线平均电流高、电阻大的条件下,馈线中存在线损率偏高的概率就越大的结论。
为验证分析结果,引入AUC 值,判定逻辑回归预测的准确性。经评估,馈线B 的逻辑回归AUC值为0.980,逻辑回归预测准确性为92.8%;馈线C的逻辑回归AUC 值为0.978,逻辑回归预测准确性为90.2%;馈线D 的逻辑回归AUC 值为0.977,逻辑回归预测准确性为90.0%。可以看出,模型精度较高,表明可靠度高。
2 基于数据挖掘的供电企业用电检查问题
用电检查是日常线损问题稽查的主要方式,辅助线损计算和分析系统实现供电企业线损问题成功解决的现实目标。针对实际检查提出两点与数字化时代契合的优化方案。
2.1 引入数据稽查系统
数据稽查系统为电力营销业务的稽查系统之一,其能够在大数据支持下,检查业务相关数据统计结果,分割应急业务处理的数据,分析供电质量、核查电价电费。实际应用中就要针对系统传输的用户用电荷载稽查结果,确定存在异常的用电节点,以此给出针对性的应对意见。
2.2 研制数字化用电检查仪
研发基于AI+AR 技术的组合式检查终端(电流钳)的集成装置,应用于现场用电巡查作业的场景和设备感知识别,实现设备实体和数据信息之间交互融合。分析用电检查知识服务以及记录服务过程,对异常情况信息留存。基于AI 技术用电检查方法,构建用电检查典型知识库,建立用电安全状态模型,引入用电检查智能分析技术,实现异常现象的发现与分析协助。
为此,本文提出基于数据挖掘的配电网线损数据清洗、数据计算和成因识别分析的具体方法,并从用电检查策略方面给出辅助配电网线损问题管控的有效方案,希望能够为其他人员研究此课题给予一定支持。