基于数据挖掘的配电网线路不停电作业能力定级评估
2021-10-13赵江宁徐昭麟王华昕麻宁杰
孙 伟,赵江宁,徐昭麟,王华昕,麻宁杰
(1.国网浙江省电力有限公司绍兴供电公司,浙江 绍兴 312000;2.上海电力大学,上海 200090)
0 引言
随着经济社会的快速发展,社会各界对于供电可靠性提出了越来越高的要求。根据2019 年数据显示,某东部发达地市受停电作业影响40万户数,户均停电3.15 h。国网公司明确提出,要将配电网不停电作业作为城市配电网检修的主要方式,以实现供电可靠性和优质服务水平显著提升的目标[1]。由于缺乏科学、完备的配电网不停电作业条件判定的衡量标准,不能准确评判各种配电网不停电作业条件的优劣,从一定程度上影响了配电网不停电作业开展,国网公司尚未有对配电网不停电作业条件进行数据量化的方法[2-5]。在配电网信息化的推动下,通过数据挖掘、统计分析和机器学习的方法筛选、利用、分析大量数据对线路不停电作业难易程度的评定,构建一套科学、高效的配电网不停电作业全面评价数字模型,提升不停电作业管理水平显得尤为重要[6]。
针对配电网不停电检修可靠性问题,有很多学者提出了不同的评估方法,文献[7]提岀了一种采用主成分分析和单层次分析等数据挖掘手段来实现等级评分的方法。文献[8]提出了结合蒙特卡洛模拟法的评估方法;文献[9]采用故障模式影响分析法对可靠性进行评估;文献[10]采用最小割集法计算可靠性,用割集来体现不停电检修可靠性指标受到影响时发生的变化,由于考虑的因素过多,计算量偏大;文献[11]提出了最小割集-网络等值的改进解析方法,利用网络等值法可以有效简化配电线路。上述评估算法都能够很好地应用于电网评估指导工作当中,为评估指标的选取提供有力的理论依据。此类研究包含对配电网不停电作业进行经济评估,对不停电作业综合性能的评估却很少有研究。评估指标是评估体系的基础,合理的选择不停电作业评估指标,能够准确地反映不停电作业能力等级。本文以不停电作业综合评估指标体系为基础,依托国网供服系统中台提供的海量数据,通过数据挖掘手段实现数据降维,深入挖掘不停电作业评估指标,构建了不停电作业等级评估模型,在综合考虑各类指标影响的同时,减少了计算量。以浙江地区某配电线路实际情况为例,展开现场评估,验证方法有效性。并开发了评估软件模块,对区域电网展开有效评估工作,确定线路作业等级并出具评估意见。
1 不停电作业指标体系
1.1 基础评估指标
配电网不停电作业过程容易受到很多因素干扰,比如资源配置、人员调动和环境变化等。因此,需要选取一个准确合适的评估体系,来对线路不停电等级进行合理的评估。通常用以下两个准则来评估配电网的不停电作业能力:配电网供电安全可靠性和线路开展不停电作业难度。主要是为了满足用户不停电和检修不停电的目标。评估内容主要分为4 大类[12],可以采用集合的形式表现不停电作业指标,不停电作业指标={用户不停电、检修不停电、人力资源、电力装备水平}。
围绕上述4 大类评估指标可以划分出各类二级评估指标,以配电网线路不停电作业等级为总目标,通过数据挖掘筛选二级量化指标,并确定各单项指标权重,结合单项指标状态值,利用Logistic 回归预测模型确定评估线路作业等级。各二级指标如图1 所示。
图1 不停电作业二级指标
1.2 基于序列前向搜索的不停电评估关键指标筛选
依据确立的指标评估体系,从国网浙江供服系统中台拉取各类二级指标信息,建立不停电作业指标数据库。由于数据库中包含着众多的评估指标,因此提取关键指标并且删除无关或冗余指标是不可或缺的。可以通过指标筛选手段来实现降低数据纬度、减少模型计算的复杂程度、规避不必要的拟合、缩短耗费时间。具体流程如图2所示。不停电作业指标采用XGBoost(极端梯度提升算法)来实现关键指标的筛选。XGBoost 的优点是能直观的将模型训练结果转换为预测状态的精度和准确性。
图2 特征筛选优化模型流程
XGBoost 是Chen[13]等人在关于大量梯度提升算法研究成果基础上所提出的基于提升树的一种集成弱学习器得到强学习器的算法[14],其中包括一个迭代残差树的集合,每棵树都在学习前N-1 棵树的残差,然后将每一棵树得到新样本的预测值相加就是样本最终的预测值[15]。相较于传统的GBDT(梯度提升决策树),在损失函数的基础上进行泰勒二阶展开,通过将正则项加在目标函数的手段以寻找全局最优,有效权衡计算模型的复杂程度(指标数量)和目标函数,以达到运行速度快,容错性高的目标。
常见的决策树算法有ID3,C4.5 以及CART等。本研究构建的分类回归树采用基于CART算法:
(1)给定的样本空间有k 类,其中某叶子结点包含的样本数目为m。
(2)统计叶子节点下每个分类的频数mi(i∈k)。
(3)统计每个类别的概率ρi=mi/m。
(4)计算该叶子节点的信息熵H(t)=-ρilog(ρi)。
(5)此叶子节点得到评判loss=∑t∈lealW·tH(t),其中Wt表示叶子节点的权重。
S={f(a)=wq(a)}(q:Ry→T,w∈RT),(1)
式中:q 为树结构叶子节点系数;T 为叶子数目,每一个fk对应一个独立的树结构q 和叶子权重w。
那么就可以通过求解正则化目标函数的最小值来实现XGBoost 算法:
本研究通过采用XGBoost 算法,应用序列前向搜索的策略搜索最优指标组合,过程如下:
(1)指标子集X 为∅。
(2)遍历指标全集Y,每次从中选择一个指标xk加入指标子集X,使得评价函数T(X)取得最大值。本阶段的评价函数为F1.5。
(3)重复(2)直到X=Y。
1.3 关键指标筛选结果
将处理好的不停电作业数据从数据库导入到关键指标筛选模型中,在不断的迭代时,记录不断迭代加入的新指标,并记录下评价指标数据[16]。从图3 中可以看出,当模型迭代输入指标达到为12 个时候,F1.5分数为最大值0.92 超过了全指标时的0.903。由此表明前12 个指标即能够有效完成不停电作业等级的评估,依次为电网结构、N-1 检验、配电自动化、供电可靠率、备用接入、作业地形、导线排列、杆头布置、专业人员技术水平、专业人员素质、专业人员数量满足度、装备数量。以此方法进行数据降维,减少冗余指标,提高评估模型准确率。
图3 XGBoost 预测模型的F1.5 分数变化
并且由XGBoost 的feature_importance 函数可以得出不同关键指标对于全局变量的特征重要性,如表1 所示。
表1 关键指标特征重要性
从计算结果来看,得到的关键指标当中,包含了全部4 大类指标,通过对数据库中的数据进行处理和指标介绍后,将序列前向搜索和XGBoost 算法结合,输出其特征重要性,为后续不停电作业等级定级和线路评分工具研究提供了依据。
2 不停电等级评估数学模型
基于上述筛选和确定的关键指标[17],针对不停电作业等级评估,以多因素Logistic 回归方程[18]搭建了等级评估模型,来实现对不停电作业单个指标的评分,最后将指标评分累计求和得到对应的线路得分,从而达到帮助不停电作业班组更加直观了解线路的情况的目的。
由表1 中可以看出供电可靠率指标重要性系数最低,且因评估目标为浙江某市示范区,其人力资源储备、装备水平两大指标从实效性来看会产生变化且同区域配备近乎相同,因此综合考虑上述指标,将选定电网结构、N-1 校验、配电自动化、备用接入、作业地形、导线排列、杆头布局7 类关键指标作为输入。通过多因素Logistic回归模型搭建不停电作业等级评分模型,从而达到快速完成不停电作业线路评分定级的目的。该模型先对不停电作业指标进行分类,再对每一类关键指标进行量化赋分,将各类指标得分求和来完成对线路作业等级评估,其中具体的步骤和流程如图4 所示。
图4 不停电评分模型构建流程
(1)搭建多因素Logistic 回归模型
将7 类指标作为评估因素加入到多因素Logistic 回归模型中,确定各个作业指标的回归系数β。
(2)将各类指标进行分层,设定每组的参考值wij
按照大类指标将各个关键指标进行分组,并在每个分组中选择合适的数值作为参考值wij;通常选择组内的满足不停电作业级要求的指标作为参考值。
(3)确定各个关键指标的基础评估参考值
进行评估的每个关键指标,都需要选出一个指标来作为基础评估参考值wiREF,在构建的评分模型中,则该组分值将记为0 分,若评估指标条件值高于wiREF时记正分,因此最后得分越高,不停电等级评分越高,相反低于wiREF时记负分。
(4)计算出关键指标的分组与给定的基础评估参考值之间的距离D
综合多因素Logistic 回归模型设定的回归系数β,以及关键指标各组的参考值wij,来计算指标因素的每一分组与基础评估参考值wiREF之间的距离D,其计算公式:
(5)设定评分工具中1 分对应的常数B
确定评估模型每得1 分时,所对应的不同评估因素改变的常数B。
(6)计算得到各个分组评估因素相应的分值Pij。
以步骤5 所确定的常数B 为基础,计算得到不同分类评估因素对应的得分,计算公式为(4),最后计算得分取整即为最后模型评估总分。
(7)模型总分与线路评估得分的对应表
以步骤6 的到的结果,通过各个评估因素得分求和。得到的总分再根据多因素Logistic 回归模型方程,求得每一分值所对应不停电作业线路得分,其计算公式为:
模型评分以电网结构指标得分结果为例如表2 所示。
表2 基于不停电作业数据的作业评分模型
其余关键指标得分范围分别为N-1 校验-2~0 分,配电自动化-2~0 分,备用介入-5~0 分,作业地形-4~0 分,导线排列-4~0 分,杆头布局-2~0 分。
配电网线路不停电作业能力定级评估流程如图5 所示。首先,确立不停电作业指标体系,依据国网供服系统中台提供的配电网线路海量数据建立不停电指标数据库;然后,利用数据挖掘手段深入分析指标数据,剔除冗余指标,筛选出关键指标并得到相应的指标权重;最后综合考虑筛选结果和指标权重,构建线路等级评估模型,完成对线路的评级。
图5 线路定级评估流程
3 算例分析
3.1 示范区配电网线路概况
算例以浙江某市示范区实际10 kV 电压等级的5 条线路为研究对象。地理分布如图6 所示。示范区内5 条线路指标数据情况及指标分组对应模型得分如表3 和表4 所示。其中线路1,2,3主要负责市区等负荷集中地区,线路供电能力强,自动化程度高,自然环境状况良好,线路4,5主要负责郊区等负荷分散地区,线路自动化程度较低,路况一般,道路通畅无阻碍。通过数据挖掘手段定性定量得判断此类配电网线路的实际不停电作业等级,具有一定的实用价值。
表3 线路评估指标分组模型得分
表4 待评估配电网线路情况
图6 线路分布
3.2 综合评价结果的确定
基于数据库检索得到的筛选后的不停电作业关键指标,用于多因素Logistic 回归模型完成对线路的定级评分,线路模型评分结果如表5 所示。评估模型得分范围为-23~0 分,其依次对应的线路预测得分为0~100 分。
表5 基于不停电作业数据的评估总分与线路预测得分对应
对示范区5 条线路不停电作业等级进行综合评估,将5 条线路的指标分组的得分累加,通过评估模型得到线路预测的分,根据预测的分将线路划分为优、良、中、差4 个等级,分别为90~100 分、70~90 分、60~70 分、0~60 分。得到线路不停电作业等级和综合评估结果。该示范区配电网线路综合评估评价结果如表6 和表7 所示。
表6 待评估配电网线路模型评分值
表7 配电网不停电线路评估得分与等级评定
分析评级结果可知评估模型综合考虑各个指标,其中一个指标出现极端情况都会致使最终线路评分受到过大影响,线路3 的配电自动化指标和线路5 备用接入指标过差导致线路得分偏低,最终线路不停电作业等级为中。线路1 的各项指标都比较好,相应的线路得分较高,评级为优。
综上所述,通过数据挖掘手段,结合多因素Logistic 回归模型能够有效的实现线路的不停电作业等级评估和打分,同时基于算法数学模型,开发了一套评估软件模块,并将该模块嵌入到配电网供应服务系统中,实现对地区配电网总体评估的可视化,软件展示效果如图7 所示。图7 只是显示对区域化打分结果一个示例,不同颜色代表不同等级效果。相较于传统最小割集法计算可靠性,本文所提出的算法在综合考虑多个指标因素的同时,减少了计算量,缩短了计算时间。可充分挖掘配电网线路海量监测数据,并完成对线路等级的评估,有助于专业人员明确工作要求以及检修策略,以此提升不停电作业管理水平。
图7 数据可视化效果
4 结语
为合理准确地评估配电网线路不停电作业等级,基于用户不停电和检修不停电两大目标,本文提出了不停电作业综合评估指标体系,依托国网浙江省供服系统中台读取的海量信息建立不停电作业指标数据库,采用了XGBoost 算法进行数据挖掘,深入分析不停电的评估指标,进行关键指标筛选并得到指标权重,实现了数据降维,并为后续评估模型建立中的指标选择提供指导支撑。最后,对筛选后的关键指标进一步分析,选出七类评估指标对其评分标准做出详细阐述,依此构建不停电作业等级评分模型,用于准确评估线路等级。并以浙江某地区配电网实际数据支撑了评估算法的有效性。开发了软件评估模块,数据取自于配电网系统,展开了某区域电网实际效果评估,提升了不停电作业管理水平。本文所提方法具有较好的应用价值和广泛的应用前景。