基于数据挖掘的配电网规划问题关联性知识提取研究
2023-10-12刘宝林莫海峰冯磊谈赢杰徐敏
刘宝林, 莫海峰, 冯磊, 谈赢杰, 徐敏
(1.云南电网有限责任公司电网规划建设研究中心,云南 昆明 650011;2.南方电网科学研究院有限责任公司,广东 广州 510663)
0 引 言
近年来,随着智能表计的广泛安装以及信息技术的发展,配电网在日常运行过程中积累了大量数据,这些数据已被应用于负荷预测、变电站优化选址和运行管理等多个方面,大幅度提高了电网工作效率[1-3]。
目前,在电网规划领域,电网公司更多是通过管理措施实现规划投资的优化决策。这种方式受规划人员的主观经验影响较大,难以实现配电网规划问题的精准定位[4]。因此,应用数据挖掘技术,从配电网数据中提取规划问题的关联性知识,能更好地指导地区配电网的规划问题分析工作。
本文提出改进Apriori算法,对配电网运行数据进行知识提取,建立相关电气特征指标与馈线负载率的关联模型,求取影响因素关联规则的置信度,并实现强关联性规则的验证。所提方法能有效挖掘配电网规划数据的潜在价值,基于关联规则辨识影响馈线负载率的关键指标,可为配网的规划和运维工作提供决策帮助。
1 中压配电网电气特征指标体系的建立
从准确性上考虑,配电网各类数据收集越齐全,构建指标关联模型所获得的关联规则越接近该地区配电网的实际情况,置信度越高。另外,从数据收集工作量考虑,在满足基本准确度和置信度的要求下,数据集中包含的电气特征指标越少,收集数据所需成本越低,越能满足电网运行的经济性要求。因此,构建配电网规划问题的评价指标时,需要权衡准确性和可行性间的关系,选取必要且易获取的指标,建立影响目标问题的电气特征指标体系,进行关联性分析。
1.1 关联问题理论指标
本文围绕馈线重过载和轻载问题展开关联性知识提取,确定后续强关联指标提取的范围。通过研究影响线路负载率的电气指标,筛选获取相关电气特征指标集合,如表1所示[5]。
表1 可能影响线路负载率的电气特征指标集合
1.2 灰色关联分析模型
配电网电气指标之间有时难以建立明确的函数关系,而灰色关联分析不依赖函数公式,可以根据样本数据序列曲线几何形状的相似程度来判断序列之间的联系程度[6],适合用于研究样本量少、不满足典型概率分布的因素对系统的影响程度。基于灰色关联分析,建立中压馈线负载率与电气特征指标的关联度模型,步骤如下。
(1) 数据序列设定。以中压馈线负载率为分析对象,其样本数据记为序列X0,计算如式(1)所示。
X0=[x0(1),x0(2),…,x0(n)]
(1)
式中:x0(n)为第n条馈线的负载率。以电气特征指标为分析对象的影响因素,其样本数据记为序列Xj,计算如式(2)所示。
Xj=[xj(1),xj(2),…,xj(n)]
(2)
式中:Xj为第j个电气指标样本数据序列;xj(n)为第n条馈线的第j个电气指标值。
(2) 数据序列规范化处理。规范化处理的目的是将数据转换成适合于数据挖掘的形式。常用的处理方法有三种:最小-最大规范化、零均值规范化和按小数定标规范[7]。本文采用最小-最大规范化:
(3)
(3) 求取序列X0与Xj的灰色关联度γ(X0,Xj),计算如式(4)所示。
γ(X0,Xj)=
(4)
式中:ξ为分辨系数,取值范围为[0,1]。
(4) 对上述所得到的各电气指标序列的灰色关联度进行排序,灰色关联度越大,表示该电气指标与馈线负载率的关联程度越大。为了剔除关联程度偏小的电气指标,设定阈值并输出灰色关联度大于阈值的电气指标,这些指标将作为基于Apriori算法的配电网问题关联规则挖掘模型的输入参数。
2 基于Apriori算法的配电网问题关联规则挖掘模型
Apriori算法是一种自底向上查找事务数据库中的频繁项集的方法[8]。该算法挖掘所有事务中的频繁项集,进而生成关联规则。基于Apriori算法,将常见的配网数据与目标问题(如重过载)进行关联规则挖掘,可以帮助配网工作人员解决以下内容:①导致当前配电网问题的主要因素是什么;②当前问题可能会导致什么问题出现。
2.1 Apriori算法
关联规则挖掘中,所谓的关联规则是因果关系的具体表现,其规则被定义为X⟹Y的形式,且满足条件:X,Y⊆I,X∩Y=∅。其中,集合I={i1,i2,…,in}称为项集(itemset),in表示集合I的第n个项目。集合X,Y是I的真子集,且X与Y互斥。关联规则X⟹Y反映X出现时,Y也跟着出现的规律。
关联规则挖掘中,一个样本代表一个事务,事务是I的子集。包含X的事务数目与事务总数之比称为X的支持度(support),记作support(X)。同时包含X和Y的事务数目与事务总数之比称为关联规则X⟹Y的支持度,记作support(X⟹Y),即:
(5)
(6)
式中:support_count(X)、support_count(X∪Y)分别为包含X的事务数目、同时包含X和Y的事务数目;total_count为事务总数。
为了判断关联规则X⟹Y是否成立,除了支持度外,还需引入关联规则的置信度(confidence),即同时包含X和Y的事务数目与包含X的事务数目之比,记作confidence(X⟹Y),公式描述如式(7)所示。
(7)
关联规则挖掘中,当support(X⟹Y)≥min_sup且confidence(X⟹Y)≥min_conf时,称关联规则X⟹Y为强关联规则。其中,min_sup称为最小支持度,描述了关联规则的最低出现频次,只有大于最小支持度的关联规则才能被用于后续的关联规则挖掘,对应的项集{X,Y}称为频繁项集,min_conf称为最小置信度,规定了关联规则必须满足的最低可信度。产生频繁项集的过程主要分为连接和剪枝两步。
(1) 连接步。记集合Lk={l1,l2, …,ln}是包含k个项目的频繁项集的集合,ln是第n个包含k个项目的频繁项集。假如l1和l2满足k-1个项目相同、1个项目不相同的条件,那么这两个频繁项集可连接为含有k+1个项目的新项集,类似地搜索满足条件的组合,最后生成包含k+1个项目的项集的集合Tk+1。
(2) 剪枝步。去除Tk+1中不满足最小支持度的项集,从而得到包含k+1个项目的频繁项集的集合Tk+1。
最后,根据最小置信度,由频繁项集产生强关联规则。
2.2 算法改进
配电网历史数据的质量会影响基于Apriori算法生成的关联规则的可靠性,有可能生成一定的无用规则,或存在高置信度但明显与实际情况相矛盾的关联规则。因此,有必要对经典Apriori算法进行改进,从数据独立性检验规则的关联性。
本文引入提升度(Lift)以及统计学中的卡方检验[9-10],对所挖掘的关联规则进行相关性度量和有效性检验。其中,提升度的表达式为:
(8)
如果某一规则有用,则该规则的提升度偏离于1。卡方检验χ2的表达式为:
(9)
式中:Ai为实际频数(即出现的次数);Ei为期望频数。假设相关变量间没有关联,当卡方值大于卡方分布临界表里的临界值时,说明原假设不成立。
3 算例分析
为验证所提出的配电网问题关联规则挖掘模型的有效性,以某地区配电网为例,选取该地区220回10 kV馈线,基于灰色关联算法分析馈线负载率与其他电气指标的关联性,得到灰色关联度超过最低水平的电气特征指标,即所属网络性质、运行年限(年)、供电区分类、无功补偿(Mvar)和主导线半径,并按指标值进行划分和编号。各个项目构成项集I如表2所示。
表2 离散化指标数据编号表
根据表2对每条馈线的指标值进行编号,每条馈线相当于一个事务,把由全部线路组成的事务库作为关联规则挖掘模型的输入数据。由于重过载问题发生频率在所研究的地区电网中较低,因而将Apriori算法的最小支持度设置为0.05,最小置信度设置为0.6,计算得到强关联规则和置信度如表3所示。
表3 强关联规则分析结果
由表3可知:
(1) 规则1、2中的元素相互关联的卡方分布概率分别小于5%和15%;另外,规则1、2的提升度非常接近于1,表明这两个规则包含的元素之间很有可能相互独立,因此剔除这两条无效关联规则。
(2) 由规则3可知,有99.55%的把握认为该地区的中压配电网线路重过载情况与运行年限偏长这一因素具有强关联关系。
(3) 由规则4可知,该地区中压配电网线路重过载问题在农网中发生的可能性较大,有96.65%的概率。因此,配电网工作人员可以结合当地情况,进一步考虑农网区域的经济发展趋势,在农网规划建设中考虑更多的裕度,减少未来重过载情况的发生。
一般认为城网负荷密度更大,更容易出现线路重过载情况,但算例规则4的结果恰好相反,这说明了实际上该地区的城市配电网规划较为完善,发生馈线重过载问题的可能性较低。
(4) 由规则5可知,有96.59%的把握认为,该地区中压配电网线路中,当线路属于农网且供电半径偏大时,容易出现线路重过载问题。
(5) 由规则6可知,该地区的中压配电网线路属于农网且运行年限偏长时,容易出现线路重过载问题,其概率约有99.77%。
通过强关联规则分析,可得到如下结论:该地区重过载线路多发生在农网,且供电半径偏大和运行年限偏长是引起农网重过载线路的主要原因。
4 结束语
为了挖掘配电网运行数据之间的显性和隐性关联规则,本文提出了基于Apriori算法的配电网问题关联知识提取模型,采用灰色关联法初步筛选模型的输入电气特征指标,有效地降低特征向量的维度,缩短算法的运行计算时间。采用提升度和卡方检验对模型生成的强关联规则进行校验,去除无效关联规则。研究结果表明,本文所提算法可实现配电网规划问题关联性知识提取,可获得地区中压配电网问题的主要关联因素,为改善地区配电网日常运维及规划工作提供指导性建议。