基于停电明细数据的配电网可靠性监测与研究
2018-01-24盛银波仲立军张利庭周子誉龚书能
盛银波,仲立军,张利庭,周子誉,龚书能
(1.国网浙江省电力有限公司嘉兴供电公司,浙江 嘉兴 314000;2.国网浙江海盐县供电有限公司,浙江 海盐 314300)
0 引言
随着社会经济快速发展和电力负荷的迅猛增长,用户对供电可靠性的要求越来越高[1-4]。配电网作为连接供电企业和用户的主要环节,其供电可靠性直接反映出供电企业对客户的持续供电能力,不仅影响供电企业的社会效益和经济效益,还综合反映供电企业的优质服务水平[5-6]。
目前,电力企业的数据挖掘工作不断深化,在营销、物资、检修运维等方面都有了比较成熟的应用[7-12]。作为电力企业联系用户的一个重要环节,配电网业务涉及广泛,横跨多个信息系统,数据字段丰富,数据量庞大,为开展数据价值挖掘和应用奠定了良好的基础。但因信息系统之间并未形成有效的关联,且受采集器、专业考核等多方面因素影响,配电网可靠性实际较为复杂。由于配电网停电明细数据存在噪音,如果对数据不加处理就直接使用,会导致结论失真,且严重制约明细数据的深化应用。
目前供电企业供电可靠性管理主要是基于信息系统停电事件数据开展的,以展示指标、风险预警等应用为主,未涉及底层明细数据[13-15]。故此,从数据源头出发,通过对配电网供电可靠性相关停电明细数据进行梳理、验证并深入挖掘,准确定位配电网薄弱环节,辅助企业在可靠性管理提升方面做出更加精准、更加符合精益化运作的决策,为电网规划、主动运维提供有效手段。
1 停电明细数据获取及处理
1.1 数据来源
以公司配电网相关信息系统为基础,选取涉及配电网可靠性相关数据进行分析,包括智能公用配电变压器(以下简称配变)系统、营配贯通系统和生产管理系统等数个信息系统。
停电记录源数据包括:终端停电明细数据、周计划停电明细数据和设备故障主动处理明细数据。其中,终端停电明细为采集器上传的数据,能够最直观地反映用户当前的运行状态;计划停电明细为检修部门提前安排停电线路并在系统中录入的数据;故障停电明细则是系统运算后得到的数据。但因设备或人为等因素,3部分源数据都存在一定的噪音,需处理后才能有效运用。
1.2 数据处理
依据数据质量评估模型,从一致性、完整性、准确性、冗余性等维度对停电事件进行质量评估,通过筛选、组合、排序等方式对明细数据进行有效整理,解决明细数据中存在的问题,消除噪声数据和无关数据,最终形成可供监测、分析的准确数据。数据处理的整个过程如图1所示。
图1 数据处理流转过程
数据质量问题的来源多样,可以归结为信息问题、流程问题、管理问题和技术问题4个方面:
(1)数据重复:系统终端采集装置上传停电数据后,存在复电时间字段数据为空的情况,终端后期对该数据进行补录,并且未删除原数据,导致数据重复。
(2)数据存在“停电恢复时间”为空值:系统终端采集装置判断终端停电,上传停电数据后,终端损坏,无法上传停电恢复时间,导致“停电恢复时间”字段为空,进而导致停电累计时长(min)不准确或为空。
(3)“停电恢复时间”数据出现未来时间:系统终端采集装置判断终端停电,上传停电数据后,终端时钟模块损坏,时钟不准确,导致“停电恢复时间”字段数据远远大于“停电发生时间”字段数据,出现未来时间数据,进而导致停电累计时长数据为超大值。
(4)“停电累计时长”数据为0或负值:系统终端采集装置判断终端停电,上传停电数据后,终端时钟模块损坏,时钟不准确,导致“停电恢复时间”字段数据小于或等于“停电发生时间”字段数据,进而导致停电累计时长数据为0或负值。
(5)时长小于3 min的数据:是正常的数据,但可靠性规程里此类数据不纳入统计,因此也应予以清洗。
(6)时长过大、不合理的数据:公变数据“停电累计时长”数据存在2 880 min(48 h)以上记录。以上记录依据抢修时长判断为不合理数据。
1.3 数据交叉验证
数据交叉验证作为数据处理的一个重要环节,实现多个信息系统的数据关联,通过数据间的相互校验,将停电记录加以区分,明确故障停电和计划停电。
理论上,终端停电明细数量应等于故障停电明细和计划停电明细的数量之和。但实际上,因数据质量问题导致它们之间的数量存在差异。根据这3类停电源数据之间的交叉关系,将其划分为5类数据,详见表1。
表1 5种特征数据类型情况
按数据处理方式,可将上述5类数据分为以下2部分。
第1部分为完全匹配数据。以第1类数据为例,即同时在终端停电明细和故障停电明细出现的数据,以及同时在终端停电明细和计划停电明细出现的数据,这2部分数据可明确定义为故障停电数据和计划停电数据。
第2部分为未完全匹配数据。以第3类数据为例,即终端停电明细、计划停电明细及故障停电明细交叉验证后,得到均未与计划停电明细和故障停电明细匹配的终端停电明细数据,由于无法直观地判断这部分数据的停电性质,需借助相应算法加以区分。
嘉兴供电公司配变停电次数分布见图2,可以看出,该类数据与故障停电明细数据的共变性较大。
图2 各类型停电次数分布
对第3类数据与故障停电明细和计划停电明细在一日内每小时的停电次数进行Pearson相关性分析,相关性矩阵如表2所示。
表2 Pearson相关系数矩阵
从相关性矩阵中可以发现,第3类数据和计划停电的相关系数仅0.277,为弱相关;而与故障停电的相关系数高达0.837,为强相关。所以将这部分纳入故障停电。
利用均值检验分析、Pearson相关性分析等手段,完成所有5类数据的停电性质研判,最终还原得到真实的、可用于分析的计划停电和故障停电数据。
2 基于停电明细的聚类分析
数据处理完毕后,为了更好地反映地区配电网的供电可靠性,将已区分停电性质的停电明细应用于下属供电所、台区,通过聚类分析,直观展示配电网的薄弱环节。
2.1 基于停电类型的供电所、台区分类
以供电所为例,针对故障停电特征和计划停电特征分类,按统计期内的停电类型进行分布统计,得到故障停电次数、故障停电累计时长、故障停电平均时长、计划停电次数、计划停电累计时长和计划停电平均时长6个维度数据,进行K-means聚类分析分类,详见表3。
表3 供电所聚类分析结果
由表3知K-means聚类各类特征如下:
(1)第1类供电所的故障停电指标和计划停电指标总体高于较其他2类,是供电可靠率较低的供电所。
(2)第2类供电所的故障停电指标和计划停电指标总体低于其他2类,为供电可靠率较高的供电所,但该类供电所的停电复电时长相对较高。
(3)第3类供电所的的故障停电指标和计划停电指标总体居中。
对聚类的分类效果进行检验,采用ANOVA单因素方差分析,结果详见表4。可以发现,各分类指标的F检验值的显著性小于0.01,即各类指标在3类别中的均值水平存在显著差异,说明该聚类的分类效果显著。
表4ANOVA单因素方差分析结果
2.2 基于停电时段的供电所、台区分类
以台区为例,按计划停电时段特征分类,将统计期间的计划停电时段分布统计,得到凌晨计划次数(X1)、凌晨计划停电累计时长(X2)等12个维度数据,具体见表5。
由于维度较多,考虑用主成分分析法进行降维。根据提取方差贡献大于1的主成分原则,将12个维度信息提取降为4个主成分,信息提取率为85.04%,如表6所示。
旋转成份矩阵a又称因子载荷矩阵,它反映了各主成分对分类指标信息的提取程度,即各主成分对分类指标的解释程度,如表5所示,根据各主成分解释时段的程度,分别将第一、二、三、四主成分命名为凌晨计划因子(F1)、上午计划因子(F2)、 夜晚计划因子(F3)和下午计划因子(F4)。
以第一主成分为例,它提取了凌晨计划次数、凌晨计划停电累计时长、凌晨计划停电平均时长3个分类指标信息的90%以上,对其他分类指标信息的提取程度很低,即第一主成分对凌晨计划次数、凌晨计划停电累计时长、凌晨计划停电平均时长3个分类指标的解释程度较大,因此使用第一主成分(F1)归纳3个分类指标的信息。
用因子进行K-means聚类,各类别特征如图3所示。
图3 各类型台区计划停电时段特征
从整体上看,各台区上午计划因子的差异不大,第2类台区下午计划因子高于其他台区,第3类台区夜晚计划因子高于其他类别台区。即第2类台区为下午计划停电频繁台区,第3类台区为夜晚计划停电频繁台区。
表5 旋转成份矩阵a
表6 主成份方差贡献率
3 结语
基于配电网相关信息系统,通过对停电明细数据的大数据分析,清楚了解供电公司所属供电所、台区的运行情况,准确定位地区配电网薄弱环节。这有助于专业部门根据故障停电与计划停电的停电次数与分布指导配电网薄弱环节的整改,优化改进检修计划的合理安排。同时,供电所、台区的聚类分析对未来区域配电网的投资改造给予了有效的数据支撑,为进一步提高电网的供电能力、提升用户的供电可靠性指明了方向。