基于数据挖掘技术的低压台区线损检测研究
2021-11-10程慧王镜芳胡程平吴方舟刘爱禹钱启宇
程慧 王镜芳 胡程平 吴方舟 刘爱禹 钱启宇
关键词:线路损耗;数据挖掘;层次分析;加权LOF算法;异常值检测
低压台区作为配电网的末端,通常是指以380V或220V低压变压器供电的区域,其可为广大居民用户和小微企业用户供电。低压台区变压器端采集的电力数据量庞大、用电信息维度高导致分析困难,并且原始数据很难为电力用户用电研究提供数据依据。线路损耗会影响到配电网的输出效果,进而对变压器性能造成直接影响。线路损耗按结构可分为统计线损、技术线损和管理线损。它不仅是指以热能形式存在的能量损耗,而且还是指窃电行为引起的管理线路损耗。
针对低压台区内窃电行为引起的线损研究,文献提出了一种基于局部离群点检测的低压台区用户窃电识别方法。搭建了一套包含低压台区电网异常分析、用户窃电预警以及采集缺陷判断等数据诊断功能的云平台。利用卷积神经网络Le Net5模型对日用电量数据进行建模分析,为精确捕获窃电奠定了基础。电力系统线损计算和系统的精准管理,对降低节能降耗、促进线损管理具有重要的指导意义。
为了降低低压台区内线损问题,结合数据挖掘中的离群点分析方法,对异常用电行为进行了研究。此外,针对传统异常功率检测方法的局限性,提出了一种基于层次分析法(AHP)的加权LOF算法的电力线异常功率检测方法。
1基于数据挖掘的异常电量检测
数据挖掘作为一种新兴的数据处理方法,能够有效地处理海量且复杂情况的数据分析。因此,为了有效地应对低压台区内大规模用户功耗数据中检测异常用户数据的问题,引入了数据挖掘技术,基于数据挖掘的异常用电量检测模型主要分为三个部分:用户用电数据采集与处理、异常用电模型的构建、检测用户结果分析与验证。基于数据挖掘的异常用电量检测模型,如图1所示。
2基于用电特征分析的异常检测原理
2.1电能利用特征提取
窃电线损行为引起的异常用电数据信息提取往往不是孤立的,并且一个窃电场景可能引发多个异常现象。如果测试是基于单个指标,则很可能会出现遗漏或误判。因此,必须从各种异常用电现象中以及在由各种异常用电行为引起的可量化特征量中提取综合特征来进行有效的防窃电工作。
以单相用户为例,整合现有文献对功耗评估指标如下:日平均电压、日平均功率因数、日平均电流不平衡率、前7天平均日冻结功率、功率不平衡率。
2.2基于离群点检测的窃电线损判定原理
离群点检测又称异常检测,其目的是发现样本组中具有不同行为特征的目标。常用的检测方法主要分为五类:基于分布的检测、基于深度的检测、基于距离的检测、基于密度的检测和基于偏移量的检测。
考虑到电力用户环境,基于密度的检测算法能够更好地适应内部结构复杂的电力数据集。因此,选择了密度检测算法中最具代表性的LOF算法,并将其应用到异常功率检测中。为了更好帅理解算法,引入以下概念,
由公式(4)可以看出,数据目标的密度越小,k距离邻域中目标的密度越大,LOF值越大,则异常程度越大。根据离散点检测原理,利用LOF算法得到用户异常度,并且表达用户窃电导致的线损嫌疑程度,进而根据嫌疑程度完成低压台区内异常用户检测。
3加权LOF算法及其在窃电线损检测中的应用
由于低压台区内用户较多,且不同用户的用电特性差异较大,这使得电力数据集内部呈现出复杂的分布特性。LOF算法能有效地避免数据分布不均匀对检测结果的影响,并且对密度不平衡的电力数据集具有良好的检测效果。由于不同的电能指标具有不同的含义,如果用传统的LOF算法直接得到异常值来表示用户窃电线损嫌疑程度,当多个电能指标对可疑的窃电线损具有不同的重要性时,导致判断结果并不合理。如果不同指标数据具有相同程度的异常值,并不意味着两个用户具有相同的窃电线损嫌疑。
考虑到选定的电能指标对涉嫌窃电用户具有不同的重要性,因此,有必要分析可以代表窃电线损可能性的每个电能指标数据异常程度。本文使用层次分析法(AHP)对每个检测指标分配合理权重,并结合加权LOF算法对用户的窃电线损嫌疑进行综合量化,利用得到的综合异常值来表征用户对窃电线损的嫌疑程度,提高了对用户窃电线损的检测效率。最后,通过实验验证了该检测方法的有效性。
3.1指标权重的确定
传统的LOF算法无法区分不同指标数据的含义,且传统的LOF算法得到的异常值只能代表用户用电特性的异常程度,不能解释用户对窃电线损行为的嫌疑程度。因此,有必要对传统LOF算法的不同維度数据分配相应的权重。电能指标异常程度越大代表窃电线损行为的概率越大,在整个涉嫌窃电线损行为分析中应发挥的作用越大,则权重越大,反之亦然。因此,引入AHP作为权重量化的数学工具。
AHP的基本思想是根据优势关系分解复杂问题,并形成层次结构。同时,根据一定的比例尺度,通过两两比较对判断过程进行量化,计算相对判断矩阵,进而确定层次结构要素的相对重要性。具体步骤如下:
(1)构建窃电线损行为评价指标体系:以用户窃电线损嫌疑程度为评价目标,并使用由窃电线损现象引起的各种可量化的电能特性参数作为评估指标集,从而构建了窃电线损嫌疑评价体系,如图2所示。
(2)电能参数:根据与涉嫌窃电线损相关的重要程度,形成判断矩阵P。指标的相对权重使用9/9到9/1的比例进行比较。具体比例尺度,如表1所示。
参照专家经验,根据电能指标数据异常能够代表窃电线损的概率所建立指标判断矩阵P:
综合分析了用户异常用电量中各电能参数的特点,得出当前涉嫌窃电线损的重要性高于其他指标的结论。测量电压、功率因数和功率不平衡率对试验结果影响很大。然而,由于功率因数不仅取决于电网,还取决于用户的负载性质,因此,低压台区变压器存在一些正常的波动。功率不平衡率受通信系统中的通信容量和电流采集频率的限制,所得到的数据不可避免地会随着实际功耗而呈现较小的波动。因此,功率因数和功率不平衡率对试验结果影响略低于测量电压对试验结果影响。
(3)判断矩阵P
得到了对应于矩阵最大特征值的特征向量,归一化特征向量。为异常功耗指标的权重。同时,对判断矩阵进行一致性检验。根据以上步骤,涉嫌窃电线损的评价指标权重如表2所示。
3.2基于加权LOF算法的低压台区窃电线损分析
简要讨论距离度量对结果的影响。目前,使用较多的距离度量是欧氏距离,因此是用n个数值属性描述的两个目标。目标i和目标J之间的欧氏距离定义为:
在对涉嫌窃电线损的分析中,由于电能指标的含义不同,并且不同指标对涉嫌窃电线损的影响有所不同。因此,在异常检测中,针对不同的电能指标设置相应的权重。改进的欧氏距离表达式为:
在计算综合异常值时,利用加权欧氏距离对任意用户之间的综合距离进行加权,从而得到能够表示每个用户对窃电线损行为涉嫌程度的综合异常值。异常值越大,窃电线损的可能性越大。基于加权LOF算法的低压台区窃电线损检测系统的总体结构,如图3所示。
4实验结果与分析
比较分析了传统LOF算法和所提的基于AHP的加权LOF算法对低压台区窃电线损检测的效果,所使用的数据集来自浙江省海宁市某低压台区的反窃电检查装置,该低压台区变压器端采集的数据集覆盖1143户家庭。
4.1结果评价标准
采用多种分类器评价工具对算法的检测效果进行度量,根据真实类别和分类模型两个准则,将数据集中的记录以混淆矩阵的形式进行汇总。如下表3所示,表中的每一列表示一个预测类别,每一行表示数据的真实属性类别。基于混淆矩阵可以得到多个评价标准:
在实际应用中,低压台区内的正常用户和异常用户在类别分布上存在不平衡。为了更直观地表达最终的检测结果,引入了受试者工作特征(R()C)曲线和ROC曲线下与坐标轴围成的面积(AUC)的概念。其中,ROC曲线描述了混淆矩阵中FPR和TPR增长率之间的相对关系;ROC曲线下的面积AUC表示分类器的性能,AUC越大,性能越好。
4.2算法检测结果
两种检测算法的召回率随检测率的变化,如图4所示。从图4可以看出,整个低压台区窃电线损检测大致可以分为两部分:当检测率较低时,曲线增长较快。当检测率超过20%时,上升趋势减慢并最终趋于稳定,即通过20%的检测率就可以发现约80%的潜在窃电用户。为了节省成本,异常功耗检测可以将重点放在用户具有较大怀疑系数的检测算法输出上,从而提高了异常功耗检测的效率。
两种检测算法的ROC曲线,如图5所示。根据电能参数的含义,综合量化了不同电能指标对配电网电能分析的重要性。改进的加权LOF算法的检测结果更合理地解释了用户对窃电线损的怀疑,因此改进的加权LOF算法的ROC曲线下的面积AUC明显高于传统LOF算法,这说明了窃电用户的整体检测效果优于传统LOF算法。
5结论
通过对低压台区电压器端用电信息采集系统获取的用户用电量数据进行深入分析,可以有效揭示数据背后隐藏的用电行为信息,完成对各种异常用电行为的有效检测。基于数据离群点分析理论,提出了一种基于AHP的加权LOF算法異常值分析方法,该方法综合了多个电能指标来评价用户的全面性能。该方法通过监测电压台区内用户窃电线损行为引起的多个可量化电能参数,完成对多种线损检测。同时,只需要对输出可疑系数高的用户进行异常值分析,即可完成对台区内大部分窃电用户所导致的线损检测。